WO2019218749A1 - 基于语音的交互方法及系统 - Google Patents

基于语音的交互方法及系统 Download PDF

Info

Publication number
WO2019218749A1
WO2019218749A1 PCT/CN2019/076066 CN2019076066W WO2019218749A1 WO 2019218749 A1 WO2019218749 A1 WO 2019218749A1 CN 2019076066 W CN2019076066 W CN 2019076066W WO 2019218749 A1 WO2019218749 A1 WO 2019218749A1
Authority
WO
WIPO (PCT)
Prior art keywords
sampling time
voice
volume value
volume
volume level
Prior art date
Application number
PCT/CN2019/076066
Other languages
English (en)
French (fr)
Inventor
陈志鹏
Original Assignee
浙江口碑网络技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 浙江口碑网络技术有限公司 filed Critical 浙江口碑网络技术有限公司
Publication of WO2019218749A1 publication Critical patent/WO2019218749A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination

Definitions

  • the present disclosure relates to the field of electronic information, and in particular, to a voice-based interaction method and system.
  • the present disclosure has been made in order to provide a voice-based interaction method and system that overcomes the above problems or at least partially solves the above problems.
  • a voice-based interaction method including: determining a voice volume value in a current sampling time, and determining whether a current sampling time is a first sampling time;
  • the current sampling time is determined.
  • the volume level corresponding to the voice volume value is an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • a voice-based interaction method including:
  • the current sampling time is determined.
  • the volume level corresponding to the voice volume value performs an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time, and displays an interaction interface corresponding to the interaction operation corresponding to the volume level.
  • a voice-based interaction system including:
  • a determining module configured to determine a voice volume value in a current sampling time, and determine whether the current sampling time is the first sampling time
  • a first execution module configured to: if yes, determine a volume level corresponding to a voice volume value within a current sampling time as an initial level, and perform an interaction operation corresponding to the initial level;
  • a second execution module if not, according to a volume level corresponding to a voice volume value in a previous sampling time, and a change in a voice volume value in a current sampling time relative to a voice volume value in a previous sampling time And determining a volume level corresponding to the voice volume value in the current sampling time, and performing an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • a voice-based interaction system including: a receiving module, a determining module, a first executing module, a second executing module, and a presentation module, where
  • a receiving module configured to receive voice input content for implementing an interaction operation
  • a determining module configured to determine a voice volume value of the voice input content in a current sampling time, and determine whether the current sampling time is the first sampling time
  • a first execution module configured to determine, if the volume level corresponding to the voice volume value in the current sampling time is an initial level, and perform an interaction operation corresponding to the initial level, the presentation module is adapted to display the initial level corresponding to the The interaction interface corresponding to the interaction operation;
  • a second execution module if not, according to a volume level corresponding to a voice volume value in a previous sampling time, and a change in a voice volume value in a current sampling time relative to a voice volume value in a previous sampling time Determining a volume level corresponding to a voice volume value within a current sampling time, performing an interaction operation corresponding to a volume level corresponding to a voice volume value within a current sampling time, and the presentation module is adapted to exhibit an interaction corresponding to the volume level The interactive interface corresponding to the operation.
  • an electronic device includes: a processor, a memory, a communication interface, and a communication bus through which a processor, a memory, and a communication interface complete communication with each other;
  • the memory is for storing at least one executable instruction that causes the processor to perform operations corresponding to the voice-based interaction method as described above.
  • another electronic device comprising: a processor, a memory, a communication interface, and a communication bus, wherein the processor, the memory, and the communication interface complete communication with each other through a communication bus;
  • the memory is for storing at least one executable instruction that causes the processor to perform operations corresponding to the voice-based interaction method as described above.
  • a non-transitory computer readable storage medium having stored therein at least one executable instruction that causes a processor to execute as described above The corresponding operation of the voice-based interaction method.
  • a computer program product comprising a computing program stored on the non-transitory computer readable storage medium.
  • non-transitory computer readable storage medium having stored therein at least one executable instruction that causes a processor to execute The operation corresponding to the above voice-based interaction method.
  • a computer program product comprising a computing program stored on the non-transitory computer readable storage medium described above.
  • the current sampling time is the first sampling time by determining the voice volume value in the current sampling time, and if so, the volume corresponding to the voice volume value in the current sampling time.
  • the level is determined as the initial level, and the interaction operation corresponding to the initial level is performed, if otherwise, according to the volume level corresponding to the voice volume value in the previous sampling time, and the voice volume value in the current sampling time relative to the previous sampling time.
  • the amount of change in the voice volume value within determines the volume level corresponding to the voice volume value in the current sampling time, and performs an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • the volume level corresponding to the voice volume value in the current sampling time of the client can be compared only with the volume level corresponding to the voice volume value of the user in the previous sampling time, thereby obtaining the current sampling time.
  • the volume level corresponding to the voice volume value, and performing its corresponding interaction according to the volume level thus avoiding the volume level of the voice collected by the client due to the difference in sensitivity of the user's device and the distance between the source and the device.
  • the impact which in turn improves the user experience in a variety of dynamic interactions.
  • FIG. 1 is a flowchart of a voice-based interaction method according to Embodiment 1 of the present disclosure
  • FIG. 2 is a flowchart of a voice-based interaction method provided by Embodiment 2 of the present disclosure
  • FIG. 3 is a diagram showing an exemplary relationship between a custom volume level and a sound wave animation corresponding time and a bonus corresponding range;
  • FIG. 4a is a flowchart of a method for a voice-based interaction method according to another embodiment of the present disclosure.
  • FIG. 4b shows a schematic flowchart corresponding to the voice-based interaction method provided by the present disclosure
  • FIG. 5 is a structural diagram of a voice-based interaction system according to Embodiment 3 of the present disclosure.
  • FIG. 6 is a schematic structural diagram of an electronic device according to Embodiment 5 of the present disclosure.
  • FIG. 1 is a flowchart of a voice-based interaction method provided by Embodiment 1 of the present disclosure. As shown in Figure 1, the method includes:
  • Step S110 Determine a voice volume value in the current sampling time, and determine whether the current sampling time is the first sampling time.
  • the voice volume value may be the original value obtained by the system interface, or may be a processed decibel value, or may be other types of values that may indicate the volume level.
  • the disclosure does not limit the specific expression of the voice volume value. Any value that can indicate the magnitude of the voice volume value is within the protection scope of the present disclosure.
  • the current sampling time may be each sampling time period or sampling interval in a continuous time period. Specifically, the duration of each sampling interval may be divided in advance. For example, each second may be determined as one sampling interval or may be determined as a sampling interval every 0.5 seconds, and the duration of the sampling interval may be other time values.
  • the magnitude of this time value can be determined by the person skilled in the art based on the accuracy and sensitivity of the volume value desired to be acquired.
  • Step S120 If yes, the volume level corresponding to the voice volume value in the current sampling time is determined as the initial level, and the interaction operation corresponding to the initial level is performed.
  • a plurality of volume levels arranged in order from highest to lowest may be set in advance before step S110 is performed, and operation types and/or operation contents of the interaction operations corresponding to each volume level are respectively set.
  • One or more of the above respective volume levels can then be set to the initial level.
  • the above operation type may be an interactive animation type, and/or a resource configuration type.
  • the content of the operation may be the type of animation of the interactive animation, the speed of the animation change, and/or the duration of the animation.
  • the operation content corresponding to the resource configuration type described above includes: the configured resource type, and/or the resource amount. If it is determined that the current sampling time is the first sampling time, the volume level corresponding to the voice volume value in the current sampling time may be determined as an initial level, and an interaction operation corresponding to the initial level is performed.
  • Step S130 If not, according to the volume level corresponding to the voice volume value in the previous sampling time, and the amount of change of the voice volume value in the current sampling time relative to the voice volume value in the previous sampling time, determining and current The volume level corresponding to the voice volume value during the sampling time, and the interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time is performed.
  • the volume level corresponding to the voice volume value in the previous sampling time may be determined as the reference volume level, and the voice volume value in the current sampling time is compared with the voice volume value in the previous sampling time, if currently If the voice volume value in the sampling time is greater than the voice volume value in the previous sampling time, at least one volume level may be added on the basis of the reference volume level to obtain a volume level corresponding to the voice volume value in the current sampling time. If the voice volume value in the current sampling time is less than the voice volume value in the previous sampling time, at least one volume level may be reduced based on the reference volume level to obtain a volume level corresponding to the voice volume value in the current sampling time. . After determining the volume level corresponding to the voice volume value within the current sampling time, an interaction operation corresponding to the volume level corresponding to the voice volume value within the current sampling time is performed.
  • the client By performing the content in the step S130, when the client changes the interaction according to the collected voice change, the client is prevented from being affected by the quality of the device used by the user and the distance between the user and the device, so that only the The voice volume value comparison in the previous sampling time is used to determine the volume level corresponding to the voice volume value in the current sampling time, thereby performing an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • the current sampling time is the first sampling time by determining the voice volume value in the current sampling time, and if so, the voice volume value in the current sampling time.
  • the corresponding volume level is determined as an initial level, and an interaction operation corresponding to the initial level is performed, if otherwise, according to the volume level corresponding to the voice volume value in the previous sampling time, and the voice volume value in the current sampling time is relative to
  • the amount of change in the voice volume value in the previous sampling time determines the volume level corresponding to the voice volume value in the current sampling time, and performs an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • the volume level corresponding to the voice volume value in the current sampling time of the client can be compared only with the volume level corresponding to the voice volume value of the user in the previous sampling time, thereby obtaining the current sampling time.
  • the volume level corresponding to the voice volume value, and performing its corresponding interaction according to the volume level thus avoiding the volume level of the voice collected by the client due to the difference in sensitivity of the user's device and the distance between the source and the device.
  • the impact which in turn improves the user experience in a variety of dynamic interactions.
  • FIG. 2 is a flow chart of a voice-based interaction method provided by Embodiment 2 of the present disclosure. As shown in Figure 2, the method includes:
  • Step S210 setting a plurality of volume levels arranged in order from high to low, and setting operation types and/or operation contents of the interaction operations corresponding to each volume level, respectively.
  • the operation types of the foregoing interaction operations include: an interaction animation type, and/or a resource configuration type.
  • the interactive animation type can refer to the interactive animation according to the real-time recording, for example, the prompting of the audio level according to the voice presentation on the singing software interface, in the resource configuration activity, the client interface changes according to the voice size.
  • Animated interface The resource configuration type may refer to an interaction operation of a resource configuration type according to a voice grab red envelope, a jog dial to allocate a prize, and the like.
  • the operation content corresponding to the interactive animation type described above includes: an animation type of the interactive animation, an animation change speed, and/or an animation duration.
  • the operation content corresponding to the resource configuration type described above includes: the configured resource type, and/or the resource amount.
  • the resources configured by the resource allocation activity may be various resources such as coupons, cash, electronic coupons, and commodity redemption codes.
  • the volume level may be set according to the volume value, for example, may be set to be positively correlated with the volume value, and the volume level increases as the volume value increases.
  • the volume level may also be set according to the time corresponding to the sound wave animation, for example, may be set to be inversely proportional to the time corresponding to the sound wave animation, so that the volume level corresponds to the sound wave animation.
  • the sound wave animation is an increase in the time, and the sound wave animation described above is a sound wave animation that is displayed on the client interface and changes according to the collected sound.
  • FIG. 3 shows an exemplary schematic diagram of a comparison relationship between a custom volume level and a sound wave animation corresponding time and a bonus corresponding range.
  • the corresponding time of the sound wave animation corresponding to the custom volume level 5 is 400ms, the bonus corresponding range is 10 ⁇ 14.99; the corresponding corresponding time of the sound wave animation corresponding to the custom volume level 4 is 600ms, and the bonus corresponding range is 8 ⁇ 9.99; the corresponding sound wave animation corresponding to the volume level 3 corresponds to 800ms, and the bonus corresponding range is 6 to 7.99.
  • the comparison relationship between the other custom volume levels and the corresponding sound wave animation corresponding time and the bonus corresponding range can be referred to FIG. I will not repeat them here. It should be noted that FIG. 3 is only an exemplary schematic diagram.
  • the comparison relationship between the custom volume level and the corresponding sound wave animation corresponding time and the bonus corresponding range may be configured by a person skilled in the art according to the required resource, in addition to the above-mentioned comparison relationship.
  • the fun of the activity is achieved, and the above comparison relationship is set to other comparison relationships.
  • the above-mentioned volume level, and the operation type and/or operation content of the interaction operation corresponding to each volume level may be built in the client application or dynamically sent through the server.
  • the operation type and/or operation content of the interactive operation corresponding to each volume level are respectively set.
  • the interaction operation corresponding to each volume level can be performed according to the comparison relationship.
  • Step S220 setting at least one of the plurality of volume levels to an initial level.
  • the client volume recognition is not limited by the user equipment itself and is not affected by the distance between the sound source and the device
  • at least one of the plurality of volume levels may be set to the initial volume level in this step.
  • the initial volume level may be any one or more of the above volume levels, for example, the custom sound level 0 may be set to the initial level, or the custom sound level 1 may be set to the initial level, and other custom volume levels may be set. It is the initial grade.
  • Step S230 Determine the voice volume value in the current sampling time, and determine whether the current sampling time is the first sampling time.
  • the sampling time may be a sampling time period or a sampling interval in a continuous time period. Specifically, the duration of each sampling interval may be divided in advance. For example, each second may be determined as one sampling interval or may be determined as a sampling interval every 0.5 seconds, and the duration of the sampling interval may be other time values. There are no restrictions here.
  • the sampling time can be set in the application of the client, and can also be dynamically sent through the server. After the client collects the voice input by the user within the sampling time, the voice volume value in the current sampling time is determined, and it is determined whether the current sampling time is the first sampling time.
  • the voice volume value in the sampling time is determined according to an average volume value, a maximum volume value, and/or a minimum volume value of the voice input content received during the sampling time.
  • the volume value of the voice input content may be the original value obtained from the system interface, or may be a processed decibel value, or may be other types of values that can represent the volume level.
  • the disclosure does not limit the specific value of the voice volume value.
  • the above volume is also called loudness and sound intensity, and refers to the subjective feeling of the human ear on the strength of the sound heard, and the objective evaluation scale is the amplitude of the sound. This feeling is derived from the pressure generated when the object vibrates, that is, the sound pressure. The object vibrates through different media and conducts its vibrational energy.
  • decibel is a unit of measure for measuring the proportion of two identical units, mainly used to measure the sound intensity, usually expressed in dB.
  • the original sound pressure value amplitude can be obtained using the system interface "MediaRecorder.getMaxAmplitude()", and then substituted into the formula to obtain the corresponding decibel value.
  • the pitch/audio refers to the frequency of the sound generated by the object vibration, in Hertz (Hz); the audible vibration frequency of the human ear ranges from about 20 to 20,000 Hz.
  • Step S240 If yes, the volume level corresponding to the voice volume value in the current sampling time is determined as the initial level, and the interaction operation corresponding to the initial level is performed.
  • the volume level corresponding to the voice volume value in the current sampling time is determined as the initial level, and according to the interaction operation corresponding to each volume level set in step S210 The type of operation and/or the content of the operation is performed to perform an interaction corresponding to the initial level.
  • Step S250 If no, the volume level corresponding to the voice volume value in the previous sampling time is determined as the reference volume level.
  • the volume level corresponding to the voice volume value in the previous sampling period may be determined as the reference volume level, and the voice volume value in the current sampling time is compared with the previous sampling time. The internal voice volume values are compared, and then the volume level corresponding to the voice volume value within the current sampling time is determined based on the comparison result and the reference volume level.
  • Step S251 If the amount of change of the voice volume value in the current sampling time is positive with respect to the voice volume value in the previous sampling time, add at least one volume level based on the reference volume level to obtain the current sampling time.
  • the voice volume value corresponds to the volume level, and performs an interaction operation corresponding to the volume level corresponding to the voice volume value within the current sampling time.
  • At least one volume level may be added on the basis of the reference volume level, thereby obtaining a voice volume value with the current sampling time.
  • the threshold value of the change may be preset, and if the voice volume value in the current sampling time is determined relative to the previous one, If the amount of change of the voice volume value in the sampling time is greater than the preset change amount threshold, at least one volume level may be added on the basis of the reference volume level, thereby obtaining a volume level corresponding to the voice volume value in the current sampling time.
  • the change threshold may be determined according to the frequency at which the user desires to change the interaction according to the change of the voice. Specifically, the frequency of changing the interaction may be increased by reducing the threshold of the change, and the change interaction may be reduced by increasing the threshold.
  • the frequency of the operation, the specific value can be determined by a person skilled in the art according to the actual situation, and is not limited herein.
  • the volume step value may be set in advance, and the number of the increased volume levels is determined based on the comparison result of the above-described change amount of the voice volume value and the volume step value.
  • Step S252 If the amount of change of the voice volume value in the current sampling time is negative relative to the voice volume value in the previous sampling time, reduce at least one volume level based on the reference volume level to obtain a voice with the current sampling time.
  • the volume level corresponds to the volume level, and performs an interaction operation corresponding to the volume level corresponding to the voice volume value within the current sampling time.
  • At least one volume level may be reduced on the basis of the reference volume level, thereby obtaining a voice volume value with the current sampling time.
  • the threshold value of the change may be preset, and if the voice volume value in the current sampling time is relative to If the amount of change of the voice volume value in the last sampling time is greater than the preset change amount threshold, the at least one volume level may be reduced on the basis of the reference volume level, thereby obtaining a voice volume value corresponding to the current sampling time.
  • the change threshold may be determined according to the frequency at which the user desires to change the interaction according to the change of the voice. Specifically, the frequency of changing the interaction may be increased by reducing the threshold of the change, and the change interaction may be reduced by increasing the threshold of the change.
  • the frequency of the operation, the specific value can be determined by a person skilled in the art according to the actual situation, and is not limited herein.
  • the volume step value may be set in advance, and the number of the reduced volume levels is determined based on the above-described change in the volume volume value and the volume step value comparison result.
  • the voice-based interaction method by first setting a plurality of volume levels arranged in order from highest to lowest, and separately setting the operation type and/or operation of the interaction operation corresponding to each volume level. Content, and setting at least one of the plurality of volume levels to the initial level, and then determining the voice volume value in the current sampling time, determining whether the current sampling time is the first sampling time, and if so, the speech with the current sampling time.
  • the volume level corresponding to the volume value is determined as an initial level, and an interaction operation corresponding to the initial level is performed, if otherwise, the volume level corresponding to the voice volume value in the previous sampling time is determined as the reference volume level, and if the current sampling is performed
  • the amount of change of the voice volume value in the time relative to the voice volume value in the previous sampling time is a positive number, and at least one volume level is added on the basis of the reference volume level to obtain a voice volume value corresponding to the current sampling time.
  • volume level and perform voice volume values with the current sampling time Corresponding operation corresponding to the volume level, if the amount of change of the voice volume value in the current sampling time is negative relative to the voice volume value in the previous sampling time, lowering at least one volume level based on the reference volume level, A volume level corresponding to the voice volume value within the current sampling time, and an interaction operation corresponding to the volume level corresponding to the voice volume value within the current sampling time is performed.
  • the volume level corresponding to the volume value of the sound input by the user determined by the client can be prevented from being interfered by the objective factors such as the sensitivity of the device and the distance between the sound source and the device, but only based on the user himself.
  • the volume value of the input sound is used to determine the volume level, and the user actually compares with himself to determine the volume level corresponding to the voice volume value in the current sampling time, thereby performing an interaction operation corresponding to the above volume leveling, This gives each user the opportunity to achieve the fastest animation or the highest bonus in the resource configuration activity.
  • FIG. 4a is a flowchart of a method for a voice-based interaction method according to another embodiment of the present disclosure. As shown in FIG. 4a, the method includes:
  • Step S410 Receive voice input content for implementing an interaction operation.
  • the voice input content for implementing the interaction operation may be received through a preset interaction portal; wherein the interaction entry includes: an entry for implementing a resource configuration activity (eg, a red envelope entry), an entry for displaying an interaction animation, and the like. .
  • a resource configuration activity eg, a red envelope entry
  • Step S420 Determine a voice volume value of the voice input content in the current sampling time, and determine whether the current sampling time is the first sampling time.
  • step S420 and its subsequent steps may be performed every preset time interval.
  • the smaller the preset time interval the more realistic the effect can be achieved.
  • the preset time interval may also be equivalent to the sampling period.
  • step S420 the current The voice volume value in the sampling time
  • step S430 the voice volume value in the nth second (ie, the current sampling time, where n is greater than 1) is acquired through step S420, and accordingly, the current sampling time is determined not to be the first sampling time, and step S440 is performed.
  • Step S430 If yes, determine the volume level corresponding to the voice volume value in the current sampling time as the initial level, perform an interaction operation corresponding to the initial level, and display an interaction interface corresponding to the interaction operation corresponding to the initial level.
  • Step S440 If not, according to the volume level corresponding to the voice volume value in the previous sampling time, and the amount of change of the voice volume value in the current sampling time relative to the voice volume value in the previous sampling time, determining and current The volume level corresponding to the voice volume value in the sampling time, the interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time is performed, and the interaction interface corresponding to the interaction operation corresponding to the volume level is displayed.
  • the volume level corresponding to the voice volume value in the previous sampling time is determined as the reference volume level; if the voice volume value in the current sampling time is positive relative to the voice volume value in the previous sampling time The number is increased by at least one volume level based on the reference volume level to obtain a volume level corresponding to the voice volume value in the current sampling time; if the voice volume value in the current sampling time is relative to the voice volume in the previous sampling time The amount of change in the value is a negative number, and at least one volume level is lowered based on the reference volume level to obtain a volume level corresponding to the voice volume value in the current sampling time.
  • the step of adding at least one volume level based on the reference volume level includes: determining the current Whether the amount of change of the voice volume value in the sampling time relative to the voice volume value in the previous sampling time is greater than a preset variation threshold; if yes, adding at least one volume level based on the reference volume level; if the current sampling time
  • the step of changing the voice volume value relative to the voice volume value in the previous sampling time is a negative number
  • the step of lowering the at least one volume level based on the reference volume level comprises: determining that the voice volume value in the current sampling time is relative to Whether the amount of change in the voice volume value in the last sampling time is greater than a preset amount of change threshold; if so, at least one volume level is lowered based on the reference volume level.
  • the voice volume value during the sampling time is determined according to an average volume value, a maximum volume value, and/or a minimum volume
  • step S440 For details of the step S440, reference may be made to the description of the corresponding steps in the second embodiment, and details are not described herein again.
  • the interaction interface corresponding to the interaction interface corresponding to the interaction interface corresponding to the initial level and/or the volume level includes: a resource configuration interface and an interaction animation interface.
  • a resource configuration activity if the volume level is larger, the number of resources included in the corresponding resource configuration interface is larger, and the type is more precious; otherwise, the smaller the volume level, the number of resources included in the corresponding resource configuration interface. The less, the cheaper the type.
  • the interactive animation activity if the volume level is larger, the interactive animation in the corresponding interactive animation interface changes faster and the duration is shorter; conversely, the smaller the volume level, the interaction in the corresponding interactive animation interface. The slower the animation changes, the longer it lasts.
  • a plurality of volume levels arranged in order from highest to lowest are further set, and operation types and/or operation contents of the interaction operations corresponding to each volume level are respectively set.
  • the operation type of the interaction operation includes: an interaction animation type, and/or a resource configuration type; and the operation content corresponding to the interaction animation type includes: an animation type of the interaction animation, an animation change speed, and/or an animation duration; and a resource
  • the operation content corresponding to the configuration type includes: the configured resource type, and/or the resource amount.
  • FIG. 4b shows a schematic flow chart corresponding to the voice-based interaction method provided by the present disclosure.
  • FIG. 4b shows a schematic flow chart corresponding to the voice-based interaction method provided by the present disclosure.
  • Step S401 Recording starts, the client starts to collect the user's recording;
  • Step S402 Then assume that the user's initial sound level is the initial level L0;
  • Step S403 Then obtain the maximum decibel of the sound in the sampling time;
  • Step S404 Compare the current decibel Whether the value is greater than the previous decibel value;
  • step S405 if the decibel value is larger than the previous time, the sound level is increased by one or more levels, and the maximum level is not increased;
  • step S406 if the decibel value is smaller than the previous one, then The sound level is lowered by one or more levels, and is not reduced to the minimum level;
  • step S407 performing an interaction operation corresponding to the current sound level, in this process, the individual animation completion time can be updated to the corresponding time;
  • step S408 it is determined whether the recording is finished, thereby determining whether to end the current operation flow, and if so, ending the current operation flow, if otherwise, repeating the above steps S403 to S40
  • FIG. 5 is a schematic structural diagram of a voice-based interaction system according to Embodiment 3 of the present disclosure, where the system includes:
  • the determining module 53 is adapted to determine a voice volume value in a current sampling time, and determine whether the current sampling time is the first sampling time;
  • the first execution module 54 is adapted to, if yes, determine a volume level corresponding to the voice volume value in the current sampling time as an initial level, and perform an interaction operation corresponding to the initial level;
  • the second execution module 55 is adapted to: if not, according to the volume level corresponding to the voice volume value in the previous sampling time, and the change of the voice volume value in the current sampling time relative to the voice volume value in the previous sampling time
  • the volume level is determined corresponding to the voice volume value in the current sampling time, and the interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time is performed.
  • the second execution module 55 is specifically adapted to:
  • the second execution module is specifically configured to: determine whether the amount of change of the voice volume value in the current sampling time relative to the voice volume value in the previous sampling time is greater than a preset variation threshold; if yes, Adding at least one volume level based on the reference volume level;
  • the second execution module 55 is specifically configured to: determine whether the amount of change of the voice volume value in the current sampling time relative to the voice volume value in the previous sampling time is greater than a preset change amount threshold; if yes, the basis of the reference volume level Lower at least one volume level.
  • the voice volume value during the sampling time is determined according to an average volume value, a maximum volume value, and/or a minimum volume value of the voice input content received during the sampling time.
  • the system further includes: a first setting module 51, configured to set a plurality of volume levels arranged in order from highest to lowest, and respectively set an operation type of the interaction operation corresponding to each volume level And / or operation content.
  • a first setting module 51 configured to set a plurality of volume levels arranged in order from highest to lowest, and respectively set an operation type of the interaction operation corresponding to each volume level And / or operation content.
  • the operation type of the interaction operation includes: an interaction animation type, and/or a resource configuration type;
  • the operation content corresponding to the interactive animation type includes: the animation type of the interactive animation, the animation change speed, and/or the animation duration;
  • the operation content corresponding to the resource configuration type includes: the configured resource type, and/or the resource amount.
  • system further includes a second setting module 52, configured to:
  • At least one of the plurality of volume levels is set to an initial level.
  • the present disclosure also provides yet another voice-based interactive system, which differs from the system shown in FIG. 5 in that the system further includes a receiving module and a presentation module based on the system of FIG. 5.
  • the system includes: a receiving module, a determining module, a first executing module, a second executing module, and a presentation module, wherein
  • a receiving module connected to the determining module, adapted to receive voice input content for implementing an interactive operation
  • a determining module configured to determine a voice volume value of the voice input content in a current sampling time, and determine whether the current sampling time is the first sampling time
  • a first execution module configured to determine, if the volume level corresponding to the voice volume value in the current sampling time is an initial level, and perform an interaction operation corresponding to the initial level, the presentation module is adapted to display the initial level corresponding to the The interaction interface corresponding to the interaction operation;
  • a second execution module if not, according to a volume level corresponding to a voice volume value in a previous sampling time, and a change in a voice volume value in a current sampling time relative to a voice volume value in a previous sampling time Determining a volume level corresponding to a voice volume value within a current sampling time, performing an interaction operation corresponding to a volume level corresponding to a voice volume value within a current sampling time, and the presentation module is adapted to exhibit an interaction corresponding to the volume level The interactive interface corresponding to the operation.
  • the presentation module is respectively connected to the first execution module and the second execution module.
  • the receiving module is specifically configured to: receive, by using a preset interaction portal, voice input content for implementing an interaction operation; where the interaction entry includes: an entry for implementing a resource configuration activity, and an entry for displaying the interaction animation;
  • the interaction interface corresponding to the interaction interface corresponding to the interaction interface corresponding to the initial level and/or the volume level includes: a resource configuration interface and an interaction animation interface.
  • the second execution module is specifically adapted to:
  • the second execution module is specifically adapted to:
  • the voice volume value during the sampling time is determined according to an average volume value, a maximum volume value, and/or a minimum volume value of the voice input content received during the sampling time.
  • the system further includes a first setting module, adapted to:
  • At least one of the plurality of volume levels is set to an initial level.
  • a plurality of volume levels arranged in order from highest to lowest are set, and operation types and/or operation contents of the interaction operations corresponding to each volume level are respectively set.
  • the types of operations of the interoperation include: an interaction animation type, and/or a resource configuration type;
  • the operation content corresponding to the interactive animation type includes: the animation type of the interactive animation, the animation change speed, and/or the animation duration;
  • the operation content corresponding to the resource configuration type includes: the configured resource type, and/or the resource amount.
  • a fourth embodiment of the present application provides a non-transitory computer readable storage medium storing at least one executable instruction executable in any of the above method embodiments.
  • a voice-based interaction method is provided.
  • the executable instructions may specifically be used to cause the processor to perform the following operations:
  • the current sampling time is determined.
  • the volume level corresponding to the voice volume value is an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • executable instructions described above may be further configured to cause the processor to: receive voice input content for implementing an interactive operation;
  • the current sampling time is determined.
  • the volume level corresponding to the voice volume value performs an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time, and displays an interaction interface corresponding to the interaction operation corresponding to the volume level.
  • FIG. 6 is a schematic structural diagram of an electronic device according to Embodiment 5 of the present disclosure.
  • the specific embodiment of the present disclosure does not limit the specific implementation of the electronic device.
  • the electronic device can include a processor 602, a communications interface 606, a memory 604, and a communications bus 608.
  • Processor 602, communication interface 606, and memory 604 complete communication with one another via communication bus 608.
  • the communication interface 606 is configured to communicate with network elements of other devices, such as clients or other servers.
  • the processor 602 is configured to execute the program 610, and specifically, the related steps in the foregoing voice-based interaction method embodiment.
  • program 610 can include program code, the program code including computer operating instructions.
  • the processor 602 may be a central processing unit CPU, or an Application Specific Integrated Circuit (ASIC), or one or more integrated circuits configured to implement the embodiments of the present disclosure.
  • the one or more processors included in the electronic device may be the same type of processor, such as one or more CPUs; or may be different types of processors, such as one or more CPUs and one or more ASICs.
  • the memory 604 is configured to store the program 610.
  • Memory 604 may include high speed RAM memory and may also include non-volatile memory, such as at least one disk memory.
  • Program 510 can be specifically configured to cause processor 502 to perform the following operations:
  • the current sampling time is determined.
  • the volume level corresponding to the voice volume value is an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time.
  • program 510 can also be used to cause the processor 502 to perform the following operations:
  • the volume level corresponding to the voice volume value in the time performing an interaction operation corresponding to the volume level corresponding to the voice volume value in the current sampling time, and displaying an interaction interface corresponding to the interaction operation corresponding to the volume level.
  • modules in the devices of the embodiments can be adaptively changed and placed in one or more devices different from the embodiment.
  • the modules or units or components of the embodiments may be combined into one module or unit or component, and further they may be divided into a plurality of sub-modules or sub-units or sub-components.
  • any combination of the features disclosed in the specification, including the accompanying claims, the abstract and the drawings, and any methods so disclosed, or All processes or units of the device are combined.
  • Each feature disclosed in this specification (including the accompanying claims, the abstract and the drawings) may be replaced by alternative features that provide the same, equivalent or similar purpose.
  • Various component embodiments of the present disclosure may be implemented in hardware, or in a software module running on one or more processors, or in a combination thereof.
  • a microprocessor or digital signal processor may be used in practice to implement some or all of the functionality of some or all of the components of the voice input information based lottery system in accordance with an embodiment of the present disclosure.
  • the present disclosure may also be implemented as a device or device program (eg, a computer program and a computer program product) for performing some or all of the methods described herein.
  • Such a program implementing the present disclosure may be stored on a computer readable medium or may be in the form of one or more signals. Such signals may be downloaded from an Internet website, provided on a carrier signal, or provided in any other form.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Telephone Function (AREA)
  • Telephonic Communication Services (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

一种基于语音的交互方法及系统,该方法包括:确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间(S110);若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作(S120);若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作(S130)。

Description

基于语音的交互方法及系统
相关申请的交叉参考
本申请要求于2018年5月15日提交中国专利局、申请号为201810462653.X、名称为“基于语音的交互方法及系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本公开涉及电子信息领域,具体涉及一种基于语音的交互方法及系统。
背景技术
当前很多平台(windows/ios/android)的应用都引入了语音交互的功能。在这些语音交互的界面中,为了给用户及时地反馈语音交互效果并提高语音交互的趣味性,通常会根据实时的录音显示出交互动画。比如,“全民K歌”、“唱吧”等唱歌软件,会在用户唱歌时给出音频高低的提示;比如“支付宝App”的语音搜索,会在用户录音时给出声波动画等。
另外,随着科技的发展,出现了许多需要识别音量大小的业务场景,比如抽奖领红包等资源配置活动。在抽奖领红包的业务场景中,为了提升娱乐性,活动举办者希望实现“声音越大,红包越大”,同时在录音界面希望实现“声音越大,动画越快”的活动效果。但是,发明人在实现本公开的过程中,发现在现有技术中至少存在如下问题:手机录音识别音量大小的效果受“麦克风灵敏性”以及“声源与麦克风的距离”的影响非常大,如果直接使用客户端获取到的音量大小,可能导致某些客户端在资源配置活动中收到的奖金一直很小或显示在客户端界面的动画一直很慢。
发明内容
鉴于上述问题,提出了本公开以便提供一种克服上述问题或者至少部分地解决上述问题的一种基于语音的交互方法及系统。
根据本公开的一个方面,提供了一种基于语音的交互方法,包括:确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
根据本公开的另一方面,提供了一种基于语音的交互方法,包括:
接收用于实现交互操作的语音输入内容;
确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与 初始等级相对应的交互操作,并展现初始等级相对应的交互操作所对应的交互界面;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,并展现音量等级相对应的交互操作所对应的交互界面。
根据本公开的又一方面,提供了一种基于语音的交互系统,包括:
确定模块,适于确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
第一执行模块,适于若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作;
第二执行模块,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
根据本公开的再一方面,提供了一种基于语音的交互系统,包括:接收模块、确定模块、第一执行模块、第二执行模块、以及展现模块,其中,
接收模块,适于接收用于实现交互操作的语音输入内容;
确定模块,适于确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
第一执行模块,适于若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,则展现模块适于展现初始等级相对应的交互操作所对应的交互界面;
第二执行模块,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,则展现模块适于展现音量等级相对应的交互操作所对应的交互界面。
根据本公开的再一方面,提供了一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过所述通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如上述的基于语音的交互方法对应的操作。
依据本公开的再一方面,提供了另一种电子设备,包括:处理器、存储器、通信接口和通信总线,处理器、存储器和通信接口通过通信总线完成相互间的通信;
存储器用于存放至少一可执行指令,可执行指令使处理器执行如上述的基于语音的交互方法对应的操作。
根据本公开的再一方面,提供了一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述的基于语音的交互方法对应的操作。
根据本公开的再又一方面,还提供了一种计算机程序产品,该计算机程序产品包括存 储在上述非易失性计算机可读存储介质上的计算程序。
根据本公开的再一方面,提供了另一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质中存储有至少一可执行指令,可执行指令使处理器执行如上述的基于语音的交互方法对应的操作。
根据本公开的再又一方面,还提供了一种计算机程序产品,该计算机程序产品包括存储在上述非易失性计算机可读存储介质上的计算程序。
根据本公开提供的基于语音的交互方法及系统,通过确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间,若是则将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,若否则根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。根据该方法,能够使客户端当前采样时间内的语音音量值相对应的音量等级只与该用户的上一个采样时间内的语音音量值相对应的音量等级相比较,从而得到当前采样时间内的语音音量值相对应的音量等级,并根据该音量等级执行其相对应的交互操作,这样避免了由于用户的设备灵敏性差异以及声源与设备之间的距离对客户端采集到的语音音量等级的影响,进而提高了用户在各种动态交互活动中的体验。
上述说明仅是本公开技术方案的概述,为了能够更清楚了解本公开的技术手段,而可依照说明书的内容予以实施,并且为了让本公开的上述和其它目的、特征和优点能够更明显易懂,以下特举本公开的具体实施方式。
附图说明
通过阅读下文优选实施方式的详细描述,各种其他的优点和益处对于本领域普通技术人员将变得清楚明了。附图仅用于示出优选实施方式的目的,而并不认为是对本公开的限制。而且在整个附图中,用相同的参考符号表示相同的部件。在附图中:
图1示出了本公开实施例一提供的一种基于语音的交互方法的流程图;
图2示出了本公开实施例二提供的一种基于语音的交互方法的流程图;
图3示出了自定义音量等级与声波动画对应时间以及奖金对应范围的对照关系的示例性示意图;
图4a示出了本公开又一实施例提供的一种基于语音的交互方法的方法流程图;
图4b示出了本公开提供的基于语音的交互方法所对应的示意性流程图;
图5示出了本公开实施例三提供的一种基于语音的交互系统的结构图;
图6示出了本公开实施例五提供的一种电子设备的结构示意图。
具体实施方式
下面将参照附图更详细地描述本公开的示例性实施例。虽然附图中显示了本公开的示例性实施例,然而应当理解,可以以各种形式实现本公开而不应被这里阐述的实施例所限制。相反,提供这些实施例是为了能够更透彻地理解本公开,并且能够将本公开的范围完整的传达给本领域的技术人员。
实施例一
图1示出了本公开实施例一提供的一种基于语音的交互方法的流程图。如图1所示,该方法包括:
步骤S110:确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间。
其中,上述语音音量值可以是系统接口获取的原始值,也可以是处理后的分贝值,还可以是可以表示音量大小的其他类型的数值,总之本公开并不限制语音音量值的具体表现形式,凡是能够表示语音音量值大小的数值均在本公开的保护范围之内。当前采样时间可以为连续时间段中的各个采样时间段或者采样区间。具体地,可以预先划分每个采样区间的持续时长,比如可以将每一秒确定为一个采样区间或者将每隔0.5秒确定为一个采样区间,采样区间的持续时长还可以为其它的时间值,该时间值的大小可以由本领域人员根据想要获取语音音量值的精度与灵敏度来确定。如果想要提高获取语音音量值的精度与灵敏度,则可以将该时间值设置的相对较小,如果对获取语音音量值的精度与灵敏度要求不高,则可以将该时间值设置的相对较大。在确定当前采样时间内的语音音量值之后,判断当前采样时间是否为首个采样时间。
步骤S120:若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作。
具体地,在执行步骤S110之前可以预先设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。然后可以把上述各个音量等级中的一个或者多个音量等级设置为初始等级。其中,上述操作类型可以为交互动画类型、和/或资源配置类型。相应地,操作内容可以为交互动画的动画种类、动画变化速度、和/或动画持续时长。与上述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。如果判断当前采样时间为首个采样时间,则可以将当前采样时间内的语音音量值相对应的音量等级确定为初始等级,并且执行与初始等级相对应的交互操作。
步骤S130:若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
具体地,可以将上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级,并且将当前采样时间内的语音音量值与上一个采样时间内的语音音量值进行比较,如果当前采样时间内的语音音量值大于上一个采样时间内的语音音量值,则可以在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级。如果当前采样时间内的语音音量值小于上一个采样时间内的语音音量值,则可以在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级。当确定与当前采样时间内的语音音量值相对应的音量等级之后,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
通过执行该步骤S130中的内容,可以使客户端在根据采集的语音变化来改变交互操作时,避免客户端受到用户使用的设备质量的影响以及用户与设备距离大小的影响,从而做到只与自己上一个采样时间内的语音音量值比较来确定与当前采样时间内的语音音量值相对应的音量等级,从而执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
根据本申请实施例一提供的基于语音的交互方法的流程图,通过确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间,若是则将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,若否则根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。根据该方法,能够使客户端当前采样时间内的语音音量值相对应的音量等级只与该用户的上一个采样时间内的语音音量值相对应的音量等级相比较,从而得到当前采样时间内的语音音量值相对应的音量等级,并根据该音量等级执行其相对应的交互操作,这样避免了由于用户的设备灵敏性差异以及声源与设备之间的距离对客户端采集到的语音音量等级的影响,进而提高了用户在各种动态交互活动中的体验。
图2示出了本公开实施例二提供的一种基于语音的交互方法的流程图。如图2所示,该方法包括:
步骤S210:设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
其中,上述交互操作的操作类型包括:交互动画类型、和/或资源配置类型。其中,交互动画类型可以指根据实时的录音给出交互动画,比如在歌唱类软件界面上根据语音呈现的音频高低的提示,在资源配置活动中客户端界面根据语音大小显示的随之发生变化快慢的动画界面。资源配置类型可以指根据语音抢红包,摇转盘来分配奖品等类型的资源配置类型的交互操作。相应地,与上述交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长。与上述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。其中,资源配置活动所配置的资源可以为优惠券、现金、电子券、商品兑换码等各种资源。
其中,上述音量等级可以根据音量值的大小来设置,比如可以设置为与音量值成正相关的关系,音量等级随着音量值的增大而增大。可选地,以操作类型为资源配置类型为例,音量等级还可以根据声波动画对应的时间来设置,比如可以设置为与声波动画对应的时间成反比的关系,这样音量等级随着声波动画对应的时间的增大而减小,上述声波动画是指显示在客户端界面上的根据采集到的声音而发生变动的声波动画。图3示出了自定义音量等级与声波动画对应时间以及奖金对应范围的对照关系的示例性示意图。如图3所示,自定义音量等级5所对应的声波动画对应时间为400ms,奖金对应范围为10~14.99;自定义音量等级4所对应的声波动画对应时间为600ms,奖金对应范围为8~9.99;自定义音量等级3所对应的声波动画对应时间为800ms,奖金对应范围为6~7.99,其他自定义音量等级与所对应的声波动画对应时间以及奖金对应范围的对照关系可以参照图3,在此不再一一赘述。值得注意的是,上述图3只是示例性示意图,自定义音量等级与所对应的声波动画对应时间以及奖金对应范围的对照关系除了为上述的对照关系外,还可以由本领域技术人员根据要求资源配置活动达到的趣味性,将上述对照关系设置为其他的对照关系。上述音量等级、以及每个音量等级相对应的交互操作的操作类型和/或操作内容可以在客户端应用中内置,也可以通过服务器端动态下发。
在设置上述多个按照从高到低的顺序依次排列的音量等级之后,分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。通过执行该步骤中的内容,在下述步骤中每当确定采样时间内的音量等级之后,可以根据该对照关系执行与每个音量等级相对应的交互操作。
步骤S220:将多个音量等级中的至少一个音量等级设置为初始等级。
为了实现客户端音量识别不受用户设备本身的限制以及不受声源与设备距离大小的影响,在本步骤中可以将多个音量等级中的至少一个音量等级设置为初始音量等级。初始音量等级可以为上述音量等级中的任意一个或者多个,比如可以将自定义声音等级0设置为初始等级,或者将自定义声音等级1设置为初始等级,还可以将其他自定义音量等级设置为初始等级。
步骤S230:确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间。
其中,上述采样时间可以为连续时间段中的采样时间段或者采样区间。具体地,可以预先划分每个采样区间的持续时长,比如可以将每一秒确定为一个采样区间或者将每隔0.5秒确定为一个采样区间,采样区间的持续时长还可以为其它的时间值,在此不作限制。该采样时间可以在客户端的应用中设置,还可以通过服务器端动态下发。在客户端采集到采样时间内用户输入的语音之后,确定当前采样时间内的语音音量值,并且判断当前采样时间是否为首个采样时间。
其中,上述采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。上述语音输入内容的音量值可以是从系统接口获取的原始值,也可以是处理后的分贝值,还可以是其他类型的可以表示音量大小的数值,总之本公开并不限制语音音量值的具体表现形式。具体地,上述音量又称响度、音强,是指人耳对所听到的声音大小强弱的主观感受,其客观评价尺度是声音的振幅大小。这种感受源自物体振动时所产生的压力,即声压。物体振动通过不同的介质,将其振动能量传导开去。物体振动通过不同的介质,将其振动能量传导开去。人们为了对声音的感受量化成可以监测的指标,就把声压分成“级”即声压级,以便能客观的表示声音的强弱,其单位称为“分贝”(dB)。其中,分贝(decibel)是量度两个相同单位之数量比例的计量单位,主要用于度量声音强度,常用dB表示。计算公式为:dB=(20*Math.log10(amplitude/REFERENCE)),其中amplitude是监测到的声压值(单位Pascal),REFERENCE是参考的声压值(一般为20Pascal,即人耳能感受到的最低声压)。在安卓应用中,可以使用系统接口“MediaRecorder.getMaxAmplitude()”获得原始声压值amplitude,然后代入公式中求得对应的分贝值。另外,音调/声频是指:物体震动产生的声音频率,单位为赫兹(Hz);人耳可闻的振动频率范围约从20~20000Hz。
步骤S240:若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作。
如果判断当前采样时间为首个采样时间,则将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,并按照在步骤S210中设置的与每个音量等级相对应的交互操作的操作类型和/或操作内容来执行与初始等级相对应的交互操作。
步骤S250:若否,则将与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级。
如果判断当前采样时间不是首个采样时间,则可以将上一个采样时间段内的语音音量值相对应的音量等级确定为基准音量等级,并将当前采样时间内的语音音量值与上一个采样时间内的语音音量值进行比较,然后根据比较结果以及基准音量等级来确定当前采样时间内的语音音量值相对应的音量等级。
步骤S251:若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的 变化量为正数,在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
具体地,若当前采样时间内的语音音量值大于上述上一个采样时间内的语音音量值,则可以在基准音量等级的基础上增加至少一个音量等级,从而得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。具体地,为了防止当前采样时间内的语音音量值相对应的音量等级变化的过于频繁从而使交互变化过于频繁,可以预设变化量阈值,若是判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量大于该预设的变化量阈值,则可以在基准音量等级的基础上增加至少一个音量等级,从而得到与当前采样时间内的语音音量值相对应的音量等级。上述变化量阈值可以根据用户希望根据语音变化而改变交互操作的频繁度来确定,具体地,可以通过减低上述变化量阈值来提高改变交互操作的频繁度,通过提高上述变化量阈值来降低改变交互操作的频繁度,具体的数值可以由本领域技术人员根据实际情况来制定,在此不作限制。
进一步地,为了防止因微小波动而导致频繁调整当前采样时间内的语音音量值相对应的音量等级,并且为了更加精确地根据语音音量值调整当前采样时间内的语音音量值相对应的音量等级,可以预先设置音量阶梯值,并且根据上述语音音量值的变化量与音量阶梯值的比较结果来确定增加的音量等级的个数。
步骤S252:若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
具体地,若当前采样时间内的语音音量值小于上述上一个采样时间内的语音音量值,则可以在基准音量等级的基础上降低至少一个音量等级,从而得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。具体地,为了防止当前采样时间内的语音音量值相对应的音量等级变化得过于频繁从而使动态交互变化地过于频繁,可以预设变化量阈值,若是判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量大于该预设的变化量阈值,则可以在基准音量等级的基础上降低至少一个音量等级,从而得到与当前采样时间内的语音音量值相对应的音量等级。上述变化量阈值可以根据用户希望根据语音变化而改变交互操作的频繁度来确定,具体地,可以通过降低上述变化量阈值来提高改变交互操作的频繁度,通过提高上述变化量阈值来降低改变交互操作的频繁度,具体的数值可以由本领域技术人员根据实际情况来制定,在此不作限制。
进一步地,为了防止因微小波动而导致频繁调整当前采样时间内的语音音量值相对应的音量等级,并且为了更加精确地根据语音音量值调整当前采样时间内的语音音量值相对应的音量等级,可以预先设置音量阶梯值,并且根据上述语音音量值的变化量与音量阶梯值得比较结果来确定降低的音量等级的个数。
根据本实施二提供的基于语音的交互方法,通过首先设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容,并将多个音量等级中的至少一个音量等级设置为初始等级,然后确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间,若是则将与当前采样时间内的语 音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,若否则将与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级,并且若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为正数,在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级,并执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。根据该方法,能够使客户端所确定的用户录入的声音音量值所对应的音量等级不受设备灵敏性、以及声源与设备之间的距离等这些客观因素的干扰,而是只基于用户自己录入的声音音量值的大小来确定音量等级,真正地做到自己与自己作比较来确定当前采样时间内的语音音量值相对应的音量等级,从而执行与上述音量定级相对应的交互操作,这样可以使每个用户都有机会在资源配置活动中达到最快的动画或者获得最高的奖金。
另外,图4a示出了本公开又一实施例提供的一种基于语音的交互方法的方法流程图,如图4a所示,包括:
步骤S410:接收用于实现交互操作的语音输入内容。
具体地,可通过预设的交互入口接收用于实现交互操作的语音输入内容;其中,交互入口包括:用于实现资源配置活动的入口(例如抢红包入口)、用于显示交互动画的入口等。
步骤S420:确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间。
由于用户输入的语音输入内容通常会持续一段时间,为了能够检测语音输入内容在各个时段内的语音音量值,可以每隔预设时间间隔执行一次步骤S420及其后续步骤。其中,预设时间间隔越小,越能达到近似实时的效果。本领域技术人员可结合实时性和终端设备的性能参数来设置该预设时间间隔。另外,该预设时间间隔也可以等同于采样周期,例如,预设时间间隔为1秒钟,则采样周期也为1秒钟,则在初始阶段,通过步骤S420获取第1秒钟(即当前采样时间)内的语音音量值,相应地,确定当前采样时间为首个采样时间,执行步骤S430。又如,在后续阶段,通过步骤S420获取第n秒钟(即当前采样时间,其中,n大于1)内的语音音量值,相应地,确定当前采样时间非首个采样时间,执行步骤S440。
步骤S430:若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,并展现初始等级相对应的交互操作所对应的交互界面。
关于初始等级及其对应的交互操作及交互界面可参照实施例二中相应步骤的描述,此处不再赘述。
步骤S440:若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,并展现音量等级相对应的交互操作所对应的交互界面。
具体地,将与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为正 数,在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级;若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级。可选地,若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为正数,在基准音量等级的基础上增加至少一个音量等级的步骤具体包括:判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上增加至少一个音量等级;若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级的步骤具体包括:判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上降低至少一个音量等级。其中,采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
其中,步骤S440的具体细节可参照实施例二中相应步骤的描述,此处不再赘述。
另外,初始等级相对应的交互操作所对应的交互界面和/或音量等级相对应的交互操作所对应的交互界面包括:资源配置界面、交互动画界面。例如,在资源配置活动中,若音量等级越大,则对应的资源配置界面中包含的资源数量越多、类型越珍贵;反之,音量等级越小,则对应的资源配置界面中包含的资源数量越少、类型越廉价。又如,在交互动画活动中,若音量等级越大,则对应的交互动画界面中的交互动画变化越快、持续时间越短;反之,音量等级越小,则对应的交互动画界面中的交互动画变化越慢、持续时间越长。
可选地,在步骤S410之前,进一步设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。其中,交互操作的操作类型包括:交互动画类型、和/或资源配置类型;与交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;与资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
本领域技术人员可以对本实施例以及实施例二进行结合或各种改动,本实施例中的各个步骤的具体实现细节均可参照实施例二中相应部分的描述,此处不再赘述。
图4b示出了本公开提供的基于语音的交互方法所对应的示意性流程图。为了更加详细地说明本公开的技术方案,以图4b为例,下面将论述本公开提供的基于语音的交互方法的具体步骤。步骤S401:录音开始,客户端开始采集用户的录音;步骤S402:然后假设用户初始声音等级为初始等级L0;步骤S403:接着获取采样时间内的声音的最大分贝d;步骤S404:比较本次分贝值是否大于上一次的分贝值;步骤S405:如果分贝值比上一次大,则声音等级提升一个或者多个等级,到最大等级则不增加;步骤S406:如果分贝值比上一次的小,则声音等级降低一个或者多个等级,到最小等级则不降低;步骤S407:执行与当前声音等级相对应的交互操作,在本次流程中,可以把单个动画完成时间更新为对应的时间;最后在步骤S408中判断录音是否结束,从而判断是否结束本次操作流程,若是则结束本次操作流程,若否则重复执行上述步骤S403~S408直到用户结束录音。
实施例三
图5示出了本公开实施例三提供的一种基于语音的交互系统的结构示意图,该系统包括:
确定模块53,适于确定当前采样时间内的语音音量值,判断当前采样时间是否为首个 采样时间;
第一执行模块54,适于若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作;
第二执行模块55,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
可选地,其中,第二执行模块55具体适于:
将与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为正数,在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级;
若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级。
可选地,其中,第二执行模块具体适于:判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上增加至少一个音量等级;
第二执行模块55具体适于:判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上降低至少一个音量等级。
可选地,其中,采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
可选地,其中,系统进一步包括:第一设置模块51,适于设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
可选地,其中,交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
与交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;
与资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
可选地,其中,系统还进一步包括第二设置模块52,适于:
将多个音量等级中的至少一个音量等级设置为初始等级。
关于上述各个模块的具体结构和工作原理可参照方法实施例中相应部分的描述,此处不再赘述。
另外,本公开还提供了又一种基于语音的交互系统,该系统与图5所示的系统的区别在于,该系统在图5的系统的基础上进一步包括:接收模块和展现模块。相应地,该系统包括:接收模块、确定模块、第一执行模块、第二执行模块、以及展现模块,其中,
接收模块,与确定模块相连,适于接收用于实现交互操作的语音输入内容;
确定模块,适于确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
第一执行模块,适于若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,则展现模块适于展现初始等级相对应的交互操作所对应的交互界面;
第二执行模块,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,则展现模块适于展现音量等级相对应的交互操作所对应的交互界面。
其中,展现模块分别与第一执行模块和第二执行模块相连。
可选地,接收模块具体适于:通过预设的交互入口接收用于实现交互操作的语音输入内容;其中,交互入口包括:用于实现资源配置活动的入口、用于显示交互动画的入口;
初始等级相对应的交互操作所对应的交互界面和/或音量等级相对应的交互操作所对应的交互界面包括:资源配置界面、交互动画界面。
可选地,第二执行模块具体适于:
将与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为正数,在基准音量等级的基础上增加至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级;
若当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量为负数,在基准音量等级的基础上降低至少一个音量等级,得到与当前采样时间内的语音音量值相对应的音量等级。
可选地,第二执行模块具体适于:
判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上增加至少一个音量等级;
判断当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在基准音量等级的基础上降低至少一个音量等级。
可选地,采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
可选地,系统进一步包括第一设置模块,适于:
将多个音量等级中的至少一个音量等级设置为初始等级。
设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
可选地,交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
与交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;
与资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
实施例四
本申请实施例四提供了一种非易失性计算机可读存储介质,该非易失性计算机可读存储介质存储有至少一可执行指令,该计算机可执行指令可执行上述任意方法实施例中的基于语音的交互方法。
可执行指令具体可以用于使得处理器执行以下操作:
确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
另外,上述可执行指令还可以用于使得处理器执行以下操作:接收用于实现交互操作的语音输入内容;
确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,并展现初始等级相对应的交互操作所对应的交互界面;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,并展现音量等级相对应的交互操作所对应的交互界面。
实施例五
图6示出了根据本公开实施例五的一种电子设备的结构示意图,本公开具体实施例并不对电子设备的具体实现做限定。
如图6所示,该电子设备可以包括:处理器(processor)602、通信接口(Communications Interface)606、存储器(memory)604、以及通信总线608。
其中:
处理器602、通信接口606、以及存储器604通过通信总线608完成相互间的通信。
通信接口606,用于与其它设备比如客户端或其它服务器等的网元通信。
处理器602,用于执行程序610,具体可以执行上述基于语音的交互方法实施例中的相关步骤。
具体地,程序610可以包括程序代码,该程序代码包括计算机操作指令。
处理器602可能是中央处理器CPU,或者是特定集成电路ASIC(Application Specific Integrated Circuit),或者是被配置成实施本公开实施例的一个或多个集成电路。电子设备包括的一个或多个处理器,可以是同一类型的处理器,如一个或多个CPU;也可以是不同类型的处理器,如一个或多个CPU以及一个或多个ASIC。
存储器604,用于存放程序610。存储器604可能包含高速RAM存储器,也可能还包括非易失性存储器(non-volatile memory),例如至少一个磁盘存储器。
程序510具体可以用于使得处理器502执行以下操作:
确定当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
另外,程序510还可以用于使得处理器502执行以下操作:
接收用于实现交互操作的语音输入内容;
确定语音输入内容在当前采样时间内的语音音量值,判断当前采样时间是否为首个采样时间;
若是,将与当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与初始等级相对应的交互操作,并展现初始等级相对应的交互操作所对应的交互界面;
若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于上一个采样时间内的语音音量值的变化量,确定与当前采样时间内的语音音量值相对应的音量等级,执行与当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,并展现音量等级相对应的交互操作所对应的交互界面。
在此提供的算法和显示不与任何特定计算机、虚拟系统或者其它设备固有相关。各种通用系统也可以与基于在此的示教一起使用。根据上面的描述,构造这类系统所要求的结构是显而易见的。此外,本公开也不针对任何特定编程语言。应当明白,可以利用各种编程语言实现在此描述的本公开的内容,并且上面对特定语言所做的描述是为了披露本公开的最佳实施方式。
在此处所提供的说明书中,说明了大量具体细节。然而,能够理解,本公开的实施例可以在没有这些具体细节的情况下实践。在一些实例中,并未详细示出公知的方法、结构和技术,以便不模糊对本说明书的理解。
类似地,应当理解,为了精简本公开并帮助理解各个公开方面中的一个或多个,在上面对本公开的示例性实施例的描述中,本公开的各个特征有时被一起分组到单个实施例、图、或者对其的描述中。然而,并不应将该公开的方法解释成反映如下意图:即所要求保护的本公开要求比在每个权利要求中所明确记载的特征更多的特征。更确切地说,如下面的权利要求书所反映的那样,公开方面在于少于前面公开的单个实施例的所有特征。因此,遵循具体实施方式的权利要求书由此明确地并入该具体实施方式,其中每个权利要求本身都作为本公开的单独实施例。
本领域那些技术人员可以理解,可以对实施例中的设备中的模块进行自适应性地改变并且把它们设置在与该实施例不同的一个或多个设备中。可以把实施例中的模块或单元或组件组合成一个模块或单元或组件,以及此外可以把它们分成多个子模块或子单元或子组件。除了这样的特征和/或过程或者单元中的至少一些是相互排斥之外,可以采用任何组合对本说明书(包括伴随的权利要求、摘要和附图)中公开的所有特征以及如此公开的任何 方法或者设备的所有过程或单元进行组合。除非另外明确陈述,本说明书(包括伴随的权利要求、摘要和附图)中公开的每个特征可以由提供相同、等同或相似目的的替代特征来代替。
此外,本领域的技术人员能够理解,尽管在此所述的一些实施例包括其它实施例中所包括的某些特征而不是其它特征,但是不同实施例的特征的组合意味着处于本公开的范围之内并且形成不同的实施例。例如,在下面的权利要求书中,所要求保护的实施例的任意之一都可以以任意的组合方式来使用。
本公开的各个部件实施例可以以硬件实现,或者以在一个或者多个处理器上运行的软件模块实现,或者以它们的组合实现。本领域的技术人员应当理解,可以在实践中使用微处理器或者数字信号处理器(DSP)来实现根据本公开实施例的基于语音输入信息的抽奖系统中的一些或者全部部件的一些或者全部功能。本公开还可以实现为用于执行这里所描述的方法的一部分或者全部的设备或者装置程序(例如,计算机程序和计算机程序产品)。这样的实现本公开的程序可以存储在计算机可读介质上,或者可以具有一个或者多个信号的形式。这样的信号可以从因特网网站上下载得到,或者在载体信号上提供,或者以任何其他形式提供。
应该注意的是上述实施例对本公开进行说明而不是对本公开进行限制,并且本领域技术人员在不脱离所附权利要求的范围的情况下可设计出替换实施例。在权利要求中,不应将位于括号之间的任何参考符号构造成对权利要求的限制。单词“包含”不排除存在未列在权利要求中的元件或步骤。位于元件之前的单词“一”或“一个”不排除存在多个这样的元件。本公开可以借助于包括有若干不同元件的硬件以及借助于适当编程的计算机来实现。在列举了若干装置的单元权利要求中,这些装置中的若干个可以是通过同一个硬件项来具体体现。单词第一、第二、以及第三等的使用不表示任何顺序。可将这些单词解释为名称。

Claims (34)

  1. 一种基于语音的交互方法,包括:
    确定当前采样时间内的语音音量值,判断所述当前采样时间是否为首个采样时间;
    若是,将与所述当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与所述初始等级相对应的交互操作;
    若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级,执行与所述当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
  2. 根据权利要求1所述的方法,其中,所述根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级的步骤具体包括:
    将所述与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级。
  3. 根据权利要求2所述的方法,其中,所述若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级的步骤具体包括:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上增加至少一个音量等级;
    所述若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级的步骤具体包括:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上降低至少一个音量等级。
  4. 根据权利要求1-3任一所述的方法,其中,所述采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
  5. 根据权利要求1-4任一所述的方法,其中,所述方法执行之前,进一步包括:
    设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
  6. 根据权利要求5所述的方法,其中,所述交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
    与所述交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、 和/或动画持续时长;
    与所述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
  7. 根据权利要求5或6所述的方法,其中,所述方法执行之前,进一步包括:
    将所述多个音量等级中的至少一个音量等级设置为所述初始等级。
  8. 一种基于语音的交互方法,包括:
    接收用于实现交互操作的语音输入内容;
    确定所述语音输入内容在当前采样时间内的语音音量值,判断所述当前采样时间是否为首个采样时间;
    若是,将与所述当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与所述初始等级相对应的交互操作,并展现所述初始等级相对应的交互操作所对应的交互界面;
    若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级,执行与所述当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,并展现所述音量等级相对应的交互操作所对应的交互界面。
  9. 根据权利要求8所述的方法,其中,所述接收用于实现交互操作的语音输入内容的步骤具体包括:通过预设的交互入口接收用于实现交互操作的语音输入内容;其中,所述交互入口包括:用于实现资源配置活动的入口、用于显示交互动画的入口;
    所述初始等级相对应的交互操作所对应的交互界面和/或所述音量等级相对应的交互操作所对应的交互界面包括:资源配置界面、交互动画界面。
  10. 根据权利要求8或9所述的方法,其中,所述根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级的步骤具体包括:
    将所述与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级。
  11. 根据权利要求10所述的方法,其中,所述若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级的步骤具体包括:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上增加至少一个音量等级;
    所述若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量 值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级的步骤具体包括:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上降低至少一个音量等级。
  12. 根据权利要求8-11任一所述的方法,其中,所述采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
  13. 根据权利要求8-12任一所述的方法,其中,所述方法执行之前,进一步包括:
    设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
  14. 根据权利要求13所述的方法,其中,所述交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
    与所述交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;
    与所述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
  15. 一种基于语音的交互系统,包括:
    确定模块,适于确定当前采样时间内的语音音量值,判断所述当前采样时间是否为首个采样时间;
    第一执行模块,适于若是,将与所述当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与所述初始等级相对应的交互操作;
    第二执行模块,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级,执行与所述当前采样时间内的语音音量值相对应的音量等级相对应的交互操作。
  16. 根据权利要求15所述的系统,其中,所述第二执行模块具体适于:
    将所述与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级。
  17. 根据权利要求16所述的系统,其中,所述第二执行模块具体适于:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上增加至少一个音量等级;
    所述第二执行模块具体适于:判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上降低至少一个音量等级。
  18. 根据权利要求15-17任一所述的系统,其中,所述采样时间内的语音音量值根据 该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
  19. 根据权利要求15-18任一所述的系统,其中,所述系统进一步包括:第一设置模块,适于设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
  20. 根据权利要求19所述的系统,其中,所述交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
    与所述交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;
    与所述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
  21. 根据权利要求19或20所述的系统,其中,所述系统还进一步包括第二设置模块,适于:
    将所述多个音量等级中的至少一个音量等级设置为所述初始等级。
  22. 一种基于语音的交互系统,包括:接收模块、确定模块、第一执行模块、第二执行模块、以及展现模块,其中,
    所述接收模块,适于接收用于实现交互操作的语音输入内容;
    所述确定模块,适于确定所述语音输入内容在当前采样时间内的语音音量值,判断所述当前采样时间是否为首个采样时间;
    所述第一执行模块,适于若是,将与所述当前采样时间内的语音音量值相对应的音量等级确定为初始等级,执行与所述初始等级相对应的交互操作,则所述展现模块适于展现所述初始等级相对应的交互操作所对应的交互界面;
    所述第二执行模块,适于若否,根据与上一个采样时间内的语音音量值相对应的音量等级,以及所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量,确定与所述当前采样时间内的语音音量值相对应的音量等级,执行与所述当前采样时间内的语音音量值相对应的音量等级相对应的交互操作,则所述展现模块适于展现所述音量等级相对应的交互操作所对应的交互界面。
  23. 根据权利要求22所述的系统,其中,所述接收模块具体适于:通过预设的交互入口接收用于实现交互操作的语音输入内容;其中,所述交互入口包括:用于实现资源配置活动的入口、用于显示交互动画的入口;
    所述初始等级相对应的交互操作所对应的交互界面和/或所述音量等级相对应的交互操作所对应的交互界面包括:资源配置界面、交互动画界面。
  24. 根据权利要求22或23所述的系统,其中,所述第二执行模块具体适于:
    将所述与上一个采样时间内的语音音量值相对应的音量等级确定为基准音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为正数,在所述基准音量等级的基础上增加至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级;
    若所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量为负数,在所述基准音量等级的基础上降低至少一个音量等级,得到与所述当前采样时间内的语音音量值相对应的音量等级。
  25. 根据权利要求24所述的系统,其中,所述第二执行模块具体适于:
    判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上增加至少一个音量等级;
    判断所述当前采样时间内的语音音量值相对于所述上一个采样时间内的语音音量值的变化量是否大于预设的变化量阈值;若是,则在所述基准音量等级的基础上降低至少一个音量等级。
  26. 根据权利要求22-25任一所述的系统,其中,所述采样时间内的语音音量值根据该采样时间内接收到的语音输入内容的平均音量值、最大音量值、和/或最小音量值确定。
  27. 根据权利要求22-26任一所述的系统,其中,所述系统进一步包括第一设置模块,适于:
    设置多个按照从高到低的顺序依次排列的音量等级,并分别设置与每个音量等级相对应的交互操作的操作类型和/或操作内容。
  28. 根据权利要求27所述的系统,其中,所述交互操作的操作类型包括:交互动画类型、和/或资源配置类型;
    与所述交互动画类型相对应的操作内容包括:交互动画的动画种类、动画变化速度、和/或动画持续时长;
    与所述资源配置类型相对应的操作内容包括:配置的资源种类、和/或资源数额。
  29. 一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
    所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求1-7中任一项所述的基于语音的交互方法对应的操作。
  30. 一种电子设备,包括:处理器、存储器、通信接口和通信总线,所述处理器、所述存储器和所述通信接口通过所述通信总线完成相互间的通信;
    所述存储器用于存放至少一可执行指令,所述可执行指令使所述处理器执行如权利要求8-14中任一项所述的基于语音的交互方法对应的操作。
  31. 一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求1-7中任一项所述的基于语音的交互方法对应的操作。
  32. 一种非易失性计算机可读存储介质,所述非易失性计算机可读存储介质中存储有至少一可执行指令,所述可执行指令使处理器执行如权利要求8-14中任一项所述的基于语音的交互方法对应的操作。
  33. 一种计算机程序产品,其中,所述计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求1-7中任一项所述的基于语音的交互方法对应的操作。
  34. 一种计算机程序产品,其中,所述计算机程序产品包括存储在非易失性计算机存储介质上的计算机程序,所述计算机程序包括程序指令,当所述程序指令被计算机执行时,使所述计算机执行如权利要求8-14中任一项所述的基于语音的交互方法对应的操作。
PCT/CN2019/076066 2018-05-15 2019-02-25 基于语音的交互方法及系统 WO2019218749A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810462653.XA CN108766460B (zh) 2018-05-15 2018-05-15 基于语音的交互方法及系统
CN201810462653.X 2018-05-15

Publications (1)

Publication Number Publication Date
WO2019218749A1 true WO2019218749A1 (zh) 2019-11-21

Family

ID=64007701

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2019/076066 WO2019218749A1 (zh) 2018-05-15 2019-02-25 基于语音的交互方法及系统

Country Status (2)

Country Link
CN (1) CN108766460B (zh)
WO (1) WO2019218749A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108766460B (zh) * 2018-05-15 2020-07-10 浙江口碑网络技术有限公司 基于语音的交互方法及系统
CN110099333B (zh) * 2019-05-24 2021-08-10 北京字节跳动网络技术有限公司 音频信号的处理方法、装置、终端及存储介质
CN110111776A (zh) * 2019-06-03 2019-08-09 清华大学 基于麦克风信号的语音交互唤醒电子设备、方法和介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103472994A (zh) * 2013-09-06 2013-12-25 乐得科技有限公司 一种基于语音实现操作控制的方法、装置和系统
CN106920092A (zh) * 2016-12-23 2017-07-04 阿里巴巴集团控股有限公司 一种虚拟资源分配方法、客户端及服务器
CN107122966A (zh) * 2017-04-13 2017-09-01 维沃移动通信有限公司 一种红包金额分配方法及移动终端
CN107469349A (zh) * 2017-09-14 2017-12-15 光锐恒宇(北京)科技有限公司 一种游戏应用的控制方法和装置
CN107784491A (zh) * 2016-08-26 2018-03-09 财付通支付科技有限公司 资源包发送方法、发放方法、资源获取方法及装置
CN108766460A (zh) * 2018-05-15 2018-11-06 浙江口碑网络技术有限公司 基于语音的交互方法及系统

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN201665188U (zh) * 2010-01-25 2010-12-08 北京森博克智能科技有限公司 具备语音交互和行为监控的车载数字多媒体设备
CN105511832A (zh) * 2014-09-24 2016-04-20 腾讯科技(深圳)有限公司 一种音量输出处理方法及装置
CN106155640B (zh) * 2015-03-24 2019-08-13 海信集团有限公司 一种音量显示方法及装置
CN105023463A (zh) * 2015-07-15 2015-11-04 任文峰 一种智能停车位管理系统及其管理方法
CN105405441B (zh) * 2015-10-20 2019-06-18 北京云知声信息技术有限公司 一种语音信息的反馈方法及装置
CN105679318A (zh) * 2015-12-23 2016-06-15 珠海格力电器股份有限公司 一种基于语音识别的显示方法、装置、显示系统和空调
JP2018045192A (ja) * 2016-09-16 2018-03-22 トヨタ自動車株式会社 音声対話装置および発話音量調整方法
CN107437415B (zh) * 2017-08-09 2020-06-02 科大讯飞股份有限公司 一种智能语音交互方法及系统
CN107682561A (zh) * 2017-11-10 2018-02-09 广东欧珀移动通信有限公司 音量调节方法、装置、终端及存储介质
CN107895578B (zh) * 2017-11-15 2021-07-20 百度在线网络技术(北京)有限公司 语音交互方法和装置
CN107864289A (zh) * 2017-11-17 2018-03-30 珠海市魅族科技有限公司 一种语音输入方法和装置、终端、可读存储介质

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103472994A (zh) * 2013-09-06 2013-12-25 乐得科技有限公司 一种基于语音实现操作控制的方法、装置和系统
CN107784491A (zh) * 2016-08-26 2018-03-09 财付通支付科技有限公司 资源包发送方法、发放方法、资源获取方法及装置
CN106920092A (zh) * 2016-12-23 2017-07-04 阿里巴巴集团控股有限公司 一种虚拟资源分配方法、客户端及服务器
CN107122966A (zh) * 2017-04-13 2017-09-01 维沃移动通信有限公司 一种红包金额分配方法及移动终端
CN107469349A (zh) * 2017-09-14 2017-12-15 光锐恒宇(北京)科技有限公司 一种游戏应用的控制方法和装置
CN108766460A (zh) * 2018-05-15 2018-11-06 浙江口碑网络技术有限公司 基于语音的交互方法及系统

Also Published As

Publication number Publication date
CN108766460A (zh) 2018-11-06
CN108766460B (zh) 2020-07-10

Similar Documents

Publication Publication Date Title
US10453443B2 (en) Providing an indication of the suitability of speech recognition
JP6755304B2 (ja) 情報処理装置
WO2019218749A1 (zh) 基于语音的交互方法及系统
WO2015090163A1 (zh) 一种在播放设备中控制音频的输出音量的方法和装置
JP2020519946A (ja) 音声クエリの検出および抑制
CN111325386B (zh) 交通工具运行状态的预测方法、装置、终端及存储介质
JP6391386B2 (ja) サーバ、サーバの制御方法およびサーバ制御プログラム
CN110459212A (zh) 音量控制方法及设备
KR20200025532A (ko) 음성 데이터 기반의 감정 인식 시스템 및 그 응용 방법
CN110688518A (zh) 节奏点的确定方法、装置、设备及存储介质
WO2023070792A1 (zh) 通话式门铃的音量均衡方法、设备和可读存储介质
CN111052749A (zh) 用于计量对话的机制和工具
CN103856626A (zh) 个性声音的定制方法和装置
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
WO2020125325A1 (zh) 一种消除回声的方法和设备
JP2021536596A (ja) 正規化を介して音響信号をフィンガープリンティングするための方法及び装置
WO2019041871A1 (zh) 语音对象识别方法及装置
CN104656412A (zh) 一种调整闹铃的方法
CN114979798B (zh) 播放速度控制方法和电子设备
JP6544439B2 (ja) 困惑状態判定装置、困惑状態判定方法、及びプログラム
CN111370017B (zh) 一种语音增强方法、装置、系统
CN113593604A (zh) 检测音频质量方法、装置及存储介质
JP6521173B2 (ja) 発話印象判定プログラム、発話印象判定方法及び発話印象判定装置
CN114203204B (zh) 尾点检测方法、装置、设备和存储介质
CN111741168B (zh) 一种通讯设备测试方法、装置、计算机可读介质及其设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19802627

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19802627

Country of ref document: EP

Kind code of ref document: A1