WO2020107360A1 - 一种语音识别方法、设备及系统 - Google Patents

一种语音识别方法、设备及系统 Download PDF

Info

Publication number
WO2020107360A1
WO2020107360A1 PCT/CN2018/118365 CN2018118365W WO2020107360A1 WO 2020107360 A1 WO2020107360 A1 WO 2020107360A1 CN 2018118365 W CN2018118365 W CN 2018118365W WO 2020107360 A1 WO2020107360 A1 WO 2020107360A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice signal
multimedia file
voice
speaker device
speaker
Prior art date
Application number
PCT/CN2018/118365
Other languages
English (en)
French (fr)
Inventor
郑涛
陈永
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to CN201880096667.2A priority Critical patent/CN112567330A/zh
Priority to PCT/CN2018/118365 priority patent/WO2020107360A1/zh
Publication of WO2020107360A1 publication Critical patent/WO2020107360A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output

Definitions

  • Embodiments of the present application relate to the technical field of terminals, and in particular, to a voice recognition method, device, and system.
  • the speaker device may be connected to the first device. After connecting the speaker device to the first device, the audio signal on the first device can be output through the speakers on the speaker device, but other functions on the first device and/or the speaker device may be restricted, which reduces the function of the device Utilization.
  • the embodiments of the present application disclose a voice recognition method, device and system, which are used to perform voice processing after the speaker device is connected to the first device, so as to improve the function utilization rate of the device.
  • a voice recognition method is disclosed.
  • the method is applied to a first device.
  • voice collection is started, a first voice signal is obtained, and a multimedia file corresponding to the first voice signal is obtained Send multimedia files to the speaker device so that the speaker device can output multimedia files.
  • the first device can process the voice signal, so the function utilization rate of the device can be improved.
  • the communication connection established between the first device and the speaker device may be a wired connection and/or a wireless connection.
  • the enabled voice collection is the voice collection of the speaker device
  • the first instruction for starting the voice collection is sent to the speaker device, so that the speaker device starts the voice of the speaker device according to the first instruction Collect, and then collect voice signals to achieve voice recognition.
  • the second voice signal is collected by the voice collection device of the first device, and when the second voice signal is collected, the speaker device outputs the second
  • the third voice signal is filtered out of the second voice signal to obtain the first voice signal
  • the speaker device does not output a voice signal when collecting the second voice signal
  • the second voice signal is determined to be the first voice signal. It can be seen that the voice signal output from the speaker device in the collected voice signal can be filtered to obtain the user's voice signal, that is, echo cancellation can be achieved.
  • the enabled voice collection is the voice collection of the speaker device
  • receiving the first voice signal from the speaker device it can be seen that the voice signal may be collected by the speaker device.
  • a fourth voice signal from the speaker device is received, and when the fourth voice signal is collected, the speaker device outputs the fifth voice signal Next, the fifth speech signal in the fourth speech signal is filtered to obtain the first speech signal.
  • the fourth speech signal is determined to be the first speech signal. It can be seen that the voice signal can be collected by the speaker device, but the echo cancellation is performed by the first device.
  • the multimedia file corresponding to the first voice signal is obtained only after analyzing the first voice signal including the signal for obtaining information. It can be seen that, in the case where the first device has a semantic recognition function, Identify first whether the voice signal includes a signal to obtain information, and only obtain the corresponding information if the voice signal includes a signal to obtain information, and if the voice signal does not include a signal to obtain information, you can directly discard the voice signal, Thus unnecessary processing can be avoided.
  • the first voice signal may be sent to the server, and a multimedia file from the server may be received.
  • the multimedia file is the first voice signal acquired by the server when the first voice signal includes a signal for acquiring information Corresponding multimedia files. It can be seen that, in the case where the first device does not have a semantic recognition function, the voice signal is sent to the network for recognition by the network, and if the required information is recognized in the network, the network sends the information to the first device.
  • the first voice signal may be sent to the server, and a second instruction from the server may be received.
  • the second instruction is that in the case where the first voice signal includes a signal to obtain information, the server according to the first voice signal
  • the generated instruction obtains the multimedia file according to the second instruction. It can be seen that, in the case where the first device does not have a semantic recognition function, the voice signal is sent to the network for recognition by the network, and when it is recognized that the required information is not in the network, the network sends an instruction to the first device so that the first The device obtains information according to the instructions.
  • the multimedia file may include at least one of an audio file, a video file, or a text file.
  • the multimedia file is sent to the speaker device only when the speaker device does not include the display screen and the multimedia file includes only audio files.
  • the speaker device does not include a display screen and the multimedia file includes a text file and/or video file
  • the text file and/or video file included in the multimedia file is played. It can be seen that, in the case where the speaker device does not include a display screen, and the multimedia file includes a text file and/or video file, the text file and/or video file included in the multimedia file is played on the first device.
  • a third instruction for outputting a multimedia file is sent to the speaker device, and the third instruction includes or carries the multimedia file. It can be seen that the multimedia files that need to be output by the speaker device can be sent to the speaker device in the form of instructions.
  • the second aspect discloses a voice recognition method.
  • the method is applied to a speaker device.
  • the speaker device After the speaker device establishes a communication connection with the first device, it receives a first instruction from the first device to start voice collection, and starts voice collection.
  • the voice collection device of the speaker device collects the first voice signal, sends the first voice signal to the first device, receives the multimedia file from the first device, and outputs the multimedia file.
  • the multimedia file is a multimedia file corresponding to the first voice signal acquired by the first device. It can be seen that the voice acquisition is performed by the speaker device and the semantic recognition is performed by the first device or the server. Therefore, after the speaker device is connected to the first device, the first device can process the voice signal, so the function utilization of the device can be improved rate.
  • the communication connection established between the speaker device and the first device may be a wired connection and/or a wireless connection.
  • the speaker device when the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered to obtain the third voice signal, and then the first device Send a third voice signal.
  • the multimedia file is a multimedia file corresponding to the third voice signal acquired by the first device. It can be seen that, in the case where the speaker device has an echo cancellation function, before the speaker device sends the voice signal to the first device, the echo cancellation process must be performed first.
  • the speaker device when it is analyzed that the third voice signal includes a signal for acquiring information, a second instruction is generated according to the third voice signal, and the second instruction is sent to the first device. It can be seen that, in the case where the speaker device has a semantic recognition function, the speaker device first performs semantic recognition on the voice signal, and when it recognizes that the voice signal needs to obtain information, directly sends an instruction to obtain information to the first device.
  • the multimedia file may include at least one of an audio file, a video file, or a text file.
  • a third instruction for outputting a multimedia file from the first device is received, and the third instruction includes or carries the multimedia file. It can be seen that the multimedia files received by the speaker device can be sent in the form of instructions.
  • a third aspect discloses a first device including a unit for performing the speech recognition method disclosed in the first aspect or any embodiment of the first aspect.
  • a fourth aspect discloses a sound box device including a unit for performing the speech recognition method disclosed in the second aspect or any embodiment of the second aspect.
  • a fifth aspect discloses a first device.
  • the first device includes a processor, a memory, and a communication interface.
  • the communication interface is used to communicate with other devices.
  • the memory is used to store a set of program codes.
  • the processor is used to execute the program codes. When the processor executes the program code stored in the memory, the processor is caused to execute the speech recognition method disclosed in the first aspect or any embodiment of the first aspect.
  • a sixth aspect discloses a speaker device.
  • the speaker device includes a processor, a memory, and a communication interface.
  • the communication interface is used to communicate with other devices.
  • the memory is used to store a set of program codes.
  • the processor is used to execute the program codes. When the processor executes the program code stored in the memory, the processor is caused to execute the speech recognition method disclosed in the second aspect or any embodiment of the second aspect.
  • a readable storage medium stores a program, and when the program is run, a voice recognition method as disclosed in the first aspect or any embodiment of the first aspect is implemented, or A voice recognition method as disclosed in the second aspect or any embodiment of the second aspect is implemented.
  • FIG. 1 is a schematic diagram of a network architecture disclosed in an embodiment of the present application.
  • FIG. 2 is a schematic flowchart of a voice recognition method disclosed in an embodiment of the present application.
  • FIG. 3 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 4 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 5 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 6 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 7 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 8 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • FIG. 9 is a schematic structural diagram of a first device disclosed in an embodiment of the present application.
  • FIG. 10 is a schematic structural diagram of another first device disclosed in an embodiment of the present application.
  • FIG. 11 is a schematic structural diagram of a speaker device disclosed in an embodiment of the present application.
  • FIG. 12 is a schematic structural diagram of another speaker device disclosed in an embodiment of the present application.
  • FIG. 13 is a schematic structural diagram of a communication system disclosed in an embodiment of the present application.
  • FIG. 14 is a schematic diagram of a communication system disclosed in an embodiment of the present application.
  • 15 is a schematic diagram of another communication system disclosed in an embodiment of the present application.
  • the embodiments of the present application disclose a voice recognition method, device and system, which are used to improve the function utilization rate of the device. The details will be described below.
  • FIG. 1 is a schematic diagram of a network architecture disclosed in an embodiment of the present application.
  • the network architecture may include a speaker device 101, a first device 102, and a server 103.
  • the speaker device 101 and the first device 102 may be connected wirelessly, such as a Bluetooth connection, etc., or through a wired connection, such as a pogo pin connection, a Universal Serial Bus (USB) connection, and so on.
  • the first device 102 and the server 103 may be wirelessly connected.
  • the server 103 may be a data server, a wireless fidelity (Wireless-Fidelity, WiFi) server, or the like.
  • the first device 102 may be a tablet computer, a mobile phone, or the like.
  • the first device 102 interacts with the server 103, and the speaker device 101 can output the multimedia file that the first device 102 needs to output.
  • FIG. 2 is a schematic flowchart of a voice recognition method disclosed in an embodiment of the present application.
  • the first device performs speech signal collection, echo cancellation and semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • the first device when the communication connection between the first device and the speaker device is a wireless connection, the first device establishes a communication connection with the speaker device, which may be that the first device sends a connection establishment request to the speaker device, or may be a speaker The device sends a connection establishment request to the first device, or the first device and the speaker device may send a connection establishment request to each other.
  • the communication connection between the first device and the speaker device is a wired connection
  • the establishment of the communication connection between the first device and the speaker device establishes a connection between the first device and the speaker device through an interface, a connection, or the like.
  • the first device starts voice collection of the first device.
  • the first device when or after the communication connection between the first device and the speaker device is established, only the first device is provided with a voice collection device, or both the first device and the speaker device are provided with a voice collection device, However, if the priority of the voice collecting device of the first device is greater than the priority of the voice collecting device of the speaker device, or if the voice collecting device of the first device is set as the voice collecting device of the first device and the speaker device, Turn on the voice collection of the first device, even if the voice collection device of the first device is in a working state. In addition, the first device also needs to turn off the audio output device of the first device and turn on the audio output device of the speaker device so that the audio file to be output on the first device is output through the audio output device on the speaker device.
  • the audio output device may be a speaker, a speaker, etc.
  • the voice collection device may be a microphone, etc.
  • the number of microphones may be one or multiple; when the number of microphones is multiple, the microphones may form a microphone array.
  • the first device collects the first voice signal through the voice collection device.
  • the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered out to obtain the third voice signal.
  • the first device may collect the first voice signal through the voice collection device of the first device.
  • the first device has an echo cancellation function, it can be judged first whether the speaker device outputs the second voice signal when collecting the first voice signal, and when it is determined that the speaker device outputs the second voice signal when collecting the first voice signal In this case, the second voice signal in the first voice signal is filtered out to obtain the third voice signal of the user.
  • the speaker device does not output a voice signal when collecting the first voice signal
  • it is determined that the first voice signal is the third voice signal of the user.
  • the first device analyzes that the third voice signal includes a signal for acquiring information, acquire a multimedia file corresponding to the third voice signal.
  • the first device after the first device obtains the third voice signal, if the first device has a semantic recognition function, first analyze whether the third voice signal includes a signal for acquiring information, and after analyzing that the third voice signal does not include acquiring In the case of an information signal, the third voice signal can be directly discarded.
  • it may continue to determine whether the first device stores a multimedia file corresponding to the third voice signal, that is, determine whether the acquired information is local information.
  • the multimedia file corresponding to the third voice signal is stored, the multimedia file corresponding to the third voice signal is directly obtained from the multimedia file stored in the first device.
  • acquiring the multimedia file corresponding to the third voice signal from the server may be sending an information acquisition request or information generated according to the third voice signal to the server Acquisition instruction.
  • the server After receiving the information acquisition request or the information acquisition instruction, acquires the multimedia file according to the information acquisition request or the information acquisition instruction and sends it to the first device.
  • the multimedia files include at least one of audio files, video files or text files.
  • the first device sends a multimedia file to the speaker device.
  • the first device may directly send the multimedia file to the speaker device if the speaker device is provided with a display screen.
  • the speaker device is not provided with a display screen, it may be first determined whether the multimedia file includes a video file and/or text file, and when it is determined that the multimedia file includes a video file and/or text file, the first device plays the multimedia file Including video files and/or text files.
  • the multimedia file also includes an audio file, the audio file needs to be sent to the speaker device.
  • the first device sending the multimedia file to the speaker device may be sending an instruction for outputting the multimedia file to the speaker device, the instruction including or carrying the multimedia file.
  • the speaker device outputs multimedia files.
  • the speaker device may directly output the multimedia file. It is also possible to first determine whether the speaker device outputs multimedia files, and then output multimedia files if it is determined that the speaker device does not output multimedia files. When it is judged that the speaker device is outputting multimedia files, the multimedia file being output can be stopped first, and then the received multimedia file can be output. After the output of the received multimedia file is completed, the multimedia file that was stopped before output can be continued; You can also wait for the output of the multimedia file being output before outputting the received multimedia file.
  • the multimedia file may include at least one of an audio file, a video file, or a text file.
  • the speaker device can receive the multimedia file from the first device.
  • the speaker device may receive the audio file included in the multimedia file from the first device.
  • FIG. 3 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the first device performs voice signal collection and echo cancellation
  • the server performs semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 301 is the same as step 201.
  • step 201 For detailed description, please refer to step 201, which will not be described in detail here.
  • the first device starts voice collection of the first device.
  • Step 302 is the same as step 202.
  • step 202 please refer to step 202, which will not be described in detail here.
  • the first device collects the first voice signal through the voice collection device.
  • the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered out to obtain the third voice signal.
  • Step 303 is the same as step 203.
  • step 203 For detailed description, please refer to step 203, which will not be described in detail here.
  • the first device sends a third voice signal to the server.
  • the third voice signal is sent to the server, which may be an instruction for semantic recognition sent to the server. Including or carrying the third voice signal.
  • the server analyzes that the third voice signal includes a signal for acquiring information, acquire a multimedia file corresponding to the third voice signal.
  • the server after receiving the third voice signal from the first device, the server first analyzes whether the third voice signal includes a signal for acquiring information, and when it is analyzed that the third voice signal does not include a signal for acquiring information, it may be The third voice signal is directly discarded. In the case where it is analyzed that the third voice signal includes a signal for acquiring information, it may continue to determine whether the server stores a multimedia file corresponding to the third voice signal, that is, determine whether the acquired information is network information, and determine that the server stores a third In the case of the multimedia file corresponding to the voice signal, the multimedia file corresponding to the third voice signal is directly obtained from the multimedia file stored in the server. When it is determined that the server does not store the multimedia file corresponding to the third voice signal, an instruction for acquiring information may be generated.
  • the multimedia files include at least one of audio files, video files or text files.
  • the server sends the multimedia file to the first device.
  • the server after acquiring the multimedia file corresponding to the third voice signal, the server sends the multimedia file to the first device. After the server generates an instruction for acquiring information, it may send the instruction to the first device.
  • the first device sends a multimedia file to the speaker device.
  • the first device when the first device receives the instruction from the server, it may first obtain the multimedia file from the multimedia file stored in the first device according to the instruction, and then send the multimedia file to the speaker device.
  • Step 307 is the same as step 205.
  • step 205 please refer to step 205, which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 308 is the same as step 206.
  • step 206 For detailed description, please refer to step 206, which will not be described in detail here.
  • FIG. 4 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the speaker equipment performs voice signal collection, echo cancellation and semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 401 is the same as step 201.
  • step 201 For detailed description, please refer to step 201, which will not be described in detail here.
  • the first device sends a first instruction for starting voice collection to the speaker device.
  • the speaker device when or after the communication connection between the first device and the speaker device is established, only the speaker device is provided with a voice collection device, or both the first device and the speaker device are provided with a voice collection device, but
  • the priority of the voice collection device of the speaker device is greater than the priority of the voice collection device of the first device, or if the voice collection device of the speaker device is set as the voice collection device of the first device and the speaker device
  • the first device sends the first instruction for starting voice collection.
  • the first device also needs to turn off the audio output device of the first device, and at the same time send a second instruction to turn on the audio output to the speaker device, so that the audio file to be output on the first device is output through the audio output device on the speaker device .
  • the audio output device may be a speaker, a speaker, etc.
  • the voice collection device may be a microphone, etc.
  • the speaker device starts voice collection.
  • the speaker device after receiving the first instruction from the first device, the speaker device starts voice collection according to the first instruction, even if the voice collection device of the speaker device is in a working state. In addition, after receiving the second instruction from the first device, the speaker device turns on the audio output according to the second instruction, even if the audio output device of the speaker device is in a working state.
  • the speaker device collects the first voice signal through the voice collection device.
  • the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered out to obtain the third voice signal .
  • Step 404 is similar to step 203.
  • step 203 please refer to step 203, which will not be described in detail here.
  • the speaker device analyzes that the third voice signal includes a signal for acquiring information, an information acquisition instruction or an information acquisition request is generated according to the third voice signal.
  • the speaker device after the speaker device obtains the third voice signal, if the speaker device has a semantic recognition function, first analyze whether the third voice signal includes a signal for acquiring information, and after analyzing that the third voice signal does not include a signal for acquiring information In the case of a signal, the third voice signal can be directly discarded. When it is analyzed that the third voice signal includes a signal for acquiring information, an information acquisition instruction or an information acquisition request for acquiring information may be generated according to the third voice signal.
  • the speaker device sends an information acquisition instruction or an information acquisition request to the first device.
  • the first device obtains the multimedia file according to the information acquisition instruction or the information acquisition request.
  • the first device may first determine whether the information acquired by the information acquisition instruction or the information acquisition request is stored in the first device.
  • the multimedia file corresponding to the information acquisition instruction or the information acquisition request is acquired from the multimedia file stored in the first device.
  • the acquisition method is similar to that in step 204, please refer to step 204 for a detailed description. Repeat in detail.
  • the first device sends the multimedia file to the speaker device.
  • Step 408 is similar to step 205.
  • step 205 please refer to step 205, which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 409 is similar to step 206.
  • step 206 please refer to step 206, which will not be described in detail here.
  • FIG. 5 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the speaker device performs voice signal collection and echo cancellation
  • the first device performs semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 501 is the same as step 201.
  • step 201 which will not be described in detail here.
  • the first device sends a first instruction for starting voice collection to the speaker device.
  • Step 502 is the same as step 402.
  • step 402 which will not be described in detail here.
  • the speaker device starts voice collection.
  • Step 503 is the same as step 403.
  • step 403 please refer to step 403, which will not be described in detail here.
  • the speaker device collects the first voice signal through the voice collection device.
  • the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered out to obtain the third voice signal .
  • Step 504 is similar to step 203.
  • step 203 For detailed description, please refer to step 203, which will not be described in detail here.
  • the speaker device sends a third voice signal to the first device.
  • the third voice signal is sent to the first device.
  • the first device analyzes that the third voice signal includes a signal for acquiring information, acquire a multimedia file corresponding to the third voice signal.
  • Step 506 is the same as step 204.
  • step 204 For a detailed description, please refer to step 204, which will not be described in detail here.
  • the first device sends a multimedia file to the speaker device.
  • Step 507 is the same as step 205.
  • step 205 For detailed description, please refer to step 205, which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 508 is the same as step 206.
  • step 206 For a detailed description, please refer to step 206, which will not be described in detail here.
  • FIG. 6 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the speaker device performs voice signal collection and echo cancellation
  • the server performs semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 601 is the same as step 201.
  • step 201 which will not be described in detail here.
  • the first device sends a first instruction for starting voice collection to the speaker device.
  • Step 602 is the same as step 402.
  • step 402 which will not be described in detail here.
  • the speaker device starts voice collection.
  • Step 603 is the same as step 403.
  • step 403 please refer to step 403, which will not be described in detail here.
  • the speaker device collects the first voice signal through the voice collection device.
  • the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered to obtain the third voice signal .
  • Step 604 is similar to step 203.
  • step 203 please refer to step 203, which will not be described in detail here.
  • the speaker device sends a third voice signal to the first device.
  • Step 605 is the same as step 505.
  • step 505 please refer to step 505, which will not be described in detail here.
  • the first device sends a third voice signal to the server.
  • the first device after receiving the third voice signal, the first device sends the third voice signal to the server if the first device does not have a semantic recognition function.
  • the server analyzes that the third voice signal includes a signal for obtaining information, obtain a multimedia file corresponding to the third voice signal.
  • Step 607 is the same as step 305.
  • step 305 For a detailed description, please refer to step 305, which will not be described in detail here.
  • the server sends the multimedia file to the first device.
  • Step 608 is the same as step 306.
  • step 306 please refer to step 306, which will not be described in detail here.
  • the first device sends a multimedia file to the speaker device.
  • Step 609 is the same as step 307.
  • step 307 which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 610 is the same as step 206.
  • step 206 For a detailed description, please refer to step 206, which will not be described in detail here.
  • FIG. 7 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the speaker device collects the voice signal
  • the first device performs echo cancellation and semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 701 is the same as step 201.
  • step 201 For a detailed description, please refer to step 201, which will not be described in detail here.
  • the first device sends a first instruction for starting voice collection to the speaker device.
  • Step 702 is the same as step 402. For detailed description, please refer to step 402, and details are not repeated here.
  • the speaker device starts voice collection.
  • Step 703 is the same as step 403.
  • step 403 please refer to step 403, which will not be described in detail here.
  • the speaker device collects the first voice signal through the voice collection device.
  • the speaker device sends the first voice signal to the first device.
  • the speaker device when the speaker device does not have an echo cancellation function, the speaker device directly sends the first voice signal to the first device after collecting the first voice signal through the voice collection device.
  • the first device filters out the second voice signal from the first voice signal to obtain a third voice signal.
  • the first device after receiving the first voice signal from the speaker device, the first device first performs echo cancellation on the first voice signal to obtain a third voice signal.
  • the process of echo cancellation is the same as that in step 203.
  • the first device analyzes that the third voice signal includes a signal for acquiring information, acquire a multimedia file corresponding to the third voice signal.
  • Step 707 is the same as step 204.
  • step 204 please refer to step 204, which will not be described in detail here.
  • the first device sends a multimedia file to the speaker device.
  • Step 708 is the same as step 205.
  • step 205 please refer to step 205, which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 709 is the same as step 206.
  • step 206 please refer to step 206, which will not be described in detail here.
  • FIG. 8 is a schematic flowchart of another voice recognition method disclosed in an embodiment of the present application.
  • the speaker device collects the voice signal
  • the first device performs echo cancellation
  • the server performs semantic recognition.
  • the voice recognition method may include the following steps.
  • the first device establishes a communication connection with the speaker device.
  • Step 801 is the same as step 201.
  • step 201 For detailed description, please refer to step 201, which will not be described in detail here.
  • the first device sends a first instruction for starting voice collection to the speaker device.
  • Step 802 is the same as step 402.
  • step 402 For a detailed description, please refer to step 402, which will not be described in detail here.
  • the speaker device starts voice collection.
  • Step 803 is the same as step 403.
  • step 403 please refer to step 403, which will not be described in detail here.
  • the speaker device collects the first voice signal through the voice collection device.
  • the speaker device sends the first voice signal to the first device.
  • Step 805 is the same as step 705.
  • step 705 For a detailed description, please refer to step 705, which will not be described in detail here.
  • the first device filters out the second voice signal from the first voice signal to obtain a third voice signal.
  • Step 806 is the same as step 706.
  • step 706 which will not be described in detail here.
  • the first device sends a third voice signal to the server.
  • Step 807 is the same as step 304.
  • step 304 please refer to step 304, which will not be described in detail here.
  • the server analyzes that the third voice signal includes a signal for acquiring information, acquire a multimedia file corresponding to the third voice signal.
  • Step 808 is the same as step 305.
  • step 305 For a detailed description, please refer to step 305, which will not be described in detail here.
  • the server sends the multimedia file to the first device.
  • Step 809 is the same as step 306.
  • step 306 which will not be described in detail here.
  • the first device sends a multimedia file to the speaker device.
  • Step 810 is the same as step 307.
  • step 307 which will not be described in detail here.
  • the speaker device outputs multimedia files.
  • Step 811 is the same as step 206.
  • step 206 For a detailed description, please refer to step 206, which will not be described in detail here.
  • FIG. 9 is a schematic structural diagram of a first device disclosed in an embodiment of the present application.
  • the first device may include:
  • the opening unit 901 is configured to start voice collection when the first device establishes a communication connection with the speaker device;
  • the first acquiring unit 902 is configured to acquire a first voice signal
  • the second obtaining unit 903 is configured to obtain the multimedia file corresponding to the first voice signal obtained by the first obtaining unit 901;
  • the sending unit 904 is configured to send the multimedia file acquired by the second acquiring unit 903 to the speaker device, so that the speaker device outputs the multimedia file.
  • establishing a communication connection between the first device and the speaker device includes:
  • the first device establishes a wired connection and/or a wireless connection with the speaker device.
  • the startup unit 901 is specifically configured to send a first instruction for starting the voice collection to the speaker device.
  • the first acquiring unit 902 is specifically configured to:
  • the speaker device When the speaker device outputs the third voice signal when collecting the second voice signal, the third voice signal in the second voice signal is filtered out to obtain the first voice signal;
  • the speaker device When the speaker device does not output a voice signal when collecting the second voice signal, it is determined that the second voice signal is the first voice signal.
  • the first acquiring unit 902 is specifically configured to receive the first voice signal from the speaker device.
  • the first acquiring unit 902 is specifically configured to:
  • the speaker device When the speaker device outputs the fifth voice signal when collecting the fourth voice signal, the fifth voice signal in the fourth voice signal is filtered out to obtain the first voice signal;
  • the speaker device When the speaker device does not output a voice signal when collecting the fourth voice signal, it is determined that the fourth voice signal is the first voice signal.
  • the second obtaining unit 903 is specifically configured to obtain the multimedia file corresponding to the first voice signal when the first voice signal includes a signal that obtains information.
  • the second acquiring unit 903 acquiring the multimedia file corresponding to the first voice signal includes:
  • the multimedia file corresponding to the first voice signal is acquired from the server.
  • the second obtaining unit 903 is specifically configured to:
  • the multimedia file is a multimedia file corresponding to the first voice signal acquired by the server when the first voice signal includes a signal for acquiring information.
  • the second obtaining unit 903 is specifically configured to:
  • the second instruction is an instruction generated by the server according to the first speech signal when the first speech signal includes a signal to obtain information
  • the multimedia file may include at least one of an audio file, a video file, or a text file.
  • the sending unit 904 is specifically configured to send the multimedia file to the speaker device when the multimedia file includes only audio files;
  • the first device may also include:
  • the playing unit 905 is configured to play the text file and/or video file included in the multimedia file when the multimedia file obtained by the second obtaining unit 903 includes the text file and/or video file.
  • the sending unit 904 sending the multimedia file to the speaker device includes:
  • the first device may also perform the method steps performed by the first device in FIGS. 2-8, and may include other units that perform the method steps performed by the first device in FIGS. Repeat.
  • FIG. 10 is a schematic structural diagram of another first device disclosed in an embodiment of the present application.
  • the first device may include a processor 1001, a memory 1002, a camera 1003, a display screen 1004, a voice collection device 1005, an output device 1006, a communication interface 1007, and a connection line 1008.
  • the connection between the above components may be This is achieved by connecting line 1008.
  • the processor 1001 may be a general-purpose central processing unit (CPU), multiple CPUs, microprocessors, application-specific integrated circuits (ASICs), or one or more of which are used to control the execution of the program programs of this application integrated circuit.
  • CPU general-purpose central processing unit
  • ASICs application-specific integrated circuits
  • the memory 1002 may be read-only memory (ROM) or other types of static storage devices that can store static information and instructions, random access memory (random access memory, RAM), or other types that can store information and instructions
  • the dynamic storage device can also be electrically erasable programmable read-only memory (Electrically Erasable Programmable Read-Only Memory, EEPROM), read-only disc (Compact Disc Read-Only Memory, CD-ROM) or other disc storage, disc storage ( (Including compact discs, laser discs, optical discs, digital versatile discs, Blu-ray discs, etc.), disk storage media or other magnetic storage devices, or can be used to carry or store the desired program code in the form of instructions or data structures and can be stored by the computer Any other media, but not limited to this.
  • the memory 1002 may exist independently, or may be integrated with the processor 1001.
  • the display screen 1004 may be a display screen with only a display function, or a display screen with a display function and a touch detection function.
  • the voice collection device 1005 may be a microphone or other devices with a voice collection function.
  • the output device 1006 may be a voice output device, such as a speaker, a speaker, etc., and may also be a device with other output functions.
  • the communication interface 1007 may be a transceiver antenna, a wired interface, or another communication interface. among them:
  • a set of program codes is stored in the memory, and the processor 1001 is used to call the program codes stored in the memory 1002 to perform the following operations:
  • the communication interface 1007 is used to send multimedia files to the speaker device, so that the speaker device outputs multimedia files.
  • establishing a communication connection between the first device and the speaker device includes:
  • the first device establishes a wired connection and/or a wireless connection with the speaker device.
  • the processor 1001 enabling the voice collection includes:
  • the communication interface 1007 sends a first instruction for starting voice collection to the speaker device.
  • the processor 1001 acquiring the first voice signal includes:
  • the voice collecting device 1005 collects the second voice signal
  • the processor 1001 filters out the third voice signal in the second voice signal to obtain the first voice signal when the speaker device outputs the third voice signal when collecting the second voice signal;
  • the processor 1001 determines that the second voice signal is the first voice signal when the speaker device does not output the voice signal when collecting the second voice signal.
  • the processor 1001 acquiring the first voice signal includes:
  • the communication interface 1007 receives the first voice signal from the speaker device.
  • the processor 1001 acquiring the first voice signal includes:
  • the communication interface 1007 receives the fourth voice signal from the speaker device
  • the processor 1001 filters out the fifth voice signal in the fourth voice signal to obtain the first voice signal when the speaker device outputs the fifth voice signal when collecting the fourth voice signal;
  • the processor 1001 determines that the fourth voice signal is the first voice signal when the speaker device does not output the voice signal when collecting the fourth voice signal.
  • the processor 1001 acquiring the multimedia file corresponding to the first voice signal includes:
  • the processor 1001 obtains a multimedia file corresponding to the first voice signal when analyzing the signal including the information obtained by the first voice signal.
  • the processor 1001 acquiring the multimedia file corresponding to the first voice signal includes:
  • the communication interface 1007 obtains the multimedia file corresponding to the first voice signal from the server.
  • the processor 1001 acquiring the multimedia file corresponding to the first voice signal includes:
  • the communication interface 1007 sends the first voice signal to the server
  • the communication interface 1007 receives a multimedia file from the server.
  • the multimedia file is a multimedia file corresponding to the first voice signal acquired by the server when the first voice signal includes a signal for acquiring information.
  • the processor 1001 acquiring the multimedia file corresponding to the first voice signal includes:
  • the communication interface 1007 sends the first voice signal to the server
  • the communication interface 1007 receives a second instruction from the server.
  • the second instruction is an instruction generated by the server according to the first speech signal in the case where the first speech signal includes a signal for acquiring information;
  • the processor 1001 obtains the multimedia file according to the second instruction.
  • the multimedia file includes at least one of an audio file, a video file, or a text file.
  • the communication interface 1007 sending the multimedia file to the speaker device includes:
  • the communication interface 1007 sends the multimedia file to the speaker device when the multimedia file includes only the audio file
  • the display screen 1004 is used to play the text file and/or video file included in the multimedia file when the multimedia file includes the text file and/or video file.
  • the communication interface 1007 sending the multimedia file to the speaker device includes:
  • the communication interface 1007 sends a third instruction for outputting a multimedia file to the speaker device, and the third instruction includes or carries the multimedia file.
  • the first device may perform the method steps performed by the first device in FIG. 2 to FIG. 8, which will not be repeated here.
  • the opening unit 901, the first acquiring unit 902 and the third acquiring unit 902 may be implemented by the processor 1001 and the memory 1002 in the first device, and the sending unit 904 may be implemented by the communication interface 1007 in the first device, playing The unit 905 may be implemented by the display screen 1005 in the first device.
  • FIG. 11 is a schematic structural diagram of a speaker device disclosed in an embodiment of the present application.
  • the speaker device may include:
  • the receiving unit 1101 is configured to receive a first instruction from the first device to start voice collection after the speaker device establishes a communication connection with the first device;
  • Opening unit 1102 used to start voice collection
  • the collecting unit 1103 is configured to collect the first voice signal through the voice collecting device of the speaker device;
  • the sending unit 1104 is configured to send the first voice signal collected by the collecting unit 1103 to the first device;
  • the receiving unit 1101 is further configured to receive a multimedia file from the first device, and the multimedia file is a multimedia file corresponding to the first voice signal acquired by the first device;
  • the output unit 1105 is also used to output the multimedia file received by the receiving unit 1101.
  • establishing a communication connection between the speaker device and the first device includes:
  • the speaker device establishes a wired connection and/or a wireless connection with the first device.
  • the speaker device may further include:
  • the filtering unit 1106 is configured to filter out the second voice signal in the first voice signal collected by the collecting unit 1103 when the speaker device outputs the second voice signal when collecting the first voice signal to obtain a third voice signal;
  • the sending unit 1104 is specifically configured to send a third voice signal to the first device
  • the multimedia file is a multimedia file corresponding to the third voice signal acquired by the first device.
  • the speaker device may further include:
  • the generating unit 1107 is configured to generate a second instruction according to the third voice signal when it is analyzed that the third voice signal includes a signal for acquiring information;
  • the sending unit 1104 sending the third voice signal to the first device includes:
  • the multimedia file includes at least one of an audio file, a video file, or a text file.
  • the receiving unit 1101 receiving the multimedia file from the first device includes:
  • the third instruction including or carrying the multimedia file.
  • the speaker device can also perform the method steps performed by the speaker device in FIGS. 2-8 described above, and can also include other units that perform the method steps performed by the speaker device in FIGS.
  • the sound box device may include a processor 1201, a memory 1202, a communication interface 1203, a voice collection device 1204, an output device 1205, and a connection line 1206.
  • the connection between the above components can be achieved through the connection line 1206.
  • the processor 1201 may be a general-purpose central processing unit (CPU), multiple CPUs, microprocessors, application-specific integrated circuits (ASICs), or one or more of which are used to control the execution of the program programs of this application integrated circuit.
  • the memory 1202 may be a read-only memory (ROM) or other types of static storage devices that can store static information and instructions, random access memory (random access memory, RAM), or other types of information and instructions that can be stored Dynamic storage devices can also be Electrically Erasable Programmable Read-Only Memory (EEPROM), Compact Disc Read-Only Memory (CD-ROM) or other optical disk storage, optical disc storage ( (Including compact discs, laser discs, optical discs, digital versatile discs, Blu-ray discs, etc.), disk storage media or other magnetic storage devices, or can be used to carry or store the desired program code in the form of instructions or data structures and can be stored by the computer Any other media, but not limited to this.
  • the memory 1202 may exist independently, or may be integrated with the processor 1201.
  • the voice collection device 1204 may be a microphone or other devices with a voice collection function.
  • the output device 1205 may be an audio output device, such as a speaker, a speaker, etc., or a device with other output functions.
  • the communication interface 1203 may be a transceiver antenna, a wired interface, or another communication interface. among them:
  • the communication interface 1203 is used to receive a first instruction from the first device to start voice collection after the speaker device and the first device establish a communication connection;
  • a group of program codes is stored in the memory 1202, and the processor 1201 is used to call the program codes stored in the memory 1202 to perform the following operations:
  • the voice collecting device 1204 is used to collect the first voice signal
  • the communication interface 1203 is also used to send a first voice signal to the first device
  • the communication interface 1203 is also used to receive multimedia files from the first device, and the multimedia files are multimedia files corresponding to the first voice signal acquired by the first device;
  • the output device 1205 is used to output multimedia files.
  • establishing a communication connection between the speaker device and the first device includes:
  • the speaker device establishes a wired connection and/or a wireless connection with the first device.
  • the processor 1201 is further configured to call the program code stored in the memory 1202 to perform the following operations:
  • the speaker device When the speaker device outputs the second voice signal when collecting the first voice signal, the second voice signal in the first voice signal is filtered out to obtain a third voice signal;
  • the communication interface 1203 sending the first voice signal to the first device includes:
  • the third voice signal to the first device
  • the multimedia file is a multimedia file corresponding to the third voice signal acquired by the first device.
  • the processor 1201 is further configured to call the program code stored in the memory 1202 to perform the following operations:
  • the third voice signal includes a signal for acquiring information
  • a second instruction is generated according to the third voice signal
  • the communication interface 1203 sending the third voice signal to the first device includes:
  • the communication interface 1203 sends the second instruction to the first device.
  • the multimedia file includes at least one of an audio file, a video file, or a text file.
  • the communication interface 1203 receiving the multimedia file from the first device includes:
  • the third instruction including or carrying the multimedia file.
  • the speaker device can perform the method steps performed by the speaker device in FIG. 2 to FIG. 8, which will not be repeated here.
  • the opening unit 1102, the filtering unit 1106 and the generating unit 1107 can be implemented by the processor 1201 and the memory 1202 in the speaker device
  • the receiving unit 1101 and the sending unit 1102 can be implemented by the communication interface 1203 in the speaker device
  • the collection unit 1103 It can be implemented by the voice collection device 1204 in the speaker device
  • the output unit 1105 can be implemented by the output device 1205 in the speaker device.
  • FIG. 13 is a schematic structural diagram of a communication system disclosed in an embodiment of the present application.
  • the communication system may include a first device 1301, a speaker device 1302, and a server 1303. among them:
  • the first device 1301 is configured to start voice collection when the first device establishes a communication connection with the speaker device, obtain the first voice signal, obtain the multimedia file corresponding to the first voice signal, and send the multimedia file to the speaker device 1302;
  • the speaker device 1302 is used to receive multimedia files and output multimedia files.
  • establishing a communication connection between the first device 1301 and the speaker device 1302 includes:
  • the first device 1301 establishes a wired connection and/or a wireless connection with the speaker device 1302.
  • the first device 1301 enabling voice collection includes:
  • the speaker device 1302 is also used to receive the first instruction from the first device and start voice collection.
  • the first device 1301 acquiring the first voice signal includes:
  • the speaker device 1302 When the speaker device 1302 outputs the third voice signal when collecting the second voice signal, the third voice signal in the second voice signal is filtered out to obtain the first voice signal;
  • the speaker device 1302 When the speaker device 1302 does not output a voice signal when collecting the second voice signal, it is determined that the second voice signal is the first voice signal.
  • the speaker device 1302 when the voice collection enabled is the voice collection of the speaker device 1302, the speaker device 1302 is also used to collect the fourth voice signal through the voice collection device of the speaker device 1302, and collect the fourth voice
  • the speaker device 1302 outputs the fifth voice signal during the signal, the fifth voice signal is filtered out of the fourth voice signal to obtain the first voice signal, and the first voice signal is sent to the first device 1301;
  • the first device 1301 acquiring the first voice signal includes:
  • the speaker device 1302 is also used to collect the fourth voice signal through the voice collection device of the speaker device 1302 and send 1301 sends a fourth voice signal;
  • the first device 1301 acquiring the first voice signal includes:
  • the speaker device 1302 When the speaker device 1302 outputs the fifth voice signal when collecting the first voice signal, the fifth voice signal in the fourth voice signal is filtered out to obtain the first voice signal;
  • the speaker device 1302 When the speaker device 1302 does not output a voice signal when collecting the fourth voice signal, it is determined that the fourth voice signal is the first voice signal.
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal includes:
  • the first voice signal includes a signal for acquiring information
  • a multimedia file corresponding to the first voice signal is acquired.
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal includes:
  • the multimedia file corresponding to the first voice signal is acquired from the server 1303.
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal includes:
  • the server 1303 is configured to receive the first voice signal, and when the first voice signal includes a signal for acquiring information, analyze the multimedia file corresponding to the acquired first voice signal and send the multimedia file to the first device;
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal further includes:
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal includes:
  • the server 1303 is configured to receive a first voice signal, and in the case where the first voice signal includes a signal to obtain information, generate a second instruction according to the first voice signal and send the second instruction to the first device;
  • the first device 1301 acquiring the multimedia file corresponding to the first voice signal further includes:
  • the multimedia file includes at least one of an audio file, a video file, or a text file.
  • the first device 1301 sending the multimedia file to the speaker device 1302 includes:
  • the multimedia file includes only audio files
  • the first device 1301 is further configured to play the text file and/or video file included in the multimedia file when the multimedia file includes the text file and/or video file.
  • the first device 1301 sending the multimedia file to the speaker device 1302 includes:
  • the speaker device 1302 receives multimedia files from the first device 1301 including:
  • FIG. 14 is a schematic diagram of a communication system disclosed in an embodiment of the present application.
  • the communication system includes a tablet computer and a base.
  • the tablet computer may have a wired interface pogo pin connected to the base.
  • the tablet and the base can be connected wirelessly via Bluetooth.
  • the tablet computer includes 4 microphones (microphone, MIC), and the base includes 2 speakers (SPK).
  • SPK 2 speakers
  • the base When the base is connected to power, the tablet can be charged via pogopin.
  • the audio stream sent from the tablet to the base is transmitted via a Bluetooth connection.
  • FIG. 15 is a schematic diagram of another communication system disclosed in an embodiment of the present application.
  • the communication system includes a tablet computer and a base.
  • the tablet computer may have a wired interface pogo pin connected to the base.
  • the base includes 6 MICs and the base includes 2 SPKs.
  • the tablet can be charged via pogopin.
  • the tablet can send audio streams to the base through pogo pins, and the base can send voice signals to the tablet through pogo pins.
  • the embodiment of the present application also discloses a readable storage medium, and the readable storage medium stores a program, and when the program runs, the voice recognition method shown in FIGS. 2 to 8 is realized.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Telephonic Communication Services (AREA)
  • Telephone Function (AREA)

Abstract

一种语音识别方法、设备及系统,该方法应用于第一设备,当第一设备与音箱设备建立通信连接时,开启语音采集;获取第一语音信号;获取第一语音信号对应的多媒体文件;向音箱设备发送多媒体文件,以使得音箱设备输出多媒体文件。本申请实施例,可以提高设备的功能利用率。

Description

一种语音识别方法、设备及系统 技术领域
本申请实施例涉及终端技术领域,具体涉及一种语音识别方法、设备及系统。
背景技术
随着电子技术的不断发展,平板电脑、手机等设备(即第一设备)和音箱设备已成为人们日常生活中必不可少的电子产品。由于受第一设备大小等因素的影响,第一设备上喇叭的放大、音效等功能不如音箱设备上的喇叭。因此,为了提高音频信号的输出效果,可以将音箱设备接入第一设备。将音箱设备接入第一设备后,第一设备上的音频信号可以通过音箱设备上的喇叭输出,但第一设备和/或音箱设备上的其它功能可能会受到限制,以致降低了设备的功能利用率。
发明内容
本申请实施例公开了一种语音识别方法、设备及系统,用于在音箱设备接入第一设备之后进行语音处理,以便提高设备的功能利用率。
第一方面公开一种语音识别方法,该方法应用于第一设备,当第一设备与音箱设备建立通信连接时,开启语音采集,获取第一语音信号,获取第一语音信号对应的多媒体文件,向音箱设备发送多媒体文件,以便音箱设备输出多媒体文件。可见,在音箱设备接入第一设备之后,第一设备可以进行语音信号的处理,因此,可以提高设备的功能利用率。
在一种可能的实现方式中,第一设备与音箱设备建立的通信连接可以为有线连接和/或无线连接。
在一种可能的实现方式中,在开启的语音采集为音箱设备的语音采集的情况下,向音箱设备发送用于开启语音采集的第一指令,以便音箱设备根据第一指令开启音箱设备的语音采集,进而可以采集语音信号,以实现语音识别。
在一种可能的实现方式中,在开启的语音采集为第一设备的语音采集的情况下,通过第一设备的语音采集装置采集第二语音信号,在采集第二语音信号时音箱设备输出第三语音信号的情况下,过滤掉第二语音信号中的第三语音信号得到第一语音信号,在采集第二语音信号时音箱设备未输出语音信号的情况下,确定第二语音信号为第一语音信号。可见,可以过滤掉采集的语音信号中音箱设备输出的语音信号得到用户的语音信号,即可以实现回声抵消。
在一种可能的实现方式中,在开启的语音采集为音箱设备的语音采集的情况下,接收来自音箱设备的第一语音信号,可见,语音信号可以是音箱设备采集的。
在一种可能的实现方式中,在开启的语音采集为音箱设备的语音采集的情况下,接收来自音箱设备的第四语音信号,在采集第四语音信号时音箱设备输出第五语音信号的情况下,过滤掉第四语音信号中的第五语音信号得到第一语音信号,在采集第四语音信号时音箱设备未输出语音信号的情况下,确定第四语音信号为第一语音信号。可见,语音信号可以是音箱设备采集的,但回声抵消是在第一设备进行的。
在一种可能的实现方式中,在分析出第一语音信号包括获取信息的信号的情况下,才获取第一语音信号对应的多媒体文件,可见,在第一设备具有语义识别功能的情况下,先识别语音信号是否包括获取信息的信号,在语音信号包括获取信息的信号的情况下,才获取对应的信息,而在语音信号不包括获取信息的信号的情况下,可以直接丢弃该语音信号,从而可以避免不必要的处理过程。
在一种可能的实现方式中,只有在第一设备未存储有第一语音信号对应的多媒体文件的情况下,才需要从服务器获取第一语音信号对应的多媒体文件,在实现与网络的交互的同时可以避免不必要的处理过程。
在一种可能的实现方式中,可以向服务器发送第一语音信号,并接收来自服务器的多媒体文件,多媒体文件是在第一语音信号包括获取信息的信号的情况下,服务器获取的第一语音信号对应的多媒体文件。可见,在第一设备不具有语义识别功能的情况下,将语音信号发送给网络,由网络进行识别,且识别出需要的信息在网络的情况下,网络会将信息发送给第一设备。
在一种可能的实现方式中,可以向服务器发送第一语音信号,接收来自服务器的第二指令,第二指令为在第一语音信号包括获取信息的信号的情况下,服务器根据第一语音信号生成的指令,根据第二指令获取多媒体文件。可见,在第一设备不具有语义识别功能的情况下,将语音信号发送给网络,由网络进行识别,且识别出需要的信息不在网络的情况下,网络向第一设备发送指令,以便第一设备根据指令获取信息。
在一种可能的实现方式中,多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。
在一种可能的实现方式中,在音箱设备不包括显示屏,且多媒体文件只包括音频文件的情况下,才向音箱设备发送多媒体文件。此外,在音箱设备不包括显示屏,且多媒体文件包括文本文件和/或视频文件的情况下,播放多媒体文件包括的文本文件和/或视频文件。可见,在音箱设备不包括显示屏的情况下,而多媒体文件包括文本文件和/或视频文件的情况下,多媒体文件包括的文本文件和/或视频文件是在第一设备进行播放的。
在一种可能的实现方式中,向音箱设备发送用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。可见,可以将需要音箱设备输出的多媒体文件以指令的方式发送给音箱设备。
第二方面公开一种语音识别方法,该方法应用于音箱设备,在音箱设备与第一设备建立通信连接后,接收来自第一设备的用于开启语音采集的第一指令,开启语音采集,通过音箱设备的语音采集装置采集第一语音信号,向第一设备发送第一语音信号,接收来自第一设备的多媒体文件输出多媒体文件。其中,多媒体文件是第一设备获取的第一语音信号对应的多媒体文件。可见,由音箱设备进行语音采集,由第一设备或服务器进行语义识别的,因此,在音箱设备接入第一设备之后,第一设备可以进行语音信号的处理,因此,可以提高设备的功能利用率。
在一种可能的实现方式中,音箱设备与第一设备建立的通信连接可以为有线连接和/或无线连接。
在一种可能的实现方式中,在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号得到第三语音信号,之后向第一设备发送第三语音信号。其中,多媒体文件是第一设备获取的第三语音信号对应的多媒体文件。可见,在音箱设备具有回声抵消功能的情况下,音箱设备将语音信号发送给第一设备之前,先要进行回声抵消处理。
在一种可能的实现方式中,在分析出第三语音信号包括获取信息的信号的情况下,根据第三语音信号生成第二指令,向第一设备发送第二指令。可见,在音箱设备具有语义识功能的情况下,音箱设备先对语音信号进行语义识别,在识别出语音信号需要获取信息的情况下,直接向第一设备发送获取信息的指令。
在一种可能的实现方式中,在音箱设备包括显示屏的情况下,多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。
在一种可能的实现方式中,接收来自第一设备的用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。可见,音箱设备接收的多媒体文件可以以指令的方式发送。
第三方面公开一种第一设备,该第一设备包括用于执行第一方面或第一方面的任一实施例所公开的语音识别方法的单元。
第四方面公开一种音箱设备,该音箱设备包括用于执行第二方面或第二方面任一实施例所公开的语音识别方法的单元。
第五方面公开一种第一设备,该第一设备包括处理器、存储器和通信接口,通信接口用于与其它设备进行通信,存储器用于存储一组程序代码,处理器用于执行程序代码。当处理器执行存储器存储的程序代码时,使得处理器执行第一方面或第一方面的任一种实施例所公开的语音识别方法。
第六方面公开一种音箱设备,该音箱设备包括处理器、存储器和通信接口,通信接口用于与其它设备进行通信,存储器用于存储一组程序代码,处理器用于执行程序代码。当处理器执行存储器存储的程序代码时,使得处理器执行第二方面或第二方面的任一种实施例所公开的语音识别方法。
第七方面公开一种可读存储介质,该可读存储介质上存储有程序,当该程序运行时,实现如第一方面或第一方面的任一种实施例所公开的语音识别方法,或者实现如第二方面或第二方面的任一种实施例所公开的语音识别方法。
附图说明
图1是本申请实施例公开的一种网络架构示意图;
图2是本申请实施例公开的一种语音识别方法的流程示意图;
图3是本申请实施例公开的另一种语音识别方法的流程示意图;
图4是本申请实施例公开的又一种语音识别方法的流程示意图;
图5是本申请实施例公开的又一种语音识别方法的流程示意图;
图6是本申请实施例公开的又一种语音识别方法的流程示意图;
图7是本申请实施例公开的又一种语音识别方法的流程示意图;
图8是本申请实施例公开的又一种语音识别方法的流程示意图;
图9是本申请实施例公开的一种第一设备的结构示意图;
图10是本申请实施例公开的另一种第一设备的结构示意图;
图11是本申请实施例公开的一种音箱设备的结构示意图;
图12是本申请实施例公开的另一种音箱设备的结构示意图;
图13是本申请实施例公开的一种通信系统的结构示意图;
图14是本申请实施例公开的一种通信系统的示意图;
图15是本申请实施例公开的另一种通信系统的示意图。
具体实施方式
本申请实施例公开了一种语音识别方法、设备及系统,用于提高设备的功能利用率。以下进行详细说明。
为了更好地理解本申请实施例公开的一种语音识别方法、设备及系统,下面先对本申请实施例使用的网络架构进行描述。请参阅图1,图1是本申请实施例公开的一种网络架构示意图。如图1所示,该网络架构可以包括音箱设备101、第一设备102和服务器103。音箱设备101与第一设备102之间可以通过无线连接,如蓝牙连接等,也可以通过有线连接,如pogo pin连接、通用串行总线(Universal Serial Bus,USB)连接等。第一设备102与服务器103之间可以通过无线连接。服务器103可以为数据服务器、无线保真(Wireless-Fidelity,WiFi)服务器等。第一设备102可以为平板电脑、手机等。第一设备102与服务器103进行交互,音箱设备101可以输出第一设备102需要输出的多媒体文件。
基于图1所示的网络架构,请参阅图2,图2是本申请实施例公开的一种语音识别方法的流程示意图。其中,由第一设备进行语音信号采集、回声抵消和语义识别。如图2所示,该语音识别方法可以包括以下步骤。
201、第一设备与音箱设备建立通信连接。
本实施例中,第一设备与音箱设备之间的通信连接为无线连接的情况下,第一设备与音箱设备建立通信连接,可以是第一设备向音箱设备发送连接建立请求,也可以是音箱设备向第一设备发送连接建立请求,还可以是第一设备与音箱设备之间互相发送连接建立请求。第一设备与音箱设备之间的通信连接为有线连接的情况下,第一设备与音箱设备建立通信连接为第一设备与音箱设备通过接口、连线等建立了连接。
202、第一设备开启第一设备的语音采集。
本实施例中,在第一设备与音箱设备建立通信连接时或建立连接后,在只有第一设备设置有语音采集装置的情况下,或者在第一设备和音箱设备均设置有语音采集装置,但第一设备的语音采集装置的优先级大于音箱设备的语音采集装置的优先级,或者第一设备的语音采集装置被设置为第一设备和音箱设备的语音采集装置的情况下,第一设备开启第一设备的语音采集,即使第一设备的语音采集装置处于工作状态。此外,第一设备还需要关闭第一设备的音频输出装置,同时开启音箱设备的音频输出装置,以便第一设备上要输出的音频文件通过音箱设备上的音频输出装置输出。音频输出装置可以为扬声器、喇叭等, 语音采集装置可以为麦克风等。其中,在语音采集装置为麦克风的情况下,麦克风的数量可以为一个,也可以为多个;在麦克风的数量为多个的情况下,麦克风可以组成麦克风阵列。
203、第一设备通过语音采集装置采集第一语音信号,在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
本实施例中,第一设备开启第一设备的语音采集之后,第一设备可以通过第一设备的语音采集装置采集第一语音信号。在第一设备具有回声抵消功能的情况下,之后可以先判断在采集第一语音信号时音箱设备是否输出第二语音信号,在判断出在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到用户的第三语音信号。在判断出在采集第一语音信号时音箱设备未输出语音信号的情况下,确定第一语音信号为用户的第三语音信号。
204、第一设备分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
本实施例中,第一设备得到第三语音信号之后,在第一设备具有语义识别功能的情况下,先分析第三语音信号是否包括获取信息的信号,在分析出第三语音信号不包括获取信息的信号的情况下,可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下,可以继续判断第一设备是否存储有第三语音信号对应的多媒体文件,即判断获取的信息是否为本地信息,在判断出第一设备存储有第三语音信号对应的多媒体文件的情况下,直接从第一设备存储的多媒体文件中获取第三语音信号对应的多媒体文件。在判断出第一设备未存储有第三语音信号对应的多媒体文件的情况下,从服务器获取第三语音信号对应的多媒体文件,可以是向服务器发送根据第三语音信号生成的信息获取请求或信息获取指令,服务器接收到信息获取请求或信息获取指令之后,根据信息获取请求或信息获取指令获取多媒体文件并发送给第一设备。其中,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
205、第一设备向音箱设备发送多媒体文件。
本实施例中,第一设备获取到第三语音信号对应的多媒体文件之后,在音箱设备设置有显示屏的情况下,可以直接向音箱设备发送多媒体文件。在音箱设备未设置有显示屏的情况下,可以先判断多媒体文件是否包括视频文件和/或文本文件,在判断出多媒体文件包括视频文件和/或文本文件的情况下,第一设备播放多媒体文件包括的视频文件和/或文本文件,此外,在多媒体文件还包括音频文件的情况下,还需要将该音频文件发送给音箱设备。在判断出多媒体文件只包括音频文件的情况下,可以直接向音箱设备发送多媒体文件。第一设备向音箱设备发送多媒体文件可以是向音箱设备发送用于输出多媒体文件的指令,该指令包括或携带有多媒体文件。
206、音箱设备输出多媒体文件。
本实施例中,音箱设备接收到来自第一设备的多媒体文件或用于输出多媒体文件的指令之后,可以直接输出多媒体文件。也可以先判断音箱设备是否输出多媒体文件,在判断出音箱设备未输出多媒体文件的情况下,再输出多媒体文件。在判断出音箱设备正输出多媒体文件的情况下,可以先停止正在输出的多媒体文件,之后输出接收到的多媒体文件, 等接收到的多媒体文件输出完成之后,再继续输出之前停止输出的多媒体文件;也可以等正输出的多媒体文件输出完成之后,再输出接收的多媒体文件。在音箱设备包括显示屏的情况下,多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。在音箱设备不包括显示屏,且多媒体文件只包括音频文件的情况下,音箱设备可以接收到来自第一设备的多媒体文件。在音箱设备不包括显示屏,且多媒体文件包括音频文件以及视频文件(和/或文本文件)的情况下,音箱设备可以接收到来自第一设备的多媒体文件包括的音频文件。
基于图1所示的网络架构,请参阅图3,图3是本申请实施例公开的另一种语音识别方法的流程示意图。其中,由第一设备进行语音信号采集和回声抵消,由服务器进行语义识别。如图3所示,该语音识别方法可以包括以下步骤。
301、第一设备与音箱设备建立通信连接。
其中,步骤301与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
302、第一设备开启第一设备的语音采集。
其中,步骤302与步骤202相同,详细描述请参考步骤202,在此不再详细赘述。
303、第一设备通过语音采集装置采集第一语音信号,在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
其中,步骤303与步骤203相同,详细描述请参考步骤203,在此不再详细赘述。
304、第一设备向服务器发送第三语音信号。
本实施例中,在第一设备不具有语义识别功能的情况下,第一设备得到第三语音信号之后,向服务器发送第三语音信号,可以是向服务器发送用于语义识别的指令,该指令包括或携带第三语音信号。
305、服务器分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
本实施例中,服务器接收到来自第一设备的第三语音信号之后,先分析第三语音信号是否包括获取信息的信号,在分析出第三语音信号不包括获取信息的信号的情况下,可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下,可以继续判断服务器是否存储有第三语音信号对应的多媒体文件,即判断获取的信息是否为网络信息,在判断出服务器存储有第三语音信号对应的多媒体文件的情况下,直接从服务器存储的多媒体文件中获取第三语音信号对应的多媒体文件。在判断出服务器未存储有第三语音信号对应的多媒体文件的情况下,可以生成用于获取信息的指令。其中,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
306、服务器向第一设备发送多媒体文件。
本实施例中,服务器获取到第三语音信号对应的多媒体文件之后,向第一设备发送多媒体文件。服务器生成用于获取信息的指令之后,可以向第一设备发送该指令。
307、第一设备向音箱设备发送多媒体文件。
本实施例中,在第一设备接收到来自服务器的指令的情况下,可以先根据该指令从第一设备存储的多媒体文件中获取多媒体文件,之后向音箱设备发送多媒体文件。
其中,步骤307与步骤205相同,详细描述请参考步骤205,在此不再详细赘述。
308、音箱设备输出多媒体文件。
其中,步骤308与步骤206相同,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图4,图4是本申请实施例公开的又一种语音识别方法的流程示意图。其中,由音箱设备进行语音信号采集、回声抵消和语义识别。如图4所示,该语音识别方法可以包括以下步骤。
401、第一设备与音箱设备建立通信连接。
其中,步骤401与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
402、第一设备向音箱设备发送用于开启语音采集的第一指令。
本实施例中,在第一设备与音箱设备建立通信连接时或建立连接后,在只有音箱设备设置有语音采集装置的情况下,或者在第一设备和音箱设备均设置有语音采集装置,但音箱设备的语音采集装置的优先级大于第一设备的语音采集装置的优先级,或者音箱设备的语音采集装置被设置为第一设备和音箱设备的语音采集装置的情况下,第一设备向音箱设备发送用于开启语音采集的第一指令。此外,第一设备还需要关闭第一设备的音频输出装置,同时向音箱设备发送用于开启音频输出的第二指令,以便第一设备上要输出的音频文件通过音箱设备上的音频输出装置输出。音频输出装置可以为扬声器、喇叭等,语音采集装置可以为麦克风等。
403、音箱设备开启语音采集。
本实施例中,音箱设备接收到来自第一设备的第一指令之后根据第一指令开启语音采集,即使音箱设备的语音采集装置处于工作状态。此外,音箱设备接收到来自第一设备的第二指令之后,根据第二指令开启音频输出,即使音箱设备的音频输出装置处于工作状态。
404、音箱设备通过语音采集装置采集第一语音信号,在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
其中,步骤404与步骤203相似,详细描述请参考步骤203,在此不再详细赘述。
405、音箱设备分析出第三语音信号包括获取信息的信号的情况下,根据第三语音信号生成信息获取指令或信息获取请求。
本实施例中,音箱设备得到第三语音信号之后,在音箱设备具有语义识别功能的情况下,先分析第三语音信号是否包括获取信息的信号,在分析出第三语音信号不包括获取信息的信号的情况下,可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下,可以根据第三语音信号生成用于获取信息的信息获取指令或信息获取请求。
406、音箱设备向第一设备发送信息获取指令或信息获取请求。
407、第一设备根据信息获取指令或信息获取请求获取多媒体文件。
本实施例中,第一设备接收到来自音箱设备的信息获取指令或信息获取请求之后,可以先判断信息获取指令或信息获取请求获取的信息是否存储在第一设备中,在判断出存储在第一设备中的情况下,从第一设备存储的多媒体文件中获取信息获取指令或信息获取请求对应的多媒体文件。在判断出未存储在第一设备中的情况下,从服务器获取信息获取指令或信息获取请求对应的对应的多媒体文件,获取方式与步骤204中的相似,详细描述请参考步骤204,在此不再详细赘述。
408、第一设备向音箱设备发送多媒体文件。
其中,步骤408与步骤205相似,详细描述请参考步骤205,在此不再详细赘述。
409、音箱设备输出多媒体文件。
其中,步骤409与步骤206相似,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图5,图5是本申请实施例公开的又一种语音识别方法的流程示意图。其中,由音箱设备进行语音信号采集和回声抵消,由第一设备进行语义识别。如图5所示,该语音识别方法可以包括以下步骤。
501、第一设备与音箱设备建立通信连接。
其中,步骤501与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
502、第一设备向音箱设备发送用于开启语音采集的第一指令。
其中,步骤502与步骤402相同,详细描述请参考步骤402,在此不再详细赘述。
503、音箱设备开启语音采集。
其中,步骤503与步骤403相同,详细描述请参考步骤403,在此不再详细赘述。
504、音箱设备通过语音采集装置采集第一语音信号,在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
其中,步骤504与步骤203相似,详细描述请参考步骤203,在此不再详细赘述。
505、音箱设备向第一设备发送第三语音信号。
本实施例中,音箱设备得到第三语音信号之后,在音箱设备不具有语义识别功能的情况下,向第一设备发送第三语音信号。
506、第一设备分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
其中,步骤506与步骤204相同,详细描述请参考步骤204,在此不再详细赘述。
507、第一设备向音箱设备发送多媒体文件。
其中,步骤507与步骤205相同,详细描述请参考步骤205,在此不再详细赘述。
508、音箱设备输出多媒体文件。
其中,步骤508与步骤206相同,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图6,图6是本申请实施例公开的又一种语音识别方法的流程示意图。其中,由音箱设备进行语音信号采集和回声抵消,由服务器进行语义识别。如图6所示,该语音识别方法可以包括以下步骤。
601、第一设备与音箱设备建立通信连接。
其中,步骤601与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
602、第一设备向音箱设备发送用于开启语音采集的第一指令。
其中,步骤602与步骤402相同,详细描述请参考步骤402,在此不再详细赘述。
603、音箱设备开启语音采集。
其中,步骤603与步骤403相同,详细描述请参考步骤403,在此不再详细赘述。
604、音箱设备通过语音采集装置采集第一语音信号,在采集第一语音信号时音箱设备 输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
其中,步骤604与步骤203相似,详细描述请参考步骤203,在此不再详细赘述。
605、音箱设备向第一设备发送第三语音信号。
其中,步骤605与步骤505相同,详细描述请参考步骤505,在此不再详细赘述。
606、第一设备向服务器发送第三语音信号。
本实施例中,第一设备接收到来自第三语音信号之后,在第一设备不具有语义识别功能的情况下,向服务器发送第三语音信号。
607、服务器分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
其中,步骤607与步骤305相同,详细描述请参考步骤305,在此不再详细赘述。
608、服务器向第一设备发送多媒体文件。
其中,步骤608与步骤306相同,详细描述请参考步骤306,在此不再详细赘述。
609、第一设备向音箱设备发送多媒体文件。
其中,步骤609与步骤307相同,详细描述请参考步骤307,在此不再详细赘述。
610、音箱设备输出多媒体文件。
其中,步骤610与步骤206相同,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图7,图7是本申请实施例公开的又一种语音识别方法的流程示意图。其中,由音箱设备进行语音信号采集,由第一设备进行回声抵消和语义识别。如图7所示,该语音识别方法可以包括以下步骤。
701、第一设备与音箱设备建立通信连接。
其中,步骤701与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
702、第一设备向音箱设备发送用于开启语音采集的第一指令。
其中,步骤702与步骤402相同,详细描述请参考步骤402,在此不再详细赘述。
703、音箱设备开启语音采集。
其中,步骤703与步骤403相同,详细描述请参考步骤403,在此不再详细赘述。
704、音箱设备通过语音采集装置采集第一语音信号。
705、音箱设备向第一设备发送第一语音信号。
本实施例中,在音箱设备不具有回声抵消功能的情况下,音箱设备通过语音采集装置采集到第一语音信号之后,直接向第一设备发送第一语音信号。
706、在采集第一语音信号时音箱设备输出第二语音信号的情况下,第一设备过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
本实施例中,第一设备接收到来自音箱设备的第一语音信号之后,先对第一语音信号进行回声抵消得到第三语音信号。其中,回声抵消的过程与步骤203中的相同,详细描述请参考步骤203,在此不再详细赘述。
707、第一设备分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
其中,步骤707与步骤204相同,详细描述请参考步骤204,在此不再详细赘述。
708、第一设备向音箱设备发送多媒体文件。
其中,步骤708与步骤205相同,详细描述请参考步骤205,在此不再详细赘述。
709、音箱设备输出多媒体文件。
其中,步骤709与步骤206相同,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图8,图8是本申请实施例公开的又一种语音识别方法的流程示意图。其中,由音箱设备进行语音信号采集,由第一设备进行回声抵消,由服务器进行语义识别。如图8所示,该语音识别方法可以包括以下步骤。
801、第一设备与音箱设备建立通信连接。
其中,步骤801与步骤201相同,详细描述请参考步骤201,在此不再详细赘述。
802、第一设备向音箱设备发送用于开启语音采集的第一指令。
其中,步骤802与步骤402相同,详细描述请参考步骤402,在此不再详细赘述。
803、音箱设备开启语音采集。
其中,步骤803与步骤403相同,详细描述请参考步骤403,在此不再详细赘述。
804、音箱设备通过语音采集装置采集第一语音信号。
805、音箱设备向第一设备发送第一语音信号。
其中,步骤805与步骤705相同,详细描述请参考步骤705,在此不再详细赘述。
806、在采集第一语音信号时音箱设备输出第二语音信号的情况下,第一设备过滤掉第一语音信号中的第二语音信号,得到第三语音信号。
其中,步骤806与步骤706相同,详细描述请参考步骤706,在此不再详细赘述。
807、第一设备向服务器发送第三语音信号。
其中,步骤807与步骤304相同,详细描述请参考步骤304,在此不再详细赘述。
808、服务器分析出第三语音信号包括获取信息的信号的情况下,获取第三语音信号对应的多媒体文件。
其中,步骤808与步骤305相同,详细描述请参考步骤305,在此不再详细赘述。
809、服务器向第一设备发送多媒体文件。
其中,步骤809与步骤306相同,详细描述请参考步骤306,在此不再详细赘述。
810、第一设备向音箱设备发送多媒体文件。
其中,步骤810与步骤307相同,详细描述请参考步骤307,在此不再详细赘述。
811、音箱设备输出多媒体文件。
其中,步骤811与步骤206相同,详细描述请参考步骤206,在此不再详细赘述。
基于图1所示的网络架构,请参阅图9,图9是本申请实施例公开的一种第一设备的结构示意图。其中,该第一设备为可以包括:
开启单元901,用于当第一设备与音箱设备建立通信连接时,开启语音采集;
第一获取单元902,用于获取第一语音信号;
第二获取单元903,用于获取第一获取单元901获取的第一语音信号对应的多媒体文件;
发送单元904,用于向音箱设备发送第二获取单元903获取的多媒体文件,以使得音 箱设备输出所述多媒体文件。
作为一种可能的实施方式,第一设备与音箱设备建立通信连接包括:
第一设备与音箱设备建立有线连接和/或无线连接。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,开启单元901,具体用于向音箱设备发送用于开启语音采集的第一指令。
作为一种可能的实施方式,在开启的语音采集为第一设备的语音采集的情况下,第一获取单元902具体用于:
通过第一设备的语音采集装置采集第二语音信号;
在采集第二语音信号时音箱设备输出第三语音信号的情况下,过滤掉第二语音信号中的第三语音信号,得到第一语音信号;
在采集第二语音信号时音箱设备未输出语音信号的情况下,确定第二语音信号为第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,第一获取单元902,具体用于接收来自音箱设备的第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,第一获取单元902具体用于:
接收来自音箱设备的第四语音信号;
在采集第四语音信号时音箱设备输出第五语音信号的情况下,过滤掉第四语音信号中的第五语音信号,得到第一语音信号;
在采集第四语音信号时音箱设备未输出语音信号的情况下,确定第四语音信号为第一语音信号。
作为一种可能的实施方式,第二获取单元903,具体用于在分析出第一语音信号包括获取信息的信号的情况下,获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,第二获取单元903获取第一语音信号对应的多媒体文件包括:
在第一设备未存储有第一语音信号对应的多媒体文件的情况下,从服务器获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,第二获取单元903具体用于:
向服务器发送第一语音信号;
接收来自服务器的多媒体文件,多媒体文件是在第一语音信号包括获取信息的信号的情况下,服务器获取的第一语音信号对应的多媒体文件。
作为一种可能的实施方式,第二获取单元903具体用于:
向服务器发送第一语音信号;
接收来自服务器的第二指令,第二指令为在第一语音信号包括获取信息的信号的情况下,服务器根据第一语音信号生成的指令;
根据第二指令获取多媒体文件。
作为一种可能的实施方式,多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。
作为一种可能的实施方式,在音箱设备不包括显示屏的情况下,发送单元904,具体用于在多媒体文件只包括音频文件的情况下,向音箱设备发送所述多媒体文件;
该第一设备还可以包括:
播放单元905,用于在第二获取单元903获取的多媒体文件包括文本文件和/或视频文件的情况下,播放多媒体文件包括的文本文件和/或视频文件。
作为一种可能的实施方式,发送单元904向音箱设备发送多媒体文件包括:
向音箱设备发送用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。
此外,该第一设备还可以执行上述图2-图8中第一设备执行的方法步骤,还可以包括执行上述图2-图8中第一设备执行的方法步骤的其他单元,此处不再赘述。
基于图1所示的网络架构,请参阅图10,图10是本申请实施例公开的另一种第一设备的结构示意图。如图10所示,该第一设备可以包括处理器1001、存储器1002、摄像头1003、显示屏1004、语音采集装置1005、输出装置1006、通信接口1007和连接线1008,上述组件之间的连接可以通过连接线1008来实现。处理器1001可以是一个通用中央处理器(CPU),多个CPU,微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。存储器1002可以是只读存储器(read-only memory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1002可以是独立存在的,也可以是与处理器1001集成在一起的。显示屏1004可以为只具有显示功能的显示屏,也可以为具有显示功能和具有检测触摸功能的显示屏。语音采集装置1005可以为麦克风,也可以为其它具有语音采集功能的装置。输出装置1006可以为语音输出装置,如喇叭、扬声器等,还可以为具有其它输出功能的装置。通信接口1007可以为收发天线,也可以为有线接口,还可以为其他通信接口。其中:
存储器中存储有一组程序代码,处理器1001用于调用存储器1002存储的程序代码执行以下操作:
当第一设备与音箱设备建立通信连接时,开启语音采集;
获取第一语音信号;
获取第一语音信号对应的多媒体文件;
通信接口1007,用于向音箱设备发送多媒体文件,以使得音箱设备输出多媒体文件。
作为一种可能的实施方式,第一设备与音箱设备建立通信连接包括:
第一设备与音箱设备建立有线连接和/或无线连接。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,处理器1001开启语音采集包括:
通信接口1007向音箱设备发送用于开启语音采集的第一指令。
作为一种可能的实施方式,在开启的语音采集为第一设备的语音采集的情况下,处理器1001获取第一语音信号包括:
语音采集装置1005采集第二语音信号;
处理器1001在采集第二语音信号时音箱设备输出第三语音信号的情况下,过滤掉第二语音信号中的第三语音信号,得到第一语音信号;
处理器1001在采集第二语音信号时音箱设备未输出语音信号的情况下,确定第二语音信号为第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,处理器1001获取第一语音信号包括:
通信接口1007接收来自所述音箱设备的第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备的语音采集的情况下,处理器1001获取第一语音信号包括:
通信接口1007接收来自音箱设备的第四语音信号;
处理器1001在采集第四语音信号时音箱设备输出第五语音信号的情况下,过滤掉第四语音信号中的第五语音信号,得到第一语音信号;
处理器1001在采集第四语音信号时音箱设备未输出语音信号的情况下,确定第四语音信号为第一语音信号。
作为一种可能的实施方式,处理器1001获取第一语音信号对应的多媒体文件包括:
处理器1001在分析出第一语音信号包括获取信息的信号的情况下,获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,处理器1001获取第一语音信号对应的多媒体文件包括:
通信接口1007在第一设备未存储有第一语音信号对应的多媒体文件的情况下,从服务器获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,处理器1001获取第一语音信号对应的多媒体文件包括:
通信接口1007向服务器发送第一语音信号;
通信接口1007接收来自服务器的多媒体文件,多媒体文件是在第一语音信号包括获取信息的信号的情况下,服务器获取的第一语音信号对应的多媒体文件。
作为一种可能的实施方式,处理器1001获取第一语音信号对应的多媒体文件包括:
通信接口1007向服务器发送第一语音信号;
通信接口1007接收来自服务器的第二指令,第二指令为在第一语音信号包括获取信息的信号的情况下,服务器根据所述第一语音信号生成的指令;
处理器1001根据第二指令获取多媒体文件。
作为一种可能的实施方式,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
作为一种可能的实施方式,在音箱设备不包括显示屏的情况下,通信接口1007向音箱设备发送多媒体文件包括:
通信接口1007在多媒体文件只包括音频文件的情况下,向音箱设备发送多媒体文件;
显示屏1004,用于在多媒体文件包括文本文件和/或视频文件的情况下,播放多媒体文件包括的文本文件和/或视频文件。
作为一种可能的实施方式,通信接口1007向音箱设备发送多媒体文件包括:
通信接口1007向音箱设备发送用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。
此外,该第一设备可以执行上述图2-图8中第一设备执行的方法步骤,此处不再赘述。
其中,开启单元901、第一获取单元902和第三获取单元902可以由第一设备中的处理器1001和存储器1002来实现,发送单元904可以由第一设备中的通信接口1007来实现,播放单元905可以由第一设备中的显示屏1005来实现。
基于图1所示的网络架构,请参阅图11,图11是本申请实施例公开的一种音箱设备的结构示意图。如图11所示,该音箱设备可以包括:
接收单元1101,用于在音箱设备与第一设备建立通信连接后,接收来自第一设备的用于开启语音采集的第一指令;
开启单元1102,用于开启语音采集;
采集单元1103,用于通过音箱设备的语音采集装置采集第一语音信号;
发送单元1104,用于向第一设备发送采集单元1103采集的第一语音信号;
接收单元1101,还用于接收来自第一设备的多媒体文件,多媒体文件是第一设备获取的第一语音信号对应的多媒体文件;
输出单元1105,还用于输出接收单元1101接收的多媒体文件。
作为一种可能的实施方式,音箱设备与第一设备建立通信连接包括:
音箱设备与第一设备建立有线连接和/或无线连接。
作为一种可能的实施方式,该音箱设备还可以包括:
过滤单元1106,用于在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉采集单元1103采集的第一语音信号中的第二语音信号,得到第三语音信号;
发送单元1104,具体用于向第一设备发送第三语音信号;
多媒体文件是第一设备获取的第三语音信号对应的多媒体文件。
作为一种可能的实施方式,该音箱设备还可以包括:
生成单元1107,用于在分析出第三语音信号包括获取信息的信号的情况下,根据第三语音信号生成第二指令;
发送单元1104向第一设备发送第三语音信号包括:
向第一设备发送第二指令。
作为一种可能的实施方式,在音箱设备包括显示屏的情况下,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
作为一种可能的实施方式,接收单元1101接收来自第一设备的多媒体文件包括:
接收来自第一设备的用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。
此外,该音箱设备还可以执行上述图2-图8中音箱设备执行的方法步骤,还可以包括 执行上述图2-图8中音箱设备执行的方法步骤的其他单元,此处不再赘述。
基于图1所示的网络设备架构,请参阅图12,图12是本申请实施例公开的另一种音箱设备的结构示意图。如图12所示,该音箱设备可以包括处理器1201、存储器1202、通信接口1203、语音采集装置1204、输出装置1205和连接线1206。上述组件之间的连接可以通过连接线1206来实现。处理器1201可以是一个通用中央处理器(CPU),多个CPU,微处理器,特定应用集成电路(application-specific integrated circuit,ASIC),或一个或多个用于控制本申请方案程序执行的集成电路。存储器1202可以是只读存储器(read-onlymemory,ROM)或可存储静态信息和指令的其他类型的静态存储设备,随机存取存储器(random access memory,RAM)或者可存储信息和指令的其他类型的动态存储设备,也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,EEPROM)、只读光盘(Compact Disc Read-Only Memory,CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质,但不限于此。存储器1202可以是独立存在,也可以是与处理器1201集成在一起。语音采集装置1204可以为麦克风,也可以为其它具有语音采集功能的装置。输出装置1205可以为音频输出装置,如喇叭、扬声器等,也可以为具有其它输出功能的装置。通信接口1203可以为收发天线,也可以为有线接口,还可以为其他通信接口。其中:
通信接口1203,用于在音箱设备与第一设备建立通信连接后,接收来自第一设备的用于开启语音采集的第一指令;
存储器1202中存储有一组程序代码,处理器1201用于调用存储器1202中存储的程序代码执行以下操作:
开启语音采集;
语音采集装置1204,用于采集第一语音信号;
通信接口1203,还用于向第一设备发送第一语音信号;
通信接口1203,还用于接收来自第一设备的多媒体文件,多媒体文件是第一设备获取的第一语音信号对应的多媒体文件;
输出装置1205,用于输出多媒体文件。
作为一种可能的实施方式,音箱设备与第一设备建立通信连接包括:
音箱设备与第一设备建立有线连接和/或无线连接。
作为一种可能的实施方式,处理器1201还用于调用存储器1202中存储的程序代码执行以下操作:
在采集第一语音信号时音箱设备输出第二语音信号的情况下,过滤掉第一语音信号中的第二语音信号,得到第三语音信号;
通信接口1203向第一设备发送第一语音信号包括:
向第一设备所述第三语音信号;
多媒体文件是第一设备获取的第三语音信号对应的多媒体文件。
作为一种可能的实施方式,处理器1201还用于调用存储器1202中存储的程序代码执行以下操作:
在分析出第三语音信号包括获取信息的信号的情况下,根据第三语音信号生成第二指令;
通信接口1203向第一设备发送第三语音信号包括:
通信接口1203向第一设备发送第二指令。
作为一种可能的实施方式,在音箱设备包括显示屏的情况下,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
作为一种可能的实施方式,通信接口1203接收来自第一设备的多媒体文件包括:
接收来自第一设备的用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件。
此外,该音箱设备可以执行上述图2-图8中音箱设备执行的方法步骤,此处不再赘述。
其中,开启单元1102、过滤单元1106和生成单元1107可以由音箱设备中的处理器1201和存储器1202来实现,接收单元1101和发送单元1102可以由音箱设备中的通信接口1203来实现,采集单元1103可以由音箱设备中的语音采集装置1204来实现,输出单元1105可以由音箱设备中的输出装置1205来实现。
请参阅图13,图13是本申请实施例公开的一种通信系统的结构示意图。如图13所示,该通信系统可以包括第一设备1301、音箱设备1302和服务器1303。其中:
第一设备1301,用于当第一设备与音箱设备建立通信连接时,开启语音采集,获取第一语音信号,获取第一语音信号对应的多媒体文件,并向音箱设备1302发送多媒体文件;
音箱设备1302,用于接收多媒体文件,并输出多媒体文件。
作为一种可能的实施方式,第一设备1301与音箱设备1302建立通信连接包括:
第一设备1301与音箱设备1302建立有线连接和/或无线连接。
作为一种可能的实施方式,在开启的语音采集为音箱设备1302的语音采集的情况下,第一设备1301开启语音采集包括:
向音箱设备1302发送用于开启语音采集的第一指令;
音箱设备1302,还用于接收来自第一设备的第一指令,并开启语音采集。
作为一种可能的实施方式,在开启的语音采集为第一设备1301的语音采集的情况下,第一设备1301获取第一语音信号包括:
通过第一设备1301的语音采集装置采集第二语音信号;
在采集第二语音信号时音箱设备1302输出第三语音信号的情况下,过滤掉第二语音信号中的第三语音信号,得到第一语音信号;
在采集第二语音信号时音箱设备1302未输出语音信号的情况下,确定第二语音信号为第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备1302的语音采集的情况下,音箱设备1302,还用于通过音箱设备1302的语音采集装置采集第四语音信号,在采集第四语音信号时音箱设备1302输出第五语音信号的情况下,过滤掉第四语音信号中的第五语音 信号,得到第一语音信号,并向第一设备1301发送第一语音信号;
第一设备1301获取第一语音信号包括:
接收来自音箱设备1302的第一语音信号。
作为一种可能的实施方式,在开启的语音采集为音箱设备1302的语音采集的情况下,音箱设备1302,还用于通过音箱设备1302的语音采集装置采集第四语音信号,并向第一设备1301发送第四语音信号;
第一设备1301获取第一语音信号包括:
接收来自音箱设备1302的第四语音信号;
在采集第一语音信号时音箱设备1302输出第五语音信号的情况下,过滤掉第四语音信号中的第五语音信号,得到第一语音信号;
在采集第四语音信号时音箱设备1302未输出语音信号的情况下,确定第四语音信号为第一语音信号。
作为一种可能的实施方式,第一设备1301获取第一语音信号对应的多媒体文件包括:
在分析出第一语音信号包括获取信息的信号的情况下,获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,第一设备1301获取第一语音信号对应的多媒体文件包括:
在第一设备未存储有第一语音信号对应的多媒体文件的情况下,从服务器1303获取第一语音信号对应的多媒体文件。
作为一种可能的实施方式,第一设备1301获取第一语音信号对应的多媒体文件包括:
向服务器1303发送第一语音信号;
服务器1303,用于接收第一语音信号,在分析出第一语音信号包括获取信息的信号的情况下,获取的第一语音信号对应的多媒体文件,并向第一设备发送多媒体文件;
第一设备1301获取第一语音信号对应的多媒体文件还包括:
接收来自服务器1303的多媒体文件。
作为一种可能的实施方式,第一设备1301获取第一语音信号对应的多媒体文件包括:
向服务器1303发送第一语音信号;
服务器1303,用于接收第一语音信号,在第一语音信号包括获取信息的信号的情况下,根据第一语音信号生成的第二指令,并向第一设备发送第二指令;
第一设备1301获取第一语音信号对应的多媒体文件还包括:
接收来自服务器1303的第二指令;
根据第二指令获取多媒体文件。
作为一种可能的实施方式,多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
作为一种可能的实施方式,在音箱设备1302不包括显示屏的情况下,第一设备1301向音箱设备1302发送多媒体文件包括:
在多媒体文件只包括音频文件的情况下,向音箱设备1302发送多媒体文件;
第一设备1301,还用于在多媒体文件包括文本文件和/或视频文件的情况下,播放多媒体文件包括的文本文件和/或视频文件。
作为一种可能的实施方式,第一设备1301向音箱设备1302发送多媒体文件包括:
向音箱设备1302发送用于输出多媒体文件的第三指令,第三指令包括或携带多媒体文件;
音箱设备1302接收来自第一设备1301的多媒体文件包括:
接收来自第一设备1301的第二指令。
请参阅图14,图14是本申请实施例公开的一种通信系统的示意图。如图14所示,通信系统包括平板电脑和底座,平板电脑可以具有与底座连接的有线接口pogo pin。同时,平板电脑与底座可以通过蓝牙进行无线连接。平板电脑包括4个麦克风(microphone,MIC),底座包括2个扬声器(speaker,SPK)。在底座连接电源的情况下,可以对平板电脑通过pogopin进行充电。在此系统中只有平板电脑向底座发送的音频流,而没有底座向平板电脑发送的语音信号。平板电脑向底座发送的音频流是通过蓝牙连接进行传输的。
请参阅图15,图15是本申请实施例公开的另一种通信系统的示意图。如图15所示,通信系统包括平板电脑和底座,平板电脑可以具有与底座连接的有线接口pogo pin。底座包括6个MIC,底座包括2个SPK。在底座连接电源的情况下,可以对平板电脑通过pogopin进行充电。在此系统中平板电脑可以通过pogo pin向底座发送音频流,底座可以通过pogo pin向平板电脑发送语音信号。
本申请实施例还公开了一种可读存储介质,该可读存储介质上存储有程序,该程序运行时,实现如图2-图8所示的语音识别方法。
以上所述的具体实施方式,对本申请的目的、技术方案和有益效果进行了进一步详细说明,所应理解的是,以上所述仅为本申请的具体实施方式而已,并不用于限定本申请的保护范围,凡在本申请的技术方案的基础之上,所做的任何修改、等同替换、改进等,均应包括在本申请的保护范围之内。

Claims (70)

  1. 一种语音识别方法,其特征在于,所述方法应用于第一设备,包括:
    当所述第一设备与音箱设备建立通信连接时,开启语音采集;
    获取第一语音信号;
    获取所述第一语音信号对应的多媒体文件;
    向所述音箱设备发送所述多媒体文件,以使得所述音箱设备输出所述多媒体文件。
  2. 根据权利要求1所述的方法,其特征在于,所述第一设备与音箱设备建立通信连接包括:
    所述第一设备与音箱设备建立有线连接和/或无线连接。
  3. 根据权利要求1或2所述的方法,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述开启语音采集包括:
    向所述音箱设备发送用于开启语音采集的第一指令。
  4. 根据权利要求1-3任一项所述的方法,其特征在于,在开启的语音采集为所述第一设备的语音采集的情况下,所述获取第一语音信号包括:
    通过所述第一设备的语音采集装置采集第二语音信号;
    在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下,过滤掉所述第二语音信号中的所述第三语音信号,得到第一语音信号;
    在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下,确定所述第二语音信号为第一语音信号。
  5. 根据权利要求1-3任一项所述的方法,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述获取第一语音信号包括:
    接收来自所述音箱设备的第一语音信号。
  6. 根据权利要求1-3任一项所述的方法,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述获取第一语音信号包括:
    接收来自所述音箱设备的第四语音信号;
    在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下,过滤掉所述第四语音信号中的所述第五语音信号,得到第一语音信号;
    在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下,确定所述第四语音信号为第一语音信号。
  7. 根据权利要求1-6任一项所述的方法,其特征在于,所述获取所述第一语音信号对应的多媒体文件包括:
    在分析出所述第一语音信号包括获取信息的信号的情况下,获取所述第一语音信号对 应的多媒体文件。
  8. 根据权利要求7所述的方法,其特征在于,所述获取所述第一语音信号对应的多媒体文件包括:
    在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下,从服务器获取所述第一语音信号对应的多媒体文件。
  9. 根据权利要求1-6任一项所述的方法,其特征在于,所述获取所述第一语音信号对应的多媒体文件包括:
    向服务器发送所述第一语音信号;
    接收来自所述服务器的多媒体文件,所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下,所述服务器获取的所述第一语音信号对应的多媒体文件。
  10. 根据权利要求1-6任一项所述的方法,其特征在于,所述获取所述第一语音信号对应的多媒体文件包括:
    向服务器发送所述第一语音信号;
    接收来自所述服务器的第二指令,所述第二指令为在所述第一语音信号包括获取信息的信号的情况下,所述服务器根据所述第一语音信号生成的指令;
    根据所述第二指令获取多媒体文件。
  11. 根据权利要求1-10任一项所述的方法,其特征在于,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  12. 根据权利要求11所述的方法,其特征在于,在所述音箱设备不包括显示屏的情况下,所述向所述音箱设备发送所述多媒体文件包括:
    在所述多媒体文件只包括音频文件的情况下,向所述音箱设备发送所述多媒体文件;
    所述方法还包括:
    在所述多媒体文件包括文本文件和/或视频文件的情况下,播放所述多媒体文件包括的文本文件和/或视频文件。
  13. 根据权利要求1-12任一项所述的方法,其特征在于,所述向所述音箱设备发送所述多媒体文件包括:
    向所述音箱设备发送用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  14. 一种语音识别方法,其特征在于,所述方法应用于音箱设备,包括:
    在所述音箱设备与第一设备建立通信连接后,接收来自所述第一设备的用于开启语音采集的第一指令;
    开启语音采集;
    通过所述音箱设备的语音采集装置采集第一语音信号;
    向所述第一设备发送所述第一语音信号;
    接收来自所述第一设备的多媒体文件,所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件;
    输出所述多媒体文件。
  15. 根据权利要求14所述的方法,其特征在于,所述音箱设备与第一设备建立通信连接包括:
    所述音箱设备与第一设备建立有线连接和/或无线连接。
  16. 根据权利要求14或15所述的方法,其特征在于,所述方法还包括:
    在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下,过滤掉所述第一语音信号中的所述第二语音信号,得到第三语音信号;
    所述向所述第一设备发送所述第一语音信号包括:
    向所述第一设备发送所述第三语音信号;
    所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
  17. 根据权利要求16所述的方法,其特征在于,所述方法还包括:
    在分析出所述第三语音信号包括获取信息的信号的情况下,根据所述第三语音信号生成第二指令;
    所述向所述第一设备发送所述第三语音信号包括:
    向所述第一设备发送所述第二指令。
  18. 根据权利要求14-17任一项所述的方法,其特征在于,在所述音箱设备包括显示屏的情况下,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  19. 根据权利要求14-18任一项所述的方法,其特征在于,所述接收来自所述第一设备的多媒体文件包括:
    接收来自所述第一设备的用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  20. 一种第一设备,其特征在于,包括:
    开启单元,用于当所述第一设备与音箱设备建立通信连接时,开启语音采集;
    第一获取单元,用于获取第一语音信号;
    第二获取单元,用于获取所述第一获取单元获取的第一语音信号对应的多媒体文件;
    发送单元,用于向所述音箱设备发送所述第二获取单元获取的多媒体文件,以使得所述音箱设备输出所述多媒体文件。
  21. 根据权利要求20所述的第一设备,其特征在于,所述第一设备与音箱设备建立通信连接包括:
    所述第一设备与音箱设备建立有线连接和/或无线连接。
  22. 根据权利要求20或21所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述开启单元,具体用于向所述音箱设备发送用于开启语音采集的第一指令。
  23. 根据权利要求20-22任一项所述的第一设备,其特征在于,在开启的语音采集为所述第一设备的语音采集的情况下,第一获取单元具体用于:
    通过所述第一设备的语音采集装置采集第二语音信号;
    在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下,过滤掉所述第二语音信号中的所述第三语音信号,得到第一语音信号;
    在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下,确定所述第二语音信号为第一语音信号。
  24. 根据权利要求20-22任一项所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述第一获取单元,具体用于接收来自所述音箱设备的第一语音信号。
  25. 根据权利要求20-22任一项所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述第一获取单元具体用于:
    接收来自所述音箱设备的第四语音信号;
    在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下,过滤掉所述第四语音信号中的所述第五语音信号,得到第一语音信号;
    在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下,确定所述第四语音信号为第一语音信号。
  26. 根据权利要求20-25任一项所述的第一设备,其特征在于,所述第二获取单元,具体用于在分析出所述第一语音信号包括获取信息的信号的情况下,获取所述第一语音信号对应的多媒体文件。
  27. 根据权利要求26所述的第一设备,其特征在于,所述第二获取单元获取所述第一语音信号对应的多媒体文件包括:
    在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下,从服务器获取所述第一语音信号对应的多媒体文件。
  28. 根据权利要求20-25任一项所述的第一设备,其特征在于,所述第二获取单元具体 用于:
    向服务器发送所述第一语音信号;
    接收来自所述服务器的多媒体文件,所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下,所述服务器获取的所述第一语音信号对应的多媒体文件。
  29. 根据权利要求20-25任一项所述的第一设备,其特征在于,所述第二获取单元具体用于:
    向服务器发送所述第一语音信号;
    接收来自所述服务器的第二指令,所述第二指令为在所述第一语音信号包括获取信息的信号的情况下,所述服务器根据所述第一语音信号生成的指令;
    根据所述第二指令获取多媒体文件。
  30. 根据权利要求20-29任一项所述的第一设备,其特征在于,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  31. 根据权利要求30所述的第一设备,其特征在于,在所述音箱设备不包括显示屏的情况下,所述发送单元,具体用于在所述多媒体文件只包括音频文件的情况下,向所述音箱设备发送所述多媒体文件;
    所述第一设备还包括:
    播放单元,用于在所述第二获取单元获取的多媒体文件包括文本文件和/或视频文件的情况下,播放所述多媒体文件包括的文本文件和/或视频文件。
  32. 根据权利要求20-31任一项所述的第一设备,其特征在于,所述发送单元向所述音箱设备发送所述多媒体文件包括:
    向所述音箱设备发送用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  33. 一种音箱设备,其特征在于,包括:
    接收单元,用于在所述音箱设备与第一设备建立通信连接后,接收来自所述第一设备的用于开启语音采集的第一指令;
    开启单元,用于开启语音采集;
    采集单元,用于通过所述音箱设备的语音采集装置采集第一语音信号;
    发送单元,用于向所述第一设备发送所述采集单元采集的第一语音信号;
    所述接收单元,还用于接收来自所述第一设备的多媒体文件,所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件;
    输出单元,还用于输出所述接收单元接收的多媒体文件。
  34. 根据权利要求33所述的音箱设备,其特征在于,所述音箱设备与第一设备建立通 信连接包括:
    所述音箱设备与第一设备建立有线连接和/或无线连接。
  35. 根据权利要求33或34所述的音箱设备,其特征在于,所述音箱设备还包括:
    过滤单元,用于在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下,过滤掉所述采集单元采集的第一语音信号中的所述第二语音信号,得到第三语音信号;
    所述发送单元,具体用于向所述第一设备发送所述第三语音信号;
    所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
  36. 根据权利要求35所述的音箱设备,其特征在于,所述音箱设备还包括:
    生成单元,用于在分析出所述第三语音信号包括获取信息的信号的情况下,根据所述第三语音信号生成第二指令;
    所述发送单元向所述第一设备发送所述第三语音信号包括:
    向所述第一设备发送所述第二指令。
  37. 根据权利要求33-36任一项所述的音箱设备,其特征在于,在所述音箱设备包括显示屏的情况下,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  38. 根据权利要求33-37任一项所述的音箱设备,其特征在于,所述接收单元接收来自所述第一设备的多媒体文件包括:
    接收来自所述第一设备的用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  39. 一种第一设备,其特征在于,包括处理器、存储器和通信接口,其中:
    所述存储器中存储有一组程序代码,所述处理器用于调用所述存储器存储的程序代码执行以下操作:
    当所述第一设备与音箱设备建立通信连接时,开启语音采集;
    获取第一语音信号;
    获取所述第一语音信号对应的多媒体文件;
    所述通信接口,用于向所述音箱设备发送所述多媒体文件,以使得所述音箱设备输出所述多媒体文件。
  40. 根据权利要求39所述的第一设备,其特征在于,所述第一设备与音箱设备建立通信连接包括:
    所述第一设备与音箱设备建立有线连接和/或无线连接。
  41. 根据权利要求39或40所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述处理器开启语音采集包括:
    所述通信接口向所述音箱设备发送用于开启语音采集的第一指令。
  42. 根据权利要求39-41任一项所述的第一设备,其特征在于,所述第一设备还包括语音采集装置,在开启的语音采集为所述第一设备的语音采集的情况下,所述处理器获取第一语音信号包括:
    所述语音采集装置采集第二语音信号;
    所述处理器在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下,过滤掉所述第二语音信号中的所述第三语音信号,得到第一语音信号;
    所述处理器在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下,确定所述第二语音信号为第一语音信号。
  43. 根据权利要求39-41任一项所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述处理器获取第一语音信号包括:
    所述通信接口接收来自所述音箱设备的第一语音信号。
  44. 根据权利要求39-41任一项所述的第一设备,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述处理器获取第一语音信号包括:
    所述通信接口接收来自所述音箱设备的第四语音信号;
    所述处理器在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下,过滤掉所述第四语音信号中的所述第五语音信号,得到第一语音信号;
    所述处理器在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下,确定所述第四语音信号为第一语音信号。
  45. 根据权利要求39-44任一项所述的第一设备,其特征在于,所述处理器获取所述第一语音信号对应的多媒体文件包括:
    所述处理器在分析出所述第一语音信号包括获取信息的信号的情况下,获取所述第一语音信号对应的多媒体文件。
  46. 根据权利要求45所述的第一设备,其特征在于,所述处理器获取所述第一语音信号对应的多媒体文件包括:
    所述通信接口在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下,从服务器获取所述第一语音信号对应的多媒体文件。
  47. 根据权利要求39-44任一项所述的第一设备,其特征在于,所述处理器获取所述第一语音信号对应的多媒体文件包括:
    所述通信接口向服务器发送所述第一语音信号;
    所述通信接口接收来自所述服务器的多媒体文件,所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下,所述服务器获取的所述第一语音信号对应的多媒体文 件。
  48. 根据权利要求39-44任一项所述的第一设备,其特征在于,所述处理器获取所述第一语音信号对应的多媒体文件包括:
    所述通信接口向服务器发送所述第一语音信号;
    所述通信接口接收来自所述服务器的第二指令,所述第二指令为在所述第一语音信号包括获取信息的信号的情况下,所述服务器根据所述第一语音信号生成的指令;
    所述处理器根据所述第二指令获取多媒体文件。
  49. 根据权利要求39-48任一项所述的第一设备,其特征在于,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  50. 根据权利要求49所述的第一设备,其特征在于,所述第一设备还包括显示屏,在所述音箱设备不包括显示屏的情况下,所述通信接口向所述音箱设备发送所述多媒体文件包括:
    所述通信接口在所述多媒体文件只包括音频文件的情况下,向所述音箱设备发送所述多媒体文件;
    所述显示屏,用于在所述多媒体文件包括文本文件和/或视频文件的情况下,播放所述多媒体文件包括的文本文件和/或视频文件。
  51. 根据权利要求39-50任一项所述的第一设备,其特征在于,所述通信接口向所述音箱设备发送所述多媒体文件包括:
    所述通信接口向所述音箱设备发送用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  52. 一种音箱设备,其特征在于,包括处理器、存储器、通信接口、语音采集装置和输出装置,其中:
    所述通信接口,用于在音箱设备与第一设备建立通信连接后,接收来自所述第一设备的用于开启语音采集的第一指令;
    所述存储器中存储有一组程序代码,所述处理器用于调用所述存储器中存储的程序代码执行以下操作:
    开启语音采集;
    所述语音采集装置,用于采集第一语音信号;
    所述通信接口,还用于向所述第一设备发送所述第一语音信号;
    所述通信接口,还用于接收来自所述第一设备的多媒体文件,所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件;
    所述输出装置,用于输出所述多媒体文件。
  53. 根据权利要求52所述的音箱设备,其特征在于,所述音箱设备与第一设备建立通信连接包括:
    音箱设备与第一设备建立有线连接和/或无线连接。
  54. 根据权利要求52或53所述的音箱设备,其特征在于,所述处理器还用于调用所述存储器中存储的程序代码执行以下操作:
    在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下,过滤掉所述第一语音信号中的所述第二语音信号,得到第三语音信号;
    所述通信接口向所述第一设备发送所述第一语音信号包括:
    向所述第一设备发送所述第三语音信号;
    所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
  55. 根据权利要求54所述的音箱设备,其特征在于,所述处理器还用于调用所述存储器中存储的程序代码执行以下操作:
    在分析出所述第三语音信号包括获取信息的信号的情况下,根据所述第三语音信号生成第二指令;
    所述通信接口向所述第一设备发送所述第三语音信号包括:
    所述通信接口向所述第一设备发送所述第二指令。
  56. 根据权利要求52-55任一项所述的音箱设备,其特征在于,在所述音箱设备包括显示屏的情况下,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  57. 根据权利要求52-56任一项所述的音箱设备,其特征在于,所述通信接口接收来自所述第一设备的多媒体文件包括:
    接收来自所述第一设备的用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件。
  58. 一种语音识别系统,其特征在于,包括第一设备和音箱设备,其中:
    所述第一设备,用于当第一设备与音箱设备建立通信连接时,开启语音采集,获取第一语音信号,获取所述第一语音信号对应的多媒体文件,并向所述音箱设备发送所述多媒体文件;
    所述音箱设备,用于接收所述多媒体文件,并输出所述多媒体文件。
  59. 根据权利要求58所述的系统,其特征在于,所述第一设备与音箱设备建立通信连接包括:
    第一设备与音箱设备建立有线连接和/或无线连接。
  60. 根据权利要求58或59所述的的系统,其特征在于,在开启的语音采集为所述音箱 设备的语音采集的情况下,所述第一设备开启语音采集包括:
    向所述音箱设备发送用于开启语音采集的第一指令;
    所述音箱设备,还用于接收来自所述第一设备的第一指令,并开启语音采集。
  61. 根据权利要求58-60任一项所述的的系统,其特征在于,在开启的语音采集为所述第一设备的语音采集的情况下,所述第一设备获取第一语音信号包括:
    通过所述第一设备的语音采集装置采集第二语音信号;
    在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下,过滤掉所述第二语音信号中的所述第三语音信号,得到第一语音信号;
    在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下,确定所述第二语音信号为第一语音信号。
  62. 根据权利要求58-60任一项所述的的系统,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述音箱设备,还用于通过所述音箱设备的语音采集装置采集第四语音信号,在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下,过滤掉所述第四语音信号中的所述第五语音信号,得到第一语音信号,并向所述第一设备发送所述第一语音信号;
    所述第一设备获取第一语音信号包括:
    接收来自所述音箱设备的第一语音信号。
  63. 根据权利要求58-60任一项所述的的系统,其特征在于,在开启的语音采集为所述音箱设备的语音采集的情况下,所述音箱设备,还用于通过所述音箱设备的语音采集装置采集第四语音信号,并向所述第一设备发送所述第四语音信号;
    所述第一设备获取第一语音信号包括:
    接收来自所述音箱设备的第四语音信号;
    在采集所述第一语音信号时所述音箱设备输出第五语音信号的情况下,过滤掉所述第四语音信号中的所述第五语音信号,得到第一语音信号;
    在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下,确定所述第四语音信号为第一语音信号。
  64. 根据权利要求58-63任一项所述的的系统,其特征在于,所述第一设备获取所述第一语音信号对应的多媒体文件包括:
    在分析出所述第一语音信号包括获取信息的信号的情况下,获取所述第一语音信号对应的多媒体文件。
  65. 根据权利要求64所述的系统,其特征在于,所述第一设备获取所述第一语音信号对应的多媒体文件包括:
    在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下,从服务器获 取所述第一语音信号对应的多媒体文件。
  66. 根据权利要求58-63任一项所述的系统,其特征在于,所述系统还包括服务器,所述第一设备获取所述第一语音信号对应的多媒体文件包括:
    向所述服务器发送所述第一语音信号;
    所述服务器,用于接收所述第一语音信号,在分析出所述第一语音信号包括获取信息的信号的情况下,获取的所述第一语音信号对应的多媒体文件,并向所述第一设备发送所述多媒体文件;
    所述第一设备获取所述第一语音信号对应的多媒体文件还包括:
    接收来自所述服务器的多媒体文件。
  67. 根据权利要求58-63任一项所述的系统,其特征在于,所述系统还包括服务器,所述第一设备获取所述第一语音信号对应的多媒体文件包括:
    向所述服务器发送所述第一语音信号;
    所述服务器,用于接收所述第一语音信号,在所述第一语音信号包括获取信息的信号的情况下,根据所述第一语音信号生成的第二指令,并向所述第一设备发送所述第二指令;
    所述第一设备获取所述第一语音信号对应的多媒体文件还包括:
    接收来自所述服务器的第二指令;
    根据所述第二指令获取多媒体文件。
  68. 根据权利要求58-67任一项所述的系统,其特征在于,所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
  69. 根据权利要求68所述的系统,其特征在于,在所述音箱设备不包括显示屏的情况下,所述第一设备向所述音箱设备发送所述多媒体文件包括:
    在所述多媒体文件只包括音频文件的情况下,向所述音箱设备发送所述多媒体文件;
    所述第一设备,还用于在所述多媒体文件包括文本文件和/或视频文件的情况下,播放所述多媒体文件包括的文本文件和/或视频文件。
  70. 根据权利要求58-69任一项所述的系统,其特征在于,所述第一设备向所述音箱设备发送所述多媒体文件包括:
    向所述音箱设备发送用于输出所述多媒体文件的第三指令,所述第三指令包括或携带所述多媒体文件;
    所述音箱设备接收来自所述第一设备的多媒体文件包括:
    接收来自所述第一设备的所述第二指令。
PCT/CN2018/118365 2018-11-30 2018-11-30 一种语音识别方法、设备及系统 WO2020107360A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201880096667.2A CN112567330A (zh) 2018-11-30 2018-11-30 一种语音识别方法、设备及系统
PCT/CN2018/118365 WO2020107360A1 (zh) 2018-11-30 2018-11-30 一种语音识别方法、设备及系统

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/118365 WO2020107360A1 (zh) 2018-11-30 2018-11-30 一种语音识别方法、设备及系统

Publications (1)

Publication Number Publication Date
WO2020107360A1 true WO2020107360A1 (zh) 2020-06-04

Family

ID=70852629

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/118365 WO2020107360A1 (zh) 2018-11-30 2018-11-30 一种语音识别方法、设备及系统

Country Status (2)

Country Link
CN (1) CN112567330A (zh)
WO (1) WO2020107360A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150217188A1 (en) * 2014-02-06 2015-08-06 Physical Apps, Llc Physical interaction device for personal electronics and method for use
CN108449681A (zh) * 2018-05-15 2018-08-24 林宜山 一种全息智能音箱
CN108551629A (zh) * 2018-06-22 2018-09-18 四川斐讯信息技术有限公司 一种分离式智能音箱的控制方法及系统
CN108665899A (zh) * 2018-04-25 2018-10-16 广东思派康电子科技有限公司 一种语音交互系统及语音交互方法
CN108899036A (zh) * 2018-05-31 2018-11-27 出门问问信息科技有限公司 一种语音数据的处理方法及装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10237317B2 (en) * 2015-06-22 2019-03-19 Loose Cannon Systems, Inc. Portable group communication device and method of use
CN106504754B (zh) * 2016-09-29 2019-10-18 浙江大学 一种根据音频输出的实时字幕生成方法
CN106548783B (zh) * 2016-12-09 2020-07-14 西安Tcl软件开发有限公司 语音增强方法、装置及智能音箱、智能电视
CN107516517A (zh) * 2017-08-31 2017-12-26 江西博瑞彤芸科技有限公司 基于语音识别的控制方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150217188A1 (en) * 2014-02-06 2015-08-06 Physical Apps, Llc Physical interaction device for personal electronics and method for use
CN108665899A (zh) * 2018-04-25 2018-10-16 广东思派康电子科技有限公司 一种语音交互系统及语音交互方法
CN108449681A (zh) * 2018-05-15 2018-08-24 林宜山 一种全息智能音箱
CN108899036A (zh) * 2018-05-31 2018-11-27 出门问问信息科技有限公司 一种语音数据的处理方法及装置
CN108551629A (zh) * 2018-06-22 2018-09-18 四川斐讯信息技术有限公司 一种分离式智能音箱的控制方法及系统

Also Published As

Publication number Publication date
CN112567330A (zh) 2021-03-26

Similar Documents

Publication Publication Date Title
CN109246672B (zh) 数据传输方法、装置、系统及蓝牙耳机
US9966084B2 (en) Method and device for achieving object audio recording and electronic apparatus
US10834503B2 (en) Recording method, recording play method, apparatuses, and terminals
CN106302997B (zh) 一种输出控制方法、电子设备及系统
WO2016150316A1 (zh) 音频输出控制方法及装置
CN106569774B (zh) 一种去除噪声的方法及终端
WO2016187910A1 (zh) 一种语音文字的转换方法及设备、存储介质
CN112786070B (zh) 音频数据处理方法、装置、存储介质与电子设备
WO2020114181A1 (zh) 网络语音识别方法、网络业务交互方法及智能耳机
CN104092809A (zh) 通话录音方法、通话录音播放方法及其相应装置
US10405114B2 (en) Automated detection of an active audio output
KR20200124948A (ko) 전자 장치 및 전자 장치의 제어 방법
WO2017000772A1 (zh) 一种前端音频处理系统
WO2020019844A1 (zh) 语音数据处理方法及相关产品
CN108510997A (zh) 电子设备及应用于电子设备的回声消除方法
WO2018018782A1 (zh) 一种降噪方法及终端、计算机存储介质
CN103117083A (zh) 一种音频信息采集装置及方法
WO2015131634A1 (zh) 声音降噪方法及终端
CN103974168A (zh) 一种信息处理方法及电子设备
WO2023231787A1 (zh) 音频处理方法和装置
WO2020107360A1 (zh) 一种语音识别方法、设备及系统
CN112259076A (zh) 语音交互方法、装置、电子设备及计算机可读存储介质
JP2018151533A (ja) 通信端末、通信プログラム及び通信方法
CN111556406B (zh) 音频处理方法、音频处理装置及耳机
KR101442027B1 (ko) 음향패턴을 이용하여 휴대형 단말기용 이어폰 인식하는 음향처리 시스템, 음향패턴을 이용한 휴대형 단말기용 이어폰 인식방법 및 이를 이용한 입력음향 처리 방법.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18941609

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18941609

Country of ref document: EP

Kind code of ref document: A1