WO2020107360A1

WO2020107360A1 - 一种语音识别方法、设备及系统

Info

Publication number: WO2020107360A1
Application number: PCT/CN2018/118365
Authority: WO
Inventors: 郑涛; 陈永
Original assignee: 华为技术有限公司
Priority date: 2018-11-30
Filing date: 2018-11-30
Publication date: 2020-06-04
Also published as: CN112567330A

Abstract

一种语音识别方法、设备及系统，该方法应用于第一设备，当第一设备与音箱设备建立通信连接时，开启语音采集；获取第一语音信号；获取第一语音信号对应的多媒体文件；向音箱设备发送多媒体文件，以使得音箱设备输出多媒体文件。本申请实施例，可以提高设备的功能利用率。

Description

一种语音识别方法、设备及系统

技术领域

本申请实施例涉及终端技术领域，具体涉及一种语音识别方法、设备及系统。

背景技术

随着电子技术的不断发展，平板电脑、手机等设备(即第一设备)和音箱设备已成为人们日常生活中必不可少的电子产品。由于受第一设备大小等因素的影响，第一设备上喇叭的放大、音效等功能不如音箱设备上的喇叭。因此，为了提高音频信号的输出效果，可以将音箱设备接入第一设备。将音箱设备接入第一设备后，第一设备上的音频信号可以通过音箱设备上的喇叭输出，但第一设备和/或音箱设备上的其它功能可能会受到限制，以致降低了设备的功能利用率。

发明内容

本申请实施例公开了一种语音识别方法、设备及系统，用于在音箱设备接入第一设备之后进行语音处理，以便提高设备的功能利用率。

第一方面公开一种语音识别方法，该方法应用于第一设备，当第一设备与音箱设备建立通信连接时，开启语音采集，获取第一语音信号，获取第一语音信号对应的多媒体文件，向音箱设备发送多媒体文件，以便音箱设备输出多媒体文件。可见，在音箱设备接入第一设备之后，第一设备可以进行语音信号的处理，因此，可以提高设备的功能利用率。

在一种可能的实现方式中，第一设备与音箱设备建立的通信连接可以为有线连接和/或无线连接。

在一种可能的实现方式中，在开启的语音采集为音箱设备的语音采集的情况下，向音箱设备发送用于开启语音采集的第一指令，以便音箱设备根据第一指令开启音箱设备的语音采集，进而可以采集语音信号，以实现语音识别。

在一种可能的实现方式中，在开启的语音采集为第一设备的语音采集的情况下，通过第一设备的语音采集装置采集第二语音信号，在采集第二语音信号时音箱设备输出第三语音信号的情况下，过滤掉第二语音信号中的第三语音信号得到第一语音信号，在采集第二语音信号时音箱设备未输出语音信号的情况下，确定第二语音信号为第一语音信号。可见，可以过滤掉采集的语音信号中音箱设备输出的语音信号得到用户的语音信号，即可以实现回声抵消。

在一种可能的实现方式中，在开启的语音采集为音箱设备的语音采集的情况下，接收来自音箱设备的第一语音信号，可见，语音信号可以是音箱设备采集的。

在一种可能的实现方式中，在开启的语音采集为音箱设备的语音采集的情况下，接收来自音箱设备的第四语音信号，在采集第四语音信号时音箱设备输出第五语音信号的情况下，过滤掉第四语音信号中的第五语音信号得到第一语音信号，在采集第四语音信号时音箱设备未输出语音信号的情况下，确定第四语音信号为第一语音信号。可见，语音信号可以是音箱设备采集的，但回声抵消是在第一设备进行的。

在一种可能的实现方式中，在分析出第一语音信号包括获取信息的信号的情况下，才获取第一语音信号对应的多媒体文件，可见，在第一设备具有语义识别功能的情况下，先识别语音信号是否包括获取信息的信号，在语音信号包括获取信息的信号的情况下，才获取对应的信息，而在语音信号不包括获取信息的信号的情况下，可以直接丢弃该语音信号，从而可以避免不必要的处理过程。

在一种可能的实现方式中，只有在第一设备未存储有第一语音信号对应的多媒体文件的情况下，才需要从服务器获取第一语音信号对应的多媒体文件，在实现与网络的交互的同时可以避免不必要的处理过程。

在一种可能的实现方式中，可以向服务器发送第一语音信号，并接收来自服务器的多媒体文件，多媒体文件是在第一语音信号包括获取信息的信号的情况下，服务器获取的第一语音信号对应的多媒体文件。可见，在第一设备不具有语义识别功能的情况下，将语音信号发送给网络，由网络进行识别，且识别出需要的信息在网络的情况下，网络会将信息发送给第一设备。

在一种可能的实现方式中，可以向服务器发送第一语音信号，接收来自服务器的第二指令，第二指令为在第一语音信号包括获取信息的信号的情况下，服务器根据第一语音信号生成的指令，根据第二指令获取多媒体文件。可见，在第一设备不具有语义识别功能的情况下，将语音信号发送给网络，由网络进行识别，且识别出需要的信息不在网络的情况下，网络向第一设备发送指令，以便第一设备根据指令获取信息。

在一种可能的实现方式中，多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。

在一种可能的实现方式中，在音箱设备不包括显示屏，且多媒体文件只包括音频文件的情况下，才向音箱设备发送多媒体文件。此外，在音箱设备不包括显示屏，且多媒体文件包括文本文件和/或视频文件的情况下，播放多媒体文件包括的文本文件和/或视频文件。可见，在音箱设备不包括显示屏的情况下，而多媒体文件包括文本文件和/或视频文件的情况下，多媒体文件包括的文本文件和/或视频文件是在第一设备进行播放的。

在一种可能的实现方式中，向音箱设备发送用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件。可见，可以将需要音箱设备输出的多媒体文件以指令的方式发送给音箱设备。

第二方面公开一种语音识别方法，该方法应用于音箱设备，在音箱设备与第一设备建立通信连接后，接收来自第一设备的用于开启语音采集的第一指令，开启语音采集，通过音箱设备的语音采集装置采集第一语音信号，向第一设备发送第一语音信号，接收来自第一设备的多媒体文件输出多媒体文件。其中，多媒体文件是第一设备获取的第一语音信号对应的多媒体文件。可见，由音箱设备进行语音采集，由第一设备或服务器进行语义识别的，因此，在音箱设备接入第一设备之后，第一设备可以进行语音信号的处理，因此，可以提高设备的功能利用率。

在一种可能的实现方式中，音箱设备与第一设备建立的通信连接可以为有线连接和/或无线连接。

在一种可能的实现方式中，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号得到第三语音信号，之后向第一设备发送第三语音信号。其中，多媒体文件是第一设备获取的第三语音信号对应的多媒体文件。可见，在音箱设备具有回声抵消功能的情况下，音箱设备将语音信号发送给第一设备之前，先要进行回声抵消处理。

在一种可能的实现方式中，在分析出第三语音信号包括获取信息的信号的情况下，根据第三语音信号生成第二指令，向第一设备发送第二指令。可见，在音箱设备具有语义识功能的情况下，音箱设备先对语音信号进行语义识别，在识别出语音信号需要获取信息的情况下，直接向第一设备发送获取信息的指令。

在一种可能的实现方式中，在音箱设备包括显示屏的情况下，多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。

在一种可能的实现方式中，接收来自第一设备的用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件。可见，音箱设备接收的多媒体文件可以以指令的方式发送。

第三方面公开一种第一设备，该第一设备包括用于执行第一方面或第一方面的任一实施例所公开的语音识别方法的单元。

第四方面公开一种音箱设备，该音箱设备包括用于执行第二方面或第二方面任一实施例所公开的语音识别方法的单元。

第五方面公开一种第一设备，该第一设备包括处理器、存储器和通信接口，通信接口用于与其它设备进行通信，存储器用于存储一组程序代码，处理器用于执行程序代码。当处理器执行存储器存储的程序代码时，使得处理器执行第一方面或第一方面的任一种实施例所公开的语音识别方法。

第六方面公开一种音箱设备，该音箱设备包括处理器、存储器和通信接口，通信接口用于与其它设备进行通信，存储器用于存储一组程序代码，处理器用于执行程序代码。当处理器执行存储器存储的程序代码时，使得处理器执行第二方面或第二方面的任一种实施例所公开的语音识别方法。

第七方面公开一种可读存储介质，该可读存储介质上存储有程序，当该程序运行时，实现如第一方面或第一方面的任一种实施例所公开的语音识别方法，或者实现如第二方面或第二方面的任一种实施例所公开的语音识别方法。

附图说明

图1是本申请实施例公开的一种网络架构示意图；

图2是本申请实施例公开的一种语音识别方法的流程示意图；

图3是本申请实施例公开的另一种语音识别方法的流程示意图；

图4是本申请实施例公开的又一种语音识别方法的流程示意图；

图5是本申请实施例公开的又一种语音识别方法的流程示意图；

图6是本申请实施例公开的又一种语音识别方法的流程示意图；

图7是本申请实施例公开的又一种语音识别方法的流程示意图；

图8是本申请实施例公开的又一种语音识别方法的流程示意图；

图9是本申请实施例公开的一种第一设备的结构示意图；

图10是本申请实施例公开的另一种第一设备的结构示意图；

图11是本申请实施例公开的一种音箱设备的结构示意图；

图12是本申请实施例公开的另一种音箱设备的结构示意图；

图13是本申请实施例公开的一种通信系统的结构示意图；

图14是本申请实施例公开的一种通信系统的示意图；

图15是本申请实施例公开的另一种通信系统的示意图。

具体实施方式

本申请实施例公开了一种语音识别方法、设备及系统，用于提高设备的功能利用率。以下进行详细说明。

为了更好地理解本申请实施例公开的一种语音识别方法、设备及系统，下面先对本申请实施例使用的网络架构进行描述。请参阅图1，图1是本申请实施例公开的一种网络架构示意图。如图1所示，该网络架构可以包括音箱设备101、第一设备102和服务器103。音箱设备101与第一设备102之间可以通过无线连接，如蓝牙连接等，也可以通过有线连接，如pogo pin连接、通用串行总线(Universal Serial Bus，USB)连接等。第一设备102与服务器103之间可以通过无线连接。服务器103可以为数据服务器、无线保真(Wireless-Fidelity，WiFi)服务器等。第一设备102可以为平板电脑、手机等。第一设备102与服务器103进行交互，音箱设备101可以输出第一设备102需要输出的多媒体文件。

基于图1所示的网络架构，请参阅图2，图2是本申请实施例公开的一种语音识别方法的流程示意图。其中，由第一设备进行语音信号采集、回声抵消和语义识别。如图2所示，该语音识别方法可以包括以下步骤。

201、第一设备与音箱设备建立通信连接。

本实施例中，第一设备与音箱设备之间的通信连接为无线连接的情况下，第一设备与音箱设备建立通信连接，可以是第一设备向音箱设备发送连接建立请求，也可以是音箱设备向第一设备发送连接建立请求，还可以是第一设备与音箱设备之间互相发送连接建立请求。第一设备与音箱设备之间的通信连接为有线连接的情况下，第一设备与音箱设备建立通信连接为第一设备与音箱设备通过接口、连线等建立了连接。

202、第一设备开启第一设备的语音采集。

本实施例中，在第一设备与音箱设备建立通信连接时或建立连接后，在只有第一设备设置有语音采集装置的情况下，或者在第一设备和音箱设备均设置有语音采集装置，但第一设备的语音采集装置的优先级大于音箱设备的语音采集装置的优先级，或者第一设备的语音采集装置被设置为第一设备和音箱设备的语音采集装置的情况下，第一设备开启第一设备的语音采集，即使第一设备的语音采集装置处于工作状态。此外，第一设备还需要关闭第一设备的音频输出装置，同时开启音箱设备的音频输出装置，以便第一设备上要输出的音频文件通过音箱设备上的音频输出装置输出。音频输出装置可以为扬声器、喇叭等，语音采集装置可以为麦克风等。其中，在语音采集装置为麦克风的情况下，麦克风的数量可以为一个，也可以为多个；在麦克风的数量为多个的情况下，麦克风可以组成麦克风阵列。

203、第一设备通过语音采集装置采集第一语音信号，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

本实施例中，第一设备开启第一设备的语音采集之后，第一设备可以通过第一设备的语音采集装置采集第一语音信号。在第一设备具有回声抵消功能的情况下，之后可以先判断在采集第一语音信号时音箱设备是否输出第二语音信号，在判断出在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到用户的第三语音信号。在判断出在采集第一语音信号时音箱设备未输出语音信号的情况下，确定第一语音信号为用户的第三语音信号。

204、第一设备分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

本实施例中，第一设备得到第三语音信号之后，在第一设备具有语义识别功能的情况下，先分析第三语音信号是否包括获取信息的信号，在分析出第三语音信号不包括获取信息的信号的情况下，可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下，可以继续判断第一设备是否存储有第三语音信号对应的多媒体文件，即判断获取的信息是否为本地信息，在判断出第一设备存储有第三语音信号对应的多媒体文件的情况下，直接从第一设备存储的多媒体文件中获取第三语音信号对应的多媒体文件。在判断出第一设备未存储有第三语音信号对应的多媒体文件的情况下，从服务器获取第三语音信号对应的多媒体文件，可以是向服务器发送根据第三语音信号生成的信息获取请求或信息获取指令，服务器接收到信息获取请求或信息获取指令之后，根据信息获取请求或信息获取指令获取多媒体文件并发送给第一设备。其中，多媒体文件包括音频文件、视频文件或文本文件中的至少一种。

205、第一设备向音箱设备发送多媒体文件。

本实施例中，第一设备获取到第三语音信号对应的多媒体文件之后，在音箱设备设置有显示屏的情况下，可以直接向音箱设备发送多媒体文件。在音箱设备未设置有显示屏的情况下，可以先判断多媒体文件是否包括视频文件和/或文本文件，在判断出多媒体文件包括视频文件和/或文本文件的情况下，第一设备播放多媒体文件包括的视频文件和/或文本文件，此外，在多媒体文件还包括音频文件的情况下，还需要将该音频文件发送给音箱设备。在判断出多媒体文件只包括音频文件的情况下，可以直接向音箱设备发送多媒体文件。第一设备向音箱设备发送多媒体文件可以是向音箱设备发送用于输出多媒体文件的指令，该指令包括或携带有多媒体文件。

206、音箱设备输出多媒体文件。

本实施例中，音箱设备接收到来自第一设备的多媒体文件或用于输出多媒体文件的指令之后，可以直接输出多媒体文件。也可以先判断音箱设备是否输出多媒体文件，在判断出音箱设备未输出多媒体文件的情况下，再输出多媒体文件。在判断出音箱设备正输出多媒体文件的情况下，可以先停止正在输出的多媒体文件，之后输出接收到的多媒体文件，等接收到的多媒体文件输出完成之后，再继续输出之前停止输出的多媒体文件；也可以等正输出的多媒体文件输出完成之后，再输出接收的多媒体文件。在音箱设备包括显示屏的情况下，多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。在音箱设备不包括显示屏，且多媒体文件只包括音频文件的情况下，音箱设备可以接收到来自第一设备的多媒体文件。在音箱设备不包括显示屏，且多媒体文件包括音频文件以及视频文件(和/或文本文件)的情况下，音箱设备可以接收到来自第一设备的多媒体文件包括的音频文件。

基于图1所示的网络架构，请参阅图3，图3是本申请实施例公开的另一种语音识别方法的流程示意图。其中，由第一设备进行语音信号采集和回声抵消，由服务器进行语义识别。如图3所示，该语音识别方法可以包括以下步骤。

301、第一设备与音箱设备建立通信连接。

其中，步骤301与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

302、第一设备开启第一设备的语音采集。

其中，步骤302与步骤202相同，详细描述请参考步骤202，在此不再详细赘述。

303、第一设备通过语音采集装置采集第一语音信号，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

其中，步骤303与步骤203相同，详细描述请参考步骤203，在此不再详细赘述。

304、第一设备向服务器发送第三语音信号。

本实施例中，在第一设备不具有语义识别功能的情况下，第一设备得到第三语音信号之后，向服务器发送第三语音信号，可以是向服务器发送用于语义识别的指令，该指令包括或携带第三语音信号。

305、服务器分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

本实施例中，服务器接收到来自第一设备的第三语音信号之后，先分析第三语音信号是否包括获取信息的信号，在分析出第三语音信号不包括获取信息的信号的情况下，可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下，可以继续判断服务器是否存储有第三语音信号对应的多媒体文件，即判断获取的信息是否为网络信息，在判断出服务器存储有第三语音信号对应的多媒体文件的情况下，直接从服务器存储的多媒体文件中获取第三语音信号对应的多媒体文件。在判断出服务器未存储有第三语音信号对应的多媒体文件的情况下，可以生成用于获取信息的指令。其中，多媒体文件包括音频文件、视频文件或文本文件中的至少一种。

306、服务器向第一设备发送多媒体文件。

本实施例中，服务器获取到第三语音信号对应的多媒体文件之后，向第一设备发送多媒体文件。服务器生成用于获取信息的指令之后，可以向第一设备发送该指令。

307、第一设备向音箱设备发送多媒体文件。

本实施例中，在第一设备接收到来自服务器的指令的情况下，可以先根据该指令从第一设备存储的多媒体文件中获取多媒体文件，之后向音箱设备发送多媒体文件。

其中，步骤307与步骤205相同，详细描述请参考步骤205，在此不再详细赘述。

308、音箱设备输出多媒体文件。

其中，步骤308与步骤206相同，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图4，图4是本申请实施例公开的又一种语音识别方法的流程示意图。其中，由音箱设备进行语音信号采集、回声抵消和语义识别。如图4所示，该语音识别方法可以包括以下步骤。

401、第一设备与音箱设备建立通信连接。

其中，步骤401与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

402、第一设备向音箱设备发送用于开启语音采集的第一指令。

本实施例中，在第一设备与音箱设备建立通信连接时或建立连接后，在只有音箱设备设置有语音采集装置的情况下，或者在第一设备和音箱设备均设置有语音采集装置，但音箱设备的语音采集装置的优先级大于第一设备的语音采集装置的优先级，或者音箱设备的语音采集装置被设置为第一设备和音箱设备的语音采集装置的情况下，第一设备向音箱设备发送用于开启语音采集的第一指令。此外，第一设备还需要关闭第一设备的音频输出装置，同时向音箱设备发送用于开启音频输出的第二指令，以便第一设备上要输出的音频文件通过音箱设备上的音频输出装置输出。音频输出装置可以为扬声器、喇叭等，语音采集装置可以为麦克风等。

403、音箱设备开启语音采集。

本实施例中，音箱设备接收到来自第一设备的第一指令之后根据第一指令开启语音采集，即使音箱设备的语音采集装置处于工作状态。此外，音箱设备接收到来自第一设备的第二指令之后，根据第二指令开启音频输出，即使音箱设备的音频输出装置处于工作状态。

404、音箱设备通过语音采集装置采集第一语音信号，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

其中，步骤404与步骤203相似，详细描述请参考步骤203，在此不再详细赘述。

405、音箱设备分析出第三语音信号包括获取信息的信号的情况下，根据第三语音信号生成信息获取指令或信息获取请求。

本实施例中，音箱设备得到第三语音信号之后，在音箱设备具有语义识别功能的情况下，先分析第三语音信号是否包括获取信息的信号，在分析出第三语音信号不包括获取信息的信号的情况下，可以直接丢弃第三语音信号。在分析出第三语音信号包括获取信息的信号的情况下，可以根据第三语音信号生成用于获取信息的信息获取指令或信息获取请求。

406、音箱设备向第一设备发送信息获取指令或信息获取请求。

407、第一设备根据信息获取指令或信息获取请求获取多媒体文件。

本实施例中，第一设备接收到来自音箱设备的信息获取指令或信息获取请求之后，可以先判断信息获取指令或信息获取请求获取的信息是否存储在第一设备中，在判断出存储在第一设备中的情况下，从第一设备存储的多媒体文件中获取信息获取指令或信息获取请求对应的多媒体文件。在判断出未存储在第一设备中的情况下，从服务器获取信息获取指令或信息获取请求对应的对应的多媒体文件，获取方式与步骤204中的相似，详细描述请参考步骤204，在此不再详细赘述。

408、第一设备向音箱设备发送多媒体文件。

其中，步骤408与步骤205相似，详细描述请参考步骤205，在此不再详细赘述。

409、音箱设备输出多媒体文件。

其中，步骤409与步骤206相似，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图5，图5是本申请实施例公开的又一种语音识别方法的流程示意图。其中，由音箱设备进行语音信号采集和回声抵消，由第一设备进行语义识别。如图5所示，该语音识别方法可以包括以下步骤。

501、第一设备与音箱设备建立通信连接。

其中，步骤501与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

502、第一设备向音箱设备发送用于开启语音采集的第一指令。

其中，步骤502与步骤402相同，详细描述请参考步骤402，在此不再详细赘述。

503、音箱设备开启语音采集。

其中，步骤503与步骤403相同，详细描述请参考步骤403，在此不再详细赘述。

504、音箱设备通过语音采集装置采集第一语音信号，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

其中，步骤504与步骤203相似，详细描述请参考步骤203，在此不再详细赘述。

505、音箱设备向第一设备发送第三语音信号。

本实施例中，音箱设备得到第三语音信号之后，在音箱设备不具有语义识别功能的情况下，向第一设备发送第三语音信号。

506、第一设备分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

其中，步骤506与步骤204相同，详细描述请参考步骤204，在此不再详细赘述。

507、第一设备向音箱设备发送多媒体文件。

其中，步骤507与步骤205相同，详细描述请参考步骤205，在此不再详细赘述。

508、音箱设备输出多媒体文件。

其中，步骤508与步骤206相同，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图6，图6是本申请实施例公开的又一种语音识别方法的流程示意图。其中，由音箱设备进行语音信号采集和回声抵消，由服务器进行语义识别。如图6所示，该语音识别方法可以包括以下步骤。

601、第一设备与音箱设备建立通信连接。

其中，步骤601与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

602、第一设备向音箱设备发送用于开启语音采集的第一指令。

其中，步骤602与步骤402相同，详细描述请参考步骤402，在此不再详细赘述。

603、音箱设备开启语音采集。

其中，步骤603与步骤403相同，详细描述请参考步骤403，在此不再详细赘述。

604、音箱设备通过语音采集装置采集第一语音信号，在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

其中，步骤604与步骤203相似，详细描述请参考步骤203，在此不再详细赘述。

605、音箱设备向第一设备发送第三语音信号。

其中，步骤605与步骤505相同，详细描述请参考步骤505，在此不再详细赘述。

606、第一设备向服务器发送第三语音信号。

本实施例中，第一设备接收到来自第三语音信号之后，在第一设备不具有语义识别功能的情况下，向服务器发送第三语音信号。

607、服务器分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

其中，步骤607与步骤305相同，详细描述请参考步骤305，在此不再详细赘述。

608、服务器向第一设备发送多媒体文件。

其中，步骤608与步骤306相同，详细描述请参考步骤306，在此不再详细赘述。

609、第一设备向音箱设备发送多媒体文件。

其中，步骤609与步骤307相同，详细描述请参考步骤307，在此不再详细赘述。

610、音箱设备输出多媒体文件。

其中，步骤610与步骤206相同，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图7，图7是本申请实施例公开的又一种语音识别方法的流程示意图。其中，由音箱设备进行语音信号采集，由第一设备进行回声抵消和语义识别。如图7所示，该语音识别方法可以包括以下步骤。

701、第一设备与音箱设备建立通信连接。

其中，步骤701与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

702、第一设备向音箱设备发送用于开启语音采集的第一指令。

其中，步骤702与步骤402相同，详细描述请参考步骤402，在此不再详细赘述。

703、音箱设备开启语音采集。

其中，步骤703与步骤403相同，详细描述请参考步骤403，在此不再详细赘述。

704、音箱设备通过语音采集装置采集第一语音信号。

705、音箱设备向第一设备发送第一语音信号。

本实施例中，在音箱设备不具有回声抵消功能的情况下，音箱设备通过语音采集装置采集到第一语音信号之后，直接向第一设备发送第一语音信号。

706、在采集第一语音信号时音箱设备输出第二语音信号的情况下，第一设备过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

本实施例中，第一设备接收到来自音箱设备的第一语音信号之后，先对第一语音信号进行回声抵消得到第三语音信号。其中，回声抵消的过程与步骤203中的相同，详细描述请参考步骤203，在此不再详细赘述。

707、第一设备分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

其中，步骤707与步骤204相同，详细描述请参考步骤204，在此不再详细赘述。

708、第一设备向音箱设备发送多媒体文件。

其中，步骤708与步骤205相同，详细描述请参考步骤205，在此不再详细赘述。

709、音箱设备输出多媒体文件。

其中，步骤709与步骤206相同，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图8，图8是本申请实施例公开的又一种语音识别方法的流程示意图。其中，由音箱设备进行语音信号采集，由第一设备进行回声抵消，由服务器进行语义识别。如图8所示，该语音识别方法可以包括以下步骤。

801、第一设备与音箱设备建立通信连接。

其中，步骤801与步骤201相同，详细描述请参考步骤201，在此不再详细赘述。

802、第一设备向音箱设备发送用于开启语音采集的第一指令。

其中，步骤802与步骤402相同，详细描述请参考步骤402，在此不再详细赘述。

803、音箱设备开启语音采集。

其中，步骤803与步骤403相同，详细描述请参考步骤403，在此不再详细赘述。

804、音箱设备通过语音采集装置采集第一语音信号。

805、音箱设备向第一设备发送第一语音信号。

其中，步骤805与步骤705相同，详细描述请参考步骤705，在此不再详细赘述。

806、在采集第一语音信号时音箱设备输出第二语音信号的情况下，第一设备过滤掉第一语音信号中的第二语音信号，得到第三语音信号。

其中，步骤806与步骤706相同，详细描述请参考步骤706，在此不再详细赘述。

807、第一设备向服务器发送第三语音信号。

其中，步骤807与步骤304相同，详细描述请参考步骤304，在此不再详细赘述。

808、服务器分析出第三语音信号包括获取信息的信号的情况下，获取第三语音信号对应的多媒体文件。

其中，步骤808与步骤305相同，详细描述请参考步骤305，在此不再详细赘述。

809、服务器向第一设备发送多媒体文件。

其中，步骤809与步骤306相同，详细描述请参考步骤306，在此不再详细赘述。

810、第一设备向音箱设备发送多媒体文件。

其中，步骤810与步骤307相同，详细描述请参考步骤307，在此不再详细赘述。

811、音箱设备输出多媒体文件。

其中，步骤811与步骤206相同，详细描述请参考步骤206，在此不再详细赘述。

基于图1所示的网络架构，请参阅图9，图9是本申请实施例公开的一种第一设备的结构示意图。其中，该第一设备为可以包括：

开启单元901，用于当第一设备与音箱设备建立通信连接时，开启语音采集；

第一获取单元902，用于获取第一语音信号；

第二获取单元903，用于获取第一获取单元901获取的第一语音信号对应的多媒体文件；

发送单元904，用于向音箱设备发送第二获取单元903获取的多媒体文件，以使得音箱设备输出所述多媒体文件。

作为一种可能的实施方式，第一设备与音箱设备建立通信连接包括：

第一设备与音箱设备建立有线连接和/或无线连接。

作为一种可能的实施方式，在开启的语音采集为音箱设备的语音采集的情况下，开启单元901，具体用于向音箱设备发送用于开启语音采集的第一指令。

作为一种可能的实施方式，在开启的语音采集为第一设备的语音采集的情况下，第一获取单元902具体用于：

通过第一设备的语音采集装置采集第二语音信号；

在采集第二语音信号时音箱设备输出第三语音信号的情况下，过滤掉第二语音信号中的第三语音信号，得到第一语音信号；

在采集第二语音信号时音箱设备未输出语音信号的情况下，确定第二语音信号为第一语音信号。

作为一种可能的实施方式，在开启的语音采集为音箱设备的语音采集的情况下，第一获取单元902，具体用于接收来自音箱设备的第一语音信号。

作为一种可能的实施方式，在开启的语音采集为音箱设备的语音采集的情况下，第一获取单元902具体用于：

接收来自音箱设备的第四语音信号；

在采集第四语音信号时音箱设备输出第五语音信号的情况下，过滤掉第四语音信号中的第五语音信号，得到第一语音信号；

在采集第四语音信号时音箱设备未输出语音信号的情况下，确定第四语音信号为第一语音信号。

作为一种可能的实施方式，第二获取单元903，具体用于在分析出第一语音信号包括获取信息的信号的情况下，获取第一语音信号对应的多媒体文件。

作为一种可能的实施方式，第二获取单元903获取第一语音信号对应的多媒体文件包括：

在第一设备未存储有第一语音信号对应的多媒体文件的情况下，从服务器获取第一语音信号对应的多媒体文件。

作为一种可能的实施方式，第二获取单元903具体用于：

向服务器发送第一语音信号；

接收来自服务器的多媒体文件，多媒体文件是在第一语音信号包括获取信息的信号的情况下，服务器获取的第一语音信号对应的多媒体文件。

作为一种可能的实施方式，第二获取单元903具体用于：

向服务器发送第一语音信号；

接收来自服务器的第二指令，第二指令为在第一语音信号包括获取信息的信号的情况下，服务器根据第一语音信号生成的指令；

根据第二指令获取多媒体文件。

作为一种可能的实施方式，多媒体文件可以包括音频文件、视频文件或文本文件中的至少一种。

作为一种可能的实施方式，在音箱设备不包括显示屏的情况下，发送单元904，具体用于在多媒体文件只包括音频文件的情况下，向音箱设备发送所述多媒体文件；

该第一设备还可以包括：

播放单元905，用于在第二获取单元903获取的多媒体文件包括文本文件和/或视频文件的情况下，播放多媒体文件包括的文本文件和/或视频文件。

作为一种可能的实施方式，发送单元904向音箱设备发送多媒体文件包括：

向音箱设备发送用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件。

此外，该第一设备还可以执行上述图2-图8中第一设备执行的方法步骤，还可以包括执行上述图2-图8中第一设备执行的方法步骤的其他单元，此处不再赘述。

基于图1所示的网络架构，请参阅图10，图10是本申请实施例公开的另一种第一设备的结构示意图。如图10所示，该第一设备可以包括处理器1001、存储器1002、摄像头1003、显示屏1004、语音采集装置1005、输出装置1006、通信接口1007和连接线1008，上述组件之间的连接可以通过连接线1008来实现。处理器1001可以是一个通用中央处理器(CPU)，多个CPU，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。存储器1002可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-OnlyMemory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1002可以是独立存在的，也可以是与处理器1001集成在一起的。显示屏1004可以为只具有显示功能的显示屏，也可以为具有显示功能和具有检测触摸功能的显示屏。语音采集装置1005可以为麦克风，也可以为其它具有语音采集功能的装置。输出装置1006可以为语音输出装置，如喇叭、扬声器等，还可以为具有其它输出功能的装置。通信接口1007可以为收发天线，也可以为有线接口，还可以为其他通信接口。其中：

存储器中存储有一组程序代码，处理器1001用于调用存储器1002存储的程序代码执行以下操作：

当第一设备与音箱设备建立通信连接时，开启语音采集；

获取第一语音信号；

获取第一语音信号对应的多媒体文件；

通信接口1007，用于向音箱设备发送多媒体文件，以使得音箱设备输出多媒体文件。

第一设备与音箱设备建立有线连接和/或无线连接。

作为一种可能的实施方式，在开启的语音采集为音箱设备的语音采集的情况下，处理器1001开启语音采集包括：

通信接口1007向音箱设备发送用于开启语音采集的第一指令。

作为一种可能的实施方式，在开启的语音采集为第一设备的语音采集的情况下，处理器1001获取第一语音信号包括：

语音采集装置1005采集第二语音信号；

处理器1001在采集第二语音信号时音箱设备输出第三语音信号的情况下，过滤掉第二语音信号中的第三语音信号，得到第一语音信号；

处理器1001在采集第二语音信号时音箱设备未输出语音信号的情况下，确定第二语音信号为第一语音信号。

作为一种可能的实施方式，在开启的语音采集为音箱设备的语音采集的情况下，处理器1001获取第一语音信号包括：

通信接口1007接收来自所述音箱设备的第一语音信号。

通信接口1007接收来自音箱设备的第四语音信号；

处理器1001在采集第四语音信号时音箱设备输出第五语音信号的情况下，过滤掉第四语音信号中的第五语音信号，得到第一语音信号；

处理器1001在采集第四语音信号时音箱设备未输出语音信号的情况下，确定第四语音信号为第一语音信号。

作为一种可能的实施方式，处理器1001获取第一语音信号对应的多媒体文件包括：

处理器1001在分析出第一语音信号包括获取信息的信号的情况下，获取第一语音信号对应的多媒体文件。

通信接口1007在第一设备未存储有第一语音信号对应的多媒体文件的情况下，从服务器获取第一语音信号对应的多媒体文件。

通信接口1007向服务器发送第一语音信号；

通信接口1007接收来自服务器的多媒体文件，多媒体文件是在第一语音信号包括获取信息的信号的情况下，服务器获取的第一语音信号对应的多媒体文件。

通信接口1007向服务器发送第一语音信号；

通信接口1007接收来自服务器的第二指令，第二指令为在第一语音信号包括获取信息的信号的情况下，服务器根据所述第一语音信号生成的指令；

处理器1001根据第二指令获取多媒体文件。

作为一种可能的实施方式，多媒体文件包括音频文件、视频文件或文本文件中的至少一种。

作为一种可能的实施方式，在音箱设备不包括显示屏的情况下，通信接口1007向音箱设备发送多媒体文件包括：

通信接口1007在多媒体文件只包括音频文件的情况下，向音箱设备发送多媒体文件；

显示屏1004，用于在多媒体文件包括文本文件和/或视频文件的情况下，播放多媒体文件包括的文本文件和/或视频文件。

作为一种可能的实施方式，通信接口1007向音箱设备发送多媒体文件包括：

通信接口1007向音箱设备发送用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件。

此外，该第一设备可以执行上述图2-图8中第一设备执行的方法步骤，此处不再赘述。

其中，开启单元901、第一获取单元902和第三获取单元902可以由第一设备中的处理器1001和存储器1002来实现，发送单元904可以由第一设备中的通信接口1007来实现，播放单元905可以由第一设备中的显示屏1005来实现。

基于图1所示的网络架构，请参阅图11，图11是本申请实施例公开的一种音箱设备的结构示意图。如图11所示，该音箱设备可以包括：

接收单元1101，用于在音箱设备与第一设备建立通信连接后，接收来自第一设备的用于开启语音采集的第一指令；

开启单元1102，用于开启语音采集；

采集单元1103，用于通过音箱设备的语音采集装置采集第一语音信号；

发送单元1104，用于向第一设备发送采集单元1103采集的第一语音信号；

接收单元1101，还用于接收来自第一设备的多媒体文件，多媒体文件是第一设备获取的第一语音信号对应的多媒体文件；

输出单元1105，还用于输出接收单元1101接收的多媒体文件。

作为一种可能的实施方式，音箱设备与第一设备建立通信连接包括：

音箱设备与第一设备建立有线连接和/或无线连接。

作为一种可能的实施方式，该音箱设备还可以包括：

过滤单元1106，用于在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉采集单元1103采集的第一语音信号中的第二语音信号，得到第三语音信号；

发送单元1104，具体用于向第一设备发送第三语音信号；

多媒体文件是第一设备获取的第三语音信号对应的多媒体文件。

作为一种可能的实施方式，该音箱设备还可以包括：

生成单元1107，用于在分析出第三语音信号包括获取信息的信号的情况下，根据第三语音信号生成第二指令；

发送单元1104向第一设备发送第三语音信号包括：

向第一设备发送第二指令。

作为一种可能的实施方式，在音箱设备包括显示屏的情况下，多媒体文件包括音频文件、视频文件或文本文件中的至少一种。

作为一种可能的实施方式，接收单元1101接收来自第一设备的多媒体文件包括：

接收来自第一设备的用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件。

此外，该音箱设备还可以执行上述图2-图8中音箱设备执行的方法步骤，还可以包括执行上述图2-图8中音箱设备执行的方法步骤的其他单元，此处不再赘述。

基于图1所示的网络设备架构，请参阅图12，图12是本申请实施例公开的另一种音箱设备的结构示意图。如图12所示，该音箱设备可以包括处理器1201、存储器1202、通信接口1203、语音采集装置1204、输出装置1205和连接线1206。上述组件之间的连接可以通过连接线1206来实现。处理器1201可以是一个通用中央处理器(CPU)，多个CPU，微处理器，特定应用集成电路(application-specific integrated circuit，ASIC)，或一个或多个用于控制本申请方案程序执行的集成电路。存储器1202可以是只读存储器(read-onlymemory，ROM)或可存储静态信息和指令的其他类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其他类型的动态存储设备，也可以是电可擦可编程只读存储器(Electrically Erasable Programmable Read-Only Memory，EEPROM)、只读光盘(Compact Disc Read-Only Memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其他磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其他介质，但不限于此。存储器1202可以是独立存在，也可以是与处理器1201集成在一起。语音采集装置1204可以为麦克风，也可以为其它具有语音采集功能的装置。输出装置1205可以为音频输出装置，如喇叭、扬声器等，也可以为具有其它输出功能的装置。通信接口1203可以为收发天线，也可以为有线接口，还可以为其他通信接口。其中：

通信接口1203，用于在音箱设备与第一设备建立通信连接后，接收来自第一设备的用于开启语音采集的第一指令；

存储器1202中存储有一组程序代码，处理器1201用于调用存储器1202中存储的程序代码执行以下操作：

开启语音采集；

语音采集装置1204，用于采集第一语音信号；

通信接口1203，还用于向第一设备发送第一语音信号；

通信接口1203，还用于接收来自第一设备的多媒体文件，多媒体文件是第一设备获取的第一语音信号对应的多媒体文件；

输出装置1205，用于输出多媒体文件。

音箱设备与第一设备建立有线连接和/或无线连接。

作为一种可能的实施方式，处理器1201还用于调用存储器1202中存储的程序代码执行以下操作：

在采集第一语音信号时音箱设备输出第二语音信号的情况下，过滤掉第一语音信号中的第二语音信号，得到第三语音信号；

通信接口1203向第一设备发送第一语音信号包括：

向第一设备所述第三语音信号；

在分析出第三语音信号包括获取信息的信号的情况下，根据第三语音信号生成第二指令；

通信接口1203向第一设备发送第三语音信号包括：

通信接口1203向第一设备发送第二指令。

作为一种可能的实施方式，通信接口1203接收来自第一设备的多媒体文件包括：

此外，该音箱设备可以执行上述图2-图8中音箱设备执行的方法步骤，此处不再赘述。

其中，开启单元1102、过滤单元1106和生成单元1107可以由音箱设备中的处理器1201和存储器1202来实现，接收单元1101和发送单元1102可以由音箱设备中的通信接口1203来实现，采集单元1103可以由音箱设备中的语音采集装置1204来实现，输出单元1105可以由音箱设备中的输出装置1205来实现。

请参阅图13，图13是本申请实施例公开的一种通信系统的结构示意图。如图13所示，该通信系统可以包括第一设备1301、音箱设备1302和服务器1303。其中：

第一设备1301，用于当第一设备与音箱设备建立通信连接时，开启语音采集，获取第一语音信号，获取第一语音信号对应的多媒体文件，并向音箱设备1302发送多媒体文件；

音箱设备1302，用于接收多媒体文件，并输出多媒体文件。

作为一种可能的实施方式，第一设备1301与音箱设备1302建立通信连接包括：

第一设备1301与音箱设备1302建立有线连接和/或无线连接。

作为一种可能的实施方式，在开启的语音采集为音箱设备1302的语音采集的情况下，第一设备1301开启语音采集包括：

向音箱设备1302发送用于开启语音采集的第一指令；

音箱设备1302，还用于接收来自第一设备的第一指令，并开启语音采集。

作为一种可能的实施方式，在开启的语音采集为第一设备1301的语音采集的情况下，第一设备1301获取第一语音信号包括：

通过第一设备1301的语音采集装置采集第二语音信号；

在采集第二语音信号时音箱设备1302输出第三语音信号的情况下，过滤掉第二语音信号中的第三语音信号，得到第一语音信号；

在采集第二语音信号时音箱设备1302未输出语音信号的情况下，确定第二语音信号为第一语音信号。

作为一种可能的实施方式，在开启的语音采集为音箱设备1302的语音采集的情况下，音箱设备1302，还用于通过音箱设备1302的语音采集装置采集第四语音信号，在采集第四语音信号时音箱设备1302输出第五语音信号的情况下，过滤掉第四语音信号中的第五语音信号，得到第一语音信号，并向第一设备1301发送第一语音信号；

第一设备1301获取第一语音信号包括：

接收来自音箱设备1302的第一语音信号。

作为一种可能的实施方式，在开启的语音采集为音箱设备1302的语音采集的情况下，音箱设备1302，还用于通过音箱设备1302的语音采集装置采集第四语音信号，并向第一设备1301发送第四语音信号；

第一设备1301获取第一语音信号包括：

接收来自音箱设备1302的第四语音信号；

在采集第一语音信号时音箱设备1302输出第五语音信号的情况下，过滤掉第四语音信号中的第五语音信号，得到第一语音信号；

在采集第四语音信号时音箱设备1302未输出语音信号的情况下，确定第四语音信号为第一语音信号。

作为一种可能的实施方式，第一设备1301获取第一语音信号对应的多媒体文件包括：

在分析出第一语音信号包括获取信息的信号的情况下，获取第一语音信号对应的多媒体文件。

在第一设备未存储有第一语音信号对应的多媒体文件的情况下，从服务器1303获取第一语音信号对应的多媒体文件。

向服务器1303发送第一语音信号；

服务器1303，用于接收第一语音信号，在分析出第一语音信号包括获取信息的信号的情况下，获取的第一语音信号对应的多媒体文件，并向第一设备发送多媒体文件；

第一设备1301获取第一语音信号对应的多媒体文件还包括：

接收来自服务器1303的多媒体文件。

向服务器1303发送第一语音信号；

服务器1303，用于接收第一语音信号，在第一语音信号包括获取信息的信号的情况下，根据第一语音信号生成的第二指令，并向第一设备发送第二指令；

第一设备1301获取第一语音信号对应的多媒体文件还包括：

接收来自服务器1303的第二指令；

根据第二指令获取多媒体文件。

作为一种可能的实施方式，在音箱设备1302不包括显示屏的情况下，第一设备1301向音箱设备1302发送多媒体文件包括：

在多媒体文件只包括音频文件的情况下，向音箱设备1302发送多媒体文件；

第一设备1301，还用于在多媒体文件包括文本文件和/或视频文件的情况下，播放多媒体文件包括的文本文件和/或视频文件。

作为一种可能的实施方式，第一设备1301向音箱设备1302发送多媒体文件包括：

向音箱设备1302发送用于输出多媒体文件的第三指令，第三指令包括或携带多媒体文件；

音箱设备1302接收来自第一设备1301的多媒体文件包括：

接收来自第一设备1301的第二指令。

请参阅图14，图14是本申请实施例公开的一种通信系统的示意图。如图14所示，通信系统包括平板电脑和底座，平板电脑可以具有与底座连接的有线接口pogo pin。同时，平板电脑与底座可以通过蓝牙进行无线连接。平板电脑包括4个麦克风(microphone，MIC)，底座包括2个扬声器(speaker，SPK)。在底座连接电源的情况下，可以对平板电脑通过pogopin进行充电。在此系统中只有平板电脑向底座发送的音频流，而没有底座向平板电脑发送的语音信号。平板电脑向底座发送的音频流是通过蓝牙连接进行传输的。

请参阅图15，图15是本申请实施例公开的另一种通信系统的示意图。如图15所示，通信系统包括平板电脑和底座，平板电脑可以具有与底座连接的有线接口pogo pin。底座包括6个MIC，底座包括2个SPK。在底座连接电源的情况下，可以对平板电脑通过pogopin进行充电。在此系统中平板电脑可以通过pogo pin向底座发送音频流，底座可以通过pogo pin向平板电脑发送语音信号。

本申请实施例还公开了一种可读存储介质，该可读存储介质上存储有程序，该程序运行时，实现如图2-图8所示的语音识别方法。

以上所述的具体实施方式，对本申请的目的、技术方案和有益效果进行了进一步详细说明，所应理解的是，以上所述仅为本申请的具体实施方式而已，并不用于限定本申请的保护范围，凡在本申请的技术方案的基础之上，所做的任何修改、等同替换、改进等，均应包括在本申请的保护范围之内。

Claims

一种语音识别方法，其特征在于，所述方法应用于第一设备，包括：

当所述第一设备与音箱设备建立通信连接时，开启语音采集；

获取第一语音信号；

获取所述第一语音信号对应的多媒体文件；

向所述音箱设备发送所述多媒体文件，以使得所述音箱设备输出所述多媒体文件。
根据权利要求1所述的方法，其特征在于，所述第一设备与音箱设备建立通信连接包括：

所述第一设备与音箱设备建立有线连接和/或无线连接。
根据权利要求1或2所述的方法，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述开启语音采集包括：

向所述音箱设备发送用于开启语音采集的第一指令。
根据权利要求1-3任一项所述的方法，其特征在于，在开启的语音采集为所述第一设备的语音采集的情况下，所述获取第一语音信号包括：

通过所述第一设备的语音采集装置采集第二语音信号；

在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下，过滤掉所述第二语音信号中的所述第三语音信号，得到第一语音信号；

在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下，确定所述第二语音信号为第一语音信号。
根据权利要求1-3任一项所述的方法，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述获取第一语音信号包括：

接收来自所述音箱设备的第一语音信号。
根据权利要求1-3任一项所述的方法，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述获取第一语音信号包括：

接收来自所述音箱设备的第四语音信号；

在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下，过滤掉所述第四语音信号中的所述第五语音信号，得到第一语音信号；

在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下，确定所述第四语音信号为第一语音信号。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述第一语音信号对应的多媒体文件包括：

在分析出所述第一语音信号包括获取信息的信号的情况下，获取所述第一语音信号对应的多媒体文件。
根据权利要求7所述的方法，其特征在于，所述获取所述第一语音信号对应的多媒体文件包括：

在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下，从服务器获取所述第一语音信号对应的多媒体文件。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述第一语音信号对应的多媒体文件包括：

向服务器发送所述第一语音信号；

接收来自所述服务器的多媒体文件，所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下，所述服务器获取的所述第一语音信号对应的多媒体文件。
根据权利要求1-6任一项所述的方法，其特征在于，所述获取所述第一语音信号对应的多媒体文件包括：

向服务器发送所述第一语音信号；

接收来自所述服务器的第二指令，所述第二指令为在所述第一语音信号包括获取信息的信号的情况下，所述服务器根据所述第一语音信号生成的指令；

根据所述第二指令获取多媒体文件。
根据权利要求1-10任一项所述的方法，其特征在于，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求11所述的方法，其特征在于，在所述音箱设备不包括显示屏的情况下，所述向所述音箱设备发送所述多媒体文件包括：

在所述多媒体文件只包括音频文件的情况下，向所述音箱设备发送所述多媒体文件；

所述方法还包括：

在所述多媒体文件包括文本文件和/或视频文件的情况下，播放所述多媒体文件包括的文本文件和/或视频文件。
根据权利要求1-12任一项所述的方法，其特征在于，所述向所述音箱设备发送所述多媒体文件包括：

向所述音箱设备发送用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种语音识别方法，其特征在于，所述方法应用于音箱设备，包括：

在所述音箱设备与第一设备建立通信连接后，接收来自所述第一设备的用于开启语音采集的第一指令；

开启语音采集；

通过所述音箱设备的语音采集装置采集第一语音信号；

向所述第一设备发送所述第一语音信号；

接收来自所述第一设备的多媒体文件，所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件；

输出所述多媒体文件。
根据权利要求14所述的方法，其特征在于，所述音箱设备与第一设备建立通信连接包括：

所述音箱设备与第一设备建立有线连接和/或无线连接。
根据权利要求14或15所述的方法，其特征在于，所述方法还包括：

在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下，过滤掉所述第一语音信号中的所述第二语音信号，得到第三语音信号；

所述向所述第一设备发送所述第一语音信号包括：

向所述第一设备发送所述第三语音信号；

所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
根据权利要求16所述的方法，其特征在于，所述方法还包括：

在分析出所述第三语音信号包括获取信息的信号的情况下，根据所述第三语音信号生成第二指令；

所述向所述第一设备发送所述第三语音信号包括：

向所述第一设备发送所述第二指令。
根据权利要求14-17任一项所述的方法，其特征在于，在所述音箱设备包括显示屏的情况下，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求14-18任一项所述的方法，其特征在于，所述接收来自所述第一设备的多媒体文件包括：

接收来自所述第一设备的用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种第一设备，其特征在于，包括：

开启单元，用于当所述第一设备与音箱设备建立通信连接时，开启语音采集；

第一获取单元，用于获取第一语音信号；

第二获取单元，用于获取所述第一获取单元获取的第一语音信号对应的多媒体文件；

发送单元，用于向所述音箱设备发送所述第二获取单元获取的多媒体文件，以使得所述音箱设备输出所述多媒体文件。
根据权利要求20所述的第一设备，其特征在于，所述第一设备与音箱设备建立通信连接包括：

所述第一设备与音箱设备建立有线连接和/或无线连接。
根据权利要求20或21所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述开启单元，具体用于向所述音箱设备发送用于开启语音采集的第一指令。
根据权利要求20-22任一项所述的第一设备，其特征在于，在开启的语音采集为所述第一设备的语音采集的情况下，第一获取单元具体用于：

通过所述第一设备的语音采集装置采集第二语音信号；

在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下，过滤掉所述第二语音信号中的所述第三语音信号，得到第一语音信号；

在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下，确定所述第二语音信号为第一语音信号。
根据权利要求20-22任一项所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述第一获取单元，具体用于接收来自所述音箱设备的第一语音信号。
根据权利要求20-22任一项所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述第一获取单元具体用于：

接收来自所述音箱设备的第四语音信号；

在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下，过滤掉所述第四语音信号中的所述第五语音信号，得到第一语音信号；

在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下，确定所述第四语音信号为第一语音信号。
根据权利要求20-25任一项所述的第一设备，其特征在于，所述第二获取单元，具体用于在分析出所述第一语音信号包括获取信息的信号的情况下，获取所述第一语音信号对应的多媒体文件。
根据权利要求26所述的第一设备，其特征在于，所述第二获取单元获取所述第一语音信号对应的多媒体文件包括：

在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下，从服务器获取所述第一语音信号对应的多媒体文件。
根据权利要求20-25任一项所述的第一设备，其特征在于，所述第二获取单元具体用于：

向服务器发送所述第一语音信号；

接收来自所述服务器的多媒体文件，所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下，所述服务器获取的所述第一语音信号对应的多媒体文件。
根据权利要求20-25任一项所述的第一设备，其特征在于，所述第二获取单元具体用于：

向服务器发送所述第一语音信号；

接收来自所述服务器的第二指令，所述第二指令为在所述第一语音信号包括获取信息的信号的情况下，所述服务器根据所述第一语音信号生成的指令；

根据所述第二指令获取多媒体文件。
根据权利要求20-29任一项所述的第一设备，其特征在于，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求30所述的第一设备，其特征在于，在所述音箱设备不包括显示屏的情况下，所述发送单元，具体用于在所述多媒体文件只包括音频文件的情况下，向所述音箱设备发送所述多媒体文件；

所述第一设备还包括：

播放单元，用于在所述第二获取单元获取的多媒体文件包括文本文件和/或视频文件的情况下，播放所述多媒体文件包括的文本文件和/或视频文件。
根据权利要求20-31任一项所述的第一设备，其特征在于，所述发送单元向所述音箱设备发送所述多媒体文件包括：

向所述音箱设备发送用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种音箱设备，其特征在于，包括：

接收单元，用于在所述音箱设备与第一设备建立通信连接后，接收来自所述第一设备的用于开启语音采集的第一指令；

开启单元，用于开启语音采集；

采集单元，用于通过所述音箱设备的语音采集装置采集第一语音信号；

发送单元，用于向所述第一设备发送所述采集单元采集的第一语音信号；

所述接收单元，还用于接收来自所述第一设备的多媒体文件，所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件；

输出单元，还用于输出所述接收单元接收的多媒体文件。
根据权利要求33所述的音箱设备，其特征在于，所述音箱设备与第一设备建立通信连接包括：

所述音箱设备与第一设备建立有线连接和/或无线连接。
根据权利要求33或34所述的音箱设备，其特征在于，所述音箱设备还包括：

过滤单元，用于在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下，过滤掉所述采集单元采集的第一语音信号中的所述第二语音信号，得到第三语音信号；

所述发送单元，具体用于向所述第一设备发送所述第三语音信号；

所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
根据权利要求35所述的音箱设备，其特征在于，所述音箱设备还包括：

生成单元，用于在分析出所述第三语音信号包括获取信息的信号的情况下，根据所述第三语音信号生成第二指令；

所述发送单元向所述第一设备发送所述第三语音信号包括：

向所述第一设备发送所述第二指令。
根据权利要求33-36任一项所述的音箱设备，其特征在于，在所述音箱设备包括显示屏的情况下，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求33-37任一项所述的音箱设备，其特征在于，所述接收单元接收来自所述第一设备的多媒体文件包括：

接收来自所述第一设备的用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种第一设备，其特征在于，包括处理器、存储器和通信接口，其中：

所述存储器中存储有一组程序代码，所述处理器用于调用所述存储器存储的程序代码执行以下操作：

当所述第一设备与音箱设备建立通信连接时，开启语音采集；

获取第一语音信号；

获取所述第一语音信号对应的多媒体文件；

所述通信接口，用于向所述音箱设备发送所述多媒体文件，以使得所述音箱设备输出所述多媒体文件。
根据权利要求39所述的第一设备，其特征在于，所述第一设备与音箱设备建立通信连接包括：

所述第一设备与音箱设备建立有线连接和/或无线连接。
根据权利要求39或40所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述处理器开启语音采集包括：

所述通信接口向所述音箱设备发送用于开启语音采集的第一指令。
根据权利要求39-41任一项所述的第一设备，其特征在于，所述第一设备还包括语音采集装置，在开启的语音采集为所述第一设备的语音采集的情况下，所述处理器获取第一语音信号包括：

所述语音采集装置采集第二语音信号；

所述处理器在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下，过滤掉所述第二语音信号中的所述第三语音信号，得到第一语音信号；

所述处理器在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下，确定所述第二语音信号为第一语音信号。
根据权利要求39-41任一项所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述处理器获取第一语音信号包括：

所述通信接口接收来自所述音箱设备的第一语音信号。
根据权利要求39-41任一项所述的第一设备，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述处理器获取第一语音信号包括：

所述通信接口接收来自所述音箱设备的第四语音信号；

所述处理器在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下，过滤掉所述第四语音信号中的所述第五语音信号，得到第一语音信号；

所述处理器在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下，确定所述第四语音信号为第一语音信号。
根据权利要求39-44任一项所述的第一设备，其特征在于，所述处理器获取所述第一语音信号对应的多媒体文件包括：

所述处理器在分析出所述第一语音信号包括获取信息的信号的情况下，获取所述第一语音信号对应的多媒体文件。
根据权利要求45所述的第一设备，其特征在于，所述处理器获取所述第一语音信号对应的多媒体文件包括：

所述通信接口在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下，从服务器获取所述第一语音信号对应的多媒体文件。
根据权利要求39-44任一项所述的第一设备，其特征在于，所述处理器获取所述第一语音信号对应的多媒体文件包括：

所述通信接口向服务器发送所述第一语音信号；

所述通信接口接收来自所述服务器的多媒体文件，所述多媒体文件是在所述第一语音信号包括获取信息的信号的情况下，所述服务器获取的所述第一语音信号对应的多媒体文件。
根据权利要求39-44任一项所述的第一设备，其特征在于，所述处理器获取所述第一语音信号对应的多媒体文件包括：

所述通信接口向服务器发送所述第一语音信号；

所述通信接口接收来自所述服务器的第二指令，所述第二指令为在所述第一语音信号包括获取信息的信号的情况下，所述服务器根据所述第一语音信号生成的指令；

所述处理器根据所述第二指令获取多媒体文件。
根据权利要求39-48任一项所述的第一设备，其特征在于，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求49所述的第一设备，其特征在于，所述第一设备还包括显示屏，在所述音箱设备不包括显示屏的情况下，所述通信接口向所述音箱设备发送所述多媒体文件包括：

所述通信接口在所述多媒体文件只包括音频文件的情况下，向所述音箱设备发送所述多媒体文件；

所述显示屏，用于在所述多媒体文件包括文本文件和/或视频文件的情况下，播放所述多媒体文件包括的文本文件和/或视频文件。
根据权利要求39-50任一项所述的第一设备，其特征在于，所述通信接口向所述音箱设备发送所述多媒体文件包括：

所述通信接口向所述音箱设备发送用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种音箱设备，其特征在于，包括处理器、存储器、通信接口、语音采集装置和输出装置，其中：

所述通信接口，用于在音箱设备与第一设备建立通信连接后，接收来自所述第一设备的用于开启语音采集的第一指令；

所述存储器中存储有一组程序代码，所述处理器用于调用所述存储器中存储的程序代码执行以下操作：

开启语音采集；

所述语音采集装置，用于采集第一语音信号；

所述通信接口，还用于向所述第一设备发送所述第一语音信号；

所述通信接口，还用于接收来自所述第一设备的多媒体文件，所述多媒体文件是所述第一设备获取的所述第一语音信号对应的多媒体文件；

所述输出装置，用于输出所述多媒体文件。
根据权利要求52所述的音箱设备，其特征在于，所述音箱设备与第一设备建立通信连接包括：

音箱设备与第一设备建立有线连接和/或无线连接。
根据权利要求52或53所述的音箱设备，其特征在于，所述处理器还用于调用所述存储器中存储的程序代码执行以下操作：

在采集所述第一语音信号时所述音箱设备输出第二语音信号的情况下，过滤掉所述第一语音信号中的所述第二语音信号，得到第三语音信号；

所述通信接口向所述第一设备发送所述第一语音信号包括：

向所述第一设备发送所述第三语音信号；

所述多媒体文件是所述第一设备获取的所述第三语音信号对应的多媒体文件。
根据权利要求54所述的音箱设备，其特征在于，所述处理器还用于调用所述存储器中存储的程序代码执行以下操作：

在分析出所述第三语音信号包括获取信息的信号的情况下，根据所述第三语音信号生成第二指令；

所述通信接口向所述第一设备发送所述第三语音信号包括：

所述通信接口向所述第一设备发送所述第二指令。
根据权利要求52-55任一项所述的音箱设备，其特征在于，在所述音箱设备包括显示屏的情况下，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求52-56任一项所述的音箱设备，其特征在于，所述通信接口接收来自所述第一设备的多媒体文件包括：

接收来自所述第一设备的用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件。
一种语音识别系统，其特征在于，包括第一设备和音箱设备，其中：

所述第一设备，用于当第一设备与音箱设备建立通信连接时，开启语音采集，获取第一语音信号，获取所述第一语音信号对应的多媒体文件，并向所述音箱设备发送所述多媒体文件；

所述音箱设备，用于接收所述多媒体文件，并输出所述多媒体文件。
根据权利要求58所述的系统，其特征在于，所述第一设备与音箱设备建立通信连接包括：

第一设备与音箱设备建立有线连接和/或无线连接。
根据权利要求58或59所述的的系统，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述第一设备开启语音采集包括：

向所述音箱设备发送用于开启语音采集的第一指令；

所述音箱设备，还用于接收来自所述第一设备的第一指令，并开启语音采集。
根据权利要求58-60任一项所述的的系统，其特征在于，在开启的语音采集为所述第一设备的语音采集的情况下，所述第一设备获取第一语音信号包括：

通过所述第一设备的语音采集装置采集第二语音信号；

在采集所述第二语音信号时所述音箱设备输出第三语音信号的情况下，过滤掉所述第二语音信号中的所述第三语音信号，得到第一语音信号；

在采集所述第二语音信号时所述音箱设备未输出语音信号的情况下，确定所述第二语音信号为第一语音信号。
根据权利要求58-60任一项所述的的系统，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述音箱设备，还用于通过所述音箱设备的语音采集装置采集第四语音信号，在采集所述第四语音信号时所述音箱设备输出第五语音信号的情况下，过滤掉所述第四语音信号中的所述第五语音信号，得到第一语音信号，并向所述第一设备发送所述第一语音信号；

所述第一设备获取第一语音信号包括：

接收来自所述音箱设备的第一语音信号。
根据权利要求58-60任一项所述的的系统，其特征在于，在开启的语音采集为所述音箱设备的语音采集的情况下，所述音箱设备，还用于通过所述音箱设备的语音采集装置采集第四语音信号，并向所述第一设备发送所述第四语音信号；

所述第一设备获取第一语音信号包括：

接收来自所述音箱设备的第四语音信号；

在采集所述第一语音信号时所述音箱设备输出第五语音信号的情况下，过滤掉所述第四语音信号中的所述第五语音信号，得到第一语音信号；

在采集所述第四语音信号时所述音箱设备未输出语音信号的情况下，确定所述第四语音信号为第一语音信号。
根据权利要求58-63任一项所述的的系统，其特征在于，所述第一设备获取所述第一语音信号对应的多媒体文件包括：

在分析出所述第一语音信号包括获取信息的信号的情况下，获取所述第一语音信号对应的多媒体文件。
根据权利要求64所述的系统，其特征在于，所述第一设备获取所述第一语音信号对应的多媒体文件包括：

在所述第一设备未存储有所述第一语音信号对应的多媒体文件的情况下，从服务器获取所述第一语音信号对应的多媒体文件。
根据权利要求58-63任一项所述的系统，其特征在于，所述系统还包括服务器，所述第一设备获取所述第一语音信号对应的多媒体文件包括：

向所述服务器发送所述第一语音信号；

所述服务器，用于接收所述第一语音信号，在分析出所述第一语音信号包括获取信息的信号的情况下，获取的所述第一语音信号对应的多媒体文件，并向所述第一设备发送所述多媒体文件；

所述第一设备获取所述第一语音信号对应的多媒体文件还包括：

接收来自所述服务器的多媒体文件。
根据权利要求58-63任一项所述的系统，其特征在于，所述系统还包括服务器，所述第一设备获取所述第一语音信号对应的多媒体文件包括：

向所述服务器发送所述第一语音信号；

所述服务器，用于接收所述第一语音信号，在所述第一语音信号包括获取信息的信号的情况下，根据所述第一语音信号生成的第二指令，并向所述第一设备发送所述第二指令；

所述第一设备获取所述第一语音信号对应的多媒体文件还包括：

接收来自所述服务器的第二指令；

根据所述第二指令获取多媒体文件。
根据权利要求58-67任一项所述的系统，其特征在于，所述多媒体文件包括音频文件、视频文件或文本文件中的至少一种。
根据权利要求68所述的系统，其特征在于，在所述音箱设备不包括显示屏的情况下，所述第一设备向所述音箱设备发送所述多媒体文件包括：

在所述多媒体文件只包括音频文件的情况下，向所述音箱设备发送所述多媒体文件；

所述第一设备，还用于在所述多媒体文件包括文本文件和/或视频文件的情况下，播放所述多媒体文件包括的文本文件和/或视频文件。
根据权利要求58-69任一项所述的系统，其特征在于，所述第一设备向所述音箱设备发送所述多媒体文件包括：

向所述音箱设备发送用于输出所述多媒体文件的第三指令，所述第三指令包括或携带所述多媒体文件；

所述音箱设备接收来自所述第一设备的多媒体文件包括：

接收来自所述第一设备的所述第二指令。