WO2021114224A1

WO2021114224A1 - 语音检测方法、预测模型的训练方法、装置、设备及介质

Info

Publication number: WO2021114224A1
Application number: PCT/CN2019/125121
Authority: WO
Inventors: 高益; 聂为然; 黄佑佳
Original assignee: 华为技术有限公司
Priority date: 2019-12-13
Filing date: 2019-12-13
Publication date: 2021-06-17
Also published as: EP4064284A4; US20220310095A1; CN112567457B; EP4064284A1; CN112567457A

Abstract

一种语音检测方法、预测模型的训练方法、装置、设备及介质，属于语音交互技术领域。一种多模态的语音结束点检测方法，通过模型对拍摄的人脸图像进行识别，从而预测出用户是否具有继续说话的意图，结合预测结果，来判决采集到的音频信号是否为语音结束点，由于在声学特征的基础上，还融合了人脸图像这种视觉模态的特征来进行检测，即使在背景噪声很强或者用户说话期间停顿的情况下，也能够利用人脸图像来准确判决语音信号是否为语音结束点，因此避免了背景噪声以及说话停顿造成的干扰，从而避免了背景噪声以及说话停顿的干扰会引发的过晚或者过早检测出语音交互处于结束状态的问题，提高了检测语音结束点的准确性。

Description

语音检测方法、预测模型的训练方法、装置、设备及介质

技术领域

本申请涉及语音交互技术领域，特别涉及一种语音检测方法、预测模型的训练方法、装置、设备及介质。

背景技术

在语音交互技术中，为了实现基于语音的人机交互功能，通常会识别一段语音中的语音起始点和语音结束点，截取语音起始点和语音结束点之间的部分，作为语音指令，基于语音指令来指示设备执行对应的操作。其中，语音起始点通常由用户的主动操作触发，很容易通过唤醒词的采集时间点、语音交互启动选项被触发操作的时间点等数据确定出来，而语音结束点则需要由设备通过对语音分析处理才能得出。由此可见，如何准确地检测出语音结束点，对于语音交互技术而言是至关重要的，同时也是一大技术难点。

相关技术中，语音检测方法通常是：每经过一个时间窗，采集当前时间窗内的音频信号，检测所述音频信号的尾部静音时长，对尾部静音时长与静音时长阈值进行比较，若所述尾部静音时长大于静音时长阈值，则确定音频信号为语音结束点，若所述尾部静音时长小于或等于静音时长阈值，则确定音频信号不为语音结束点。

采用上述方法检测语音结束点时，一旦背景噪音较强，就会造成检测到的音频信号的尾部静音时长比准确的尾部静音时长偏大，导致语音结束点容易被漏检测，进而导致过晚地检测出语音交互已处于结束状态；此外，一旦用户在说话期间进行停顿，就会造成检测到的音频信号的尾部静音时长比准确的尾部静音时长偏小，就会导致过早地检测出语音交互处于结束状态。由此可见，这种方法检测出的语音结束点准确性较差。

发明内容

本申请实施例提供了一种语音检测方法、预测模型的训练方法、装置、设备及介质，能够提高检测语音结束点的准确性。

第一方面，提供了一种语音检测方法，在该方法中，可以获取音频信号以及人脸图像，所述人脸图像的拍摄时间点和所述音频信号的采集时间点相同；将所述人脸图像输入预测模型，所述预测模型用于预测用户是否具有继续说话的意图；通过所述预测模型对所述人脸图像进行处理，输出预测结果；若所述预测结果表示所述用户不具有继续说话的意图，确定所述音频信号为语音结束点。

以上提供了一种多模态的语音结束点检测方法，通过模型对拍摄的人脸图像进行识别，从而预测出用户是否具有继续说话的意图，结合预测结果，来判决采集到的音频信号是否为语音结束点，由于在声学特征的基础上，还融合了人脸图像这种视觉模态的特征来进行检测，即使在背景噪声很强或者用户说话期间停顿的情况下，也能够利用人脸图像来准确判决语音信号是否为语音结束点，因此避免了背景噪声以及说话停顿造成的干扰，从而避免了背景噪声以及说话停顿的干扰会引发的过晚或者过早检测出语音交互处于结束状态的问题，提高了检测语音结束点的准确性，进而提高语音交互的效率。此外，由于解决了语音交互时语音结束点检测不准确的问题，避免了语音结束点过晚检测会引发的响应时延过长的问题，从而缩短了语音交互的时延，提高了语音交互的流畅性，避免了语音结束点过早检测会引发的语音指令被过早截断的问题，从而避免用户意图理解有误的情况，提高了语音交互的准确性。

可选地，在预测模型处理人脸图像的过程中，可以提取所述人脸图像包含的关键点；对所述关键点进行处理，得到所述人脸图像的动作特征；对所述动作特征进行分类，得到不同类别分别对应的置信度；根据所述置信度确定所述预测结果。

若一段语音中包含停顿，对语音进行句法分析时，无法区分一个音频信号是停顿还是语音结束点。而通过这种可选方式，融合了人脸的关键点的特征以及动作特征，能够基于人脸当前进行的动作，精确地识别出面部包含的微表情，从而根据表情推理出用户的精神状态，进而预测出用户是否具有继续说话的意图。这种方法借助于视觉信息来进行辅助判断，从而解决了句法分析无法解决的问题，能够减少语音的过早截断。

可选地，所述预测模型是根据第一样本人脸图像以及第二样本人脸图像训练得到的；所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一标签是根据第一样本音频信号确定的，所述第一样本音频信号的采集时间点及采集对象和所述第一样本人脸图像的拍摄时间点及拍摄对象均相同；所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二标签是根据第二样本音频信号确定的，所述第二样本音频信号的采集时间点及采集对象和所述第二样本人脸图像的拍摄时间点及拍摄对象均相同。

通过这种可选方式，提供了实现用户意图预测功能的模型训练方法，利用包含继续说话的用户意图的样本人脸图像以及包含不继续说话的用户意图的样本人脸图像，进行模型训练，预测模型可以通过训练的过程，从包含继续说话的用户意图的样本人脸图像和对应的标签中，学习出用户意图为继续说话时，人脸图像的特征会是怎么样的，从包含不继续说话的用户意图的样本人脸图像和对应的标签中，学习出用户意图为不继续说话时，人脸图像的特征又会是怎么样的，那么预测模型由于学习到用户意图与人脸图像特征之间的对应关系，在模型应用阶段，即可通过模型来根据一幅未知的人脸图像，预测出当前用户是否具有继续说话的意图，从而利用人脸图像表示的用户意图，准确地检测出当前的语音信号是否为语音结束点。

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括：所述第一样本音频信号对应的语音活性检测(Voice Activity Detection，VAD)结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态。

如果样本用户在说话期间进行了短暂的停顿，那么这种场景下，对说话期间采集的音频进行VAD的过程中，对于停顿之前的音频而言，VAD结果是说话状态；对于停顿期间的音频而言，VAD结果是沉默状态；对于停顿之后的音频而言，VAD结果恢复为说话状态。那么如果采集的样本音频信号满足第一条件(1)，表明样本音频信号与这种场景中停顿期间的音频吻合。由于样本用户停顿之后又继续进行了说话，而不是结束语音，因此停顿时间点样本用户的意图是继续进行说话，那么停顿时间点拍摄的样本人脸图像会包含继续说话的用户意图，那么通过将该样本人脸图像标注为第一人脸图像，后续即可让模型通过第一样本人脸图像，学习出人脸图像与继续说话的用户意图之间的映射关系，那么在模型应用阶段，即可使用模型来根据一幅未知的人脸图像，预测出当前用户是否具有继续说话的意图。

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括：所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括：文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括：所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率；

通过上述第一条件，达到的效果至少可以包括：对于包含短暂停的一句话而言，相关技术会以停顿点为分割点，将这一句完整的话割裂开来，切分为两段语音。由于用户还没说完时，电子设备提前判定已经检测到了语音结束点，导致语音结束点检测过早。那么，电子设备会直接将停顿之前的语音作为语音指令，而忽略掉停顿之后的语音，导致识别的语音指令不完整，如果电子设备直接根据停顿之前的语音指令来进行业务处理，无疑会影响业务处理的准确性。而通过上述方法，能够综合考虑前后两段音频信号：不仅对前后两段音频信号分别进行识别，得出两段音频信号对应的分句各自是完整语句的置信度，还对多段音频信号组成的整体进行识别，得到两个分句的整体是完整语句的置信度；若整体是完整语句的置信度大于两个分句各自是完整语句的置信度，则将两个分句之间的静音片段对应的样本人脸图像取出，标记为第一样本人脸图像，从而可以让模型通过标注好的第一样本人脸图像，学习出停顿时人脸图像会包含的特征。

可选地，所述第一样本人脸图像满足第三条件，所述第三条件包括：将所述第一样本人脸图像分别输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。

通过上述第三条件，能够融合拍摄的人脸图像、采集的音频信号、文本信息的语义等多个模态的信息，从而结合全局信息来对训练数据进行自动标注，由于综合考虑了各个模态的信息，可以保证样本人脸图像的标签与是否继续说话的用户意图相匹配，那么由于标注得到的样本的准确性高，模型根据准确的样本进行训练后，预测用户意图的准确性也会较高，因此有助于在模型应用阶段，准确地检测出语音结束点。

可选地，所述第二样本音频信号满足第二条件，所述第二条件包括以下至少一项：所述第二样本音频信号对应的VAD结果从说话状态更新为沉默状态；或，所述第二样本音频信号的尾部静音时长大于第一阈值。

通过上述第二条件，能够利用拍摄人脸图像时采集的音频信号，来判断人脸图像是否包含不继续说话的用户意图，利用声学模态的信息来对训练图像进行标注，可以保证样本人脸图像的标签与是否继续说话的用户意图相匹配，那么由于标注得到的样本的准确性高，模型根据准确的样本进行训练后，预测用户意图的准确性也会较高，因此有助于在模型应用阶段，准确地检测出语音结束点。

可选地，还可以融合文本模态的特征进行语音检测。具体而言，可以对所述音频信号进行语音识别，得到所述音频信号对应的第三文本信息；对所述第三文本信息进行句法分析，得到第一分析结果，所述第一分析结果用于表示所述第三文本信息是否为完整语句；若所述第一分析结果表示为所述第三文本信息不为完整语句，确定所述音频信号不为语音结束点；或者，若所述第一分析结果表示为所述第三文本信息为完整语句，执行所述将所述人脸图像输入预测模型的步骤。

通过融合文本模态的特征进行语音检测，至少可以达到以下效果：当前词汇与之前的词汇组成的语句的句法完整，并不能成为当前词汇是语音结束点的唯一依据。如果实施相关技术提供的方法，单纯依赖声学信息，就可能在检测到暂时停顿时，就将停顿点误判为语音结束点，导致语音指令被分割，造成曲解了用户意图，致使语音交互的任务处理错误。而通过上述方法，可以在检测到音频信号已经句法完整的条件下，触发应用预测模型来进行人脸识别的流程，从而利用预测结果，进一步判断音频信号是否确实到达了语音结束点，从而通过融合视觉模态的特征，避免句法分析误判的情况，极大地提高语音结束点检测的准确性，降低语音指令被过早截断的概率。此外，上述句法分析的方法不依赖于特定的ASR引擎和特定场景，各个模态的检测可以独立执行、综合判断，可操作性更易，实用性高。

可选地，句法分析的过程可以包括：对所述第三文本信息进行分词，得到多个词汇；对于所述多个词汇中的每个词汇，对所述词汇进行句法分析，得到所述词汇对应的第二分析结果，所述第二分析结果用于表示所述词汇与所述词汇之前的词汇是否组成了完整语句；若所述多个词汇中任一词汇对应的第二分析结果表示组成了完整语句，确定所述第三文本信息为完整语句；或者，若所述多个词汇中每个词汇对应的第二分析结果均表示没有组成完整语句，确定所述第三文本信息不为完整语句。

通过执行上述步骤来进行句法分析，达到的效果至少可以包括：不仅综合考虑了每个词汇与之前词汇之间在句法上的联系，而且利用了N—Best(N条最优)算法，每当检测到一个词汇，则判断该词汇是否已经和之前的词汇组成了完整语句，一旦当前的词汇表示已经组成完整语句时，即可确定已分析的文本信息为完整语句，执行下一步的检测流程。那么，可以在当前音频信号具有是语音结束点的概率时，及时检测出来，从而保证语音结束点检测的实时性，避免语音结束点检测过晚。

可选地，所述将所述人脸图像输入预测模型的触发条件包括：检测所述音频信号的尾部静音时长；确定所述尾部静音时长大于第三阈值。

通过上述触发条件，可以在尾部静音时长处于第三阈值和第一阈值之间时，执行融合人脸图像的特征来进行语音检测的流程。这种方式达到的效果至少可以包括：一旦静音时长大于最小的阈值(第三阈值)，就结合文本模态以及图像模态，利用句法分析的结果以及面部分析的结果来检测语音结束点，从而通过多模态信息的融合，尽可能快又准地检测到语音端点，避免延时过长的情况。

可选地，上述语音检测的方法可以应用于车载终端，车载终端还可以采集行车状况信息，所述行车状况信息表示搭载所述车载终端的车辆的行车状况；采集行车状况信息，所述行车状况信息表示搭载所述车载终端的车辆的行车状况；根据所述行车状况信息，对所述第三阈值进行调整。

通过上述方式，达到的效果至少可以包括：可以融合语音检测的具体应用场景来进行端点检测，例如应用在车载场景下，可以利用驾驶过程中的行车状况，来调整尾部静音时长的阈值，使得阈值可以根据当前的行车状况自适应调整，提升语音端点检测的鲁棒性。

可选地，对所述第三阈值进行调整的过程可以包括：若所述行车状况信息表示发生了急转弯，对所述第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值；或，若所述行车状况信息表示发生了急刹车，对所述第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值。

通过上述方式，达到的效果至少可以包括：如果车辆发生急转弯或急刹车，用户的语音很可能由于发生急转弯或急刹车而产生中断，导致语音结束点出现的概率变大，语音的中断时长也会相应变长，此时，通过提高尾部静音时长的阈值，能够让调整后的阈值适应于急转弯或急刹车的情况。

可以融合语音检测的具体应用场景来进行端点检测，例如应用在车载场景下，可以利用驾驶过程中的行车状况，来调整尾部静音时长的阈值，使得阈值可以根据当前的行车状况自适应调整，提升语音端点检测的鲁棒性。

可选地，上述语音检测的方法可以应用于车载终端，车载终端还可以采集环境信息，所述环境信息表示搭载所述车载终端的车辆所处的环境；根据所述环境信息，对所述预测模型的参数进行调整。

通过结合车外环境进行调参，达到的效果至少可以包括：在车辆驾驶的过程中，车外环境会对驾驶员的情绪产生影响，而情绪的变化会影响到人脸识别的过程，那么通过结合车外环境来调整预测模型的参数，可以让预测模型进行人脸识别的过程与当前的车外环境匹配，从而提高预测模型预测结果的精确性。

可选地，对所述预测模型的参数进行调整的过程可以包括：若所述环境信息表示发生了交通拥堵，对所述预测模型中第三分类器的判决阈值进行调整，所述第三分类器用于在输入数据高于所述判决阈值时判决用户具有继续说话的意图，在输入数据低于或等于所述判决阈值时判决用户不具有继续说话的意图。

通过上述方式，达到的效果至少可以包括：交通拥塞的场景下驾驶员心情焦躁的概率，会比交通畅通的场景下驾驶员心情焦躁的概率更高，而情绪的变化会影响到人脸识别的过程，那么通过结合交通状况来调整预测模型的参数，可以让预测模型进行人脸识别的过程与当前的交通状况匹配，从而提高预测模型预测结果的精确性。

第二方面，提供了一种用于语音检测的预测模型的训练方法，在该方法中，可以获取样本音频信号集以及待标注的样本人脸图像集；根据所述样本音频信号集中的第一样本音频信号，对所述样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像，所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一样本人脸图像的拍摄时间点及拍摄对象和所述第一样本音频信号的采集时间点及采集对象均相同；根据所述样本音频信号集中的第二样本音频信号，对所述样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像，所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二样本人脸图像的拍摄时间点及拍摄对象和所述第二样本音频信号的采集时间点及采集对象均相同；使用所述第一样本人脸图像以及所述第二样本人脸图像进行模型训练，得到预测模型，所述预测模型用于预测用户是否具有继续说话的意图。

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括以下至少一项：所述第一样本音频信号对应的VAD结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态；或，所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；或，文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；或，所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率。

可选地，所述第一样本人脸图像满足第三条件，所述第三条件包括：将所述第一样本人脸图像输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。

第三方面，提供了一种语音检测装置，该语音检测装置具有实现上述第一方面或第一方面任一种可选方式中语音检测的功能。该语音检测装置包括至少一个模块，至少一个模块用于实现上述第一方面或第一方面任一种可选方式所提供的语音检测方法。

可选地，所述装置应用于车载终端，所述装置还包括：第一采集模块，用于采集行车状况信息，所述行车状况信息表示搭载所述车载终端的车辆的行车状况；第一调整模块，用于根据所述行车状况信息，对所述第三阈值进行调整。

可选地，所述第一调整模块，用于若所述行车状况信息表示发生了急转弯，对所述第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值。

可选地，所述第一调整模块，用于若所述行车状况信息表示发生了急刹车，对所述第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值。

可选地，所述装置应用于车载终端，所述装置还包括：第二采集模块，用于采集环境信息，所述环境信息表示搭载所述车载终端的车辆所处的环境；第二调整模块，用于根据所述环境信息，对所述预测模型的参数进行调整。

可选地，所述第二调整模块，用于若所述环境信息表示发生了交通拥堵，对所述预测模型中第三分类器的判决阈值进行调整，所述第三分类器用于在输入数据高于所述判决阈值时判决用户具有继续说话的意图，在输入数据低于或等于所述判决阈值时判决用户不具有继续说话的意图。

第四方面，提供了一种用于语音检测的预测模型的训练装置，该装置包括：

获取模块，用于获取样本音频信号集以及待标注的样本人脸图像集；

处理模块，用于根据所述样本音频信号集中的第一样本音频信号，对所述样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像，所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一样本人脸图像的拍摄时间点及拍摄对象和所述第一样本音频信号的采集时间点及采集对象均相同；

所述处理模块，还用于根据所述样本音频信号集中的第二样本音频信号，对所述样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像，所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二样本人脸图像的拍摄时间点及拍摄对象和所述第二样本音频信号的采集时间点及采集对象均相同；

训练模块，用于使用所述第一样本人脸图像以及所述第二样本人脸图像进行模型训练，得到预测模型，所述预测模型用于预测用户是否具有继续说话的意图。

可选地，所述第一样本音频信号满足第一条件，所述第一条件包括以下至少一项：

所述第一样本音频信号对应的VAD结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态；或，

所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；或，

文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；或，

所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率。

可选地，所述第二样本音频信号满足第二条件，所述第二条件包括以下至少一项：

所述第二样本音频信号对应的VAD结果从说话状态更新为沉默状态；或，

所述第二样本音频信号的尾部静音时长大于第一阈值。

可选地，所述第一样本人脸图像满足第三条件，所述第三条件包括：

将所述第一样本人脸图像输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。

第五方面，提供了一种电子设备，该电子设备包括处理器，该处理器用于执行指令，使得该电子设备执行上述第一方面或第一方面任一种可选方式所提供的语音检测方法。第五方面提供的电子设备的具体细节可参见上述第一方面或第一方面任一种可选方式，此处不再赘述。

第六方面，提供了一种电子设备，该电子设备包括处理器，该处理器用于执行指令，使得该电子设备执行上述第二方面或第二方面任一种可选方式所提供的用于语音检测的预测模型的训练方法。第六方面提供的电子设备的具体细节可参见上述第二方面或第二方面任一种可选方式，此处不再赘述。

第七方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器读取以使电子设备执行上述第一方面或第一方面任一种可选方式所提供的语音检测方法。

第八方面，提供了一种计算机可读存储介质，该存储介质中存储有至少一条指令，该指令由处理器读取以使电子设备执行上述第二方面或第二方面任一种可选方式所提供的用于语音检测的预测模型的训练方法。

第九方面，提供了一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得电子设备执行上述第一方面或第一方面任一种可选方式所提供的语音检测方法。

第十方面，提供了一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得电子设备执行上述第二方面或第二方面任一种可选方式所提供的用于语音检测的预测模型的训练方法。

第十一方面，提供了一种芯片，当该芯片在电子设备上运行时，使得电子设备执行上述第一方面或第一方面任一种可选方式所提供的语音检测方法。

第十二方面，提供了一种芯片，当该芯片在电子设备上运行时，使得电子设备执行上述第二方面或第二方面任一种可选方式所提供的用于语音检测的预测模型的训练方法。

附图说明

图1是本申请实施例提供的一种语音检测方法的实施环境的示意图；

图2是本申请实施例提供的一种用于语音检测的预测模型的训练方法的流程图；

图3是本申请实施例提供的一种标注第一标签所需满足的条件的示意图；

图4是本申请实施例提供的一种标注第二标签所需满足的条件的示意图；

图5是本申请实施例提供的一种预测模型的结构示意图；

图6是本申请实施例提供的一种语音检测方法的流程图；

图7是本申请实施例提供的一种句法分析的示意图；

图8是本申请实施例提供的一种句法分析的示意图；

图9是本申请实施例提供的一种语音检测方法的流程图；

图10是本申请实施例提供的一种车载场景下语音检测方法的流程图；

图11是本申请实施例提供的一种语音检测方法的软件架构图；

图12是本申请实施例提供的一种语音检测方法的流程图；

图13是本申请实施例提供的一种语音检测装置的结构示意图；

图14是本申请实施例提供的一种用于语音检测的预测模型的训练装置的结构示意图；

图15是本申请实施例提供的一种终端100的结构示意图；

图16是本申请实施例提供的一种终端100的功能架构图；

图17是本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

为使本申请的目的、技术方案和优点更加清楚，下面将结合附图对本申请实施方式作进一步地详细描述。

本申请中术语“至少一个”的含义是指一个或多个，本申请中术语“多个”的含义是指两个或两个以上，例如，多个第二报文是指两个或两个以上的第二报文。本文中术语“系统”和“网络”经常可互换使用。

本申请中术语“第一”“第二”等字样用于对作用和功能基本相同的相同项或相似项进行区分，应理解，“第一”、“第二”、“第n”之间不具有逻辑或时序上的依赖关系，也不对数量和执行顺序进行限定。

应理解，在本申请的各个实施例中，各个过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本申请实施例的实施过程构成任何限定。

应理解，根据A确定B并不意味着仅仅根据A确定B，还可以根据A和/或其它信息确定B。

应理解，本文中术语“和/或”，仅仅是一种描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B这三种情况。另外，本文中字符“/”，一般表示前后关联对象是一种“或”的关系。

应理解，说明书通篇中提到的“一个实施例”或“一实施例”意味着与实施例有关的特定特征、结构或特性包括在本申请的至少一个实施例中。因此，在整个说明书各处出现的“在一个实施例中”或“在一实施例中”未必一定指相同的实施例。此外，这些特定的特征、结构或特性可以任意适合的方式结合在一个或多个实施例中。

以下，对本申请涉及的术语进行解释。

语音端点(Endpoint)检测：是指对音频中的语音结束点进行检测的技术。具体而言，音频通常包括多个音频信号，在端点检测的过程中，可以依次检测每个音频信号，判断当前的音频信号是否为语音结束点。

语音端点检测技术通常应用在语音交互的场景中，当用户说话后，通过对音频进行语音端点检测，确定语音起始点和语音结束点，截取语音起始点语音和结束点之间的音频，作为一条语音指令。对于语音起始点而言，由于语音交互通常由用户主动发起。例如，语音交互的触发方式可以是一按即说(Push To Talk，PTT)的方式。比如说，用户可以通过按压一个实体的按键或者虚拟的按键，来启动语音交互；又如，语音交互的触发方式可以是语音唤醒(Voice Trigger，VT)的方式。比如说，用户可以通过说出唤醒词，来启动语音交互。这就使得语音起始点比较容易准确检测。而对于语音结束点而言，通常需要机器自动检测。

相关技术中，语音结束点通常仅是依赖自动语音识别(Auto Speech Recognition，ASR)以及语音活性检测(Voice Activity Detection，VAD)技术实现。

VAD：用于检测一定时间窗内的音频信号是否是语音信号。依赖于VAD技术的语音结束点检测方案是：当VAD检测到一定时长的非语音，则确定语音结束。这个时长一般是一个固定的时长，比如800毫秒。若VAD检测到超过800毫秒的非语音，则会确定语音结束，将当前检测的音频信号作为语音端点。其中，语音尾部静音(Trailing Silence，TS)是这种端点检测方法的重要参数。但是，很难设置一个固定的时长参数来适配所有的场景和环境，例如，如果设置的时长参数过大，则用户感受到的时延会越长。如果设置的时长参数过小，则用户的语音容易被截断。

ASR技术以及VAD技术检测语音结束点存在两个主要问题：第一，背景噪音容易导致检测语音结束点偏晚；第二，若语音中间包含停顿，容易导致检测出的语音结束点偏早。而这两个问题会极大影响用户的使用体验：由于存在第一个问题，机器会很长时间后才检测到语音指令已经结束，由于语音指令的实际结束时间比检测到的结束时间来说更长，导致语音指令结束后，经过一段时间后才会执行语音指令，这就造成执行语音指令的时延过大，从使用者的角度来说，说出语音后要等待很长时间后系统才进行反馈，无疑产生了卡顿的现象，影响用户的体验。由于存在第二个问题，用户的语音尚未结束，就已经被系统提前截断，那么系统根据过早截断的语音所解析出的语音指令就会不完整，导致系统根据语音指令识别出的用户意图与实际用户意图相比出现严重偏差，进而导致语音交互业务处理错误。由此可见，单独依赖声学信息的VAD，会在有些场景下，不足以准确判断语音端点的状态。

而通过下述方法实施例，能够结合声学信息、文本信息和视觉信息进行综合决策，从而实现多模态的语音结束点检测，这种方法检测到的语音结束点更准确，因此可以有效解决延迟过长和过早截断的两个问题，从而克服了VAD方案的缺陷，能够大幅提升用户体验。此外，该方法可以不依赖于特定的ASR引擎和特定场景，各个模态的检测可以独立执行、综合判断，可操作性更易。

以下，示例性介绍本申请的硬件环境。

图1是本申请实施例提供的一种语音检测方法的实施环境的示意图。该实施环境包括：终端和语音检测平台。

参见图1，终端可以是车载终端101、智能手机102、智能音箱103或者机器人104。当然，图1所示的几种终端仅是举例，终端也可以是其他支持语音检测功能的电子设备，例如智能家居设备、智能电视、游戏主机、台式计算机、平板电脑、电子书阅读器、智能电视、MP3(moving picture experts group audio layer III，动态影像专家压缩标准音频层面3)播放器或MP4(moving picture experts group audio layer IV，动态影像专家压缩标准音频层面4)播放器和膝上型便携计算机等等，本实施例对终端的设备类型不做限定。

终端可以运行有支持语音检测的应用程序。该应用程序可以是导航应用、语音助手、智能问答应用等。示例性的，终端是用户使用的终端，终端运行的应用程序内登录有用户账号，该用户账号可以预先在语音检测平台中注册。终端可以通过无线网络或有线网络与语音检测平台相连。

语音检测平台用于为支持语音检测的应用程序提供后台服务。例如，语音检测平台可以执行下述方法实施例，训练得到预测模型，将预测模型发送给终端，以便终端利用预测模型来进行语音检测。

语音检测平台包括服务器201以及数据库202。服务器201可以是一台服务器，也可以是多台服务器组成的集群。数据库202中可以用于存储样本集，例如包含大量样本人脸图像的样本人脸图像集、包含大量样本音频信号的样本音频信号集等。服务器201可以访问数据库202，得到数据库202存储的样本集，通过样本集训练得到预测模型。

本领域技术人员可以知晓，上述终端、服务器或者数据库的数量可以更多或更少。比如上述终端、服务器或者数据库可以仅为一个，或者上述为几十个或几百个，或者更多数量，此时虽图中未示出，语音检测系统还包括其他终端、其他服务器或者其他数据库。

以上示例性介绍了系统架构，以下示例性介绍基于上文提供的系统架构进行语音检测的方法流程。

语音检测的方法流程可以包括模型训练阶段以及模型预测阶段。以下，通过图2实施例，对模型训练阶段的方法流程进行介绍，通过图6实施例，对模型预测阶段的方法流程进行介绍。

参见图2，图2是本申请实施例提供的一种用于语音检测的预测模型的训练方法的流程图，如图2所示，该方法可以应用在电子设备，该电子设备可以为图1所示系统架构中的终端，也可以是图1所示系统架构中的语音检测平台，比如是服务器201。该方法包括以下步骤：

步骤201、电子设备获取样本音频信号集以及待标注的样本人脸图像集。

样本音频信号集包括多个样本音频信号，样本人脸图像集包括多个样本人脸图像，每个样本人脸图像的拍摄时间点及拍摄对象和对应的样本音频信号的采集时间点及采集对象均相同，可以根据样本人脸图像和样本音频信号之间的对应关系，对样本人脸图像进行标注。

步骤202、电子设备根据样本音频信号集中的第一样本音频信号，对样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像。

电子设备可以获取样本音频信号集，该样本音频信号集包括多个样本音频信号，每个样本音频信号和每个样本人脸图像之间可以存在对应关系。样本音频信号和样本人脸图像之间的对应关系是指样本音频信号的采集时间点和样本人脸图像的拍摄时间点相同。比如说，X时Y刻拍摄的样本人脸图像对应于X时Y刻采集的样本音频信号。其中，样本音频信号集的获取方式可以包括多种。例如，电子设备可以包括麦克风，电子设备可以接收录音指令，响应于录音指令，通过麦克风采集样本用户发出的音频，得到样本音频信号。其中，录音指令可以由用户的操作触发。又如，电子设备可以通过网络向服务器请求样本音频信号集，本实施例对如何获取样本音频信号集不做限定。

第三样本人脸图像为未标注的样本人脸图像，第三样本人脸图像可以是样本人脸图像集中的任一个样本人脸图像。第一样本音频信号和第三样本人脸图像具有对应关系，第三样本人脸图像的拍摄时间点及拍摄对象和对应的第一样本音频信号的采集时间点及采集对象均相同。

电子设备可以获取样本人脸图像集，样本人脸图像集包括多个第三样本人脸图像，样本人脸图像集的获取方式可以包括多种。例如，电子设备可以包括摄像头，电子设备可以接收拍摄指令，响应于拍摄指令，通过摄像头对样本用户进行拍摄，得到样本人脸图像集。其中，拍摄指令用于指示电子设备进行拍摄，拍摄指令可以由用户的操作触发。又如，电子设备可以读取预先存储的样本人脸图像集。再如，电子设备可以通过网络向服务器请求样本人脸图像集，本实施例对如何获取样本人脸图像集不做限定。

第一样本人脸图像为已标注的样本人脸图像，第一样本人脸图像可以由第三样本人脸图像添加标签后得到。由于第三样本人脸图像的拍摄时间点及拍摄对象和第一样本人脸图像的拍摄时间点及拍摄对象均相同，则第三样本人脸图像的拍摄时间点及拍摄对象和第一样本音频信号的采集时间点及采集对象也均相同。第一样本人脸图像的内容为样本用户的人脸，第一样本人脸图像包含样本用户具有继续说话的意图的特征，第一样本人脸图像可以由摄像头对样本用户进行拍摄得到。第一样本人脸图像的数量可以是多个，不同第一样本人脸图像对应的样本用户可以相同或者不同。第一样本人脸图像标注了第一标签。

第一标签表示样本用户具有继续说话的意图。第一标签可以是任意数据格式，例如数字、字母、字符串等。例如，第一标签可以是“Think before speaking”(说话之前的思考状态)。

获取第一样本人脸图像的方式可以包括多种，以下通过获取方式一至获取方式三举例说明。

获取方式一、电子设备获取样本人脸图像集。对于样本人脸图像集中的每个第三样本人脸图像，电子设备可以确定该第三样本人脸图像对应的第一样本音频信号，判断第一样本音频信号是否满足第一条件，若第一样本音频信号满足第一条件，则对第三样本人脸图像添加第一标签，得到第一样本人脸图像，该第一样本人脸图像包含第三样本人脸图像以及第一标签。通过该流程可见，在获取方式一中，第一标签是根据第一样本音频信号确定的。

第一条件用于判断第一样本音频信号是否包含继续说话意图，若第一样本音频信号满足第一条件，可以将对应的第三样本人脸图像标注为第一样本人脸图像。第一条件可以根据实验、经验或需求设置。例如，第一条件可以包括以下第一条件(1)至第一条件(4)中的至少一项：

第一条件(1)第一样本音频信号对应的VAD结果先从说话状态更新为沉默状态，再从沉默状态更新为说话状态。

由于样本人脸图像是以视觉的维度表征X时Y刻的样本用户的用户意图，样本音频信号是以声学的维度表征X时Y刻的样本用户的用户意图，可见样本人脸图像和样本音频信号是从不同的模态反映了相同的用户意图，基于这一构思，可以利用相互对应的样本人脸图像和样本音频信号，来挖掘出用户意图在声学模态的特征与视觉模态的特征之间的关联关系，那么在模型预测阶段，即可利用关联关系融合多模态的特征，进行语音结束点的检测。

在一些实施例中，针对第一条件(1)检测的过程可以包括：电子设备可以包括VAD单元，该VAD单元用于检测当前时间窗的音频信号是否为语音信号。该VAD单元可以是软件，也可以是硬件，或者是软件和硬件的组合。该VAD单元的输入参数可以包括音频信号，该VAD单元的输出参数可以包括音频信号的VAD结果，该VAD结果可以包括说话状态以及沉默状态。说话状态表示音频信号为语音信号，例如，说话状态在程序中可以记录为Speech(说话的)；沉默状态表示音频信号不为语音信号，沉默状态在程序中可以记录为Silence(沉默的)。在标注样本人脸图像的过程中，可以将第一样本音频信号输入VAD单元，通过VAD单元对第一样本音频信号进行VAD处理，输出VAD结果。如果VAD结果首先是说话状态，之后切换为沉默状态，再之后又切换回说话状态，可以确定第一样本音频信号满足第一条件(1)。

以下结合一个示例性场景，对设置第一条件(1)的效果进行说明：

第一条件(2)第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值。

尾部静音时长也称语音尾部静音(Trailing Silence，TS)，是指语音信号的尾部的静音片段持续的总时长。音频信号的尾部静音时长越长，表明音频信号是语音结束点的概率越大。本实施例中，可以通过阈值检测音频信号的尾部静音时长是否已经满足语音结束的第一条件。具体地，尾部静音时长对应的阈值可以包括第一阈值以及第二阈值。

第一阈值可以是尾部静音时长对应的阈值中的最大值，第一阈值大于第二阈值。若尾部静音时长大于第一阈值，可以确定音频信号是语音结束点。例如，第一阈值可以在程序中记为D _max。第一阈值的具体数值可以根据实验、经验或需求配置，本实施例在第一阈值的具体数值不做限定。

第二阈值可以是尾部静音时长对应的阈值中的最小值，若尾部静音时长大于第二阈值，可以确定音频信号具有是语音结束点的概率，即，音频信号可能是语音结束点，也可能不是语音结束点，可以利用其他模态的特征来进一步判定音频信号是否是语音结束点。例如，第二阈值可以在程序中记为D _min。

具体而言，电子设备可以检测第一样本音频信号的尾部静音时长，对尾部静音时长与第一阈值和第二阈值进行比较，若尾部静音时长小于第一阈值且大于第二阈值，可以确定第一样本音频信号满足第一条件(2)。

第一条件(3)文本信息组合对应的第一置信度大于第一文本信息对应的第二置信度。

文本信息组合为第一文本信息与第二文本信息的组合。第一文本信息表示第一样本音频信号的上一个样本音频信号的语义。第二文本信息表示第一样本音频信号的下一个样本音频信号的语义。该文本信息组合可以是有序的组合，第一文本信息在前，第二文本信息在后。

例如，如果样本用户在说话期间进行了短暂的停顿，文本信息组合可以表示说话期间整段音频的语义，第一文本信息可以表示停顿之前的语义，第二文本信息可以表示停顿之后的语义。在一个示例性场景中，用户说“我要去金海路”，之后停顿了一下，然后继续说“金穗路”。在这一场景中，第一样本音频信号可以为停顿期间的静音片段，第一文本信息是停顿之前的音频信号对应的文本信息，即“我要去金海路”。第二文本信息是停顿之后的音频信号对应的文本信息，即“金穗路”，文本信息组合可以是“我要去金海路”和“金穗路”的组合，即“我要去金海路金穗路”。

第一置信度表示文本信息组合为完整语句的概率。第一置信度越大，表示文本信息组合为完整语句的概率越高，那么第一样本音频信号是停顿而不是结束的概率越高，第一样本音频信号对应的第三样本人脸图像包含继续说话意图的概率也就越高，则将该第三样本人脸图像标注为第一样本人脸图像的准确性越高。例如，在上述场景中，第一置信度可以表示“我要去金海路金穗路”为完整语句的概率。第一置信度可以记为Conf _merge。

第二置信度表示第一文本信息为完整语句的概率。第二置信度越大，表示第一文本信息为完整语句的概率越高，那么第一样本音频信号是结束而不是停顿的概率越高，第一样本音频信号对应的第三样本人脸图像包含不继续说话意图的概率也就越高。例如，在上述场景中，第二置信度可以表示“我要去金海路”为完整语句的概率。第二置信度可以记为Conf _spliti。

具体而言，电子设备以及第一条件(3)进行检测的过程可以包括以下步骤：

步骤一、对第一样本音频信号的上一个样本音频信号进行语音识别，得到第一文本信息。

步骤二、对第一样本音频信号的下一个样本音频信号进行语音识别，得到第二文本信息。

步骤三、对第一文本信息和第二文本信息进行拼接，得到文本信息组合。

步骤四、对文本信息组合进行句法分析，得到第一置信度。

步骤五、对第一文本信息进行句法分析，得到第二置信度。

步骤六、对第一置信度和第二置信度进行比较，若第一置信度大于第二置信度，可以确定样本人脸图像满足第一条件(3)。

第一条件(4)文本信息组合对应的第一置信度大于第二文本信息对应的第三置信度。

第三置信度表示第二文本信息为完整语句的概率。第三置信度越大，表示第二文本信息为完整语句的概率越高。例如，在上述场景中，第三置信度可以表示“金穗路”为完整语句的概率。

步骤四、对文本信息组合进行句法分析，得到第一置信度。

步骤五、对第二文本信息进行句法分析，得到第三置信度。

步骤六、对第一置信度和第三置信度进行比较，若第一置信度大于第三置信度，可以确定样本人脸图像满足第一条件(4)。

需要说明的一点是，上述第一条件(3)和第一条件(4)可以结合，结合方案中第一条件(3)和第一条件(4)可以是且的关系。具体地，第一条件(3)和第一条件(4)的结合方案可以是：

步骤四、对文本信息组合进行句法分析，得到第一置信度。

步骤五、对第一文本信息进行句法分析，得到第二置信度。

步骤六、对第二文本信息进行句法分析，得到第三置信度。

步骤七、对第一置信度与第二置信度进行比较，对第一置信度与第三置信度进行比较，若第一置信度大于第二置信度，且第一置信度大于第三置信度，可以确定样本人脸图像满足第一条件，若第一置信度小于或等于第二置信度，或者第一置信度小于或等于第三置信度，可以确定样本人脸图像不满足第一条件。

通过上述第一条件(3)和第一条件(4)，达到的效果至少可以包括：对于包含短暂停的一句话而言，相关技术会以停顿点为分割点，将这一句完整的话割裂开来，切分为两段语音。比如，对于“我要去金海路金穗路”来说，如果用户说完“我要去金海路”后停顿了一下，电子设备会将这句话切分为“我要去金海路”和“金穗路”。由于用户说到“我要去金海路”中的“路”时，电子设备提前判定已经检测到了语音结束点，导致语音结束点检测过早。那么，电子设备会直接将“我要去金海路”作为语音指令，而忽略掉后面跟随的“金穗路”，导致识别的语音指令不完整，如果电子设备直接根据“我要去金海路”来进行业务处理，比如说导航至金海路，无疑会影响业务处理的准确性。

而通过上述方法，能够综合考虑前后两段音频信号：不仅对前后两段音频信号分别进行识别，得出两段音频信号对应的分句各自是完整语句的置信度，还对多段音频信号组成的整体进行识别，得到两个分句的整体是完整语句的置信度；若整体是完整语句的置信度大于两个分句各自是完整语句的置信度，则将两个分句之间的静音片段对应的样本人脸图像取出，标记为第一样本人脸图像，从而可以让模型通过标注好的第一样本人脸图像，学习出停顿时人脸图像会包含的特征。例如，如果“我要去金海路金穗路”的置信度会大于“我要去金海路”的置信度和“金穗路”的置信度，此时把“我要去金海路”和“金穗路”之间的静音片段对应的样本人脸图像取出，添加标签“Think before speaking”。

应理解，上述第一条件(1)至第一条件(4)可以采用任意方式结合。例如，可以仅使用这4种第一条件中的一种第一条件，或者，执行这4种第一条件中两种或两种以上的第一条件。如果将不同第一条件结合起来，不同第一条件之间的逻辑关系可以是且的关系，也可以是或的关系。示例性地，参见图3，满足第一条件的情况可以如图3所示。还应理解，如果第一条件(1)至第一条件(4)中的不同第一条件结合，对结合方案中不同第一条件进行判定时时间先后不做限定。可以某一实现方式先执行，其他实现方式后执行，也可以多种实现方式并行执行。

此外，在标注过程中，对于样本人脸图像集中的每个第三样本人脸图像，电子设备可以还可以判断第三样本人脸图像是否满足第三条件，若第三样本人脸图像满足第三条件，则对第三样本人脸图像添加第一标签，得到第一样本人脸图像。其中，第三条件和第一条件(1)至第一条件(4)中的任一项或多项可以结合，若第三条件和第一条件(1)至第一条件(4)中的任一项或多项结合，第三条件和第一条件之间的逻辑关系可以是且的关系，也可以是或者的关系。

在一些实施例中，第三条件包括：将第一样本人脸图像分别输入预测模型中的第一分类器以及预测模型中的第二分类器后，第一分类器输出的概率大于第二分类器输出的概率。

第一分类器用于预测人脸图像包含动作的概率，第一分类器的输出参数可以是人脸图像包含动作的概率，第一分类器的输入参数可以是人脸图像的关键点的特征。第一分类器可以称为动作单元。第一分类器可以是预测模型的一部分，例如，第一分类器可以是图5中动作识别层中的一部分，可以包括一个或多个AU。

第二分类器用于预测人脸图像不包含动作的概率，第二分类器的输出参数可以是人脸图像不包含动作的概率，第二分类器的输入参数可以是人脸图像的关键点的特征。第二分类器可以称为动作单元。

第一分类器和第二分类器可以组合使用。例如，若第一分类器输出的概率大于第二分类器输出的概率，表明第一分类器的输出结果有效。在一些实施例中，第一分类器的数量可以包括多个，每个第一分类器可以用于预测一个动作，或者，多个第一分类器的组合用于预测一个动作。多个第一分类器输出的概率和第二分类器输出的概率之和可以等于1。

示例性地，第一分类器可以有N个，N为正整数。N个第一分类器中第i个第一分类器可以记为AU _i，AU _i输出的概率可以记为PAU _i。第二分类器可以记为NEU，NEU输出的概率可以记为PNEU。PAU ₁、PAU ₂……PAU _N与PNEU之和为1。若第一分类器AU _i的输出结果大于第二分类器NEU的输出结果，即PAU _i大于P _NEU，则第一分类器AU _i当前的输出结果有效；若第一分类器AU _i的输出结果小于或等于第二分类器NEU的输出结果，即PAU _i小于或等于PNEU，则第一分类器AU _i当前的输出结果无效。其中，N为正整数，i为正整数，i小于N。其中，如果第一分类器的数量为多个，第一条件(5)具体可以是：任一个第一分类器输出的概率大于第二分类器输出的概率，即存在PAU _i＞P _NEU。

获取方式二、电子设备向数据库发送获取请求，该获取请求用于请求获取第一样本人脸图像，数据库响应于获取请求，读取第一样本人脸图像返回给电子设备。

获取方式三、电子设备访问本地磁盘，读取磁盘中预先存储的第一样本人脸图像。

应理解，上述获取方式一至获取方式三仅是示例性说明，并不代表是第一样本人脸图像获取功能的必选实现方式。在另一些实施例中，也可以采用其他实现方式来实现获取第一样本人脸图像的功能，而这些实现第一样本人脸图像获取功能的其他方式作为步骤202的一种具体情况，也应涵盖在本申请实施例的保护范围之内。

步骤203、电子设备根据样本音频信号集中的第二样本音频信号，对样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像。

第四样本人脸图像为未标注的样本人脸图像，第四样本人脸图像可以是样本人脸图像集中的任一个样本人脸图像。第二样本音频信号和第四样本人脸图像具有对应关系，第四样本人脸图像的拍摄时间点及拍摄对象和对应的第二样本音频信号的采集时间点及采集对象均相同。

第二样本人脸图像为已标注的样本人脸图像，第二样本人脸图像可以由第三样本人脸图像添加标签后得到。由于第四样本人脸图像的拍摄时间点及拍摄对象和第二样本人脸图像的拍摄时间点及拍摄对象均相同，则第二样本人脸图像的拍摄时间点及拍摄对象和第二样本音频信号的采集时间点及采集对象也均相同。第二样本人脸图像的内容为样本用户的人脸，第二样本人脸图像包含样本用户具有继续说话的意图的特征，第二样本人脸图像可以由摄像头对样本用户进行拍摄得到。第二样本人脸图像的数量可以是多个，不同第二样本人脸图像对应的样本用户可以相同或者不同。此外，第二样本人脸图像对应的样本用户和第一样本人脸图像对应的样本用户可以相同或者不同。第二样本人脸图像标注了第二标签。

第二标签表示样本用户不具有继续说话的意图。第二标签可以是任意数据格式，例如数字、字母、字符串等。例如，第二标签可以是“Neutral”(中立)。

获取第二样本人脸图像的方式可以包括多种，以下通过获取方式一至获取方式三举例说明。

获取方式一、电子设备获取样本人脸图像集。对于样本人脸图像集中的每个第四样本人脸图像，电子设备可以确定该第四样本人脸图像对应的第二样本音频信号，判断第二样本音频信号是否满足第二条件，若第二样本音频信号满足第二条件，则对第四样本人脸图像添加第二标签，得到第二样本人脸图像，该第二样本人脸图像包含第四样本人脸图像以及第二标签。通过该流程可见，在获取方式一中，第二标签是根据第二样本音频信号确定的。

第二条件用于判断对应的第二样本音频信号是否包含不继续说话的意图，若第二样本音频信号满足第二条件，可以将对应的第四样本人脸图像标注为第二样本人脸图像。第二条件可以根据实验、经验或需求设置，例如，第二条件包括以下第二条件(1)至第二条件(2)中的至少一项：

第二条件(1)第二样本音频信号对应的VAD结果从说话状态更新为沉默状态。

第二条件(2)第二样本音频信号的尾部静音时长大于第一阈值。

具体而言，电子设备可以检测第二样本音频信号的尾部静音时长，对尾部静音时长与第一阈值进行比较，若尾部静音时长大于第一阈值，由于尾部静音时长已经大于阈值的最大值，表明第二样本音频信号不是停顿而是结束，则可以确定第二样本音频信号满足第二条件(2)。

示例性地，参见图4，如果样本音频信号满足图4所示的第二条件，可以向样本人脸图像添加标签“Neutral”(中立)，以标明样本人脸图像对应于没有继续说话的用户意图。

通过利用上述第一第二条件和第二条件为样本人脸图像添加对应的标签，达到的效果至少可以包括：能够融合拍摄的人脸图像、采集的音频信号、文本信息的语义等多个模态的信息，从而结合全局信息来对训练数据进行自动标注，由于综合考虑了各个模态的信息，可以保证样本人脸图像的标签与是否继续说话的用户意图相匹配，那么由于标注得到的样本的准确性高，模型根据准确的样本进行训练后，预测用户意图的准确性也会较高，因此有助于在模型应用阶段，准确地检测出语音结束点。

获取方式二、电子设备向数据库发送获取请求，该获取请求用于请求获取第二样本人脸图像，数据库响应于获取请求，读取第二样本人脸图像，返回给电子设备。

获取方式三、电子设备访问本地磁盘，读取磁盘中预先存储的第二样本人脸图像。

应理解，上述获取方式一至获取方式三仅是示例性说明，并不代表是第二样本人脸图像获取功能的必选实现方式。在另一些实施例中，也可以采用其他实现方式来实现获取第二样本人脸图像的功能，而这些实现第二样本人脸图像获取功能的其他方式作为步骤203的一种具体情况，也应涵盖在本申请实施例的保护范围之内。

应理解，本实施例对步骤202与步骤203的时序不做限定。在一些实施例中，步骤202与步骤203可以顺序执行。例如，可以先执行步骤202，再执行步骤203；也可以先执行步骤203，再执行步骤202。在另一些实施例中，步骤202与步骤203也可以并行执行，即，可以同时执行步骤202以及步骤203。

步骤204、电子设备使用第一样本人脸图像以及第二样本人脸图像进行模型训练，得到预测模型。

预测模型用于预测用户是否具有继续说话的意图。预测模型可以是一个二分类器，预测模型的预测结果可以包括第一取值和第二取值。预测结果的第一取值表示用户具有继续说话的意图。预测结果的第二取值表示用户不具有继续说话的意图。第一取值和第二取值可以是任意两个不同的数据。例如，预测结果的第一取值可以是1，预测结果的第二取值可以是0；或者，预测结果的第一取值可以是0，预测结果的第二取值可以是1。示例性地，将人脸图像输入预测模型之后，若预测模型预测该人脸图像表示用户具有继续说话的意图，预测模型可以输出1；若预测模型根据输入的人脸图像预测该人脸图像表示用户不具有继续说话的意图时，预测模型可以输出0。

预测模型可以是人工智能(artificial intelligence，AI)模型。预测模型的具体类型可以包括多种。例如，预测模型可以包括神经网络、支持向量机、线性回归模型、逻辑回归模型、决策树或者随机森林中的至少一种。例如，预测模型可以是神经网络。具体地，预测模型可以是卷积神经网络或者循环神经网络等。

采用神经网络来实现预测模型时，预测模型中的每个模块可以是一个层，或者，每个模块可以是多个层组成的网络。每个层可以包括一个或多个节点。例如，参见图5，预测模型包括输入层、第一隐藏层、动作识别层、第二隐藏层和输出层。此外，预测模型可以包括关键点提取模块(图5未示出)。

预测模型中不同模块可以连接，这里的连接是指可进行数据交互。如图5所示，输入层可以和第一隐藏层相连，第一隐藏层和动作识别层相连，动作识别层和第二隐藏层相连，第二隐藏层和输出层相连。此外，关键点提取模块可以和输入层相连。应理解，虽然图5未示出，预测模型中不同模块之间还可以具有其他连接关系。例如，不同层之间可以跨层连接。

其中，关键点提取模块用于从人脸图像提取关键点的特征，将关键点的特征输入至输入层。输入层用于将关键点的特征输出至第一隐藏层。第一隐藏层用于对关键点的特征进行线性映射以及非线性映射，得到映射后的关键点的特征，将映射后的关键点的特征输出至动作识别层。动作识别层用于对映射后的关键点的特征进行识别，得到动作特征，将动作特征输出至第二隐藏层。第二隐藏层用于对动作特征进行线性映射以及非线性映射，得到映射后的动作特征，将映射后的动作特征输出至输出层。输出层用于对映射后的动作特征进行分类，得到不同类别分别对应的置信度；根据置信度确定预测结果。

在一些实施例中，输入层可以包括多个节点，输入层的每个节点用于接收一个关键点的特征。例如，参见图5，输入层可以包括FP1、FP2、FP3……FPn，FP1用于接收关键点1的特征，发送至隐藏层；FP2用于接收关键点2的特征，发送至隐藏层；FP3用于接收关键点3的特征，发送至隐藏层，依次类推，FPn用于接收关键点n的特征，发送至隐藏层。

在一些实施例中，动作识别层可以包括多个第一分类器以及第二分类器。每个第一分类器可以从第一隐藏层接收映射后的关键点的特征，进行动作识别后，得到人脸图像包含动作的概率。第二分类器可以从第一隐藏层接收映射后的关键点的特征，进行动作识别后，得到人脸图像不包含动作的概率。若第一分类器的输出结果大于第二分类器的输出结果，则该第一分类器的输出结果可以发送至第二隐藏层。

例如，参见图5，动作识别层可以包括N个第一分类器，这N个第一分类器中的每个第一分类器可以称为一个动作单元(Action Unit，AU)，N个第一分类器分别记为AU1、AU2、AU3……AUn。通过这N个动作单元，可以识别人脸关键肌肉点的变化，从而利用肌肉点的变化，识别出面部微表情以及用户的精神状态；将识别出的特征经过隐藏层的非线性变换后，可以预测出用户未来是否具有继续说话的意图。

模型训练的过程可以包括多种实现方式。在一些实施例中，模型训练可以包括多次迭代的过程。每次迭代的过程可以包括以下步骤(1.1)至步骤(1.3)：

步骤(1.1)电子设备将第一样本图像输入预测模型，通过预测模型对第一样本图像进行处理，输出预测结果。

步骤(1.2)电子设备根据该预测结果与第一标签，通过损失函数计算第一损失值，第一损失值表示预测结果与第一标签之间的偏差，预测结果与第一标签之间的偏差越大，则第一损失值越大。

步骤(1.3)电子设备根据第一损失值调整预测模型的参数。

或者，每次迭代的过程包括以下步骤(2.1)至步骤(2.3)。

步骤(2.1)电子设备将第二样本图像输入预测模型，通过预测模型对第二样本图像进行处理，输出预测结果。

步骤(2.2)电子设备根据该预测结果与第二标签，通过损失函数计算第二损失值，该第二损失值表示预测结果与第二标签之间的偏差，预测结果与第二标签之间的偏差越大，则第二损失值越大。

步骤(2.3)电子设备根据第二损失值调整预测模型的参数。

以上示出了训练的一次迭代过程，每当迭代一次后，电子设备可以检测当前是否已经满足训练终止条件，当不满足训练终止条件时，电子设备执行下一次迭代过程；当满足训练终止条件时，电子设备将本次迭代过程所采用的预测模型输出为训练完成的预测模型。

其中，该训练终止条件可以为迭代次数达到目标次数或者损失函数满足预设条件，还可以为基于验证数据集验证时，其能力在一段时间内没有提升。其中，该目标次数可以是预先设置的迭代次数，用以确定训练结束的时机，避免对训练资源的浪费。该预设条件可以是训练过程中损失函数值在一段时间内不变或者不下降，此时说明训练过程已经达到了训练的效果，即预测模型具有了根据人脸图像识别用户是否具有继续说话意图的功能。

在一些实施例中，预测模型的训练过程可以包括第一训练阶段以及第二训练阶段，第一训练阶段用于对第一分类器以及第二分类器进行训练，第二训练阶段用于对第三分类器进行训练。其中，第一分类器、第二分类器或者第三分类器均可以是预测模型的一部分。例如，第一分类器可以是图5中动作识别层中的一部分，可以包括一个或多个AU。第二分类器也可以是图5中动作识别层中的一部分，可以包括一个或多个AU。第三分类器可以是图5中输出层的判决器。可以预先使用第五样本人脸图像以及第六样本人脸图像进行模型训练，得到第一分类器和第二分类器，使用第一分类器和第二分类器，通过上述第三条件对样本人脸图像进行标注。对第一分类器、第二分类器以及待训练的第三分类器进行组合，得到待训练的预测模型，该待训练的预测模型包括第一分类器以及未训练的第三分类器。再通过执行本实施例，使用已标注的第一样本人脸图像和第二样本人脸图像进行训练，使得第三分类器的模型参数得到调整，能够学习到判决是否具有说话意图的能力，最终得到预测模型。

本实施例提供了实现用户意图预测功能的模型训练方法，利用包含继续说话的用户意图的样本人脸图像以及包含不继续说话的用户意图的样本人脸图像，进行模型训练，预测模型可以通过训练的过程，从包含继续说话的用户意图的样本人脸图像和对应的标签中，学习出用户意图为继续说话时，人脸图像的特征会是怎么样的，从包含不继续说话的用户意图的样本人脸图像和对应的标签中，学习出用户意图为不继续说话时，人脸图像的特征又会是怎么样的，那么预测模型由于学习到用户意图与人脸图像特征之间的对应关系，在模型应用阶段，即可通过模型来根据一幅未知的人脸图像，预测出当前用户是否具有继续说话的意图，从而利用人脸图像表示的用户意图，准确地检测出当前的语音信号是否为语音结束点。

上述方法实施例介绍了预测模型的训练流程，以下通过图6实施例，对应用图2实施例提供的预测模型进行语音端点检测的流程进行介绍。

参见图6，图6是本申请实施例提供的一种语音检测方法的流程图。该方法应用于电子设备。该电子设备可以为图1所示系统架构中的终端，也可以是图1所示系统架构中的语音检测平台，比如是服务器201。执行图6实施例的电子设备和执行图2实施例的电子设备可以是同一个电子设备，也可以是不同的电子设备。如果执行图6实施例的电子设备和执行图2实施例的电子设备不同，两个方法实施例中的电子设备可以进行交互，协同完成语音检测的任务。比如说，预测模型的训练步骤可以由服务器执行，利用预测模型进行检测的步骤可以由终端执行。当然，预测模型的训练步骤和检测步骤也可以均在终端侧执行，或者均在服务器侧执行。具体而言，该方法包括以下步骤：

步骤601、电子设备获取音频信号以及人脸图像。

人脸图像的拍摄时间点和音频信号的采集时间点相同。通过获取同一时间点对应的音频信号以及人脸图像，人脸图像表示的用户意图和音频信号表示的用户意图会相同，从而可以借助人脸图像包含的信息，来准确地检测音频信号是否为语音结束点。

例如，在X时Y刻，电子设备可以通过摄像头采集音频信号，并通过摄像头拍摄人脸图像。音频信号可以表示用户在X时Y刻是否具有继续说话的意图，人脸图像也可以表示用户在X时Y刻是否具有继续说话的意图。

当然，由电子设备本端来采集音频信号以及拍摄人脸图像仅是举例说明，在另一些实施例中，电子设备也可以从终端接收语音检测指令，该语音检测指令携带了音频信号以及人脸图像，电子设备可以响应于语音检测指令，根据音频信号以及人脸图像来执行下述方法流程，将语音检测的结果返回至终端。

步骤601的触发条件可以包括多种情况。举例来说，本实施例可以应用在语音交互的场景中，如果终端检测到包含唤醒词的音频信号，可以从待机状态切换为工作状态，也即是，终端被唤醒，终端的唤醒事件可以触发步骤601的执行。

步骤602、电子设备对音频信号进行语音识别，得到音频信号对应的第三文本信息，检测音频信号的尾部静音时长。

为了与模型训练阶段使用的文本信息区分描述，本实施例中，将步骤601中获取的音频信号对应的文本信息记为第三文本信息。具体而言，可以对步骤601中获取的音频信号进行ASR，得到第三文本信息。例如，第三文本信息可以是“打电话给张老师”、“导航到世纪大道”等。此外，还可以对步骤601中获取的音频信号进行VAD，得到尾部静音时长。

应理解，本实施例对语音识别的步骤和尾部静音时长的检测步骤的时序不做限定。在一些实施例中，在执行步骤602的过程中，语音识别的步骤与尾部静音时长的检测步骤可以顺序执行。例如，可以先执行语音识别的步骤，再执行尾部静音时长的检测步骤；也可以先执行尾部静音时长的检测步骤，再执行语音识别的步骤。在另一些实施例中，语音识别的步骤与尾部静音时长的检测步骤也可以并行执行，即，可以同时执行语音识别的步骤以及尾部静音时长的检测步骤。

步骤603、电子设备对尾部静音时长与对应的阈值进行比较。

在将尾部静音时长与阈值进行比较的过程中，可以使用第三阈值，该第三阈值可以是图2实施例提及的第一阈值，也可以是图2实施例提及的第二阈值，或者可以是第一阈值和第二阈值的组合，或者可以是第一阈值和第二阈值之外的其他阈值。在一些实施例中，使用阈值进行比较的过程具体可以包括以下步骤：

步骤(1)电子设备可以对尾部静音时长与第一阈值进行比较，若尾部静音时长小于第一阈值，则执行步骤(2)。此外，若尾部静音时长大于或等于第一阈值，则电子设备确定语音信号为语音结束点。

步骤(2)电子设备可以对尾部静音时长与第三阈值进行比较，若尾部静音时长大于第三阈值，则执行步骤604。若尾部静音时长小于或等于第三阈值，则电子设备继续获取下一个音频信号以及下一个音频信号对应的人脸图像，继续对下一个音频信号执行步骤601至步骤603。其中，步骤(2)中使用的第三阈值可以小于步骤(1)中使用的第一阈值，此外，步骤(2)中使用的第三阈值和上文中的第二阈值数值相等，也即是，推理侧使用的静音检测阈值和训练侧使用的静音检测阈值可以相同。

通过上述比较方式，可以在尾部静音时长处于第三阈值和第一阈值之间时，执行下述语音检测的流程。这种方式达到的效果至少可以包括：一旦静音时长大于最小的阈值(第三阈值)，就结合文本模态以及图像模态，利用句法分析的结果以及面部分析的结果来检测语音结束点，从而通过多模态信息的融合，尽可能快又准地检测到语音端点，避免延时过长的情况。而当静音时长大于最大的阈值(第一阈值)，由于静默时间过长，可以免去句法分析的流程以及面部分析的流程，直接确定已经检测到语音结束点。

步骤604、若尾部静音时长大于第三阈值，电子设备对第三文本信息进行句法分析，得到第一分析结果。

第一分析结果用于表示第三文本信息是否为完整语句。第一分析结果可以包括第一取值和第二取值。第一分析结果的第一取值表示第三文本信息是完整语句。第一分析结果的第二取值表示第三文本信息不是完整语句，而是一个待补充的语句。第一分析结果的第一取值和第二取值可以是任意两个不同的数据。例如，第一分析结果的第一取值是1，第一分析结果的第二取值是0；或者，第一分析结果的第一取值是0，第一分析结果的第二取值是1。第三文本信息可以视为一个词汇序列，第一分析结果可以是该词汇序列的序列预测结果。

句法分析的实现方式可以包括多种。在一些实施例中，句法分析包括以下步骤一至步骤五：

步骤一、电子设备对第三文本信息进行分词，得到多个词汇。

分词的方式可以包括多种。举例来说，可以每隔一个字符分割一次，则得到的每个词汇为一个字。例如，参见图7，第三文本信息为“打电话给张老师”，对“打电话给张老师”进行分词后，得到多个词汇分别是“打”、“电”、“话”、“给”、“张”、“老”和“师”。又如，参见图8，第三文本信息为“导航到金海路金穗路”，对“导航到金海路金穗路”进行分词后，得到多个词汇分别是“导”、“航”、“到”、“金”、“海”、“路”、“金”、“穗”和“路”。

步骤二、对于多个词汇中的每个词汇，电子设备对词汇进行句法分析，得到词汇对应的第二分析结果。

第二分析结果用于表示词汇与词汇之前的词汇是否组成了完整语句。例如，第二分析结果可以包括第一取值和第二取值。第二分析结果的第一取值表示词汇与词汇之前的词汇组成了完整语句。第二分析结果的第二取值表示词汇与词汇之前的词汇没有组成了完整语句。第二分析结果的第一取值和第二取值可以是任意两个不同的数据。例如，第二分析结果的第一取值是1，第二分析结果的第二取值是0；或者，第二分析结果的第一取值是0，第二分析结果的第二取值是1。

例如，参见图7，以第一取值为1，第二取值为0为例，如果分词后得到的多个词汇是多个词汇分别是“打”、“电”、“话”、“给”、“张”、“老”、“师”，句法分析后可以得出，“打”对应的第二分析结果为0，“电”对应的第二分析结果为0，“话”对应的第二分析结果为0，“给”对应的第二分析结果为0，“张”对应的第二分析结果为0，“老”对应的第二分析结果为0，“师”对应的第二分析结果为1。又如，参见图8，如果分词后得到的多个词汇是多个词汇分别是“导”、“航”、“到”、“金”、“海”、“路”、“金”、“穗”和“路”，句法分析后可以得出，“导”对应的第二分析结果为0，“航”对应的第二分析结果为0，“到”对应的第二分析结果为0，“金”对应的第二分析结果为0，“海”对应的第二分析结果为0，“路”(此处是指金海路中的路)对应的第二分析结果为1，“金”对应的第二分析结果为0，“穗”对应的第二分析结果为0，“路”(此处是指金穗路中的路)对应的第二分析结果为1。

在一些实施例中，可以采用流式检测的方式进行句法分析。流式检测的具体过程可以包括：电子设备可从第三文本信息中的第一个词汇开始，遍历每个词汇，对当前遍历的词汇与之前的每个词汇进行文本分析，输出当前遍历的词汇对应的第二分析结果。其中，若当前遍历的词汇对应的第二分析结果表示没有组成完整语句，则继续遍历下一个词汇，直至遍历到最后一个词汇为止，或者，直到遍历到的词汇的第二分析结果表示组成完整语句为止；若当前遍历的词汇对应的第二分析结果表示组成完整语句，电子设备可以确定第三文本信息为完整语句，停止继续遍历。

例如，参见图7，第三文本信息为“打”、“电”、“话”、“给”、“张”、“老”、“师”。在流式检测的过程中，当识别“打”时，预测“打”句法不完整，输出0；当识别“电”时，预测“打电”句法不完整，输出0；当识别“话”时，预测“打电话”句法不完整，输出0；当识别“给”时，预测“打电话给”句法不完整，输出0；当识别“张”时，预测“打电话给张”句法不完整，输出0；当识别“老”时，预测“打电话给张老”句法不完整，输出0；当识别“师”时，预测“打电话给张老师”句法完整，输出1。

又如，参见图8，第三文本信息为“导”、“航”、“到”、“金”、“海”、“路”、“金”、“穗”和“路”。在流式检测的过程中，当识别“导”时，预测“导”句法不完整，输出0；当识别“航”时，预测“导航”句法不完整，输出0；当识别“到”时，预测“导航到”句法不完整，输出0；当识别“金”时，预测“导航到金”句法不完整，输出0；当识别“海”时，预测“导航到金海”句法不完整，输出0；当识别“路”时，预测“导航到金海路”句法完整，输出1；当识别“金”时，预测“导航到金海路金”句法不完整，输出0；当识别“穗”时，预测“导航到金海路金穗”句法不完整，输出0；当识别“路”时，预测“导航到金海路金穗路”句法完整，输出1。

步骤三、对于多个词汇中的每个词汇，电子设备判断该词汇对应的第二分词结果是否表示组成了完整语句，若多个词汇中任一词汇对应的第二分析结果表示组成了完整语句，执行下述步骤四，若多个词汇中每个词汇对应的第二分析结果均表示没有组成完整语句，执行下述步骤五。

步骤四、电子设备确定第三文本信息为完整语句。

步骤五、电子设备确定第三文本信息不为完整语句。

通过执行上述步骤一至步骤五来进行句法分析，达到的效果至少可以包括：不仅综合考虑了每个词汇与之前词汇之间在句法上的联系，而且利用了N—Best(N条最优)算法，每当检测到一个词汇，则判断该词汇是否已经和之前的词汇组成了完整语句，一旦当前的词汇表示已经组成完整语句时，即可确定已分析的文本信息为完整语句，执行下一步的检测流程。那么，可以在当前音频信号具有是语音结束点的概率时，及时检测出来，从而保证语音结束点检测的实时性，避免语音结束点检测过晚。

步骤605、电子设备判断第一分析结果是否表示为第三文本信息为完整语句。

若第一分析结果表示为第三文本信息不为完整语句，则电子设备可以确定音频信号不为语音结束点。若第一分析结果表示为第三文本信息为完整语句，则电子设备可以确定音频信号具有是语音结束点的概率，则执行步骤606来进行人脸识别。

例如，参见图8，当识别“导”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“航”时输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“到”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“金”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“海”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“路”时，输出1，此时执行下述步骤606和步骤607；而通过人脸识别的步骤，预测模型输出的预测结果为0，表示用户具有继续说话的意图，则继续遍历下一个词汇；当识别“金”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“穗”时，输出0，此时确定未检测到完整语句，继续遍历下一个词汇；当识别“路”时，输出1，此时执行步骤606步骤607；而通过人脸识别的步骤，预测模型输出的预测结果为1，表示用户不具有继续说话的意图，确定检测到了语音结束点。

从上述描述可以看出，通过实施本实施例提供的句法分析方法来检测语音结束点，至少可以达到以下效果：通过图8的例子可以看出，当前词汇与之前的词汇组成的语句的句法完整，并不能成为当前词汇是语音结束点的唯一依据。例如，用户的真实意图是“导航到金海路金穗路”，虽然“导航到金海路”这个分句的句法是完整的，但实际上，“金海路”中的“路”并不是真实的语音结束点，“金穗路”中的“路”才是真实的语音结束点。“导航到金海路金穗路”是一条完整的语音指令，但如果实施相关技术提供的方法，单纯依赖声学信息，就可能在检测到“导航到金海路”时，就将“金海路”中的“路”误判为语音结束点，导致语音指令被分割为“导航到金海路”和“金穗路”，造成曲解了用户意图，致使导航到错误的位置。而通过本实施例提供的方法，可以在检测到音频信号已经句法完整的条件下，触发应用预测模型来进行人脸识别的流程，从而利用预测结果，进一步判断音频信号是否确实到达了语音结束点，从而通过融合视觉模态的特征，避免句法分析误判的情况，极大地提高语音结束点检测的准确性，降低语音指令被过早截断的概率。此外，上述句法分析的方法简单易行，实用性高。

步骤606、若第一分析结果表示为第三文本信息为完整语句，电子设备将人脸图像输入预测模型。

步骤607、电子设备通过预测模型对人脸图像进行处理，输出预测结果。

由于在模型训练阶段，预测模型利用样本以及标签，学习到了人脸图像与用户意图之间的映射关系，那么在步骤607中，预测模型即可基于学习出的映射关系，对人脸图像进行识别，确定该人脸图像对应的用户意图，从而预测出用户是否具有继续说话的意图。

在一些实施例中，预测模型进行处理的具体过程可以包括以下步骤一至步骤四：

步骤一、提取人脸图像包含的关键点。

步骤二、对关键点进行处理，得到人脸图像的动作特征。

从人脸图像中挖掘出动作特征的具体过程可以包括多种实现方式。例如，可以通过执行以下(1)至(4)来获取动作特征。

(1)将人脸图像输入预测模型中的关键点提取模块，通过关键点提取模块从人脸图像中提取关键点的特征。

关键点的特征可以是任意数据形式，包括而不限于一维的向量、二维的特征图或者三维的特征立方体。人脸图像中关键点的数量可以是多个，在执行步骤(1)时，可以提取出多个关键点中每个关键点的特征。

(2)可以将关键点的特征输入至输入层，通过输入层将关键点的特征发送至第一隐藏层。

参见图5，可以将关键点1的特征、关键点2的特征、关键点2的特征、关键点3的特征、关键点n的特征输入至输入层，输入层的节点FP1接收关键点1的特征，发送至隐藏层；节点FP2接收关键点2的特征，发送至隐藏层；节点FP3接收关键点3的特征，发送至隐藏层，依次类推，节点FPn接收关键点n的特征，发送至隐藏层。

(3)通过第一隐藏层对关键点的特征进行线性映射以及非线性映射，得到映射后的关键点的特征，将映射后的关键点的特征发送至动作识别层。

(4)通过动作识别层对映射后的关键点的特征进行识别，得到动作特征。

例如，参见图5，动作识别层可以包括N个动作单元，分别记为AU ₁、AU ₂、AU ₃……AU _n。动作单元AU ₁对映射后的关键点的特征进行识别后，输出PAU ₁，若动作单元AU ₁的输出结果大于NEU的输出结果，即PAU ₁大于PNEU，则PAU ₁的输出结果有效；动作单元AU ₂对映射后的关键点的特征进行识别后，输出PAU ₂，若动作单元AU ₂的输出结果大于NEU的输出结果，即PAU ₂大于PNEU，则PAU ₂的输出结果有效；以此类推。动作单元NEU对映射后的关键点的特征进行识别后，输出PNEU，可以利用PNEU与其他动作单元的输出结果进行比较，对有效的动作单元的输出结果求和，得到的和值为动作特征。

动作识别层的每个动作单元可以对应于人脸中的一个关键肌肉点，每个动作单元能够在对应的关键肌肉点发生变化时识别出来。比如说，AU1可以识别抬起上嘴唇和人中区域的肌肉。AU2可以识别颔部下降，AU3可以识别嘴角拉伸，AU4可以识别眉毛压低并聚拢，AU5可以识别嘴角拉动向下倾斜，AU6可以识别抬起眉毛外角。AU的识别结果通过输出的概率的大小来指明，比如，PAU ₁越大，表示人脸抬起了上嘴唇和人中区域的肌肉的概率越高。而用户面部微表情不同时，动作识别层中各个AU输出的概率也各不相同。比如说，如果用户当前的面部表情是喜悦，则由于喜悦时人脸通常扬起嘴角，则PAU ₁会越大，因此可以通过PAU ₁来识别出来。

步骤三、对动作特征进行分类，得到不同类别分别对应的置信度。

步骤四、根据置信度确定预测结果。

例如，可以对动作特征进行分类，得到第一类别的置信度以及第二类别的置信度，第一类别为用户具有继续说话的意图，第二类别为用户不具有继续说话的意图。可以对第一类别的置信度与第二类别的置信度进行比较，若第一类别的置信度大于第二类别的置信度，将用户具有继续说话的意图输出为预测结果；或，若第一类别的置信度不大于第二类别的置信度，将用户不具有继续说话的意图输出为预测结果。

例如，参见图5，可以将动作特征输入第二隐藏层，通过第二隐藏层对动作特征进行非线性映射以及线性映射，得到映射后的动作特征。通过输出层对映射后的动作特征进行分类，得到的类别可以是预测模型的预测结果。如果类别是有继续说话意图，则表明当前音频信号还没有来到语音结束点。如果类别是没有继续说话意图，则将当前识别的音频信号作为语音结束点。

预测模型通过采用上述步骤一至步骤四来进行预测，达到的效果至少可以包括：

若一段语音中包含停顿，对语音进行句法分析时，无法区分一个音频信号是停顿还是语音结束点。而通过上述方法，融合了人脸的关键点的特征以及动作特征，能够基于人脸当前进行的动作，精确地识别出面部包含的微表情，从而根据表情推理出用户的精神状态，进而预测出用户是否具有继续说话的意图。这种方法借助于视觉信息来进行辅助判断，从而解决了句法分析无法解决的问题，能够减少语音的过早截断。

步骤608、若预测结果表示用户不具有继续说话的意图，电子设备确定音频信号为语音结束点。

电子设备确定音频信号为语音结束点时，可以执行语音结束对应的任意业务处理功能。例如，可以将语音检测结果返回给用户，或者将语音检测结果输出至后续模块。比如说，电子设备可以从音频中截取语音起始点和语音结束点之间的部分，解析出语音指令，响应于语音指令进行业务处理。

在一些实施例中，语音检测的方法流程可以如图9所示，包括以下5个步骤：

步骤1：对音频信号进行语音识别(ASR)，获取流式的N-best结果和尾部静音时长。

步骤2：对尾部静音时长与最大静音时长阈值Dmax进行比较，若尾部静音时长大于Dmax，则进入到步骤5，否则进入步骤3；

步骤3：对尾部静音时长与最小静音时长阈值Dmin进行比较，若尾部静音时长小于Dmin，则进入到步骤1，否则进入步骤4；

步骤4：分析语音识别的N-best结果以及人脸面部动作单元和关键点，对音频信号进行分类，若满足语音结束点对应的条件，则进入步骤5，否则进入步骤1；

步骤5：检测到语音结束点。

可选地，还可以考虑行车状况，在执行步骤4的过程中，利用行车状况进行综合判断，具体参见下述图11实施例。

本实施例提供了一种多模态的语音结束点检测方法，通过模型对拍摄的人脸图像进行识别，从而预测出用户是否具有继续说话的意图，结合预测结果，来判决采集到的音频信号是否为语音结束点，由于在声学特征的基础上，还融合了人脸图像这种视觉模态的特征来进行检测，即使在背景噪声很强或者用户说话期间停顿的情况下，也能够利用人脸图像来准确判决语音信号是否为语音结束点，因此避免了背景噪声以及说话停顿造成的干扰，从而避免了背景噪声以及说话停顿的干扰会引发的过晚或者过早检测出语音交互处于结束状态的问题，提高了检测语音结束点的准确性。此外，由于解决了语音交互时语音结束点检测不准确的问题，避免了语音结束点过晚检测会引发的响应时延过长的问题，从而缩短了语音交互的时延，提高了语音交互的流畅性，避免了语音结束点过早检测会引发的语音指令被过早截断的问题，从而避免用户意图理解有误的情况，提高了语音交互的准确性。

上述方法实施例提供的预测模型可以应用在任意需要检测语音检测的场景下，以下通过一个示例性应用场景举例说明。

参见图10，图10是本申请实施例提供的一种车载场景下语音检测方法的流程图。该方法的交互主体包括车载终端和服务器，包括以下步骤：

步骤1001、服务器获取样本音频信号集以及待标注的样本人脸图像集。

步骤1002、服务器根据样本音频信号集中的第一样本音频信号，对样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像。

步骤1003、服务器根据样本音频信号集中的第二样本音频信号，对样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像。

步骤1004、服务器使用第一样本人脸图像以及第二样本人脸图像进行模型训练，得到预测模型。

步骤1005、服务器向车载终端发送预测模型。

步骤1006、车载终端接收预测模型，对预测模型进行存储。

步骤1007、车载终端获取音频信号以及人脸图像。

步骤1008、车载终端对音频信号进行语音识别，得到音频信号对应的第三文本信息，检测音频信号的尾部静音时长。

步骤1009、车载终端对尾部静音时长与对应的阈值进行比较。

步骤1010、若尾部静音时长大于第三阈值，车载终端对第三文本信息进行句法分析，得到第一分析结果。

本实施例中，可以考虑车辆的行车状况，综合检测语音结束点。在一些实施例中，车载终端可以采集行车状况信息，根据行车状况信息，对尾部静音时长对应的阈值进行调整，例如对第三阈值进行调整。其中，行车状况信息表示搭载车载终端的车辆的行车状况。车载终端可以配置有传感器，可以通过传感器采集得到行车状况信息。

行车状况信息的具体含义可以包括至少一种，以下通过方式一至方式二举例说明。

方式一、若行车状况信息表示发生了急转弯，对第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值。

如果车辆发生急转弯，用户的语音很可能由于发生急转弯而产生中断，导致语音结束点出现的概率变大，语音的中断时长也会相应变长，此时，通过提高尾部静音时长的阈值，能够让调整后的阈值适应于急转弯的情况。其中，车载终端可以配置加速度计传感器，可以通过加速度计传感器，采集到急转弯的情况。

方式二、若行车状况信息表示发生了急刹车，对第三阈值进行调整，调整后的第三阈值大于调整前的第三阈值。

如果车辆发生急刹车，用户的语音很可能由于发生急刹车而产生中断，导致语音结束点出现的概率变大，语音的中断时长也会相应变长，此时，通过提高尾部静音时长的阈值，能够让调整后的阈值适应于急刹车的情况。其中，车载终端可以配置加速度计传感器，可以通过加速度计传感器，采集到急刹车的情况。

其中，可以实施方式一或者实施方式二，或者实施方式一和方式二的结合。

步骤1011、车载终端判断第一分析结果是否表示为第三文本信息为完整语句。

步骤1012、若第一分析结果表示为第三文本信息为完整语句，车载终端将人脸图像输入预测模型。

步骤1013、车载终端通过预测模型对人脸图像进行处理，输出预测结果。

步骤1014、若预测结果表示用户不具有继续说话的意图，车载终端确定音频信号为语音结束点。

可选地，可以考虑车外环境，综合检测语音结束点。在一些实施例中，车载终端可以采集环境信息，环境信息表示搭载车载终端的车辆所处的环境。车载终端可以根据环境信息，对预测模型的参数进行调整。其中，车载终端可以配置行车记录仪，可以通过行车记录仪，采集到车外环境的情况。此外，与训练阶段的模型参数调整过程不同，根据环境信息进行调整的方式可以是模型微调。

示例性地，若环境信息表示发生了交通拥堵，车载终端可以对预测模型中第三分类器的判决阈值进行调整。其中，第三分类器用于在输入数据高于判决阈值时判决用户具有继续说话的意图，在输入数据低于或等于判决阈值时判决用户不具有继续说话的意图。例如，参见5，第三分类器可以是输出层的节点。

通过结合车外环境进行调参，达到的效果至少可以包括：在车辆驾驶的过程中，车外环境会对驾驶员的情绪产生影响。例如，交通拥塞的场景下驾驶员心情焦躁的概率，会比交通畅通的场景下驾驶员心情焦躁的概率更高。而情绪的变化会影响到人脸识别的过程，那么通过结合车外环境来调整预测模型的参数，可以让预测模型进行人脸识别的过程与当前的车外环境匹配，从而提高预测模型预测结果的精确性。

需要说明的一点是，本实施例是以车载场景为例进行说明，本方案可广泛应用于各种具备语音交互场景，可普遍实施。而在其他语音交互的场景下，也可以进一步利用场景信息来进行语音结束点的检测。例如，如果用在智能音箱或者机器人上，可以结合声源信息或者声场信息，来检测语音结束点。

本实施例提供了车载场景下多模态的语音结束点检测方法，通过模型对拍摄的人脸图像进行识别，从而预测出用户是否具有继续说话的意图，结合预测结果，来判决采集到的音频信号是否为语音结束点，由于在声学特征的基础上，还融合了人脸图像这种视觉模态的特征来进行检测，即使在背景噪声很强或者用户说话期间停顿的情况下，也能够利用人脸图像来准确判决语音信号是否为语音结束点，因此避免了背景噪声以及说话停顿造成的干扰，从而避免了背景噪声以及说话停顿的干扰会引发的过晚或者过早检测出语音交互处于结束状态的问题，提高了检测语音结束点的准确性。此外，由于解决了语音交互时语音结束点检测不准确的问题，避免了语音结束点过晚检测会引发的响应时延过长的问题，从而缩短了语音交互的时延，提高了语音交互的流畅性，避免了语音结束点过早检测会引发的语音指令被过早截断的问题，从而避免用户意图理解有误的情况，提高了车载场景下语音交互的准确性。

以上介绍了本实施例提供的语音检测方法，以下示例性介绍该语音检测方法的软件架构。

参见图11，该软件架构可以包括多个功能模块，例如可以包括数据获取模块、数据处理模块以及决策模块。其中，每个功能模块可以通过软件实现。

数据获取模块用于通过麦克风实时采集音频流，通过摄像头实时拍摄视频流。数据获取模块可以将音频流和视频流传入数据处理模块。数据处理模块可以通过中央处理器提供的处理数据能力和控制设备能力，根据音频流和视频流提取多种模态的信息，例如声学信息、语义信息和视觉信息，将多种模态的信息传入决策模块。决策模块可以对各模态信息进行融合，从而决策当前音频信号是否为语音端点。

参见图12，图12是机器基于上述软件架构执行语音结束点检测的流程图。如图12所示，可以对音频信号进行自动语音识别，得到语音尾部静音的持续时长以及文本信息的N-best结果，根据N-best结果进行句法分析，根据分析结果以及持续时长与阈值之间的大小关系，可以对当前的音频信号进行分类，类别为语音结束点或者非语音结束点。

以上介绍了本申请实施例的语音检测方法，以下介绍本申请实施例的语音检测装置，应理解，该应用于语音检测装置其具有上述方法中语音检测设备的任意功能。

图13是本申请实施例提供的一种语音检测装置的结构示意图，如图13所示，该语音检测装置包括：获取模块1301，用于执行上述方法实施例中的步骤601或步骤1007；输入模块1302，用于执行步骤606或步骤1012；处理模块1303，用于执行步骤607或步骤1013；确定模块1304，用于执行步骤608或步骤1014。

可选地，处理模块，包括：

提取子模块，用于执行步骤607中的步骤一；

处理子模块，用于执行步骤607中的步骤二；

分类子模块，用于执行步骤607中的步骤三。

可选地，获取模块，还用于执行步骤201；装置还包括：训练模块，用于执行步骤202。

可选地，第一样本人脸图像满足第一条件。

可选地，第二样本人脸图像满足第二条件。

可选地，该装置还包括：语音识别模块，用于执行语音识别的步骤；句法分析模块，用于执行句法分析的步骤；确定模块，还用于若句法分析的结果表示不为完整语句，确定音频信号不为语音结束点；或者，若句法分析的结果表示为完整语句，触发输入模块1302执行步骤606或步骤1012。

可选地，句法分析模块，用于执行句法分析中的步骤一至步骤五。

可选地，将人脸图像输入预测模型的触发条件包括：检测音频信号的尾部静音时长；确定尾部静音时长大于第三阈值。

可选地，装置应用于车载终端，装置还包括：第一采集模块，用于采集行车状况信息；第一调整模块，用于根据行车状况信息，对第三阈值进行调整。

可选地，第一调整模块，用于若行车状况信息表示发生了急转弯，对第三阈值进行调整；若行车状况信息表示发生了急刹车，对第三阈值进行调整。

可选地，装置应用于车载终端，装置还包括：第二采集模块，用于采集环境信息；第二调整模块，用于根据环境信息，对预测模型的参数进行调整。

可选地，第二调整模块，用于若环境信息表示发生了交通拥堵，对预测模型中第三分类器的判决阈值进行调整。

应理解，图13实施例提供的语音检测装置对应于上述方法实施例中的语音检测装置，语音检测装置中的各模块和上述其他操作和/或功能分别为了实现方法实施例中的语音检测装置所实施的各种步骤和方法，具体细节可参见上述方法实施例，为了简洁，在此不再赘述。

应理解，图13实施例提供的语音检测装置在检测语音时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将语音检测装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的语音检测装置与上述语音检测的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

图14是本申请实施例提供的一种用于语音检测的预测模型的训练装置的结构示意图，如图14所示，该语音检测装置包括：获取模块1401，用于执行上述图2方法实施例中的步骤201或图10实施例中的步骤1001；处理模块1402，用于执行上述图2方法实施例中的步骤202和步骤203，或图10实施例中的步骤1002和步骤1003；训练模块1403，用于执行上述图2方法实施例中的步骤204，或图10实施例中的步骤1004。

可选地，第一样本音频信号满足第一条件。

可选地，第二样本音频信号满足第二条件。

可选地，第一样本人脸图像满足第三条件。

应理解，图14实施例提供的用于语音检测的预测模型的训练装置对应于图2方法实施例中的电子设备，用于语音检测的预测模型的训练装置中的各模块和上述其他操作和/或功能分别为了实现方法实施例中的图2方法实施例中的电子设备所实施的各种步骤和方法，具体细节可参见上述图2方法实施例，为了简洁，在此不再赘述。

应理解，图14实施例提供的用于语音检测的预测模型的训练装置在训练用于语音检测的预测模型时，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将用于语音检测的预测模型的训练装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。另外，上述实施例提供的用于语音检测的预测模型的训练装置与上述用于语音检测的预测模型的训练的方法实施例属于同一构思，其具体实现过程详见方法实施例，这里不再赘述。

以上介绍了本申请实施例的电子设备，以下介绍电子设备可能的产品形态。

应理解，但凡具备上述电子设备的特征的任何形态的产品，都落入本申请的保护范围。还应理解，以下介绍仅为举例，不限制本申请实施例的电子设备的产品形态仅限于此。

本申请实施例提供了一种电子设备，该电子设备包括处理器，该处理器用于执行指令，使得该电子设备执行上述各个方法实施例提供的语音检测方法。

作为示例，处理器可以是一个通用中央处理器(central processing unit，CPU)、网络处理器(Network Processor，简称NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。该处理器可以是一个单核(single-CPU)处理器，也可以是一个多核(multi-CPU)处理器。该处理器的数量可以是一个，也可以是多个。

在一些可能的实施例中，该电子设备还可以包括存储器。

存储器可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only Memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备、或者能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。

存储器和处理器可以分离设置，存储器和处理器也可以集成在一起。在一些可能的实施例中，该电子设备还可以包括收发器。收发器用于与其它设备或通信网络通信，网络通信的方式可以而不限于是以太网，无线接入网(RAN)，无线局域网(wireless local area networks，WLAN)等。

在一些可能的实施例中，执行上述图2实施例、图6实施例或图10实施例中的电子设备可以实现为终端，以下对终端的硬件结构进行示例性描述。

图15是本申请实施例提供的一种终端100的结构示意图。终端100可以是图1所示硬件环境中的车载终端101、智能手机102、智能音箱103或者机器人104，当然也可以是其他类型的终端。

终端100可以包括处理器110，外部存储器接口120，内部存储器121，通用串行总线(universal serial bus，USB)接口130，充电管理模块140，电源管理模块141，电池142，天线1，天线2，移动通信模块150，无线通信模块160，音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，传感器模块180，按键190，马达191，指示器192，摄像头193，显示屏194，以及用户标识模块(subscriber identification module，SIM)卡接口195等。其中传感器模块180可以包括压力传感器180A，陀螺仪传感器180B，气压传感器180C，磁传感器180D，加速度传感器180E，距离传感器180F，接近光传感器180G，指纹传感器180H，温度传感器180J，触摸传感器180K，环境光传感器180L，骨传导传感器180M等。

可以理解的是，本申请实施例示意的结构并不构成对终端100的具体限定。在本申请另一些实施例中，终端100可以包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器110可以包括一个或多个处理单元，例如：处理器110可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的器件，也可以集成在一个或多个处理器中。

控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。

处理器110中还可以设置存储器，用于存储指令和数据。在一些实施例中，处理器110中的存储器为高速缓冲存储器。该存储器可以保存处理器110刚用过或循环使用的指令或数据。如果处理器110需要再次使用该指令或数据，可从该存储器中直接调用。避免了重复存取，减少了处理器110的等待时间，因而提高了系统的效率。

在一些实施例中，处理器110可以包括一个或多个接口。接口可以包括集成电路(inter-integrated circuit，I2C)接口，集成电路内置音频(inter-integrated circuit sound，I2S)接口，脉冲编码调制(pulse code modulation，PCM)接口，通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口，移动产业处理器接口(mobile industry processor interface，MIPI)，通用输入输出(general-purpose input/output，GPIO)接口，用户标识模块(subscriber identity module，SIM)接口，和/或通用串行总线(universal serial bus，USB)接口等。

I2C接口是一种双向同步串行总线，包括一根串行数据线(serial data line，SDA)和一根串行时钟线(derail clock line，SCL)。在一些实施例中，处理器110可以包含多组I2C总线。处理器110可以通过不同的I2C总线接口分别耦合触摸传感器180K，充电器，闪光灯，摄像头193等。例如：处理器110可以通过I2C接口耦合触摸传感器180K，使处理器110与触摸传感器180K通过I2C总线接口通信，实现终端100的触摸功能。

I2S接口可以用于音频通信。在一些实施例中，处理器110可以包含多组I2S总线。处理器110可以通过I2S总线与音频模块170耦合，实现处理器110与音频模块170之间的通信。在一些实施例中，音频模块170可以通过I2S接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。

PCM接口也可以用于音频通信，将模拟信号抽样，量化和编码。在一些实施例中，音频模块170与无线通信模块160可以通过PCM总线接口耦合。在一些实施例中，音频模块170也可以通过PCM接口向无线通信模块160传递音频信号，实现通过蓝牙耳机接听电话的功能。该I2S接口和该PCM接口都可以用于音频通信。

UART接口是一种通用串行数据总线，用于异步通信。该总线可以为双向通信总线。它将要传输的数据在串行通信与并行通信之间转换。在一些实施例中，UART接口通常被用于连接处理器110与无线通信模块160。例如：处理器110通过UART接口与无线通信模块160中的蓝牙模块通信，实现蓝牙功能。在一些实施例中，音频模块170可以通过UART接口向无线通信模块160传递音频信号，实现通过蓝牙耳机播放音乐的功能。

MIPI接口可以被用于连接处理器110与显示屏194，摄像头193等外围器件。MIPI接口包括摄像头串行接口(camera serial interface，CSI)，显示屏串行接口(display serial interface，DSI)等。在一些实施例中，处理器110和摄像头193通过CSI接口通信，实现终端100的拍摄功能。处理器110和显示屏194通过DSI接口通信，实现终端100的显示功能。

GPIO接口可以通过软件配置。GPIO接口可以被配置为控制信号，也可被配置为数据信号。在一些实施例中，GPIO接口可以用于连接处理器110与摄像头193，显示屏194，无线通信模块160，音频模块170，传感器模块180等。GPIO接口还可以被配置为I2C接口，I2S接口，UART接口，MIPI接口等。

USB接口130是符合USB标准规范的接口，具体可以是Mini USB接口，Micro USB接口，USB Type C接口等。USB接口130可以用于连接充电器为终端100充电，也可以用于终端100与外围设备之间传输数据。也可以用于连接耳机，通过耳机播放音频。该接口还可以用于连接其他终端，例如AR设备等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对终端100的结构限定。在本申请另一些实施例中，终端100也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

充电管理模块140用于从充电器接收充电输入。其中，充电器可以是无线充电器，也可以是有线充电器。在一些有线充电的实施例中，充电管理模块140可以通过USB接口130接收有线充电器的充电输入。在一些无线充电的实施例中，充电管理模块140可以通过终端100的无线充电线圈接收无线充电输入。充电管理模块140为电池142充电的同时，还可以通过电源管理模块141为终端供电。

电源管理模块141用于连接电池142，充电管理模块140与处理器110。电源管理模块141接收电池142和/或充电管理模块140的输入，为处理器110，内部存储器121，显示屏194，摄像头193，和无线通信模块160等供电。电源管理模块141还可以用于监测电池容量，电池循环次数，电池健康状态(漏电，阻抗)等参数。在其他一些实施例中，电源管理模块141也可以设置于处理器110中。在另一些实施例中，电源管理模块141和充电管理模块140也可以设置于同一个器件中。

终端100的无线通信功能可以通过天线1，天线2，移动通信模块150，无线通信模块160，调制解调处理器以及基带处理器等实现。

天线1和天线2用于发射和接收电磁波信号。终端100中的每个天线可用于覆盖单个或多个通信频带。不同的天线还可以复用，以提高天线的利用率。例如：可以将天线1复用为无线局域网的分集天线。在另外一些实施例中，天线可以和调谐开关结合使用。

移动通信模块150可以提供应用在终端100上的包括2G/3G/4G/5G等无线通信的解决方案。移动通信模块150可以包括至少一个滤波器，开关，功率放大器，低噪声放大器(low noise amplifier，LNA)等。移动通信模块150可以由天线1接收电磁波，并对接收的电磁波进行滤波，放大等处理，传送至调制解调处理器进行解调。移动通信模块150还可以对经调制解调处理器调制后的信号放大，经天线1转为电磁波辐射出去。在一些实施例中，移动通信模块150的至少部分功能模块可以被设置于处理器110中。在一些实施例中，移动通信模块150的至少部分功能模块可以与处理器110的至少部分模块被设置在同一个器件中。

调制解调处理器可以包括调制器和解调器。其中，调制器用于将待发送的低频基带信号调制成中高频信号。解调器用于将接收的电磁波信号解调为低频基带信号。随后解调器将解调得到的低频基带信号传送至基带处理器处理。低频基带信号经基带处理器处理后，被传递给应用处理器。应用处理器通过音频设备(不限于扬声器170A，受话器170B等)输出声音信号，或通过显示屏194显示图像或视频。在一些实施例中，调制解调处理器可以是独立的器件。在另一些实施例中，调制解调处理器可以独立于处理器110，与移动通信模块150或其他功能模块设置在同一个器件中。

无线通信模块160可以提供应用在终端100上的包括无线局域网(wireless local area networks，WLAN)(如无线保真(wireless fidelity，Wi-Fi)网络)，蓝牙(bluetooth，BT)，全球导航卫星系统(global navigation satellite system，GNSS)，调频(frequency modulation，FM)，近距离无线通信技术(near field communication，NFC)，红外技术(infrared，IR)等无线通信的解决方案。无线通信模块160可以是集成至少一个通信处理模块的一个或多个器件。无线通信模块160经由天线2接收电磁波，将电磁波信号调频以及滤波处理，将处理后的信号发送到处理器110。无线通信模块160还可以从处理器110接收待发送的信号，对其进行调频，放大，经天线2转为电磁波辐射出去。

在一些实施例中，终端100的天线1和移动通信模块150耦合，天线2和无线通信模块160耦合，使得终端100可以通过无线通信技术与网络以及其他设备通信。该无线通信技术可以包括全球移动通讯系统(global system for mobile communications，GSM)，通用分组无线服务(general packet radio service，GPRS)，码分多址接入(code division multiple access，CDMA)，宽带码分多址(wideband code division multiple access，WCDMA)，时分码分多址(time-division code division multiple access，TD-SCDMA)，长期演进(long term evolution，LTE)，BT，GNSS，WLAN，NFC，FM，和/或IR技术等。该GNSS可以包括全球卫星定位系统(global positioning system，GPS)，全球导航卫星系统(global navigation satellite system，GLONASS)，北斗卫星导航系统(beidou navigation satellite system，BDS)，准天顶卫星系统(quasi-zenith satellite system，QZSS)和/或星基增强系统(satellite based augmentation systems，SBAS)。

终端100通过GPU，显示屏194，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏194和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器110可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏194用于显示图像，视频等。显示屏194包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)，有机发光二极管(organic light-emitting diode，OLED)，有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)，柔性发光二极管(flex light-emitting diode，FLED)，Miniled，MicroLed，Micro-oLed，量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，终端100可以包括1个或N个显示屏194，N为大于1的正整数。

终端100可以通过ISP，摄像头193，视频编解码器，GPU，显示屏194以及应用处理器等实现拍摄功能。

ISP用于处理摄像头193反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将该电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点，亮度，肤色进行算法优化。ISP还可以对拍摄场景的曝光，色温等参数优化。在一些实施例中，ISP可以设置在摄像头193中。

摄像头193用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，终端100可以包括1个或N个摄像头193，N为大于1的正整数。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当终端100在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。终端100可以支持一种或多种视频编解码器。这样，终端100可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1，MPEG2，MPEG3，MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现终端100的智能认知等应用，例如：图像识别，人脸识别，语音识别，文本理解等。

外部存储器接口120可以用于连接外部存储卡，例如Micro SD卡，实现扩展终端100的存储能力。外部存储卡通过外部存储器接口120与处理器110通信，实现数据存储功能。例如将音乐，视频等文件保存在外部存储卡中。

内部存储器121可以用于存储计算机可执行程序代码，该可执行程序代码包括指令。内部存储器121可以包括存储程序区和存储数据区。此外，内部存储器121可以存储上述方法实施例中描述的预测模型。其中，存储程序区可存储操作系统，至少一个功能所需的应用程序(比如声音播放功能，图像播放功能等)等。存储数据区可存储终端100使用过程中所创建的数据(比如音频数据，电话本等)等。此外，内部存储器121可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件，闪存器件，通用闪存存储器(universal flash storage，UFS)等。处理器110通过运行存储在内部存储器121的指令，和/或存储在设置于处理器中的存储器的指令，执行终端100的各种功能应用以及数据处理。

终端100可以通过音频模块170，扬声器170A，受话器170B，麦克风170C，耳机接口170D，以及应用处理器等实现音频功能。例如音乐播放，录音等。

音频模块170用于将数字音频信息转换成模拟音频信号输出，也用于将模拟音频输入转换为数字音频信号。音频模块170还可以用于对音频信号编码和解码。在一些实施例中，音频模块170可以设置于处理器110中，或将音频模块170的部分功能模块设置于处理器110中。

扬声器170A，也称“喇叭”，用于将音频电信号转换为声音信号。终端100可以通过扬声器170A收听音乐，或收听免提通话。

受话器170B，也称“听筒”，用于将音频电信号转换成声音信号。当终端100接听电话或语音信息时，可以通过将受话器170B靠近人耳接听语音。

麦克风170C，也称“话筒”，“传声器”，用于将声音信号转换为电信号。当拨打电话或发送语音信息时，用户可以通过人嘴靠近麦克风170C发声，将声音信号输入到麦克风170C。终端100可以设置至少一个麦克风170C。在另一些实施例中，终端100可以设置两个麦克风170C，除了采集声音信号，还可以实现降噪功能。在另一些实施例中，终端100还可以设置三个，四个或更多麦克风170C，实现采集声音信号，降噪，还可以识别声音来源，实现定向录音功能等。

耳机接口170D用于连接有线耳机。耳机接口170D可以是USB接口130，也可以是3.5mm的开放移动终端平台(open mobile terminal platform，OMTP)标准接口，美国蜂窝电信工业协会(cellular telecommunications industry association of the USA，CTIA)标准接口。

压力传感器180A用于感受压力信号，可以将压力信号转换成电信号。在一些实施例中，压力传感器180A可以设置于显示屏194。压力传感器180A的种类很多，如电阻式压力传感器，电感式压力传感器，电容式压力传感器等。电容式压力传感器可以是包括至少两个具有导电材料的平行板。当有力作用于压力传感器180A，电极之间的电容改变。终端100根据电容的变化确定压力的强度。当有触摸操作作用于显示屏194，终端100根据压力传感器180A检测该触摸操作强度。终端100也可以根据压力传感器180A的检测信号计算触摸的位置。在一些实施例中，作用于相同触摸位置，但不同触摸操作强度的触摸操作，可以对应不同的操作指令。例如：当有触摸操作强度小于第一压力阈值的触摸操作作用于短消息应用图标时，执行查看短消息的指令。当有触摸操作强度大于或等于第一压力阈值的触摸操作作用于短消息应用图标时，执行新建短消息的指令。

陀螺仪传感器180B可以用于确定终端100的运动姿态。在一些实施例中，可以通过陀螺仪传感器180B确定终端100围绕三个轴(即，x，y和z轴)的角速度。陀螺仪传感器180B可以用于拍摄防抖。示例性的，当按下快门，陀螺仪传感器180B检测终端100抖动的角度，根据角度计算出镜头模组需要补偿的距离，让镜头通过反向运动抵消终端100的抖动，实现防抖。陀螺仪传感器180B还可以用于导航，体感游戏场景。

气压传感器180C用于测量气压。在一些实施例中，终端100通过气压传感器180C测得的气压值计算海拔高度，辅助定位和导航。

磁传感器180D包括霍尔传感器。终端100可以利用磁传感器180D检测翻盖皮套的开合。在一些实施例中，当终端100是翻盖机时，终端100可以根据磁传感器180D检测翻盖的开合。进而根据检测到的皮套的开合状态或翻盖的开合状态，设置翻盖自动解锁等特性。

加速度传感器180E可检测终端100在各个方向上(一般为三轴)加速度的大小。当终端100静止时可检测出重力的大小及方向。还可以用于识别终端姿态，应用于横竖屏切换，计步器等应用。

距离传感器180F，用于测量距离。终端100可以通过红外或激光测量距离。在一些实施例中，拍摄场景，终端100可以利用距离传感器180F测距以实现快速对焦。

接近光传感器180G可以包括例如发光二极管(LED)和光检测器，例如光电二极管。发光二极管可以是红外发光二极管。终端100通过发光二极管向外发射红外光。终端100使用光电二极管检测来自附近物体的红外反射光。当检测到充分的反射光时，可以确定终端100附近有物体。当检测到不充分的反射光时，终端100可以确定终端100附近没有物体。终端100可以利用接近光传感器180G检测用户手持终端100贴近耳朵通话，以便自动熄灭屏幕达到省电的目的。接近光传感器180G也可用于皮套模式，口袋模式自动解锁与锁屏。

环境光传感器180L用于感知环境光亮度。终端100可以根据感知的环境光亮度自适应调节显示屏194亮度。环境光传感器180L也可用于拍照时自动调节白平衡。环境光传感器180L还可以与接近光传感器180G配合，检测终端100是否在口袋里，以防误触。

指纹传感器180H用于采集指纹。终端100可以利用采集的指纹特性实现指纹解锁，访问应用锁，指纹拍照，指纹接听来电等。

温度传感器180J用于检测温度。在一些实施例中，终端100利用温度传感器180J检测的温度，执行温度处理策略。例如，当温度传感器180J上报的温度超过阈值，终端100执行降低位于温度传感器180J附近的处理器的性能，以便降低功耗实施热保护。在另一些实施例中，当温度低于另一阈值时，终端100对电池142加热，以避免低温导致终端100异常关机。在其他一些实施例中，当温度低于又一阈值时，终端100对电池142的输出电压执行升压，以避免低温导致的异常关机。

触摸传感器180K，也称“触控器件”。触摸传感器180K可以设置于显示屏194，由触摸传感器180K与显示屏194组成触摸屏，也称“触控屏”。触摸传感器180K用于检测作用于其上或附近的触摸操作。触摸传感器可以将检测到的触摸操作传递给应用处理器，以确定触摸事件类型。可以通过显示屏194提供与触摸操作相关的视觉输出。在另一些实施例中，触摸传感器180K也可以设置于终端100的表面，与显示屏194所处的位置不同。

骨传导传感器180M可以获取振动信号。在一些实施例中，骨传导传感器180M可以获取人体声部振动骨块的振动信号。骨传导传感器180M也可以接触人体脉搏，接收血压跳动信号。在一些实施例中，骨传导传感器180M也可以设置于耳机中，结合成骨传导耳机。音频模块170可以基于该骨传导传感器180M获取的声部振动骨块的振动信号，解析出语音指令，实现语音功能。应用处理器可以基于该骨传导传感器180M获取的血压跳动信号解析心率信息，实现心率检测功能。

按键190包括开机键，音量键等。按键190可以是机械按键。也可以是触摸式按键。终端100可以接收按键输入，产生与终端100的用户设置以及功能控制有关的键信号输入。

马达191可以产生振动提示。马达191可以用于来电振动提示，也可以用于触摸振动反馈。例如，作用于不同应用(例如拍照，音频播放等)的触摸操作，可以对应不同的振动反馈效果。作用于显示屏194不同区域的触摸操作，马达191也可对应不同的振动反馈效果。不同的应用场景(例如：时间提醒，接收信息，闹钟，游戏等)也可以对应不同的振动反馈效果。触摸振动反馈效果还可以支持自定义。

指示器192可以是指示灯，可以用于指示充电状态，电量变化，也可以用于指示消息，未接来电，通知等。

SIM卡接口195用于连接SIM卡。SIM卡可以通过插入SIM卡接口195，或从SIM卡接口195拔出，实现和终端100的接触和分离。终端100可以支持1个或N个SIM卡接口，N为大于1的正整数。SIM卡接口195可以支持Nano SIM卡，Micro SIM卡，SIM卡等。同一个SIM卡接口195可以同时插入多张卡。该多张卡的类型可以相同，也可以不同。SIM卡接口195也可以兼容不同类型的SIM卡。SIM卡接口195也可以兼容外部存储卡。终端100通过SIM卡和网络交互，实现通话以及数据通信等功能。在一些实施例中，终端100采用eSIM，即：嵌入式SIM卡。eSIM卡可以嵌在终端100中，不能和终端100分离。终端100的软件系统可以采用分层架构，事件驱动架构，微核架构，微服务架构，或云架构。

以分层架构的Android(安卓)系统为例，示例性说明终端100的软件结构。

图16是本申请实施例提供的一种终端100的功能架构图。

分层架构将软件分成若干个层，每一层都有清晰的角色和分工。层与层之间通过软件接口通信。在一些实施例中，将Android系统分为四层，从上至下分别为应用程序层，应用程序框架层，安卓运行时(Android runtime)和系统库，以及内核层。

应用程序层可以包括一系列应用程序包。

如图16所示，应用程序包可以包括相机，图库，日历，通话，地图，导航，WLAN，蓝牙，音乐，视频，短信息等应用程序。

应用程序框架层为应用程序层的应用程序提供应用编程接口(application programming interface，API)和编程框架。应用程序框架层包括一些预先定义的函数。

如图16所示，应用程序框架层可以包括窗口管理器，内容提供器，视图系统，电话管理器，资源管理器，通知管理器等。

窗口管理器用于管理窗口程序。窗口管理器可以获取显示屏大小，判断是否有状态栏，锁定屏幕，截取屏幕等。

内容提供器用来存放和获取数据，并使这些数据可以被应用程序访问。该数据可以包括视频，图像，音频，拨打和接听的电话，浏览历史和书签，电话簿等。

视图系统包括可视控件，例如显示文字的控件，显示图片的控件等。视图系统可用于构建应用程序。显示界面可以由一个或多个视图组成的。例如，包括短信通知图标的显示界面，可以包括显示文字的视图以及显示图片的视图。

电话管理器用于提供终端100的通信功能。例如通话状态的管理(包括接通，挂断等)。

资源管理器为应用程序提供各种资源，比如本地化字符串，图标，图片，布局文件，视频文件等等。

通知管理器使应用程序可以在状态栏中显示通知信息，可以用于传达告知类型的消息，可以短暂停留后自动消失，无需用户交互。比如通知管理器被用于告知下载完成，消息提醒等。通知管理器还可以是以图表或者滚动条文本形式出现在系统顶部状态栏的通知，例如后台运行的应用程序的通知，还可以是以对话窗口形式出现在屏幕上的通知。例如在状态栏提示文本信息，发出提示音，终端振动，指示灯闪烁等。

Android Runtime包括核心库和虚拟机。Android runtime负责安卓系统的调度和管理。

核心库包含两部分：一部分是java语言需要调用的功能函数，另一部分是安卓的核心库。

应用程序层和应用程序框架层运行在虚拟机中。虚拟机将应用程序层和应用程序框架层的java文件执行为二进制文件。虚拟机用于执行对象生命周期的管理，堆栈管理，线程管理，安全和异常的管理，以及垃圾回收等功能。

系统库可以包括多个功能模块。例如：表面管理器(surface manager)，媒体库(Media Libraries)，三维图形处理库(例如：OpenGL ES)，2D图形引擎(例如：SGL)等。

表面管理器用于对显示子系统进行管理，并且为多个应用程序提供了2D和3D图层的融合。

媒体库支持多种常用的音频，视频格式回放和录制，以及静态图像文件等。媒体库可以支持多种音视频编码格式，例如:MPEG4，H.264，MP3，AAC，AMR，JPG，PNG等。

三维图形处理库用于实现三维图形绘图，图像渲染，合成，和图层处理等。

2D图形引擎是2D绘图的绘图引擎。

内核层是硬件和软件之间的层。内核层至少包含显示驱动，摄像头驱动，音频驱动，传感器驱动。

下面结合语音检测场景，示例性说明终端100软件以及硬件的工作流程。

终端100通过音频驱动，启动麦克风170C，通过麦克风170C采集音频信号，启动摄像头驱动，通过摄像头193拍摄人脸图像。终端将预测模型加载至内部存储器121，处理器110将人脸图像输入预测模型，处理器110通过预测模型对人脸图像进行处理，输出预测结果；若预测结果表示用户不具有继续说话的意图，处理器110确定音频信号为语音结束点。

在一些可能的实施例中，执行上述图2实施例、图6实施例或图10实施例中的电子设备可以实现为计算设备，该计算设备可以是服务器、主机或个人计算机等。该计算设备可以由一般性的总线体系结构来实现。

参见图17，图17是本申请实施例提供的一种计算设备的结构示意图，该计算设备可以配置为上述方法实施例中的电子设备。

计算设备可以是方法实施例全部或部分描述的内容中涉及的任一设备。计算设备包括至少一个处理器1701、通信总线1702、存储器1703以及至少一个通信接口1704。

处理器1701可以是一个通用中央处理器(central processing unit，CPU)、网络处理器(NP)、微处理器、或者可以是一个或多个用于实现本申请方案的集成电路，例如，专用集成电路(application-specific integrated circuit，ASIC)，可编程逻辑器件(programmable logic device，PLD)或其组合。上述PLD可以是复杂可编程逻辑器件(complex programmable logic device，CPLD)，现场可编程逻辑门阵列(field-programmable gate array，FPGA)，通用阵列逻辑(generic array logic，GAL)或其任意组合。

通信总线1702用于在上述组件之间传送信息。通信总线1702可以分为地址总线、数据总线、控制总线等。为便于表示，图中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

存储器1703可以是只读存储器(read-only memory，ROM)或可存储静态信息和指令的其它类型的静态存储设备，也可以是随机存取存储器(random access memory，RAM)或者可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only Memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其它光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质，但不限于此。存储器1703可以是独立存在，并通过通信总线1702与处理器1701相连接。存储器1703也可以和处理器1701集成在一起。

通信接口1704使用任何收发器一类的装置，用于与其它设备或通信网络通信。通信接口1704包括有线通信接口，还可以包括无线通信接口。其中，有线通信接口例如可以为以太网接口。以太网接口可以是光接口，电接口或其组合。无线通信接口可以为无线局域网(wireless local area networks，WLAN)接口，蜂窝网络通信接口或其组合等。

在具体实现中，作为一种实施例，处理器1701可以包括一个或多个CPU，如图3中所示的CPU0和CPU1。

在具体实现中，作为一种实施例，计算机设备可以包括多个处理器，如图3中所示的处理器1701和处理器1705。这些处理器中的每一个可以是一个单核处理器(single-CPU)，也可以是一个多核处理器(multi-CPU)。这里的处理器可以指一个或多个设备、电路、和/或用于处理数据(如计算机程序指令)的处理核。

在具体实现中，作为一种实施例，计算机设备还可以包括输出设备1706和输入设备1707。输出设备1706和处理器1701通信，可以以多种方式来显示信息。例如，输出设备1706可以是液晶显示器(liquid crystal display，LCD)、发光二级管(light emitting diode，LED)显示设备、阴极射线管(cathode ray tube，CRT)显示设备或投影仪(projector)等。输入设备1707和处理器1701通信，可以以多种方式接收用户的输入。例如，输入设备1707可以是鼠标、键盘、触摸屏设备或传感设备等。

在一些实施例中，存储器1703用于存储执行本申请方案的程序代码1710，处理器1701可以执行存储器1703中存储的程序代码1710。也即是，计算设备可以通过处理器1701以及存储器1703中的程序代码1710，来实现方法实施例提供的方法。

本申请实施例的计算设备可对应于上述各个方法实施例中的电子设备，并且，该计算设备中的处理器1710、收发器1720等可以实现上述各个方法实施例中的电子设备所具有的功能和/或所实施的各种步骤和方法。为了简洁，在此不再赘述。

在一些可能的实施例中，执行上述图2实施例、图6实施例或图10实施例中的电子设备也可以由通用处理器来实现。例如，该通用处理器的形态可以是一种芯片。具体地，实现电子设备的通用处理器包括处理电路和与该处理电路内部连接通信的输入接口以及输出接口，该输入接口可以将音频信号以及人脸图像输入处理电路，处理电路用于执行步骤602至步骤608，该处理电路可以通过输出接口，输出语音检测的结果。可选地，该通用处理器还可以包括存储介质，存储介质可以存储处理电路执行的指令，该处理电路用于执行存储介质存储的指令以执行上述各个方法实施例。可选地，该存储介质还可以用于缓存预测模型，或者对预测模型进行持久化存储。

作为一种可能的产品形态，执行上述图2实施例、图6实施例或图10实施例中的电子设备，还可以使用下述来实现：一个或多个现场可编程门阵列(英文全称：field－programmable gate array，英文简称：FPGA)、可编程逻辑器件(英文全称：programmable logic device，英文简称：PLD)、控制器、状态机、门逻辑、分立硬件部件、任何其它适合的电路、或者能够执行本申请通篇所描述的各种功能的电路的任意组合。

在一些可能的实施例中，执行上述图2实施例、图6实施例或图10实施例中的电子设备还可以使用计算机程序产品实现。具体地，本申请实施例提供了一种计算机程序产品，当该计算机程序产品在电子设备上运行时，使得电子设备执行上述方法实施例中的语音检测方法。

应理解，上述各种产品形态的电子设备，比如终端100、计算设备1600分别具有上述图2方法实施例、图6实施例或图10实施例中电子设备的任意功能，此处不再赘述。

本领域普通技术人员可以意识到，结合本文中所公开的实施例中描述的各方法步骤和单元，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各实施例的步骤及组成。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。本领域普通技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为了描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参见前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，该单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另外，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或通信连接，也可以是电的，机械的或其它的形式连接。

该作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本申请实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以是两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

该集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分，或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例中方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上描述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到各种等效的修改或替换，这些修改或替换都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以权利要求的保护范围为准。

在上述实施例中，可以全部或部分地通过软件、硬件、固件或者其任意组合来实现。当使用软件实现时，可以全部或部分地以计算机程序产品的形式实现。该计算机程序产品包括一个或多个计算机程序指令。在计算机上加载和执行该计算机程序指令时，全部或部分地产生按照本申请实施例中的流程或功能。该计算机可以是通用计算机、专用计算机、计算机网络、或者其他可编程装置。该计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一个计算机可读存储介质传输，例如，该计算机程序指令可以从一个网站站点、计算机、服务器或数据中心通过有线或无线方式向另一个网站站点、计算机、服务器或数据中心进行传输。该计算机可读存储介质可以是计算机能够存取的任何可用介质或者是包含一个或多个可用介质集成的服务器、数据中心等数据存储设备。该可用介质可以是磁性介质(例如软盘、硬盘、磁带)、光介质(例如，数字视频光盘(digital video disc，DVD)、或者半导体介质(例如固态硬盘)等。

本领域普通技术人员可以理解实现上述实施例的全部或部分步骤可以通过硬件来完成，也可以通过程序来指令相关的硬件完成，该程序可以存储于一种计算机可读存储介质中，上述提到的存储介质可以是只读存储器，磁盘或光盘等。

以上所述仅为本申请的可选实施例，并不用以限制本申请，凡在本申请的精神和原则之内，所作的任何修改、等同替换、改进等，均应包含在本申请的保护范围之内。

Claims

一种语音检测方法，其特征在于，所述方法包括：

获取音频信号以及人脸图像，所述人脸图像的拍摄时间点和所述音频信号的采集时间点相同；

将所述人脸图像输入预测模型，所述预测模型用于预测用户是否具有继续说话的意图；

通过所述预测模型对所述人脸图像进行处理，输出预测结果；

若所述预测结果表示所述用户不具有继续说话的意图，确定所述音频信号为语音结束点。
根据权利要求1所述的方法，其特征在于，所述通过所述预测模型对所述人脸图像进行处理，输出预测结果，包括：

提取所述人脸图像包含的关键点；

对所述关键点进行处理，得到所述人脸图像的动作特征；

对所述动作特征进行分类，得到不同类别分别对应的置信度；

根据所述置信度确定所述预测结果。
根据权利要求1或2所述的方法，其特征在于，所述预测模型是根据第一样本人脸图像以及第二样本人脸图像训练得到的；

所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一标签是根据第一样本音频信号确定的，所述第一样本音频信号的采集时间点及采集对象和所述第一样本人脸图像的拍摄时间点及拍摄对象均相同；

所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二标签是根据第二样本音频信号确定的，所述第二样本音频信号的采集时间点及采集对象和所述第二样本人脸图像的拍摄时间点及拍摄对象均相同。
根据权利要求3所述的方法，其特征在于，所述第一样本音频信号满足第一条件，所述第一条件包括以下至少一项：

所述第一样本音频信号对应的语音活性检测VAD结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态；或，

所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；或，

文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；或，

所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率。
根据权利要求3或4所述的方法，其特征在于，所述第二样本音频信号满足第二条件，所述第二条件包括以下至少一项：

所述第二样本音频信号对应的VAD结果从说话状态更新为沉默状态；或，

所述第二样本音频信号的尾部静音时长大于第一阈值。
根据权利要求3至5中任一项所述的方法，其特征在于，所述第一样本人脸图像满足第三条件，所述第三条件包括：

将所述第一样本人脸图像分别输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。
根据权利要求1所述的方法，其特征在于，所述获取音频信号以及人脸图像之后，所述方法包括：

对所述音频信号进行语音识别，得到所述音频信号对应的第三文本信息；

对所述第三文本信息进行句法分析，得到第一分析结果，所述第一分析结果用于表示所述第三文本信息是否为完整语句；

若所述第一分析结果表示为所述第三文本信息不为完整语句，确定所述音频信号不为语音结束点；或者，若所述第一分析结果表示为所述第三文本信息为完整语句，执行所述将所述人脸图像输入预测模型的步骤。
根据权利要求7所述的方法，其特征在于，所述对所述第三文本信息进行句法分析，得到第一分析结果，包括：

对所述第三文本信息进行分词，得到多个词汇；

对于所述多个词汇中的每个词汇，对所述词汇进行句法分析，得到所述词汇对应的第二分析结果，所述第二分析结果用于表示所述词汇与所述词汇之前的词汇是否组成了完整语句；

若所述多个词汇中任一词汇对应的第二分析结果表示组成了完整语句，确定所述第三文本信息为完整语句；或者，若所述多个词汇中每个词汇对应的第二分析结果均表示没有组成完整语句，确定所述第三文本信息不为完整语句。
一种用于语音检测的预测模型的训练方法，其特征在于，所述方法包括：

获取样本音频信号集以及待标注的样本人脸图像集；

根据所述样本音频信号集中的第一样本音频信号，对所述样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像，所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一样本人脸图像的拍摄时间点及拍摄对象和所述第一样本音频信号的采集时间点及采集对象均相同；

根据所述样本音频信号集中的第二样本音频信号，对所述样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像，所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二样本人脸图像的拍摄时间点及拍摄对象和所述第二样本音频信号的采集时间点及采集对象均相同；

使用所述第一样本人脸图像以及所述第二样本人脸图像进行模型训练，得到预测模型，所述预测模型用于预测用户是否具有继续说话的意图。
根据权利要求9所述的方法，其特征在于，所述第一样本音频信号满足第一条件，所述第一条件包括以下至少一项：

所述第一样本音频信号对应的语音活性检测VAD结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态；或，

所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；或，

文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；或，

所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率。
根据权利要求9或10所述的方法，其特征在于，所述第二样本音频信号满足第二条件，所述第二条件包括以下至少一项：

所述第二样本音频信号对应的VAD结果从说话状态更新为沉默状态；或，

所述第二样本音频信号的尾部静音时长大于第一阈值。
根据权利要求9至11中任一项所述的方法，其特征在于，所述第一样本人脸图像满足第三条件，所述第三条件包括：

将所述第一样本人脸图像输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。
一种语音检测装置，其特征在于，所述装置包括：

获取模块，用于获取音频信号以及人脸图像，所述人脸图像的拍摄时间点和所述音频信号的采集时间点相同；

输入模块，用于将所述人脸图像输入预测模型，所述预测模型用于预测用户是否具有继续说话的意图；

处理模块，用于通过所述预测模型对所述人脸图像进行处理，输出预测结果；

确定模块，用于若所述预测结果表示所述用户不具有继续说话的意图，确定所述音频信号为语音结束点。
根据权利要求13所述的装置，其特征在于，所述处理模块，包括：

提取子模块，用于提取所述人脸图像包含的关键点；

处理子模块，用于对所述关键点进行处理，得到所述人脸图像的动作特征；

分类子模块，用于对所述动作特征进行分类，得到不同类别分别对应的置信度；

确定子模块，用于根据所述置信度确定所述预测结果。
根据权利要求13或14所述的装置，其特征在于，所述预测模型是根据第一样本人脸图像以及第二样本人脸图像训练得到的；

所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一标签是根据第一样本音频信号确定的，所述第一样本音频信号的采集时间点及采集对象和所述第一样本人脸图像的拍摄时间点及拍摄对象均相同；

所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二标签是根据第二样本音频信号确定的，所述第二样本音频信号的采集时间点及采集对象和所述第二样本人脸图像的拍摄时间点及拍摄对象均相同。
根据权利要求15所述的装置，其特征在于，所述第一样本音频信号满足第一条件，所述第一条件包括以下至少一项：

所述第一样本音频信号对应的语音活性检测VAD结果先从说话状态更新为沉默状态，再从所述沉默状态更新为所述说话状态；或，

所述第一样本音频信号的尾部静音时长小于第一阈值且大于第二阈值，所述第一阈值大于所述第二阈值；或，

文本信息组合的第一置信度大于第一文本信息的第二置信度，所述文本信息组合为所述第一文本信息与第二文本信息的组合，所述第一文本信息表示所述第一样本音频信号的上一个样本音频信号的语义，所述第二文本信息表示所述第一样本音频信号的下一个样本音频信号的语义，所述第一置信度表示所述文本信息组合为完整语句的概率，所述第二置信度表示所述第一文本信息为完整语句的概率；或，

所述文本信息组合的第一置信度大于所述第二文本信息的第三置信度，所述第三置信度表示所述第二文本信息为完整语句的概率。
根据权利要求15或16所述的装置，其特征在于，所述第二样本音频信号满足第二条件，所述第二条件包括以下至少一项：所述第二样本音频信号对应的VAD结果从说话状态更新为沉默状态；或，所述第二样本音频信号的尾部静音时长大于第一阈值。
根据权利要求15至17中任一项所述的装置，其特征在于，所述第一样本人脸图像满足第三条件，所述第三条件包括：将所述第一样本人脸图像分别输入所述预测模型中的第一分类器以及所述预测模型中的第二分类器后，所述第一分类器输出的概率大于所述第二分类器输出的概率，所述第一分类器用于预测人脸图像包含动作的概率，所述第二分类器用于预测人脸图像不包含动作的概率。
根据权利要求13所述的装置，其特征在于，所述装置还包括：

语音识别模块，用于对所述音频信号进行语音识别，得到所述音频信号对应的第三文本信息；

句法分析模块，用于对所述第三文本信息进行句法分析，得到第一分析结果，所述第一分析结果用于表示所述第三文本信息是否为完整语句；

所述确定模块，还用于若所述第一分析结果表示为所述第三文本信息不为完整语句，确定所述音频信号不为语音结束点；或者，若所述第一分析结果表示为所述第三文本信息为完整语句，执行所述将所述人脸图像输入预测模型的步骤。
根据权利要求19所述的装置，其特征在于，所述句法分析模块，用于对所述第三文本信息进行分词，得到多个词汇；对于所述多个词汇中的每个词汇，对所述词汇进行句法分析，得到所述词汇对应的第二分析结果，所述第二分析结果用于表示所述词汇与所述词汇之前的词汇是否组成了完整语句；若所述多个词汇中任一词汇对应的第二分析结果表示组成了完整语句，确定所述第三文本信息为完整语句；或者，若所述多个词汇中每个词汇对应的第二分析结果均表示没有组成完整语句，确定所述第三文本信息不为完整语句。
一种用于语音检测的预测模型的训练装置，其特征在于，所述装置包括：

获取模块，用于获取样本音频信号集以及待标注的样本人脸图像集；

处理模块，用于根据所述样本音频信号集中的第一样本音频信号，对所述样本人脸图像集中的第三样本人脸图像进行处理，得到第一样本人脸图像，所述第一样本人脸图像标注了第一标签，所述第一标签表示样本用户具有继续说话的意图，所述第一样本人脸图像的拍摄时间点及拍摄对象和所述第一样本音频信号的采集时间点及采集对象均相同；

所述处理模块，还用于根据所述样本音频信号集中的第二样本音频信号，对所述样本人脸图像集中的第四样本人脸图像进行处理，得到第二样本人脸图像，所述第二样本人脸图像标注了第二标签，所述第二标签表示样本用户不具有继续说话的意图，所述第二样本人脸图像的拍摄时间点及拍摄对象和所述第二样本音频信号的采集时间点及采集对象均相同；

训练模块，用于使用所述第一样本人脸图像以及所述第二样本人脸图像进行模型训练，得到预测模型，所述预测模型用于预测用户是否具有继续说话的意图。
一种电子设备，其特征在于，所述电子设备包括处理器，所述处理器用于执行指令，使得所述电子设备执行如权利要求1至权利要求8中任一项所述的方法，或如权利要求9至权利要求12中任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述存储介质中存储有至少一条指令，所述指令由处理器读取以使电子设备执行如权利要求1至权利要求8中任一项所述的方法，或如权利要求9至权利要求12中任一项所述的方法。