WO2020102979A1

WO2020102979A1 - 语音信息的处理方法、装置、存储介质及电子设备

Info

Publication number: WO2020102979A1
Application number: PCT/CN2018/116447
Authority: WO
Inventors: 陈岩
Original assignee: 深圳市欢太科技有限公司; Oppo广东移动通信有限公司
Priority date: 2018-11-20
Filing date: 2018-11-20
Publication date: 2020-05-28
Also published as: CN112771608A

Abstract

一种语音信息的处理方法、装置、存储介质及电子设备，该处理方法包括构建预设场景模型（S101）；对预设场景模型中的语谱图进行训练，以生成相应的场景识别模型（S102）；采集当前环境中的目标语音信息，并对目标语音信息进行分析，以得到目标语音信息相应的目标语谱图（S103）；将目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据目标预设场景模型匹配相应的通话参数（S104）。提升了语音信息的处理效率。

Description

语音信息的处理方法、装置、存储介质及电子设备

技术领域

本申请涉及电子设备技术领域，尤其涉及一种语音信息的处理方法、装置、存储介质及电子设备。

背景技术

随着电子技术的不断发展，电子设备如手机的功能越来越强大，用户对语音通话的要求也越来越高，用户在不同的通话场景下可以灵活选择相应的通话参数，从而实现更好的通话效果。

目前，在手机处于通话状态时，手机可以实时采集当前通话环境中的语音信息，分析出语音信息中的嘈杂值，根据嘈杂值的大小相应调整通话音量的大小，实现通话音量随着通话环境的嘈杂度的变化而自动调节处理，但是只是根据语音信息中的嘈杂值对通话音量进行处理，处理方式较为单一，对通话场景的针对性较差，语音信息的处理效率低。

发明内容

本申请实施例提供一种语音信息的处理方法、装置、存储介质及电子设备，可以提升语音信息的处理效率。

第一方面，本申请实施例了提供了一种语音信息的处理方法，包括：

构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；

对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；

采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；

将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。

第二方面，本申请实施例了提供了的一种语音信息的处理装置，包括：

构建单元，用于构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；

训练单元，用于对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；

分析单元，用于采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；

输入单元，用于将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。

第三方面，本申请实施例提供的存储介质，其上存储有计算机程序，当所述计算机程序在计算机上运行时，使得所述计算机执行如本申请任一实施例提供的语音信息的处理方法。

第四方面，本申请实施例提供的电子设备，包括处理器和存储器，所述存储器有计算机程序，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

附图说明

下面结合附图，通过对本申请的具体实施方式详细描述，将使本申请的技术方案及其它有益效果显而易见。

图1是本申请实施例提供的语音信息的处理方法的流程示意图。

图2为本申请实施例提供的语音信息的处理方法的另一流程示意图。

图3是本申请实施例提供的语音信息的处理方法的场景示意图。

图4为本申请实施例提供的语音信息的处理装置的模块示意图。

图5为本申请实施例提供的语音信息的处理装置的另一模块示意图。

图6为本申请实施例提供的电子设备的结构示意图。

图7为本申请实施例提供的电子设备的另一结构示意图。

具体实施方式

请参照图式，其中相同的组件符号代表相同的组件，本申请的原理是以实施在一适当的运算环境中来举例说明。以下的说明是基于所例示的本申请具体实施例，其不应被视为限制本申请未在此详述的其它具体实施例。

本文所使用的术语「模块」可看做为在该运算系统上执行的软件对象。本文该的不同组件、模块、引擎及服务可看做为在该运算系统上的实施对象。而本文该的装置及方法优选的以软件的方式进行实施，当然也可在硬件上进行实施，均在本申请保护范围之内。

本申请实施例提供一种语音信息的处理方法，该语音信息的处理方法的执行主体可以是本申请实施例提供的语音信息的处理装置，或者集成了该语音信息的处理装置的电子设备，其中该语音信息的处理装置可以采用硬件或者软件的方式实现。其中，电子设备可以是智能手机、平板电脑、掌上电脑(PDA，Personal Digital Assistant)等。

以下进行具体分析说明。

本发明实施例提供一种语音信息的处理方法，包括：

在一种实施方式中，所述构建预设场景模型的步骤，可以包括：通过预设采样率采集预设数量的语音信息；将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。

在一种实施方式中，所述将所述预设数量的语音信息转化为相应的语谱图的步骤，可以包括：将所述语音信息进行分帧处理，以得到第一分帧数据；对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图。

在一种实施方式中，所述对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型的步骤，可以包括：采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

在一种实施方式中，所述对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图的步骤，可以包括：对所述目标语音信息进行分帧处理，以得到第二分帧数据；对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。

在一种实施方式中，所述将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型的步骤，可以包括：将所述目标语谱图输入场景识别模型；通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。

在一种实施方式中，所述根据所述目标预设场景模型匹配相应的通话参数的步骤之后，还可以包括：生成相应的提示信息，以提示用户以匹配到的通话参数进行通话调节；当接收到所述提示信息相应的确认指令时，根据匹配到通话参数进行通话调节。

本申请实施例提供一种语音信息的处理方法，如图1所示，图1为本申请实施例提供的语音信息的处理方法的流程示意图，该语音信息的处理方法可以包括以下步骤：

在步骤S101中，构建预设场景模型。

需要说明的是，该预设场景模型为用户通话可能处于的场景，如马路场景、地铁场景、大风场景、下雨场景或者人声嘈杂场景，针对不同的场景模型，可以关联设置不同的通话参数，如针对不同场景下对通话语音不同的降噪处理、平衡器处理、声音平滑度处理等等，使得在相应的场景下，采取较佳的通话参数，实现在相应的场景下的较佳通话效果。

其中，电子设备可以采集在特定场景下的预设数量的语音信息，并将预设数量的语音信息转化为相应的语谱图，该语谱图的横坐标为时间，纵坐标为频率，颜色的深度代表语音数据能量，该语谱图可以从多维度上表达出语音信息的特征，因此，可以通过该多个语谱图构建预设场景模型。

在一些实施方式中，该构建预设场景模型的步骤，可以包括：

(1)通过预设采样率采集预设数量的语音信息；

(2)将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。

其中，电子设备可以通过麦克风以预设采样率，如以采样率44.1kHz(千赫兹)进行采集预设场景下的预设数量的语音信息，并截取每一语音信息2秒的语音内容作为输入信号，将该多个输入信号转化为相应的语谱图，并将转化后的语谱图构建为预设场景模型，该构建的预设场景模型中包含多个相应场景下的语谱图，可以反映出该场景中的语音特征。

在一些实施方式中，该将所述预设数量的语音信息转化为相应的语谱图的步骤，可以包括：

(1.1)将所述语音信息进行分帧处理，以得到第一分帧数据；

(1.2)对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图。

其中，在截取到相应的输入信号后，输入信号进行分帧加窗处理，帧长度为1024，重叠为128，窗函数为汉明窗，得到第一分帧数据，并对第一分帧数据进行傅里叶变换，计算出信号的能量密度，生成语谱图，相应的，可以对该语谱图进行灰度处理，该语谱图的横坐标为时间，纵坐标为频率，灰度值代表能量值。

在步骤S102中，对预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

其中，由于每一预设场景模型中包含有相应场景下的预设数量的语谱图，所以可以利用机器学习的方法，对该场景下的预设数量的语谱图进行训练学习，生成可以识别该场景的场景识别模型。

在一实施方式中，可以通过卷积神经网络对预设场景模型中的语谱图进行学习训练，生成可以自动识别出该对应场景的标识性特征的场景识别模型。

在步骤S103中，采集当前环境中的目标语音信息，并对目标语音信息进行分析，以得到目标语音信息相应的目标语谱图。

需要说明的是，当电子设备处于通话状态时，用户往往希望以最佳的通话参数进行通话，以保证最佳的通话效果，然而，当前用户只能手动选择相应的通话参数，过程比较繁琐，而自动调节往往只能根据环境的嘈杂值调节通话音亮的大小，调节的行为以及对语音信息的处理比较单一。

其中，当电子设备处于通话状态时，电子设备会自动通过麦克风采集当前环境中的目标语音信息，并将目标语音信息转化为相应的目标语谱图，该目标语谱图的横坐标为时间，纵坐标为频率，颜色的深度代表语音数据能量，需要注意的是，该目标语谱图的特征与预设场景模型中的语谱图的特征相同。

在一些实施方式中，该对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图的步骤，可以包括：

(1)对所述目标语音信息进行分帧处理，以得到第二分帧数据；

(2)对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。

其中，可以对目标语音信息进行分帧加窗处理，帧长度也为1024，重叠为128，窗函数为汉明窗，得到第二分帧数据，并对第二分帧数据进行傅里叶变换，计算出信号的能量密度，生成相应的目标语谱图，相应的，可以对该目标语谱图也进行灰度处理，该目标语谱图的横坐标为时间，纵坐标为频率，灰度值代表能量值，与预设场景模型中的语谱图的特征相同。

在步骤S104中，将目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据目标预设场景模型匹配相应的通话参数。

其中，由于该目标语谱图的三维特征，即横坐标为时间，纵坐标为频率，灰度值代表能量值与预设场景模型中的语谱图的特征相同，所以可以将该目标语谱图输入到场景识别模型中，该场景识别模型会对该目标语谱图中的特征进行逐一遍历，识别出该目标语谱图相应的目标预设场景模型，如地铁场景，并根据目标预设场景模型匹配适应该场景模型的相应的通话参数，以使得可以根据适应当前环境的通话参数进行通话，提升用户的通话效率。

在一些实施方式中，该将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型的步骤，可以包括：

(1)将所述目标语谱图输入场景识别模型；

(2)通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。

其中，由于该目标语谱图的特征与预设场景模型中的特征相同，所以可以将该目标语谱图输入到场景识别模型中，该场景识别模型由于学习训练，可以对该目标语谱图进行特征遍历，并自动识别出标志性特征，根据该标志性特征确定出相应的场景识别模型。

由上述可知，本实施例提供的一种语音信息的处理方法，通过构建预设场景模型，预设场景模型中包括预设数量的语谱图；对预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；采集当前环境中的目标语音信息，并对目标语音信息进行分析，以得到目标语音信息相应的目标语谱图；将目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据目标预设场景模型匹配相应的通话参数。以此根据预设数量的语谱图构建的预设场景模型进行训练，生成可以识别场景的场景识别模型，实时采集当前环境中的目标语音信息，并生成目标语谱图，将目标语谱图输入到场景识别模型中，识别出当前环境处于的场景模型，并根据处于的场景模型匹配相应合适的通话参数，提升了对语音信息的处理效率，进而对通话场景的识别率更为准确。

根据上述实施例所描述的方法，以下将举例作进一步详细说明。

请参阅图2，图2为本申请实施例提供的语音信息的处理方法的另一流程示意图。

具体而言，该方法包括：

在步骤S201中，通过预设采样率采集预设数量的语音信息。

其中，电子设备如手机可以通过麦克风按照44.1kHz(千赫兹)的采样率采集预设场景下的500个语音信息，且每一语音信息的时间可以限定为2秒，将该2秒的语音信息作为语音输入信号。

在步骤S202中，将语音信息进行分帧处理，以得到第一分帧数据。

其中，可以对语音输入信号进行分帧加窗，帧长度为1024，重叠为128，窗函数为汉明窗，进而得到第一分帧数据。

在步骤S203中，对第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图，根据语谱图构建预设场景模型。

其中，对第一分帧数据进行傅里叶变换，计算出信号的能量密度，生成灰度的语谱图，如图3所示，图3为灰度的语谱图的示意图，该横坐标为时间，该纵坐标为频率，灰度值带量能量值，可以看出的是，该语谱图可以从多维角度反映出语音信号的特征，通过预设场景下的500个语谱图可以构建出相应预设场景的预设场景模型，该预设场景模型中包括在该预设场景下的500个语谱图，如马路场景包括500个语谱图以及地铁场景包括500个语谱图等等。

在步骤S204中，采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

其中，卷积神经网络(Convolutional Neural Networks,CNN)是一类包含卷积或相关计算且具有深度结构的前馈神经网络(Feedforward Neural Networks)，是深度学习(deep learning)的代表算法之一，通过该卷积神经网络可以对预设场景模型中的语谱图进行训练，生成可以识别出标志性特征的场景识别模型，也就是说，该场景识别模型可以自动识别出语谱图中的标识性特征以确定出语谱图属于的预设场景模型。

在步骤S205中，采集当前环境中的目标语音信息，并对目标语音信息进行分帧处理，以得到第二分帧数据。

其中，手机处于通话状态时，可以通过麦克风采集当前通话环境中的目标语音信息，并对目标语音信息进行分帧加窗处理，帧长度也为1024，重叠为128，窗函数为汉明窗，得到第二分帧数据。

在步骤S206中，对第二分帧数据进行傅里叶变换，以得到目标语音信息相应的目标语谱图。

其中，手机会对第二分帧数据进行傅里叶变换，计算出信号的能量密度，生成相应的目标语谱图，相应的，可以对该目标语谱图也进行灰度处理，该目标语谱图的横坐标为时间，纵坐标为频率，灰度值代表能量值，与图3所示的预设场景模型中的语谱图的特征相同。

在步骤S207中，将目标语谱图输入场景识别模型，通过场景识别模型对目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。

其中，将当前通话环境中的目标语谱图输入到场景识别模型中，该场景识别模型会对目标语谱图中的特征进行逐一遍历，进而识别出目标语谱图中相应的目标标志性特征，根据标志性特征确定目标语谱图处于的目标预设场景模型。

在步骤S208中，根据目标预设场景模型匹配相应的通话参数。

其中，手机针对每个预设场景模型会对应关联不同的通话参数，以使得在相应的预设场景下，以最佳的通话参数进行通话，如马路场景关联第一通话参数，该地铁场景关联第二通话参数，该第一通话参数与该第二通话参数不同，因此，当目标预设场景模型为地铁场景时，匹配相应的第二通话参数。

在步骤S209中，生成相应的提示信息，以提示用户以匹配到的通话参数进行通话调节，当接收到提示信息相应的确认指令时，根据匹配到通话参数进行通话调节。

其中，在手机确定出第二通话参数时，可以生成相应的提示信息，比如提示“是否以适合当前场景的通话参数进行通话”，用户可以相应的选择是或者否操作，当用户选择是时，生成并接收确定指令，根据匹配到第二通话参数进行通话调节。

由上述可知，本实施例提供的一种语音信息的处理方法，通过以预设采样频率采集预设数量的语音信息，并对语音信息进行分帧处理，以得到第一分帧数据，将第一分帧数据进行傅里叶变换，生成相应的语谱图，根据语谱图构建预设场景模型，采用卷积神经网络对预设场景模型中的语谱图进行训练，以生成相应的场景识别模型，采集当前环境中的目标语音信息，并对目标语音信息进行分析，以得到目标语音信息相应的目标语谱图，将目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据目标预设场景模型匹配相应的通话参数。以此根据预设数量的语谱图构建的预设场景模型进行训练，生成可以识别场景的场景识别模型，实时采集当前环境中的目标语音信息，并生成目标语谱图，将目标语谱图输入到场景识别模型中，识别出当前环境处于的场景模型，并根据处于的场景模型匹配相应合适的通话参数，提升了对语音信息的处理效率，进而对通话场景的识别率更为准确。

为便于更好的实施本申请实施例提供的语音信息的处理方法，本申请实施例还提供一种基于上述语音信息的处理方法的装置。其中名词的含义与上述语音信息的处理方法中相同，具体实现细节可以参考方法实施例中的说明。

本发明实施例提供一种语音信息的处理装置，包括：

在一种实施方式中，构建单元，可以包括：采集子单元和转化子单元，该采集子单元，用于通过预设采样率采集预设数量的语音信息；该转化子单元，用于将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。

在一种实施方式中，转化子单元，具体用于：将所述语音信息进行分帧处理，以得到第一分帧数据；对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图，根据所述语谱图构建预设场景模型。

在一种实施方式中，训练单元，具体用于：采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

在一种实施方式中，分析单元，具体用于：采集当前环境中的目标语音信息，并对所述目标语音信息进行分帧处理，以得到第二分帧数据；对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。

请参阅图4，图4为本申请实施例提供的语音信息的处理装置的模块示意图。具体而言，该语音信息的处理装置300，包括：构建单元31、训练单元32、分析单元33以及输入单元34。

构建单元31，用于构建预设场景模型，所述预设场景模型中包括预设数量的语谱图。

其中，构建单元31可以采集在特定场景下的预设数量的语音信息，并将预设数量的语音信息转化为相应的语谱图，该语谱图的横坐标为时间，纵坐标为频率，颜色的深度代表语音数据能量，该语谱图可以从多维度上表达出语音信息的特征，因此，可以通过该多个语谱图构建预设场景模型。

训练单元32，用于对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

其中，由于每一预设场景模型中包含有相应场景下的预设数量的语谱图，所以训练单元32可以利用机器学习的方法，对该场景下的预设数量的语谱图进行训练学习，生成可以识别该场景的场景识别模型。

在一实施方式中，训练单元32可以通过卷积神经网络对预设场景模型中的语谱图进行学习训练，生成可以自动识别出该对应场景的标识性特征的场景识别模型。

分析单元33，用于采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图。

其中，当电子设备处于通话状态时，分析单元33会自动通过麦克风采集当前环境中的目标语音信息，并将目标语音信息转化为相应的目标语谱图，该目标语谱图的横坐标为时间，纵坐标为频率，颜色的深度代表语音数据能量，需要注意的是，该目标语谱图的特征与预设场景模型中的语谱图的特征相同。

在一些实施方式中，该分析单元33，具体用于采集当前环境中的目标语音信息，对所述目标语音信息进行分帧处理，以得到第二分帧数据；对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。

输入单元34，用于将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。

其中，由于该目标语谱图的三维特征，即横坐标为时间，纵坐标为频率，灰度值代表能量值与预设场景模型中的语谱图的特征相同，所以输入单元34可以将该目标语谱图输入到场景识别模型中，该场景识别模型会对该目标语谱图中的特征进行逐一遍历，识别出该目标语谱图相应的目标预设场景模型，如地铁场景，并根据目标预设场景模型匹配适应该场景模型的相应的通话参数，以使得可以根据适应当前环境的通话参数进行通话，提升用户的通话效率。

在一些实施方式中，该输入单元34，具体用于将所述目标语谱图输入场景识别模型；通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型，并根据目标预设场景模型匹配相应的通话参数。

可一并参考图5，图5为本申请实施例提供的语音信息的处理装置的另一模块示意图，该语音信息的处理装置300还可以包括：

其中，该构建单元31可以包括采集子单元311以及转化子单元312。

进一步的，该采集子单元311，用于通过预设采样率采集预设数量的语音信息。该转化子单元312，用于将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。

在一些实施方式中，该转化子单元312具体用于将所述语音信息进行分帧处理，以得到第一分帧数据；对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图，根据所述语谱图构建预设场景模型。

本申请实施例还提供一种电子设备。请参阅图6，电子设备500包括处理器501以及存储器502。其中，处理器501与存储器502电性连接。

该处理器500是电子设备500的控制中心，利用各种接口和线路连接整个电子设备的各个部分，通过运行或加载存储在存储器502内的计算机程序，以及调用存储在存储器502内的数据，执行电子设备500的各种功能并处理数据，从而对电子设备500进行整体监控。

该存储器502可用于存储软件程序以及模块，处理器501通过运行存储在存储器502的计算机程序以及模块，从而执行各种功能应用以及数据处理。存储器502可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的计算机程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据电子设备的使用所创建的数据等。此外，存储器502可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。相应地，存储器502还可以包括存储器控制器，以提供处理器501对存储器502的访问。

在本申请实施例中，电子设备500中的处理器501会按照如下的步骤，将一个或一个以上的计算机程序的进程对应的指令加载到存储器502中，并由处理器501运行存储在存储器502中的计算机程序，从而实现各种功能，如下：

在某些实施方式中，在构建预设场景模型时，处理器501可以具体执行以下步骤：

通过预设采样率采集预设数量的语音信息；

将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。

在某些实施方式中，在将所述预设数量的语音信息转化为相应的语谱图时，处理器501可以具体执行以下步骤：

将所述语音信息进行分帧处理，以得到第一分帧数据；

对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图。

在某些实施方式中，在对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型时，处理器501可以具体执行以下步骤：

采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。

在某些实施方式中，在对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图时，处理器501可以具体执行以下步骤：

对所述目标语音信息进行分帧处理，以得到第二分帧数据；

对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。

在某些实施方式中，在将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型时，处理器501可以具体执行以下步骤：

将所述目标语谱图输入场景识别模型；

通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。

在某些实施方式中，在根据所述目标预设场景模型匹配相应的通话参数之后，处理器501还可以具体执行以下步骤：

生成相应的提示信息，以提示用户以匹配到的通话参数进行通话调节；

当接收到所述提示信息相应的确认指令时，根据匹配到通话参数进行通话调节。

请一并参阅图7，在某些实施方式中，电子设备500还可以包括：显示器503、射频电路504、音频电路505以及电源506。其中，其中，显示器503、射频电路504、音频电路505以及电源506分别与处理器501电性连接。

该显示器503可以用于显示由用户输入的信息或提供给用户的信息以及各种图形用户接口，这些图形用户接口可以由图形、文本、图标、视频和其任意组合来构成。显示器503可以包括显示面板，在某些实施方式中，可以采用液晶显示器(Liquid Crystal Display，LCD)、或者有机发光二极管(Organic Light-Emitting Diode，OLED)等形式来配置显示面板。

该射频电路504可以用于收发射频信号，以通过无线通信与网络设备或其他电子设备建立无线通讯，与网络设备或其他电子设备之间收发信号。

该音频电路505可以用于通过扬声器、传声器提供用户与电子设备之间的音频接口。

该电源506可以用于给电子设备500的各个部件供电。在一些实施例中，电源506可以通过电源管理系统与处理器501逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管图7中未示出，电子设备500还可以包括摄像头、蓝牙模块等，在此不再赘述。

本申请实施例还提供一种存储介质，该存储介质存储有计算机程序，当该计算机程序在计算机上运行时，使得该计算机执行上述任一实施例中的语音信息的处理方法，比如：构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。

在本申请实施例中，存储介质可以是磁碟、光盘、只读存储器(Read Only Memory，ROM，)、或者随机存取记忆体(Random Access Memory，RAM)等。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其他实施例的相关描述。

需要说明的是，对本申请实施例的语音信息的处理方法而言，本领域普通测试人员可以理解实现本申请实施例的语音信息的处理方法的全部或部分流程，是可以通过计算机程序来控制相关的硬件来完成，该计算机程序可存储于一计算机可读取存储介质中，如存储在电子设备的存储器中，并被该电子设备内的至少一个处理器执行，在执行过程中可包括如语音信息的处理方法的实施例的流程。其中，该的存储介质可为磁碟、光盘、只读存储器、随机存取记忆体等。

对本申请实施例的语音信息的处理装置而言，其各功能模块可以集成在一个处理芯片中，也可以是各个模块单独物理存在，也可以两个或两个以上模块集成在一个模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。该集成的模块如果以软件功能模块的形式实现并作为独立的产品销售或使用时，也可以存储在一个计算机可读取存储介质中，该存储介质譬如为只读存储器，磁盘或光盘等。

以上对本申请实施例所提供的一种语音信息的处理方法、装置、存储介质及电子设备进行了详细介绍，本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想；同时，对于本领域的技术人员，依据本申请的思想，在具体实施方式及应用范围上均会有改变之处，综上所述，本说明书内容不应理解为对本申请的限制。

Claims

一种语音信息的处理方法，其中，包括：

构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；

对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；

采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；

将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。
如权利要求1所述的语音信息的处理方法，其中，所述构建预设场景模型的步骤，包括：

通过预设采样率采集预设数量的语音信息；

将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。
如权利要求2所述的语音信息的处理方法，其中，所述将所述预设数量的语音信息转化为相应的语谱图的步骤，包括：

将所述语音信息进行分帧处理，以得到第一分帧数据；

对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图。
如权利要求1所述的语音信息的处理方法，其中，所述对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型的步骤，包括：

采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。
如权利要求1至4任一项所述的语音信息的处理方法，其中，所述对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图的步骤，包括：

对所述目标语音信息进行分帧处理，以得到第二分帧数据；

对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。
如权利要求5所述的语音信息的处理方法，其中，所述将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型的步骤，包括：

将所述目标语谱图输入场景识别模型；

通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。
如权利要求1所述的语音信息的处理方法，其中，所述根据所述目标预设场景模型匹配相应的通话参数的步骤之后，还包括：

生成相应的提示信息，以提示用户以匹配到的通话参数进行通话调节；

当接收到所述提示信息相应的确认指令时，根据匹配到通话参数进行通话调节。
一种语音信息的处理装置，其中，包括：

构建单元，用于构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；

训练单元，用于对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；

分析单元，用于采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；

输入单元，用于将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。
如权利要求8所述的语音信息的处理装置，其中，所述构建单元，包括：

采集子单元，用于通过预设采样率采集预设数量的语音信息；

转化子单元，用于将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。
如权利要求9所述的语音信息的处理装置，其中，所述转化子单元，具体用于：

将所述语音信息进行分帧处理，以得到第一分帧数据；

对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图，根据所述语谱图构建预设场景模型。
如权利要求8所述的语音信息的处理装置，其中，所述训练单元，具体用于：

采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。
如权利要求8至11任一项所述的语音信息的处理装置，其中，所述分析单元，具体用于：

采集当前环境中的目标语音信息，并对所述目标语音信息进行分帧处理，以得到第二分帧数据；

对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。
一种存储介质，其上存储有计算机程序，其中，当所述计算机程序在计算机上运行时，使得所述计算机执行如权利要求1所述的语音信息的处理方法。
一种电子设备，包括处理器和存储器，所述存储器有计算机程序，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

构建预设场景模型，所述预设场景模型中包括预设数量的语谱图；

对所述预设场景模型中的语谱图进行训练，以生成相应的场景识别模型；

采集当前环境中的目标语音信息，并对所述目标语音信息进行分析，以得到所述目标语音信息相应的目标语谱图；

将所述目标语谱图输入场景识别模型，以确定相应的目标预设场景模型，并根据所述目标预设场景模型匹配相应的通话参数。
如权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

通过预设采样率采集预设数量的语音信息；

将所述预设数量的语音信息转化为相应的语谱图，根据所述语谱图构建预设场景模型。
如权利要求15所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述语音信息进行分帧处理，以得到第一分帧数据；

对所述第一分帧数据进行傅里叶变换，生成语音信息相应的语谱图。
如权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

采用卷积神经网络对进行预设场景模型中的语谱图进行训练，以生成相应的场景识别模型。
如权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

对所述目标语音信息进行分帧处理，以得到第二分帧数据；

对所述第二分帧数据进行傅里叶变换，以得到所述目标语音信息相应的目标语谱图。
如权利要求18所述的电子设备，其中，所述处理器通过调用所述计算机程序，用于执行步骤：

将所述目标语谱图输入场景识别模型；

通过场景识别模型对所述目标语谱图进行特征遍历，以确定该目标语谱图相应的目标预设场景模型。
如权利要求14所述的电子设备，其中，所述处理器通过调用所述计算机程序，还用于执行步骤：

生成相应的提示信息，以提示用户以匹配到的通话参数进行通话调节；

当接收到所述提示信息相应的确认指令时，根据匹配到通话参数进行通话调节。