WO2023207566A1

WO2023207566A1 - 语音房质量评估方法及其装置、设备、介质、产品

Info

Publication number: WO2023207566A1
Application number: PCT/CN2023/087339
Authority: WO
Inventors: 李益永; 温偲; 陈建强; 陈德健; 项伟
Original assignee: 广州市百果园信息技术有限公司; 李益永
Priority date: 2022-04-28
Filing date: 2023-04-10
Publication date: 2023-11-02
Also published as: CN114841143A

Abstract

本申请涉及即时通信技术领域中一种语音房质量评估方法及其装置、设备、介质、产品，所述方法包括：获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；根据所述编码向量确定所述语音房的质量类别。

Description

语音房质量评估方法及其装置、设备、介质、产品

技术领域

本申请涉及即时通信技术领域，尤其涉及一种语音房质量评估方法及其装置、设备、介质、产品。

背景技术

网络交互场景中，直播平台的用户之间能以语音的形式进行即时通信，因此衍生出具有即时通话性质的直播房间，具体可以是专用的语音房，语音房中的用户可以实现话题讨论、才艺展示、信息分享、知识教育等应用目的，能够促进整体社会效益。

直播平台通常并发支持海量的语音房，不同的语音房由于其中的发言用户的发言内容千差万别，表现出的质量也各有不同。平台出于向平台用户推荐语音房的需要，可以借助语音房质量评价技术辅助筛选优质的语音房。

传统的语音房质量评价技术，或采用语音特征输入预设模型进行识别，或采用语音转文字后的信息进行识别，实践中此类技术的评价效果均不佳，主要在于无论是语音特征还是语音文本，其原始信息由于用户发言情况的复杂性而导致内容掺杂而散乱，例如用户发言停顿过多、语气词过多、漫谈内容杂散、噪声过多等等，均会导致影响语音房质量评价效果，导致所确定的优质语音房的准确率不高，进而影响推荐效果。

发明内容

本申请提供一种语音房质量评估方法及其相应的装置、语音房识别设备、计算机可读存储介质以及计算机程序产品。

根据本申请的一个方面，提供一种语音房质量评估方法，包括如下步骤：

获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；

构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；

根据所述编码向量确定所述语音房的质量类别。

根据本申请的另一方面，提供一种语音房质量评估装置，包括：

语音识别模块，配置为获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；

文本编码模块，配置为构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；

质量识别模块，配置为根据所述编码向量确定所述语音房的质量类别。

根据本申请的另一方面，提供一种语音房识别设备，包括中央处理器和存储器，所述中央处理器配置为调用运行存储于所述存储器中的计算机程序以执行本申请所述的语音房质量评估方法的步骤。

根据本申请的另一方面，提供一种计算机可读存储介质，其以计算机可读指令的形式存储有依据所述的语音房质量评估方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行该方法所包括的步骤。

根据本申请的另一方面，提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现本申请任意一种实施例中所述方法的步骤。

附图说明

图1为本申请所应用的语音房运行环境相对应的网络架构示意图；

图2为本申请的语音房质量评估方法的实施例的流程示意图；

图3为本申请实施例中根据语音流识别说话文本过程的流程示意图；

图4为本申请实施例中构造编码向量的过程的流程示意图；

图5为本申请实施例中根据说话文本的分词获得统计特征的过程的流程示意图；

图6为本申请实施例中对所述说话文本进行分词获得分词集的过程的流程示意图；

图7为本申请实施例中根据所述说话文本的有效名词集确定各个相应的统计特征的过程的流程示意图；

图8为本申请实施例中对有效名词集的冗余子集进行模糊匹配统计名词命中数量的过程的流程示意图；

图9为本申请实施例中用于根据编码向量确定其相映射的质量类别的神经网络分类模型的训练过程的流程示意图；

图10为本申请实施例中响应语音房推荐请求而推送语音房推荐列表的过程的流程示意图；

图11为本申请示例性的图形用户界面，用于展示语音房推荐列表；

图12为本申请的语音房质量评估装置的原理框图；

图13为本申请所采用的一种语音房识别设备的结构示意图。

具体实施方式

请参阅图1所示的网络架构，其可配置为部署实现本申请的各个实施例所获得的计算机程序产品以提供语音房服务，通过该服务，构造出线上运行的语音房，供语音房内的用户实施线上交互。需要指出的是，传统的网络直播中的直播间，其由于存在语音流，也可以视为本申请所述的语音房的一种具体形式。

图1所示的应用服务器81可用于支持所述的语音房的实现，而媒体服务器82可用于处理各个语音房的语音流的转发，其中的计算机83、移动电话84之类的终端设备，作为客户端，一般提供给语音房的用户使用，通过所述语音房服务相匹配的前端页面或者应用程序向相应的用户提供图形用户界面以便实现人机交互。

请参阅图2，根据本申请的一个方面提供的一种语音房质量评估方法，在其一个实施例中，包括如下步骤：

步骤S1100、获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；

步骤S1200、构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；及

步骤S1300、根据所述编码向量确定所述语音房的质量类别。

在步骤S1100中的示例性的应用场景中，直播平台的语音房服务并发运行海量的语音房，各个语音房所产生的语音数据以流媒体的格式上传至所述的媒体服务器，由媒体服务器将相应的语音流推送至相应语音房的各个接收用户的终端设备，从而实现对语音房即时通信的支持。由此，可以从媒体服务器中获取所述语音房相对应的语音流。

为了方便对所述语音流进行处理，预先设定一个单位时间段，例如20分钟或者30分钟均可，本领域技术人员可灵活设置适当时长，只要该单位时间段可获取适量的语音内容即可。每次对一个语音房的语音流进行处理时，可基于当前时刻回溯，以该单位时间段为回溯时长取相对应的语音流进行处理，也即可每隔所述单位时间段便处理该单位时间段生成的语音流。由此可实现阶段性识别语音房内持续产生的语音流。

继而，采用任意一种可行的语音识别技术对所述单位时间段相对应的语音流进行语音转文本识别，便可获得其相应的说话文本。所述说话文本一般会包含语音流中各个音源对象相对应的说话语句。

在步骤S1200中，为了实现对所述说话文本的综合质量的初步表示，可采用与所述单位时间段相对应的语音流的多个统计特征来构造出相应的编码向量。所述统计特征包括以所述语音流中音源对象数量表征的统计特征、以所述语音流中的发言总次数表征的统计特征，以所述说话文本中的有效名词表征的统计特征。

所述的音源对象的数量，是指语音房内在所述单位时间段内有效发言的用户的总量，可由语音房服务获取，例如可以通过监听所述单位时间段内每个用户实施发言行为提交相应音频数据予以确认并计数，又如，可采用任何可行的音源分离技术对所述语音流实施音源分离获得。诸如此类，本领域技术人员可根据此处揭示的原理灵活实施。可以理解，音源对象的数量越多，表明语音房的发言用户规模越大。

所述的发言总次数，是指语音房内在所述单位时间段内有效发言的总次数，同理，可由语音房服务获取，例如可以通过监听所述单位时间段内每次发言行为提交的相应音频数据予以确认并计数，又如，可采用任何可行的人声检测技术识别多个音源的人声片段获得。诸如此类，本领域技术人员可根据此处揭示的原理灵活实施。可以理解，发言总次数越多，表明语音房的交流越活跃。

所述说话文本中有效名词数量的统计特征，是指存在于所述说话文本中的与预先确认为有效的名词相匹配的名词的计数所获得的数据，可通过预先提供一个以人工标注的名词作为基础名词构成的基础名词表，将所述说话文本中的各个名词与所述基础名词表进行一种或多种方式的匹配而相应获得的一个或多个计数，作为相应的统计特征。可以理解，说话文本中的有效名词数量越多，表示其相应的信息价值越丰富。

由此可见，音源对象数量、发言总次数、说话文本中有效名词数量等方面的统计特征，以量化的形式实现对所述语音房的发言用户规模、发言活跃度以及发言所包含的信息价值的表征，将其构造为与所述说话文本相对应的编码向量，该编码向量便构成对所述说话文本的质量信息的初步表示。

本申请中，预先构造一个质量分类空间，在该质量分类空间中包含多个质量类别，类别数量可按需设定，例如表征“高、中、低”三类，或者表征“精彩、优质、普通、低俗”四类，诸如此类，可由本领域技术人员设定。在此基础上，可采用多种方式实现根据所述编码向量确定其相映射的质量类别。

一种方式中，可基于数学模型构造编码向量中各个统计特征到各个质量类别的数量映射关系，例如，对所述各个统计特征进行加权归一化，获得一个和值，将该和值与为各个质量类别预设的阈值区间相匹配，将阈值区间与该和值相匹配的质量类别确定为该编码向量相映射的质量类别，也即为所述单位时间段的语音流相对应的质量类别。不难看出，采用此种方式实现，计算简单，计算量少，有利于节省系统开销，提升响应速度。

另一方式中，可基于传统机器学习原理应用决策树算法，采用诸如ID3、CART、GBDT、XGB等任意优化算法建立数学模型根据编码向量进行求解，获得其相映射的质量类别，具体示例如下：

设X＝(x1,x2,…,x7)，x^ij为第i个语音房第j个20分钟的特征，y^ij为第i个房间第j个20分钟的的标签，y^ij＝2表示第i个房间第j个20分钟时属于高质量类别的语音房，y^ij＝1表示第i个房间第j个20分钟时属于普通质量类别的语音房，y^ij＝0表示第i个房间第j个20分钟时属于低质量类别的语音房。将X^ij随机排序得到训练集V＝(Z¹,Z²,…,Z^m)，其中，m为样本数量，Qⁱ为Zⁱ对应的标签。

至此可知，采用决策树算法建立的最优化数学模型如下：

此处，采用XGB算法进行求解，当然也可以其他已知算法实施，本领域技术人员可灵活选用。不难看出，由于编码向量中各个统计特征均基于数值生成，因而，采用此一方式求解语音房的质量类别将获得高效快速可解析的便利，有助于节约整体实现成本。

示例的ID3算法是一种决策树算法，ID3算法的核心原理是根据信息增益来选择进行划分的特征，然后递归地构建决策树。

示例的CART算法，其英文全称是Classification And Regression Trees，也就是分类与回归树，顾名思义，CART算法既可以用来分类，也可以用来回归。

示例的GBDT算法，其英文全称为Gradient Boosting Decision Tree，是一种基于决策树的集成算法。其中Gradient Boosting是集成方法boosting中的一种算法，通过梯度下降来对新的学习器进行迭代。

示例的XGB算法，也称XGBoost算法，其以CART为基分类器的集成学习方法之一，由于其出色的运算效率和预测准确率在数据建模比赛中得到应用。

再一方式中，可基于深度学习原理，以神经网络模型为基础模型，对所述编码向量提取深层语义信息，再借助分类器将其映射到质量分类空间中，根据质量分类空间内的各个质量类别获得的分类概率，取最大分类概率对应的质量类别为准，从而确定所述单位时间段的语音流相对应的质量类别。当然，所述神经网络模型应当由本领域技术人员采用足量训练样本预先训练至收敛状态。其中，所述的基础模型，可采用CNN(Convolutional Neural Network，卷积神经卷积网络)、RNN(Recurent Neural Network，循环神经网络)之类实现，所述分类器可采用Softmax()函数构建，本领域技术人员均可根据此处揭示的原理灵活选型。不难看出，采用此种方式，兼顾了各个统计特征之间的语义上的关联性，适用于提供大规模服务。

由以上各种求解编码向量相对应的质量类别的数学模型的丰富性可以看出，本申请构造编码向量所依据的信息均基于数值信息进行，为数学建模提供了有效数据，方便快速建模和促进模型收敛，可以节省解决问题的成本，而提升求解语音房质量类别的效率。

根据此处揭示的实施例可知，本申请根据语音房的单位时间段生成的语音流识别出说话文本，然后，将说话文本相对应音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征构造为编码向量，再利用编码向量的深层语义信息确定该段语音流相对应的质量类别，由于用于构造编码向量的数据是与所述说话文本相对应的各种统计特征，而不是依赖于原始音频特征或者原始说话文本，借助音源对象数量的、发言总次数两个统计特征可以表示语音房的活跃度，借助说话文本中名词的统计特征则可表示语音房的内容质量，由此构成的编码向量实现对的所述语音流的有效的初步表示，包含多模态信息，在此基础上根据其深层语义信息确定出的质量类别，更为准确可信，能够为平台推荐语音房提供科学可靠的基础数据。

请参阅图3，根据本申请变通的实施例中，所述步骤S1100、获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本，包括如下步骤：

步骤S1110、获取语音房即时生成的单位时间段的语音流；

步骤S1120、对所述语音流进行人声检测，确定其中不同音源对象的人声片段；及

步骤S1130、对所述人声片段进行语音识别，获得各个人声片段相对应的说话文本。

在步骤S1110中，可以对所述的语音房实时采集其即时生成的语音流，以单位时间段的对应长度为时间单位，对该单位时间段内的语音流启动实时分析，以便进一步提升判定语音房的质量类别的速度，更快速地反映语音房的实时质量信息。

在步骤S1120中，

采用VAD(Voice Activity Detection，语音活动检测)统计模型对所述语音流中的音频数据检测语音活动，从而去除其中的静音信息，将VAD阈值超过预设阈值的音频数据确定为人声片段，由此获得各次发言相对应的人声片段。由于语音房服务通常会预先对所述语音流进行音源分离，或者也可由本申请自行采用音源分离算法实现音源分离，因而，所述人声片段可以是按照不同音源对象确定的。

继而，针对每个人声片段，采用任意可行的基于自动语音识别技术(ASR，Automatic Speech Recognition)实现的语音识别模型例如Wenet模型对其进行语音识别，将其转换为说话文本，从而获得各个人声片段相对应的说话文本。

本实施例通过对语音房即时产生的语音流进行实时语音分析，可快速获取其相对应的说话文本，过滤语音流中大部分的无效信息，极大地降低环境噪声对语音房质量判定的影响，使语音房质量分类过程更为快速。

请参阅图4，根据本申请变通的实施例中，所述步骤S1200、构造所述说话文本的编码向量，包括如下步骤：

步骤S1210、获取所述单位时间段的语音流中的音源对象数量构成相应的统计特征；

步骤S1220、获取所述单位时间段的语音流中的发言总次数构成相应的统计特征；

步骤S1230、根据多个预设维度统计所述说话文本中的有效名词的数量构成相应的统计特征；及

步骤S1240、按预设顺序将所述各个统计特征构造为编码向量。

在步骤S1210中，所述的音源对象数量可以由语音房服务预先确定，对此可直接通过接口调用获取，或者通过对所述单位时间段的语音流采用任意可行的音源分离技术进行实时分析而确定，无论如何，单位时间段内所产生的语音流中，其发言用户的数量是确定的，因而对应的音源对象数量也是确定的，将其作为统计特征之一，可以表征语音房内发言用户的总体规模。

在步骤S1220中，

对于所述单位时间段的语音流中的发言总次数，一种方式中，当语音房服务负责存储语音房内各个用户的各次发言相对应的用户行为数据时，可以根据这些用户行为数据进行统计获得所述的发言总次数，而另一方式中，结合本申请前文的实施例中采用VAD进行人声片段检测的方式，可直接确定所述的人声片段的总数为所述的发言总次数，由此，便确定了单位时间段的语音流中的发言总次数，将其作为统计特征之一，可用于表征语音房在该单位时间段内的用户发言活跃程度。

在步骤S1230中，

可以设定任意多个维度，分别从不同方式或粒度考察所述说话文本中的有效名词的数量，将各个维度下的数量作为相应的统计特征，以便实现从不同方式或不同粒度表征所述说话文本中的信息价值。

例如，一种方式中，可以参考给定的基础名词表，其中的基础名词表预先收录人工标注的名词作为基础名词，然后分别根据不同的匹配方式为说话文本中的每个名词在所述基础名词表中查找出相匹配的基础名词，每当查找出相匹配的基础名词时，该匹配方式下的有效名词数量加计1个单位，其中，每种匹配方式对应一个维度，从而确定不同维度下相应的有效名词数量。

另一方式中，可以在所述基础名词表的基础上，对其中的基础名词进行更细粒度的标注，按照预设的分类标准，为每个基础名词对应设置一个预设分类，然后，统计所述说话文本中的名词命中各个预设分类的有效名词数量，作为相应细分粒度的统计特征。

所述的分类标准，示例而言，可以是按照名词的信息价值及其所服务的推荐目的而划分的，例如服务于商品推荐而制定的分类标准中，设定其相应的预设分类为“普通名词”、“关联名词”、“商品名词”，其中，普通名词可对应一般生活名词，例如“生活”、“诗”、“远方”等；关联名词可对应与用户购物需求相关的名词，例如“订金”、“信用卡”、“商场”等；商品名词可对应具体商品名称，例如“衬衣”、“手机”、“电脑”等。可见，基于不同的服务目的，可以制定相应的分类标准为基础名词表的基础名词设定相应的分类，从而为基础名词提供更细粒度的信息价值标注。

变通的方式中，可以按需灵活综合前两种方式，由本领域技术人员根据此处揭示的原理灵活选用即可。

不难理解，由于据以确定说话文本中的有效名词的基础名词表中，各个基础名词预先经过标注而被赋予信息价值，例如是基础名词表中基础名词被标注预设分类时，进一步结合了信息分类价值，由此而获得的各个维度下的统计特征，可以从不同信息价值角度实现对所述单位时间段内的语音流的信息价值的有效表征。

最后，获得多个所述的统计特征后，可按一定的预设顺序将各个统计特征构造为编码向量，所述的预设顺序可根据求解该编码向量相映射的质量类别的数学模型的入参而定，对此，不影响本申请的创造精神的体现，本领域技术人员可根据此处揭示的原理灵活确定。

本实施例示例性地揭示了编码向量的构造过程，据此可见，构造编码向量也是对语音房中单位时间段内的语音流的信息价值的初步表示的过程，通过以多个数值统计特征对所述语音流的信息价值进行有效表示，使所述编码向量具备进行求解其相对应的质量类别的技术基础，对于指导数学模型准确求解出语音房的质量类别提供了重要的基础信息。

请参阅图5，根据本申请变通的实施例中，所述步骤S1230、根据多个预设维度获取所述说话文本中的名词的数量构成相应的统计特征，包括如下步骤：

步骤S1231、提取所述说话文本中的名词，获得名词集；

步骤S1232、根据预设的停用词表过滤所述名词集以获得有效名词集；及

步骤S1233、根据预设的不同维度相应提供的匹配规则，确定每种匹配规则下有效名词集命中预设的基础名词表的名词命中数量，作为相应维度的统计特征。

在步骤S1231中，经语音识别并转换文字获得的所述单位时间段内的语音流相对应的全量说话文本中，可能存在一些信息价值较弱的表达，考虑到语言表达中名词所起作用较大的事实，针对此一情况，可通过对所述说话文本进行必要的自然语言处理，获得其中的名词，构造为一个名词集。

在步骤S1232中，为提取名词集中名词的有效性，可对所述名词集进行文本预处理，例如参考预设的停用词表，去除其中的“the”、“is”、“which”、“谁”、“啊”等等预设停用词实现净化，净化后即获得有效名词集。

参考前一实施例所揭示，在所述有效名词集的基础上，可根据不同的预设维度，确定其相对应的匹配规则，然后根据该匹配规则，将所述有效名词集中的各个名词与所述基础名词表中的基础名词进行匹配，对其中实现匹配的有效名词进行计数从而确定相应的名词命中数量，作为相应维度的统计特征。

本实施例中，通过提取所述说话文本中的名词构造名词集，然后进行停用词过滤，再根据过滤后的有效名词集构造编码向量所需的说话文本相对应的统计特征，提升了各个统计特征表示信息价值的精准度和有效性，使编码向量能更好地指导数学模型进行语音房质量类别判定。

请参阅图6，根据本申请变通的实施例中，所述步骤S1231、提取所述说话文本中的名词，包括如下步骤：

步骤S2311、对所述说话文本进行分词，获得分词集；

步骤S2312、将分词集中的分词编码为嵌入向量；

步骤S2313、对所述嵌入向量提取深层语义信息，根据深层语义信息进行词性识别，确定各个分词相对应的词性；及

步骤S2314、抽取其中词性为名词的分词构造为所述名词集。

在步骤S2311中，对所述说话文本进行分词，可采用各种基于统计的分词算法实现，示例而言，采用N-Gram算法，对所述说话文本进行二元或三元分词，便可获得相应的分词集。

在步骤S2312中，

为了方便对所述分词集进行语义提取以确定各个分词的词性，可采用诸如Word2Vec之类的任意可行的向量编码模型对所述分词集中的各个分词进行编码，将其转换为相应的嵌入向量。

在步骤S2313中，

继而，可在所述嵌入向量的基础上对所述分词集的各个分词进行词性识别，进行语义识别时，可采用任意可行的基于深度学习的神经网络模型实施，例如，采用LSTM+CRF、Bert+CRF等架构所实现的任意一种模型，由其中的LSTM或Bert基础模型对所述嵌入向量进行表示学习，获得其相应的深层语义信息，然后由CRF(条件随机场)对其进行词性识别，由此便可划分出各个分词相对应的词性，所述的词性按照语法词性设置即可，例如：名词、形容词、副词、代词等。

在步骤S2314中，为了构造所述的名词集，将所述分词集中，属于名词的分词抽取出来，构造为名词集即可。

根据本实施例可以看出，对于单位时间段的语音流相对应的说话文本，经过分词、编码、词性识别、关键词抽取等环节，最终所获得的名词集，具有更精准表示语音房的信息内容的价值的效果，在此基础上确定编码向量，对于指导数学模型对语音房的质量类别的求解而言，奠定了非常坚实的数据挖掘基础。

请参阅图7，根据本申请变通的实施例中，所述步骤S1233、根据预设的不同维度相应提供的匹配规则，确定每种匹配规则下有效名词集命中预设的基础名词表的名词命中数量，作为相应维度的统计特征，包括如下步骤：

步骤S2331、根据精准匹配规则，统计有效名词集中有效名词精准命中所述基础名词表中的基础名词相对应的名词命中数量，作为综合维度的统计特征；

步骤S2332、根据所述基础名词表中基础名词的预设分类，细分统计所述精准匹配规则下，精准命中各个预设分类相对应的名词命中数量，作为各个预设分类维度相对应的统计特征；及

步骤S2333、根据模糊匹配规则，统计有效名词集中有效名词未精准命中、而模糊命中所述基础名词表中的基础名词的名词命中数量，作为相似维度的统计特征。

在步骤S2331中，根据本申请的实施例获得的有效名词集，被作为构造各个预设维度下所述说话文本的基础数据，而不同的维度，可以适配不同的匹配规则。据此，本步骤先基于精准匹配规则，将有效名词集中的各个有效名词与所述基础名词表中的基础名词进行匹配，以便确定有多少个有效名词命中所述的基础名词表，将其作为精准匹配规则下的统计特征，表示从综合维度确定的统计特征。

应用所述的精准匹配规则时，将每个待匹配的有效名词与所述基础名词表中的各个基础名词进行全等匹配，当两者字符串相同时，确认为两者相匹配，相应的名词命中数量累计1个单位。由于如前所述，基础名词表经预先标注而具有相应的信息价值，因而，从综合维度上，与所述基础名词表实现匹配的有效名词越多，有效名词集的综合信息价值便越高。

在步骤S2332中，根据本申请的前文实施例所揭示，所述基础名词表中的各个基础名词，可按照一定的分类标准预设分类，从而为该基础名词提供更细粒度的分类信息价值，鉴此，同样基于所述的精准匹配规则，对有效名词集中命中所述基础名词表的有效名词，按照预设分类进行分类汇总，便可获得所述有效名词表中的有效名词命中所述各个预设分类的名词命中数量，可作为各个预设分类维度相对应的统计特征。

由于所述预设分类包含细分粒度的指示作用，因此，各个预设分类维度下确定的统计特征，便对各个预设分类的信息价值的丰富程度进行了有效表征。

在步骤S2333中，

继而，对于有效名词集中根据精准匹配规则未精准命中所述基础名词表的部分有效名词，可以进一步为其应用模糊匹配规则，再度与所述基础名词表中的基础名词进行匹配，以从所述基础名词表中匹配出该部分有效名词相对应的基础名词作为其同义词，然后统计这些同义词的总量，即基于相似维度确定的名词命中数量，作为相应的统计特征。

所述的模糊匹配规则，可以采用传统的模糊规则匹配算法进行通配，也可采用基于深度学习的神经网络模型进行语义匹配，可由本领域技术人员灵活设定。不难理解，未精准命中所述基础名词表的全量有效名词中，可能仅有一部分能与所述基础名词表实现模糊匹配，无论如何，最终确定的同义词数量，也即经模糊匹配确定的名词命中数量，能够从名词相近程度表征所述有效名词集中包含的部分有效名词的信息价值，从而以相应的统计特征的形式，实现对这部分信息价值的有效表征。

根据此处揭示的实施例，可以看出，在基于所述说话文本的有效名词集确定相应的统计特征时，不仅考虑了有效名词精准命中基础名词表的情况，也考虑有效名词模糊命中基础名词表的情况，不仅考虑了精准命中基础名词表的综合情况，也考虑了精准命中基础名词表中的各个预设分类的具体情况，实现从不同维度、不同侧面分别提取统计特征，该统计特征为所述说话文本中的有效名词相对应的统计特征，可以表示相应的信息价值，使后续所获得的编码向量能更精准地表示据以判定语音房的质量类别的有效信息。

请参阅图8，根据本申请变通的实施例中，所述步骤S2333、根据模糊匹配规则，统计有效名词集中有效名词未精准命中、而模糊命中所述基础名词表中的基础名词的名词命中数量，作为相似维度的统计特征，包括如下步骤：

步骤S3331、获取所述有效名词集中未精准命中所述基础名词表的有效名词构成冗余子集；

步骤S3332、计算所述冗余子集内每个有效名词的向量与所述基础名词表中的每个基础名词的向量两两之间的语义相似度；及

步骤S3333、对存在最高语义相似度超过预设阈值的有效名词进行计数，统计出模糊命中所述基础名词表的名词命中数量。

在步骤S3331中，参考前一实施例，当所述有效名词集被运用精准匹配规则与所述基础名词表进行匹配后，便可确定其中未与所述基础名词表实现精准匹配的部分有效名词，可将该部分有效名词另行构造为所述有效名词集的一个冗余子集，以方便后续运算。

在步骤S3332中，本实施例，采用一个经预训练至收敛状态的文本特征提取模型对所述冗余子集中的各个有效名词以及对所述基础名词表中的各个基础名词进行表示学习，其中表征其深层语义信息的向量。所述的文本特征提取模型，采用神经网络模型实现，例如采用Fasttext、AlBert等任意适于提取文本特征的基础网络模型均可。本领域技术人员也可按需接入分类器对其进行微调训练，从而使其习得精准表示所述有效名词、基础名词的深层语义信息相对应的向量即可。

在步骤S3333中，继而，基于所述冗余子集中每个有效名词的向量，计算该有效名词的向量与所述基础名词表中各个基础名词的向量之间的语义相似度，从而获得一个相似度矩阵，该矩阵中，每个元素所存储的数值，表示其所在的行相对应的有效名词与其所在的列相对应的基础名词之间的语义相似度，通过矩阵的形式表示所述的语义相似度，方便快速运算。

计算两两向量之间的语义相似度，可采用任意可行的数据距离算法来实现，包括但不限余弦相似度算法、欧氏距离算法、皮尔逊相关系数算法、杰卡德系数算法等等任意一种均可。经计算后，将相应的计算结果进行适当的归一化，使其表征数值越大则两个向量越相似，即可获得相应的语义相似度数值，存储于所述的相似度矩阵中。

在所述相似度矩阵中，对于每个有效名词而言，其对应到各个基础名词的语义相似度，可以用于判定该有效名词是否与其中的一个基础名词构成相匹配。具体的方式，可提供一个预设阈值，作为衡量相似度是否满足匹配门槛，然后，对于其中语义相似度数值最高的元素相对应的基础名词，将其相似度数值与该预设阈值进行比较，当前者超过后者时，则可确认两个向量构成匹配，也即该有效名词与该基础名词相匹配，为此，可将相似维度下的名词命中数量加计1个单位，而当前者未超过后者时，则可确认两个向量不构成匹配。对于每个有效名词是否与基础名词表实现模糊匹配均采用此一原理确定即可，最终遍历相似度矩阵的全量有效名词之后所获得的名词命中数量便是相似维度下的统计特征。

根据此处揭示的实施例可以理解，在确定所述说话文本在相似维度下的统计特征时，将未精准命中所述基础名词表的部分有效名词，再行基于语义相似性，与所述基础名词表中的基础名词进行模糊匹配，从而确定出相应的同义词的数量，即该相似维度下的名词命中数量，作为相应的统计特征，据此，借助语义相似性实现对所述有效名词集中的名词的信息的价值的更深度的数据挖掘，避免遗漏重要信息，使相应的统计特征更能科学充分地表示同义信息价值，从而可指导后续的语音房类别判定获得更准确的判定结果。

请参阅图9，根据本申请变通的实施例中，可采用基于深度学习的神经网络模型实现对所述编码向量确定其相应的质量类别，为此，所述步骤S1300、根据所述编码向量确定所述语音房的质量类别的步骤，采用预先训练至收敛状态的神经网络分类模型实现，该神经网络分类模型的训练过程，包括如下步骤：

步骤S4100、调用预设的数据集中的单个训练样本，所述训练样本包括单位时间段的语音流及为该语音流标注的质量类别；

步骤S4200、经卷积神经网络对所述训练样本的语音流相应的所述编码向量提取深层语义信息；

步骤S4300、经分类器对所述深层语义信息进行分类映射，获得预测的质量类别；

步骤S4400、根据标注的质量类别计算预测的质量类别的模型损失值；及

步骤S4500、判断所述模型损失值是否达到预设阈值，当该模型损失值未达到预设阈值时对模型实施梯度更新，调用下一训练样本继续实施迭代训练，否则判定模型收敛，终止训练。

在步骤S4100中，示例而言，所述神经网络分类模型可采用普通的卷积神经网络用于对所输入的编辑向量进行表示学习，并结合一个分类器用于将表示学习结果映射到预设的质量分类空间。据此，预备一个数据集，用于对该神经网络分类模型实施训练，以使其收敛。

所述的数据集，可由本领域技术人员根据本申请的各个实施例所揭示的方式，从直播平台的语音房所产生的语音流中采样，并经人工标注其相应的质量类别后，构成所述数据集中的训练样本。不难理解，采样时，可以采集同一语音房不同单位时间段产生的语音流以构成不同的训练样本，通常，同一语音房在不同单位时间段的语音流所表征的信息价值不同，因而，为其相应标注的质量类别也可不同，总之，所述训练样本中语音流相对应的作为神经网络分类模型的监督标签的质量类别，可以根据该语音流的实际信息价值，由人工标注确定。

当对所述神经网络分类模型实施一次训练时，可直接从所述数据集中采用任意一个训练样本，获得其中的语音流及为其标注的质量类别，前者用于构造所述分类模型的输入所需的编码向量，后者用于监督所述分类模型的输出。

对所述训练样本中的语音流构造其相应的编码向量的方式，按照本申请所揭示的任意一个实施例相应的方式对应实施即可，总之，只要所述神经网络分类模型在训练阶段及推理阶段保持编码向量构造的一致性，即可确定其正常使用。

在步骤S4200中，如前所述，神经网络分类模型中的卷积神经网络作为基础模型，负责对所述训练样本中的语音流相对应构造的所述编码向量进行表示学习，从而提取出其深层语义信息。

在步骤S4300中，继而，所述深层语义信息经全连接后进入分类器，被映射到根据质量分类空间中，从而，预测出所述深层语义信息映射到质量分类空间中的各个质量类别相对应的分类概率，取其中分类概率最大的质量类别作为模型预测出的对应所述编码向量的质量类别。所述的质量分类空间，如前所述，是为判定语音流的语音质量等级而预设的，可由本领域技术人员灵活设定，此处恕不赘述。

在步骤S4400中，所述训练样本中预先标注的质量类别被作为模型输出的监督标签，用于计算模型预测出的质量类别相对应的模型损失值，鉴于采用分类器的事实，可采用交叉熵损失函数计算所述的模型损失值。

在步骤S4500中，为了决策所述神经网络分类模型的迭代训练过程，为该分类模型的训练提供一个预设阈值，然后，将针对该训练样本所产生的所述模型损失值与该预设阈值进行比较，当该模型损失值达未达到该预设阈值时，便可根据所述模型损失值对所述分类模型的各个环节实施反向传播以修正其各个环节的权重，实现对分类模型的梯度更新。当该模型损失值达到所述预设阈值时，表明该分类模型已经被训练至收敛状态，从而可终止该分类模型的训练，将其投入实用即可。

根据此处的实施例可知，借助基于深度学习实现的神经网络分类模型，在其被训练至收敛状态后，将其用于根据所述的编码向量确定出其相映射的质量类别，由于该分类模型可以对所述编码向量中各个统计特征之间的语义关联信息进行深度理解，获得相应的深层语义信息进行分类映射，因而，具有对所述编码向量进行深度数据挖掘而获得有效信息价值的效果，据此可期望获得精准的质量类别判定效果。

请参阅图10，根据本申请变通的实施例中，所述步骤S1300、根据所述编码向量确定所述语音房的质量类别的步骤之后，包括如下步骤：

步骤S5100、响应终端设备提交的语音房推荐请求，根据预设推荐算法确定多个候选语音房及其相应的基础推荐评分；

步骤S5200、根据每个候选语音房相对应确定的所述质量类别的预设权重，调整相应的基础推荐评分而获得推荐展示评分；

步骤S5300、根据推荐展示评分对各个候选语音房进行倒排序，获得语音房推荐列表；及

步骤S5400、应答语音房推荐请求，将所述语音房推荐列表推送至所述终端设备显示。

在步骤S5100中的示例性的应用场景中，当直播平台的用户需要在其终端设备通过如图11所示的页面获得相应的语音房推荐列表时，可通过初次进入该页面或刷新该页面的方式而触发相应的语音房推荐请求，语音房服务接收到该请求后，可调用预设的推荐算法，为其确定多个候选语音房，并且根据该推荐算法确定各个候选语音房相对应的基础推荐评分。

所述的推荐算法，可由本领域技术人员根据预设的推荐业务逻辑按需灵活实施，例如，可根据所述的用户的历史行为数据中所访问的语音房的标签，对平台中海量的语音房进行标签匹配，而为该用户匹配出个性化的候选语音房，并且，根据所述标签的匹配程度量化出相应的基础推荐评分。

一种实施方式中，所述推荐算法可以采用双塔模型实现，其将用户历史行为数据中所访问的语音房的标签的向量作为一路输入，将平台中全量语音房的标签的向量作为另一路输入，分别进行表示学习后进行语义相似匹配，从而确定出相应的语义相似度，然后根据语义相似度进行优选出多个语音房作为所述的候选语音房即可，各个候选语音房相应的语义相似度，便可作为其相应的基础推荐评分。

在步骤S5200中，

每个所述的候选语音房，均可应用本申请前文的各个实施例任意之一确定判定其相应的质量类别，而为了体现所述质量类别的信息价值，可对应质量分类体系的各个质量类别分别预设用于调整所术推荐展示评分的权重，使得实际表征的信息质量越高，其权重越高，实际表征的信息质量越低，则其权重也越低。由此，实现对不同质量类别的量化评价。

对于每个候选语音房而言，采用其相应的质量类别的预设权重与其推荐展示评分进行相乘，所获得的乘积可作为其相应的推荐展示评分。由于所述权重已经按照不同质量类别进行量化，因此，所述推荐展示评分实质上是对所述推荐展示评分进行相应降权或提权的结果。

在步骤S5300中，

各个候选语音房均获得其相对应的推荐展示评分之后，便可根据该推荐展示评分对各个候选语音房进行倒排序，使质量更优的语音房排序靠前，根据倒排序结果，获得最终的语音房推荐列表。

在步骤S5400中，可将所述语音房推荐列表推送至提交所述语音房推荐请求的终端设备处，以完成对该请求的应答。其中，所述语音房推荐列表中，可封装相应的语音房的各项必要信息，包括但不限于相应的语音房的访问入口链接、语音房的简介等。所述终端设备获得所述的语音房推荐列表后，进行相应的解析，将其显示于图形用户界面中即可，如图11所示。

此处的实施例，示例性地展示了本申请所实现的质量类别识别能力服务于语音房推荐业务的过程，由此可见，在根据本申请精准及时确定语音房质量类别的情况下，平台在为其用户推荐相应的语音房时，能够按照语音房的信息价值择优推荐，从而可有效吸引用户驻存于平台中，也可为优质的语音房引流，优化了整个平台的语音房推荐逻辑，可期望获得良好的规模经济效用。

请参阅图12，根据本申请的一个方面提供的一种语音房质量评估装置，包括语音识别模块1100、文本编码模块1200，以及质量识别模块1300，其中：所述语音识别模块1100，配置为获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；所述文本编码模块1200，配置为构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；所述质量识别模块1300，配置为根据所述编码向量确定所述语音房的质量类别。

根据本申请变通的实施例中，所述语音识别模块1100，包括：分段处理子模块，配置为获取语音房即时生成的单位时间段的语音流；人声检测子模块，配置为对所述语音流进行人声检测，确定其中不同音源对象的人声片段；识别转换子模块，配置为对所述人声片段进行语音识别，获得各个人声片段相对应的说话文本。

根据本申请变通的实施例中，所述文本编码模块1200，包括：音源统计子模块，配置为获取所述单位时间段的语音流中的音源对象数量构成相应的统计特征；发言统计子模块，配置为获取所述单位时间段的语音流中的发言总次数构成相应的统计特征；名词统计子模块，配置为根据多个预设维度统计所述说话文本中的有效名词的数量构成相应的统计特征；编码构造子模块，配置为按预设顺序将所述各个统计特征构造为编码向量。

根据本申请变通的实施例中，所述名词统计子模块，包括：名词提取单元，配置为提取所述说话文本中的名词，获得名词集；名词过滤单元，配置为根据预设的停用词表过滤所述名词集以获得有效名词集；匹配统计单元，配置为根据预设的不同维度相应提供的匹配规则，确定每种匹配规则下有效名词集命中预设的基础名词表的名词命中数量，作为相应维度的统计特征。

根据本申请变通的实施例中，所述名词提取单元，包括：分词子单元，配置为对所述说话文本进行分词，获得分词集；向量化子单元，配置为将分词集中的分词编码为嵌入向量；词性识别子单元，配置为对所述嵌入向量提取深层语义信息，根据深层语义信息进行词性识别，确定各个分词相对应的词性；名词抽取子单元，配置为抽取其中词性为名词的分词构造为所述名词集。

根据本申请变通的实施例中，所述匹配统计单元包括：精准统计次级单元，配置为根据精准匹配规则，统计有效名词集中有效名词精准命中所述基础名词表中的基础名词相对应的名词命中数量，作为综合维度的统计特征；细分统计次级单元，配置为根据所述基础名词表中基础名词的预设分类，细分统计所述精准匹配规则下，精准命中各个预设分类相对应的名词命中数量，作为各个预设分类维度相对应的统计特征；模糊统计次级单元，配置为根据模糊匹配规则，统计有效名词集中有效名词未精准命中、而模糊命中所述基础名词表中的基础名词的名词命中数量，作为相似维度的统计特征。

根据本申请变通的实施例中，所述模糊统计次级单元，包括：冗余构造子单元，配置为获取所述有效名词集中未精准命中所述基础名词表的有效名词构成冗余子集；相似计算子单元，配置为计算所述冗余子集内每个有效名词的向量与所述基础名词表中的每个基础名词的向量两两之间的语义相似度；筛选计数子单元，配置为对存在最高语义相似度超过预设阈值的有效名词进行计数，统计出模糊命中所述基础名词表的名词命中数量。

根据本申请变通的实施例中，所述质量识别模块1300，采用预先训练至收敛状态的神经网络分类模型实现，该神经网络分类模型由预设的训练装置执行训练任务至收敛状态，所述训练装置包括：样本调用模块，配置为调用预设的数据集中的单个训练样本，所述训练样本包括单位时间段的语音流及为该语音流标注的质量类别；语义提取模块，配置为经卷积神经网络对所述训练样本的语音流相应的所述编码向量提取深层语义信息；分类映射模块，配置为经分类器对所述深层语义信息进行分类映射，获得预测的质量类别；损失计算模块，配置为根据标注的质量类别计算预测的质量类别的模型损失值；迭代决策模块，配置为判断所述模型损失值是否达到预设阈值，当该模型损失值未达到预设阈值时对模型实施梯度更新，调用下一训练样本继续实施迭代训练，否则判定模型收敛，终止训练。

根据本申请变通的实施例中，后于所述质量识别模块1300，包括：请求响应模块，配置为响应终端设备提交的语音房推荐请求，根据预设推荐算法确定多个候选语音房及其相应的基础推荐评分；评分调整模块，配置为根据每个候选语音房相对应确定的所述质量类别的预设权重，调整相应的基础推荐评分而获得推荐展示评分；排序处理模块，配置为根据推荐展示评分对各个候选语音房进行倒排序，获得语音房推荐列表；应答推送模块，配置为应答语音房推荐请求，将所述语音房推荐列表推送至所述终端设备显示。

本申请的另一实施例还提供一种语音房识别设备，该语音房识别设备可采用计算机设备实现。如图13所示，计算机设备的内部结构示意图。该计算机设备包括通过系统总线连接的处理器、计算机可读存储介质、存储器和网络接口。其中，该计算机设备的计算机可读存储介质存储有操作系统、数据库和计算机可读指令，数据库中可存储有控件信息序列，该计算机可读指令被处理器执行时，可使得处理器实现一种语音房质量评估方法。

本实施方式中处理器配置为执行图12中的各个模块的具体功能，存储器存储有执行上述模块或子模块所需的程序代码和各类数据。网络接口配置为向用户终端或服务器之间的数据传输。本实施方式中的存储器存储有本申请的语音房质量评估装置中执行所有模块所需的程序代码及数据，服务器能够调用服务器的程序代码及数据执行所有模块的功能。

本申请还提供一种存储有计算机可读指令的存储介质，计算机可读指令被一个或多个处理器执行时，使得一个或多个处理器执行本申请任一实施例的语音房质量评估方法的步骤。

本申请还提供一种计算机程序产品，包括计算机程序/指令，该计算机程序/指令被一个或多个处理器执行时实现本申请任一实施例所述方法的步骤。

综上所述，本申请能够准确判别语音房所产生的语音流的质量类别，能够提升为平台用户推荐语音房的准确度，有助于活跃平台用户流量，提升平台用户驻存率。

Claims

一种语音房质量评估方法，其中，包括如下步骤：

获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；

构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；

根据所述编码向量确定所述语音房的质量类别。
根据权利要求1所述的语音房质量评估方法，其中，所述构造所述说话文本的编码向量，包括如下步骤：

获取所述单位时间段的语音流中的音源对象数量构成相应的统计特征；

获取所述单位时间段的语音流中的发言总次数构成相应的统计特征；

根据多个预设维度统计所述说话文本中的有效名词的数量构成相应的统计特征；

按预设顺序将所述各个统计特征构造为编码向量。
根据权利要求2所述的语音房质量评估方法，其中，所述根据多个预设维度获取所述说话文本中的名词的数量构成相应的统计特征，包括如下步骤：

提取所述说话文本中的名词，获得名词集；

根据预设的停用词表过滤所述名词集以获得有效名词集；

根据预设的不同维度相应提供的匹配规则，确定每种匹配规则下有效名词集命中预设的基础名词表的名词命中数量，作为相应维度的统计特征。
根据权利要求3所述的语音房质量评估方法，其中，所述提取所述说话文本中的名词，包括如下步骤：

对所述说话文本进行分词，获得分词集；

将分词集中的分词编码为嵌入向量；

对所述嵌入向量提取深层语义信息，根据深层语义信息进行词性识别，确定各个分词相对应的词性；

抽取其中词性为名词的分词构造为所述名词集。
根据权利要求3所述的语音房质量评估方法，其中，所述根据预设的不同维度相应提供的匹配规则，确定每种匹配规则下有效名词集命中预设的基础名词表的名词命中数量，作为相应维度的统计特征，包括如下步骤：

根据精准匹配规则，统计有效名词集中有效名词精准命中所述基础名词表中的基础名词相对应的名词命中数量，作为综合维度的统计特征；

根据所述基础名词表中基础名词的预设分类，细分统计所述精准匹配规则下，精准命中各个预设分类相对应的名词命中数量，作为各个预设分类维度相对应的统计特征；

根据模糊匹配规则，统计有效名词集中有效名词未精准命中、而模糊命中所述基础名词表中的基础名词的名词命中数量，作为相似维度的统计特征。
根据权利要求5所述的语音房质量评估方法，其中，所述根据模糊匹配规则，统计有效名词集中有效名词未精准命中、而模糊命中所述基础名词表中的基础名词的名词命中数量，作为相似维度的统计特征，包括如下步骤：

获取所述有效名词集中未精准命中所述基础名词表的有效名词构成冗余子集；

计算所述冗余子集内每个有效名词的向量与所述基础名词表中的每个基础名词的向量两两之间的语义相似度；

对存在最高语义相似度超过预设阈值的有效名词进行计数，统计出模糊命中所述基础名词表的名词命中数量。
根据权利要求1至6中任意一项所述的语音房质量评估方法，其中，所述根据所述编码向量确定所述语音房的质量类别的步骤之后，包括如下步骤：

响应终端设备提交的语音房推荐请求，根据预设推荐算法确定多个候选语音房及其相应的基础推荐评分；

根据每个候选语音房相对应确定的所述质量类别的预设权重，调整相应的基础推荐评分而获得推荐展示评分；

根据推荐展示评分对各个候选语音房进行倒排序，获得语音房推荐列表；

应答语音房推荐请求，将所述语音房推荐列表推送至所述终端设备显示。
一种语音房质量评估装置，其中，包括：

语音识别模块，配置为获取单位时间段内语音房中的语音流，从所述语音流中识别出说话文本；

文本编码模块，配置为构造所述说话文本的编码向量，该编码向量包含所述语音流的音源对象数量统计特征、发言总次数统计特征、所述说话文本中有效名词数量的统计特征；

质量识别模块，配置为根据所述编码向量确定所述语音房的质量类别。
一种语音房识别设备，包括中央处理器和存储器，其中，所述中央处理器配置为调用运行存储于所述存储器中的计算机程序以执行如权利要求1至 7中任意一项所述的方法的步骤。
一种计算机可读存储介质，其中，其以计算机可读指令的形式存储有依据权利要求1至7中任意一项所述的方法所实现的计算机程序，该计算机程序被计算机调用运行时，执行相应的方法所包括的步骤。
一种计算机程序产品，其中，包括计算机程序/指令，该计算机程序/指令被处理器执行时实现权利要求1至7中任意一项所述方法的步骤。