WO2022205964A1

WO2022205964A1 - 确定视频会议质量的方法、相关装置和系统

Info

Publication number: WO2022205964A1
Application number: PCT/CN2021/133105
Authority: WO
Inventors: 史浩; 徐金春
Original assignee: 华为技术有限公司
Priority date: 2021-04-01
Filing date: 2021-11-25
Publication date: 2022-10-06

Abstract

本申请提供一种确定视频会议质量的方法和相关装置，该方法包括将在N个采样时段获取到的N组流量特征数据输入质量判断模型，得到目标时段的视频会议质量判断结果。上述技术方案可以根据网络中的流量特征数据判断视频会议的质量。这样，即使没有会议画面，也可以确定视频会议过程中的视频会议画面质量，从而方便视频会议提供商对视频会议服务进行优化。

Description

确定视频会议质量的方法、相关装置和系统

本申请要求于2021年6月11日提交中国专利局、申请号为202110654936.6、申请名称为“确定视频会议质量的方法、相关装置和系统”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

本申请要求于2021年4月01日提交中国专利局、申请号为202110355932.8、申请名称为“预测视频会议卡顿的方法、设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及视频会议技术领域，进一步涉及人工智能(Artificial Intelligence，AI)技术在视频会议领域中的应用，尤其涉及确定视频会议质量的方法、相关装置和系统。

背景技术

视频会议是当前互联网上最炙手可热的应用之一。但是视频会议经常会出现以卡顿为代表的视频会议质量降低的现象。这些现象会带来较差的用户体验。

以卡顿为例，通常是视频会议画面已经发生卡顿后，视频会议用户才会手动排查自身所在网络的连接状况。这一现状给视频会议用户造成了负担，降低了用户体验。

除此之外，视频会议用户通常不会记录发生卡顿的具体时间。因此，即使视频会议用户向视频会议服务提供商投诉视频会议发生卡顿现象，视频会议服务提供商业也无法确定发生卡顿的具体时间，这对确定发生卡顿的原因造成了困难。

发明内容

本申请提供一种确定视频会议质量的方法、相关装置和系统，可以根据网络中的流量数据确定视频会议的质量。

第一方面，本申请实施例提供一种确定视频会议质量的方法，包括：在N个采样时段对第一视频会议的流量进行数据采集，得到N组流量特征数据，该N组流量特征数据中的第n组流量特征数据是在该N个采样时段中的第n个采样时段采集的，N为大于或等于1的正整数，n为大于或等于1且小于或等于N的正整数；将该N组流量特征数据输入质量判断模型，得到该第一视频会议在目标时段的质量判断结果，该质量判断结果指示该目标时段的视频会议质量的优劣，其中该质量判断模型是根据视频会议训练数据训练得到的，其中该目标时段不早于该N个采样时段。

上述技术方案使得计算机设备能够根据网络中的流量特征数据判断视频会议的质量。这样，即使没有会议画面，也可以确定视频会议过程中的质量，从而便于视频会议提供商根据视频会议质量优化视频会议应用或者用于提供视频会议服务的网络设备(例如服务器)等。

结合第一方面，在第一方面的一种可能的实现方式中，该第n组流量特征数据包括上行流量的特征数据，和/或，下行流量的特征数据。

结合第一方面，在第一方面的一种可能的实现方式中，该第n组流量特征数据包括的上行流量的特征数据包括以下数据中的任一个或多个：该第n个采样时段的上行数据包个数；该第n个采样时段上行上传总字节数；该第n个采样时段上行包大小的最大值；该第n个采样时段上行包大小的平均值；该第n个采样时段上行包大小的方差；该第n个采样时段上行包间隔的最大值；该第n个采样时段上行包间隔的平均值；该第n个采样时段上行包间隔的方差；该第n个采样时段上行丢包率；该第n个采样时段上行最大连续丢包数；该第n个采样时段上行的字节指标。

结合第一方面，在第一方面的一种可能的实现方式中，该第n组流量特征数据包括的下行流量的特征数据包括一下数据中的任一个或多个：该第n个采样时段的下行数据包个数；该第n个采样时段下行下载总字节数；该第n个采样时段下行包大小的最大值；该第n个采样时段下行包大小的平均值；该第n个采样时段下行包大小的方差；该第n个采样时段下行包间隔的最大值；该第n个采样时段下行包间隔的平均值；该第n个采样时段下行包间隔的方差；该第n个采样时段下行丢包率；该第n个采样时段下行最大连续丢包数；该第n个采样时段下行的字节指标。

结合第一方面，在第一方面的一种可能的实现方式中，该N个采样时段在时间上是连续的。

结合第一方面，在第一方面的一种可能的实现方式中，该N个采样时段的时间长度之和与该目标时段的时间长度相同。

结合第一方面，在第一方面的一种可能的实现方式中，该N个采样时段中的第N个采样时段在该目标时段之前且与该目标时段在时间上是连续的，或者，该N个采样时段中第一个采样时段的起始时刻为该目标时段的起始时刻，该N个采样时段中的第N个采样时段的结束适合为该目标时段的结束时刻。

如果N个采样时段中的第N个采样时段是在目标时段之前，那么计算机设备就可以提前预测未来的视频会议质量。如果未来视频会议画面出现问题(例如卡顿、分辨率变低等情况)，那么计算机设备可以提前通知用户。用户可以预先知道即将到来的视频会议画面质量下降，以便于根据需要选择应对方案，例如关掉其他占用带宽的应用、切换接入网络的方式等。

结合第一方面，在第一方面的一种可能的实现方式中，该视频会议训练数据包括多个训练数据集和多个标签信息，其中该多个训练数据集中的第一训练数据集包括M组流量特征数据，该M组流量特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，该多个标签信息中的第一标签信息用于指示该第一训练数据集对应的视频会议画面是否发生卡顿，该第一训练数据集为该多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数；该质量判断模型是根据该多个训练数据集和该多个标签信息训练得到的。

结合第一方面，在第一方面的一种可能的实现方式中，若该M个采样时段中的任一个采样时段的该第二视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则该第一标签信息用于指示该第一训练数据集对应的视频会议画面发生卡顿；若该M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于该预设数量阈值，则该第一标签信息用于指示该第一训练数据集对应视频会议画面没有发生卡顿。

结合第一方面，在第一方面的一种可能的实现方式中，该预设数量阈值是根据以下公式确定的：

其中，Th表示该预设数量阈值，Std表示预定义的视频卡顿标准，t表示单帧图像的持续时间。

结合第一方面，在第一方面的一种可能的实现方式中，两帧图像的图像信息相同包括该两帧图像部分或全部画面的质量参数值相同，该质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。

结合第一方面，在第一方面的一种可能的实现方式中，该多个采样时段中的每个采样时段的视频会议画面包括随时间变化的元素。

随时间变化的元素可以包括摄像头采集到的画面，随时间变化的元素还可以包括滚动时间轴、计时器或者GIF图。这样，如果用户没有启用摄像头，且视频会议画面停留在某一个固定的画面(例如在文档中的某一页停留较长时间)，那么可以根据滚动时间轴、计时器或者GIF图等随时间变化的元素确定视频会议画面是否发生卡顿或者质量下降等情况。

第二方面，本申请实施例提供一种训练模型的方法，该方法包括：获取多个训练数据集和多个标签信息，其中该多个训练数据集中的第一训练数据集包括M组特征数据，该M组特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，该M组特征数据中的第m组特征数据包括该第二视频会议的流量在该M个采样时段中的第m个采样时段的特征数据，该多个标签信息中的第一标签信息用于指示该第一训练数据集对应的视频会议画面的质量，该第一训练数据集为该多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数，m为大于或等于1且小于或等于M的正整数；根据该多个训练数据集和该多个标签信息训练得到质量判断模型。

上述技术方案提供了一种确定质量判断模型的方法，利用上述方法确定的质量判断模型，有助于确定目标时段的视频会议质量的优劣。

结合第二方面，在第二方面的一种可能的实现方式中，若该M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则该第一标签信息用于指示该第一训练数据集对应的视频会议画面发生卡顿；若该M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于该预设数量阈值，则该第一标签信息用于指示该第一训练数据集对应的视频会议画面没有发生卡顿。

结合第二方面，在第二方面的一种可能的实现方式中，该预设数量阈值是根据以下公式确定的：

结合第二方面，在第二方面的一种可能的实现方式中，两帧图像的图像信息相同包括该两帧图像部分或全部画面的质量参数值相同，该质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。

结合第二方面，在第二方面的一种可能的实现方式中，该多个采样时段中的每个采样时段的视频会议画面包括随时间变化的视觉视觉元素。

随时间变化的视觉元素可以包括摄像头采集到的画面，随时间变化的元素还可以包括滚动时间轴、计时器或者GIF图。这样，如果用户没有启用摄像头，且视频会议画面停留在某一个固定的画面(例如在文档中的某一页停留较长时间)，那么可以根据滚动时间轴、计时器或者GIF图等随时间变化的元素确定视频会议画面是否发生卡顿或者质量下降等情况。

第三方面，本申请实施例提供一种计算机设备，该计算机设备包括用于实现第一方面或第一方面的任一种可能的实现方式的单元。

第四方面，本申请实施例提供一种计算机设备，该计算机设备包括用于实现第二方面或第二方面的任一种可能的实现方式的单元。

第五方面，本申请实施例提供一种计算机设备，该计算机设备包括处理器，该处理器用于与存储器耦合，读取并执行该存储器中的指令和/或程序代码，以执行第一方面或第一方面的任一种可能的实现方式。

第六方面，本申请实施例提供一种计算机设备，该计算机设备包括处理器，该处理器用于与存储器耦合，读取并执行该存储器中的指令和/或程序代码，以执行第二方面或第二方面的任一种可能的实现方式。

第七方面，本申请实施例提供一种芯片系统，该芯片系统包括逻辑电路，该逻辑电路用于与输入/输出接口耦合，通过该输入/输出接口传输数据，以执行第一方面或第一方面任一种可能的实现方式。

第八方面，本申请实施例提供一种芯片系统，该芯片系统包括逻辑电路，该逻辑电路用于与输入/输出接口耦合，通过该输入/输出接口传输数据，以执行第二方面或第二方面任一种可能的实现方式。

第九方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，当该计算机存储介质在计算机上运行时，使得计算机执行如第一方面或第一方面的任一种可能的实现方式。

第十方面，本申请实施例提供一种计算机可读存储介质，该计算机可读存储介质存储有程序代码，当该计算机存储介质在计算机上运行时，使得计算机执行如第二方面或第二方面的任一种可能的实现方式。

第十一方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行如第一方面或第一方面的任一种可能的实现方式。

第十二方面，本申请实施例提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行如第二方面或第二方面的任一种可能的实现方式。

附图说明

图1是本申请实施例的应用场景示意图。

图2是根据本申请实施例提供的一种确定视频会议质量的方法。

图3是根据本申请实施例提供的一种计算机设备的示意性结构框图。

图4是一个采样时段的示意图。

图5示出了另一个采样时段的示意图。

图6是时间窗口的示意图。

图7是一个视频会议画面的示意图。

图8是根据本申请实施例提供的一种训练模型的方法。

图9是一个卷积神经网络的示意图。

图10是一个循环神经网络的示意图。

图11是本发明实施例提供的一种芯片硬件结构图。

图12是根据本申请实施例提供的一种计算机设备的示意性结构框图。

图13是根据本申请实施例提供的另一种计算机设备的示意性结构框图。

图14是本申请实施例提供的一种系统架构的示意图。

具体实施方式

下面将结合附图，对本申请中的技术方案进行描述。

本申请将围绕可包括多个设备、组件、模块等的系统来呈现各个方面、实施例或特征。应当理解和明白的是，各个系统可以包括另外的设备、组件、模块等，并且/或者可以并不包括结合附图讨论的所有设备、组件、模块等。此外，还可以使用这些方案的组合。

另外，在本申请实施例中，“示例的”、“例如”等词用于表示作例子、例证或说明。本申请中被描述为“示例”的任何实施例或设计方案不应被解释为比其它实施例或设计方案更优选或更具优势。确切而言，使用示例的一词旨在以具体方式呈现概念。

本申请实施例中，“相应的(corresponding，relevant)”和“对应的(corresponding)”有时可以混用，应当指出的是，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例中，有时候下标如W1可能会笔误为非下标的形式如W1，在不强调其区别时，其所要表达的含义是一致的。

本申请实施例描述的网络架构以及业务场景是为了更加清楚的说明本申请实施例的技术方案，并不构成对于本申请实施例提供的技术方案的限定，本领域普通技术人员可知，随着网络架构的演变和新业务场景的出现，本申请实施例提供的技术方案对于类似的技术问题，同样适用。

本申请中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示：单独存在A，同时存在A和B，单独存在B的情况，其中A,B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项(个)”或其类似表达，是指的这些项中的任意组合，包括单项(个)或复数项(个)的任意组合。例如，a,b,或c中的至少一项(个)，可以表示：a,b,c,a-b,a-c,b-c,或a-b-c，其中a,b,c可以是单个，也可以是多个。

图1是本申请实施例的应用场景示意图。如图1所示，终端设备1、终端设备2和终端设备3安装有视频会议应用客户端。用户1通过终端设备1与用户2和用户3进行视频会议。计算机设备获取视频会议流量的流量特征数据，其中流量特征数据是在采样时段对终端设备之间进行的一个视频会议产生的流量进行采样得到的，并通过对流量特征数据进行分析得到目标时段上述视频会议的质量判断结果。

图2是根据本申请实施例提供的一种确定视频会议质量的方法的示意性流程图。可选地，图2所示的方法由计算机设备执行，或者由计算机设备中的部件(例如芯片)实行。

201，在N个采样时段对第一视频会议的流量进行数据采集，得到N组流量特征数据，该N组流量特征数据中的第n组流量特征数据是在该N个采样时段中的第n个采样时段采集的，N为大于或等于1的正整数，n为大于或等于1且小于或等于N的正整数。

202，将该N组流量特征数据输入质量判断模型，得到该第一视频会议在目标时段的质量判断结果，该质量判断结果指示目标时段的视频会议质量的优劣，其中该质量判断模型是根据视频会议训练数据训练得到的，其中该目标时段不早于该N个采样时段。

如图2所示的技术方案能够根据网络中的流量特征数据判断视频会议的质量。这样，即使没有会议画面，也可以确定视频会议过程中的质量，从而便于视频会议提供商根据视频会议质量优化视频会议应用或者用于提供视频会议服务的网络设备(例如服务器)等。

图3是根据本申请实施例提供的计算机设备的示意性结构框图。图3所示的计算机设备包括处理器310、存储器350、通信接口360。可选地，如图3所示的计算机设备300还包括摄像头320、显示屏330、音频模块340

可以理解的是，本申请实施例示意的结构并不构成对计算机设备300的具体限定。可选地，在本申请另一些实施例中，计算机设备300包括比图示更多或更少的部件，或者组合某些部件，或者拆分某些部件，或者不同的部件布置。图示的部件可以以硬件，软件或软件和硬件的组合实现。

处理器310可以包括一个或多个处理单元，例如：处理器310可以包括应用处理器(application processor，AP)，调制解调处理器，图形处理器(graphics processing unit，GPU)，图像信号处理器(image signal processor，ISP)，控制器，视频编解码器，数字信号处理器(digital signal processor，DSP)，基带处理器，和/或神经网络处理器(neural-network processing unit，NPU)等。其中，不同的处理单元可以是独立的部件，也可以集成在一个或多个处理器中。在一些实施例中，计算机设备300也可以包括一个或多个处理器310。其中，控制器可以根据指令操作码和时序信号，产生操作控制信号，完成取指令和执行指令的控制。在其他一些实施例中，处理器310中还可以设置存储器，用于存储指令和数据。示例性地，处理器310中的存储器可以为高速缓冲存储器。该存储器可以保存处理器310刚用过或循环使用的指令或数据。如果处理器310需要再次使用该指令或数据，可从所述存储器中直接调用。这样就避免了重复存取，减少了处理器310的等待时间，因而提高了计算机设备301处理数据或执行指令的效率。

在一些实施例中，处理器310可以包括一个或多个接口。接口可以包括集成电路间(inter-integrated circuit，I2C)接口、集成电路间音频(inter-integrated circuit sound，I2S)接口、脉冲编码调制(pulse code modulation，PCM)接口、通用异步收发传输器(universal asynchronous receiver/transmitter，UART)接口、移动产业处理器接口(mobile industry processor interface，MIPI)、用输入输出(general-purpose input/output，GPIO)接口等。

可以理解的是，本申请实施例示意的各模块间的接口连接关系，只是示意性说明，并不构成对计算机设备300的结构限定。在本申请另一些实施例中，计算机设备300也可以采用上述实施例中不同的接口连接方式，或多种接口连接方式的组合。

计算机设备300的通信功能通过通信接口360实现。通信接口360可以提供应用在计算机设备300上的无线通信，和/或，有线通信的解决方案。可选地，通信接口360是有线接口，例如光纤分布式数据接口(Fiber Distributed Data Interface，FDDI)、千兆以太网(Gigabit Ethernet，GE)接口。可替换地，网络接口360也可以是提供2G/3G/4G/5G/无线局域网(wireless local area networks，WLAN)等无线通信功能的无线接口。

计算机设备300通过GPU，显示屏330，以及应用处理器等实现显示功能。GPU为图像处理的微处理器，连接显示屏330和应用处理器。GPU用于执行数学和几何计算，用于图形渲染。处理器310可包括一个或多个GPU，其执行程序指令以生成或改变显示信息。

显示屏330用于显示图像、视频等。显示屏330包括显示面板。显示面板可以采用液晶显示屏(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)、有源矩阵有机发光二极体或主动矩阵有机发光二极体(active-matrix organic light emitting diode的，AMOLED)、柔性发光二极管(flex light-emitting diode，FLED)、Miniled、MicroLed、Micro-oLed、量子点发光二极管(quantum dot light emitting diodes，QLED)等。在一些实施例中，计算机设备300可以包括1个或多个显示屏330。

计算机设备300可以通过ISP、摄像头320、视频编解码器、GPU、显示屏330以及应用处理器等实现拍摄功能。

ISP用于处理摄像头320反馈的数据。例如，拍照时，打开快门，光线通过镜头被传递到摄像头感光元件上，光信号转换为电信号，摄像头感光元件将所述电信号传递给ISP处理，转化为肉眼可见的图像。ISP还可以对图像的噪点、亮度、肤色进行算法优化。ISP还可以对拍摄场景的曝光、色温等参数优化。在一些实施例中，ISP可以设置在摄像头320中。

摄像头320用于捕获静态图像或视频。物体通过镜头生成光学图像投射到感光元件。感光元件可以是电荷耦合器件(charge coupled device，CCD)或互补金属氧化物半导体(complementary metal-oxide-semiconductor，CMOS)光电晶体管。感光元件把光信号转换成电信号，之后将电信号传递给ISP转换成数字图像信号。ISP将数字图像信号输出到DSP加工处理。DSP将数字图像信号转换成标准的RGB，YUV等格式的图像信号。在一些实施例中，计算机设备300可以包括1个或多个摄像头320。

数字信号处理器用于处理数字信号，除了可以处理数字图像信号，还可以处理其他数字信号。例如，当计算机设备300在频点选择时，数字信号处理器用于对频点能量进行傅里叶变换等。

视频编解码器用于对数字视频压缩或解压缩。计算机设备300可以支持一种或多种视频编解码器。这样，计算机设备300可以播放或录制多种编码格式的视频，例如：动态图像专家组(moving picture experts group，MPEG)1、MPEG2、MPEG3、MPEG4等。

NPU为神经网络(neural-network，NN)计算处理器，通过借鉴生物神经网络结构，例如借鉴人脑神经元之间传递模式，对输入信息快速处理，还可以不断的自学习。通过NPU可以实现计算机设备300的智能认知等应用。

存储器350可以用于存储一个或多个计算机程序，该一个或多个计算机程序包括指令。存储器350还可以用于存储训练好的质量判断模型。处理器310可以通过运行存储在存储器350的上述指令，从而使得计算机设备300执行本申请一些实施例中所提供的确定视频会议质量的方法，以及各种应用以及数据处理等。存储器350可以包括存储程序区和存储数据区。其中，存储程序区可存储操作系统；该存储程序区还可以存储一个或多个应用等。存储数据区可存储计算机设备300使用过程中所创建的数据(比如会议视频等)等。此外，存储器350可以包括高速随机存取存储器，还可以包括非易失性存储器，例如一个或多个磁盘存储部件，闪存部件，通用闪存存储器(universal flash storage，UFS)等。在一些实施例中，处理器310可以通过运行存储在存储器350的指令，和/或存储在设置于处理器310中的存储器的指令，来使得计算机设备300执行本申请实施例中所提供的确定视频会议质量的方法，以及其他应用及数据处理。计算机设备300可以通过音频模块340以及应用处理器等实现音频功能。例如视频会议的声音播放、视频会议的收音等。

如图3所示，处理器310读取存储器中存储的指令后生成处理单元311和数据采集单元312。数据采集单元312对其他外部设备提供的视频会议的流量进行数据采样，从而得到附图2步骤201中的N组流量特征数据。

可替换地，附图3中的数据采集单元312也可以由一个独立于处理器310的专用芯片实现。

此外，外部设备识别出视频会议的流量后将视频会议的流量提供给附图3所示的计算机设备300，或者外部设备将混杂各种业务报文的流量提供给附图3所示的计算机设备300，由计算机设备300从混杂流量中识别出视频会议的流量。

可选地，外部设备或者计算机设备300根据五元组确定终端设备之间进行视频会议业务时产生的流量。可选地，外部设备是部署于视频会议流量转发路径上的独立的硬件设备，也可以是安装于视频会议应用客户端所在的终端设备上的代理插件。独立硬件设备包括但不限于路由器、网关等流量转发设备。一般情况下，外部设备根据五元组信息中的源互联网协议(internet protocol，IP)地址、目的端口号和传输层协议从多个并发的流量中捕获视频会议的流量。可选的，该N个采样时段在时间上是连续的。

数据采集单元312对外部设备捕获的会议视频的流量进行数据采集，得到N组流量特征数据。处理单元311将该N组流量特征数据输入质量判断模型，得到该第一视频会议在目标时段的质量判断结果。

下面将结合图4、图5对上述图2中提及的采样时段进行举例说明。图4是采样时段的一个示意图。图4示出了9个采样时段，分别为采样时段1至采样时段9，其中采样时段1的起始时刻为0s，结束时刻为1s；采样时段2的起始时刻为1s，结束时刻为2s。换句话说，在图4所示的实例中，数据采集单元312以1s为一个时间单位对流量进行采样，得到9组流量特征数据。

可选地，采样时段的时间单位根据需要设置。例如，在图4中，一个时间单位的长度为1s。图5示出了另一个采样时段的示意图。在图5中，数据采集单元312以2s为一个时间单位对流量进行采样，得到5组流量特征数据。

在图4和图5所示的实例中，两个相邻采样时段(例如采样时段1和采样时段2、采样时段2和采样时段3)在时间上是连续的。

在另一些实施例中，两个相邻的采样时段在时间上也可以不是连续的。换句话说，相邻的两个采样时段可以间隔一个或多个时间单位。

还假设一个时间单位长度为1s，假设两个相邻的采样时段间隔1个时间单位，那么采样时段1的起始时刻为0s，结束时刻为1s；采样时段2的起始时刻为2s，结束时刻为3s；采样时段3的起始时刻为4s，结束时刻为5s，以此类推。此外，在多个采样时间段中的第一组两个相邻的采样时段的间隔时间与第二组两个相邻的采样时段的间隔时间可能是相同的，也可能是不同的。

可选的，在一些实施例中，该第n组流量特征数据包括上行流量的特征数据，和/或，下行流量的特征数据。

表1示出了可能的上行流量的特征数据和下行流量的特征数据。可选地，每组流量特征数据包括的上行流量的特征数据包括表1所示的多个上行流量的特征中的任一个或多个。类似的，可选地，每组流量特征数据包括的下行流量的特征数据包括表所示的多个下行流量的特征中的任一个或多个。

表1

序号	上行流量的特征	下行流量的特征
1	上行数据包个数	下行数据包个数
2	上行上传总字节数	下行下载总字节数
3	上行包大小的最大值	下行包大小的最大值
4	上行包大小的平均值	下行包大小的平均值
5	上行包大小的方差	下行包大小的方差
6	上行包间隔的最大值	下行包间隔的最大值
7	上行包间隔的平均值	下行包间隔的平均值
8	上行包间隔的方差	下行包间隔的方差
9	上行丢包率	下行丢包率
10	上行最大连续丢包数	下行最大连续丢包数
11	上行的字节指标	下行的字节指标

在一些实施例中，上行流量的特征数据和下行流量特的征数据是对应的。例如，如果上行流量的特征数据包括表1中序号为1、3、5、6、8的上行流量的特征，那么下行流量的特征数据也包括表1中序号为1、3、5、6、8的下行流量的特征。

在一些实施例中，N组流量特征数据中的每组流量特征数据包括的上行流量的特征和下行流量的特征的类型都是相同的。换句话说。如果N组流量特征数据中的第1组流量特征数据包括表1中序号为1、3、5、6、8的上行流量的特征和表1中序号为1、3、5、6、8的下行流量的特征，那么该N组流量特征数据中的第2组至第N组流量特征数据中的任一组流量特征数据都包括表1中序号为1、3、5、6、8的上行流量的特征和表1中序号为1、3、5、6、8的下行流量的特征。

图2中步骤202得到的质量判断结果指示目标时段的视频会议质量的优劣。可选地，视频会议质量的优劣包括绝对优劣(例如卡顿/不卡顿、卡顿时间超过预设阈值/卡顿时间不超过预设阈值)和/或相对优劣(例如分辨率下降/分辨率不下降)等等。

在一些实施例中，视频会议质量判断结果包括两类：卡顿和不卡顿。换句话说，根据该N组流量特征数据和质量判断模型，确定目标时段的视频会议是否会发生卡顿。

在另一些实施例中，视频会议质量判断结果包括两类：分辨率下降和分辨率不下降。换句话说，根据该N组流量特征数据和质量判断模型，确定目标时段的视频会议的分辨率是否降低。

在另一些实施例中，视频会议质量判断结果包括两类：卡顿时间超过预设阈值和卡顿时间不超过预设阈值。换句话说，根据该N组流量特征数据和质量判断模型，确定目标时段的视频会议的卡顿时间是否超过预设阈值。

在另一些实施例中，视频会议质量判断结果包括两类：起播时延超过预设阈值和起播时延不超过预设阈值。换句话说，根据该N组流量特征数据和质量判断模型，确定目标时段的视频会议的起播时延是否超过预设阈值。

在另一些实施例中，视频会议质量判断结果包括上述的任一种或多种的组合。换句话说，视频会议指令判断结果包括：卡顿和不卡顿、分辨率下降和分辨率不下降、卡顿时间超过预设阈值和卡顿时间不超过预设阈值，和起播时延超过预设阈值和起播时延不超过预设阈值中的任意多组或者全部。

在另一些实施例中，视频会议质量的优劣还可以表示为发生卡顿、分辨率下降等情况概率。例如，90％会发生卡顿，85％会发生分辨率下降等。

下面以视频会议质量判断结果为是否发生卡顿为例对本申请技术方案进行介绍。本领域技术人员可以理解，确定视频会议质量判断结果为其他结果(分辨率是否下降、卡顿时延是否超过预设阈值、起播时延是否超过预设阈值)的实现方式与确定视频会议画面是否发生卡顿的实现方式相同或类似。

在一些实施例中，目标时段晚于N个采样时段中的第N个采样时段。处理单元311根据目标时段之前的N个采样时段对应的N组流量特征数据来预测目标时段的视频会议画面是否发生卡顿。

在一些实施例中，视频会议在时间上划分为多个时间窗口，每个时间窗口以一个时间单位为粒度，划分为多个采样时段。

图6是时间窗口的示意图。图6示出了两个时间窗口，分别为时间窗口1和时间窗口2。时间窗口1以2s为一个时间单位，划分为五个采样时段，分别为采样时段1_1至采样时段1_5；时间窗口2也以2s为一个时间单位，划分为五个采样时段，分别为采样时段2_1至采样时段2_5。

在一些实施例中，目标时段是一个时间窗口。以图6为例，数据采集单元312采集到的N组流量特征数据是从时间窗口1中的采样时段1_1至采样时段1_5中采集的流量特征数据。根据该N组流量特征数据确定的目标时段是时间窗口2。换句话说，处理单元311根据质量判断模型和数据采集单元312从时间窗口1中的采样时段1_1至采样时段1_5中采集的流量特征数据，确定时间窗口2的视频会议是否会发生卡顿。

在另一些实施例中，目标时段是一个或多个采样时段。以图6为例，假设目标时段是一个采样时段，数据采集单元312采集到的N组流量特征数据是从时间窗口1中的采样时段1_1至采样时段1_5中采集的流量特征数据。根据该N组流量特征数据确定的目标时段是采样时段2_1。换句话说，处理单元311根据数据采集单元312从时间窗口1中的采样时段1_1至采样时段1_5中采集的流量特征数据和质量判断模型，确定采样时段2_1的视频会议是否会发生卡顿。然后，处理单元311根据数据采集单元312从采样时段1_2至采样时段2_1中采集的流量特征数据和质量判断模型，确定采样时段2_2的视频会议是否会发生卡顿。然后，处理单元311根据数据采集单元312从采样时段1_3至采样时段2_2中采集的流量特征数据和质量判断模型，确定采样时段2_3的视频会议是否会发生卡顿，以此类推。

上述实施例中，目标时段都是采集到N组流量特征数据之后的时段。换句话说，上述实施例是根据当前采集数据预测未来的视频会议是否会发生卡顿。如果确定目标时段的视频会议会发生卡顿，那么将卡顿通知消息发送给输出设备。该输出设备可以是显示屏330或者与音频模块340。例如，假设该输出设备为显示屏330，那么显示屏330可以通过弹窗或者其他方式提醒用户视频会议即将发生卡顿。这样，用户可以为即将到来的卡顿做出准备。例如，用户可以关闭一些对带宽占用较大的应用，以保证有足够的带宽给视频会议。

在另一些实施例中，视频会议画面是否发生卡顿是确定当前的视频会议画面是否发生卡顿。在此情况下，目标时段是采集该N组流量特征数据的时段。如上所述，N组流量特征数据是分别在N个采样时段中获取的。那么，该目标时段的起始时刻就是该N个采样时段中的第一个采样时段的起始时刻，该目标时段的结束时刻就是该N个采样时段的结束时刻。

以图6为例，该N组流量特征数据是在时间窗口1包括的五个采样时段中采集的。在此情况下，该目标时段就是时间窗口1。换句话说，处理单元311根据数据采集单元312从时间窗口1中的采样时段1_1至采样时段1_5中采集的流量特征数据和质量判断模型，确定时间窗口1的视频会议是否会发生卡顿。将对发生卡顿目标时段进行标记。目前视频会议服务提供商通常情况下无法获取到视频会议画面，因此视频会议服务提供商无法及时有效地确定视频会议的服务质量，针对可能发生的视频会议质量变差从而主动采取措施来减少或避免出现卡顿等现象。基于上述技术方案，视频会议服务提供商可以通过流量特征数据判断视频会议画面是否发生卡顿，从而根据发生卡顿的情况，判断是否需要对网络或者视频会议应用(application，APP)等进行优化。

为了便于描述，以下将根据当前采集到的数据预测未来视频会议是否会发生卡顿(即目标时段位于N个采样时段之后)称为第一种应用场景；将根据当前采集到的数据确定当前视频会议是否会发生卡顿(即目标时段与N个采样时段重叠)称为第二种应用场景。

用于确定质量判断结果的质量判断模型是根据视频会议训练数据集训练的。

视频会议训练数据包括多个训练数据集和多个标签信息。该多个训练数据集中的每个训练数据集包括M组流量特征数据，该M组流量特征数据分别是M个采样时段获取的流量特征数据。换句话说，该M组流量特征数据中的第m组流量特征数据是在M个采样时段中的第m个采样时段获取的，M为大于或等于1的正整数，m为大于或等于1且小于或等于M的正整数。

可选的，用于采集训练数据的视频会议的视频会议服务提供商或者网络设备运营商与提供视频会议1(即需要确定目标时段的质量的视频会议)的视频会议服务提供商或者网络运营商相同。例如，用于采集训练数据的视频会议和视频会议1都是由中国移动提供网络服务的。

可选的，用于采集训练数据的视频会议的视频会议服务提供商或者网络设备运营商与提供视频会议1的视频会议服务提供商或者网络运营商不相同。例如，用于采集训练数据的视频会议是由中国联通提供网络服务的，而视频会议1是由中国移动提供网络服务的。

在一些实施例中，M等于N。换句话说，一个时间窗口包括M个采样时段，每个训练数据集包括的M组流量特征数据是在一个时间窗口内的M个采样时段获取的。

该多个标签信息与多个训练数据集一一对应，该多个标签信息中的每个标签信息用于指示对应的训练数据集对应的视频会议画面是否发生卡顿。训练数据集对应的视频会议画面就是包含该M个采样时段的参考时间窗口内的视频会议画面。可选地，标签信息是计算机设备根据图像数据自动生成的，或者是人工通过观察图像标定的。在本申请后面的实施例中将详细介绍计算机设备根据图像数据确定标签信息的过程。

如果是第一种应用场景，那么每个训练数据集对应的参考时间窗与获取每个训练数据集包括的M组流量特征数据的M个采样时段的关系，和目标时段与N个采样时段的关系相同。以图6为例，训练数据集1包括在时间窗口1包括的五个采样时段采集到的五组流量特征数据，那么对应于训练数据集1的参考时间窗就是时间窗口2。

如果是第二种应用场景，那么每个训练数据集对应的参考时间窗就是获取每个训练数据集包括的M组流量特征数据的M个采样时段。以图6为例，训练数据集1包括在时间窗口1包括的五个采样时段采集到的五组流量特征数据，那么对应于训练数据集1的参考时间窗就是时间窗口1。

无论是第一种应用场景中的参考时间窗还是第二种应用场景中的参考时间窗，该参考时间窗都可以划分为多个采样时段，如果该多个采样时段中的任一个或多个采样时段的视频会议画面发生卡顿，那么就认为该参考时间窗的视频会议画面发生卡顿；如果该多个采样时段中的任一个采样时段的视频会议都没有发生卡顿，那么就认为该参考时间窗的视频会议画面没有发生卡顿。

确定采样时段的视频会议是否卡顿的方法对于第一种应用场景和第二钟应用场景都是相同的，以下以第二种应用场景为例，对如何确定一个采样时段的视频会议画面是否发生卡顿进行介绍。

假设第一训练数据集是该多个训练数据集中的任一个训练数据集，第一标签信息是对应于第一训练数据集的标签信息。第一标签信息用于指示第一训练数据集对应的视频会议画面是否发生卡顿。第一训练数据集包括的M组流量特征数据是在M个采样时段中获取的。由于是第二种应用场景，那么参考时间窗就是该M个采样时段。在此情况下，如果该M个采样时段中的任一个采样时段的视频会议画面发生卡顿，那么第一标签信息指示第一训练数据集对应的参考时间窗的视频会议画面发生卡顿。如果该M个采样时段中的任一个采样时段的视频会议画面都没有发生卡顿，那么第一标签信息指示第一训练数据集对应的参考时间窗的视频会议画面没有发生卡顿。

以图6为例，训练数据集1包括在时间窗口1包括的五个采样时段采集到的五组流量特征数据，训练数据集2包括在时间窗口2包括的五个采样时段采集到的五组流量特征数据。标签信息1是对应于训练数据集1的标签信息，标签信息2是对应于训练数据集2的标签信息。假设除采样时段1_1的视频会议画面发生卡顿外，时间窗口1和时间窗口2中的其他采样时段的视频会议画面都没有发生卡顿，那么确定标签信息1指示对应于训练数据集1的视频会议画面(即时间窗口1的视频会议画面)发生卡顿，标签信息2指示对应于训练数据集的视频会议画面(即时间窗口2的视频会议画面)没有发生卡顿。

一个采样时段的视频会议画面是否发生卡顿根据该采样时段中图像信息相同的连续的图像数目确定。对视频会议录屏后通过计算机视觉方法提取视频会议播放过程中的每一帧图像，同时可以获取每一帧图像的时间戳。根据获取到的每一帧图像确定该帧图像的图像信息。

如果一个采样时段中图像信息相同的连续的图像数目大于或等于一个预设数量阈值，那么确定该采样时段的视频会议画面发生卡顿；如果一个采样时段中图像信息相同的连续的图像数目小于该预设数量阈值，那么确定该采样时段的视频会议画面没有发生卡顿。

该预设数量阈值根据以下公式确定：

例如，假设视频会议的帧率为30帧/s，那么单帧图像的持续时间t＝1/30＝33ms。如果预定义的视频卡顿标准为500ms，那么根据公式1得到Th＝16。换句话说，如果一个采样时段中完全相同的连续的图像数目大于或等于16，那么认为该采样时段发生卡顿。

公式1中的取整方式是向上取整。这种取整方式是一种取整的示例。在另一些实施例中，Std/t的取整也可以是向下取整、四舍五入取整等其他取整方式。

可选的，两帧图像的图像信息相同包括两帧图像的部分画面的质量参数值相同。

可选的，两帧图像的图像信息相同包括两帧图像的全部画面的质量参数值相同。图像的质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。

图7是一个视频会议画面的示意图。如图7所示的视频会议画面700包括四个部分：第一部分701为用户1的摄像头采集到的画面，第二部分702为用户2的采集到的画面，第三部分703为用户3的摄像头采集到的画面，第四部分704为用户1共享的桌面。

在一些实施例中，对用户1的视频会议画面分割为四个部分，确定每个部分的质量参数值。如果一个部分的相邻两帧的质量参数值相同，那么认为两帧图像的图像信息相同。例如，假设视频会议的第3帧图像的第一部分的质量参数值与视频会议的第4帧图像的第一部分的指令参数值相同，那么认为视频会议第3帧图像与视频会议第4帧图像的图像信息相同。换句话说，在视频会议画面包括多个部分的情况下，只要该多个部分中的至少一个部分的画面发生卡顿，那么就认为视频会议发生卡顿。

在另一些实施例中，在视频会议画面包括多个部分的情况下，不对视频会议画面进行分割，而是将视频会议画面作为一个整体来确定该视频会议画面的质量参数值。在此情况下，即使视频会议包括的多个部分中的一个发生卡顿，也认为视频会议没有发生卡顿。

视频会议的会议画面中包括随时间变化的视觉元素。

例如，视频会议的与会者会打开本地摄像头(例如内置在终端设备中的摄像头或者终端设备外接的摄像头)，本地摄像头一般会拍摄与会者的头部或者上半身。与会者的头部或者上半身通常而言不会保持静止状态。那么本地摄像头拍摄的画面是随时间变化的视觉元素。

又如，视频会议中的某一个与会者可能会在共享桌面时播放一段视频，那么这段视频的画面是随时间变化的视觉元素。

又如，视频会议画面中可以显示通过滚动时间轴或者计时器记录会议的持续时间。在此情况下，随时间变化的滚动时间轴或者计时器是随时间变化的视觉元素。

又如，视频会议画面的某一个地方(例如右下角、左上角)等可能会显示一段一直变化的图像(例如图形交换格式(graphics interchange format，gif)图)。那么该gif图是随时间变化的视觉元素。

可以理解，如果视频会议画面发生卡顿，那么这些随时间变化的视觉元素会在一段时间静止不动。视频会议的图像的质量参数值根据这些随时间变化的视觉元素计算得到。如果存在连续的一段时间中超过预设数量阈值的图像，那么认为这期间的视频会议的画面中随时间变化的视觉元素静止不动，从而认为这段时间的视频会议画面发生卡顿。

图8是根据本申请实施例提供的一种训练模型的方法。可选地，如图8所示的方法由计算机设备或者计算机设备中的部件(例如芯片等)实现。

801，获取多个训练数据集和多个标签信息，其中该多个训练数据集中的第一训练数据集包括M组特征数据，该M组特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，该M组特征数据中的第m组特征数据包括该第二视频会议的流量在该M个采样时段中的第m个采样时段的特征数据，该多个标签信息中的第一标签信息用于指示该第一训练数据集对应的视频会议画面的质量，该第一训练数据集为该多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数，m为大于或等于1且小于或等于M的正整数。

802，根据该多个训练数据集和该多个标签信息训练得到质量判断模型。

训练数据集和标签信息的相关内容可以参考上述实施例中的介绍，为了简洁在此就不再赘述。

下面以卷积神经网络(convolutional neuron network，CNN)为例，对训练设备220如何训练得到该质量判断模型进行介绍。

CNN是一种带有卷积结构的深度神经网络，是一种深度学习(deep learning)架构，深度学习架构是指通过机器学习的算法，在不同的抽象层级上进行多个层次的学习。作为一种深度学习架构，CNN是一种前馈(feed-forward)人工神经网络，该前馈人工神经网络中的各个神经元对输入其中的图像中的重叠区域作出响应。

如图9所示，卷积神经网络(CNN)900包括输入层910，卷积层920，池化层930和神经网络层940。

输入层910中每次输入的训练数据集是一个训练数据集中包括的全部流量特征数据。

卷积层920：

如图9所示的卷积层分为六组，第一组卷积层和第二组卷积层中的每组卷积层包括两个卷积层921，第三组卷积层和第四组卷积层中的每组卷积层包括三个卷积层922，第五组卷积层和第六组卷积层中的每组卷积层包括四个卷积层923。

卷积层921包括一个长度为2的卷积算子。卷积层922包括一个长度为3的卷积算子。卷积层923包括一个长度为4的卷积算子。

卷积算子也称为核，其作用相当于一个从输入的流量特征数据中提取特定信息的过滤器，卷积算子本质上是一个权重矩阵，这个权重矩阵通常被预先定义，在对输入的流量特征数据进行卷积操作的过程中，权重矩阵在输入的流量特征数据上沿着水平方向一个流量特征接着一个流量特征的进行处理，从而完成从流量特征数据中提取特定特征的工作。

该权重矩阵的大小应该与流量特征数据的大小相关，需要注意的是，权重矩阵的纵深维度(depth dimension)和输入的流量特征数据的纵深维度是相同的，在进行卷积运算的过程中，权重矩阵会延伸到输入的流量特征数据的整个深度。因此，和一个单一的权重矩阵进行卷积会产生一个单一纵深维度的卷积化输出。但是大多数情况下不使用单一权重矩阵，而是应用维度相同的多个权重矩阵。每个权重矩阵的输出被堆叠起来形成卷积数据的纵深维度。不同的权重矩阵用来提取流量特征数据中不同的特征。该多个权重矩阵维度相同，经过该多个维度相同的权重矩阵提取后的特征图维度也相同，再将提取到的多个维度相同的特征图合并形成卷积运算的输出。

这些权重矩阵中的权重值在实际应用中需要经过大量的训练得到，通过训练得到的权重值形成的各个权重矩阵从输入的流量特征数据中提取信息，从而帮助卷积神经网络900进行正确的预测。

当卷积神经网络900有多个卷积层的时候，初始的卷积层往往提取较多的一般特征，该一般特征也可以称之为低级别的特征；随着卷积神经网络900深度的加深，越往后的卷积层提取到的特征越来越复杂，从而越适用于待解决的问题。

例如，第一组卷积层和第二组卷积层中的每组卷积层包括两个卷积层921。换句话说，第一组卷积层和第二组卷积层中的每组卷积层使用两个权重矩阵提取输入的流量特征数据的特征。第三组卷积层和第四组卷积层中的每组卷积层包括三个卷积层922。换句话说，第三组卷积层和第四组卷积层中的每组卷积层使用三个权重矩阵提取输入的流量特征数据的特征。第五组卷积层和第六组卷积层中的每组卷积层包括四个卷积层923。换句话说，第五组卷积层和第六组卷积层中的每组卷积层使用四个权重矩阵提取输入的流量特征数据的特征。

第一组卷积层的输出、第二组卷积层的输出、第三组卷积层的输出、第四组卷积层的输出、第五组卷积层的输出和第六组卷积层的输出合并作为池化层930的输入。

池化层930：

由于常常需要减少训练参数的数量，因此卷积层之后常常需要周期性的引入池化层。池化层使得卷积层输出的特征图变小，简化网络计算复杂度，减少下一层的参数和计算量，防止过拟合。

神经网络层940：

在经过卷积层920和池化层930的处理后，卷积神经网络900还不足以输出所需要的输出信息。因为如前所述，卷积层920和池化层930只会提取特征，并减少输入的流量特征数据带来的参数。然而为了生成最终的输出信息(所需要的类信息或别的相关信息)，卷积神经网络900需要利用神经网络层940来生成一个或者一组所需要的类的数量的输出。因此，在神经网络层940中可以包括全连接层(fully connected layers，FC)941和归一化指数函数(softmax函数)层942。全连接层941起到将学到的特征表示映射到样本的标记空间的作用。换句话说，就是把特征整合到一起(高度提纯特征)，方便交给最后的分类器。本申请实施例中根据流量特征数据确定的视频会议质量的判断结果是卡顿和不卡顿。因此，分类器可以通过softmax函数实现。

需要说明的是，如图9所示的卷积神经网络900仅作为一种卷积神经网络的示例，在具体的应用中，卷积神经网络还可以以其他网络模型的形式存在，例如，每组卷积层包括的卷积层个数可以与如图9所示的不同。

除了利用如图9所示的卷积神经网络训练该质量判断模型外，还可以利用循环神经网络训练该质量判断模型。

图10是一个循环神经网络的示意图。如图10所示的循环神经网络1000包括FC 1001、softmax函数层1002和第一部分长短期记忆人工神经网络(long-short term memory，LSTM)神经元(cell)和第二部分LSTM cell，第一部分LSTM cell和第二部分LSTM cell中的每个部分都包括LSTM cell 1003-1012。

图10所示的循环神经网络是基于如图6所示的时间窗口和采样时段的流量特征数据。如图10所示的Data1_1表示采样时段1_1中采集到的一组流量特征数据，Data1_2表示采样时段1_2中采集到的一组流量特征数据，以此类推。

以第一部分为例，一个时间窗口内采集到的五组流量特征数据分别输入到五个LSTM cell。例如，采样时段1_1中采集到的一组流量特征数据Data1_1输入到LSTM cell 1003，采样时段1_2中采集到的一组流量特征数据Data1_2输入到LSTM cell 1005。

如图10所示的箭头表示数据的流向。例如，LSTM cell 1003的输出数据被发送至LSTM cell 1004和LSTM 1005，LSTM cell 1004的输出数据被发送至LSTM cell 1006。最终第一部分LSTM cell的LSTM cell 1012输出第一部分LSTM cell的输出结果。

第二部分LSTM cell处理数据的方式与第一部分LSTM cell处理数据的方式类似，不同之处在于第二部分LSTM cell中的LSTM cell 1004输出第二部分LSTM cell的输出结果。

第一部分LSTM cell的输出结果和第二部分LSTM cell的输出结果拼接后输入到FC1001，然后输入到sfotmax函数层1002。FC 1001和softmax函数层1002的功能与图9所示的CNN中的功能相同，为了简洁，在此就不再赘述。

图9和图10输出的结果与输入的流量特征数据对应的标签进行对比，确定误差率，根据误差率，调整模型中的各个参数，从而训练出最终的质量判断模型。

图11是本发明实施例提供的一种芯片硬件结构图。图9和图10所示的基于神经网络的算法可以在图11所示的神经网络处理器(neural network processing unit，NPU)1100中实现。

NPU 1100可以作为协处理器挂载到主CPU(Host CPU)上，由Host CPU分配任务。NPU的核心部分为运算电路1103，通过控制器1104控制运算电路1103提取存储器中的矩阵数据并进行乘法运算。

在一些实现中，运算电路1103内部包括多个处理单元(process engine,PE)。在一些实现中，运算电路1103是二维脉动阵列。运算电路1103还可以是一维脉动阵列或者能够执行例如乘法和加法这样的数学运算的其它电子线路。在一些实现中，运算电路1103是通用的矩阵处理器。

举例来说，假设有输入矩阵A，权重矩阵B，输出矩阵C。运算电路从权重存储器1102中取矩阵B相应的数据，并缓存在运算电路中每一个PE上。运算电路从输入存储器1101中取矩阵A数据与矩阵B进行矩阵运算，得到的矩阵的部分结果或最终结果，保存在累加器(accumulator)1108中。

统一存储器1106用于存放输入数据以及输出数据。权重数据直接通过存储单元访问控制器(direct memory access controller，DMAC)1105被搬运到权重存储器1102中。输入数据也通过DMAC被搬运到统一存储器1106中。

总线接口单元1110(bus interface unit，BIU)，用于取指存储器1109从外部存储器获取指令，还用于存储单元访问控制器1105从外部存储器获取输入矩阵A或者权重矩阵B的原数据。

DMAC主要用于将外部存储器中的输入数据搬运到统一存储器1106或将权重数据搬运到权重存储器1102中或将输入数据数据搬运到输入存储器1101中。

向量计算单元1107多个运算处理单元，在需要的情况下，对运算电路的输出做进一步处理，如向量乘，向量加，指数运算，对数运算，大小比较等等。主要用于神经网络中非卷积/FC层网络计算，如池化(Pooling)，批归一化(Batch Normalization)，局部响应归一化(Local Response Normalization)等。

在一些实现种，向量计算单元能1107将经处理的输出的向量存储到统一缓存器1106。例如，向量计算单元1107可以将非线性函数应用到运算电路1103的输出，例如累加值的向量，用以生成激活值。在一些实现中，向量计算单元1107生成归一化的值、合并值，或二者均有。在一些实现中，处理过的输出的向量能够用作到运算电路1103的激活输入，例如用于在神经网络中的后续层中的使用。

控制器1104连接的取指存储器(instruction fetch buffer)1109，用于存储控制器1104使用的指令。

统一存储器1106，输入存储器1101，权重存储器1102以及取指存储器1109均为片上(On-Chip)存储器。外部存储器私有于该NPU硬件架构。

本申请实施例还提供一种计算机设备，该计算机设备包括如图11所示的芯片以及存储器。

图12是根据本申请实施例提供的一种计算机设备的示意性结构框图。如图12所示的计算机设备可以是用于执行如图2所示方法的计算机设备。如图12所示的计算机设备1200包括数据采集单元1201和处理单元1202。

数据采集单元1201，用于在N个采样时段对第一视频会议的流量进行数据采集，得到N组特征数据。

处理单元1202，用于将该N组特征数据输入质量判断模型，得到该第一视频会议在目标时段的质量判断结果。

数据采集单元1201和处理单元1202的具体功能和有益效果可以参考上述实施例，为了简洁，在此就不再赘述。

图13是根据本申请实施例提供的另一种计算机设备的示意性结构框图。如图13所示的计算机设备可以是用于执行如图4所示方法的计算机设备。如图13所示的计算机设备1300包括数据采集单元1301和处理单元1302。

数据采集单元1301，用于获取多个训练数据集和多个标签信息。

处理单元1302，用于根据该多个训练数据集和该多个标签信息训练得到质量判断模型。

数据采集单元1301和处理单元1302的具体功能和有益效果可以参考上述实施例为了简洁，在此就不再赘述。

图14是本申请实施例提供的一种系统架构的示意图。

参见图14，系统架构1400中数据采集设备1410用于采集视频会议训练数据并存入数据库1420。数据采集设备1410的工作原理参考附图3中的数据采集单元312。

训练设备1430基于数据库1420中维护的视频会议训练数据集生成质量判断模型。执行设备1440使用质量判断模型采集到的流量特征数据进行处理，得到最终的判断结果。

执行设备1440可以是如图3或10所示的计算机设备，训练设备1430可以是如图13所示的计算机设备或包含如图11所示的芯片的计算机设备。执行设备1440和训练设备1430的具体功能可以参见上述实施例，为了简洁，在此就不再赘述。

根据本申请实施例提供的方法，本申请还提供一种计算机程序产品，该计算机程序产品包括：计算机程序代码，当该计算机程序代码在计算机上运行时，使得该计算机执行上述实施例中任意一个实施例的方法。

根据本申请实施例提供的方法，本申请还提供一种计算机可读介质，该计算机可读介质存储有程序代码，当该程序代码在计算机上运行时，使得该计算机执行上述实施例中任意一个实施例的方法。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。

所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，但本申请的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。因此，本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种确定视频会议质量的方法，其特征在于，包括：

在N个采样时段对第一视频会议的流量进行数据采集，得到N组流量特征数据，所述N组流量特征数据中的第n组流量特征数据是在所述N个采样时段中的第n个采样时段采集的，N为大于或等于1的正整数，n为大于或等于1且小于或等于N的正整数；

将所述N组流量特征数据输入质量判断模型，得到所述第一视频会议在目标时段的质量判断结果，所述质量判断结果指示所述目标时段的视频会议质量的优劣，其中所述质量判断模型是根据视频会议训练数据训练得到的，其中所述目标时段不早于所述N个采样时段。
根据权利要求1所述的方法，其特征在于，所述第n组流量特征数据包括上行流量的特征数据，和/或，下行流量的特征数据。
如权利要求2所述的方法，其特征在于，所述第n组流量特征数据包括的上行流量的特征数据包括以下数据中的任一个或多个：

所述第n个采样时段的上行数据包个数；

所述第n个采样时段上行上传总字节数；

所述第n个采样时段上行包大小的最大值；

所述第n个采样时段上行包大小的平均值；

所述第n个采样时段上行包大小的方差；

所述第n个采样时段上行包间隔的最大值；

所述第n个采样时段上行包间隔的平均值；

所述第n个采样时段上行包间隔的方差；

所述第n个采样时段上行丢包率；

所述第n个采样时段上行最大连续丢包数；

所述第n个采样时段上行的字节指标。
如权利要求2所述的方法，其特征在于，所述第n组流量特征数据包括的下行流量的特征数据包括一下数据中的任一个或多个：

所述第n个采样时段的下行数据包个数；

所述第n个采样时段下行下载总字节数；

所述第n个采样时段下行包大小的最大值；

所述第n个采样时段下行包大小的平均值；

所述第n个采样时段下行包大小的方差；

所述第n个采样时段下行包间隔的最大值；

所述第n个采样时段下行包间隔的平均值；

所述第n个采样时段下行包间隔的方差；

所述第n个采样时段下行丢包率；

所述第n个采样时段下行最大连续丢包数；

所述第n个采样时段下行的字节指标。
如权利要求1至4中任一项所述的方法，其特征在于，所述N个采样时段在时间上是连续的。
如权利要求5所述的方法，其特征在于，所述N个采样时段的时间长度之和与所述目标时段的时间长度相同。
如权利要求5或6所述的方法，其特征在于，所述N个采样时段中的第N个采样时段在所述目标时段之前且与所述目标时段在时间上是连续的，或者，

所述N个采样时段中第一个采样时段的起始时刻为所述目标时段的起始时刻，所述N个采样时段中的第N个采样时段的结束适合为所述目标时段的结束时刻。
如权利要求1至7中任一项所述的方法，其特征在于，所述视频会议训练数据包括多个训练数据集和多个标签信息，其中所述多个训练数据集中的第一训练数据集包括M组流量特征数据，所述M组流量特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，所述多个标签信息中的第一标签信息用于指示所述第一训练数据集对应的视频会议画面是否发生卡顿，所述第一训练数据集为所述多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数；

所述质量判断模型是根据所述多个训练数据集和所述多个标签信息训练得到的。
如权利要求8所述的方法，其特征在于，若所述M个采样时段中的任一个采样时段的所述第二视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面发生卡顿；或

若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于所述预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应视频会议画面没有发生卡顿。
如权利要求9所述的方法，其特征在于，所述预设数量阈值是根据以下公式确定的：

其中，Th表示所述预设数量阈值，Std表示预定义的视频卡顿标准，t表示单帧图像的持续时间。
如权利要求9或10所述的方法，其特征在于，两帧图像的图像信息相同包括所述两帧图像部分或全部画面的质量参数值相同，所述质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。
如权利要求8至11中任一项所述的方法，其特征在于，所述多个采样时段中的每个采样时段的视频会议画面包括随时间变化的视觉元素。
如权利要求8至12中任一项所述的方法，其特征在于，所述第一视频会议与所述第二视频会议是由不同的视频会议服务提供商或者不同的网络运营商提供服务的。
一种训练模型的方法，其特征在于，所述方法包括：

获取多个训练数据集和多个标签信息，其中所述多个训练数据集中的第一训练数据集包括M组特征数据，所述M组特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，所述M组特征数据中的第m组特征数据包括所述第二视频会议的流量在所述M个采样时段中的第m个采样时段的特征数据，所述多个标签信息中的第一标签信息用于指示所述第一训练数据集对应的视频会议画面的质量，所述第一训练数据集为所述多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数，m为大于或等于1且小于或等于M的正整数；

根据所述多个训练数据集和所述多个标签信息训练得到质量判断模型。
如权利要求14所述的方法，其特征在于，若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面发生卡顿；

若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于所述预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面没有发生卡顿。
如权利要求15所述的方法，其特征在于，所述预设数量阈值是根据以下公式确定的：

其中，Th表示所述预设数量阈值，Std表示预定义的视频卡顿标准，t表示单帧图像的持续时间。
如权利要求15或16所述的方法，其特征在于，两帧图像的图像信息相同包括所述两帧图像部分或全部画面的质量参数值相同，所述质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。
如权利要求14至17中任一项所述的方法，其特征在于，所述多个采样时段中的每个采样时段的视频会议画面包括随时间变化的视觉元素。
一种计算机设备，其特征在于，包括：

数据采集单元，用于在N个采样时段对第一视频会议的流量进行数据采集，得到N组特征数据，所述N组特征数据中的第n组特征数据是在所述N个采样时段中的第n个采样时段采集的，N为大于或等于1的正整数，n为大于或等于1且小于或等于N的正整数；

处理单元，用于将所述N组特征数据输入质量判断模型，得到所述第一视频会议在目标时段的质量判断结果，所述质量判断结果指示所述目标时段的视频会议质量的优劣，其中所述质量判断模型是根据视频会议训练数据训练得到的，其中所述目标时段不早于所述N个采样时段。
根据权利要求19所述的计算机设备，其特征在于，所述第n组流量特征数据包括上行流量的特征数据和下行流量的特征数据。
如权利要求20所述的计算机设备，其特征在于，所述第n组流量特征数据包括的上行流量的特征数据包括以下数据中的任一个或多个：

所述第n个采样时段的上行数据包个数；

所述第n个采样时段上行上传总字节数；

所述第n个采样时段上行包大小的最大值；

所述第n个采样时段上行包大小的平均值；

所述第n个采样时段上行包大小的方差；

所述第n个采样时段上行包间隔的最大值；

所述第n个采样时段上行包间隔的平均值；

所述第n个采样时段上行包间隔的方差；

所述第n个采样时段上行丢包率；

所述第n个采样时段上行最大连续丢包数；

所述第n个采样时段上行的字节指标。
如权利要求20所述的计算机设备，其特征在于，所述第n组流量特征数据包括的下行流量的特征数据包括一下数据中的任一个或多个：

所述第n个采样时段的下行数据包个数；

所述第n个采样时段下行下载总字节数；

所述第n个采样时段下行包大小的最大值；

所述第n个采样时段下行包大小的平均值；

所述第n个采样时段下行包大小的方差；

所述第n个采样时段下行包间隔的最大值；

所述第n个采样时段下行包间隔的平均值；

所述第n个采样时段下行包间隔的方差；

所述第n个采样时段下行丢包率；

所述第n个采样时段下行最大连续丢包数；

所述第n个采样时段下行的字节指标。
如权利要求19至22中任一项所述的计算机设备，其特征在于，所述N个采样时段在时间上是连续的。
如权利要求23所述的计算机设备，其特征在于，所述N个采样时段的时间长度之和与所述目标时段的时间长度相同。
如权利要求23或24所述的计算机设备，其特征在于，所述N个采样时段中的第N个采样时段在所述目标时段之前且与所述目标时段在时间上是连续的，或者，

所述N个采样时段中第一个采样时段的起始时刻为所述目标时段的起始时刻，所述N个采样时段中的第N个采样时段的结束适合为所述目标时段的结束时刻。
如权利要求19至25中任一项所述的计算机设备，其特征在于，所述视频会议训练数据包括多个训练数据集和多个标签信息，其中所述多个训练数据集中的第一训练数据集包括M组特征数据，所述M组特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，所述多个标签信息中的第一标签信息用于指示所述第一训练数据集对应的视频会议画面是否发生卡顿，所述第一训练数据集为所述多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数；

所述质量判断模型是根据所述多个训练数据集和所述多个标签信息训练得到的。
如权利要求26所述的计算机设备，其特征在于，若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面发生卡顿；

若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于所述预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的内视频会议画面没有发生卡顿。
如权利要求27所述的计算机设备，其特征在于，所述预设数量阈值是根据以下公式确定的：

其中，Th表示所述预设数量阈值，Std表示预定义的视频卡顿标准，t表示单帧图像的持续时间。
如权利要求27或28所述的计算机设备，其特征在于，两帧图像的图像信息相同包括所述两帧图像部分或全部画面的质量参数值相同，所述质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。
如权利要求27至29中任一项所述的计算机设备，其特征在于，所述多个采样时段中的每个采样时段的视频会议画面包括随时间变化的元素。
如权利要求27至30中任一项所述的计算机设备，其特征在于，所述第一视频会议与所述第二视频会议是由不同的视频会议服务提供商或者不同的网络运营商提供服务的。
一种计算机设备，其特征在于，所述计算机设备包括：

数据采集单元，用于获取多个训练数据集和多个标签信息，其中所述多个训练数据集中的第一训练数据集包括M组特征数据，所述M组特征数据分别是在M个采样时段对第二视频会议的流量进行数据采集得到的，所述M组特征数据中的第m组特征数据包括所述第二视频会议的流量在所述M个采样时段中的第m个采样时段的特征数据，所述多个标签信息中的第一标签信息用于指示所述第一训练数据集对应的视频会议画面的质量，所述第一训练数据集为所述多个训练数据集中的任一个训练数据集，M为大于或等于1的正整数，m为大于或等于1且小于或等于M的正整数；

处理单元，用于根据所述多个训练数据集和所述多个标签信息训练得到质量判断模型。
如权利要求32所述的计算机设备，其特征在于，若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目大于或等于预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面发生卡顿；

若所述M个采样时段中的任一个采样时段的视频会议的多帧图像中图像信息相同且连续的图像数目小于所述预设数量阈值，则所述第一标签信息用于指示所述第一训练数据集对应的视频会议画面没有发生卡顿。
如权利要求33所述的计算机设备，其特征在于，所述预设数量阈值是根据以下公式确定的：

其中，Th表示所述预设数量阈值，Std表示预定义的视频卡顿标准，t表示单帧图像的持续时间。
如权利要求33或34所述的计算机设备，其特征在于，两帧图像的图像信息相同包括所述两帧图像部分或全部画面的质量参数值相同，所述质量参数值根据拉普拉斯算子、Brenner梯度函数或者Tenengrad梯度函数确定。
如权利要求32至35中任一项所述的计算机设备，其特征在于，所述多个采样时段中的每个采样时段的视频会议画面包括随时间变化的视觉元素。
一种确定视频会议质量的系统，其特征在于，所述系统包括如权利要求19至31中任一项所述的计算机设备，和如权利要求32至36中任一项所述的计算机设备。
一种计算机可读存储介质，用于储存为计算机所用的计算机软件指令，其包含用于执行权利要求1至13任一所述包括的各个步骤的程序，或者包含用于执行权利要求14至18任一所述包括的各个步骤的程序。