WO2022237381A1

WO2022237381A1 - 保存会议记录的方法、终端及服务器

Info

Publication number: WO2022237381A1
Application number: PCT/CN2022/084641
Authority: WO
Inventors: 张宏波; 丁科芝; 范克磊; 王金童; 逯林虎; 刘清超
Original assignee: 聚好看科技股份有限公司
Priority date: 2021-05-08
Filing date: 2022-03-31
Publication date: 2022-11-17
Also published as: CN117044191A

Abstract

本申请公开了一种终端，包括存储器和控制器，该存储器，配置为存储数据和计算机指令，该控制器，被配置为运行计算机指令使得该终端：响应于视频会议开始，采集外部声音，其中该外部声音是指在该终端周围产生的声音；将该外部声音对应的语音流发送到服务器，以使该服务器根据该语音流生成文字内容；和/或，接收服务器发送的文字内容；控制显示器显示所该文字内容；和/或，发送查看会议记录的请求到服务器；接收该会议记录，该会议记录根据该文字内容生成。

Description

保存会议记录的方法、终端及服务器

本申请要求在2021年5月8日提交的、申请号为202110501846.3，要求在2021年8月6日提交的、申请号为202110901327.6，要求在2021年9月24日提交的、申请号为202111120242.0，要求在2021年9月24日提交的、申请号为202111119843.X，以及，要求在2021年10月28日提交的、申请号为202111261746.4的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及语音识别。

背景技术

当前，很多场合下需要对用户的发言内容进行存储，以备后续使用。示例性的，视频会议、本地会议、在线教育、线下培训和发布会等发言场合，均需要将发言内容存储。相关技术中，通常通过人工记录发言内容。但是，人工记录发言内容存在一定弊端，一方面浪费人力，另一方面记录的内容可能存在错误。所以，如何保证发言内容记录的准确性以及高效率，成为本领域技术人员亟待解决的问题。

发明内容

本申请实施方式提供一种终端，包括存储器和控制器，所述存储器，配置为存储数据和计算机指令，所述控制器，配置为运行计算机指令使得所述终端：响应于视频会议开始，采集外部声音，其中所述外部声音是指在所述终端周围产生的声音；将所述外部声音对应的语音流发送到服务器；和/或，接收服务器发送的文字内容；控制显示器显示所述文字内容；和/或，发送查看会议记录的请求到服务器；接收所述会议记录。

本申请实施例还提供一种保存会议记录的方法，应用于所述的终端，包括：响应于视频会议开始，采集外部声音，其中所述外部声音是指在所述终端周围产生的声音；将所述外部声音对应的语音流发送到服务器；和/或，接收服务器发送的文字内容；控制显示器显示所述文字内容；和/或，发送查看会议记录的请求到服务器；接收所述会议记录。

附图说明

图1中示出了根据一些实施例的显示设备的使用场景；

图2中示出了根据一些实施例的控制装置100的硬件配置框图；

图3中示出了根据一些实施例的显示设备200的硬件配置框图；

图4中示出了根据一些实施例的显示设备200中软件配置图；

图5中示出了根据一些实施例的一种保存发言内容的方法的信令图；

图6中示出了根据一些实施例的一种保存发言内容的方法的流程图；

图7中示出了根据一些实施例的多人通话场景示意图；

图8中示出了根据一些实施例的显示多人通话界面的流程示意图；

图9中示出了根据一些实施例的多人通话界面示意图；

图10中示出了根据一些实施例的设置初始顺序的流程示意图；

图11中示出了根据一些实施例的自动调整显示顺序的流程示意图；

图12中示出了根据一些实施例的视频显示顺序调整方法流程示意图；

图13中示出了根据一些实施例的移动窗口位置示意图；

图14中示出了根据一些实施例的生成自定义顺序的流程示意图；

图15中示出了根据一些实施例的点击窗口布局选项示意图；

图16中示出了根据一些实施例的窗口布局界面示意图；

图17中示出了根据一些实施例的窗口设置界面示意图；

图18中示出了根据一些实施例的用户列表界面示意图；

图19中示出了根据一些实施例的调整后多人通话界面示意图；

图20中示出了根据一些实施例的替换通话数据流的流程示意图；

图21中示出了根据一些实施例的视频会议场景时序图；

图22中示出了根据一些实施例的字幕生成方法的流程示意图；

图23中示出了根据一些实施例的目标图像的界面示意图；

图24中示出了根据一些实施例的字幕显示界面的示意图；

图25中示出了根据一些实施例字幕位置的设置方法的流程示意图；

图26中示出了根据一些实施例的目标图像的界面示意图；

图27中示出了根据一些实施例的字幕显示界面示意图；

图28中示出了根据一些实施例的字幕显示界面示意图；

图29中示出了根据一些实施例的启动共享桌面的时序示意图；

图30中示出了根据一些实施例的字幕生成及显示的时序示意图；

图31中示出了根据一些实施例的字幕生成及显示的时序示意图；

图32中示出了根据一些实施例的视频会议的场景示意图；

图33中示出了根据一些实施例的会议纪要生成方法的流程示意图；

图34中示出了根据一些实施例的会议纪要生成方法的部分时序示意图；

图35中示出了根据一些实施例的会议应用的界面示意图；

图36中示出了根据一些实施例的会议纪要生成方法的部分时序示意图；

图37中示出了根据一些实施例会议应用的界面示意图；

图38中示出了根据一些实施例的会议纪要生成方法的部分时序示意图；

图39中示出了根据一些实施例的会议应用的界面示意图；

图40中示出了根据一些实施例的会议纪要生成方法的部分时序示意图；

图41中示出了根据一些实施例的会议应用的界面示意图；

图42中示出了根据一些实施例的会议纪要生成方法的部分时序示意图；

图43中示出了根据一些实施例的会议纪要的界面示意图。

具体实施方式

为使本申请的目的和实施方式更加清楚，下面将结合本申请示例性实施例中的附图，对本申请示例性实施方式进行清楚、完整地描述，显然，描述的示例性实施例仅是本申请一部分实施例，而不是全部的实施例。

需要说明的是，本申请中对于术语的简要说明，仅是为了方便理解接下来描述的实施方式，而不是意图限定本申请的实施方式。除非另有说明，这些术语应当按照其普通和通常的含义理解。

本申请中说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”等是用于区别类似或同类的对象或实体，而不必然意味着限定特定的顺序或先后次序，除非另外注明。应该理解这样使用的用语在适当情况下可以互换。

图1为根据实施例中显示设备的使用场景的示意图。如图1所示，显示设备200还与服务器400进行数据通信，用户可通过智能设备300或控制装置100操作显示设备200。

在一些实施例中，控制装置100可以是遥控器，遥控器和显示设备的通信包括红外协议通信或蓝牙协议通信，及其他短距离通信方式中的至少一种，通过无线或有线方式来控制显示设备200。用户可以通过遥控器上按键、语音输入、控制面板输入等至少一种输入用户指令，来控制显示设备200。

在一些实施例中，智能设备300可以包括移动终端、平板电脑、计算机、笔记本电脑，AR/VR设备等中的任意一种。

在一些实施例中，也可以使用智能设备300以控制显示设备200。例如，使用在智能设备上运行的应用程序控制显示设备200。

在一些实施例中，也可以使用智能设备300和显示设备进行数据的通信。

在一些实施例中，显示设备可以不使用上述的智能设备或控制设备接收指令，而是通过触摸或者手势等接收用户的控制。

在一些实施例中，显示设备200还可以采用除了控制装置100和智能设备300之外的方式进行控制，例如，可以通过显示设备200设备内部配置的获取语音指令的模块直接接收用户的语音指令控制，也可以通过显示设备200设备外部设置的语音控制装置来接收用户的语音指令控制。

在一些实施例中，显示设备200还与服务器400进行数据通信。

图2示例性示出了根据示例性实施例中控制装置100的配置框图。如图2所示，控制装置100包括控制器110、通信接口130、用户输入/输出接口140、存储器、供电电源。控制装置100可接收用户的输入操作指令，且将操作指令转换为显示设备200可识别和响应的指令，起用用户与显示设备200之间交互中介作用。

在一些实施例中，通信接口130用于和外部通信，包含WIFI芯片，蓝牙模块，NFC或可替代模块中的至少一种。

在一些实施例中，用户输入/输出接口140包含麦克风，触摸板，传感器，按键或可替代模块中的至少一种。

图3示出了根据示例性实施例中显示设备200的硬件配置框图。

在一些实施例中，显示设备200包括调谐解调器210、通信器220、检测器230、外部装置接口240、控制器250、显示器260、音频输出接口270、存储器、供电电源、用户接口中的至少一种。

在一些实施例中控制器包括中央处理器，视频处理器，音频处理器，图形处理器，RAM，ROM，用于输入/输出的第一接口至第n接口。

在一些实施例中，显示器260包括用于呈现画面的显示屏组件，以及驱动图像显示的驱动组件，用于接收源自控制器输出的图像信号，进行显示视频内容、图像内容以及菜单操控界面的组件以及用户操控UI界面等。

在一些实施例中，显示器260可为液晶显示器、OLED显示器、以及投影显示器中的至少一种，还可以为一种投影装置和投影屏幕。

在一些实施例中，调谐解调器210通过有线或无线接收方式接收广播电视信号，以及从多个无线或有线广播电视信号中解调出音视频信号，如以及EPG数据信号。

在一些实施例中，通信器220是用于根据各种通信协议类型与外部设备或服务器进行通信的组件。例如：通信器可以包括Wifi模块，蓝牙模块，有线以太网模块等其他网络通信协议芯片或近场通信协议芯片，以及红外接收器中的至少一种。显示设备200可以通过通信器220与控制装置100或服务器400建立控制信号和数据信号的发送和接收。

在一些实施例中，检测器230用于采集外部环境或与外部交互的信号。例如，检测器230包括光接收器，用于采集环境光线强度的传感器；或者，检测器230包括图像采集器，如摄像头，可以用于采集外部环境场景、用户的属性或用户交互手势，再或者，检测器230包括声音采集器，如麦克风等，用于接收外部声音。

在一些实施例中，外部装置接口240可以包括但不限于如下：高清多媒体接口接口(HDMI)、模拟或数据高清分量输入接口(分量)、复合视频输入接口(CVBS)、USB输入接口(USB)、RGB端口等任一个或多个接口。也可以是上述多个接口形成的复合性的输入/输出接口。

在一些实施例中，控制器250和调谐解调器210可以位于不同的分体设备中，即调谐解调器210也可在控制器250所在的主体设备的外置设备中，如外置机顶盒等。

在一些实施例中，控制器250，通过存储在存储器上中各种软件控制程序，来控制显示设备的工作和响应用户的操作。控制器250控制显示设备200的整体操作。例如：响应于接收到用于选择在显示器260上显示UI对象的用户命令，控制器250便可以执行与由用户命令选择的对象有关的操作。

在一些实施例中控制器包括中央处理器(Central Processing Unit，CPU)，视频处理器，音频处理器，图形处理器(Graphics Processing Unit，GPU)，RAM Random Access Memory，RAM)，ROM(Read-Only Memory,ROM)，用于输入/输出的第一接口至第n接口，通信总线(Bus)等中的至少一种。

CPU处理器。用于执行存储在存储器中操作系统和应用程序指令，以及根据接收外部输入的各种交互指令，来执行各种应用程序、数据和内容，以便最终显示和播放各种音视频内容。CPU处理器，可以包括多个处理器。如，包括一个主处理器以及一个或多个子处理器。

在一些实施例中，用户输入接口280，为可用于接收控制输入的接口(如：显示设备本体上的实体按键，或其他等)。

在一些实施例中，显示设备的系统可以包括内核(Kernel)、命令解析器(shell)、文件系统和应用程序。

参见图4，在一些实施例中，将系统分为四层，从上至下分别为应用程序(Applications)层(简称“应用层”)，应用程序框架(Application Framework)层(简称“框架层”)，安卓运行时(Android runtime)和系统库层(简称“系统运行库层”)，以及内核层。

当前，很多场合下需要对会议记录进行存储，以备后续使用。示例性的，视频会议、本地会议、在线教育、线下培训和发布会等发言场合，均需要存储相应的会议记录。相关技术中，通常通过人工记录会议记录后存储。但是，人工记录会议记录存在一定弊端，一方面浪费人力，另一方面记录的内容可能存在错误。所以，如何保证会议记录的准确性以及记录的高效率，成为本领域技术人员亟待解决的问题。

本申请实施例中的终端可以为显示设备，也可以为其他任何具备收音能力的电脑、手机或录音笔等设备。

在一些实施例中，所述会议记录中包含至少一条发言内容。在不同的场景下，所述发言内容的来源可能不同。在一些实施例中，所述发言内容可能是通过一个终端获取到的内容，示例性的，线下培训时，发言者直接面对若干观众，此时可以将终端的收音功能开启，该终端接收发言者的语音，此时会议记录中发言内容可以通过该终端全部获得。在另一些实施例中，所述会议记录中的发言内容可以是通过多个终端获取到的内容，示例性的，在视频会议中多人通过不同终端发言，不同终端接收对应用户的语音，此时会议记录中发言内容为通过多个终端获得。

下面分别针对会议记录是通过一个终端和多个终端形成会议记录的两种情况，对如何保存会议记录进行具体说明。

首先详细说明会议记录是通过多个终端形成的情况，此时如何保存会议记录。本申请实施例中，为了便于说明，采用存在多个用户通过不同终端发言的远程视频场景进行说明。

本申请实施例提供一种保存会议记录的方法，可以将多个终端获取到的内容保存为会议记录。如图5所示，所述方法包括：

终端(还可以称为第一终端)响应于视频会议开始，采集外部声音，其中所述外部声音是指在所述终端周围产生的声音；将所述外部声音对应的语音流发送到服务器。在一些实施例中，所述语音流不断的下发到服务器。

在一些实施例中，所述终端可以内置或外接声音采集器，该声音采集器可以采集声音。

在一些实施例中，所述终端响应于视频会议开始，接收到用户通过操作生成采集外部声音指令后，开始采集声音。可以理解为，一些情况下，终端可以通过用户的设置，确定是否采集外部声音。当视频会议开始后，如果用户不希望在视频会议中发言，此时可以通过设置，关闭采集外部声音的功能。当希望在视频会议中发言时，开启采集外部声音的功能，这样终端可以实时采集终端周围产生的声音。服务器接收终端发送的语音流，发送所述语音流到对端(还可以称为第二终端)。本申请实施例中，所述对端是其他用户使用的终端。示例性的，所述对端可以是远程视频中的与本地用户连接的其他用户使用的终端。当语音流发送到对端时，对端播放该语音流，这样使用对端的用户可以听到对应的语音。

在一些实施例中，对端也可以采集外部声音。所述对端将与自身采集的外部声音对应的语音流发送到服务器，服务器发送语音流到终端。也就是说，处于同一视频会议中的终端A(终端)和终端B(对端)可以互相接收并播放对方通过服务器发送语音流。

本申请实施例中，服务器将接收的终端发送的所述语音流转换为文字内容，将文字内容发送到对端，并将所述文字内容进行处理，将处理后的文字内容作为会议记录中的发言内容保存，所述会议记录中包括从会议开始到会议结束的所有发言内容。在一些实施例中，从语音流转换得到的文字内容中，可能存在一些无用的或者不清楚等问题的内容，本申请实施例中，将所述文字内容进行处理，将所述文字内容中存在的问题消除，最终得到的会议记录可以清晰的记录本次视频会议的全部发言内容。

一些实施例中，为了明确当前发言的发言人，终端发送设备标识和用户标识到服务器。服务器根据所述设备标识和用户标识，确定发言人名字。本申请实施例中，预先存储有设备标识、用户标识和发言人名字相对应的数据表。当确定设备标识和用户标识时，利用该数据表查找对应的发言人名字。

其中，所述设备标识是终端的唯一标识，在一些实施例中，所述设备标识可以利用数字和/或字母等组成。所述用户标识可以为用户账号，在参与远程网络会议时，用户可以通过登录用户账号，进入到远程网络会议中。

在一些实施例中，多个终端可以同时登录一个用户账号，多人通过登录该用户账号的不同终端，进入到远程网络会议中。从数据表中筛选出预先存储的用户标识中的与本次发送到服务器中的用户标识相同的用户标识。如果筛选出的用户标识的数量为一个，则确定发言人名字为与筛选出的用户标识对应的发言人名字。如果筛选出用户标识的数量为多个，则分别确定与每个用户标识相对应的预先存储的设备标识。从确定的设备标识中筛选出与本次发送到服务器中的设备标识相同的设备标识。将筛选出的设备标识对应的发言人名字，作为确定的发言人名字。因此，本申请实施例中，在多个终端同时登录一个用户账号时，仍能区分当前发言的发言人。

在一些实施例中，每个终端只可以登录一个用户账号，利用用户标识和发言人名字作为两个元素组成数据表。具体的，从数据表中筛选与发送到服务器中的用户标识相同的用户标识，并确定发言人名字为与筛选出的用户标识相对应的发言人名字。

在存储会议记录时，将所述发言人名字与发言内容对应保存，所述发言人名字用区分所述文字内容的来源，换句话说，所述发言人名字可以确定所述发言内容的发言人和/或，将所述发言人名字发送到对端，以使所述对端在显示所述文字内容的同时，显示所述发言人名字。本申请实施例中，在与所述文字内容的对应位置处显示发言人名字，这样可以使用户清楚的看到该段文字内容的发言人。

所述终端接收服务器发送的文字内容，控制显示器显示所述文字内容。本申请实施例中，在对端显示文字内容的同时，也控制终端本地显示文字内容，提升用户使用感受。

在一些实施例中，为了明确发言人的发言人时间，所述方法还包括：服务器确定发言人发言时间；在存储会议记录时，将发言时间与发言内容对应保存，和/或发送所述发言时间到对端，以使所述对端在显示所述文字内容的同时，显示所述发言时间。

在一些实施例中，所述确定发言人发言时间的步骤包括：确定接收到的与所述文字内容对应语音流的时间，将所述时间作为发言时间。在一些实施例中，终端不断发送语音流的同时，发送与语音流对应的时间，示例性的，语音流A对应的时间为1点58分2秒，语音流B 对应的时间为1点58分3秒。本申请实施例中，当转换得到文字内容后，可以确定与该文字内容对应语音流，并确定语音流的时间，将该时间作为发言时间。需要解释的是，与语音流对应的时间可以为终端接收到外部声音后生成语音流的时间。

在一些实施例中，所述时间发送到对端，在对端与所述文字内容对应位置处显示所述时间。示例性的，所述时间可以为21年4月5日13点58分，文字内容可以为开始当前会议。这样用户可以清楚的了解到发言人的发言时间，提高用户的使用感受。

一些实施例中，所述发言内容可以以表格的形式存储，按照时间顺序排列。示例性的，发言人姓名、文字内容和时间各占一列。

一些实施例中，所述将文字内容进行处理的步骤，如图6所示，包括：

S100、将所述文字内容进行分词，得到至少一个词语。一些实施例中，所述文字内容进行分词的步骤包括：数据库中存在若干词语，将文字内容与数据库中的词语匹配，如果文字内容中存在数据库中的词语，将该词语作为，文字内容进行分词得到的词语。

S200、确定所述词语是否为无用词或者专用词。本申请实施例中，设置有无用词库和专用词校矫正库。在无用词库中存储有无用词。在专用词矫正库中存储有专用词以及与其对应的矫正词。所述无用词是指没有含义的词语，例如，嗯，啊等。所述专用词是错误的专用词语，所述矫正词是指正确的专用词语。

S300、如果所述词语为无用词，则将文字内容中的所述词语删除。

如果所述词语为专用词，则将文字内容中的专用词替换为预设的矫正词。由于文字内容的专用词可能是本领域技术人员熟悉了解的某一技术的俗称，由于发言内容保存后是为了便于以后查看使用，所以俗称可能会出现理解偏差的问题，本申请实施例中，将文字内容中的专业词替换为预设的矫正词，这样可以避免出现偏差的问题，便于用户日后查看。

本申请实施例中，将文字内容进行处理后，将文字内容中无用的词语删除，以及将文字内容中的专用词替换为矫正词，这样处理后的文字内容清晰简洁。

在一些实施例中，所述将文字内容进行处理的步骤可以由自然语言处理服务执行，自然语言处理服务由服务器启用。

在一些实施例中，所述方法还包括：服务器发送所述文字内容到终端和对端；所述终端和对端根据设置信息，确定是否控制显示器显示所述文字内容，其中，所述设置信息包括允许显示或不允许显示。在一些申请实施例中，对端的用户在听语音的同时，还可以看到文字内容。但是终端和对端的显示器上是否显示文字内容，可以通过设置信息确定，这样可以提高用户的使用感受，示例性的，如果当前显示界面还显示其他内容，用户并不想让文字内容遮挡当前播放的内容，则可以将设置信息设置为不允许显示。在一些实施例中，所述设置信息为允许显示，则控制显示器显示所述文字内容；所述设置信息为不允许显示，则不控制显示器显示所述文字内容。

在一些实施例中，为了节约资源，服务器首先判断设置信息的具体内容，根据设置信息，确定是否发送文字内容到终端或对端。一些实施例中，服务器根据终端的设置信息和对端的设置信息，确定是否发送文字内容到终端和对端。如果终端的设置信息包括允许显示，发送文字内容到终端，终端将文字内容显示在显示器上。如果终端的设置信息包括不允许显示，则不发送文字内容到终端。服务器根据对端的设置信息，确定是否发送文字内容到对端的具体方法，和有关终端的内容相同，在此不再赘述。这样如果终端设置信息包括不允许显示，则服务器无需发送文字内容到终端，这样可以减少占用服务器资源。

在一些实施例中，终端按照所述时间的顺序将文字内容逐条显示在显示器上。本申请实施例中，将多个终端的文字内容显示在显示器上时，按照文字内容对应时间的顺序显示。一些实施例中，可以限制显示所述文字内容的数量，示例性的，所述文字内容的数量可以为四个。另外，由于对端接收到文字内容的时间稍晚于接收到音频流(语音流)的时间，这样就会导致用户看到文字内容和听到声音出现不同步的现象，所以本申请实施例在显示器上同时显示多个文字内容，这样可以使用户忽略看到文字内容和听到声音出现不同步的现象，减少用户的不良感受。

在一些实施例中，用户可以通过终端查看存储的会议记录。所述方法包括：

服务器接收终端发送的查看会议记录的请求，查找预先存储的会议记录，并发送所述会议记录到终端，以使终端显示所述会议记录。这样用户可以随时查找会议记录，了解当时会议的会议内容。

在一些实施例中，用户可以通过控制装置按压用户界面上的控件，生成显示会议记录的用户输入。终端接收到该用户输入后，发送查看对应的查看会议记录的请求到服务器，服务器查找到会议记录后，反馈给终端。终端显示该会议记录。

本申请实施例中，在存储会议记录时，确定会议记录对应的会议标识，这样便于用户区分不同会议的会议记录。一些实施例中，该会议标识可以包括会议时间，发言人名字等内容，所述会议时间可以为会议开始时间和/或会议结束时间。在一些实施例中，会议标识可以根据会议记录自动生成。在另一些实施例中，会议标识可以为人为确定，用户根据会议记录确定关键词，将关键词作为会议标识。在一些实施例中，在生成显示会议记录的用户输入之前，可以控制显示器显示控件的同时，显示与控件对应的会议标识。用户通过分辨会议标识，确定想要查看的会议记录，并通过控制装置按压用户界面上对应的控件。

在一些实施例中，为了减少占用服务器资源，所述文字内容利用终端处理，不利用服务器处理。具体的，终端接收外部声音，并将所述外部声音对应的语音流转换为文字内容，终端直接将所述文字内容进行处理，将处理后的文字内容发送到服务器，服务器将处理后的文字内容保存。

上述内容为将多个终端获取到的内容见过转换保存为会议记录的情况，下面说明将一个终端获取到的内容保存为会议记录的情况，示例性的，场景可以为本地会议等，多人开会时利用一个终端确定会议记录。

本申请实施例提供一种保存发言内容的方法，可以将一个终端获取到的内容保存为会议记录，所述方法包括：

终端采集外部声音，并将外部声音对应的语音流发送到服务器；

服务器将所述语音流转换为文字内容，将所述文字内容进行处理，将处理后的文字内容作为会议记录中的发言内容保存。

本申请实施例中，与通过多个终端获取到的内容转换保存为会议记录的实施例的内容，除了没有涉及对端的参与，其余步骤均相同，在此不在赘述。

在一些实施例中，为了进一步准确确定发言人名字，还可以采用声纹识别方法。在一些实施例中，一个终端采集的外部声音可能包括多个发言人的发言内容，可以理解的场景是多人通过一个终端参加视频会议。为了更准确的区分发言人，可以通过声纹识别方法，确定当前发言的发言人。

上述实施例中，一种保存会议记录的方法、终端及服务器，本申请实施例将文字内容进行处理，得到简化和准确的文字内容，将其作为会议记录中的发言内容自动保存，提高记录会议记录的效率以及准确性。该方法包括：接收终端发送的语音流，发送所述语音流到对端；将所述语音流转换为文字内容，将文字内容发送到对端，并将所述文字内容进行处理，将处理后的文字内容作为会议记录中的发言内容保存。

本申请实施方式还提供一种计算机可读的非易失性存储介质，其上存储有计算机指令，所述计算机指令被处理器执行时使得计算机设备执行：

响应于视频会议开始，采集外部声音，其中所述外部声音是指在所述终端周围产生的声音；将所述外部声音对应的语音流发送到服务器；

和/或，接收服务器发送的文字内容；控制显示器显示所述文字内容；

和/或，发送查看会议记录的请求到服务器；接收所述会议记录。

在进行视频会议时，为了便于用户在参与视频会议时，按照自身需求调整用户界面上视频通话窗口，本申请实施例中提供了一种显示设备及视频显示顺序调整方法。

上述显示设备200还可以实现社交功能，即不同的用户可以通过不同的显示设备200实现视频通话或音频通话。为了实现社交功能，显示设备200可以内置或外接图像采集装置和/或音频输入装置。如图7所示，在显示设备200上可以设置摄像头，用于采集显示设备200前方用户的图像信息。显示设备200上还可以设有麦克风，用于采集用户的声音信息。在执行社交功能时，显示设备200可以通过运行社交类应用程序，启用摄像头和麦克风采集视频数据和音频数据。再通过通信器220将视频数据和音频数据发送给服务器400，以通过服务器400将视频数据和音频数据转发给其他显示设备。

同理，其他显示设备也可以按照上述方式向服务器400发送视频数据和音频数据。因此显示设备200在发送视频数据和音频数据的同时，还可以从服务器400获取其他显示设备发送的视频数据和音频数据，并对获取到的视频数据进行显示，对获取到的音频数据进行声音播放，实现与其他显示设备之间的视频通话和音频通话。

显示设备200还可以基于上述社交功能，实现多人视频通话。即社交类应用可以通过服务器400搭建多人通话平台，多个显示设备200可以通过运行相同的社交类应用连接至多人通话平台。当其中一个显示设备200向平台上传音视频数据时，其余平台可以同时订阅该音视频数据对应的数据流，使同时参与通话的多个显示设备200可以相互获取音视频数据，实现多人通话。

为了实现上述多人通话功能，如图8所示，在一些实施例中，显示设备200可以获取用户输入的用于开启或加入多人视频通话的入会指令。例如，显示设备200上可以安装“××会议”、“×link”等视频会议应用程序，当用户在启动该应用程序后，可以输入预定的会议ID，并在已经开启多人通话的时间后，点击“加入”选项，使显示设备200可以接入该会议ID所对应的会议平台，使显示设备200可以从服务器400接收来自其他参与会议的显示设备的视频数据和/或音频数据，加入多人通话。

在加入多人通话后，显示设备200可以跳转至多人通话过程对应的用户界面。如图9所示，在多人通话用户界面中，可以包括多个用于显示视频通话内容的窗口，即视频通话窗口。从服务器400获取的，来自多个不同显示设备200的视频数据可以分别在每个视频通话窗口中进行显示。

用户界面中多个视频通话窗口可以按照默认的顺序进行排列，以便用户观看。例如，可以按照参与会议用户的身份信息对视频通话窗口进行顺序排列，即在用户界面中可以优先显示会议的主持人、显示设备200本端画面。具体在用户界面中，可以从上至下多行显示，每行从左至右依次显示主持人画面窗口、本端画面窗口。

当参与多人会议的人数显示设备200数量较多时，部分用户未设置身份信息或者多个用户的身份信息类别相同，因此显示设备200还可以按照特定的排列规则对其余视频通话窗口的顺序进行排列。例如，显示设备200在用户界面上优先显示主持人和本端窗口的同时，还可以通过检测各显示设备200的硬件开启状态，从而按照硬件状态对多个通话窗口进行排序。

即显示设备200在获取用户输入的入会指令后，可以从服务器400获取参会列表信息，以根据参会列表信息设置多个视频通话窗口的显示顺序。其中，所述参会列表信息包括用户ID和音视频状态。用户ID可以是基于应用程序服务商注册的用户名；也可以是服务器400通过检测显示设备200并认证通过后的设备名，如mac地址、网络地址等。音视频状态则是用于表示显示设备200的音频数据和视频数据输出状态的数据。例如，部分显示设备200在入会后未开启摄像头，则只能够通过音频方式进行交流；部分显示设备200在入会后未开启麦克风，则只能够通过视频方式进行交流。

为了便于进行交流，显示设备200可以在用户界面中优先显示既开启视频又开启音频的用户所对应窗口，再依次显示未开启视频但开启音频用户的窗口、开启视频但未开启音频用户的窗口以及未开启视频也未开启音频用户的窗口。

为此，如图10所示，在一些实施例中，显示设备200可以在根据参会列表信息设置所述初始顺序的步骤中，先获取当前视频对话中为用户ID设置的身份信息，以基于身份信息设置第一优先级。例如，显示设备200可以在用户入会后，在参会列表信息中提取每个参与者的用户ID，并根据用户ID在数据库中匹配每个用户在当前会议中的身份信息，以确定身份信息为当前会议主持人的用户。同时，对于每个入会的显示设备200还可以对本端用户ID进行记录，以确定身份信息为本端的用户。

针对不同的视频通话过程，可以根据具体需要设置其他的身份信息。例如，按照管理层级关系设置多个身份信息等级；按照地理位置设置多个身份信息等。同时，如果一个用户ID对应未设置有身份信息时，可以将其默认为普通参会人员。因此，在获取身份信息后，显示设备200可以按照身份信息设置用户ID对应窗口的显示顺序。例如，可以在用户界面中先显示主持人窗口，再显示本端窗口，最后显示普通参会人员对应的窗口。

显然，当同一个身份信息对应的窗口数量较多时，显示设备200可以再从音视频状态中解析音频开关值和视频开关值，并根据音频开关值和视频开关值计算判断值，基于判断值设置第二优先级。其中，判断值为音频开关值和视频开关值的加权求和结果。并且为了重点突出特殊身份的用户窗口，可以设置所述第一优先级高于所述第二优先级。

例如，音频开关值可以在用户开启音频时赋值为1，在用户未开启音频时赋值为0；同理，视频开关值也可以在用户开启视频时赋值为1，在用户未开启视频时赋值为0。再根据不同的会议类型，设置音频开关值和视频开关值的权值，即对于通话为主的会议，可以设置音频权值大于视频权值，如音频权值为0.6，视频权值为0.4；而对于演示为主的会议，可以设置音频权值小于视频权值，如音频权值为0.4，视频权值为0.6。

再根据设置的权值和开关值，计算各用户ID对应的判断值。即对于既开启视频又开启音频的用户ID，其判断值P1＝0.6×1+0.4×1＝1；对于未开启视频但开启音频用户，其判断值P2＝0.6×1+0.4×0＝0.6；对于开启视频但未开启音频用户，其判断值P3＝0.6×0+0.4×1＝0.4；对于未开启视频也未开启音频用户其判断值P4＝0.6×0+0.4×0＝0。通过计算每个用户ID对应的判断值以后，可以通过对比判断值的大小，确定多个窗口的显示顺序，即在用户界面中依次显示主持人窗口、本端窗口、既开启视频又开启音频用户窗口、未开启视频但开启音频用户窗口、开启视频但未开启音频用户窗口以及未开启视频也未开启音频用户的窗口。

可见，在每个用户加入多人通话时，都可以按照上述显示顺序的确定方法对用户界面中的视频通话窗口进行排序。为了便于描述，本申请实施例中可以将上述方式确定的排列顺序称为初始顺序。显示设备200可以通过服务器400订阅每个视频窗口对应显示是视频数据流，并按照初始顺序，在用户界面中绘制多个视频通话窗口，以便对获取的视频数据流进行显示。

如图11所示，在一些实施例中，显示设备200还可以根据会议的实际参与状态对显示顺序进行调整。即显示设备200可以通过服务器400监听用户界面中每个视频通话窗口的音视频状态。例如，服务器400可以维护一个实时更新的数据表，在数据表中可以记载有参与多人通话的每个显示设备200的硬件开启状态。当任一显示设备200开启或关闭音频(或视频)时，服务器400可以检测到相应的状态，并在数据表中进行更改。修改后的数据表参数可以随着数据流发送给参与视频通话的每个显示设备200，以使显示设备200可以监听用户界面中每个视频通话窗口的音视频状态。

如果任一视频通话窗口的音视频状态发生改变，则可以根据改变后的音视频状态重新计算第二优先级；并按照重新计算的第二优先级调整视频通话窗口的显示顺序。例如，当一个未开启视频但开启音频用户的显示设备200在参与会议的过程中开启了视频，则其对应的音视频状态发生改变，即视频开关值从“0”更改为“1”。因此，该用户ID对应的判断值将从“0.6”更改为“1”，从而可以按照重新计算的判断值调整该用户ID对应窗口的显示顺序，将该窗口的显示位置提前。

可见，基于上述实施例中提供的视频通话窗口显示方法，应用程序可以在每个显示设备200上显示按照初始顺序排列的视频通话窗口的用户界面。但是，由于用户对多人通话的需求是不同的，因此不同用户对窗口显示顺序的要求也不同。例如，在视频会议过程中，因具体场景需要，用户可能对视频通话窗口的显示顺序进行调整，如重要参会嘉宾靠前，普通参会人员靠后。

为此，在本申请的部分实施例中提供一种视频显示顺序调整方法，该方法可以应用于上述实施例中提供的显示设备200。为满足方法实施过程的需要，显示设备200可以包括显示器260、通信器220以及控制器250。其中，显示器260可以被配置为显示用户界面，并且所述用户界面中包括按初始顺序显示的多个视频通话窗口。通信器220被配置为连接服务器400，以从服务器400获取多人通话过程中的通话数据流和相关数据。如图12所示，控制器250则被配置为执行上述所述视频显示顺序调整方法，具体包括以下内容：

获取用户输入的用于调整视频通话窗口显示顺序的控制指令。其中，用于调整视频通话窗口显示顺序的控制指令，可以由一系列交互动作完成。例如，在多人通话用户界面中可以设有顺序调整选项，当用户点击该选项时，可以触发用户界面进入设置状态，此时，用户可以通过显示设备200配套的控制装置100进行按键操作，通过按下方向键和确认键，对用户界面中的视频通话窗口执行“选中-调整位置-取消选中”等动作。即用于调整视频通话窗口显示顺序的控制指令可以通过一系列按键操作完成输入。

对于部分显示设备200，其可以支持更多形式的交互方式，因此可以通过对应的交互方式完成所述控制指令的输入。例如，对于支持触控交互操作的显示设备200，用户可以通过长按预调整显示位置的视频通话窗口，触发用户界面进入设置状态。再通过滑动操作，带动手指位置处的视频通话窗口进行位置移动。在将视频通话窗口移动至目标位置后，用户可以松开手指，使视频通话窗口维持在目标位置上。即用于调整视频通话窗口显示顺序的控制指令可以通过触控交互操作完成输入。

显示设备200还可以通过显示特定的窗口设置界面以供用户输入上述调整视频通话窗口显示顺序的控制指令。例如，在用户界面中可以包括窗口设置选项，当用户选中该窗口设置选项后，显示设备200可以跳转至显示窗口设置界面，窗口设置界面中可以包括用于表示每个视频通话窗口的选项，用户可以按顺序依次在多个选项中进行选择，以设定显示顺序。即用于调整视频通话窗口显示顺序的控制指令可以通过选中用户界面上的特定选项完成输入。

在用户输入用于调整视频通话窗口显示顺序的控制指令后，显示设备200可以响应于该控制指令，从控制指令中提取目标窗口识别信息和自定义顺序。其中，所述目标窗口为所述控制指令中指定的被调整显示顺序的视频通话窗口，自定义顺序则是由用户在输入控制指令时，通过特定交互动作设定的显示顺序。

例如，如图13所示，用户在触发显示设备200进入对用户界面的设置状态后，选中当前用户界面中窗口编号为003的视频通话窗口，即选中的视频通话窗口为目标窗口。再通过按下控制装置100上的方向键，将目标窗口调整至001号窗口位置上。因此，显示设备20可以提取被调整窗口的用户ID，即目标窗口识别信息。同时获得自定义顺序，即调整后的各窗口的排序。

在获取目标窗口识别信息和自定义顺序后，显示设备200还可以根据目标窗口识别信息，获取目标窗口的通话数据流。目标窗口的通话数据流可以通过多人通话平台中记录的数据表获得，即在一些实施例中，显示设备200可以在根据目标窗口识别信息，获取所述目标窗口的通话数据流的步骤中，遍历目标窗口的用户ID。再基于遍历结果，向服务器400发送数据订阅请求，即所述数据订阅请求包括用户ID。服务器400可以在接收到数据订阅请求后，根据请求中包含的用户ID查询其对应的数据流通道信息，并向显示设备200反馈查询到的数据流通道信息。

显示设备200再接收服务器400针对所述数据订阅请求反馈的数据流通道信息，以连接用户ID对应的数据流通道，获取通话数据流。例如，在选中窗口编号为003的视频通话窗口的同时，则003窗口对应的用户ID：xx0003，则显示设备200可以向服务器400发送数据订阅请求，使服务器400能够根据数据订阅请求查询xx0003对应的数据流通道信息，如channel003。再向显示设备200反馈查询到的数据流通道信息，以使显示设备200可以通过订阅该数据流通道，获得xx0003用户的视频数据和/或音频数据。

在获取目标窗口对应的通话数据流后，显示设备200可以按照控制指令中解析的自定义顺序，使用通话数据流替换用户界面中视频通话窗口的显示内容。例如，在将窗口编号为003的目标窗口调整至001号窗口位置上的过程中，显示设备200可以在获取到用户ID：xx0003对应的通话数据流后，使用该通话数据流替换编号为001的视频通话窗口的显示内容，使编号为001的视频通话窗口可以显示编号为003的目标窗口对应的视频通话画面。

需要说明的是，在调整窗口顺序过程中，当一个显示窗口的显示位置被改变以后，位置改变的过程还可能引发其他窗口的位置改变。例如，在将窗口编号为003的目标窗口调整至001号窗口位置上，则原001号窗口位置对应的视频通话画面需要依序调整至002号窗口位置。同理，002号窗口位置对应的视频通话画面需要调整至003号窗口位置。本实施例中，显示编号为004的视频通话窗口的位置保持不变。因此，在调节过程中，目标窗口并不局限于用户交互动作所直接实施的视频通话窗口，还包括因部分窗口位置调整而引发改变的其他视频通话窗口。

在一些实施例中，如图14所示，当用户通过窗口设置界面输入用于调整显示顺序的控制指令时，显示设备200可以在获取用户输入的用于调整视频通话窗口显示顺序的控制指令的步骤中，先检测用户输入的第一交互动作。其中，所述第一交互动作为用于触发窗口设置界面的交互动作。例如，当多人通话用户界面中包括窗口设置选项时，用户可以通过控制装置100上的按键或者触控操作，点击该窗口设置选项，以输入第一交互动作。

在用户输入第一交互动作后，显示设备200可以响应于所述第一交互动作，跳转至显示窗口设置界面，用于对用户界面中的窗口显示顺序进行调整，因此所述窗口设置界面中包括视频通话窗口选项。例如，在用户点击窗口设置选项后，显示设备200可以跳转至窗口设置界面。在窗口设置界面中，可以包括与多人通话界面中窗口数量相同的选项供用户选择。为了便于用户执行后续操作，在显示设备200所显示的窗口设置界面中，可以包括每个窗口对应的用户ID以及与用户ID相关联的识别信息，如头像、视频通话截图等。

用户可以按照预想的显示顺序，在多个窗口选项中依次进行选择，以自定义窗口的显示顺序。因此，在显示窗口设置界面后，显示设备200可以对用户在窗口设置界面上执行的交互动作进行检测，即检测用户基于所述视频通话窗口选项输入的第二交互动作。其中，所述第二交互动作为用于定义显示顺序的交互动作。例如，第二交互动作为多个窗口选项上的选中操作。

通过对第二交互动作的检测，显示设备200可以实时记录第二交互动作依次选中的视频通话窗口选项，从而生成自定义顺序。例如，当用户在窗口设置界面中依次选中“主持人”、“嘉宾2”、“嘉宾6”时，可以生成自定义顺序为“001窗口——主持人”、“002窗口——嘉宾2”、“003窗口——嘉宾6”，其他窗口用户对应窗口则可以按照初始顺序进行显示。

需要说明的是，通过窗口设置界面定义显示顺序的过程中，显示设备200可以通过多级界面实现顺序定义功能。并且，为了便于选中窗口选项，在显示窗口设置界面时，还可以通过特定选项触发显示窗口选项列表。例如，如图15所示，在用户选中多人通话界面中的“窗口布局”选项后，可以跳转至“窗口布局”界面。如图16所示，在“窗口布局”界面中，可以包括“自定义窗口显示顺序”的选项。当用户选中该选项时，可以触发显示设备200跳转至“窗口设置”界面，如图17所示，“窗口设置”界面中可以提供“根据编号进行显示设置”的设置栏，并通过多个选择框表示每个窗口编号可定义的内容。

在用户选中任一选择框上的“+”按钮时，可以触发显示设备200显示窗口选项列表界面(或对话框)，以从中选择该窗口定义的显示内容。即，如图18所示，用户可以在编号“1”的选择框上点击“+”按钮，触发显示“选择参会者”列表界面，并在其中选中“主持人”选项，以定义在1号窗口位置显示“主持人”对应的视频通话内容，如图19所示。

通过上述窗口设置界面，用户可以更直观的定义窗口显示顺序，并通过简单的选中操作即可达到顺序调整的目的，使显示设备200在按照用户需要依序显示的同时，减轻操作难度，提高用户体验。

如图20所示，在一些实施例中，为了使显示设备200可以按照用户自定义的顺序进行显示，在使用所述通话数据流替换所述用户界面中视频通话窗口的显示内容的步骤中，显示设备200可以先按照原始顺序，提取每个所述视频通话窗口的用户ID，即确定每个窗口的原用户ID；同时按照自定义顺序，提取每个目标窗口的现用户ID，即确定每个窗口的现用户ID。

再对提取的用户ID进行对比，如果原用户ID与现用户ID不同，即当前窗口所显示的内容需要调整，则可以使用目标窗口的通话数据流替换视频通话窗口中的显示内容；如果原用户ID与现用户ID相同，即在当前窗口位置上，初始顺序和自定义顺序所显示的视频通话内容对应用户ID相同，不需要替换该窗口的显示内容，因此可以保留视频通话窗口的显示内容。

为了便于用户参与多人会议，在多人通话界面中可以将一个窗口作为主视频窗口。主视频窗口相对于其他窗口的窗口面积更大，因此可以更清晰的显示对应的视频通话内容。在自定义显示顺序后，如果当前主视频窗对应显示的视频数据流对应用户ID发生改变，因涉及到从服务器400订阅现用户ID的视频流的过程，存在视频流加载过程，该过程会消耗部分时间，因此可以在切换现用户ID对应视频流的过程，则可以在视频流在未拉取到之前，会先显示该用户的默认头像画面。

同理，如果原用户ID与现用户ID不同，即当前窗口的显示内容需要替换时，显示设备200可以检测目标窗口是否开启视频功能，如果目标窗口已开启视频功能，获取目标窗口的通话数据流，以使用通话数据流替换视频通话窗口中的显示内容；如果目标窗口未开启视频功能，获取现用户ID对应的识别画面，以在视频通话窗口中显示识别画面。

例如，当主视频窗切换至用户ID：xx0004后，如果ID为xx0004的用户未开启视频功能，则其向服务器400上传的通话数据流中仅包含音频数据流，不包含视频数据流。因此在将该用户对应的通话数据流切换至主视频窗显示时，不能在主视频窗内形成视频画面。此时，显示设备200可以提取xx0004用户的头像显示在主视频窗中。

当参与多人通话的用户数量较多时，由于用户自定义显示顺序的过程中，一般仅选择其中自己关注的窗口，因此会造成用户自定义的显示顺序中，只包括部分目标窗口。而为了在用户自定义顺序后，显示设备200仍能够对全部用户的通话窗口进行显示，在一些实施例中，显示设备200可以在使用通话数据流替换用户界面中视频通话窗口的显示内容的步骤中，获取目标窗口数量和用户界面的窗口总数量，并对获取的取目标窗口数量和用户界面的窗口总数量进行对比。如果目标窗口数量等于窗口总数量，即用户对所有窗口都进行了顺序设定，因此可以直接按照自定义顺序对用户界面中的窗口顺序进行显示即可。

如果目标窗口数量小于窗口总数量，即用户未对全部窗口的显示顺序进行定义，因此显示设备200可以将用户界面中的第一窗口替换为目标窗口的通话数据流。其中，第一窗口为用户界面中的目标窗口数量个视频对话窗口。例如，用户在窗口设置界面中自定义的显示顺序为“001窗口——主持人”、“002窗口——嘉宾2”、“003窗口——嘉宾6”，则第一窗口是编号分别为“001”、“002”、“003”的窗口。此时，显示设备200可以先将“001”、“002”、“003”的窗口分别替换为“主持人”、“嘉宾2”以及“嘉宾6”的视频通话画面。

在替换第一窗口的通话数据流后，显示设备200还可以按照初始顺序在用户界面中显示第二窗口的通话数据流。其中，第二窗口为用户界面中除第一窗口外的视频对话窗口。例如，第二窗口为在用户界面中，除编号分别为“001”、“002”、“003”窗口以外的其他视频通话窗口。对于其他窗口，显示设备200可以在剔除“主持人”、“嘉宾2”以及“嘉宾6”用户窗口后，再按照初始顺序进行排序显示。

基于上述视频显示顺序调整方法，本申请的部分实施例中还提供一种显示设备200。所述显示设备200包括显示器260、通信器220以及控制器250。其中，控制器250被配置为执行以下程序步骤：

获取用户输入的用于调整视频通话窗口显示顺序的控制指令；

响应于所述控制指令，从所述控制指令中提取目标窗口识别信息和自定义顺序，所述目标窗口为所述控制指令中指定的被调整显示顺序的视频通话窗口；

根据目标窗口识别信息，获取所述目标窗口的通话数据流；

按照所述自定义顺序，使用所述通话数据流替换所述用户界面中视频通话窗口的显示内容。

下面将结合一个具体的视频会议实例，对上述显示设备200的视频显示顺序调整方法进行详细描述，例如，用户在显示设备200所显示的主视频窗口中发起并加入会议后，显示设备200会请求音视频平台系统端信令服务，获取会议中参会者列表数据。参会者列表数据会通过信令软件开发工具包(Software Development Kit，SDK)回调参会者数据。显示设备200再将参会者列表数据进行存储，包括用户ID、图像、音频状态、视频状态等。在获得参会者数据后，显示设备200还可以按照视频会议应用程序的默认排序，对参会者列表进行排序。再以消息的方式触发主视频窗口刷新，使主视频窗口上每个参会者创建一个窗口view，该窗口view会与参会者绑定，并展示相应的用户视频画面。

当用户需要对视频会议窗口进行顺序调整时，可以通过自定义窗口UI切换到对应窗口编号，选择相应参与者对应的窗口。则显示设备200可以根据用户输入的切换操作，在存储的数据中提取对应的参会者数据内容。在返回参会者数据后，显示设备200会对参会者数据进行UI展示，供用户进行选择调整顺序。用户在选择调整顺序的窗口后，选择参会者窗口会向自定义窗口UI返回选择的参会者，使用户可以在选择完毕后，点击自定义窗口UI中的确定按钮，确定对应窗口布局的自定义参会者列表顺序，并向参会者数据库发送自定义参会者列表顺序。

参会者数据库在接收到列表顺序后，可以对接收到的列表顺序进行记录。主视频窗口可以实时监听参会者数据库中记录的状态，并实时对比当前显示的视频窗口顺序与最新自定义的列表顺序，如果列表顺序相同，则保持画面不变。例如，可以针对主视频窗对比每个参会者视频窗口view位置的用户ID与对应布局参会者数据模块对应位置的用户ID，相同时，保持主视频窗口对应用户ID对应内容不变；否则将主视频窗口中的替换为排序后的用户ID画面。

显示顺序还可以在其他参会者的状态发生改变时自动进行调整。即其他参会者在开关本地音频或视频时，可以向音视频平台系统端同步音频状态和视频状态，音视频平台系统端在通过信令服务广播音频、视频状态。信令SDK在接收到广播的音频状态和视频状态后可以向参会者数据库回调用户音频、视频状态，以更新参会者数据库中记录的状态数据，触发参会者列表进行重新排序，以按照对应窗口布局的自定义顺序和音视频状态整体进行排序。再将整体排序后的顺序以消息方式触发主视频窗口刷新，完成视频显示顺序的调整。

除了上文提到的生成发言内容(也可称之为字幕)的方法，本申请实施例还提供一种服务器及字幕生成方法。

在一些实施例中，显示设备可运行多种应用程序，一种应用程序可为会议应用，该会议应用的界面可设置有桌面共享控件和音频输入控件。其中，桌面共享控件可被配置为响应于触发时，将当前设备的显示界面共享给其他参加当前会议的显示设备，使其他参加当前会议的显示设备显示该显示界面；音频输入控件可为麦克风控件，可被配置为响应于触发时，将当前设备接收到的音频共享给其他参加当前会议的显示设备，使其他参加当前会议的显示设备播放该音频。

例如，一个会议的参会者包括参会者1和参会者2，参会者1用于参加该会议的终端设备为显示设备1，参会者2用于参加该会议的终端设备为显示设备2。当参会者1需要与参会者2分享显示设备1显示的内容时，可点击桌面共享控件，服务器可控制显示设备2显示显示设备1的显示界面；当参会者1需要讲解显示设备1显示的内容时，可点击麦克风控件，然后对显示界面中的内容进行讲解，服务器可控制显示设备2播放参会者1讲解的音频。

为便于理解，在本申请实施例中，参会者1在一个会议中为演讲者，参会者2为观众，当然，在实际的会议进行过程中，二者的身份可进行切换。

在一些实施例中，为便于了解演讲者的演讲内容，会议应用提供了AI字幕的功能，当观众开启该功能后，服务器可对演讲者的显示设备录制的演讲者的音频进行语音识别，根据识别结果生成字幕，然而，语音识别的准确度有限，导致字幕的准确性也有限。

在一些实施例中，AI字幕功能生成的字幕通常在一个固定的显示区域，这就导致生成的字幕可能会遮挡观众需要观看的内容。

实际实施中，一个会议的演讲者和观众不只一个，本申请以一个会议中包括一个演讲者和一个观众为例对字幕生成的过程进行介绍，多个演讲者或多个观众的场景可参考本申请实施例做适应性调整。

为解决字幕准确性不高的问题，本申请实施例提供了一种字幕生成方法，参见图22，该方法可包括如下步骤：

步骤S110：接收字幕请求。

在一些实施例中，一个会议的参会者包括两个用户，即参会者1和参会者2。参会者1为演讲者，参会者2为观众，参会者1用于参加该会议的终端设备为显示设备1，参会者2用于参加该会议的终端设备为显示设备2。

在一些实施例中，参会者1在显示设备1上点击共享桌面控件后，显示设备1可响应于共享桌面控件被触发，将共享桌面命令、显示设备1当前的屏幕图像以及显示设备1的设备ID打包发送给服务器，其中，共享桌面命令为共享桌面控件对应的预设命令，用于使服务器控制其他参会者的显示设备显示参会者1的屏幕图像。参会者1在显示设备1点击音频输入控件后，显示设备1可响应于音频输入控件被触发，启动麦克风实时录制参会者1演讲的音频，将该音频、会议ID以及显示设备2的设备ID打包发送给服务器，该音频也可称为语音流。

在会议中，参会者1可能会调整显示设备当前的显示界面，例如，将当前的显示界面由第一图像调整为第一图像下一页的第二图像。显示设备可被配置为在确定当前的画面变化为预设画面变化，如翻页时，可将变化后的显示界面和翻页消息发送给服务器。服务器可根据接收到显示设备1的翻页消息确定显示设备1的画面发生了变化。或者，服务器也可根据接收到显示设备1对的新的屏幕图像确定显示设备1的画面发生了变化。

在一些实施例中，参会者2在显示设备2上触发字幕控件后，显示设备2可生成字幕请求，该字幕请求可包括当前会议的会议ID以及显示设备2的设备ID，该会议ID可为会议号，在生成字幕请求后，显示设备2将该字幕请求发送给服务器。

在一些实施例中，参会者2触发字幕控件的时机可为参会者2加入会议后的任意时刻。

在一些实施例中，会议应用可被配置为在一个参会者加入会议后，自动开启字幕功能，若该参会者开启了共享桌面功能，则退出该参会者的字幕功能。

步骤S120：响应于所述字幕请求，在接收到语音流时，对所述语音流对应的语义文本进行分词处理，得到多个待修正分词。

在一些实施例中，服务器接收到该字幕请求后，可根据字幕请求中的会议ID，获取该会议ID对应的共享桌面命令，根据该共享桌面命令对应的设备ID为显示设备1的设备ID，将显示设备1确定为目标显示设备，将目标显示设备的屏幕图像确定为待生成字幕的目标图像，需要在显示设备1发送的屏幕图像上生成字幕，使参会者2的显示设备2在该屏幕图像上显示该字幕。

在一些实施例中，目标图像也可指待生成字幕的参考图像。

例如，该目标图像可以是显示设备1或显示设备2上传至服务器中的文档的全部页面图像，或部分页面图像，如当前页面图像，或者当前页面图像以及前后预设数量的页面图像。其中，当前页面图像为显示设备1和显示设备2显示的图像，该图像可由显示设备1上传至服务器，服务器可将显示设备1最新上传的图像确定为当前页面图像，可从该当前页面图像中识别页码，再获取该文档前后预设数量页数的页面图像，预设数量可为2，即服务器可将当前页面图像、前两页的页面图像、后两页的页面图像确定为接收到的语音流的目标图像。

例如，该目标图像也可以是参会者1最近预设次数向所述服务器发送的屏幕图像，该预设次数可为3次。若接收到显示设备1表示预设画面变化的消息，如翻页消息，服务器可将目标图像进行更新。若目标图像为一张图像，则将目标图像更新为该翻页消息对应的显示设备1的屏幕图像。

在一些实施例中，服务器被配置为仅控制开启了字幕功能的显示设备显示字幕，当然，服务器也可被配置为默认在所有参会的显示设备上显示字幕。

在一些实施例中，服务器在获取到目标图像后，可对该目标图像进行文本识别，得到该目标图像上的文本，将目标图像上的文本作为目标文本。

在一些实施例中，文本识别的方法可为光学字符识别方法或者其他通用的文本识别方法。

在一些实施例中，在得到目标文本后，可将目标文本进行分词，从而便于与语音流识别出的文本进行比对。

在一些实施例中，服务器在接收到显示设备1发送的语音流时，可将该语音流确定为与当前的目标图像相对应。将该语音流进行语音识别，得到语义文本。对语义文本进行分词处理，可得到多个待修正分词，为便于区分不同分词，每一个待修正分词可设置有一个分词编号，该分词编号为分词处理确定的顺序。例如，对于语义文本ABCCDD，分词结果为：AB，CC，DD，分词编号依次为：1、2、3。

步骤S130：对于每个待修正分词，分别获取一组包含所述待修正分词的候选词。

在一些实施例中，对于每个待修正分词，可确定第一个候选词为该待修正分词，权重为预设权重，如10，第N个候选词可从发音混淆集中获取，其中，N大于或等于2。当然，也有可能混淆集中不包含该待修正分词对应的候选词，因此，每个待修正分词的候选词的数量大于或等于1。

在一些实施例中，可预先设置发音混淆集，发音混淆集中包含大量发音容易混淆的混淆词组，每个混淆词组可设置有权重，该权重可表示发音相似度，发音相似度的范围可为0～1，权重越小，表示越不容易混淆，权重越大，表示越容易混淆。

例如，在混淆集中，AA-AB的权重为0.8，AA-AC的权重为0.6，表示AA被混淆为AB的概率高于AA被混淆为AC的概率。当然，在发音混淆集中，容易混淆的词也可以通过混淆词组以外的其他方式进行存储，如树状图等形式。

以一个待修正分词为例，在发音混淆集中，可获取包含该待修正分词的全部混淆词组，或包含该修正分词且权重大于第三阈值的混淆词组，其中，示例性的，第三阈值可为0.6。在获得的混淆词组中，将除待修正分词以外的词作为待修正分词的候选词。例如，对于AA-AB，若待修正分词为AB，则将AA作为候选词。每个待修正分词，可获取至少1个候选词，作为一组候选词，最多可获取预设数量的候选词，预设数量可为5。

上述获取候选词的方法仅为示例，实际实施中，也可通过其他方法获取候选词。

步骤S140：对于每个待修正分词，分别计算每个候选词与目标文本的发音相似度和字形相似度，若所述目标文本中存在一个分词与其中一个候选词的发音相似度达到第一阈值，且与所述待修正分词的字形相似度未达到第二阈值，将所述分词确定为所述待修正分词对应的目标分词，反之，若所述目标文本中不存在任一个分词与其中一个候选词的发音发音相似度达到第一阈值，且与所述待修正分词的字形相似度未达到第二阈值，则不对所述待修正分词进行修正，将所述待修正分词确定为所述目标分词，其中，所述目标文本为从所述语音流对应的目标图像中得到的文本。

在一些实施例中，待修正分词可能需要修正，也可能不需要修正。可根据字形相似度和发音相似度这两个指标判断是否待修正分词需要修正。其中，字形相似度和发音相似度的计算方法可根据一些现有的计算方法得到，本申请实施例不再赘述。

需要修正的场景如下：对于一个待修正分词，若目标文本中的一个分词与其中一个候选词的发音相似度达到第一阈值，且与待修正分词的字形相似度未达到第二阈值，表明待修正分词与目标文本中的一个分词发音较为相似，字形偏差较大，则可将目标文本中的分词确定为目标分词。其中，示例性的，第一阈值的范围可为0.5～1，第二阈值的范围可为0.8～1。

不需要修正的场景如即除了上述场景如以外的场景。例如，目标文本中的一个分词与其中一个候选词的发音相似度达到第一阈值，且与待修正分词的字形相似度达到第二阈值，表明待修正分词与目标文本中的一个分词相同，不需要修正。再例如，目标文本中的一个分词与其中一个候选词的发音相似度达到第一阈值，且待修正分词与待修正分词的字形相似度达到第二阈值，表明待修正分词与目标文本中的一个分词相同，不需要修正。再例如，目标文本中的一个分词与其中一个候选词的发音相似度未达到第一阈值，表明待修正分词与目标文本中的分词的发音均差异较大，根据目标文本进行修正的准确率较低，因此不能根据目标文本进行修正。

在一些实施例中，还可根据一种或多种修正原则分别对每个待修正分词进行修正，以一个待修正分词为例，修正原则可包括文本复现原则和发音复现原则：

1)文本复现原则。

一种文本复现原则为：对于一个待修正分词，若其中一个候选词在目标文本中出现，则将该候选词的权重设置为在该组候选词所在的分词参数中最大；若多个候选词在目标文本中出现，则比较这多个候选词的原始权重，将原始权重最大的候选词的权重设置为在该组候选词中最大，其中，原始权重为候选词在发音混淆集中对应待修正分词的权重。

在一组候选词中，将其中一个候选词的权重设置为在该组候选词中最大的方法可为将该候选词的权重设置为100。

2)发音复现原则。

一种发音复现原则为：比较每个候选词的发音与目标文本的发音近似度。其中，近似度的考量因素可包括发音和声调，这两个考量因素可设置有权重，发音相同是指发音和声调都相同，这种情况下近似度最高，其他情况的近似度都小于这种情况。

在比较发音后，若其中一个候选词的发音在目标文本的发音中出现，则将目标文本中对应这个发音的文本作为新的候选词添加到分词参数对应的候选词中，将该新的候选词的权重设置为在分词参数对应的候选词中最大。

在比较发音后，若多个候选词的发音在目标文本的发音中出现，则比较这多个候选词的原始权重，将原始权重最大的候选词的权重设置为在该组候选词中最大。

在一些实施例中，可预先设置文本复现原则的优先级高于发音复现原则，即根据文本复现原则修正成功后，不再根据发音复现原则进行修正，其中，根据文本复现原则修正成功是指其中一个或多个候选词在目标文本中出现，若目标文本中没有出现任意一个候选词，则修正失败，继续根据发音复现原则进行修正。

在一些实施例中，根据文本复现原则和发音复现原则均修正失败后，可不更改每个候选词的原始权重，其中，发音复现原则修正失败是指每个候选词的发音与目标文本的发音近似度均低于预设的一个阈值，表明发音不相似，发音复现原则修正成功是指至少一个候选词的发音与目标文本的发音近似度大于或等于该阈值。

在一些实施例中，修正原则不限于文本复现原则和发音复现原则，优先级也不限于文本复现原则高于发音复现原则，只要是根据目标文本对分词进行修正即可。

在一些实施例中，在修正完毕后，可将每一个待修正分词对应的权重最高的候选词确定为待修正分词对应的目标分词。

步骤S150：将每一个待修正分词对应的目标分词组合成字幕。

在一些实施例中，将每一个需要修正的待修正分词都修正完毕后，可根据分组编号，将全部待修正分词的目标分词依次组合成一个句子，即需要在观众的显示设备上显示的字幕。将该字幕返回给该会议ID对应的观众的显示设备。

根据上述字幕生成方法，一个字幕生成的例子为：

示例性的，演讲者的演讲内容为：“现今的大屏优化方案中”，对该演讲内容的语音流voice_strem进行语音识别，得到语义文本candidate_text，示例性的，candidate_text＝{线紧的大瓶优化方案中}。将语义文本进行分词，可得到6个待修正分词：线紧的大瓶优化方案中，则可设置：

candidate_text[1]＝[{“text”：“线紧”，“weight”：10}]；

candidate_text[2]＝[{“text”：“的”，“weight”：10}]；

candidate_text[3]＝[{“text”：“大瓶”，“weight”：10}]；

candidate_text[4]＝[{“text”：“优化”，“weight”：10}]；

candidate_text[5]＝[{“text”：“方案”，“weight”：10}]；

candidate_text[6]＝[{“text”：“中”，“weight”：10}]；

其中，candidate_text[1]～candidate_text[6]表示6个待修正分词的候选词，text表示候选词的文本，weight表示候选词的权重，根据语义文本得到的每个待修正分词的权重均为10。

对于每个待修正分词，分别从发音混淆集中获取一组候选词及其权重，增加到candidate_text[1]～candidate_text[6]中，得到如下结果：candidate_text[1]＝

[

{“text”：“线紧”,“weight”：10},

{“text”：“先近”,“weight”：8},

{“text”：“先进”,“weight”：5},

{“text”：“陷进”,“weight”：5}

]；

…，

candidate_text[3]＝

[

{“text”：“大瓶”,“weight”：10},

{“text”：“大屏”,“weight”：9},

{“text”：“打平”,“weight”：8},

]；

…

可见，对于candidate_text[1]，若直接采用语音识别算法的识别结果，则确定的目标分词是“线紧”，这与演讲者的演讲内容不相符。对于candidate_text[3]，若直接采用语音识别算法的识别结果，则确定的目标分词是“大瓶”，这与演讲者的演讲内容不相符。

通过该语音流对应的屏幕图像即目标图像，可对待修正分词进行修正。对于一个待修正分词，先比较屏幕图像中的目标文本screen_text是否有与该待修正分词的其中一个候选词相同的分词，若有，则将该相同的分词的权重进行更新。

例如，目标图像为图23所示的图像，该目标图像识别出的目标文本为：“现今的大屏优化方案中，越来越注重用户体验”，分词结果为：“现今”、“的”、“大屏”、“优化”、“方案”、“中”、“越来越”、“注重”、“用户”、“体验”，对于candidate_text[3]，该语音流对应的屏幕图像的文本的一个分词为“大屏”，则可设置candidate_text[3]中的候选词“大屏”的权重为100。对于一个分词参数，若屏幕图像中的文本screen_text不包含与该分词参数的任意一个候选词相同的词语，则比较screen_text中的每个分词的发音发音与该分词参数的候选词的发音，计算相似度，在分词参数中，将相似度最高的屏幕图像中的文本的分词进行权重更新。例如，对于candidate_text[1]，该语音流对应的屏幕图像的文本的一个分词为“现今”，与候选词“线紧”、“先近”、“先进”和“陷进”的发音的相似度较近，可将“现今”添加到candidate_text[1]中，并设置“现今”的权重为100。

对candidate_text[1]～candidate_text[6]均进行修正后，可将candidate_text[1]～candidatetext[6]中权重最高的候选词取出，作为每待修正分词的目标分词。将每个待修正分词的目标分词组合成字幕。

参见图24，演讲者的演讲内容为“现今的大屏优化方案中”时，可生成字幕：“现今的大屏优化方案中”。

可见，利用上述实施例的字幕生成方法，通过屏幕图像文本对语音识别得到的语义文本进行修正后，能够提高字幕的准确率。

为解决字幕遮挡用户需要看的显示内容的问题，本申请实施例提供了一种字幕位置的设置方法，参见图25，该方法可包括如下步骤：

步骤S210：接收字幕请求。

步骤S220：响应于所述字幕请求，在接收到语音流时，对所述语音流进行语音识别，得到字幕。

在一些实施例中，可直接将语音识别得到的语义文本作为字幕。

在一些实施例中，可根据图22所示的字幕生成方法得到字幕。

步骤S230：计算所述字幕与每个图像区域内的文本的匹配度，其中，所述图像区域为所述语音流对应的目标图像的局部显示区域，所述目标图像包括多个图像区域。

在一些实施例中，可获取语音流对应的目标图像，目标图像的获取方法可参见对图22的说明。

在一些实施例中，可通过光学字符识别方法识别目标图像中的目标文本，并得到目标文本在目标图像中的坐标。

在一些实施例中，可将目标图像划分为固定的图像区域，如上下两个图像区域，分别位于显示设备的上半屏和下半屏，或者左右两个图像区域，分别位于显示设备的左半屏和右半屏。这种固定的图像区域，边界线上可能会存在文本，若文本位于两个图像区域的边界线上，可设置文本属于其中一个图像区域内。例如，可设置文本位于前文的图像区域内，其中，前问指在该边界线之前的文本，相对的，位于该边界线之后的文本可称为后文。在一些实施例中，还可按照目标图像中的文本坐标划分图像区域。例如，根据目标图像中的文本集中在目标图像的顶部和底部，中部的文本较少，可将目标图像划分为顶部、中部和底部三个图像区域，这种根据目标图像中的文本坐标划分图像区域的方法，可避免目标图像中的文本位于两个图像区域的分界线的情况。

在一些实施例中，在每个图像区域，还可分别划分一个局部显示区域作为字幕显示区域，用于显示字幕。例如，在上半屏，可设置左半区域为字幕显示区域，在下半屏，同样设置左半区域为字幕显示区域。

在一些实施例中，在将目标图像划分为多个图像区域后，可根据目标文本的坐标，设置每个图像区域包含的文本。在一些实施例中，也可在将目标图像划分为多个图像区域后，再在每个图像区域内进行文本识别，得到每个图像区域包含的文本。

在一些实施例中，在得到每个图像区域包含的文本后，可计算所述字幕与每个图像区域内的文本的匹配度。

一种示例性的匹配度计算方法可为：将所述目标图像上的文本进行分词处理，得到多个目标分词；将所述字幕进行分词处理，得到多个字幕分词；计算每个字幕分词与每个图像区域内对应的目标分词的匹配度；将每个图像区域内的全部匹配度相加，得到所述字幕与每个图像区域内的文本的匹配度。

例如，若该图像区域中包含与该分词文本一致的词语，则匹配度为1。

若该图像区域中不包含与该分词文本一致的词语，但包含相似的分词，则根据相似程度，设置匹配度为0.1至0.9，其中，相似程度可根据一些常用的混淆集确定，例如，在一个混淆集中，对于文本A，B、C的相似程度依次为0.8、0.6，若进行语音识别后得到的一个分词为分词A，目标图像划分为了2个图像区域，2个图像区域中均不包含分词A，第一个图像区域中包含文本B，第二个图像区域中包含文本C，则该分词A与包含分词B的图像区域的匹配度为0.8，与包含分词C的图像区域的匹配度为0.6。

若该图像区域中不包含与该分词文本一致的词语，也不包含相似的分词，则匹配度为0。

步骤S240：将所述字幕的坐标区域设置在匹配度小于最大值的图像区域内。

在一些实施例中，在目标图像中，若一个图像区域的匹配度较大，则表明语音流的内容与该图像区域较为相关，反之，若一个图像区域的匹配度较小，则表明语音流的内容与该图像区域的可能不相关，因此，将字幕的坐标区域设置在匹配度最小的图像区域内，对用户观看目标图像的影响最小。

根据上述字幕位置的设置方法，一个字幕位置的设置例子为：

示例性的，t0、t1、t2、t20、t21、t22时刻接收到的语音流转换的字幕为：

subtitle(t0)＝"xxxxxxyyyyyyzzzzaaabbbbbcccoosdkckkeffadkasdl"；

subtitle(t1)＝"mmmnnnnnnwwwyyxxxxxuuu"；

subtitle(t2)＝"ccdddddeeeeeffffffgggg"；

subtitle(t20)＝"Asdfkckweffa 1234 kasdfkk 5678 llldsf 0000"；

subtitle(t21)＝"Cckkkwwdfaaaaa456 dkkasdf"；

subtitle(t22)＝"1111hhhh kkkkk"。

其中，subtitle(t0)进行分词后得到的分词结果为：

SEGMENT(subtitle(t0))＝["xxxxxx","yyyyyy","zzzz","aaa","bbbbb","ccc","oosdkckkeffadkasdl"]

参见图25，屏幕图像被划分为了两个图像区域：第一区域201和第二区域202，其中，第一区域201为上半屏的显示区域，第二区域202为下半屏的显示区域。

两个图像区域的目标文本为：

SEGMENT(screen_text[1][1])＝["xxx","zzzz","bbbb","ccc"],

SEGMENT(screen_text[1][2])＝["mmm","nn","www","yy","xxxxx","uuu"],

SEGMENT(screen_text[1][3])＝...,

SEGMENT(screen_text[1][4])＝...,

SEGMENT(screen_text[2][1])＝...,

SEGMENT(screen_text[2][2])＝...,

SEGMENT(screen_text[2][3])＝...

其中，SEGMENT(screen_text[1][1])表示第一区域201的第1行的目标文本， SEGMENT(screen_text[2][1])表示第二区域202的第1行的目标文本，以此类推。

计算SEGMENT(screen_text[1][1])中的每一个分词与SEGMENT(subtitle(t0))中的分词匹配度p。根据步骤S260示出的计算方法，计算得到如下计算结果：

p("xxx")＝0.5；p("zzzz")＝1；p("bbbb")＝1；p("ccc")＝1，……。

将分词匹配度相加得到subtitle(t0)与screen_text[1][1]的近似度指数

P(screen_text[1][1],subtitle(t0))＝3.5；

同样方法计算得到：P(screen_text[1][2]subtitle(t0))＝0；

P(screen_text[1][3],subtitle(t0))＝0；

P(screen_text[1][4],subtitle(t0))＝0；

P(screen_text[2][1],subtitle(t0))＝0；

P(screen_text[2][2],subtitle(t0))＝0

P(screen_text[2][3],subtitle(t0))＝0；

根据这个计算结果，判断出subtitle(t0)与screen_text[2]的匹配度小于与screen_text[1]的匹配度，将subtitle(t0)的显示位置screen_text[2]发送给显示设备2的视频会议app端，从而显示设备2可在screen_text[2]的位置显示字幕。或者，服务器也可将匹配度最高的屏幕区域screen_text[1]发送给显示设备2的视频会议app端，从而显示设备2可避开screen_text[1]的位置显示字幕。

同理可得，subtitle(t1)、subtitle(t2)的显示位置也为screen_text[2]对应的位置，subtitle(t20)、subtitle(t21)、subtitle(t22)的显示位置为screen_text[1]对应的位置。

参见图27，subtitle(t0)、subtitle(t1)、subtitle(t2)的显示位置203为第二区域202，观众需要挂看的内容在第一区域201，因此，字幕不会对观众需要观看的内容造成遮挡。

参见图28，subtitle(t20)、subtitle(t21)、subtitle(t22)的显示位置203为第一区域201，观众需要挂看的内容在第二区域202，因此，字幕不会对观众需要观看的内容造成遮挡。

为对本申请实施例提供的字幕生成方法和字幕位置的设置方法做进一步说明，下面从用户加入一个视频会议开始对字幕生成及显示的过程进行说明。

在一些实施例中，一种共享桌面的过程可参见图24，为一种共享桌面的时序示意图。

如图24所示，演讲者可在显示设备1上的会议应用上输入会议号，显示设备1在接收到会议号后，可获取自己的设备ID，向服务器发送包括显示设备1的设备ID和会议号的加入会议请求。

在一些实施例中，服务器在接收到显示设备1的加入会议请求后，可检测该会议号对应的会议是否已启动，若未启动，可启动该会议，并向显示设备1返回默认会议界面数据，以使显示设备1显示默认会议界面，若已启动，且未有参会者开启共享桌面功能，则向显示设备1返回默认会议界面数据，若有参会者开启了桌面共享功能，则向显示设备1发送开启桌面共享功能的参会者的当前桌面数据，以使显示设备1显示开启桌面共享功能的参会者的当前桌面。

图29中，演讲者为第一个进入该会议号对应会议的用户，服务器根据加入会议请求向显示设备1返回的数据为默认会议界面数据，显示设备1接收到该默认会议界面数据后，可显示该默认会议界面数据对应的默认会议界面。

在一些实施例中，默认会议界面可设置有共享桌面控件、麦克风控件和字幕控件。

如图29所示，观众加入上述会议号对应会议的过程与演讲者加入会议的过程相同。

在一些实施例中，观众在加入会议后可在显示设备2上操作字幕控件，以使显示设备2开启字幕功能，或者，观众也可在演讲者开始讲话后再操作字幕控件。显示设备2响应于字幕控件被触发，获取自己的设备ID，生成包含该设备ID和会议号的字幕请求，向服务器发送该字幕请求。

在一些实施例中，服务器在接收到字幕请求后，可启动字幕生成任务，其中，字幕生成任务被配置为根据本申请实施例介绍的字幕生成方法和字幕位置的设置方法生成字幕。

在一些实施例中，在观众加入到会议后，演讲者可操作显示设备1上的共享桌面控件，以使观众看到显示设备1上显示的内容。显示设备1响应于共享桌面控件被触发，生成包含会议号和显示设备1的设备ID的共享桌面请求，将共享桌面请求和显示设备1当前的屏幕图像发送给服务器，或者将显示设备1当前的屏幕图像设置在共享桌面请求中，从而只需要向服务器发送共享桌面请求。

在一些实施例中，服务器在接收到共享桌面请求和显示设备1当前的屏幕图像后，可将显示设备1当前的屏幕图像传输给显示设备2，显示设备2在接收到该屏幕图像后，可将该屏幕图像进行显示，从而实现显示设备2共享显示设备1的桌面。

在共享桌面后，演讲者、显示设备1、服务器和显示设备2各自执行的操作可参见图30，为根据一些实施例的字幕生成时序示意图。

如图30所示，演讲者在共享桌面后，若共享的文件有多页，可在显示设备1上操作翻页控件，然后操作麦克风控件再输入语音，通过语音对当前页面进行讲解。当然，若演讲者共享的文件只有一页，则不需操作翻页控件，只需操作麦克风控件然后输入语音。

以演讲者共享的文件有多页为例，演讲者通过翻页控件跳转至某一页后，显示设备1可显示翻页后的屏幕图像，并将翻页后的屏幕图像和翻页消息发送给服务器。

在一些实施例中，服务器在接收到显示设备1发送的屏幕图像后，将该屏幕图像发送给显示设备2，显示设备2将当前显示的图像替换为服务器发送的屏幕图像。

在一些实施例中，服务器在接收到翻页消息后，获取翻页后屏幕图像中的文本，并将翻页后屏幕图像中的文本按照分区方法进行分块缓存。以预先设定的分区方法为将屏幕图像分为上下两个图像区域为例，将上半屏的文本作为一组目标文本存储在screen_text[1]中，将下半屏的文字作为另一组目标文本存储在screen_text[2]中。

在一些实施例中，为保障字幕显示的及时性，显示设备在每次演讲者输入语音停顿时，将获取到的语音流发送给服务器以进行语音识别，下一次演讲者演讲后将获取到的语音流发送给服务器以进行语音识别，从而实现循环的进行语音识别，提高了字幕显示的效率。

通常，演讲者输入语音停顿表明演讲者说完一句话，会议应用预先被配置为若在接收到语音后达到停顿间隔则向服务器上传本次获得语音流，其中，示例性的，停顿间隔可为0.4秒，即在收音时，若距离上次接收到语音已经0.4秒没有再接收到语音，则将本次接收到的语音对应的语音流发送给服务器。

在一些实施例中，服务器在接收到显示设备1发送的语音流后，对语音流进行语音识别，得到语义文本，该语义文本包括多个分词。

在一些实施例中，服务器可根据多组目标文本对语义文本中的每组分词进行修正，得到字幕。

在一些实施例中，服务器可根据字幕与每一组目标文本的映射关系，设置字幕的显示区域为映射最少的目标文本所在的屏幕区域。例如，设置字幕的显示区域为screen_text[2]对应的屏幕区域。

服务器在得到字幕以及字幕的显示区域后，可将字幕及显示区域发送给显示设备2，使显示设备2在该显示区域显示该字幕。

为对服务器生成字幕的过程做进一步描述，图31示出了根据一些实施例的服务器生成字幕的时序示意图。如图31所示，服务器可设置有如下功能模块：视频缓存模块、图像文本转换模块和语音识别模块，其中，视频缓存模块用于存储显示设备发送的屏幕图像，图像文本转换模块用于识别屏幕图像中的文本，语音识别模块用于对语音流进行语音识别。

显示设备1发送的翻页后屏幕图像可存储到视频缓存模块。翻页消息可依次传输到图像文本转换模块和语音识别模块。

图像文本转换模块在接收到翻页消息后，可从视频缓存模块中获取最新的屏幕图像，根据屏幕图像中的文本布局，将屏幕图像划分为多个图像区域。然后识别每个图像区域内的文本，对识别到的文本进行分词。

语音识别模块在接收到翻页消息后，可启动语音识别任务。语音识别任务可对显示设备发送的语音流进行语音识别，得到分词，然后根据屏幕图像识别出的分词对语音识别得到的分词进行修正，得到字幕，并计算字幕与每一个图像区域内的文本的匹配度，将匹配度最小的图像区域设置为字幕的显示区域，然后将字幕以及字幕的显示区域发送给显示设备2，使显示设备2在该显示区域显示该字幕。

由上述实施例可见，本申请实施例通过获取语音流对应的目标图像，根据目标图像上的文本修正语音识别得到的分词，使得修正后的目标分词与目标图像上的文本相对应，能够提高字幕的准确率；进一步的，通过计算字幕与目标图像中不同图像区域的文本的匹配度，将字幕设置在匹配度最小的图像区域，减小了字幕对目标图像的遮挡而导致的对语音流理解的影响，提升了用户观看字幕的体验。

除了上文提到的利用会议记录，可以使用户了解会议的主要内容，一些实施例中，还可以使用户通过会议纪要了解会议的内容，会议纪要是一种记载和传达会议基本情况或主要精神、议定事项等内容的规定性公文，为便于生成会议纪要，本申请实施例中提供一种显示设备及会议纪要的生成方法。

在一些实施例中，显示设备200上可安装会议应用，用户通过显示设备200可与其他安装有会议应用的设备的用户进行视频会议。

在一些实施例中，显示设备200上也可不安装会议应用，只需与安装有会议应用的设备进行有线连接或无线连接，也可显示该会议应用的视频画面以及播放会议应用的音频。

参见图32，为根据一些实施例的视频会议的场景示意图。如图32所示，参加视频会议的人员可包括主讲人、现场观众和线上观众，主讲人用于参加视频会议的设备为设备A，该设备A可为智能电视，即上述实施例中的显示设备200。线上观众的数量假设有三个，用于参加视频会议的设备分别为设备B1、设备B2和设备B3，其中，设备B1为笔记本电脑，设备B2为视频会议设备，如手机或平板，设备B3为台式电脑。

在一些实施例中，设备A可为支持触控操作的显示设备，如触控电视。

在一些实施例中，设备A可为支持语音操作的显示设备，如语音电视。

在一些实施例中，设备A既支持触控操作，也支持语音操作，还支持遥控器、智能手机等终端设备的控制。

在一些实施例中，主讲人在设备A上结束视频会议后，可根据设备A录制的会议视频和音频整理出会议纪要，然而，这种方法生成会议纪要的效率较低。

为解决会议纪要生成效率低的技术问题，本申请实施例提供了一种会议纪要的生成方法，参见图33，该会议纪要的生成方法可包括如下步骤：

步骤S101：在会议启动后，实时录制所述会议的多媒体文件。

在一些实施例中，主讲人在会议应用启动一个会议后，该会议应用可自动实时录制该会议的多媒体文件。该多媒体文件可包括主讲人的设备A在启动会议之后的显示画面的视频文件、音频文件以及字幕文件，其中，字幕文件可由对音频文件进行语音识别生成。

在一些实施例中，服务器为会议创建虚拟房间，不同的终端均加入到该虚拟房间，并经过该虚拟房间进行音视频的传输和交换。在一些实施例中，终端可以根据显示界面中的窗口对应的用户标识去虚拟房间拉去对应的用户的音视频数据后在终端进行解析和显示。

在一些实施例中，服务端可以将各终端上传的音频进行识别和文本转换，并按照时间点对对应不同终端的文本进行组合形成字幕文件，例如时刻1的字幕可能同时包括用户1和用户2的发言，在时刻2的字幕可能同时包括用户1和用户3的发言。

在一些实施例中，对对应不同终端的文本(上文称之为文字内容)进行组合形成字幕文件，不同终端中的某一终端对应的文本作为一条文字，并在其前增加对应该终端的标识。不同条的文字排列形成该时刻的字幕文件。在一些实施例中上述排列可以包括显示位置的排列和/或显示顺序的排列。

在一些实施例中，由于会议应用是在终端上运行，终端录制的画面可以是该终端上显示的画面，在一些实施例中，会议的不同终端显示的画面可以不同。

步骤S102：接收用户输入的会议纪要控件的触发操作。

在一些实施例中，会议纪要控件可仅限于在主讲人的设备A上显示，除主讲人以外的参会者的设备上不显示该会议纪要控件。

在一些实施例中，任意参会者的设备上可显示该会议纪要控件。

以仅主讲人的设备A上显示会议纪要控件为例，在一些实施例中，在会议启动后，主讲人的会议应用的界面上可显示会议纪要控件，主讲人点击该会议纪要控件后，设备A可生成该会议纪要控件的触发操作。

在一些实施例中，会议纪要控件可为单一功能的控件，例如，会议纪要控件为会议要点记录功能的控件，或待办事项记录功能的控件，或互动问题记录功能的控件等控件。设备A上可显示多个不同功能的会议纪要控件，用户点击其中一个会议纪要控件后，设备A可生成该控件的触发操作。

在一些实施例中，会议纪要控件可为集成功能的控件，用户点击该会议纪要控件后，设备A可弹出多个单一功能的控件如会议要点记录功能的控件，或待办事项记录功能的控件，或互动问题记录功能的控件等控件供用户选择。

若会议纪要控件为单一功能的控件，在会议过程中，用户可能多次触发不同的会议纪要控件，以生成多条会议纪要。若会议纪要控件为集成功能的控件，在会议过程中，用户可多次触发该控件，以选择不同的单一功能的控件，生成多条会议纪要数据。当然，在会议过程中，用户也可能只触发一次会议纪要控件，只生成一条会议纪要数据。

步骤S103：响应于所述会议纪要控件的触发操作，在会议界面生成并显示用于记录会议纪要的浮层，获取所述记录浮层上输入的纪要数据。

以会议纪要控件为单一功能的控件为例，在一些实施例中，设备A可根据会议纪要控件的触发操作，在设备A的会议界面生成一个用于记录会议纪要的浮层，将该浮层显示在会议界面的上方。在生成该浮层时，获取多媒体文件的当前录制时刻，作为会议纪要的起始记录时刻，该起始记录时刻可称为起始记录时刻。示例性的，该起始记录时刻为会议的第10分钟。

在一些实施例中，记录浮层中的内容为当前界面和字幕文件的组合，无需用户手动录入。当前界面和字幕文件的组合可以是通过对视频窗口层和字幕浮层的截图生成的，也可以是将对视频窗口层的截图和字幕文件的文本进行组合生成的。

在一些实施例中，记录浮层中需要用户进行记录内容的录入，用户可在记录浮层输入纪要数据，该纪要数据可以是用户从显示界面上复制或截图的数据，也可以是用户通过语音或触控输入的数据。

步骤S104：在所述用户退出所述记录浮层时，生成包含起始记录时刻和所述纪要数据的记录文件，所述起始记录时刻为所述浮层生成时所述多媒体文件的录制时刻。

在一些实施例中，用户可用过记录浮层中的控件(例如，保存控件)退出记录浮层，退出记录浮层时，设备A可自动保存用户输入的数据。

在一些实施例中，在用户退出记录浮层后，可根据起始记录时刻生成一条超链接，该超链接被配置为使用户在选中该超链接后，访问该会议的录制生成的多媒体文件，并跳转至多媒体文件的对应该记录浮层的起始记录时刻，并突出显示起始记录时刻的数据。

步骤S105：向服务器发送所述记录文件，使服务器根据所述会议的全部记录文件生成会议纪要。

在一些实施例中，在会议结束时，若用户只触发过一次会议纪要控件，设备A可生成包含一条会议纪要数据的会议纪要，若用户触发过多次会议纪要控件，设备A可生成包含多条会议纪要数据的会议纪要。

可见，本申请实施例通过在会议应用中设置了会议纪要控件，使得用户可在会议过程中实时生成会议纪要，并通过记录会议纪要浮层的生成时间和退出时间，方便用户后续在多媒体文件中定位会议纪要对应的文件位置，便于用户后续根据多媒体文件编辑会议纪要以及回顾会议。

为对会议纪要的生成方法做进一步描述，下面结合会议纪要生成过程的一些时序示意图以及会议应用的一些界面示意图对会议纪要的生成过程进行介绍。

参见图34，为根据一些实施例的会议投屏过程的时序示意图。图34中，线上观众以一人为例，设备B可以为设备B1、设备B2、设备B3等该线上观众用于参加会议的设备。主讲人和线上观众成功进入该同一个会议后，可向服务器发送会议的加入消息，该加入消息可包括主讲人或线上观众在会议中的用户ID以及会议ID，以便于服务器确定该会议ID的参会设备。

在一些实施例中，会议应用的界面可设置有如下操作控件：投屏控件、麦克风控件、摄像头控件、会议成员控件和会议纪要控件。

如图34所示，在会议启动后，主讲人在设备A上打开一份演讲材料如PPT、word文件等文件后，可在设备A上点击投屏控件，然后在设备A上操作麦克风控件开始演讲。

在一些实施例中，设备A在接收到投屏控件的触发操作后，可将设备A上的显示画面实时传输给服务器。设备A在接收到麦克风控件的触发操作后，可开启麦克风录制主讲人的演讲音频，将该演讲音频实时传输给服务器。设备A除了发送显示画面和演讲音频，还向服务器同时发送会议ID。

在一些实施例中，服务器接收都设备A发送的显示画面后，可根据会议ID将该显示画面发送给该会议ID对应的除了设备A之外的参会设备，如设备B。服务器接收到设备A发送的演讲音频后，将声音转换为字幕文本，并将演讲音频和字幕文本发送给该会议ID对应的除了设备A之外的参会设备，如设备B。设备B接收到视频、音频和字幕后，对该视频和音频进行播放，对该字幕进行显示。

在一些实施例中，参见图35，在会议过程中，设备A可显示如下会议纪要控件：“要点记录”控件、“待办事项记录”控件和“问答记录”控件。

在一些实施例中，除了图35所示的控件，设备A还可显示其他控件，如对应每个参会成员的控件。在会议过程中，设备A上的控件自动隐藏，以保障演讲内容不被遮挡。主讲人若需要操作某个控件，可通过预设指令调出控件。示例性的，该预设指令可为操作预设按键，例如，操作退出全屏按键。

下面分别以主讲人操作“要点记录”控件、“待办事项记录”控件和“问答记录”控件为例，对会议纪要的生成过程进行介绍。其中，无论主讲人操作哪个会议纪要控件，设备A均可生成一个相应的会议纪要浮层。

参见图36，为根据一些实施例的进行要点记录的方法的时序示意图。

如图36所示，主讲人可在设备A上操作“要点记录”控件。若主讲人在图35中操作了“要点记录”控件，则设备A可根据该控件被触发，生成一个要点记录浮层，将该浮层显示在设备A的当前界面上。该浮层可为一个大小可调、位置可调的浮层，该浮层可设置有一个输入框。设备A还记录主讲人操作“要点记录”控件时多媒体文件已录制的时长，根据该时长确定主讲人进行要点记录的时间，例如，已录制时长为10分钟，则第10分钟为本次会议纪要的起始记录时刻。

在一些实施例中，主讲人可在设备A上选定作为会议要点的文本。参见图37，主讲人选定的文本可包括“AAAA”。

在一些实施例中，若设备A支持触控操作，主讲人选定作为会议要点的文本的方式可为：长按设备A，直至设备A选中主讲人触摸点所在的一行文本或显示文本选择提示，设备A将该触摸点作为起点，主讲人选中一行文本，移动触摸位置，设备A可扩大选中的位置，松开触控，则将主讲人松开触控的位置作为终点，将起点和终点之间的矩形区域作为用户框选的选定区域，该选定区域为一个坐标区域。将选定区域中的文本识别/或复制到要点记录浮层中，并将该选定区域中的文本在设备A中进行存储，该选定区域中的文本可称为要点文本，将该要点文本作为用户，即主讲人输入的纪要数据。图37中，主讲人选定的文本为位于选定区域501内的文本，该区域内的文本为“AAAA”，要点记录浮层的显示区域为区域502，区域502可为一个输入框。

在一些实施例中，若选定区域不支持文本复制，例如，选定区域为图片格式，则可通过OCR(OpticalCharacter Recognition，光学字符识别)算法识别出选定区域内的文本，再将选定区域内的文本复制到区域502中。

在一些实施例中，要点记录浮层支持尺寸调节和位置调节，要点记录浮层可被配置为接收到长按操作后，位置可调节，主讲人可拖动要点记录浮层，松开触控后可完成对要点记录浮层位置的调节。要点记录浮层还可被配置为接收到双击操作后，尺寸可调节，主讲人可滑动要点记录浮层的边角位置，以调整要点记录浮层的尺寸。或者，要点记录浮层还可被配置为接收到长按操作后弹出控制菜单，在控制菜单显示多个控件，如用于移动浮层位置的移动控件和用于调节浮层尺寸的尺寸控件。

在一些实施例中，主讲人在将一个选定区域内的文本复制到要点记录浮层后，若在当前界面还有需要复制的文本，则再次选定一个区域，设备A将主讲人新选定区域内的文本叠加显示在要点记录浮层中，叠加方式可为设置在上一次选定的文本的下方，若上一次选定的文本占满了要点记录浮层的区域，要点记录浮层可将上一次选定的文本向上移动至部分文本或全部文本移出要点记录浮层的上边界，以为新选定区域内的文本空出显示区域，从而实现文本浮动变化的效果。

在一些实施例中，要点记录浮层可设置有保存控件，主讲人点击该保存控件后，设备A可记录多媒体文件此时的已录制时长，以确定本次会议纪要的结束时刻。

在一些实施例中，在主讲人点击保存控件后，设备A确定结束本次会议纪要，将缓存的用户输入的会议纪要数据、起始记录时刻以及结束时刻作为一条要点记录传输给服务器。

示例性的，设备A生成的要点记录的格式为：highlights：{“text”:“AAAA\BBBB”,“time”:t1}。其中，highlights表示会议纪要的类型为要点记录，text为用户选定的文本，time为本次会议纪要的起始录制时间，即t1为一个时刻，如10:00，表示本次会议纪要的起始记录时刻为会议的第10分钟。

在一些实施例中，服务器在接收到一条要点记录后，可判断该要点记录是否为会议ID对应的第一条会议纪要，若是，则生成一个meeting_minutes(会议纪要)列表，将该要点记录存储到该meeting_minutes列表中，若该要点记录不是会议ID对应的第一条会议纪要，则可将该要点记录添加到meeting_minutes列表中。

示例性的，服务器存储一条要点记录的格式为：[{"type":"highlights","text":"AAAA\BBBB","time":t1}]。

参见图38，为根据一些实施例的进行待办事项记录的方法的时序示意图。

如图38所示，主讲人可在设备A上操作“待办事项记录”控件。若主讲人在图35中操作了“待办事项记录”控件，则设备A可根据该控件被触发，生成一个待办事项记录浮层，将该浮层显示在设备A的当前界面上。该浮层可为一个大小可调、位置可调的浮层。设备A还记录主讲人操作“待办事项记录”控件时多媒体文件已录制的时长，根据该时长确定主讲人进行待办事项记录的时间，例如，已录制时长为20分钟，则第20分钟为本次会议纪要的起始记录时刻。

参见图39，待办事项记录浮层的显示区域为区域503，该区域503可为一个输入框，主讲人可在该区域53内通过语音、触控或通过与设备A相连接的电脑等方式输入待办事项。若用户输入语音数据，则将语音数据转换为文本数据，将该文本数据作为用户输入的纪要数据，若用户在输入框中输入文本数据，则直接将用户输入的文本数据作为用户输入的纪要数据。

示例性的，用户输入的待办事项的格式为：完成xx事项；责任人：xx；x年x月x日。

设备A接收到用户输入的待办事项后，将该待办事项进行显示。

在一些实施例中，待办事项浮层可设置有保存控件，主讲人点击该保存控件后，设备A 可记录多媒体文件此时的已录制时长，以确定本次会议纪要的结束时刻。

示例性的，设备A生成的待办事项的格式为：todo：{“text”:“完成xx事项。责任人：xx；x月x日”,“time”:t2}。其中，todo表示会议纪要的类型为待办事项记录，text为用户输入的待办事项，time为本次会议纪要的起始录制时间，即t2为一个时刻，如20:00，表示本次会议纪要的起始记录时刻为会议的第20分钟。

在一些实施例中，服务器在接收到一条待办事项记录后，可判断该待办事项记录是否为会议ID对应的第一条会议纪要，若是，则生成一个meeting_minutes(会议纪要)列表，将该要点记录存储到该meeting_minutes列表中，若该要点记录不是会议ID对应的第一条会议纪要，则可将该待办事项记录添加到meeting_minutes列表中。

示例性的，服务器存储一条待办事项记录的格式为：[{"type":"todo","text":"完成xx事项。责任人：xx；x月x日","time":t2}]。

参见图40，为根据一些实施例的进行问答记录的方法的时序示意图。

如图40所示，主讲人可在设备A上操作“问答记录”控件。若主讲人在图35中操作了“问答记录”控件，则设备A可根据该控件被触发，生成一个问答记录浮层，将该浮层显示在设备A的当前界面上。该浮层可为一个大小可调、位置可调的浮层。设备A还记录主讲人操作“问答记录”控件时多媒体文件已录制的时长，根据该时长确定主讲人进行问答记录的时间，例如，已录制时长为30分钟，则第30分钟为本次会议纪要的起始记录时刻。

参见图41，问答记录浮层的显示区域包括区域504和区域505，其中，区域504用于显示观众的提问内容，区域505用于显示主讲人的答复内容。

在一些实施例中，区域504和区域505还可为两个单独的浮层，便于主讲人分别对这两个区域进行位置以及尺寸的调整。

在一些实施例中，主讲人可在操作完“问答记录”控件后进行互动演讲，以提示观众可以进行互动。主讲人的演讲音频经服务器传输至设备B后，设备B可播放该演讲音频，观众听到该演讲音频后，可进行提问。

在一些实施例中，若一个线上观众需要提问，可在自己的设备，如设备B上操作“提问”控件，设备B在接收到“提问”控件的触发指令后，可生成提问请求，将该提问请求发送至服务器，该提问请求包括会议ID和设备B的用户ID，服务器在接收到该提问请求后，可将该提问请求发送至设备A。设备A接收到该提问请求后，可在该提问请求对应的观众控件上显示一个举手的图标，使主讲人获悉该观众想要提问。主讲人可点击该举手的图标，设备A在接收到该举手的图标被点击的操作后，可生成同意提问的响应数据，将该响应数据发送至服务器。该响应数据包括设备B的用户ID。服务器可根据该用户ID，将该响应数据发送至设备B，设备B被配置为在接收到该用户ID后，取消设备B的麦克风的静音状态，并将麦克风图标更新为录音状态，其中，设备B在进入会议后默认被设置为麦克风为静音状态。观众在看到该麦克风状态后，可发出提问。该提问可为语音或文本。

在一些实施例中，在提问环节，除主讲人和提问人的设备外，其他设备被静音。

若设备B接收到的观众的提问为语音，设备B可将该语音经服务器传输至设备A，使设备A播放该语音。

进一步的，服务器还将设备B发送的语音进行语音识别，得到提问文本，将设备B发送的语音在服务器上的存储地址、提问文本、设备B的用户ID、用户昵称等数据封装成一个数据包，将该数据包发送给设备A，以使设备A在区域504显示设备B的提问内容，即设备A还可将服务器发送的来自另一显示设备的文本数据确定为所述记录浮层上输入的纪要数据。

示例性的，在设备B接收到的观众的提问为语音时，服务器封装的数据包的格式如下：

question:{“audience”:”观众1”,”id”:”xxx”,”voice”:”xxx”,”text”:”question1”}。其中，“question1”为提问文本。“voice”为观众提问的语音在服务器上的存储地址。

若设备B接收到的观众的提问为文本，设备B可将该文本、设备B的用户ID、用户昵称等数据封装成一个数据包，将该数据包发送给设备A，以使设备A在区域504显示设备B的提问内容。

示例性的，在设备B接收到的观众的提问为文本时，服务器封装的数据包的格式如下：

question:{“audience”:”观众1”,”id”:”xxx”,”text”:”question1”}。

参见图41，设备A在接收到服务器封装的数据包后，可提取出观众昵称和提问文本，将观众昵称和提问文本在区域504进行显示。

在一些实施例中，主讲人看到区域504显示的提问文本后，可对该提问文本进行答复。设备A可在接收到主讲人的答复数据，如答复音频后，可将答复数据封装成如下格式：

answer:{"text":"xxx","voice":"xxx"}。

在一些实施例中，设备A可将封装后的提问数据、答复数据以及答复音频传输至服务器，服务器可将封装后的提问数据、答复数据和答复音频传输至设备B，使设备B播放主讲人的答复音频。并显示如图41右侧所示的浮层，在该浮层，设备B可显示自己的提问数据和主讲人的答复数据。

在一些实施例中，在主讲人点击区域504中的关闭按钮后，设备A确定结束当前观众的问答，设备A可将当前观众的问答生成一条如下格式的问答记录：

设备A在生成一条问答记录后，可清空区域504和区域505内的显示数据，主讲人可开启下一轮问答。

在一些实施例中，问答记录浮层可设置有保存控件，主讲人点击该保存控件后。然后将多条问答记录以及问答的起始记录时刻发送给服务器，服务器对问答记录的存储格式如下所示：

其中，time为本次会议纪要的时间，即t3为一个时刻，如30:00，表示本次会议纪要的时间范围为会议的第30分钟。

根据上述实施例，在会议过程中，主讲人可设置多条不同纪要类型或相同纪要类型的记录文件。服务器将这些记录文件要整理成一个会议纪要的过程可参见图42，为根据一些实施例的会议纪要整合方法的时序示意图。

如图42所示，主讲人点击退出会议后，设备A可根据接收到退出会议的操作，生成并向服务器发送一个会议纪要生成请求，该请求可包括会议ID。

在一些实施例中，服务器在接收到会议纪要生成请求后，可获取该会议ID对应的多条记录文件，根据每条记录文件中的起始记录时刻，分别生成一个该会议ID的多媒体文件的超链接，该超链接可为能够跳转至会议应用的一个链接，跳转位置为相应的起始记录时刻。

在一些实施例中，服务器还可根据每条记录文件中的纪要类型，将相同类型的记录文件进行相邻排列，纪要类型包括要点记录类型、待办事项记录类型和问答记录类型，要点记录类型用highlights表示，待办事项记录类型用todo表示，待办事项记录类型用qa_record表示。

参见图43，为根据一些实施例的会议纪要的界面示意图。图43中，会议议题、时间、主讲人和参会者可在会议开始之前的会议预定阶段由主讲人确定。

如图43所示，要点记录的内容根据meeting_minutes中type＝“highlights”的记录生成，每条要点的文本值从text字段取得，其超链接是根据time字段和会议号生成的到视频会议app，即会议应用的跳转链接，如videoconf://conference_id＝12345&type＝highlights&time＝t1；

待办事项的内容根据meeting_minutes中type＝“todo”的记录生成，每条记录的文本值从text字段取得，其超链接是根据time字段和会议号生成的到视频会议app跳转链接，如videoconf://conference_id＝12345&type＝todo&time＝t2；

QA记录的内容根据meeting_minutes中type＝“qa_record”的记录生成，每条问答记录的文本值从qa_record.record.question.text和qa_record.record.answer.text字段取得，其超链接是根据qa_record.time字段和会议号生成的到视频会议app跳转链接，如videoconf://conference_id＝12345&type＝qa_record&time＝t3。

如图43所示，部分纪要类型如问答记录类型的记录文件也可不生成超链接。

在一些实施例中，主讲人确认内容无误后，登录视频会议后台点击确认发送，服务器端会给参加会议的所有观众发送邮件。观众在安装了视频会议应用的设备上，通过邮件正文中的超链接，可以跳转到多媒体文件，如演讲视频回放的指定时间，例如点击一个会议要点记录的超链接，则跳转至进行该会议要点记录的起始记录时刻。

由上述实施例可见，本申请实施例通过在会议过程中生成用于记录会议纪要的浮层，使得用户可在会议过程中输入纪要数据，并确定输入纪要数据时的起始记录时刻，使得在会议结束后，可根据用户输入的纪要数据以及起始记录时刻快速生成会议纪要，若需要将生成的会议纪要进行编辑，也可根据起始记录时刻快速定位纪要数据在会议的多媒体文件中的相对位置，不需要从头开始查看多媒体文件，提高了会议纪要的生成效率。

Claims

一种终端，包括存储器和控制器，所述存储器，配置为存储数据和计算机指令，所述控制器，被配置为运行计算机指令使得所述终端：

响应于视频会议开始，采集外部声音，其中所述外部声音是指在所述终端周围产生的声音；将所述外部声音对应的语音流发送到服务器，以使所述服务器根据所语音流生成文字内容；

和/或，接收服务器发送的文字内容；控制显示器显示所述文字内容；

和/或，发送查看会议记录的请求到服务器；接收所述会议记录，所述会议记录根据所述文字内容生成。
根据权利要求1所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在会议启动后，实时录制所述会议的多媒体文件；

接收用户输入的会议纪要控件的触发操作；

响应于所述会议纪要控件的触发操作，在会议界面生成并显示用于记录会议纪要的浮层，获取所述记录文件浮层上输入的纪要数据；

在所述用户退出所述记录文件浮层时，生成包含起始记录时刻和所述纪要数据的记录文件，所述起始记录时刻为所述浮层生成时所述多媒体文件的录制时刻；

向服务器发送所述记录文件，使服务器根据所述会议的全部记录文件生成会议纪要。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

获取用户在所述会议界面框选的坐标区域；

对所述坐标区域内的图像进行文本识别，将识别出的文本确定为记录浮层上输入的纪要数据，并将识别出的文本添加到所述记录浮层的输入框中。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

获取用户在所述记录浮层的输入框中输入的文本数据，将所述输入框中输入的文本数据确定为所述记录浮层上输入的纪要数据。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

获取用户在所述记录浮层的输入框中输入的语音数据，将所述语音数据转换为文本数据，将转换得到的文本数据确定为所述记录浮层上输入的纪要数据。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

获取服务器发送的来自另一终端的文本数据，将所述服务器发送的来自另一终端的文本数据确定为所述记录浮层上输入的纪要数据。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

生成包含纪要类型、起始记录时刻以及所述纪要数据的记录数据，其中，所述纪要类型包括要点记录类型、待办事项记录类型和问答记录类型。
根据权利要求7所述的终端，所述会议纪要控件为要点记录控件或待办事项记录控件或问答记录控件，所述纪要类型根据所述会议纪要控件的控件数据中得到，所述要点记录控件的控件数据中的纪要类型为要点记录类型，所述待办事项记录控件的控件数据中的纪要类型为待办事项记录类型，所述问答记录控件的控件数据中的纪要类型为问答记录类型。
根据权利要求2所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

根据起始记录时刻生成超链接，所述超链接被配置为跳转至所述多媒体文件的起始记录时刻。
根据权利要求1所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在控制显示器显示按初始顺序显示的多个视频通话窗口时，获取用户输入的用于调整视频通话窗口显示顺序的控制指令；

响应于所述控制指令，从所述控制指令中提取目标窗口识别信息和自定义顺序，所述目标窗口为所述控制指令中指定的被调整显示顺序的视频通话窗口；

根据目标窗口识别信息，获取所述目标窗口的通话数据流；

按照所述自定义顺序，使用所述通话数据流替换所述用户界面中视频通话窗口的显示内容。
根据权利要求10所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在获取用户输入的用于调整视频通话窗口显示顺序的控制指令的步骤中，检测用户输入的第一交互动作，所述第一交互动作为用于触发窗口设置界面的交互动作；

响应于所述第一交互动作，显示窗口设置界面，所述窗口设置界面中包括视频通话窗口选项；

检测用户基于所述视频通话窗口选项输入的第二交互动作，所述第二交互动作为用于定义显示顺序的交互动作；

记录所述第二交互动作依次选中的视频通话窗口选项，以生成所述自定义顺序。
根据权利要求10所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在根据目标窗口识别信息，获取所述目标窗口的通话数据流的步骤中，遍历所述目标窗口的用户ID；

向服务器发送数据订阅请求，所述数据订阅请求包括所述用户ID；

接收所述服务器针对所述数据订阅请求反馈的数据流通道信息，以连接所述用户ID对应的数据流通道，获取所述通话数据流。
根据权利要求10所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在使用所述通话数据流替换所述用户界面中视频通话窗口的显示内容的步骤中，按照所述原始顺序，提取每个所述视频通话窗口的原用户ID；

按照所述自定义顺序，提取每个目标窗口的现用户ID；

如果所述原用户ID与所述现用户ID不同，使用所述目标窗口的通话数据流替换所述视频通话窗口中的显示内容；

如果所述原用户ID与所述现用户ID相同，保留所述视频通话窗口的显示内容。
根据权利要求13所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

检测所述目标窗口是否开启视频功能；

如果所述目标窗口已开启视频功能，获取所述目标窗口的通话数据流，以使用所述通话数据流替换视频通话窗口中的显示内容；

如果所述目标窗口未开启视频功能，获取现用户ID对应的识别画面，以在所述视频通话窗口中显示所述识别画面。
根据权利要求10所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

获取用户输入的用于开启或加入多人视频对话的入会指令；

响应于所述入会指令，从所述服务器获取参会列表信息，所述参会列表信息包括用户ID和音视频状态；

根据所述参会列表信息设置所述初始顺序；

按照所述初始顺序，在所述用户界面中绘制多个视频通话窗口。
根据权利要求15所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在根据所述参会列表信息设置所述初始顺序的步骤中，获取当前视频对话中为所述用户ID设置的身份信息；

基于所述身份信息设置第一优先级；

从所述音视频状态中解析音频开关值和视频开关值；

根据所述音频开关值和视频开关值计算判断值，所述判断值为所述音频开关值和视频开关值的加权求和结果；

基于所述判断值设置第二优先级，所述第一优先级高于所述第二优先级。
根据权利要求16所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

监听所述用户界面中每个视频通话窗口的音视频状态；

如果任一所述视频通话窗口的音视频状态发生改变，根据改变后的音视频状态重新计算第二优先级；

按照重新计算的第二优先级调整所述视频通话窗口的显示顺序。
根据权利要求10所述的终端，所述控制器，还被配置为运行计算机指令使得所述终端：

在使用所述通话数据流替换所述用户界面中视频通话窗口的显示内容的步骤中，获取所述目标窗口数量和所述用户界面的窗口总数量；

如果所述目标窗口数量小于所述窗口总数量，将所述用户界面中的第一窗口替换为所述目标窗口的通话数据流；所述第一窗口为所述用户界面中的所述目标窗口数量个视频对话窗口；

按照所述初始顺序在所述用户界面中显示第二窗口的通话数据流，所述第二窗口为所述用户界面中除所述第一窗口外的视频对话窗口。