WO2019080873A1

WO2019080873A1 - 一种批注生成的方法及相关装置

Info

Publication number: WO2019080873A1
Application number: PCT/CN2018/111660
Authority: WO
Inventors: 熊飞; 任旻
Original assignee: 腾讯科技（深圳）有限公司
Priority date: 2017-10-27
Filing date: 2018-10-24
Publication date: 2019-05-02
Also published as: CN109726367A; CN109726367B

Abstract

本申请公开了一种批注生成的方法，方法应用于即时通信应用程序，包括：第一终端设备通过即时通信应用程序接收批注输入指令集合，批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；第一终端设备根据批注输入指令集合中的指令确定目标文档所对应的批注信息；第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频。本申请还提供一种终端设备。本申请可以直接对文档的多个地方进行批注，从而提升了方案的执行效率，并能够同时在即时通信应用程序中对文档进行批注和沟通，使得方案具有更强的灵活性。

Description

一种批注生成的方法及相关装置

本申请要求于2017年10月27日提交中国专利局、申请号201711022730.1、申请名称为“一种批注展示的方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及互联网技术领域，尤其涉及批注生成技术。

背景技术

随着互联网技术的不断发展，越来越多的人依赖于即时通信应用程序进行交流。在日常工作和生活中，为了便于沟通，一个用户经常需要将文档传给其他用户，以便大家就同一个文档中的内容进行探讨。

目前，在讨论文档中的问题时，通常可以先对文档中的内容进行截图或者直接进行修改，然后将截图或修改后的内容发送给其他用户，再与其他用户对文档内容进行探讨。

然而，在修改内容比较多的时候，直接对文档做修改需要耗费较多时间，不利于方案的实用性。此外，如果文档篇幅较长，那么对文档进行截图操作也需要耗费很多的时间和精力，降低了方案的可行性。

发明内容

本申请实施例提供了一种批注生成的方法及相关装置，一方面可以直接对文档的多个地方进行批注，无需对文档进行截图或者修改，从而提升了方案的执行效率，另一方面，能够同时在即时通信应用程序中对文档进行批注和沟通，使得方案具有更强的灵活性。

有鉴于此，本申请第一方面提供了一种批注生成的方法，所述方法应用于即时通信应用程序，所述方法包括：

第一终端设备通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

所述第一终端设备根据所述批注输入指令集合确定所述目标文档所对应的批注信息；

所述第一终端设备根据所述批注信息以及所述每个指令对应的时刻，合成批注视频。

本申请第二方面提供了一种终端设备，所述终端设备安装有即时通信应用程序，包括：

接收模块，用于通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

确定模块，用于根据所述接收模块接收的所述批注输入指令集合确定所述目标文档所对应的批注信息；

合成模块，用于根据所述确定模块确定的所述批注信息以及所述每个指令对应的时刻，合成批注视频。

本申请第三方面提供了一种终端设备，所述终端设备安装有即时通信应用程序，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

根据所述批注输入指令集合确定所述目标文档所对应的批注信息；

根据所述批注信息以及所述每个指令对应的时刻，合成批注视频；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。

本申请的第四方面提供了一种计算机可读存储介质，所述计算机可读存储介质中存储有计算机程序；所述计算机程序用于执行上述第一方面所述的方法。

本申请的第五方面提供了一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行上述第一方面所述的方法。

从以上技术方案可以看出，本申请实施例具有以下优点：

本申请实施例中，提供了一种批注生成的方法，该方法应用于即时通信应用程序，首先第一终端通过即时通信应用程序接收批注输入指令集合，其中，批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻，然后可以根据批注输入指令集合中的指令确定目标文档所对应的批注信息，接下来，第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频。通过上述方式，一方面可以直接对文档的多个地方进行批注，无需对文档进行截图或者修改，从而提升了方案的执行效率，另一方面，能够同时在即时通信应用程序中对文档进行批注和沟通，使得方案具有更强的灵活性。

附图说明

图1为本申请实施例中层级关系与显示层级之间的一个关系示意图；

图2为本申请实施例中层级关系与显示层级之间的另一个关系示意图；

图3为本申请实施例中批注生成的方法一个实施例示意图；

图4为本申请实施例中开启语音批注功能的一个界面示意图；

图5为本申请实施例中确认语音批注的一个界面示意图；

图6为本申请实施例中目标文档批注的一个界面示意图；

图7为本申请实施例中合成并发送批注视频的一个界面示意图；

图8为本申请实施例中批注视频中显示字幕的一个界面示意图；

图9为本申请实施例中确认语音批注及视频批注的一个界面示意图；

图10为本申请应用场景中使用系统插件预览目标文档的一个界面示意图；

图11为本申请应用场景中使用云端预览查看目标文档的一个界面示意图；

图12a为本申请实施例中终端设备一个实施例示意图；

图12b为本申请实施例中终端设备另一个实施例示意图；

图13为本申请实施例中终端设备另一个实施例示意图；

图14为本申请实施例中终端设备另一个实施例示意图；

图15为本申请实施例中终端设备一个结构示意图。

具体实施方式

本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”、“第三”、“第四”等(如果存在)是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本申请的实施例例如能够以除了在这里图示或描述的那些以外的顺序实施。此外，术语“包括”和“具有”以及他们的任何变形，意图在于覆盖不排他的包含，例如，包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元，而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。

应理解，本申请主要应用于即时通讯(instant messaging，IM)应用程序(application，APP)。目前在互联网上常用的IM APP包括腾讯QQ、微信、易信、钉钉、百度HI、飞信、阿里旺旺、京东咚咚、飞语、yy、Skype、Google Talk、icq、FastMsg以及parox等，大部分的即时通讯服务提供了状态信息的特性——显示联络人名单，联络人是否在线及能否与联络人交谈。通常IM服务会在使用者通话清单(类似电话簿)上的某人连上IM时发出讯息通知使用者，使用者便可据此与此人透过互联网开始进行实时的通讯。除了文字外，在频宽充足的前提下，大部分IM服务事实上也提供视讯通讯的能力。实时传讯与电子邮件最大的不同在于不用等候，只要两个人都同时在线，就能像多媒体电话一样，传送文字、档案、声音、影像给对方，只要有网络，无论对方在天涯海角，或是双方隔得多远都没有距离。

本申请可以利用IM功能，直接在IM APP上打开文档预览展示文档内容，并且可以对文档进行批注，然后将批注的过程录制下来。录制过程中，录制框的大小不可改变，仅能对文档进行翻页。录制可以包括翻页动作、批注动作和鼠标动作。如果用户选择开启麦克风，则录制过程中，音轨保留麦克风内容。

为了便于理解，请参阅图1，图1为本申请实施例中层级关系与显示层级之间的一个关系示意图，如图所示，如果用户需要使用批注工具，则在文档预览视图上叠加一个批注视图，所有批注内容与文档一一对应，可在ScrollView容器上滚动文档，还可以在批注视图上进行批注动作的撤销以及删除。录制所有翻页动作、批注动作和鼠标动作。完成批注后，将麦克风音轨、文档操作视频和批注操作视频合并成一路视频，显示于预览窗口上，最后将合成的视频分享给IM APP上的其他用户。

请继续参阅图2，图2为本申请实施例中层级关系与显示层级之间的另一个关系示意图，如图所示，用户点击“语音批注”按钮之后，就会打开“预览窗口”。“预览窗口”中包含文档预览视图，其中，文档预览视图用于展示文档内容。工具栏用于添加矩形、圆形、箭头、文字、标签以及手写等批注元素，还可以撤销上一步操作，控制麦克风开关，以及显示录制时间等。批注视图用于展示批注内容。

ScrollView容器的内部包含文档预览视图和批注视图，当视图尺寸大于预览窗口尺寸时，ScrollView会显示滚动条。用户滑动滚动条时，已添加的批注要保持和文档内容相对位置固定。批注视图与文档预览视图的尺寸相同，都是ScrollView的子视图。当用户滑动ScrollView的滚动条时，批注视图与文档预览视图会同时移动，并保持相对位置不变。这样就可以保证批注和文档内容不会错位。用户缩放预览视图时，已添加的批注要和文档内容相对位置固定。当文档预览视图缩放时，其尺寸会发生变化，此时，对应的调整批注视图的尺寸，使其始终与文档预览视图尺寸相同，且相对位置不变。

下面将对本申请中批注生成的方法进行介绍，该方法应用于即时通信应用程序，请参阅图3，本申请实施例中批注生成的方法一个实施例包括：

101、第一终端设备通过即时通信应用程序接收批注输入指令集合，其中，批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻。

本实施例中，首先第一终端设备通过IM APP接收用户触发的批注输入指令集合，批注输入指令集合中包含了至少一个用于对目标文档进行批注的指令，例如，添加矩形框指令、添加圆形框指令、添加箭头指令、添加文字指令、添加标签指令以及添加手写指令等，当然，对目标文档进行批注的指令还可以包括撤销指令、删除指令、显示录制时间指令和视音频录制指令等。

可以理解的是，目标文档可以是图片、文字处理器应用程序(microsoft office word)或者便携式文档格式(portable document format，PDF)等任意IM APP支持的文档，此处不作限定。

此外，每个指令都对应一个时刻，比如，10分25秒开始输入文字，12分37秒开始添加矩形框等。

102、第一终端设备根据批注输入指令集合中的指令确定目标文档所对应的批注信息。

本实施例中，第一终端设备可以根据接收到的批注输入指令集合中的指令，确定目标文档包含的批注信息，目标文档的批注信息如下表1所示。

表1

时刻	指令	批注信息
0分1秒	添加手写指令	手写“NO”
0分16秒	添加箭头指令	在“培训”下方画向右箭头
0分55秒	添加手写指令	手写“GOOD”
1分03秒	添加文字指令	输入“样本”二字
1分17秒	添加圆形框指令	圆形框框住“微信”二字
1分44秒	添加标签指令	添加“第一稿”标签
2分00秒	撤销指令	撤销添加的“第一稿”标签

表1中的批注信息仅为一个示意，不应理解为对本申请的限定。

103、第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频。

本实施例中，第一终端设备根据批注信息以及每个指令对应的时刻，能够合成一个批注视频，该批注视频即为录制批注过程的视频。

之后，第一终端设备可以将批注视频发送至第二终端设备，其中，第二终端设备用于通过即时通信应用程序接收并展示批注视频。

本实施例中，第一终端设备在合成批注视频之后，可以通过IM APP将该批注视频发送至至少一个第二终端设备。需要说明的是，步骤101至步骤103，以及将批注视频发送至第二终端设备均在同一个IM APP中进行，期间不需要用户退出该IM APP进行批注视频的录制操作，也就是说，用户直接在IM APP上收到目标文档之后，就可以开始进行批注并录制成对应的批注视频。

第二终端设备通过IM APP收到第一终端设备发送的批注视频之后，直接通过IM APP开启该批注视频就可以看到整个批注的过程。

本申请实施例中，提供了一种批注生成的方法，该方法应用于即时通信应用程序，首先第一终端设备通过即时通信应用程序接收批注输入指令集合，其中，批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻，然后可以根据批注输入指令集合中的指令确定目标文档所对应的批注信息，接下来，第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频。通过上述方式，一方面可以直接对文档的多个地方进行批注，无需对文档进行截图或者修改，从而提升了方案的执行效率，另一方面，能够同时在即时通信应用程序中对文档进行批注和沟通，使得方案具有更强的灵活性。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的批注生成的方法第一个可选实施例中，第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频之前，还可以包括：

第一终端设备接收音频数据流，其中，音频数据流中携带时刻标识；

第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频，可以包括：

第一终端设备根据批注信息、每个指令对应的时刻以及音频数据流，合成批注视频，其中，每个指令对应的时刻与音频数据流中携带的时刻标识具有对应关系。

本实施例中，将具体介绍如何在批注过程中加入语音解释。具体地，请参阅图4，图4为本申请实施例中开启语音批注功能的一个界面示意图，首先，用户在IM APP上发送目标文档，假设该目标文档是WORD文档，那么在目标文档气泡旁边的“语音批注”即可以加入语音批注功能。点击“语音批注”后打开目标文档进行浏览，并提供开始批注的入口。

接下来，请参阅图5，图5为本申请实施例中确认语音批注的一个界面示意图，如图所示，用户可以点击选择开启麦克风。然后点击“开始语音批注”，此时将会进入语音批注阶段，请参阅图6，图6为本申请实施例中目标文档批注的一个界面示意图，如图所示，用户可以一边使用工具批注目标文档，一边通过语音进行解释，帮助听者更好地理解批注。

录制完成后，将以视频的形式存储整个批注的过程，由于是视频录制，所以每个指令所对应的时刻以及音频数据流的时刻标识都作为合成批注视频的重要参考值，这样可以防止音画不同步的问题。合成完批注视频后，请参阅图7，图7为本申请实施例中合成并发送批注视频的一个界面示意图，如图所示，用户可以选择保存到本地，或者用小视频的模式分享给其他用户。

本申请实施例中，第一终端设备除了接收批注输入指令集合，还可以接收音频数据流，也就是用户可以在一边批注的时候一边录音，最后合成的批注视频中包含音频数据流。通过上述方式，能够提升文档的批注体验，并且采用语音结合批注的方式有利于增加批注和表达的效率。

可选地，在上述图3对应的第一个实施例的基础上，本申请实施例提供的批注生成的方法第二个可选实施例中，第一终端设备接收音频数据流之后，还可以包括：

第一终端设备通过语音识别模型对音频数据流进行处理，获取音频数据流所对应的字幕信息；

第一终端设备根据批注信息、每个指令对应的时刻以及音频数据流，合成批注视频，可以包括：

第一终端设备根据批注信息、每个指令对应的时刻、音频数据流以及字幕信息，合成批注视频。

本实施例中，第一终端设备还可以通过语音识别模型对音频数据流进行处理，获取音频数据流所对应的字幕信息，以便在第二终端显示批注视频时，可以显示音频数据流所对应的字幕。

请参阅图8，图8为本申请实施例中批注视频中显示字幕的一个界面示意图，如图所示，在播放批注视频时，除了可以显示当前播放的进度，还可以显示音频数据流所对应的字幕，需要说明的是，图8下方的字幕位置仅为一个示意，在实际应用中，该字幕位置可以根据用户习惯进行调整。

可以理解的是，语音识别模型包含但不仅限于声学模型和语言模型。语言模型表示某一字序列发生的概率，一般采用链式法则，把一个句子的概率拆解成器中的每个词的概率之积。声学模型的任务是给定文字之后发出这段语音的概率。

需要说明的是，字幕信息可以显示于批注视频的下方，也可以显示在批注视频的上方，或者根据用户需求进行设置，此处不做限定。

本申请实施例中，终端设备通过语音识别模型对音频数据流进行处理，获取音频数据流所对应的字幕信息，然后结合批注信息、每个指令对应的时刻、音频数据流以及字幕信息合成批注视频。通过上述方式，可以帮助听力较弱或者无法在当前环境下听声音的用户理解批注视频中的内容。此外，由于很多字词同音，只有通过字幕文字和音频结合来观看，才能更加清楚批注视频中的内容，从而提升方案的实用性和可行性。

可选地，在上述图3、图3对应的第一个或第二个实施例的基础上，本申请实施例提供的批注生成的方法第三个可选实施例中，第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频之前，还可以包括：

第一终端设备接收视频数据流，其中，视频数据流中携带时刻标识；

第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，可以包括：

第一终端设备根据批注信息、每个指令对应的时刻、音频数据流以及视频数据流，合成批注视频，其中，所述每个指令对应的时刻、音频数据流中携带的时刻标识与视频数据流中携带的时刻标识均具有对应关系。

本实施例中，第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频之前，除了可以接收音频数据流以外，还可以接收视频数据流。视频数据流是通过摄像头采集的。比如，用户在录音的同时，还开启了视频录制，那么就可以记录用户在批注时的表情和动作，然后制成一路视频，与批注信息以及音频数据流共同合成批注视频。

所以每个指令所对应的时刻、音频数据流的时刻标识以及视频数据流的时刻标识作为合成批注视频的重要参考值，这样可以防止音画不同步的问题。

请参阅图9，图9为本申请实施例中确认语音批注及视频批注的一个界面示意图，如图所示，当需要录制视频时还可以选择“摄像头”，这样即可进行视频录制，需要说明的是，图9右上方的视频显示位置仅为一个示意，在实际应用中，该视频显示位置可以根据用户习惯进行调整。

本申请实施例中，第一终端设备除了接收批注输入指令集合，还可以接收音频数据流，以及接收视频数据流，也就是用户可以在批注的时候一边录音一边录像，最后合成的批注视频中包含音频数据流和视频数据流。通过上述方式，能够更好地提升文档的批注体验，并且采用语音和视频相结合的批注方式，有利于增加批注和表达的效率。

可选地，在上述图3对应的实施例的基础上，本申请实施例提供的批注生成的方法第四个可选实施例中，第一终端设备通过即时通信应用程序接收批注输入指令集合之前，还可以包括：

第一终端设备获取目标文档的文档类型；

第一终端设备判断目标文档的文档类型是否属于预设文档类型；

若目标文档的文档类型属于预设文档类型，则第一终端设备在即时通信应用程序的显示界面上展示目标文档；

若目标文档的文档类型不属于预设文档类型，则第一终端设备通过调用系统插件展示目标文档。

本实施例中，在第一终端设备通过即时通信应用程序接收批注输入指令集合之前，需要先获取目标文档的文档类型，如果文档类型是属于预设文档类型的，那么就可以直接通过IM APP在文档预览视图中展示目标文档内容。预设文档类型可以是文本文件或者图片文件等。如果不属于预设文档类型，需要调用系统插件来显示目标文档。

系统插件是一种遵循一定规范的应用程序接口编写出来的程序。系统插件运行在程序规定的系统平台下(可能同时支持多个平台)，而不能脱离指定的平台单独运行。因为系统插件需要调用原纯净系统提供的函数库或者数据，很多IM APP都有系统插件。本申请中，第一终端设备可以通过调用IM APP中的系统插件来展示目标文档，也可以通过调用操作系统中的系统插件来展示目标文档。

本申请实施例中，终端设备还可以获取目标文档的类型，如果该目标文档的文档类型属于预设文档类型，那么终端设备直接在即时通讯应用程序上显示该目标文档，否则，终端设备就需要调用系统插件，通过系统插件展示目标文档。通过上述方式，即便即时通信应用程序不支持某个文档类型，也可以调用系统插件来显示该文档类型所对应的目标文档，从而提升了方案的可行性和可操作性，适用于各种不同类型的目标文档。

可选地，在上述图3对应的第四个实施例的基础上，本申请实施例提供的批注生成的方法第五个可选实施例中，第一终端设备通过调用系统插件展示目标文档之后，还可以包括：

第一终端设备向服务器发送文档浏览指令，以使服务器根据文档浏览指令生成目标文档所对应的预览图片，其中，文档浏览指令中携带目标文档的标识；

第一终端设备接收服务器发送的预览图片；

第一终端设备通过调用系统插件展示目标文档，可以包括：

第一终端设备通过调用系统插件按照顺序展示目标文档所对应的预览图片。

本实施例中，第一终端设备通过调用系统插件展示目标文档之后，还可以进而向服务器发送文档浏览指令，也就是启动“云端预览”功能。服务器根据该文档浏览指令中携带的标识，调用存储器中的目标文档，并将目标文档以预览图片的形式发送至第一终端设备。第一终端设备按照从前往后或者从后往前的顺序，展示目标文档所对应的每个预览图片。用户可以在每个预览图片上进行批注，比如，目标文档一共有十张预览图片，合成的批注视频也包括了对这十张预览图片的批注。

可以理解的是，服务器在后台调用目标文档的过程具体为，通过目标文档的标识进行索引，每个目标文档对应一个标识，因此，该标识具有唯一性。目标文档的标识可以是消息摘要算法第五版(message digest algorithm，MD5)或者安全哈希算法(secure hash algorithm，SHA)，还可以是其他类型的标识，此处不做限定。

本申请实施例中，介绍了如何通过调用系统插件来展示目标文档，可以按照一定的次序以预览图片的形式来展示目标文档。通过上述方式，用户在录制批注视频的时候，能够按照合理的顺序对目标文档进行批注，从而提升方案的合理性和可行性。

可选地，在上述图3对应的第五个实施例的基础上，本申请实施例提供的批注生成的方法第六个可选实施例中，第一终端设备通过即时通信应用程序接收批注输入指令集合，可以包括：

第一终端设备通过即时通信应用程序接收第一预览图片对应的第一批注输入指令子集合，其中，第一预览图片为目标文档所对应的预览图片，第一批注输入指令子集合属于批注输入指令集合；

第一终端设备通过即时通信应用程序接收第二预览图片对应的第二批注输入指令子集合，其中，第二预览图片为目标文档所对应的预览图片，第二批注输入指令子集合属于批注输入指令集合；

第一终端设备根据第一预览图片、第一批注输入指令子集合、第二预览图片和第二批注输入指令子集合，建立批注数据数组，其中，批注数据数组中包含预览图片与批注输入指令子集合之间的对应关系；

第一终端设备根据批注输入指令集合确定目标文档所对应的批注信息，可以包括：

第一终端设备根据批注输入指令集合、目标文档所对应的预览图片以及批注数据数组，确定目标文档所对应的批注信息。

本实施例中，对于包含多页预览图片的目标文档，当用户翻页时，添加的批注内容需要和预览图片相对应。具体地，目标文档包含两页预览图片，分别为第一预览图片和第二预览图片，用户对第一预览图片进行批注，即第一预览图片对应于第一批注输入指令子集合，接着用户对第二预览图片进行批注，即第二预览图片对应于第二批注输入指令子集合。第一终端设备将维护一个批注数据数组，该批注数据数组如表2所示。

表2

预览图片	批注输入指令子集合
第一预览图片	第一批注输入指令子集合
第二预览图片	第二批注输入指令子集合

需要说明的是，批注数据数组中还可以包含更多预览图片与批注输入指令子集合之间的对应关系，表2仅为一个示意，并不应理解为对本申请的限定。批注数据数组中的元素数量与目标文档的分页数相同。用户添加批注时，用当前预览图片的页数作为索引，将批注输入指令子集合存储在数组中。用户可以通过翻页按钮或者预览图片切换页面。翻页开始时，清空批注视图。翻页结束后，根据当前的页数，从批注数据数组中取出对应批注输入指令子集合，绘制在批注视图上。

本申请实施例中，如果目标文档包含多个页面的时候，则用户能够针对每个页面进行批注，每个页面即为一个预览图片，在预览图片上所做的批注即为批注输入指令子集合，终端设备以批注数据数组的形式存储预览图片和批注输入指令子集合之间的对应关系。通过上述方式，终端设备在合成批注视频的时候可以获取批注数据数组中批注和页面的对应关系，这样能够在多页文档的情况下，有效地提升合成批注视频的准确性，避免出现批注与页面出现不对齐的情况。

为了便于理解，下面以一个具体应用场景对本申请中使用系统插件预览的方法进行详细描述，具体地：

假设IM APP为腾讯公司开发的QQ，用户A想在QQ上打开一个演示文稿(powerpoint，PPT)，但是QQ并不能直接开启PPT，于是，QQ可以调用系统插件来显示PPT的内容，即如图10所示，图10为本申请应用场景中使用系统插件预览目标文档的一个界面示意图。

由于系统插件不一定能够完美显示文件内容，所以此时会向服务器查询是否能够支持该类型文件的云端预览。如果该文件的云端预览，则在预览视图中显示“云端预览”按钮。

PPT文件的云端预览方式为，服务器安装有支持打开PPT格式的软件，例如微软Office。该服务器利用微软Office打开PPT文件，然后将PPT的每一页存储为图片文件。然后将所有图片文件按照PPT中的页面顺序发送给客户端进行查看。请参阅图11，图11为本申请应用场景中使用云端预览查看目标文档的一个界面示意图，如图所示，服务器会以该PPT文件的MD5值为索引，对生成的预览图片进行管理和缓存。

如果用户对系统插件显示的PPT结果不满意，比如，发现PPT中字体不正确或者内容错位，则可以点击“云端预览”按钮。预览窗口首先询问云端预览服务器是否需要上传该PPT文件。接着，用于云端预览的服务器会检查云端是否已经存在该文件预览内容的图片文件缓存。如果在不久前曾经有用户预览过该文件，则服务器端有缓存，此时服务器可以通知客户端无需上传PPT文件，且通知客户端预览图片就绪。

如果服务器没有缓存图片文件，则检查云端是否有该PPT文件的缓存，通过MD5进行索引。如果曾经有用户对该文件进行过云盘存储或者QQ离线传文件等操作，则云端有该文件的缓存。服务器打开该文件，并生成预览图片。然后通知客户端无需上传PPT文件，并通知客户端预览图片就绪。否则，服务器就需要通知客户端上传该PPT文件。

客户端上传PPT文件之后，服务器打开该PPT文件，并生成预览图片。服务器通知客户端预览图片就绪。客户端收到预览图片就绪的通知后，向服务器申请预览图。服务器告知客户端预览图片的总数。客户端依次系在每一张预览图，并在预览窗口显示。

下面对本申请中的终端设备进行详细描述，请参阅图12a，图12a为本申请实施例中终端设备一个实施例示意图，终端设备20包括：

接收模块201，用于通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

确定模块202，用于根据所述接收模块201接收的所述批注输入指令集合中的指令确定所述目标文档所对应的批注信息；

合成模块203，用于根据所述确定模块202确定的所述批注信息以及所述每个指令对应的时刻，合成批注视频。

本实施例中，接收模块201通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻，确定模块202根据所述接收模块201接收的所述批注输入指令集合中的指令确定所述目标文档所对应的批注信息，合成模块203根据所述确定模块202确定的所述批注信息以及所述每个指令对应的时刻，合成批注视频。

本申请实施例中，提供了一种终端设备，首先第一终端设备通过即时通信应用程序接收批注输入指令集合，其中，批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻，然后可以根据批注输入指令集合中的指令确定目标文档所对应的批注信息，接下来，第一终端设备根据批注信息以及每个指令对应的时刻，合成批注视频。通过上述方式，一方面可以直接对文档的多个地方进行批注，无需对文档进行截图或者修改，从而提升了方案的执行效率，另一方面，能够同时在即时通信应用程序中对文档进行批注和沟通，使得方案具有更强的灵活性。

可选地，在上述图12a对应的实施例的基础上，本申请实施例提供的终端设备另一实施例中，请参阅图12b，所述终端设备20还包括：

发送模块204，用于将所述合成模块203合成的所述批注视频发送至第二终端设备，其中，所述第二终端设备用于通过所述即时通信应用程序接收并展示所述批注视频。

可选地，在上述图12a对应的实施例的基础上，本申请实施例提供的终端设备另一实施例中，所述终端设备20还包括：

所述接收模块201，还用于在所述合成模块203根据所述批注信息以及所述每个指令对应的时刻，合成批注视频之前，接收音频数据流，其中，所述音频数据流中携带时刻标识；

所述合成模块203，具体用于根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，其中，所述每个指令对应的时刻与所述音频数据流中携带的时刻标识具有对应关系。

可选地，在上述图12a对应的实施例的基础上，请参阅图13，本申请实施例提供的终端设备另一实施例中，所述终端设备20还包括获取模块205；

所述获取模块205，用于在所述接收模块201接收音频数据流之后，通过语音识别模型对所述音频数据流进行处理，获取所述音频数据流所对应的字幕信息；

所述合成模块203，具体用于根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述字幕信息，合成所述批注视频。

可选地，在上述图12a或图13对应的实施例的基础上，本申请实施例提供的终端设备另一实施例中，所述终端设备20还包括：

所述接收模块201，还用于在所述合成模块203用于根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频之前，接收视频数据流，其中，所述视频数据流中携带时刻标识；

所述合成模块203，具体用于根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述视频数据流，合成所述批注视频，其中，所述每个指令对应的时刻、所述音频数据流中携带的时刻标识与所述视频数据流中携带的时刻标识均具有对应关系。

可选地，在上述图12a对应的实施例的基础上，请参阅图14，本申请实施例提供的终端设备另一实施例中，所述终端设备20还包括判断模块206和展示模块207；

所述获取模块205，还用于所述接收模块201通过所述即时通信应用程序接收批注输入指令集合之前，获取所述目标文档的文档类型；

所述判断模块206，用于判断所述获取模块205获取的所述目标文档的文档类型是否属于预设文档类型；

所述展示模块207，用于若所述判断模块206判断得到所述目标文档的文档类型属于所述预设文档类型，则所述第一终端设备在所述即时通信应用程序的显示界面上展示所述目标文档；

所述展示模块207，用于若所述判断模块206判断得到所述目标文档的文档类型不属于所述预设文档类型，则所述第一终端设备通过调用系统插件展示所述目标文档。

本申请实施例中，终端设备还可以获取目标文档的文档类型，如果该目标文档的文档类型属于预设文档类型，那么终端设备直接在即时通讯应用程序上显示该目标文档，否则，终端设备就需要调用系统插件，通过系统插件展示文档。通过上述方式，即便即时通信应用程序不支持某个文档类型，也可以调用系统插件来显示该文档类型所对应的目标文档，从而提升了方案的可行性和可操作性，适用于各种不同类型的目标文档。

可选地，在上述图14对应的实施例的基础上，本申请实施例提供的终端设备另一实施例中，所述终端设备20还包括：

所述发送模块204，用于所述展示模块207通过调用系统插件展示所述目标文档之后，向服务器发送文档浏览指令，以使所述服务器根据所述文档浏览指令生成所述目标文档所对应的预览图片，其中，所述文档浏览指令中携带所述目标文档的标识；

所述接收模块201，用于接收所述服务器发送的所述预览图片；

所述展示模块207，具体用于通过调用系统插件按照顺序展示所述目标文档所对应的预览图片。

本申请实施例中，介绍了如何通过调用系统插件来展示目标文档，可以按照一定的次序以图片的形式来展示目标文档。通过上述方式，用户在录制批注视频的时候，能够按照合理的顺序对目标文档进行批注，从而提升方案的合理性和可行性。

所述接收模块201，具体用于通过所述即时通信应用程序接收第一预览图片对应的第一批注输入指令子集合，其中，所述第一预览图片为所述目标文档所对应的预览图片，所述第一批注输入指令子集合属于所述批注输入指令集合；

通过所述即时通信应用程序接收第二预览图片对应的第二批注输入指令子集合，其中，所述第二预览图片为所述目标文档所对应的预览图片，所述第二批注输入指令子集合属于所述批注输入指令集合；

根据所述第一预览图片、所述第一批注输入指令子集合、所述第二预览图片和所述第二批注输入指令子集合，建立批注数据数组，其中，所述批注数据数组中包含预览图片与批注输入指令子集合之间的对应关系；

所述确定模块202，具体用于根据所述批注输入指令集合、所述目标文档所对应的预览图片以及所述批注数据数组，确定所述目标文档所对应的所述批注信息。

本申请实施例中，如果目标文档包含多个页面的时候，则用户能够针对每个页面进行批注，每个页面即为一个预览图片，在预览图片上所做的批注即为批注输入指令子集合，终端设备以数据数组的形式存储预览图片和批注输入指令子集合之间的对应关系。通过上述方式，终端设备在合成批注视频的时候可以获取数据数组中批注和页面的对应关系，这样能够在多页文档的情况下，有效地提升合成批注视频的准确性，避免出现批注与页面出现不对齐的情况。

本申请实施例还提供了另一种终端设备，如图15所示，为了便于说明，仅示出了与本申请实施例相关的部分，具体技术细节未揭示的，请参照本申请实施例方法部分。该终端可以为包括手机、平板电脑、个人数字助理(personal digital assistant，PDA)、销售终端(point of sales，POS)、车载电脑等任意终端设备，以终端为手机为例：

图15示出的是与本申请实施例提供的终端相关的手机的部分结构的框图。参考图15，手机包括：射频(radio frequency，RF)电路310、存储器320、输入单元330、显示单元340、传感器350、音频电路360、无线保真(wireless fidelity，WiFi)模块370、处理器380、以及电源390等部件。本领域技术人员可以理解，图15中示出的手机结构并不构成对手机的限定，可以包括比图示更多或更少的部件，或者组合某些部件，或者不同的部件布置。

下面结合图15对手机的各个构成部件进行具体的介绍：

RF电路310可用于收发信息或通话过程中，信号的接收和发送，特别地，将基站的下行信息接收后，给处理器380处理；另外，将设计上行的数据发送给基站。通常，RF电路310包括但不限于天线、至少一个放大器、收发信机、耦合器、低噪声放大器(low noise amplifier，LNA)、双工器等。此外，RF电路310还可以通过无线通信与网络和其他设备通信。上述无线通信可以使用任一通信标准或协议，包括但不限于全球移动通讯系统(global system of mobile communication，GSM)、通用分组无线服务(general packet radio service，GPRS)、码分多址(code division multiple access，CDMA)、宽带码分多址(wideband code division multiple access,WCDMA)、长期演进(long term evolution，LTE)、电子邮件、短消息服务(short messaging service，SMS)等。

存储器320可用于存储软件程序以及模块，处理器380通过运行存储在存储器320的软件程序以及模块，从而执行手机的各种功能应用以及数据处理。存储器320可主要包括存储程序区和存储数据区，其中，存储程序区可存储操作系统、至少一个功能所需的应用程序(比如声音播放功能、图像播放功能等)等；存储数据区可存储根据手机的使用所创建的数据(比如音频数据、电话本等)等。此外，存储器320可以包括高速随机存取存储器，还可以包括非易失性存储器，例如至少一个磁盘存储器件、闪存器件、或其他易失性固态存储器件。

输入单元330可用于接收输入的数字或字符信息，以及产生与手机的用户设置以及功能控制有关的键信号输入。具体地，输入单元330可包括触控面板331以及其他输入设备332。触控面板331，也称为触摸屏，可收集用户在其上或附近的触摸操作(比如用户使用手指、触笔等任何适合的物体或附件在触控面板331上或在触控面板331附近的操作)，并根据预先设定的程式驱动相应的连接装置。可选的，触控面板331可包括触摸检测装置和触摸控制器两个部分。其中，触摸检测装置检测用户的触摸方位，并检测触摸操作带来的信号，将信号传送给触摸控制器；触摸控制器从触摸检测装置上接收触摸信息，并将它转换成触点坐标，再送给处理器380，并能接收处理器380发来的命令并加以执行。此外，可以采用电阻式、电容式、红外线以及表面声波等多种类型实现触控面板331。除了触控面板331，输入单元330还可以包括其他输入设备332。具体地，其他输入设备332可以包括但不限于物理键盘、功能键(比如音量控制按键、开关按键等)、轨迹球、鼠标、操作杆等中的一种或多种。

显示单元340可用于显示由用户输入的信息或提供给用户的信息以及手机的各种菜单。显示单元340可包括显示面板341，可选的，可以采用液晶显示器(liquid crystal display，LCD)、有机发光二极管(organic light-emitting diode，OLED)等形式来配置显示面板341。进一步的，触控面板331可覆盖显示面板341，当触控面板331检测到在其上或附近的触摸操作后，传送给处理器380以确定触摸事件的类型，随后处理器380根据触摸事件的类型在显示面板341上提供相应的视觉输出。虽然在图15中，触控面板331与显示面板341是作为两个独立的部件来实现手机的输入和输入功能，但是在某些实施例中，可以将触控面板331与显示面板341集成而实现手机的输入和输出功能。

手机还可包括至少一种传感器350，比如光传感器、运动传感器以及其他传感器。具体地，光传感器可包括环境光传感器及接近传感器，其中，环境光传感器可根据环境光线的明暗来调节显示面板341的亮度，接近传感器可在手机移动到耳边时，关闭显示面板341和/或背光。作为运动传感器的一种，加速计传感器可检测各个方向上(一般为三轴)加速度的大小，静止时可检测出重力的大小及方向，可用于识别手机姿态的应用(比如横竖屏切换、相关游戏、磁力计姿态校准)、振动识别相关功能(比如计步器、敲击)等；至于手机还可配置的陀螺仪、气压计、湿度计、温度计、红外线传感器等其他传感器，在此不再赘述。

音频电路360、扬声器361，传声器362可提供用户与手机之间的音频接口。音频电路360可将接收到的音频数据转换后的电信号，传输到扬声器361，由扬声器361转换为声音信号输出；另一方面，传声器362将收集的声音信号转换为电信号，由音频电路360接收后转换为音频数据，再将音频数据输出处理器380处理后，经RF电路310以发送给比如另一手机，或者将音频数据输出至存储器320以便进一步处理。

WiFi属于短距离无线传输技术，手机通过WiFi模块370可以帮助用户收发电子邮件、浏览网页和访问流式媒体等，它为用户提供了无线的宽带互联网访问。虽然图15示出了WiFi模块370，但是可以理解的是，其并不属于手机的必须构成，完全可以根据需要在不改变发明的本质的范围内而省略。

处理器380是手机的控制中心，利用各种接口和线路连接整个手机的各个部分，通过运行或执行存储在存储器320内的软件程序和/或模块，以及调用存储在存储器320内的数据，执行手机的各种功能和处理数据，从而对手机进行整体监控。可选的，处理器380可包括一个或多个处理单元；可选的，处理器380可集成应用处理器和调制解调处理器，其中，应用处理器主要处理操作系统、用户界面和应用程序等，调制解调处理器主要处理无线通信。可以理解的是，上述调制解调处理器也可以不集成到处理器380中。

手机还包括给各个部件供电的电源390(比如电池)，可选的，电源可以通过电源管理系统与处理器380逻辑相连，从而通过电源管理系统实现管理充电、放电、以及功耗管理等功能。

尽管未示出，手机还可以包括摄像头、蓝牙模块等，在此不再赘述。

在本申请实施例中，该终端所包括的处理器380还具有以下功能：

根据所述批注信息以及所述每个指令对应的时刻，合成批注视频。

可选地，处理器380还用于执行如下步骤：

将所述批注视频发送至第二终端设备，其中，所述第二终端设备用于通过所述即时通信应用程序接收并展示所述批注视频。

可选地，处理器380还用于执行如下步骤：

接收音频数据流，其中，所述音频数据流中携带时刻标识；

处理器380具体用于执行如下步骤：

根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，其中，所述每个指令对应的时刻与所述音频数据流中携带的时刻标识具有对应关系。

可选地，处理器380具体用于执行如下步骤：

通过语音识别模型对所述音频数据流进行处理，获取所述音频数据流所对应的字幕信息；

根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述字幕信息，合成所述批注视频。

可选地，处理器380还用于执行如下步骤：

接收视频数据流，其中，所述视频数据流中携带时刻标识；

处理器380具体用于执行如下步骤：

根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述视频数据流，合成所述批注视频，其中，所述每个指令对应的时刻、所述音频数据流中携带的时刻标识与所述视频数据流中携带的时刻标识均具有对应关系。

可选地，处理器380还用于执行如下步骤：

获取所述目标文档的文档类型；

判断所述目标文档的文档类型是否属于预设文档类型；

若所述目标文档的文档类型属于所述预设文档类型，则在所述即时通信应用程序的显示界面上展示所述目标文档；

若所述目标文档的文档类型不属于所述预设文档类型，则通过调用系统插件展示所述目标文档。

可选地，处理器380还用于执行如下步骤：

向服务器发送文档浏览指令，以使所述服务器根据所述文档浏览指令生成所述目标文档所对应的预览图片，其中，所述文档浏览指令中携带所述目标文档的标识；

接收所述服务器发送的所述预览图片；

处理器380具体用于执行如下步骤：

通过调用系统插件按照顺序展示所述目标文档所对应的预览图片。

可选地，处理器380具体用于执行如下步骤：

通过所述即时通信应用程序接收第一预览图片对应的第一批注输入指令子集合，其中，所述第一预览图片为所述目标文档所对应的预览图片，所述第一批注输入指令子集合属于所述批注输入指令集合；

根据所述批注输入指令集合、所述目标文档所对应的预览图片以及所述批注数据数组，确定所述目标文档所对应的所述批注信息。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统，装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统，装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本申请各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现，也可以采用软件功能单元的形式实现。

所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(read-only memory，ROM)、随机存取存储器(random access memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，以上实施例仅用以说明本申请的技术方案，而非对其限制；尽管参照前述实施例对本申请进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本申请各实施例技术方案的精神和范围。

Claims

一种批注生成的方法，所述方法应用于即时通信应用程序，所述方法包括：

第一终端设备通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

所述第一终端设备根据所述批注输入指令集合中的指令确定所述目标文档所对应的批注信息；

所述第一终端设备根据所述批注信息以及所述每个指令对应的时刻，合成批注视频。
根据权利要求1所述的方法，所述方法还包括：

所述第一终端设备将所述批注视频发送至第二终端设备，其中，所述第二终端设备用于通过所述即时通信应用程序接收并展示所述批注视频。
根据权利要求1所述的方法，所述第一终端设备根据所述批注信息以及所述每个指令对应的时刻，合成批注视频之前，所述方法还包括：

所述第一终端设备接收音频数据流，其中，所述音频数据流中携带时刻标识；

所述第一终端设备根据所述批注信息以及所述每个指令对应的时刻，合成批注视频，包括：

所述第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，其中，所述每个指令对应的时刻与所述音频数据流中携带的时刻标识具有对应关系。
根据权利要求3所述的方法，所述第一终端设备接收音频数据流之后，所述方法还包括：

所述第一终端设备通过语音识别模型对所述音频数据流进行处理，获取所述音频数据流所对应的字幕信息；

所述第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，包括：

所述第一终端设备根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述字幕信息，合成所述批注视频。
根据权利要求3或4所述的方法，所述第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频之前，所述方法还包括：

所述第一终端设备接收视频数据流，其中，所述视频数据流中携带时刻标识；

所述第一终端设备根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，包括：

所述第一终端设备根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述视频数据流，合成所述批注视频，其中，所述每个指令对应的时刻、所述音频数据流中携带的时刻标识与所述视频数据流中携带的时刻标识均具有对应关系。
根据权利要求1所述的方法，所述第一终端设备通过所述即时通信应用程序接收批注输入指令集合之前，所述方法还包括：

所述第一终端设备获取所述目标文档的文档类型；

所述第一终端设备判断所述目标文档的文档类型是否属于预设文档类型；

若所述目标文档的文档类型属于所述预设文档类型，则所述第一终端设备在所述即时通信应用程序的显示界面上展示所述目标文档；

若所述目标文档的文档类型不属于所述预设文档类型，则所述第一终端设备通过调用系统插件展示所述目标文档。
根据权利要求6所述的方法，所述第一终端设备通过调用系统插件展示所述目标文档之后，所述方法还包括：

所述第一终端设备向服务器发送文档浏览指令，以使所述服务器根据所述文档浏览指令生成所述目标文档所对应的预览图片，其中，所述文档浏览指令中携带所述目标文档的标识；

所述第一终端设备接收所述服务器发送的所述预览图片；

所述第一终端设备通过调用系统插件展示所述目标文档，包括：

所述第一终端设备通过调用系统插件按照顺序展示所述目标文档所对应的预览图片。
根据权利要求7所述的方法，所述第一终端设备通过所述即时通信应用程序接收批注输入指令集合，包括：

所述第一终端设备通过所述即时通信应用程序接收第一预览图片对应的第一批注输入指令子集合，其中，所述第一预览图片为所述目标文档所对应的预览图片，所述第一批注输入指令子集合属于所述批注输入指令集合；

所述第一终端设备通过所述即时通信应用程序接收第二预览图片对应的第二批注输入指令子集合，其中，所述第二预览图片为所述目标文档所对应的预览图片，所述第二批注输入指令子集合属于所述批注输入指令集合；

所述第一终端设备根据所述第一预览图片、所述第一批注输入指令子集合、所述第二预览图片和所述第二批注输入指令子集合，建立批注数据数组，其中，所述批注数据数组中包含预览图片与批注输入指令子集合之间的对应关系；

所述第一终端设备根据所述批注输入指令集合确定所述目标文档所对应的批注信息，包括：

所述第一终端设备根据所述批注输入指令集合、所述目标文档所对应的预览图片以及所述批注数据数组，确定所述目标文档所对应的所述批注信息。
一种终端设备，所述终端设备安装有即时通信应用程序，包括：

接收模块，用于通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

确定模块，用于根据所述接收模块接收的所述批注输入指令集合确定所述目标文档所对应的批注信息；

合成模块，用于根据所述确定模块确定的所述批注信息以及所述每个指令对应的时刻，合成批注视频。
根据权利要求9所述的终端设备，还包括：

发送模块，用于将所述合成模块合成的所述批注视频发送至第二终端设备，其中，所述第二终端设备用于通过所述即时通信应用程序接收并展示所述批注视频。
根据权利要求9所述的终端设备，

所述接收模块，还用于在所述合成模块根据所述批注信息以及所述每个指令对应的时刻，合成批注视频之前，接收音频数据流，其中，所述音频数据流中携带时刻标识；

所述合成模块，具体用于根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频，其中，所述每个指令对应的时刻与所述音频数据流中携带的时刻标识具有对应关系。
根据权利要求11所述的终端设备，还包括获取模块；

所述获取模块，用于在所述接收模块接收音频数据流之后，通过语音识别模型对所述音频数据流进行处理，获取所述音频数据流所对应的字幕信息；

所述合成模块，具体用于根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述字幕信息，合成所述批注视频。
根据权利要求11或12所述的终端设备，

所述接收模块，还用于在所述合成模块用于根据所述批注信息、所述每个指令对应的时刻以及所述音频数据流，合成所述批注视频之前，接收视频数据流，其中，所述视频数据流中携带时刻标识；

所述合成模块，具体用于根据所述批注信息、所述每个指令对应的时刻、所述音频数据流以及所述视频数据流，合成所述批注视频，其中，所述每个指令对应的时刻、所述音频数据流中携带的时刻标识与所述视频数据流中携带的时刻标识均具有对应关系。
一种终端设备，所述终端设备安装有即时通信应用程序，包括：存储器、收发器、处理器以及总线系统；

其中，所述存储器用于存储程序；

所述处理器用于执行所述存储器中的程序，包括如下步骤：

通过所述即时通信应用程序接收批注输入指令集合，其中，所述批注输入指令集合包含至少一个用于对目标文档进行批注的指令，每个指令对应一个时刻；

根据所述批注输入指令集合确定所述目标文档所对应的批注信息；

根据所述批注信息以及所述每个指令对应的时刻，合成批注视频；

所述总线系统用于连接所述存储器以及所述处理器，以使所述存储器以及所述处理器进行通信。
一种计算机可读存储介质，所述计算机可读存储介质存储有计算机程序；所述计算机程序用于执行如权利要求1-8任一项所述的方法。
一种计算机程序产品，包括指令，当其在计算机上运行时，使得计算机执行如权利要求1-8任一项所述的方法。