WO2021143360A1

WO2021143360A1 - 资源传输方法及计算机设备

Info

Publication number: WO2021143360A1
Application number: PCT/CN2020/131552
Authority: WO
Inventors: 周超
Original assignee: 北京达佳互联信息技术有限公司
Priority date: 2020-01-17
Filing date: 2020-11-25
Publication date: 2021-07-22
Also published as: CN113141522B; CN113141522A; EP3941070A4; EP3941070A1; US20220060532A1

Abstract

本公开关于一种资源传输方法及计算机设备，属于通信技术领域。本公开通过响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数，基于该拉取位置参数，确定该多媒体资源的起始帧，从该起始帧开始发送该多媒体资源的媒体帧。

Description

资源传输方法及计算机设备

本申请要求于2020年01月17日提交的申请号为202010054760.6、发明名称为“资源传输方法、装置、计算机设备及存储介质”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本公开涉及通信技术领域，特别涉及一种资源传输方法及计算机设备。

背景技术

随着通信技术的发展，用户可以随时随地在终端上浏览音视频资源，目前，在服务器向终端传输音视频资源(俗称为“拉流阶段”)时，可以采用基于分片的媒体传输方式。

基于分片的媒体传输方式包括常见的DASH(Dynamic Adaptive Streaming over HTTP，MPEG制定的基于HTTP的自适应流媒体传输标准，其中，MPEG的英文全称为Moving Picture Experts Group，中文全称为动态图像专家组)、HLS(HTTP Live Streaming，苹果公司制定的基于HTTP的自适应流媒体传输标准)等，服务器将音视频资源切分成一段一段的音视频片段，每个音视频片段都可以转码成不同的码率，终端在播放音视频资源时，分别访问音视频资源所切分成的各个音视频片段的网址，不同的音视频片段之间可以对应于相同或不同的码率，使得终端能够方便地在不同码率的音视频资源中进行切换，这种过程也称为基于终端自身带宽情况自适应调整码率。

发明内容

本公开提供一种资源传输方法及计算机设备。本公开的技术方案如下：

根据本公开实施例的一方面，提供一种资源传输方法，包括：响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。

根据本公开实施例的另一方面，提供一种资源传输装置，包括：获取单元，被配置为执行响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；第一确定单元，被配置为执行基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；发送单元，被配置为执行从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。

根据本公开实施例的另一方面，提供一种计算机设备，包括：一个或多个处理器；用于存储所述一个或多个处理器可执行指令的一个或多个存储器；其中，所述一个或多个处理器被配置为执行如下操作：响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。

根据本公开实施例的另一方面，提供一种存储介质，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行如下操作：响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。

根据本公开实施例的另一方面，提供一种计算机程序产品，包括一条或多条指令，所述一条或多条指令可以由计算机设备的一个或多个处理器执行，使得计算机设备能够执行上述一方面涉及的资源传输方法。

附图说明

图1是根据一实施例示出的一种资源传输方法的实施环境示意图；

图2是本公开实施例提供的一种FAS框架的原理性示意图；

图3是根据一实施例示出的一种资源传输方法的流程图；

图4是根据一实施例示出的一种资源传输方法的交互流程图；

图5是本公开实施例提供的一种确定目标时间戳的原理性示意图；

图6是根据一实施例示出的一种资源传输装置的逻辑结构框图；

图7是本公开实施例提供的一种计算机设备的结构示意图。

具体实施方式

本公开的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换，以便这里描述的本公开的实施例能够以除了在这里图示或描述的那些以外的顺序实施。

本公开所涉及的用户信息可以为经用户授权或者经过各方充分授权的信息。

以下，对本公开所涉及的术语进行解释。

一、FLV(Flash Video)

FLV是一种流媒体格式，FLV流媒体格式是随着Flash MX(一种动画制作软件)的推出发展而来的视频格式。由于它形成的文件极小、加载速度极快，使得网络观看视频文件(也即在线浏览视频)成为可能，它的出现有效地解决了视频文件导入Flash后导出的SWF(一种Flash的专用文件格式)文件体积庞大，以致不能在网络上很好的使用等问题。

二、流媒体(Streaming Media)

流媒体采用流式传输方法，是指将一连串的多媒体资源压缩后，通过网络发送资源包，从而在网上即时传输多媒体资源以供观赏的一种技术与过程，此技术使得资源包得以像流水一样发送；如果不使用此技术，就必须在使用前下载整个媒体文件，从而仅能进行离线观看多媒体资源。流式传输可传送现场多媒体资源或预存于服务器上的多媒体资源，当观众用户在收看这些多媒体资源时，多媒体资源在送达观众用户的观众终端后可以由特定播放软件进行播放。

三、FAS(FLV Adaptive Streaming，基于FLV的自适应流媒体传输标准)

FAS是本公开所提出的流式资源传输标准(或称为资源传输协议)，与传统的基于分片的媒体传输方式不同，FAS标准能够达到帧级别的多媒体资源传输，服务器无需等待一个完整的视频片段到达之后才能向终端发送资源包，而是在解析终端的帧获取请求之后，确定拉取位置参数，进而根据拉取位置参数确定多媒体资源的起始帧，从起始帧开始将多媒体资源的媒体帧逐帧发送至终端。需要说明的是，每个帧获取请求可以对应于某一码率，当终端自身的网络带宽情况发生变化时，可以适应性调整对应的码率，重新发送与调整后的码率对应的帧获取请求，从而能够达到自适应调整多媒体资源码率的效果。FAS标准能够实现帧级传输、降低端到端延迟，只有码率发生切换时才需要发送新的帧获取请求，极大减小请求数量，降低资源传输过程的通信开销。

四、直播与点播

直播：多媒体资源是实时录制的，主播用户通过主播终端将媒体流“推流”(指基于流式传输方式推送)到服务器上，观众用户在观众终端上触发进入主播用户的直播界面之后，将媒体流从服务器“拉流”(指基于流式传输方式拉取)到观众终端，观众终端解码并播放多媒体资源，从而实时地进行视频播放。

点播：也称为Video On Demand(VOD)，多媒体资源预存在服务器上，服务器能够根据观众用户的要求来提供观众用户指定的多媒体资源，在一些实施例中，观众终端向服务器发送点播请求，服务器查询到点播请求所指定的多媒体资源之后，将多媒体资源发送至观众终端，也即是说，观众用户能够选择性地播放某个特定的多媒体资源。

点播的内容可以任意控制播放进度，而直播则不然，直播的内容播放速度取决于主播用户的实时直播进度。

图1是根据一实施例示出的一种资源传输方法的实施环境示意图，参见图1，在该实施环境中可以包括至少一个终端101和服务器102，其中服务器102也即是一种计算机设备，下面进行详述：

在一些实施例中，终端101用于进行多媒体资源传输，在每个终端上可以安装有媒体编解码组件以及媒体播放组件，该媒体编解码组件用于在接收多媒体资源(例如分片传输的资源包、帧级传输的媒体帧)之后进行多媒体资源的解码，该媒体播放组件用于在解码多媒体资源之后进行多媒体资源的播放。

按照用户身份的不同，终端101可以划分为主播终端以及观众终端，主播终端对应于主播用户，观众终端对应于观众用户，需要说明的是，对同一个终端而言，该终端即可以是主播终端，也可以是观众终端，比如，用户在录制直播时该终端为主播终端，用户在观看直播时该终端为观众终端。

终端101和服务器102可以通过有线网络或无线网络相连。

在一些实施例中，服务器102用于提供待传输的多媒体资源，服务器102可以包括一台服务器、多台服务器、云计算平台或者虚拟化中心中的至少一种。在一些实施例中，服务器102可以承担主要计算工作，终端101可以承担次要计算工作；或者，服务器102承担次要计算工作，终端101承担主要计算工作；或者，终端101和服务器102两者之间采用分布式计算架构进行协同计算。

在一些实施例中，服务器102可以是集群式的CDN(Content Delivery Network，内容分发网络)服务器，CDN服务器包括中心平台以及部署在各地的边缘服务器，通过中心平台的负载均衡、内容分发、调度等功能模块，使得用户所在终端能够依靠当地的边缘服务器来就近获取所需内容(即多媒体资源)。

CDN服务器在终端与中心平台之间增加了一个缓存机制，该缓存机制也即是部署在不同地理位置的边缘服务器(比如WEB服务器)，在性能优化时，中心平台会根据终端与边缘服务器的距离远近，调度与终端之间距离最近的边缘服务器来向终端提供服务，能够更加有效地向终端发布内容。

本公开实施例所涉及的多媒体资源，包括但不限于：视频资源、音频资源、图像资源或者文本资源中至少一项，本公开实施例不对多媒体资源的类型进行具体限定。比如，该多媒体资源为网络主播的直播视频流，或者为预存在服务器上的历史点播视频，或者为电台主播的直播音频流，或者为预存在服务器上的历史点播音频。

在一些实施例中，终端101的设备类型包括但不限于：电视机、智能手机、智能音箱、车载终端、平板电脑、电子书阅读器、MP3(Moving Picture Experts Group Audio Layer III，动态影像专家压缩标准音频层面3)播放器、MP4(Moving Picture Experts Group Audio Layer IV，动态影像专家压缩标准音频层面4)播放器、膝上型便携计算机或者台式计算机中的至少一种。以下实施例，以终端101包括智能手机来进行举例说明。

本领域技术人员可以知晓，上述终端101的数量可以仅为一个，或者终端101的数量为几十个或几百个，或者更多数量。本公开实施例对终端101的数量和设备类型不加以限定。

图2是本公开实施例提供的一种FAS框架的原理性示意图，请参考图2，本公开实施例提供一种FAS(基于流式的多码率自适应)框架，在该框架内，终端101与服务器102之间通过FAS协议进行多媒体资源传输。

以任一终端为例进行说明，在终端上可以安装有应用程序(亦称为FAS客户端)，该应用程序用于浏览多媒体资源，例如，该应用程序可以为短视频应用、直播应用、视频点播应用、社交应用、购物应用等，本公开实施例不对应用程序的类型进行具体限定。

用户可以在终端上启动应用程序，显示资源推送界面(例如应用程序的首页或者功能界面)，在该资源推送界面中包括至少一个多媒体资源的缩略信息，该缩略信息包括标题、简介、发布者、海报、预告片或者精彩片段中至少一项，响应于用户对任一多媒体资源的缩略信息的触控操作，终端可以从资源推送界面跳转至资源播放界面，在该资源播放界面中包括该多媒体资源的播放选项，响应于用户对该播放选项的触控操作，终端从服务器中下载该多媒体资源的媒体描述文件(Media Presentation Description，MPD)，基于该媒体描述文件，确定多媒体资源的地址信息，向服务器发送携带该地址信息的帧获取请求(或称为FAS请求)，使得服务器基于本公开实施例所提供的FAS请求的处理规范，对该帧获取请求进行解析和响应，服务器定位到该多媒体资源的媒体帧(连续的媒体帧可以构成媒体流)之后，向终端返回该多媒体资源的媒体帧(也即向终端返回媒体流)。终端接收到媒体流之后，调用媒体编解码组件对媒体流进行解码，得到解码后的媒体流，调用媒体播放组件播放解码后的媒体流。

需要说明的是，由于服务器在对多媒体资源进行转码之后，可能会形成多种码率的多媒体资源，此时服务器可以为不同码率的多媒体资源分配不同的地址信息，将各种码率的多媒体资源的地址信息均记录在MPD中，终端下载MPD之后，可以在不同时刻向服务器发送携带不同地址信息的帧获取请求，那么服务器会以不同的码率返回对应的多媒体资源的媒体帧。

在上述过程中，通过不同的地址信息来指定不同的码率，此外由于不同的拉取位置参数能够指定多媒体资源的不同起始拉取位置，那么在帧获取请求中规定了起始拉取位置和码率(若缺省，则服务器会配置默认值)之后，若在播放过程中需要进行码率切换，终端只需要再次发送新的帧获取请求，服务器能够随时地从起始帧开始按照另一码率向终端发送媒体流，也即终端能够动态地从任一起始帧开始拉取另一码率的媒体流。

在一些实施例中，终端在启播(开始播放)时确定本次所欲请求多媒体资源的目标码率，在MPD中索引到目标码率的多媒体资源的目标地址信息，向服务器发送携带目标地址信息的帧获取请求，从而能够在帧获取请求中指定终端本次所欲请求多媒体资源的目标码率，服务器按照目标码率返回多媒体资源的媒体帧。

在上述场景中，当终端当前的网络带宽情况发生波动的时候，终端可以基于自适应策略，适应性调整与当前网络带宽情况相匹配的待切换码率，从MPD中索引到待切换码率的多媒体资源的待切换地址信息，终端可以断开当前码率的媒体流传输链接，向服务器发送携带待切换地址信息的帧获取请求，服务器按照待切换码率返回多媒体资源的媒体帧，建立基于待切换码率的媒体流传输链接。

在一些实施例中，终端也可以不断开当前码率的媒体流传输链接，而是直接重新发起携带待切换地址信息的帧获取请求，建立基于待切换码率的媒体流传输链接(用于传输新的媒体流)，将原有的媒体流作为备用流，一旦新的媒体流出现传输异常，那么可以继续播放备用流。

图3是根据一实施例示出的一种资源传输方法的流程图，所述资源传输方法应用于计算机设备，以计算机设备为上述实施环境涉及的FAS框架中的服务器为例进行说明。

在301中，服务器响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数，该帧获取请求用于请求传输该多媒体资源的媒体帧，该拉取位置参数用于表示该多媒体资源的媒体帧的起始拉取位置。

在302中，服务器基于该多媒体资源的拉取位置参数，确定该多媒体资源的起始帧。

在303中，服务器从该起始帧开始发送该多媒体资源的媒体帧，其中，该媒体帧的时间戳大于或等于该起始帧的时间戳。

在一些实施例中，基于该多媒体资源的拉取位置参数，确定该多媒体资源的起始帧包括：

获取该多媒体资源的音频参数，该音频参数用于表示该媒体帧是否为音频帧；

基于该音频参数和该拉取位置参数，确定目标时间戳；

基于该目标时间戳，确定该多媒体资源的起始帧。

在一些实施例中，基于该音频参数和该拉取位置参数，确定目标时间戳包括：

基于该拉取位置参数为默认值，且该音频参数为默认值或该音频参数为假，确定该目标时间戳为最大时间戳减去该拉取位置参数的默认值的绝对值所得的数值；

基于该拉取位置参数为默认值，且该音频参数为真，确定该目标时间戳为最大音频时间戳减去该拉取位置参数的默认值的绝对值所得的数值；

基于该拉取位置参数等于0，且该音频参数为默认值或该音频参数为假，确定该目标时间戳为最大时间戳；

基于该拉取位置参数等于0，且该音频参数为真，确定该目标时间戳为最大音频时间戳；

基于该拉取位置参数小于0，且该音频参数为默认值或该音频参数为假，确定该目标时间戳为最大时间戳减去该拉取位置参数的绝对值所得的数值；

基于该拉取位置参数小于0，且该音频参数为真，确定该目标时间戳为最大音频时间戳减去该拉取位置参数的绝对值所得的数值；

基于该拉取位置参数大于0，且该音频参数为默认值或该音频参数为假，在缓存区中发生时间戳回退时，确定该目标时间戳为最大时间戳；

基于该拉取位置参数大于0，且该音频参数为真，在缓存区中发生时间戳回退时，确定该目标时间戳为最大音频时间戳；

基于该拉取位置参数大于0，且缓存区中未发生时间戳回退时，确定该目标时间戳为该拉取位置参数。

在一些实施例中，基于该拉取位置参数大于0且缓存区中未发生时间戳回退，所述基于该目标时间戳，确定该多媒体资源的起始帧包括：

基于当前有效缓存区中存在目标媒体帧，确定该起始帧为该目标媒体帧，该目标媒体帧的时间戳大于或等于该目标时间戳且最接近该目标时间戳；

基于该当前有效缓存区中不存在该目标媒体帧，进入等待状态，直到该目标媒体帧写入该当前有效缓存区时，确定该起始帧为该目标媒体帧。

在一些实施例中，该方法还包括：

基于该当前有效缓存区中不存在该目标媒体帧，且该目标时间戳与最大时间戳之间的差值大于超时阈值，发送拉取失败信息。

在一些实施例中，基于该拉取位置参数大于0，该方法还包括：

基于缓存区中的媒体帧序列中媒体帧的时间戳呈非单调递增，确定该缓存区发生时间戳回退；

基于缓存区中的媒体帧序列中媒体帧的时间戳呈单调递增，确定该缓存区未发生时间戳回退，其中，该媒体帧序列为该缓存区中已缓存的多个媒体帧所构成的序列。

在一些实施例中，该方法还包括：

基于该缓存区中包括视频资源，在关键帧序列中关键帧的时间戳呈非单调递增时，确定该媒体帧序列呈非单调递增，其中，该关键帧序列为该缓存区中已缓存的多个关键帧所构成的序列；

基于该缓存区中不包括视频资源，在音频帧序列中音频帧的时间戳呈非单调递增时，确定该媒体帧序列呈非单调递增，其中，该音频帧序列为该缓存区中已缓存的多个音频帧所构成的序列。

在一些实施例中，该方法还包括：

将最后一个单调递增阶段所包含的各个媒体帧确定为当前有效缓存区内的资源。

在一些实施例中，基于该目标时间戳，确定该多媒体资源的起始帧包括：

确定该起始帧为当前有效缓存区中时间戳最接近该目标时间戳的媒体帧。

在一些实施例中，基于该音频参数为默认值或该音频参数为假，基于当前有效缓存区中包括视频资源，该最大时间戳为最大视频时间戳；基于当前有效缓存区中不包括视频资源，该最大时间戳为最大音频时间戳。

在一些实施例中，响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数包括：

基于该帧获取请求携带拉取位置参数，解析该帧获取请求得到该拉取位置参数；

基于该帧获取请求缺省拉取位置参数，将该拉取位置参数配置为默认值。

在一些实施例中，从该起始帧开始发送该多媒体资源的媒体帧包括：

基于该帧获取请求，解析得到该多媒体资源的地址信息；

从该起始帧开始发送该地址信息所指示的多媒体资源的媒体帧。

图4是根据一实施例示出的一种资源传输方法的交互流程图，所述资源传输方法可以应用于上述实施环境涉及的FAS框架中，该实施例包括以下内容。

在401中，终端向服务器发送多媒体资源的帧获取请求，该帧获取请求用于请求传输该多媒体资源的媒体帧。

其中，终端上可以安装有应用程序，该应用程序用于浏览多媒体资源，例如，该应用程序可以包括短视频应用、直播应用、视频点播应用、社交应用或者购物应用中至少一项，本公开实施例不对应用程序的类型进行具体限定。

在一些实施例中，用户可以在终端上启动应用程序，该应用程序显示资源推送界面，例如该资源推送界面可以是应用程序的首页或者功能界面，本公开实施例不对资源推送界面的类型进行具体限定。在该资源推送界面中可以包括至少一个多媒体资源的缩略信息，该缩略信息包括多媒体资源的标题、简介、海报、预告片或者精彩片段中至少一项。用户在浏览资源推送界面的过程中，可以点击感兴趣的多媒体资源的缩略信息，响应于用户对该多媒体资源的缩略信息的触控操作，终端可以从资源推送界面跳转至资源播放界面。

在该资源播放界面中可以包括播放区域和评论区域，在播放区域内可以包括该多媒体资源的播放选项，在评论区域内可以包括其他用户针对该多媒体资源的观看评论。用户在想要观看多媒体资源时，可以点击资源播放界面中的播放选项，终端响应于用户对播放选项的触控操作，从服务器中下载该多媒体资源的MPD，然后终端确定目标码率，从该MPD中获取该目标码率的多媒体资源的目标地址信息，生成携带目标地址信息的帧获取请求(FAS请求)，向服务器发送携带目标地址信息的帧获取请求。

在一些实施例中，MPD文件格式可以为JSON(JavaScript Object Notation，JS对象简谱)，也可以为其他脚本格式，本公开实施例不对MPD文件格式进行具体限定。

在一些实施例中，MPD文件中可以包括版本号(@version)和媒体描述集合(@adaptationSet)，还可以包括服务类型(@type)、用于表示是否打开自适应功能的功能选项(@hideAuto)或者用于表示是否在启播时默认打开自适应功能的功能选项(@autoDefaultSelect)中至少一项，本公开实施例不对MPD文件承载的内容进行具体限定。

其中，版本号可以包括该媒体描述文件的版本号或者资源传输标准(FAS标准)的版本号中至少一项。

其中，该媒体描述集合用于表示多媒体资源的元信息，该媒体描述集合可以包括多个媒体描述元信息，每个媒体描述元信息对应于一种码率的多媒体资源，每个媒体描述元信息可以包括该媒体描述元信息所对应码率的多媒体资源的画面组长度(@gopDuration)以及属性信息(@representation)。

画面组(Group Of Pictures，GOP)长度是指两个关键帧(Intra-coded picture，帧内编码图像帧，也称为“I帧”)之间的距离。

每个属性信息可以包括多媒体资源的标识信息(@id，独一无二的标识符)、多媒体资源的编码方式(@codec，遵从的编解码标准)、多媒体资源所支持的码率(@bitrate，资源传输时单位时间内传送的数据位数)以及该码率的多媒体资源的地址信息(@url，某一码率的多媒体资源对外提供的URL或域名，URL是指统一资源定位符，英文全称为：Uniform Resource Locator)，当然，每个属性信息还可以包括多媒体资源的质量类型(@qualityType，包括分辨率、帧率等质量评价指标)、多媒体资源的隐藏选项(@hiden，用于表示某一码率的多媒体资源是否外显，也即用户是否能够手动该码率的多媒体资源)、用于表示多媒体资源是否相对于自适应功能可见的功能选项(@enableAdaptive，指自适应功能能否选中某一码率的多媒体资源)或者默认播放功能选项(@defaultSelect，指是否在启播时默认播放某一码率的多媒体资源)中至少一项。

其中，服务类型用于指定多媒体资源的业务类型，包括直播或者点播中至少一项。

在确定目标码率时，终端可以向用户提供码率选择列表，用户在点击码率选择列表中任一数值时，触发生成携带该数值的码率选择指令，终端响应于码率选择指令，将该码率选择指令所携带的数值确定为目标码率。

在一些实施例中，终端还可以通过自适应功能，将目标码率调整为与当前的网络带宽信息对应的码率，在进行自适应调整的过程中，除了当前的网络带宽信息之外，还可以结合终端的播放状态信息，动态选择播放效果最佳的目标码率。

在一些实施例中，上述帧获取请求中除了携带目标地址信息之外，还可以携带音频参数或者拉取位置参数中至少一项，分别在下述402和403进行介绍。当然，上述帧获取请求中也可以不携带音频参数以及拉取位置参数，此时两种参数均缺省，服务器会分配配置两种参数的默认值，将在下述404中进行详述。

在402中，服务器响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数，该拉取位置参数用于表示该多媒体资源的媒体帧的起始拉取位置。

其中，该拉取位置参数(@fasSpts)用于指示服务器具体从哪帧开始发送媒体流，拉取位置参数的数据类型可以为int64_t类型，当然，也可以为其他数据类型，本公开实施例不对拉取位置参数的数据类型进行具体限定。在帧获取请求中，拉取位置参数可以等于0、大于0、小于0或者缺省，在不同的取值情况下会对应于服务器不同的处理逻辑，将在下述404中进行详述。

在一些实施例中，基于该帧获取请求携带拉取位置参数，服务器可以解析该帧获取请求得到该拉取位置参数，这种情况下终端在帧获取请求中指定了拉取位置参数，服务器可以直接对帧获取请求的@fasSpts字段进行解析，得到拉取位置参数。

在一些实施例中，基于该帧获取请求缺省拉取位置参数，服务器将该拉取位置参数配置为默认值，这种情况下终端并未在帧获取请求中指定拉取位置参数，那么服务器为其配置默认值，令@fasSpts＝defaultSpts。这里的默认值可以由服务器根据业务场景自行配置，比如，在直播业务场景下，可以将defaultSpts设置为0，在点播业务场景下，可以将defaultSpts设置为上一次结束观看时历史媒体帧的PTS(Presentation Time Stamp，显示时间戳)，若缓存中未记录历史媒体帧的PTS，那么将defaultSpts设置为首个媒体帧的PTS。

在403中，服务器获取该多媒体资源的音频参数，该音频参数用于表示该多媒体资源的媒体帧是否为音频帧。

其中，该音频参数(@onlyAudio)用于指示媒体流的拉取模式，若设定为true，表示服务器传输至终端的媒体帧为音频帧，俗称为“纯音频模式”，否则，若设定为false，表示服务器传输至终端的媒体帧为音视频帧，俗称为“非纯音频模式”。在帧获取请求中，音频参数可以为真、假或者缺省，在不同的取值情况下会对应于服务器不同的处理逻辑，将在下述404中进行详述。

在一些实施例中，基于该帧获取请求携带音频参数，服务器可以解析该帧获取请求得到该音频参数，这种情况下终端在帧获取请求中指定了音频参数，服务器可以直接对帧获取请求的@onlyAudio字段进行解析，得到音频参数。

在一些实施例中，基于该帧获取请求缺省音频参数，服务器将该音频参数配置为默认值，这种情况下终端并未在帧获取请求中指定音频参数，那么服务器为其配置默认值。这里的默认值可以由服务器根据业务场景自行配置，比如，在提供视频业务时，将默认值设置为假，也即令@onlyAudio＝false，或者，在仅提供音频业务时，将默认值设置为真，也即令@onlyAudio＝true。需要说明的是，在本公开实施例中，仅以默认值为假(false)为例进行说明，根据默认值的不同，服务端的处理逻辑可以进行适应性调整，后文不做赘述。

在404中，服务器基于该音频参数和该拉取位置参数，确定目标时间戳。

在一些实施例中，在确定目标时间戳之前，服务器可以通过执行下述404A-404B来刷新当前有效缓存区：

404A、基于缓存区中的媒体帧序列中媒体帧的时间戳呈非单调递增，服务器确定该缓存区发生时间戳回退。

否则，基于缓存区中的媒体帧序列中媒体帧的时间戳呈单调递增，那么服务器可以确定该缓存区未发生时间戳回退。其中，媒体帧序列为缓存区中已缓存的多个媒体帧所构成的序列。

上述时间戳回退现象是指缓存区内的媒体帧并非按照时间戳单调递增的顺序进行存放，此时缓存区中存在冗余的媒体帧，这种现象通常容易发生在直播业务场景中，主播终端推流到服务器的过程中，由于网络波动、延时等原因，先发送的媒体帧有可能反而较晚到达服务器，致使缓存区内媒体帧序列中媒体帧的时间戳呈非单调递增，引发时间戳回退现象，另外，为了避免丢包问题，主播终端通常还会将各个媒体帧进行多次发送，这种冗余多发机制也会致使缓存区内媒体帧序列中媒体帧的时间戳呈非单调递增，引发时间戳回退现象。

在确定媒体帧序列中媒体帧的时间戳是否呈非单调递增时，服务器只需要从时间戳最小的媒体帧开始，按照缓存区内媒体帧序列的存放顺序，遍历是否存在媒体帧的时间戳大于下一媒体帧的时间戳，若存在任一媒体帧的时间戳大于下一媒体帧的时间戳，确定媒体帧序列中媒体帧的时间戳呈非单调递增，确定缓存区发生时间戳回退，否则，若所有媒体帧的时间戳均小于或等于下一媒体帧的时间戳，确定媒体帧序列中媒体帧的时间戳呈单调递增，确定缓存区未发生时间戳回退。

例如，假设缓存区内媒体帧序列中媒体帧的时间戳分别为[1001,1002,1003,1004,1005…]，省略部分的媒体帧的时间戳呈递增，此时媒体帧序列中媒体帧的时间戳呈单调递增，缓存区未发生时间戳回退现象。又比如，假设缓存区内媒体帧序列中媒体帧的时间戳分别为[1001,1002,1003,1001,1002,1003,1004…]，省略部分的媒体帧的时间戳呈递增，此时由于第3个媒体帧的时间戳(PTS ₃＝1003)大于第4个媒体帧的时间戳(PTS ₄＝1001)，媒体帧序列中媒体帧的时间戳呈非单调递增，缓存区发生时间戳回退现象。

在一些实施例中，可以对视频资源和音频资源进行分别讨论：对视频资源而言，判断媒体帧序列中媒体帧的时间戳是否呈非单调递增时，可以仅考虑视频资源的关键帧(I帧)序列中关键帧的时间戳是否呈非单调递增；对音频资源而言，判断媒体帧序列中媒体帧的时间戳是否呈非单调递增时，可以考虑音频资源的音频帧序列中音频帧的时间戳是否呈非单调递增。

也即是说，基于该缓存区中包括视频资源，在关键帧序列中关键帧的时间戳呈非单调递增时，确定该媒体帧序列呈非单调递增，其中，该关键帧序列为缓存区中已缓存的多个关键帧所构成的序列；基于该缓存区中不包括视频资源，在音频帧序列中音频帧的时间戳呈非单调递增时，确定该媒体帧序列呈非单调递增，其中，该音频帧序列为缓存区中已缓存的多个音频帧所构成的序列。

这是由于I帧的编解码不需要参考其他图像帧，仅利用本帧信息即可实现，而相对地，P帧(Predictive-coded picture，预测编码图像帧)和B帧(Bidirectionally predicted picture，双向预测编码图像帧)的编解码均需要参考其他图像帧，仅利用本帧信息无法完成编解码。对视频资源而言，是在I帧解码完成之后，基于I帧来进行P帧和B帧的解码，那么即使各个I帧对应的P帧和B帧呈非单调递增，只要保证I帧序列(仅考虑I帧的PTS序列)呈单调递增，那么可以认为缓存区未发生时间戳回退，反之，一旦I帧序列呈非单调递增，那么可以确定缓存区发生时间戳回退。当然，如果缓存区里没有视频资源，那么直接对所有音频帧的PTS序列进行遍历判断即可，这里不做赘述。

在一些实施例中，由于时间戳回退现象可能不止发生一次，也即是说，在媒体帧序列中媒体帧的时间戳里可以划分出多个单调递增阶段，在每个阶段内部的媒体帧的时间戳呈单调递增，但是在不同阶段之间的媒体帧的时间戳呈非单调递增，这时缓存区中存在很多冗余无效的媒体帧，服务器可以通过执行下述404B在缓存区中确定当前有效缓存区。

404B、服务器将最后一个单调递增阶段所包含的各个媒体帧确定为当前有效缓存区内的资源。

在上述过程中，服务器从媒体帧序列中确定最后一个单调递增阶段中首个媒体帧，将媒体帧序列中从上述首个媒体帧开始到具有最大时间戳的媒体帧(相当于最新的媒体帧)之间的所有媒体帧确定为当前有效缓存区，这样可以保证当前有效缓存区内的媒体帧呈单调递增。

例如，假设缓存区内媒体帧序列中媒体帧的时间戳分别为[1001,1002,1003,1001,1002,1003,1004…]，省略部分的媒体帧的时间戳呈递增，此时缓存区发生时间戳回退，可以看出最后一个单调递增阶段的首个媒体帧为第4个媒体帧，那么将从第4个媒体帧开始到最新的媒体帧之间的所有媒体帧确定为当前有效缓存区。又比如，假设缓存区内媒体帧序列中媒体帧的时间戳分别为[1001,1002,1003,1001,1002,1003,1001…]，省略部分的媒体帧的时间戳呈递增，缓存区发生时间戳回退，可以看出最后一个单调递增阶段的首个媒体帧为第7个媒体帧，那么将从第7个媒体帧开始到最新的媒体帧之间的所有媒体帧确定为当前有效缓存区。

在一些实施例中，可以对视频资源和音频资源进行分别讨论：若缓存区内包括视频资源，对视频资源而言，服务器可以以视频资源的I帧作为计算点，从最后一个单调递增阶段的首个关键帧到最新的视频帧之间的所有媒体帧作为当前有效缓存区，其中，最新的视频帧的时间戳可以表示为latestVideoPts；若缓存区内不包括视频资源，对音频资源而言，服务器可以以音频帧作为计算点，从最后一个单调递增阶段的首个音频帧到最新的音频帧之间的所有媒体帧作为当前有效缓存区，其中，最新的音频帧的时间戳可以表示为latestAudioPts。

在一些实施例中，更新当前有效缓存区的操作可以是定时触发的，也可以由技术人员手动触发，当然，还可以每当接收到帧获取请求时进行一次更新，这种方式称为“被动触发”，本公开实施例不对更新当前有效缓存区的触发条件进行具体限定。

图5是本公开实施例提供的一种确定目标时间戳的原理性示意图，请参考图5，示出了服务器在不同拉取位置参数以及音频参数的取值情况下，分别具有不同的处理逻辑，以下，将对服务器的处理逻辑进行介绍，由于拉取位置参数的取值情况可以分为四种：默认值、等于0、小于0以及大于0，下面针对这四种情况进行分别说明。

情况一、拉取位置参数为默认值

1)：基于拉取位置参数为默认值，且音频参数为默认值或音频参数为假，服务器将最大时间戳减去该拉取位置参数的默认值的绝对值所得的数值确定为目标时间戳。

其中，基于当前有效缓存区中包括视频资源，该最大时间戳为最大视频时间戳latestVideoPts；基于当前有效缓存区中不包括视频资源，该最大时间戳为最大音频时间戳latestAudioPts。

上述过程是指帧获取请求中@fasSpts(拉取位置参数)缺省的情况下，服务器会为拉取位置参数配置默认值，令@fasSpts＝defaultSpts。此时，如果帧获取请求中@onlyAudio(音频参数)也缺省，服务器会为音频参数配置默认值(音频参数的默认值为false)，令@onlyAudio＝false，或者，帧获取请求自身的@onlyAudio字段携带false值，也即帧获取请求指定@onlyAudio＝false，此时服务器的处理规则如下：

基于当前有效缓存区中包括视频资源，服务器将latestVideoPts–|defaultSpts|所得的数值确定为目标时间戳；基于当前有效缓存区中不包括视频资源，服务器将latestAudioPts–|defaultSpts|所得的数值确定为目标时间戳。

2)：基于拉取位置参数为默认值，且音频参数为真，将最大音频时间戳减去该拉取位置参数的默认值的绝对值所得的数值确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts(拉取位置参数)缺省的情况下，服务器会为拉取位置参数配置默认值，令@fasSpts＝defaultSpts。此时，如果帧获取请求的@onlyAudio字段携带true值，也即帧获取请求指定@onlyAudio＝true(纯音频模式，仅传输音频流)，此时服务器的处理规则如下：服务器将latestAudioPts–|defaultSpts|所得的数值确定为目标时间戳。

情况二、拉取位置参数等于0

1)：基于拉取位置参数等于0，且音频参数为默认值或音频参数为假，将最大时间戳确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带0值(@fasSpts＝0)的情况下，此时，如果帧获取请求中@onlyAudio(音频参数)也缺省，服务器会为音频参数配置默认值(音频参数的默认值为false)，令@onlyAudio＝false，或者，帧获取请求中@onlyAudio字段携带false值(帧获取请求指定@onlyAudio＝false)，此时服务器的处理规则如下：

基于当前有效缓存区中包括视频资源，服务器将latestVideoPts确定为目标时间戳；基于当前有效缓存区中不包括视频资源，服务器将latestAudioPts确定为目标时间戳。

2)：基于拉取位置参数等于0，且音频参数为真，将最大音频时间戳确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带0值(@fasSpts＝0)的情况下，如果帧获取请求中@onlyAudio字段携带true值(帧获取请求指定@onlyAudio＝true)，也即是纯音频模式、仅传输音频流，此时服务器的处理规则如下：服务器将latestAudioPts确定为目标时间戳。

情况三、拉取位置参数小于0

1)：基于拉取位置参数小于0，且音频参数为默认值或音频参数为假，将最大时间戳减去该拉取位置参数的绝对值所得的数值确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带小于0的值(@fasSpts＜0)的情况下，此时，如果帧获取请求中@onlyAudio(音频参数)也缺省，服务器会为音频参数配置默认值(音频参数的默认值为false)，令@onlyAudio＝false，或者，帧获取请求中@onlyAudio字段携带false值(帧获取请求指定@onlyAudio＝false)，此时服务器的处理规则如下：

基于当前有效缓存区中包括视频资源，服务器将latestVideoPts-|@fasSpts|确定为目标时间戳；基于当前有效缓存区中不包括视频资源，服务器将latestAudioPts-|@fasSpts|确定为目标时间戳。

2)：基于拉取位置参数小于0，且音频参数为真，将最大音频时间戳减去该拉取位置参数的绝对值所得的数值确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带小于0的值(@fasSpts＜0)的情况下，此时，如果帧获取请求中@onlyAudio字段携带true值(帧获取请求指定@onlyAudio＝true)，也即是纯音频模式、仅传输音频流，此时服务器的处理规则如下：服务器将latestAudioPts-|@fasSpts|确定为目标时间戳。

情况四、拉取位置参数大于0

1)：基于拉取位置参数大于0，且音频参数为默认值或音频参数为假，在缓存区中发生时间戳回退时，将最大时间戳确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带大于0的值(@fasSpts＞0)的情况下，此时，如果帧获取请求中@onlyAudio(音频参数)也缺省，服务器会为音频参数配置默认值(音频参数的默认值为false)，令@onlyAudio＝false，或者，帧获取请求中@onlyAudio字段携带false值(帧获取请求指定@onlyAudio＝false)，此时服务器的处理规则如下：

在缓存区中发生时间戳回退时，a)基于当前有效缓存区中包括视频资源，服务器将latestVideoPts确定为目标时间戳；b)基于当前有效缓存区中不包括视频资源，服务器将latestAudioPts确定为目标时间戳。

2)：基于拉取位置参数大于0，且音频参数为真，在缓存区中发生时间戳回退时，将最大音频时间戳确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带大于0的值(@fasSpts＞0)的情况下，此时，如果帧获取请求中@onlyAudio字段携带true值(帧获取请求指定@onlyAudio＝true)，也即是纯音频模式、仅传输音频流，服务器的处理规则如下：服务器将latestAudioPts确定为目标时间戳。

3)：基于拉取位置参数大于0，且音频参数为默认值或音频参数为假，在缓存区中未发生时间戳回退时，将该拉取位置参数确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带大于0的值(@fasSpts＞0)的情况下，此时，如果帧获取请求中@onlyAudio(音频参数)也缺省，服务器会为音频参数配置默认值(音频参数的默认值为false)，令@onlyAudio＝false，或者，帧获取请求中@onlyAudio字段携带 false值(帧获取请求指定@onlyAudio＝false)，此时服务器的处理规则如下：在缓存区中未发生时间戳回退时，服务器将@fasSpts确定为目标时间戳。

4)：基于拉取位置参数大于0，且音频参数为真，在缓存区中未发生时间戳回退时，将该拉取位置参数确定为目标时间戳。

上述过程是指帧获取请求中@fasSpts字段携带大于0的值(@fasSpts＞0)的情况下，此时，如果帧获取请求中@onlyAudio字段携带true值(帧获取请求指定@onlyAudio＝true)，也即是纯音频模式、仅传输音频流，服务器的处理规则如下：在缓存区中未发生时间戳回退时，服务器将@fasSpts确定为目标时间戳。

针对上述情况3)和4)的讨论，可以看出，基于拉取位置参数大于0(@fasSpts＞0)，且缓存区中未发生时间戳回退时，不论音频参数为真、为假还是默认值，服务器均将拉取位置参数确定为目标时间戳。

在上述各个情况中，服务器判断是否发生时间戳回退的操作可以参见上述404A，服务器更新当前有效缓存区的操作可以参见上述404B，这里不做赘述。

在上述基础上，服务器在拉取位置参数的不同取值情况下，均能够执行对应的处理逻辑，从而确定出目标时间戳，该目标时间戳用于在下述405中确定多媒体资源的起始帧。

在405中，服务器基于该目标时间戳，确定该多媒体资源的起始帧。

在一些实施例中，服务器可以通过下述方式一确定起始帧：

方式一、服务器将当前有效缓存区中时间戳最接近该目标时间戳的媒体帧确定为起始帧。

在一些实施例中，在音频参数缺省或音频参数为假的情况下，基于当前有效缓存区中包括视频资源，将视频资源中时间戳最接近该目标时间戳的关键帧(I帧)确定为起始帧；基于当前有效缓存区中不包括视频资源，将时间戳最接近该目标时间戳的音频帧确定为起始帧。

在一些实施例中，在音频参数为真的情况下，服务器可以直接将时间戳最接近该目标时间戳的音频帧确定为起始帧。

在一些实施例中，起始帧的确定方式包括：

B)：@fasSpts＝defaultSpts，@onlyAudio＝true时，请参考上述404情况一中的示例2)，目标时间戳为latestAudioPts–|defaultSpts|，服务器将PTS最接近latestAudioPts–|defaultSpts|的音频帧作为起始帧。

C)：@fasSpts＝0，@onlyAudio缺省或@onlyAudio＝false时，请参考上述404情况二中的示例1)，基于当前有效缓存区中包括视频资源，目标时间戳为latestVideoPts，服务器将PTS最接近latestVideoPts的I帧作为起始帧；基于当前有效缓存区中不包括视频资源，目标时间戳为latestAudioPts，服务器将PTS最接近latestAudioPts的音频帧作为起始帧。

D)：@fasSpts＝0，@onlyAudio＝true时，请参考上述404情况二中的示例2)，目标时间戳为latestAudioPts，服务器将PTS最接近latestAudioPts的音频帧作为起始帧。

F)：@fasSpts＜0，@onlyAudio＝true时，请参考上述404情况三中的示例2)，目标时间戳为latestAudioPts-|@fasSpts|，服务器可以将PTS最接近latestAudioPts-|@fasSpts|的音频帧作为起始帧。

G)：@fasSpts＞0，@onlyAudio缺省或@onlyAudio＝false，缓存区中发生时间戳回退时，请参考上述404情况四中的示例1)，基于当前有效缓存区中包括视频资源，目标时间戳为latestVideoPts，服务器将PTS最接近latestVideoPts的I帧(最新的I帧)作为起始帧；基于当前有效缓存区中不包括视频资源，目标时间戳为latestAudioPts，服务器将PTS最接近latestAudioPts的音频帧(最新的音频帧)作为起始帧。

H)：@fasSpts＞0，@onlyAudio＝true，缓存区中发生时间戳回退时，请参考上述404情况四中的示例2)，目标时间戳为latestAudioPts，服务器将PTS最接近latestAudioPts的音频帧(最新的音频帧)作为起始帧。

以此类推，在@fasSpts＞0时，针对上述404情况四中的其余讨论，在确定目标时间戳之后，服务器也可以通过上述方式一，将当前有效缓存区中时间戳最接近该目标时间戳的媒体帧确定为起始帧，这里不进行一一枚举。

在一些实施例中，在@fasSpts＞0时，除了上述方式一之外，服务器还可以通过下述方式二来确定媒体帧：

方式二、基于该当前有效缓存区中存在目标媒体帧，服务器将该目标媒体帧确定为起始帧，该目标媒体帧的时间戳大于或等于该目标时间戳且最接近该目标时间戳。

在一些实施例中，在音频参数缺省或音频参数为假的情况下，基于当前有效缓存区中包括视频资源，目标媒体帧是指视频资源内的I帧；基于当前有效缓存区中不包括视频资源，目标媒体帧是指音频帧。

在一些实施例中，在音频参数为真的情况下，目标媒体帧是指音频帧。

在一些实施例中，起始帧的确定方式包括：

I)：@fasSpts＞0，@onlyAudio缺省或@onlyAudio＝false，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例3)，此时目标时间戳为@fasSpts，基于当前有效缓存区中包括视频资源，服务器可以从PTS最小的I帧开始，沿着PTS增大的方向逐个遍历，直到查询到第一个PTS≥@fasSpts的I帧(目标媒体帧)，说明当前有效缓存区中存在目标媒体帧，服务器将上述目标媒体帧确定为起始帧；基于当前有效缓存区内不包括视频资源，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，直到查询到第一个PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中存在目标媒体帧，服务器将上述目标媒体帧确定为起始帧。

J)：@fasSpts＞0，@onlyAudio＝true，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例4)，此时目标时间戳为@fasSpts，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，直到查询到第一个PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中存在目标媒体帧，服务器将上述目标媒体帧确定为起始帧。

上述方式二中，提供了在当前有效缓存区中能够查询到目标媒体帧时，服务器如何确定起始帧，然而，在一些实施例中，有可能在当前有效缓存区内并未查询到目标媒体帧，这种情况通常会出现在直播业务场景中，观众终端所指定拉取@fasSpts的帧获取请求先到达了服务器，而@fasSpts所对应的媒体帧(直播视频帧)还在推流阶段的传输过程中，此时服务器还可以通过下述方式三来确定起始帧。

方式三、基于该当前有效缓存区中不存在目标媒体帧，服务器进入等待状态，直到该目标媒体帧写入该当前有效缓存区时，将该目标媒体帧确定为起始帧，该目标媒体帧的时间戳大于或等于该目标时间戳且最接近该目标时间戳。

在一些实施例中，起始帧的确定方式包括：

K)：@fasSpts＞0，@onlyAudio缺省或@onlyAudio＝false，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例3)，此时目标时间戳为@fasSpts，基于当前有效缓存区中包括视频资源，服务器可以从PTS最小的I帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的I帧之后查询不到满足PTS≥@fasSpts的I帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器进入等待状态，等待第一个PTS≥@fasSpts的I帧(目标媒体帧)被写入当前有效缓存区时，将目标媒体帧确定为起始帧；基于当前有效缓存区内不包括视频资源，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的音频帧之后查询不到满足PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器进入等待状态，等待第一个PTS≥@fasSpts的音频帧(目标媒体帧)被写入当前有效缓存区时，将目标媒体帧确定为起始帧。

L)：@fasSpts＞0，@onlyAudio＝true，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例4)，此时目标时间戳为@fasSpts，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的音频帧之后查询不到满足PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器进入等待状态，等待第一个PTS≥@fasSpts的音频帧(目标媒体帧)被写入当前有效缓存区时，将目标媒体帧确定为起始帧。

上述方式三中，提供了在当前有效缓存区中查询不到目标媒体帧时，服务器如何确定起始帧，在一些实施例中，有可能会由于异常情况的出现，导致帧获取请求中携带的@fasSpts是一个较大的异常值，若基于上述方式三进行处理，会导致很长的等待时间，在大数据场景下如果存在并发的帧获取请求发生异常情况，这些帧获取请求都会进入一个阻塞的等待状态，占用服务器的处理资源，那么会对服务器的性能造成极大的损失。

有鉴于此，服务器还可以设置一个超时阈值，从而通过下述方式四，基于超时阈值来确定是否需要返回拉取失败信息，下面对方式四进行详述。

方式四、基于该当前有效缓存区中不存在目标媒体帧，且目标时间戳与最大时间戳之间的差值大于超时阈值，服务器发送拉取失败信息，该目标媒体帧的时间戳大于或等于该目标时间戳且最接近该目标时间戳。

在一些实施例中，在音频参数缺省或音频参数为假的情况下，基于当前有效缓存区中包括视频资源，该最大时间戳为最大视频时间戳latestVideoPts；基于当前有效缓存区中不包括视频资源，该最大时间戳为最大音频时间戳latestAudioPts。

在一些实施例中，在音频参数为真的情况下，该最大时间戳为最大音频时间戳latestAudioPts。

假设超时阈值为timeoutPTS，超时阈值可以是任一大于或等于0的数值，超时阈值可以是一个服务器预设的数值，也可以由技术人员基于业务场景进行个性化的配置，本公开实施例不对超时阈值的获取方式进行具体限定，例如：

M)：@fasSpts＞0，@onlyAudio缺省或@onlyAudio＝false，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例3)，此时目标时间戳为@fasSpts，基于当前有效缓存区中包括视频资源，服务器可以从PTS最小的I帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的I帧之后查询不到满足PTS≥@fasSpts的I帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器判断@fasSpts与latestVideoPts之间的差值是否大于timeoutPTS，若@fasSpts–latestVideoPts＞timeoutPTS，服务器向终端发送拉取失败信息，否则，若@fasSpts–latestVideoPts≤timeoutPTS，服务器可以进入等待状态，也即是对应于上述方式三中示例K)对应情况下所执行的操作；基于当前有效缓存区内不包括视频资源，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的音频帧之后查询不到满足PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器可以判断@fasSpts与latestAudioPts之间的差值是否大于timeoutPTS，若@fasSpts–latestAudioPts＞timeoutPTS，服务器向终端发送拉取失败信息，否则，若@fasSpts–latestAudioPts≤timeoutPTS，服务器可以进入等待状态，也即是对应于上述方式三中示例K)对应情况下所执行的操作。

N)：@fasSpts＞0，@onlyAudio＝true，缓存区中未发生时间戳回退时，请参考上述404情况四中的示例4)，此时目标时间戳为@fasSpts，服务器可以从PTS最小的音频帧开始，沿着PTS增大的方向逐个遍历，如果遍历了所有的音频帧之后查询不到满足PTS≥@fasSpts的音频帧(目标媒体帧)，说明当前有效缓存区中不存在目标媒体帧，服务器可以判断@fasSpts与latestAudioPts之间的差值是否大于timeoutPTS，若@fasSpts–latestAudioPts＞timeoutPTS，服务器向终端发送拉取失败信息，否则，若@fasSpts–latestAudioPts≤timeoutPTS，服务器可以进入等待状态，也即是对应于上述方式三中示例L)对应情况下所执行的操作。

在上述方式三和方式四相结合，可以提供一种在@fasSpts＞0且当前有效缓存区中不存在目标媒体帧时的异常处理逻辑，基于目标时间戳与最大时间戳之间的差值小于或等于超时阈值，服务器通过方式三进入等待状态(等待处理模式)，直到目标媒体帧到达时，将目标媒体帧确定为起始帧，否则，基于目标时间戳与最大时间戳之间的差值大于超时阈值，服务器通过方式四发送拉取失败信息(错误处理模式)，这时服务器是判定帧获取请求出错的，因此直接向终端返回拉取失败信息，该拉取失败信息可以是一个错误码的形式。

在上述403-405中，服务器基于该多媒体资源的拉取位置参数，确定该多媒体资源的起始帧，进一步地，在需要动态码率切换的场景下，只需要在帧获取请求中更换携带的地址信息(@url字段)以及拉取位置参数(@fasSpts字段)，就可以实现从任一个指定的起始帧开始以新的码率进行媒体帧的传输。

在406中，服务器从该起始帧开始向终端发送该多媒体资源的媒体帧，其中，该媒体帧的时间戳大于或等于该起始帧的时间戳。

在上述406中，服务器可以基于该帧获取请求，解析得到该多媒体资源的地址信息，从该起始帧开始发送该地址信息所指示的多媒体资源的媒体帧，在一些实施例中，由于帧获取请求所携带的地址信息与目标码率相对应，那么服务器可以从起始帧开始以目标码率来发送媒体流。

在上述过程中，服务器可以像流水一样源源不断的向终端发送媒体帧，可以形象地称为“媒体流传输”。

在一些实施例中，基于服务器为CDN服务器，那么该目标地址信息可以是一个域名，终端可以向CDN服务器的中心平台发送帧获取请求，中心平台调用DNS(Domain Name System，域名系统，本质上是一个域名解析库)对域名进行解析，可以得到域名对应的CNAME(别名)记录，基于终端的地理位置信息对CNAME记录再次进行解析，可以得到一个距离终端最近的边缘服务器的IP(Internet Protocol，网际互连协议)地址，这时中心平台将帧获取请求导向至上述边缘服务器，由边缘服务器响应于帧获取请求，以目标码率向终端提供多媒体资源的媒体帧。

在一些实施例中，本公开实施例提供一种CDN服务器内部回源机制，在CDN系统中，有可能边缘服务器中无法提供帧获取请求所指定的多媒体资源，此时边缘服务器可以向上级节点设备回源拉取媒体流。

那么边缘服务器可以向上级节点设备发送回源拉取请求，上级节点设备响应于回源拉取请求，向边缘服务器返回对应的媒体流，再由边缘服务器向终端发送对应的媒体流。

在上述过程中，边缘服务器在获取回源拉取请求时，基于终端发送的帧获取请求中携带@fasSpts字段，边缘服务器可以直接将帧获取请求确定为回源拉取请求，将回源拉取请求转发至上级节点设备，反之，基于终端发送的帧获取请求中缺省@fasSpts字段，边缘服务器需要为@fasSpts字段配置默认值defaultSpts，进而在帧获取请求嵌入@fasSpts字段，将@fasSpts字段内所存储的数值置为defaultSpts，得到回源拉取请求。

在一些实施例中，该上级节点设备可以是第三方源站服务器，此时回源拉取请求必须携带@fasSpts字段，在一些实施例中，该上级节点设备也可以是CDN系统内部的节点服务器(比如中心平台或者分布式数据库系统的节点设备)，基于帧获取请求中携带@fasSpts字段，那么可以按照@fasSpts字段的实际值进行回源，否则，依据默认值@fasSpts＝defaultSpts进行回源，本公开实施例不对边缘服务器的回源方式进行具体限定。

在407中，终端接收多媒体资源的媒体帧，播放多媒体资源的媒体帧。

在上述过程中，基于终端接收到多媒体资源的媒体帧(连续接收到的媒体帧即可构成媒体流)，为了保证播放流畅性，终端可以将该媒体帧存入缓存区中，调用媒体编解码组件对媒体帧进行解码，得到解码后的媒体帧，调用媒体播放组件按照PTS从小到大的顺序来对缓存区内的媒体帧进行播放。

在解码过程中，终端可以从媒体描述文件的@codec字段中确定多媒体资源的编码方式，根据编码方式确定对应的解码方式，从而按照确定的解码方式对媒体帧进行解码。

图6是根据一实施例示出的一种资源传输装置的逻辑结构框图。参照图6，该装置包括获取单元601、第一确定单元602以及发送单元603，下面进行介绍。

获取单元601，被配置为执行响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数，该帧获取请求用于请求传输该多媒体资源的媒体帧，该拉取位置参数用于表示该多媒体资源的媒体帧的起始拉取位置；

第一确定单元602，被配置为执行基于该多媒体资源的拉取位置参数，确定该多媒体资源的起始帧；

发送单元603，被配置为执行从该起始帧开始发送该多媒体资源的媒体帧，其中，该媒体帧的时间戳大于或等于该起始帧的时间戳。

在一些实施例中，该获取单元601还被配置为执行：获取该多媒体资源的音频参数，该音频参数用于表示该媒体帧是否为音频帧；

基于图6的装置组成，该第一确定单元602包括：

第一确定子单元，被配置为执行基于该音频参数和该拉取位置参数，确定目标时间戳；

第二确定子单元，被配置为执行基于该目标时间戳，确定该多媒体资源的起始帧。

在一些实施例中，该第一确定子单元被配置为执行：

在一些实施例中，基于该拉取位置参数大于0且缓存区中未发生时间戳回退，该第二确定子单元被配置为执行：

在一些实施例中，该发送单元603还被配置为执行：

在一些实施例中，基于该拉取位置参数大于0，该装置还包括：

第二确定单元，被配置为执行基于缓存区中的媒体帧序列中媒体帧的时间戳呈非单调递增，确定该缓存区发生时间戳回退；基于缓存区中的媒体帧序列中媒体帧的时间戳呈单调递增，确定该缓存区未发生时间戳回退，其中，该媒体帧序列为该缓存区中已缓存的多个媒体帧所构成的序列。

在一些实施例中，该第二确定单元还被配置为执行：

在一些实施例中，基于图6的装置组成，该装置还包括：

第三确定单元，被配置为执行将最后一个单调递增阶段所包含的各个媒体帧确定为当前有效缓存区内的资源。

在一些实施例中，该第二确定子单元被配置为执行：

在一些实施例中，该获取单元601被配置为执行：

在一些实施例中，该发送单元603被配置为执行：

基于该帧获取请求，解析得到该多媒体资源的地址信息；

图7是本公开实施例提供的一种计算机设备的结构示意图，该计算机设备可以是FAS框架中的服务器，该计算机设备700可因配置或性能不同而产生比较大的差异，可以包括一个或一个以上处理器(Central Processing Units，CPU)701和一个或一个以上的存储器702，其中，该存储器702中存储有至少一条程序代码，该至少一条程序代码由该处理器701加载并执行以实现上述各个实施例提供的资源传输方法。当然，该计算机设备700还可以具有有线或无线网络接口、键盘以及输入输出接口等部件，以便进行输入输出，该计算机设备700还可以包括其他用于实现设备功能的部件，在此不做赘述。

在一些实施例中，该计算机设备包括一个或多个处理器，和用于存储该一个或多个处理器可执行指令的一个或多个存储器，其中，该一个或多个处理器被配置为执行该指令，以实现如下操作：

响应于多媒体资源的帧获取请求，获取该多媒体资源的拉取位置参数，该帧获取请求用于请求传输该多媒体资源的媒体帧，该拉取位置参数用于表示该多媒体资源的媒体帧的起始拉取位置；

基于该多媒体资源的拉取位置参数，确定该多媒体资源的起始帧；

从该起始帧开始发送该多媒体资源的媒体帧，其中，该媒体帧的时间戳大于或等于该起始帧的时间戳。

在一些实施例中，该一个或多个处理器被配置为执行该指令，以实现如下操作：

基于该音频参数和该拉取位置参数，确定目标时间戳；

基于该目标时间戳，确定该多媒体资源的起始帧。

在一些实施例中，基于该拉取位置参数大于0且缓存区中未发生时间戳回退，该一个或多个处理器被配置为执行该指令，以实现如下操作：

在一些实施例中，该一个或多个处理器还被配置为执行该指令，以实现如下操作：

在一些实施例中，基于该拉取位置参数大于0，该一个或多个处理器还被配置为执行该指令，以实现如下操作：

基于该帧获取请求，解析得到该多媒体资源的地址信息；

在一些实施例中，还提供了一种包括至少一条指令的存储介质，例如包括至少一条指令的存储器，上述至少一条指令可由计算机设备中的处理器执行以完成上述实施例中资源传输方法。在一些实施例中，上述存储介质可以是非临时性计算机可读存储介质，例如，该非临时性计算机可读存储介质可以包括ROM(Read-Only Memory，只读存储器)、RAM(Random-Access Memory，随机存取存储器)、CD-ROM(Compact Disc Read-Only Memory，只读光盘)、磁带、软盘和光数据存储设备等。

在一些实施例中，当该存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行如下操作：

在一些实施例中，该计算机设备的一个或多个处理器用于执行如下操作：

基于该音频参数和该拉取位置参数，确定目标时间戳；

基于该目标时间戳，确定该多媒体资源的起始帧。

在一些实施例中，基于该拉取位置参数大于0且缓存区中未发生时间戳回退，该计算机设备的一个或多个处理器用于执行如下操作：

在一些实施例中，该计算机设备的一个或多个处理器还用于执行如下操作：

在一些实施例中，基于该拉取位置参数大于0，该计算机设备的一个或多个处理器还用于执行如下操作：

基于该帧获取请求，解析得到该多媒体资源的地址信息；

在一些实施例中，还提供了一种计算机程序产品，包括一条或多条指令，该一条或多条指令可以由计算机设备的处理器执行，以完成上述各个实施例提供的资源传输方法。

Claims

一种资源传输方法，包括：

响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；

基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；

从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。
根据权利要求1所述的资源传输方法，所述基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧包括：

获取所述多媒体资源的音频参数，所述音频参数用于表示所述媒体帧是否为音频帧；

基于所述音频参数和所述拉取位置参数，确定目标时间戳；

基于所述目标时间戳，确定所述多媒体资源的起始帧。
根据权利要求2所述的资源传输方法，所述基于所述音频参数和所述拉取位置参数，确定目标时间戳包括：

基于所述拉取位置参数为默认值，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳减去所述拉取位置参数的默认值的绝对值所得的数值；

基于所述拉取位置参数为默认值，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳减去所述拉取位置参数的默认值的绝对值所得的数值；

基于所述拉取位置参数等于0，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳；

基于所述拉取位置参数等于0，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳；

基于所述拉取位置参数小于0，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳减去所述拉取位置参数的绝对值所得的数值；

基于所述拉取位置参数小于0，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳减去所述拉取位置参数的绝对值所得的数值；

基于所述拉取位置参数大于0，且所述音频参数为默认值或所述音频参数为假，在缓存区中发生时间戳回退时，确定所述目标时间戳为最大时间戳；

基于所述拉取位置参数大于0，且所述音频参数为真，在缓存区中发生时间戳回退时，确定所述目标时间戳为最大音频时间戳；

基于所述拉取位置参数大于0，且缓存区中未发生时间戳回退时，确定所述目标时间戳为所述拉取位置参数。
根据权利要求2所述的资源传输方法，基于所述拉取位置参数大于0且缓存区中未发生时间戳回退，所述基于所述目标时间戳，确定所述多媒体资源的起始帧包括：

基于当前有效缓存区中存在目标媒体帧，确定所述起始帧为所述目标媒体帧，所述目标媒体帧的时间戳大于或等于所述目标时间戳且最接近所述目标时间戳；

基于所述当前有效缓存区中不存在所述目标媒体帧，进入等待状态，直到所述目标媒体帧写入所述当前有效缓存区时，确定所述起始帧为所述目标媒体帧。
根据权利要求4所述的资源传输方法，所述方法还包括：

基于所述当前有效缓存区中不存在所述目标媒体帧，且所述目标时间戳与最大时间戳之间的差值大于超时阈值，发送拉取失败信息。
根据权利要求2所述的资源传输方法，基于所述拉取位置参数大于0，所述方法还包括：

基于缓存区中的媒体帧序列中媒体帧的时间戳呈非单调递增，确定所述缓存区发生时间戳回退；

基于缓存区中的媒体帧序列中媒体帧的时间戳呈单调递增，确定所述缓存区未发生时间戳回退，其中，所述媒体帧序列为所述缓存区中已缓存的多个媒体帧所构成的序列。
根据权利要求6所述的资源传输方法，所述方法还包括：

基于所述缓存区中包括视频资源，在关键帧序列中关键帧的时间戳呈非单调递增时，确定所述媒体帧序列呈非单调递增，其中，所述关键帧序列为所述缓存区中已缓存的多个关键帧所构成的序列；

基于所述缓存区中不包括视频资源，在音频帧序列中音频帧的时间戳呈非单调递增时，确定所述媒体帧序列呈非单调递增，其中，所述音频帧序列为所述缓存区中已缓存的多个音频帧所构成的序列。
根据权利要求6所述的资源传输方法，所述方法还包括：

将最后一个单调递增阶段所包含的各个媒体帧确定为当前有效缓存区内的资源。
根据权利要求2所述的资源传输方法，所述基于所述目标时间戳，确定所述多媒体资源的起始帧包括：

确定所述起始帧为当前有效缓存区中时间戳最接近所述目标时间戳的媒体帧。
根据权利要求2所述的资源传输方法，基于所述音频参数为默认值或所述音频参数为假，基于当前有效缓存区中包括视频资源，所述最大时间戳为最大视频时间戳；基于当前有效缓存区中不包括视频资源，所述最大时间戳为最大音频时间戳。
根据权利要求1所述的资源传输方法，所述响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数包括：

基于所述帧获取请求携带拉取位置参数，解析所述帧获取请求得到所述拉取位置参数；

基于所述帧获取请求缺省拉取位置参数，将所述拉取位置参数配置为默认值。
根据权利要求1所述的资源传输方法，所述从所述起始帧开始发送所述多媒体资源的媒体帧包括：

基于所述帧获取请求，解析得到所述多媒体资源的地址信息；

从所述起始帧开始发送所述地址信息所指示的多媒体资源的媒体帧。
一种计算机设备，包括：

一个或多个处理器；

用于存储所述一个或多个处理器可执行指令的一个或多个存储器；

其中，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；

基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；

从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。
根据权利要求13所述的计算机设备，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

获取所述多媒体资源的音频参数，所述音频参数用于表示所述媒体帧是否为音频帧；

基于所述音频参数和所述拉取位置参数，确定目标时间戳；

基于所述目标时间戳，确定所述多媒体资源的起始帧。
根据权利要求14所述的计算机设备，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

基于所述拉取位置参数为默认值，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳减去所述拉取位置参数的默认值的绝对值所得的数值；

基于所述拉取位置参数为默认值，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳减去所述拉取位置参数的默认值的绝对值所得的数值；

基于所述拉取位置参数等于0，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳；

基于所述拉取位置参数等于0，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳；

基于所述拉取位置参数小于0，且所述音频参数为默认值或所述音频参数为假，确定所述目标时间戳为最大时间戳减去所述拉取位置参数的绝对值所得的数值；

基于所述拉取位置参数小于0，且所述音频参数为真，确定所述目标时间戳为最大音频时间戳减去所述拉取位置参数的绝对值所得的数值；

基于所述拉取位置参数大于0，且所述音频参数为默认值或所述音频参数为假，在缓存区中发生时间戳回退时，确定所述目标时间戳为最大时间戳；

基于所述拉取位置参数大于0，且所述音频参数为真，在缓存区中发生时间戳回退时，确定所述目标时间戳为最大音频时间戳；

基于所述拉取位置参数大于0，且缓存区中未发生时间戳回退时，确定所述目标时间戳为所述拉取位置参数。
根据权利要求14所述的计算机设备，基于所述拉取位置参数大于0且缓存区中未发生时间戳回退，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

基于当前有效缓存区中存在目标媒体帧，确定所述起始帧为所述目标媒体帧，所述目标媒体帧的时间戳大于或等于所述目标时间戳且最接近所述目标时间戳；

基于所述当前有效缓存区中不存在所述目标媒体帧，进入等待状态，直到所述目标媒体帧写入所述当前有效缓存区时，确定所述起始帧为所述目标媒体帧。
根据权利要求16所述的计算机设备，所述一个或多个处理器还被配置为执行所述指令，以实现如下操作：

基于所述当前有效缓存区中不存在所述目标媒体帧，且所述目标时间戳与最大时间戳之间的差值大于超时阈值，发送拉取失败信息。
根据权利要求14所述的计算机设备，基于所述拉取位置参数大于0，所述一个或多个处理器还被配置为执行所述指令，以实现如下操作：

基于缓存区中的媒体帧序列中媒体帧的时间戳呈非单调递增，确定所述缓存区发生时间戳回退；

基于缓存区中的媒体帧序列中媒体帧的时间戳呈单调递增，确定所述缓存区未发生时间戳回退，其中，所述媒体帧序列为所述缓存区中已缓存的多个媒体帧所构成的序列。
根据权利要求18所述的计算机设备，所述一个或多个处理器还被配置为执行所述指令，以实现如下操作：

基于所述缓存区中包括视频资源，在关键帧序列中关键帧的时间戳呈非单调递增时，确定所述媒体帧序列呈非单调递增，其中，所述关键帧序列为所述缓存区中已缓存的多个关键帧所构成的序列；

基于所述缓存区中不包括视频资源，在音频帧序列中音频帧的时间戳呈非单调递增时，确定所述媒体帧序列呈非单调递增，其中，所述音频帧序列为所述缓存区中已缓存的多个音频帧所构成的序列。
根据权利要求18所述的计算机设备，所述一个或多个处理器还被配置为执行所述指令，以实现如下操作：

将最后一个单调递增阶段所包含的各个媒体帧确定为当前有效缓存区内的资源。
根据权利要求14所述的计算机设备，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

确定所述起始帧为当前有效缓存区中时间戳最接近所述目标时间戳的媒体帧。
根据权利要求14所述的计算机设备，基于所述音频参数为默认值或所述音频参数为假，基于当前有效缓存区中包括视频资源，所述最大时间戳为最大视频时间戳；基于当前有效缓存区中不包括视频资源，所述最大时间戳为最大音频时间戳。
根据权利要求13所述的计算机设备，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

基于所述帧获取请求携带拉取位置参数，解析所述帧获取请求得到所述拉取位置参数；

基于所述帧获取请求缺省拉取位置参数，将所述拉取位置参数配置为默认值。
根据权利要求13所述的计算机设备，所述一个或多个处理器被配置为执行所述指令，以实现如下操作：

基于所述帧获取请求，解析得到所述多媒体资源的地址信息；

从所述起始帧开始发送所述地址信息所指示的多媒体资源的媒体帧。
一种存储介质，当所述存储介质中的至少一条指令由计算机设备的一个或多个处理器执行时，使得计算机设备能够执行如下操作：

响应于多媒体资源的帧获取请求，获取所述多媒体资源的拉取位置参数，所述帧获取请求用于请求传输所述多媒体资源的媒体帧，所述拉取位置参数用于表示所述多媒体资源的媒体帧的起始拉取位置；

基于所述多媒体资源的拉取位置参数，确定所述多媒体资源的起始帧；

从所述起始帧开始发送所述多媒体资源的媒体帧，其中，所述媒体帧的时间戳大于或等于所述起始帧的时间戳。