WO2021052500A1

WO2021052500A1 - 视频图像的传输方法、发送设备、视频通话方法和设备

Info

Publication number: WO2021052500A1
Application number: PCT/CN2020/116541
Authority: WO
Inventors: 周旭升; 卢宇峰
Original assignee: 华为技术有限公司
Priority date: 2019-09-19
Filing date: 2020-09-21
Publication date: 2021-03-25
Also published as: CN112532908A; US20220210469A1; CN112532908B; EP4024867A4; EP4024867A1

Abstract

本申请实施例提供一种视频图像的传输方法、发送设备、视频通话方法和设备，上述视频图像包括多个视频帧，上述视频图像的传输方法中，对上述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息。本申请中，当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

Description

视频图像的传输方法、发送设备、视频通话方法和设备

本申请要求于2019年9月19日提交中国专利局、申请号为201910888693.5、发明名称为“视频图像的传输方法、发送设备、视频通话方法和设备”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及通信技术领域，特别涉及视频图像的传输方法、发送设备、视频通话方法和设备。

背景技术

随着5G的进一步发展，人们对视频交互的需求也愈发强烈，视频通话作为互动交互基础服务，近年来也在快速增长。现在，视频通话作为基础能力已嵌入车载终端、智慧大屏、无人机、儿童手表、智能音箱、远程医疗等全场景智能终端上，为实现未来智能社会全场景互联互通打下基础。

虽说网络覆盖越来越完善，而现实网络情况也复杂多变，弱信号的覆盖区域、家庭无线网络(Wireless Fidelity；以下简称：WiFi)穿墙及公用WiFi的多用户强占使用等场景下，会存在突发高丢包和/或网络拥塞等现象，从而导致接收到的视频数据不完整造成画面卡顿。

针对突发高丢包造成的数据不完整，现有相关技术主要借助发送端重编码I帧来恢复视频画面流畅，但这会引入明显的卡顿现象，严重影响视频通话的高清流畅度体验。

视频编解码与传输控制作为视频通话的核心技术，对视频通话质量与流畅度起到关键作用。但现有相关技术中，视频通话的编解码与传输控制分属两个子系统，视频帧间参考关系相对稳定，存在视频流畅度与清晰度无法兼顾，体验不佳的问题。

发明内容

本申请提供了一种视频图像的传输方法、发送设备、视频通话方法和设备，本申请还提供一种视频图像的显示方法和视频图像的接收设备，以实现图像质量与图像流畅度之间达到较好的平衡。

第一方面，本申请提供了一种视频图像的传输方法，所述视频图像包括多个视频帧，包括：

对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；另外，上述码流中还可以包括已编码数据，例如：当前帧与参考帧的残差数据等；上述表示帧间参考关系的信息可以放在条带头(slice header)中；

发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，上述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，上述目标前向LTR帧可以为发送端设备标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，上述确认消息与所述目标前向LTR帧对应；本申请中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这里的本帧是指前N帧中的每一帧，所述前向LTR帧为所述发送端设备标记为LTR帧的已编码的视频帧，本申请中，前向LTR帧存储在DPB中。

需要说明的是，当前帧的前N帧与当前帧之间可以存在其他帧，也可以是当前帧的前N帧与当前帧之间是时域上紧邻的关系，针对前者的情况，其他帧的帧间参考关系可以与所述前N帧一样，也可以采用其他的帧间参考关系。

换句话说，当前帧与时域距离最近的前向LTR帧(例如A)之间的多个帧中的所有帧可以参考同一个LTR帧(例如A)，也可以是多个帧中的部分帧参考同一个LTR帧(例如A)。

上述视频图像的传输方法中，对上述多个视频帧进行编码，得到经编码的码流，上述码流至少包括表示帧间参考关系的信息。上述表示帧间参考关系的信息包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，这里的本帧是指后M帧中的每一帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

需要说明的是，当前帧的后M帧与当前帧之间可以存在其他帧，也可以是当前帧的后M帧与当前帧之间是时域上紧邻的关系，针对前者的情况，其他帧的帧间参考关系可以与所述后M帧一样，也可以采用其他的帧间参考关系。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，发送端设备确定当前帧参考与当前帧时域距离最近的目标前向LTR帧，当前帧的后M帧中的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

在一种可能的实现方式中，所述发送端设备根据所述当前帧的前n帧的编码质量确定N的数值，n<N。在具体实现时，发送端设备可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述发送端设备根据所述当前帧的前n帧的编码质量与编码质量阈值的比较结果，确定N的数值。

在一种可能的实现方式中，所述发送端设备根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，发送端设备可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

在一种可能的实现方式中，LTR帧的标记间隔D与N和M具有函数关系。举例来说，上述函数关系可以为D＝N+(M+1)。

其中，上述LTR帧的标记间隔是指标记LTR帧的间隔帧数，即距离标记上一个LTR帧后，需要间隔多少帧标记下一个LTR帧。举例来说，如果LTR帧的标记间隔为4，那么在将当前帧标记为LTR帧之后，需要间隔4帧，将当前帧之后的第5帧标记为LTR帧。

在一种可能的实现方式中，所述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。

其中，M1，M2，…，Mn的数值可以相同也可以不同，具体的数值大小可以根据实际的应用场景来确定。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，发送端设备可以在对M之后的L帧进行编码时，确定(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，LTR帧的标记间隔D与N和L具有函数关系。举例来说，上述函数关系可以为D＝N+L，L＝(M1+1)+(M2+1)+…+(Mn+1)。在一种可能的实现方式中，所述发送端设备根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔D，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述LTR帧的标记间隔D用于所述发送端设备标记LTR帧。

其中，发送端设备根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，并且本申请中，LTR的标记间隔不是固定设置的，而是动态变化的，可能是相同间隔，也可能是不同间隔，具体根据实际应用场景来确定，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，发送端设备可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

第二方面，本申请提供一种视频图像的传输方法，所述视频图像包括多个视频帧，包括：判断当前帧是否被标记为长期参考LTR帧；如果所述当前帧未被标记为LTR帧，则对未标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；或者，

如果所述当前帧被标记为LTR帧，则对标记的当前帧进行编码，其中，所述编码过程包括：将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的目标前向LTR帧，其中，上述目标前向LTR帧为所述发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，所述目标前向LTR帧为所述发送端设备标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；本申请中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

发送经编码的码流。

上述视频图像的传输方法中，在对未标记的当前帧进行编码时，参考与未标记的当前帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，所述判断当前帧是否被标记为长期参考LTR帧包括：根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。

在一种可能的实现方式中，所述根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧包括：获取所述当前帧和与所述当前帧时域距离最近的前向LTR帧之间的间隔帧数；如果所述间隔帧数等于所述LTR帧的标记间隔，则将所述当前帧标记为LTR帧；如果所述间隔帧数不等于所述LTR帧的标记间隔，则对所述当前帧不标记为LTR帧。

在一种可能的实现方式中，所述方法还包括：根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量大于或等于编码质量阈值；或者，当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

如果当前帧未被标记为LTR帧，那么发送端设备在对当前帧进行编码时，参考与当前帧时域距离最近的前向LTR帧，在对当前帧编码之后，发送端设备获取当前帧的编码质量，将当前帧的编码质量与编码质量阈值进行对比，如果当前帧的编码质量小于编码质量阈值，则在对当前帧的后一帧进行编码时，参考与后一帧时域距离最近的目标前向LTR帧，以提高当前帧的后一帧的编码质量。

在一种可能的实现方式中，所述方法还包括：对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在一种可能的实现方式中，所述方法还包括：对当前帧的后一帧进行编码，所述编码过程包括：将表示所述当前帧的后一帧的帧间参考关系的信息编入码流，所述后一帧的帧间参考关系表示所述后一帧参考与所述本帧时域距离最近的目标前向LTR帧，其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在一种可能的实现方式中，所述方法还包括：

对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，发送端设备可以在对当前帧的后M+1帧进行编码时，确定后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，上述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

第三方面，本申请提供一种视频通话方法，应用于具有显示屏和图像采集器的电子设备。其中，上述显示屏可以包括车载计算机(移动数据中心Mobile Data Center)的显示屏；上述图像采集器可以为摄像头Camera，或者车载传感器等；上述电子设备可以为移动终端(手机)，智慧屏，无人机，智能网联车(Intelligent Connected Vehicle；以下简称：ICV)，智能(汽)车(smart/intelligent car)或车载设备等设备。

上述电子设备可以包括：响应于第一用户请求与第二用户进行视频通话的第一操作，建立所述第一用户与所述第二用户之间的视频通话连接，这里的视频通话连接是指第一用户使用的电子设备与第二用户使用的电子设备之间视频通话连接；通过所述图像采集器采集包括所述第一用户的环境的视频图像，所述视频图像包括多个视频帧，这里的环境可以是第一用户所处的内部环境和/或外部环境的视频图像，比如车内环境和/或在行驶过程中智能化探测障碍物、感知周围环境；对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧；所述发送端设备为所述第一用户使用的电子设备，所述接收端设备为所述第二用户使用的电子设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这里的本帧是指前N帧中的每一帧。

上述视频通话方法中，响应于第一用户请求与第二用户进行视频通话的第一操作，建立第一用户与第二用户之间的视频通话连接之后，通过图像采集器采集包括第一用户的环境的视频图像，然后对上述视频图像包括的多个视频帧进行编码，得到经编码的码流，上述码流至少包括表示帧间参考关系的信息。上述表示帧间参考关系的信息包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

在一种可能的实现方式中，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向 LTR帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

在一种可能的实现方式中，LTR帧的标记间隔D与N和L具有函数关系。举例来说，上述函数关系可以为D＝N+L，L＝(M1+1)+(M2+1)+…+(Mn+1)。

第四方面，本申请提供一种视频图像的显示方法，所述视频图像包括多个视频帧，包括：

解析码流，以得到表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧；这里的本帧是指当前帧；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧；这里的本帧是指前N帧中的每一帧；

重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧；

显示所述视频图像。

上述视频图像的显示方法中，在解析码流之后，可以得到表示帧间参考关系的信息，上述表示帧间参考关系的信息中包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧。也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

第五方面，本申请提供一种视频图像的发送设备，所述视频图像包括多个视频帧，包括：编码模块，用于对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；另外，上述码流中还可以包括已编码数据，例如：当前帧与参考帧的残差数据等；上述表示帧间参考关系的信息可以放在条带头(slice header)中；

传输模块，用于发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，所述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，所述目标前向LTR帧为编码模块标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；本申请中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这里的本帧是指前N帧中的每一帧，所述前向LTR帧为所述编码模块标记为LTR帧的已编码的视频帧，本申请中，前向LTR帧存储在DPB中。

上述视频图像的发送设备中，编码模块对上述多个视频帧进行编码，得到经编码的码流，上述码流至少包括表示帧间参考关系的信息。上述表示帧间参考关系的信息包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，编码模块在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，编码模块确定当前帧参考与当前帧时域距离最近的目标前向LTR帧，当前帧的后M帧中的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，所述编码模块根据所述当前帧的前n帧的编码质量确定N的数值，n<N。在具体实现时，编码模块可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述编码模块根据所述当前帧的前n帧的编码质量与编码质量阈值的比较结果，确定N的数值。

在一种可能的实现方式中，所述编码模块根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，编码模块可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，编码模块可以在对M之后的L帧进行编码时，确定(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，所述编码模块根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔D，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述LTR帧的标记间隔D用于所述编码模块标记LTR帧。

其中，编码模块根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，并且本申请中，LTR的标记间隔不是固定设置的，而是动态变化的，可能是相同间隔，也可能是不同间隔，具体根据实际应用场景来确定，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，发送端设备可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

第六方面，本申请提供一种视频图像的发送设备，所述视频图像包括多个视频帧，包括：

判断模块，用于判断当前帧是否被标记为长期参考LTR帧；

编码模块，用于当所述当前帧未被标记为LTR帧时，对未标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧；或者，

当所述当前帧被标记为LTR帧时，对标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与上述当前帧时域距离最近的目标前向LTR帧，其中，所述目标前向LTR帧为所述编码模块接收到接收端设备确认消息的前向LTR帧，具体地，所述目标前向LTR帧为所述编码模块标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；本申请中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

传输模块，用于发送经编码的码流。

上述视频图像的发送设备中，在编码模块对未标记的当前帧进行编码时，参考与未标记的当前帧时域距离最近的前向LTR帧，上述前向LTR帧为编码模块标记为LTR帧的已编码的视频帧，也就是说，本实施例中，编码模块在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，所述判断模块，具体用于根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。

在一种可能的实现方式中，所述判断模块包括：

获取子模块，用于获取所述当前帧和与所述当前帧时域距离最近的前向LTR帧之间的间隔帧数；

标记子模块，用于当所述间隔帧数等于所述LTR帧的标记间隔时，将所述当前帧标记为LTR帧；当所述间隔帧数不等于所述LTR帧的标记间隔，对所述当前帧不标记为LTR帧。

在一种可能的实现方式中，判断模块，还用于根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量大于或等于编码质量阈值；或者，

当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

如果当前帧未被标记为LTR帧，那么发送端设备在对当前帧进行编码时，参考与当前帧时域距离最近的前向LTR帧，在对当前帧编码之后，编码模块获取当前帧的编码质量，将当前帧的编码质量与编码质量阈值进行对比，如果当前帧的编码质量小于编码质量阈值，则在编码模块对当前帧的后一帧进行编码时，参考与后一帧时域距离最近的目标前向LTR帧，以提高当前帧的后一帧的编码质量。

在一种可能的实现方式中，所述编码模块，还用于对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，编码模块可以在对当前帧的后M+1帧进行编码时，确定后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，上述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，所述编码模块，还用于对当前帧的后一帧进行编码，所述编码过程包括：将表示所述当前帧的后一帧的帧间参考关系的信息编入码流，所述后一帧的帧间参考关系表示所述后一帧参考与所述本帧时域距离最近的目标前向LTR帧，其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在一种可能的实现方式中，所述编码模块，用于根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，编码模块可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

第七方面，本申请提供一种视频通话设备，上述视频通话设备可以为第一用户使用的视频通话设备，上述视频通话设备可以包括：显示屏；图像采集器；一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序。其中，上述显示屏可以包括车载计算机(移动数据中心Mobile Data Center)的显示屏；上述图像采集器可以为摄像头Camera，或者车载传感器等；上述视频通话设备可以为移动终端(手机)，智慧屏，无人机，智能网联车(Intelligent Connected Vehicle；以下简称：ICV)，智能(汽)车(smart/intelligent car)或车载设备等设备。

其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：响应于第一用户请求与第二用户进行视频通话的第一操作，建立所述第一用户与所述第二用户之间的视频通话连接；这里的视频通话连接是指第一用户使用的电子设备与第二用户使用的电子设备之间视频通话连接；

通过所述图像采集器采集包括所述第一用户的环境的视频图像，所述视频图像包括多个视频帧，这里的环境可以是第一用户所处的内部环境和/或外部环境的视频图像，比如车内环境和/或在行驶过程中智能化探测障碍物、感知周围环境；

对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧；

上述视频通话设备中，响应于第一用户请求与第二用户进行视频通话的第一操作，建立第一用户与第二用户之间的视频通话连接之后，通过图像采集器采集包括第一用户的环境的视频图像，然后对上述视频图像包括的多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息。上述表示帧间参考关系的信息包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：

根据所述当前帧的前n帧的编码质量确定N的数值，n<N。

在具体实现时，发送端设备可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

根据单位时间内所包括的视频帧数确定M的数值。

在具体实现时，发送端设备可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

其中，所述发送端设备根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且本申请中，LTR的标记间隔不是固定设置的，而是动态变化的，可能是相同间隔，也可能是不同间隔，具体根据实际应用场景来确定，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，发送端设备可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

第八方面，本申请提供一种视频图像的接收设备，所述视频图像包括多个视频帧，包括：

解码模块，用于解析码流，以得到表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述解码模块，还用于重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧；

显示模块，用于显示所述视频图像。

上述视频图像的接收设备中，在解码模块解析码流之后，可以得到表示帧间参考关系的信息，上述表示帧间参考关系的信息中包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧。也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

第九方面，本申请提供一种视频图像的编码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第一方面或者第一方面的任一可能的实现方式中的方法。

第十方面，本申请提供一种视频图像的编码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第二方面或者第二方面的任一可能的实现方式中的方法。

第十一方面，本申请提供一种视频图像的解码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现所述第四方面的方法。

第十二方面，本申请实施例提供一种用于解码视频数据的设备，所述设备包括：

存储器，用于存储码流形式的视频数据；

视频解码器，用于从码流中解码出表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧。

第十三方面，本申请实施例提供一种用于编码视频数据的设备，所述设备包括：

存储器，用于存储视频数据，所述视频数据包括一个或多个视频帧；

视频编码器，用于对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；另外，上述码流中还可以包括已编码数据，例如：当前帧与参考帧的残差数据等；上述表示帧间参考关系的信息可以放在条带头(slice header)中；

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，上述目标前向LTR帧为用于编码视频数据的设备接收到用于解码视频数据的设备的确认消息的前向LTR帧，具体地，上述目标前向LTR帧可以为用于编码视频数据的设备标记为LTR帧并且接收到用于解码视频数据的设备发送的确认消息的已编码的视频帧，上述确认消息与所述目标前向LTR帧对应；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这里的本帧是指前N帧中的每一帧，所述前向LTR帧为所述用于编码视频数据的设备标记为LTR帧的已编码的视频帧，本申请中，前向LTR帧存储在DPB中。

应当理解的是，本申请的第二至十方面与本申请的第一方面的技术方案一致，各方面及对应的可行实施方式所取得的有益效果相似，不再赘述。

第十四方面，本申请提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如第一方面、第二方面、第三方面或第四方面所述的方法。

第十五方面，本申请提供一种计算机程序，当所述计算机程序被计算机执行时，用于执行第一方面、第二方面、第三方面或第四方面所述的方法。

在一种可能的设计中，第十五方面中的程序可以全部或者部分存储在与处理器封装在一起的存储介质上，也可以部分或者全部存储在不与处理器封装在一起的存储器上。

附图说明

图1为两个用户通过各自使用的电子设备进行视频通话的示意图；

图2为现有相关技术中编码视频帧的参考结构图；

图3为本申请视频图像的传输方法一个实施例的流程图；

图4(a)～图4(c)为本申请视频图像的传输方法中视频帧的帧间参考关系一个实施例的示意图；

图5为本申请视频图像的传输方法中确定LTR帧的标记间隔一个实施例的示意图；

图6为本申请视频图像的传输方法另一个实施例的流程图；

图7(a)～图7(b)为本申请视频图像的传输方法中视频帧的帧间参考关系另一个实施例的示意图；

图8为本申请视频通话方法一个实施例的流程图；

图9(a)～图9(c)为本申请视频通话方法中请求视频通话的示意图；

图9(d)为本申请视频通话方法中建立视频通话连接阶段的界面；

图9(e)为本申请视频通话方法中建立视频通话连接之后的界面；

图10(a)～图10(b)为本申请视频通话方法的应用场景一个实施例的示意图；

图11(a)～图11(b)为本申请视频通话方法的应用场景另一个实施例的示意图；

图12为本申请视频图像的显示方法一个实施例的流程图；

图13为本申请视频图像的发送设备一个实施例的结构示意图；

图14为本申请视频图像的发送设备另一个实施例的结构示意图；

图15为本申请视频图像的发送设备再一个实施例的结构示意图；

图16(a)为本申请视频通话设备一个实施例的结构示意图；

图16(b)是根据一示例性实施例的包含编码器20和/或解码器30的视频译码装置40的实例的说明图；

图16(c)是本申请实施例提供的视频译码设备400(例如视频编码设备400或视频解码设备400)的结构示意图；

图17为本申请视频图像的接收设备一个实施例的结构示意图。

具体实施方式

本申请的实施方式部分使用的术语仅用于对本申请的具体实施例进行解释，而非旨在限定本申请。

本申请实施例提供的视频图像的传输方法可以应用于各类实时音视频互动场景中，例如：两个用户通过各自使用的电子设备进行视频通话，或者多个用户通过各自使用的电子设备进行视频电话会议，都可以使用本申请提出的视频图像的传输方法。

图1为两个用户通过各自使用的电子设备进行视频通话的示意图，如图1所示，上述两个用户可以为用户A和用户B，当用户A向用户B发送视频流时，用户A使用的电子设备可以为发送端A，用户B使用的电子设备可以为接收端B。发送端A发送编码后的视频流给接收端B，接收端B实时反馈视频帧的接收情况与网络状态信息给发送端A，发送端A根据接收端B反馈的信息对网络状况进行评估，并根据接收端B的视频帧的接收情况和网络状况对视频帧编码进行调节，并将编码后的视频流发送到接收端B。同理，当用户B向用户A发送视频流时，用户B使用的电子设备可以作为发送端B，用户A使用的电子设备可以作为接收端A，那么发送端B到接收端A的方向也是类似处理机制，在此不再赘述。

图2为现有相关技术中编码视频帧的参考结构图，以发送端A向接收端B发送视频流为例，发送端A根据接收端B反馈的网络状况如网络可用带宽和/或网络时延，选择合适的I帧间隔、编码码率以及视频分辨率、帧率等信息；在会话过程中，发送端A还可以根据接收端B反馈的每帧接收情况，为当前帧设置帧间参考关系，同时将编码端解码图像缓存区(Decoded Picture Buffer；以下简称：DPB)中的视频帧分别标记为长期参考(Long Term Reference；以下简称：LTR)帧、不做参考帧与短期参考帧；发送端A在对当前帧进行编码时，以接收端B已确认的LTR帧作为参考进行编码，可保障比较好的视频画面流畅性，这里，接收端B已确认的LTR帧是指发送端A接收到接收端B发送的确认消息，上述确认消息表示上述LTR帧可以被接收B正常解码。如图2所示，接收端B实时反馈可解码的帧信息，发送端A在DPB缓存的视频帧中进行选择，并将选择的视频帧标记为LTR帧，当前帧以新标记的LTR帧作为参考帧进行编码。

该参考关系的优势在于接收端B接收到的视频帧在编码时，均以已确认的LTR帧作为参考帧，只要接收到的视频帧完整，就可以进行解码显示。如图2中，帧6、11、12、14、18五帧丢包造成视频据不完整，并不会需要发送端A重新编码I帧来使接收端B的画面恢复，接收端B只要可正常完整地接收到后续的视频帧，即可正常解码后送给接收端B的显示模块进行渲染显示。

但是，现有相关技术中，对视频帧进行编码时的参考结构存在明显的问题，在网络差点环境下会伴随时延与丢包，这是因为，发送端编码当前视频帧的参考帧为1个网络回环时间(Round Trip Time；以下简称：RTT)前被接收端确认收到的视频帧，当前视频帧与参考帧之间的距离与时延强相关(至少需要一个RTT以上)，时延越大，当前视频帧与参考帧之间的距离越长，从而明显影响图像质量。

针对现有相关技术存在的图像质量明显下降的问题，本申请重新设计编码帧的参考结构来对抗现网突发丢包、大丢包以及拥塞场景，同时兼顾流畅度与清晰度，实现最佳的视频通话体验。

图3为本申请视频图像的传输方法一个实施例的流程图，本实施例中，上述视频图像可以包括多个视频帧，如图3所示，上述视频图像的传输方法可以包括：

步骤301，对多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息。另外，上述码流中还可以包括已编码数据，例如：当前帧与参考帧的残差数据等；上述表示帧间参考关系的信息可以放在条带头(slice header)中。

步骤302，发送经编码的码流。

其中，上述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息。

其中：上述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向LTR帧，这里的本帧即为当前帧，其中，上述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，上述目标前向LTR帧可以为发送端设备标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，上述确认消息与目标前向LTR帧对应；本实施例中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；需要说明的是，“上述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧”中的“与本帧时域距离最近的目标前向LTR帧”，上述“最近的目标前向LTR帧”，在一种示例下，例如：当前帧的POC与最近的目标前向LTR帧的POC之间的差值A小于当前帧的POC与其它目标前向LTR帧的POC之间的差值B；本申请实施例中，POC表示的是视频帧的显示顺序；

上述当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这里的本帧为前N帧中的每一帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，上述前向LTR帧存储在DPB中；需要说明的是，“上述当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧”中的“与本帧时域距离最近的前向LTR帧”，上述“最近的前向LTR帧”，在一种示例下，例如：本帧的POC与最近的前向LTR帧的POC之间的差值C小于本帧的POC与其它前向LTR帧的POC之间的差值D。

本实施例中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，上述当前帧的后M帧的帧间参考关系的信息表示后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

本实施例中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，上述当前帧的后M帧的帧间参考关系的信息表示后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

本实施例中，发送端设备可以根据当前帧的前n帧的编码质量确定N的数值，n<N。在具体实现时，发送端设备可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

一个实施例中，发送端设备可以根据当前帧的前n帧的编码质量与编码质量阈值的比较结果，确定N的数值。具体地，在对每一帧进行编码之后，发送端设备可以输出表示这一帧的编码质量的峰值信噪比(Peak Signal to Noise Ratio；以下简称：PSNR)，如果发送端设备发现当前帧的前n帧中每一帧的PSNR均比前一帧的PSNR小，即前n帧的PSNR呈下降趋势，并且当前帧的前一帧的PSNR小于编码质量阈值(即PSNR阈值)，则发送端设备确定当前帧需要参考与当前帧时域距离最近的目标前向LTR帧，当前帧的后M帧中的每一帧需要参考本帧的前一帧。这时，当前帧和与当前帧时域距离最近的前向LTR帧之间的帧数即为N的数值。

本实施例中，发送端设备可以根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，发送端设备可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

本实施例中，LTR帧的标记间隔D与N和M具有函数关系。举例来说，上述函数关系可以为D＝N+(M+1)。其中，上述LTR帧的标记间隔是指标记LTR帧的间隔帧数，即距离标记上一个LTR帧后，需要间隔多少帧标记下一个LTR帧。举例来说，如果LTR帧的标记间隔为4，那么在将当前帧标记为LTR帧之后，需要间隔4帧，将当前帧之后的第5帧标记为LTR帧。

本实施例中，上述表示帧间参考关系的信息还可以包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，上述L帧时域上在所述M帧之后，上述L帧的帧间参考关系的信息表示(Mn+1)帧中的第一帧参考与上述第一帧时域距离最近的目标前向LTR帧，(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。

这时，LTR帧的标记间隔D与N和L具有函数关系。举例来说，上述函数关系可以为D＝N+L，L＝(M1+1)+(M2+1)+…+(Mn+1)。

下面参考图4(a)～图4(c)，对本申请图3所示实施例提供的视频图像的传输方法进行说明。图4(a)～图4(c)为本申请视频图像的传输方法中视频帧的帧间参考关系一个实施例的示意图。

如图4(a)所示，当前帧参考与本帧时域距离最近的目标前向LTR帧，这句话中的本帧即为当前帧；对于图4(a)中的当前帧，N＝4，M＝3，当前帧的前4帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这句话中的本帧即为前4中的每一帧，本例中，与当前帧的前4帧中的每一帧时域距离最近的前向LTR帧恰好也为目标前向LTR帧，当然，当前帧的前4帧中的每一帧所参考的前向LTR帧也可以不是目标前向LTR帧。前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，与目标前向 LTR帧不同，前向LTR帧是发送端设备根据LTR帧的标记间隔标记的，并且发送端设备并未接收到接收端设备针对上述前向LTR帧发送的确认消息。

继续参见图4(a)，当前帧的后3帧中的每一帧均参考本帧的前一帧。

图4(a)中，当前帧的后3帧之后，还包括L帧，图4(a)中，L＝4，也就是说，L＝M1+1，这里的M1＝3；这4帧中的第一帧参考与第一帧时域距离最近的目标前向LTR帧，这4帧中第一帧之后的每一帧参考本帧的前一帧。

参见图4(b)，对于图4(b)中的当前帧，N＝4，M＝3，当前帧的前4帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这句话中的本帧指当前帧的前4帧中的每一帧，这时，与前4帧中的每一帧时域距离最近的前向LTR帧，就不是目标前向LTR帧；

继续参见图4(b)，当前帧的后3帧中的每一帧均参考本帧的前一帧，这句话中的本帧指后3帧中的每一帧。

参见图4(c)，对于图4(c)中的当前帧，在进行编码时，发送端设备将上述当前帧标记为LTR帧，那么对于上述当前帧的后M帧，上述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，此处的前向LTR帧在图4(c)中即为当前帧，这句话中的本帧指后M帧中的每一帧。

本实施例中，发送端设备可以根据接收端设备反馈的网络状态信息，确定上述LTR帧的标记间隔D，上述网络状态信息可以包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

具体地，参见图5，图5为本申请视频图像的传输方法中确定LTR帧的标记间隔一个实施例的示意图，在具体实现时，发送端设备可以根据网络丢包信息和网络RTT确定网络特征，然后将网络特征、抗丢包算法、接收端反馈已确认的LTR帧、LTR损失率(参考距离增加会造成同样码率时编码画面质量损失)、视频图像的运动场景(即图5中的画面运动状况)、码表、目标卡顿次数、人主观可感知卡顿时长以及DPB中可缓存的LTR帧数等信息中的一个或多个作为判决输入，获得LTR帧的标记间隔，还可以获得以下信息之一或组合：是否全参考前向LTR帧、冗余策略以及分辨率/码率/帧率等。

本实施例，上述LTR帧的标记间隔D用于发送端设备标记LTR帧。发送端设备根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，并且本申请中，LTR的标记间隔不是固定设置的，而是动态变化的，可能是相同间隔，也可能是不同间隔，具体根据实际应用场景来确定，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，发送端设备可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

图6为本申请视频图像的传输方法另一个实施例的流程图，本实施例中，上述视频图像包括多个视频帧，如图6所示，上述视频图像的传输方法可以包括：

步骤601，判断当前帧是否被标记为LTR帧。

如果当前帧未被标记为LTR帧，则执行步骤602；如果当前帧被标记为LTR帧，则执行步骤603。

具体地，判断当前帧是否被标记为LTR帧可以为：根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。

其中，根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧可以为：获取当前帧和与上述当前帧时域距离最近的前向LTR帧之间的间隔帧数；如果上述间隔帧数等于LTR帧的标记间隔，则将当前帧标记为LTR帧；如果上述间隔帧数不等于LTR帧的标记间隔，则对当前帧不标记为LTR帧。

进一步地，本实施例中，发送端设备可以根据接收端设备反馈的网络状态信息，确定LTR帧的标记间隔，上述网络状态信息可以包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

参见图5，在具体实现时，发送端设备可以根据网络丢包信息和网络RTT确定网络特征，然后将网络特征、抗丢包算法、接收端反馈已确认的LTR帧、LTR损失率(参考距离增加会造成同样码率时编码画面质量损失)、视频图像的运动场景(即图5中的画面运动状况)、码表、目标卡顿次数、人主观可感知卡顿时长以及DPB中可缓存的LTR帧数等信息中的一个或多个作为判决输入，获得LTR帧的标记间隔，还可以获得以下信息之一或组合：是否全参考前向LTR帧、冗余策略以及分辨率/码率/帧率等。

本实施例，根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

步骤602，对未标记的当前帧进行编码，其中，上述编码过程可以包括：至少将表示当前帧的帧间参考关系的信息编入码流，上述当前帧的帧间参考关系表示当前帧参考与上述当前帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；需要说明的是，与上述当前帧时域距离最近的前向LTR帧是指：当前帧的POC与时域距离最近的前向LTR帧的POC之间的差值小于本帧的POC与其他前向LTR帧的POC之间的差值。然后执行步骤604。

步骤603，对标记的当前帧进行编码，其中，上述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，上述当前帧的帧间参考关系表示当前帧参考与上述当前帧时域距离最近的目标前向LTR帧，其中，上述目标前向LTR帧为所述发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，上述目标前向LTR帧为发送端设备标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，上述确认消息与所述目标前向LTR帧对应。然后执行步骤604。

本申请中，发送端设备即本端，例如也可以叫做编码端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

需要说明的是，与上述当前帧时域距离最近的目标前向LTR帧是指：当前帧的POC与目标前向LTR帧的POC之间的差值小于本帧的POC与其他目标前向LTR帧的POC之间的差值。

步骤604，发送上述码流。

下面参考图7(a)～图7(b)，对本申请图6所示实施例提供的视频图像的传输方法进行说明。图7(a)～图7(b)为本申请视频图像的传输方法中视频帧的帧间参考关系另一个实施例的示意图。

参见图7(a)所示，初始阶段，编码端将编码的首个I帧(即图7中的第1帧)标记为LTR帧，然后将编码后的I帧进行分包与冗余处理，通过网络发送给解码端；同时将I帧作为关键帧进行有别于普通帧的不对等冗余保护，确保解码端能及时完整接收到此类关键帧，解码端在接收到I帧，并确认I帧可以正常解码之后，向编码端及时反馈确认消息，如果发送端设备在预定时长内未接收到接收端设备反馈的确认消息，发送端设备将重新对I帧进行编码，防止初始阶段接通异常。

然后发送端设备在对第2帧和第3帧编码时，均参考第1帧，在对第4帧进行编码时，发送端设备接收到了接收端设备反馈的网络状态信息，如上所述，发送端设备可以根据上述接收端设备反馈的网络状态信息确定LTR帧的标记间隔，这时，发送端设备确定的LTR帧的标记间隔为2，在对第4帧进行编码时，发送端设备发现第4帧与第1帧之间的间隔帧数为2，等于LTR帧的标记间隔，于是，发送端设备将第4帧标记为LTR帧，由于这时发送端设备已收到接收端设备发送的针对第1帧的确认消息，也就是说，第1帧可以被解码端正常解码，是目标前向LTR帧，这样，第1帧就是与第4帧时域距离最近的目标前向LTR帧，因此发送端设备在对第4帧进行编码时，参考第1帧。

在发送端设备对第5帧进行编码时，发送端设备同样可以根据上述接收端设备反馈的网络状态信息确定LTR帧的标记间隔，这时发送端设备确定的LTR帧的标记间隔为3。由于第4帧为第5帧的前向LTR帧，第5帧与第4帧之间的间隔帧数为1，因此第5帧未被标记为LTR帧，发送端设备参考与第5帧时域距离最近的前向LTR帧(即第4帧)对第5帧进行编码。

后续帧的编码过程与上述编码过程相似，在此不再赘述。

需要说明的是，在对第16帧进行编码时，发送端设备同样可以根据上述接收端设备反馈的网络状态信息确定LTR帧的标记间隔，这时发送端设备确定的LTR帧的标记间隔为2，由于第13帧为第16帧的前向LTR帧，第16帧与第13帧之间的间隔帧数为2，因此第16帧被标记为LTR帧，但这时，发送端设备未接收到接收端设备针对第13帧的确认消息，因此与第16帧时域距离最近的目标前向LTR帧为第8帧，所以发送端设备参考第8帧对第16帧进行编码。

按照本实施例提供的视频图像的传输方法，即使第5帧、第6帧、第12帧、第13帧、第14帧和第18帧这几帧数据丢包造成视频帧不完整，也不影响其它接收完整的视频帧的正常解码，图7(a)中，第15帧由于参考第13帧编码，第13帧不完整，因此第15帧也无法解码。

在本实施例步骤602中，上述当前帧的帧间参考关系表示当前帧参考与上述当前帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中上述当前帧未被标记为LTR帧且当前帧的编码质量大于或等于编码质量阈值；或者，

当前帧的帧间参考关系表示当前帧参考与上述当前帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中上述当前帧未被标记为LTR帧且上述当前帧的编码质量小于编码质量阈值。

进一步地，发送端设备还可以对当前帧的后M+1帧进行编码，上述编码过程包括：将表示当前帧的后M+1帧的帧间参考关系的信息编入码流，上述后M+1帧的帧间参考关系表示后M+1帧中的第一帧参考与第一帧时域距离最近的目标前向LTR帧，后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中，上述当前帧未被标记为LTR帧且当前帧的编码质量小于编码质量阈值。

进一步地，发送端设备还可以对当前帧的后一帧进行编码，上述编码过程包括：将表示当前帧的后一帧的帧间参考关系的信息编入码流，上述后一帧的帧间参考关系表示后一帧参考与本帧时域距离最近的目标前向LTR帧，其中上述当前帧未被标记为LTR帧且当前帧的编码质量小于编码质量阈值。

参见图7(b)，发送端设备在对当前帧进行编码时，如果当前帧未被标记为LTR帧，则发送端设备参考与上述当前帧时域距离最近的前向LTR帧对上述当前帧进行编码，在对当前帧编码之后，如果发送端设备发现当前帧的编码质量小于编码质量阈值(即当前帧的PSNR小于PSNR阈值)，则发送端设备在对当前帧的后一帧进行编码时，参考与后一帧的时域距离最近的目标前向LTR帧，如图7(b)中所示，当前帧的后一帧即为当前帧的后M+1帧中的第一帧，在发送端设备对第一帧之后的每一帧进行编码时，均参考本帧的前一帧。

图7(b)中，当前帧的后一帧可以看作虚拟LTR帧，虚拟LTR帧以目标前向LTR帧作为参考帧进行编码，虚拟LTR帧不缓存DPB中，虚拟LTR帧的后续帧将虚拟LTR帧作为短期参考进行编码。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，如图7(a)中，在对第16帧进行编码时，需要参考第8帧，参考距离达到了7帧，因此第16帧的编码质量势必会明显下降。这时，如果发送端设备在对当前帧进行编码之后，发现当前帧的编码质量小于编码质量阈值，则发送端设备确定当前帧的后M+1帧中的第一帧参考与第一帧时域距离最近的目标前向LTR帧，后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，如图7(b)所示，其中，M为正整数，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

本实施例中，发送端设备根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，发送端设备可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

图8为本申请视频通话方法一个实施例的流程图，本实施例提供的视频通话方法可以应用于具有显示屏和图像采集器的电子设备中。其中，上述显示屏可以包括车载计算机(移动数据中心Mobile Data Center)的显示屏；上述图像采集器可以为摄像头Camera，或者车载传感器等；上述电子设备可以为移动终端(手机)，智慧屏，无人机，智能网联车(Intelligent Connected Vehicle；以下简称：ICV)，智能(汽)车(smart/intelligent car)或车载设备等设备。

如图8所示，上述视频通话方法可以包括：

步骤801，响应于第一用户请求与第二用户进行视频通话的第一操作，建立第一用户与第二用户之间的视频通话连接，这里的视频通话连接是指第一用户使用的电子设备与第二用户使用的电子设备之间视频通话连接。

具体地，参见图9(a)～图9(c)，图9(a)～图9(c)为本申请视频通话方法中请求视频通话的示意图，如图9(a)所示，第一用户可以点击第一用户所使用的电子设备中显示的通话图标9a，进入图9(b)所示的界面，然后在图9(b)所示的界面中，点击第二用户的标识，进入图9(c)所示的界面，然后在图9(c)所示的界面中，点击“畅连通话”中的视频通话图标9b，从而完成请求与第二用户进行视频通话的第一操作。

然后，第一用户使用的电子设备响应于第一用户请求与第二用户进行视频通话的第一操作，建立第一用户与第二用户之间的视频通话连接。

在建立视频通话连接阶段，第一用户使用的电子设备显示图9(d)所示的界面，建立视频通话连接之后，第一用户使用的电子设备显示图9(e)所示的界面。

其中，图9(d)为本申请视频通话方法中建立视频通话连接阶段的界面。

步骤802，通过图像采集器采集包括第一用户的环境的视频图像，上述视频图像包括多个视频帧。这里的环境可以是第一用户所处的内部环境和/或外部环境的视频图像，比如车内环境和/或在行驶过程中智能化探测障碍物、感知周围环境。

其中，上述图像采集器可以为第一用户使用的电子设备中的摄像头或者车载传感器。

步骤803，对上述多个视频帧进行编码，得到经编码的码流，上述码流至少包括表示帧间参考关系的信息。

步骤804，发送上述经编码的码流。

具体地，可以将上述码流发送给第二用户使用的电子设备。

其中：当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，上述目标前向LTR帧为发送端设备标记为LTR帧，并且接收到接收端设备发送的确认消息的已编码的视频帧，上述确认消息与目标前向LTR帧对应；上述发送端设备为第一用户使用的电子设备，上述接收端设备为第二用户使用的电子设备。

当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧。这里的本帧是指前N帧中的每一帧。

本实施例中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，当前帧的后M帧的帧间参考关系的信息表示后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

本实施例中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，上述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

本实施例中，发送端设备根据当前帧的前n帧的编码质量确定N的数值，n<N。在具体实现时，发送端设备可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述发送端设备根据所述当前帧的前n帧的编码质量与编码质量阈值的比较结果，确定N的数值。具体地，在对每一帧进行编码之后，发送端设备可以输出表示这一帧的编码质量的PSNR，如果发送端设备发现当前帧的前n帧中每一帧的PSNR均比前一帧的PSNR小，即前n帧的PSNR呈下降趋势，并且当前帧的前一帧的PSNR小于编码质量阈值(即PSNR阈值)，则发送端设备确定当前帧需要参考与当前帧时域距离最近的目标前向LTR帧，当前帧的后M帧中的每一帧需要参考本帧的前一帧。这时，当前帧和与当前帧时域距离最近的前向LTR帧之间的帧数即为N的数值。

在一种可能的实现方式中，发送端设备根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，发送端设备可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

在一种可能的实现方式中，LTR帧的标记间隔D与N和M具有函数关系。举例来说，上述函数关系可以为D＝N+(M+1)。其中，上述LTR帧的标记间隔是指标记LTR帧的间隔帧数，即距离标记上一个LTR帧后，需要间隔多少帧标记下一个LTR帧。举例来说，如果LTR帧的标记间隔为4，那么在将当前帧标记为LTR帧之后，需要间隔4帧，将当前帧之后的第5帧标记为LTR帧。

在一种可能的实现方式中，上述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，上述L帧时域上在上述M帧之后，上述L帧的帧间参考关系的信息表示上述(Mn+1)帧中的第一帧参考与第一帧时域距离最近的目标前向LTR帧，上述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。

如图4(a)所示，当前帧参考与本帧时域距离最近的目标前向LTR帧，这句话中的本帧即为当前帧；对于图4(a)中的当前帧，N＝4，M＝3，当前帧的前4帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，这句话中的本帧即为前4中的每一帧，本例中，与当前帧的前4帧中的每一帧时域距离最近的前向LTR帧恰好也为目标前向LTR帧，当然，当前帧的前4帧中的每一帧所参考的前向LTR帧也可以不是目标前向LTR帧。前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧，与目标前向LTR帧不同，前向LTR帧是发送端设备根据LTR帧的标记间隔标记的，并且发送端设备并未接收到接收端设备针对上述前向LTR帧发送的确认消息。

具体地，参见图5，发送端设备可以根据网络丢包信息和网络RTT 确定网络特征，然后将网络特征、抗丢包算法、接收端反馈已确认的LTR帧、LTR损失率(参考距离增加会造成同样码率时编码画面质量损失)、视频图像的运动场景(即图5中的画面运动状况)、码表、目标卡顿次数、人主观可感知卡顿时长以及DPB中可缓存的LTR帧数等信息中的一个或多个作为判决输入，获得LTR帧的标记间隔，还可以获得以下信息之一或组合：是否全参考前向LTR帧、冗余策略以及分辨率/码率/帧率等。

在一种可能的实现方式中，上述LTR帧的标记间隔D用于发送端设备标记LTR帧。

其中，发送端设备根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，发送端设备可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

图9(e)为本申请视频通话方法中建立视频通话连接之后的界面。图9(e)中，9c所示的小窗口中显示包括第一用户的环境的视频图像，9d所示的大窗口中显示包括第二用户的环境的视频图像。其中，在9d所示的大窗口中显示的视频图像是第一用户使用的电子设备对第二用户使用的电子设备发送的码流解码后获得的，上述码流是第二用户使用的电子设备按照本申请图8所示实施例提供的方法，对包括第二用户的环境的视频图像进行编码后获得的。

本申请图8所示实施例提供的视频通话方法可以应用于视频通话或视频会议等各类实时音视频互动场景中。图10(a)～图10(b)为本申请视频通话方法的应用场景一个实施例的示意图。图10(a)～图10(b)示出的是两个用户进行视频通话的场景。

图10(b)中，图像采集器用于从获取实时YUV数据；

视频前处理器：从Camera获取的YUV数据转化成编码器所需要的格式与分辨率、手机设备完成图像的横竖屏旋转处理。

网络分析处理系统：依据反馈信息控制分辨率、帧率、冗余率与数据帧参考关系等信息，具体的分析方式可以参见图5的相关描述，在此不再赘述。

视频编码器：根据网络分析处理系统确定的参考帧完成编码处理，实现DPB中LTR标记与缓存。

网络传输器：完成视频流/控制信息流网络发送与接收处理过程。

视频帧处理模块：完成数据帧组帧、冗余数据恢复与数据帧完整性校验业务。

视频解码器：将前序模块组好的数据帧按照参考关系完成数据帧解码。

视频显示器：将解码完成数据帧，提交给显示模块，完成数据帧渲染显示业务。

图11(a)～图11(b)为本申请视频通话方法的应用场景另一个实施例的示意图。图11(a)～图11(b)示出了多方用户进行视频会议的场景，图11(b)中各模块的功能与图10(b)中相应模块的功能相同，在此不再赘述。

图12为本申请视频图像的显示方法一个实施例的流程图，本实施例中，上述视频图像包括多个视频帧，如图12所示，上述视频图像的显示方法可以包括：

步骤1201，解析码流，以得到表示帧间参考关系的信息。

其中，上述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧；其中，所述目标前向LTR帧为发送端设备标记为LTR帧，并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，所述前向LTR帧为所述发送端设备标记为LTR帧的已编码的视频帧。这里的本帧是指前N帧中的每一帧。

在一种可能的实现方式中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，上述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。

例如，N和M的具体数值可以取决于网络。

在一种可能的实现方式中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，上述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

步骤1202，重建上述多个视频帧，其中，上述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧。

步骤1203，显示上述视频图像。

可以理解的是，上述实施例中的部分或全部步骤骤或操作仅是示例，本申请实施例还可以执行其它操作或者各种操作的变形。此外，各个步骤可以按照上述实施例呈现的不同的顺序来执行，并且有可能并非要执行上述实施例中的全部操作。

图13为本申请视频图像的发送设备一个实施例的结构示意图，上述视频图像包括多个视频帧，如图13所示，上述视频图像的发送设备130可以包括：编码模块1301和传输模块1302；应当理解的是，视频图像的发送设备130可以对应于图1中的发送端A，或者可以对应于图10(b)或图11(b)中的发送设备，或者可以对应于图16(a)的装置900，或者可以对应于图16(b)的装置40，或者可以对应于图16(c)的装置400。其中，编码模块1301具体可以对应于图10(b)或图11(b)中的发送设备中的视频编码器，或者，具体可以对应于图16(b)所示的装置40中的编码器20。

其中，编码模块1301，用于对上述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；另外，上述码流中还可以包括已编码数据，例如：当前帧与参考帧的残差数据等；上述表示帧间参考关系的信息可以放在条带头(slice header)中；

传输模块1302，用于发送上述经编码的码流，其中，表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，所述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，具体地，所述目标前向LTR帧为编码模块1301标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；本申请中，视频图像的发送设备即本端，例如也可以叫做发送端设备，接收端设备为对端或远端，例如也可以叫做解码端设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，所述前向LTR帧为编码模块1301标记为LTR帧的已编码的视频帧，上述前向LTR帧存储在DPB中。

上述视频图像的发送设备中，编码模块1301对上述多个视频帧进行编码，得到经编码的码流。上述表示帧间参考关系的信息包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示当前帧的前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为编码模块1301标记为LTR帧的已编码的视频帧，也就是说，本实施例中，编码模块1301在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，上述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。例如，N和M的具体数值可以取决于网络。

在一种可能的实现方式中，编码模块1301根据上述当前帧的前n帧的编码质量确定N的数值，n<N。在具体实现时，编码模块1301可以根据当前帧的前n帧的编码质量、上述视频图像的运动场景和接收端设备反馈的网络状态信息确定N的数值，上述网络状态信息可以包括网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，编码模块1301根据所述当前帧的前n帧的编码质量与编码质量阈值的比较结果，确定N的数值。

在一种可能的实现方式中，编码模块1301根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，编码模块1301可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

在一种可能的实现方式中，上述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，编码模块1301可以在对 M之后的L帧进行编码时，确定(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，编码模块1301根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔D，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

在一种可能的实现方式中，所述LTR帧的标记间隔D用于编码模块1301标记LTR帧。

其中，编码模块1301根据LTR的标记间隔进行LTR帧的标记，可以实现一个RTT内标记多个LTR帧，并且本申请中，LTR的标记间隔不是固定设置的，而是动态变化的，可能是相同间隔，也可能是不同间隔，具体根据实际应用场景来确定，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。并且，本实施例中，编码模块1301可以根据网络状况等信息，动态确定LTR的标记间隔，可以及时应对现网突发丢包、大丢包以及拥塞等网络差点场景，并可以兼顾流畅度与清晰度，实现最佳的视频通话体验。

图13所示实施例提供的视频图像的发送设备可用于执行本申请图3所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

图14为本申请视频图像的发送设备另一个实施例的结构示意图。应当理解的是，图14所示的视频图像的发送设备140可以对应于图1中的发送端A，或者可以对应于图10(b)或图11(b)中的发送设备，或者可以对应于图16(a)的装置900，或者可以对应于图16(b)的装置40，或者可以对应于图16(c)的装置400。其中，编码模块1402具体可以对应于图10(b)或图11(b)中的发送设备中的视频编码器，或者，具体可以对应于图16(b)所示的装置40中的编码器20。

本实施例中，上述视频图像包括多个视频帧，如图14所示，上述视频图像的发送设备140可以包括：判断模块1401、编码模块1402和传输模块1403；

判断模块1401，用于判断当前帧是否被标记为LTR帧；具体地，判断模块1401可以对应于图10(b)中的网络分析处理系统；

编码模块1402，用于当上述当前帧未被标记为LTR帧时，对未标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为编码模块1402标记为LTR帧的已编码的视频帧；或者，

当所述当前帧被标记为LTR帧时，对标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与上述当前帧时域距离最近的目标前向LTR帧，其中，所述目标前向LTR帧为编码模块1402接收到接收端设备确认消息的前向LTR帧，具体地，所述目标前向LTR帧为编码模块1402标记为LTR帧并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；具体地，编码模块1402可以对应于图10(b)中的视频编码器。

传输模块1403，用于发送经编码的码流。具体地，传输模块1403可以对应于图10(b)中的网络传输器。

上述视频图像的发送设备中，在编码模块1402对未标记的当前帧进行编码时，参考与未标记的当前帧时域距离最近的前向LTR帧，上述前向LTR帧为编码模块标记为LTR帧的已编码的视频帧，也就是说，本实施例中，编码模块在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

在一种可能的实现方式中，判断模块1401，具体用于根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。

如图15所示，图15为本申请视频图像的发送设备再一个实施例的结构示意图。应当理解的是，图15所示的视频图像的发送设备150可以对应于图1中的发送端A，或者可以对应于图10(b)或图11(b)中的发送设备，或者可以对应于图16(a)的装置900，或者可以对应于图16(b)的装置40，或者可以对应于图16(c)的装置400。其中，编码模块1402具体可以对应于图10(b)或图11(b)中的发送设备中的视频编码器，或者，具体可以对应于图16(b)所示的装置40中编码器20。

在一种可能的实现方式中，判断模块1401可以包括：获取子模块14011和标记子模块14012

获取子模块14011，用于获取当前帧和与上述当前帧时域距离最近的前向LTR帧之间的间隔帧数；

标记子模块14012，用于当上述间隔帧数等于所述LTR帧的标记间隔时，将所述当前帧标记为LTR帧；当所述间隔帧数不等于所述LTR帧的标记间隔，对所述当前帧不标记为LTR帧。

进一步地，判断模块1401，还用于根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。

如果当前帧未被标记为LTR帧，那么发送端设备在对当前帧进行编码时，参考与当前帧时域距离最近的前向LTR帧，在对当前帧编码之后，编码模块1402获取当前帧的编码质量，将当前帧的编码质量与编码质量阈值进行对比，如果当前帧的编码质量小于编码质量阈值，则在编码模块1402对当前帧的后一帧进行编码时，参考与后一帧时域距离最近的目标前向LTR帧，以提高当前帧的后一帧的编码质量。

在一种可能的实现方式中，编码模块1402，还用于对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在网络差点高时延场景下，当LTR帧的间隔过长时，如果LTR帧的后续帧全部参考与本帧时域距离最近的前向LTR帧，势必造成帧间参考距离过长，从而导致编码质量明显下降，这时，编码模块1402可以在对当前帧的后M+1帧进行编码时，确定后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，上述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，从而可以缩短帧间参考距离，提高网络差点环境下的编码质量，实现了自适应选择参考关系，例如全参考关系和逐帧参考关系的灵活组合，一定程度上避免参考离当前帧时域距离很长的参考帧，较大程度缓解了丢包导致的视频卡顿的现象与图像质量模糊的问题，实现了图像质量与图像流畅度之间达到较好的平衡。

在一种可能的实现方式中，编码模块1402，还用于对当前帧的后一帧进行编码，所述编码过程包括：将表示所述当前帧的后一帧的帧间参考关系的信息编入码流，所述后一帧的帧间参考关系表示所述后一帧参考与所述本帧时域距离最近的目标前向LTR帧，其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。

在一种可能的实现方式中，编码模块1402，用于根据单位时间内所包括的视频帧数确定M的数值。在具体实现时，编码模块可以根据单位时间内所包括的视频帧数和上述视频图像的运动场景确定M的数值。其中，上述单位时间可以在具体实现时，根据系统性能和/或实现需求等自行设定，举例来说，上述单位时间可以为1秒。

图14和图15所示实施例提供的视频图像的发送设备可用于执行本申请图6所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

应理解以上图13～图15所示的视频图像的发送设备的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，编码模块可以为单独设立的处理元件，也可以集成在视频图像的发送设备，例如电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定集成电路(Application Specific Integrated Circuit；以下简称：ASIC)，或，一个或多个微处理器(Digital Singnal Processor；以下简称：DSP)，或，一个或者多个现场可编程门阵列(Field Programmable Gate Array；以下简称：FPGA)等。再如，这些模块可以集成在一起，以片上系统(System-On-a-Chip；以下简称：SOC)的形式实现。

图16(a)为本申请视频通话设备一个实施例的结构示意图，上述视频通话设备可以为第一用户使用的视频通话设备，如图16(a)所示，上述视频通话设备可以包括：显示屏；图像采集器；一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序。

其中，上述显示屏可以包括车载计算机(移动数据中心Mobile Data Center)的显示屏；上述图像采集器可以为摄像头Camera，或者车载传感器等；上述视频通话设备可以为移动终端(手机)，智慧屏，无人机，智能网联车(Intelligent Connected Vehicle；以下简称：ICV)，智能(汽)车(smart/intelligent car)或车载设备等设备。

发送经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，这里的本帧是指当前帧，其中，所述目标前向LTR帧为发送端设备标记为LTR帧，并且接收到接收端设备发送的确认消息的已编码的视频帧，所述确认消息与所述目标前向LTR帧对应；所述发送端设备为所述第一用户使用的视频通话设备，所述接收端设备为所述第二用户使用的视频通话设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，所述前向LTR帧为所述发送端设备标记为LTR帧的已编码的视频帧，这里的本帧是指前N帧中的每一帧。

在一种可能的实现方式中，当上述指令被所述设备执行时，使得上述设备具体执行以下步骤：

根据所述当前帧的前n帧的编码质量确定N的数值，n<N。

根据单位时间内所包括的视频帧数确定M的数值。

图16(a)所示的电子设备可以是终端设备也可以是内置于上述终端设备的电路设备。该设备可以用于执行本申请图8所示实施例提供的方法中的功能/步骤。

如图16(a)所示，电子设备900包括处理器910和收发器920。可选地，该电子设备900还可以包括存储器930。其中，处理器910、收发器920和存储器930之间可以通过内部连接通路互相通信，传递控制和/或数据信号，该存储器930用于存储计算机程序，该处理器910用于从该存储器930中调用并运行该计算机程序。

可选地，电子设备900还可以包括天线940，用于将收发器920输出的无线信号发送出去。

上述处理器910可以和存储器930可以合成一个处理装置，更常见的是彼此独立的部件，处理器910用于执行存储器930中存储的程序代码来实现上述功能。具体实现时，该存储器930也可以集成在处理器910中，或者，独立于处理器910。

除此之外，为了使得电子设备900的功能更加完善，该电子设备900还可以包括输入单元960、显示单元970、音频电路980、摄像头990和传感器901等中的一个或多个，所述音频电路还可以包括扬声器982、麦克风984等。其中，显示单元970可以包括显示屏，摄像头990是图像采集器的一种具体示例，图像采集器可以为具有图像采集功能的设备，本实施例对图像采集器的具体形式不作限定。

可选地，上述电子设备900还可以包括电源950，用于给终端设备中的各种器件或电路提供电源。

应理解，图16(a)所示的电子设备900能够实现图8所示实施例提供的方法的各个过程。电子设备900中的各个模块的操作和/或功能，分别为了实现上述方法实施例中的相应流程。具体可参见图8所示方法实施例中的描述，为避免重复，此处适当省略详细描述。

应理解，图16(a)所示的电子设备900中的处理器910可以是片上系统SOC，该处理器910中可以包括中央处理器(Central Processing Unit；以下简称：CPU)，还可以进一步包括其他类型的处理器，例如：图像处理器(Graphics Processing Unit；以下简称：GPU)等。

总之，处理器910内部的各部分处理器或处理单元可以共同配合实现之前的方法流程，且各部分处理器或处理单元相应的软件程序可存储在存储器930中。

本申请实施例还提供一种用于解码视频数据的设备，上述设备包括：

存储器，用于存储码流形式的视频数据；

本申请实施例还提供一种用于编码视频数据的设备，所述设备包括：

参见图16(b)，图16(b)是根据一示例性实施例的包含编码器20和/或解码器30的视频译码装置40的实例的说明图。视频译码装置40可以实现本申请实施例的各种技术的组合。在所说明的实施方式中，视频译码装置40可以包含成像设备41、编码器20、解码器30(和/或藉由处理电路46的逻辑电路47实施的视频编/解码器)、天线42、一个或多个处理器43、一个或多个存储器44和/或显示设备45。

如图16(b)所示，成像设备41、天线42、处理电路46、逻辑电路47、编码器20、解码器30、处理器43、存储器44和/或显示设备45能够互相通信。如所论述，虽然用编码器20和解码器30绘示视频译码装置40，但在不同实例中，视频译码装置40可以只包含编码器20或只包含解码器30。

在一些实例中，天线42可以用于传输或接收视频数据的经编码比特流。另外，在一些实例中，显示设备45可以用于呈现视频数据。在一些实例中，逻辑电路47可以通过处理电路46实施。处理电路46可以包含专用集成电路(application-specific integrated circuit，ASIC)逻辑、图形处理器、通用处理器等。视频译码装置40也可以包含可选的处理器43，该可选处理器43类似地可以包含专用集成电路(application-specific integrated circuit，ASIC)逻辑、图形处理器、通用处理器等。在一些实例中，逻辑电路47可以通过硬件实施，如视频编码专用硬件等，处理器43可以通过通用软件、操作系统等实施。另外，存储器44可以是任何类型的存储器，例如易失性存储器(例如，静态随机存取存储器(Static Random Access Memory，SRAM)、动态随机存储器(Dynamic Random Access Memory，DRAM)等)或非易失性存储器(例如，闪存等)等。在非限制性实例中，存储器44可以由超速缓存内存实施。在一些实例中，逻辑电路47可以访问存储器44(例如用于实施图像缓冲器)。在其它实例中，逻辑电路47和/或处理电路46可以包含存储器(例如，缓存等)用于实施图像缓冲器等。

在一些实例中，通过逻辑电路实施的编码器20可以包含(例如，通过处理电路46或存储器44实施的)图像缓冲器和(例如，通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过逻辑电路47实施的编码器20，以实施参照图2和/或本文中所描述的任何其它编码器系统或子系统所论述的各种模块。逻辑电路可以用于执行本文所论述的各种操作。

在一些实例中，解码器30可以以类似方式通过逻辑电路47实施，以实施参照图3的解码器30和/或本文中所描述的任何其它解码器系统或子系统所论述的各种模块。在一些实例中，逻辑电路实施的解码器30可以包含(通过处理电路44或存储器44实施的)图像缓冲器和(例如，通过处理电路46实施的)图形处理单元。图形处理单元可以通信耦合至图像缓冲器。图形处理单元可以包含通过逻辑电路47实施的解码器30，以实施参照图3和/或本文中所描述的任何其它解码器系统或子系统所论述的各种模块。

在一些实例中，天线42可以用于接收视频数据的经编码比特流。如上论述，经编码比特流可以包含本文所论述的与编码视频帧相关的参考关系信息等。视频译码装置40还可包含耦合至天线42并用于解码经编码比特流的解码器30。显示设备45用于呈现视频帧。

应理解，关于信令语法元素，解码器30可以用于接收并解析这种语法元素，相应地解码相关视频数据。在一些例子中，编码器20可以将语法元素熵编码成经编码视频比特流。在此类实例中，解码器30可以解析这种语法元素，并相应地解码相关视频数据。

需要说明的是，本申请实施例描述的视频图像编码方法发生在编码器20处，本申请实施例描述的视频图像解码方法发生在解码器30处，本申请实施例中的编码器20和解码器30可以是例如H.263、H.264、HEVC、MPEG-2、MPEG-4、VP8、VP9等视频标准协议或者下一代视频标准协议(如H.266等)对应的编/解码器。

参见图16(c)，图16(c)是本申请实施例提供的视频译码设备400(例如视频编码设备400或视频解码设备400)的结构示意图。视频译码设备400适于实施本文所描述的实施例。在一个实施例中，视频译码设备400可以是视频解码器(例如图16(b)的解码器30)或视频编码器(例如图16(b)的编码器20)。在另一个实施例中，视频译码设备400可以是上述图16(b)的解码器30或图16(b)的编码器20中的一个或多个组件。

视频译码设备400包括：用于接收数据的入口端口410和接收单元(Rx)420，用于处理数据的处理器、逻辑单元或中央处理器(CPU)430，用于传输数据的发射器单元(Tx)440(或者简称为发射器440)和出口端口450，以及，用于存储数据的存储器460(比如内存460)。视频译码设备400还可以包括与入口端口410、接收器单元420(或者简称为接收器420)、发射器单元440和出口端口450耦合的光电转换组件和电光(EO)组件，用于光信号或电信号的出口或入口。

处理器430通过硬件和软件实现。处理器430可以实现为一个或多个CPU芯片、核(例如，多核处理器)、FPGA、ASIC和DSP。处理器430与入口端口410、接收器单元420、发射器单元440、出口端口450和存储器460通信。处理器430包括译码模块470(例如编码模块470或解码模块470)。编码/解码模块470实现本文中所公开的实施例，以实现本申请实施例所提供的色度块预测方法。例如，编码/解码模块470实现、处理或提供各种编码操作。因此，通过编码/解码模块470为视频译码设备 400的功能提供了实质性的改进，并影响了视频译码设备400到不同状态的转换。或者，以存储在存储器460中并由处理器430执行的指令来实现编码/解码模块470。

存储器460包括一个或多个磁盘、磁带机和固态硬盘，可以用作溢出数据存储设备，用于在选择性地执行这些程序时存储程序，并存储在程序执行过程中读取的指令和数据。存储器460可以是易失性和/或非易失性的，可以是只读存储器(ROM)、随机存取存储器(RAM)、随机存取存储器(Ternary Content-Addressable Memory；以下简称：TCAM)和/或静态随机存取存储器(SRAM)。

图17为本申请视频图像的接收设备一个实施例的结构示意图。上述视频图像包括多个视频帧，如图17所示，上述视频图像的接收设备170可以包括：解码模块1701、解码模块1701和显示模块1702；应当理解的是，图17所示的视频图像的接收设备170可以对应于图1中的接收端B，或者可以对应于图10(b)或图11(b)中的接收设备，或者可以对应于图16(a)的装置900，或者可以对应于图16(b)的装置40，或者可以对应于图16(c)的装置400。

其中，解码模块1701可以对应于图10(b)或图11(b)中的接收设备中的视频解码器，或者，具体可以对应于图16(b)所示的装置40中解码器30。

解码模块1701，用于解析码流，以得到表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，所述前向LTR帧为所述发送端设备标记为LTR帧的已编码的视频帧；

解码模块1701，还用于重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧；

显示模块1702，用于显示所述视频图像。

上述视频图像的接收设备中，在解码模块1701解析码流之后，可以得到表示帧间参考关系的信息，上述表示帧间参考关系的信息中包括当前帧的前N帧的帧间参考关系的信息，上述当前帧的前N帧的帧间参考关系的信息表示前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，上述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧。也就是说，本实施例中，发送端设备在标记LTR帧时，无需等待接收端设备的反馈，因此可以实现一个RTT内标记多个LTR帧，从而可以大大缩短帧间参考距离，提升视频图像的编码质量。

图17所示实施例提供的视频图像的接收设备可用于执行本申请图12所示方法实施例的技术方案，其实现原理和技术效果可以进一步参考方法实施例中的相关描述。

应理解以上图17所示的视频图像的接收设备的各个模块的划分仅仅是一种逻辑功能的划分，实际实现时可以全部或部分集成到一个物理实体上，也可以物理上分开。且这些模块可以全部以软件通过处理元件调用的形式实现；也可以全部以硬件的形式实现；还可以部分模块以软件通过处理元件调用的形式实现，部分模块通过硬件的形式实现。例如，编码模块可以为单独设立的处理元件，也可以集成在视频图像的接收设备，例如电子设备的某一个芯片中实现。其它模块的实现与之类似。此外这些模块全部或部分可以集成在一起，也可以独立实现。在实现过程中，上述方法的各步骤或以上各个模块可以通过处理器元件中的硬件的集成逻辑电路或者软件形式的指令完成。

例如，以上这些模块可以是被配置成实施以上方法的一个或多个集成电路，例如：一个或多个特定ASIC，或，一个或多个DSP，或，一个或者多个FPGA等。再如，这些模块可以集成在一起，以片上系统SOC的形式实现。

本申请还提供一种视频图像的编码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请图3所示实施例提供的方法。

本申请还提供一种视频图像的编码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请图6所示实施例提供的方法。

本申请还提供一种视频图像的解码设备，所述设备包括存储介质和中央处理器，所述存储介质可以是非易失性存储介质，所述存储介质中存储有计算机可执行程序，所述中央处理器与所述非易失性存储介质连接，并执行所述计算机可执行程序以实现本申请图12所示实施例提供的方法。

上述存储器可以是只读存储器(read-only memory，ROM)、可存储静态信息和指令的其它类型的静态存储设备、随机存取存储器(random access memory，RAM)或可存储信息和指令的其它类型的动态存储设备，也可以是电可擦可编程只读存储器(electrically erasable programmable read-only memory，EEPROM)、只读光盘(compact disc read-only memory，CD-ROM)或其他光盘存储、光碟存储(包括压缩光碟、激光碟、光碟、数字通用光碟、蓝光光碟等)、磁盘存储介质或者其它磁存储设备，或者还可以是能够用于携带或存储具有指令或数据结构形式的期望的程序代码并能够由计算机存取的任何其它介质等。

以上各实施例中，涉及的处理器可以例如包括CPU、DSP、微控制器或数字信号处理器，还可包括GPU、嵌入式神经网络处理器(Neural-network Process Units；以下简称：NPU)和图像信号处理器 (Image Signal Processing；以下简称：ISP)，该处理器还可包括必要的硬件加速器或逻辑处理硬件电路，如ASIC，或一个或多个用于控制本申请技术方案程序执行的集成电路等。此外，处理器可以具有操作一个或多个软件程序的功能，软件程序可以存储在存储介质中。

本申请实施例还提供一种计算机可读存储介质，该计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行本申请图3、图6、图8或图12所示实施例提供的方法。

本申请实施例还提供一种计算机程序产品，该计算机程序产品包括计算机程序，当其在计算机上运行时，使得计算机执行本申请图3、图6、图8或图12所示实施例提供的方法。

本申请实施例中，“至少一个”是指一个或者多个，“多个”是指两个或两个以上。“和/或”，描述关联对象的关联关系，表示可以存在三种关系，例如，A和/或B，可以表示单独存在A、同时存在A和B、单独存在B的情况。其中A，B可以是单数或者复数。字符“/”一般表示前后关联对象是一种“或”的关系。“以下至少一项”及其类似表达，是指的这些项中的任意组合，包括单项或复数项的任意组合。例如，a，b和c中的至少一项可以表示：a，b，c，a和b，a和c，b和c或a和b和c，其中a，b，c可以是单个，也可以是多个。

本领域普通技术人员可以意识到，本文中公开的实施例中描述的各单元及算法步骤，能够以电子硬件、计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本申请的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和简洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，任一功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备(可以是个人计算机，服务器，或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(Read-Only Memory；以下简称：ROM)、随机存取存储器(Random Access Memory；以下简称：RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本申请的具体实施方式，任何熟悉本技术领域的技术人员在本申请揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本申请的保护范围之内。本申请的保护范围应以所述权利要求的保护范围为准。

Claims

一种视频图像的传输方法，所述视频图像包括多个视频帧，其特征在于，包括：

对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；

发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，其中，所述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，所述确认消息与所述目标前向LTR帧对应；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧。
根据权利要求1所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求1所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
根据权利要求1所述的方法，其特征在于，所述发送端设备根据所述当前帧的前n帧的编码质量确定N的数值，n<N。
根据权利要求2-4任意一项所述的方法，其特征在于，所述发送端设备根据单位时间内所包括的视频帧数确定M的数值。
根据权利要求5所述的方法，其特征在于，LTR帧的标记间隔D与N和M具有函数关系。
根据权利要求1所述的方法，其特征在于，所述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。
根据权利要求7所述的方法，其特征在于，LTR帧的标记间隔D与N和L具有函数关系。
根据权利要求6或8所述的方法，其特征在于，所述发送端设备根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔D，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。
根据权利要求6或8所述的方法，其特征在于，所述LTR帧的标记间隔D用于所述发送端设备标记LTR帧。
一种视频图像的传输方法，所述视频图像包括多个视频帧，其特征在于，包括：

判断当前帧是否被标记为长期参考LTR帧；

如果所述当前帧未被标记为LTR帧，则对未标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧；或者，

如果所述当前帧被标记为LTR帧，则对标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与上述当前帧时域距离最近的目标前向LTR帧，其中，所述目标前向LTR帧为所述发送端设备接收到接收端设备确认消息的前向LTR帧，所述确认消息与所述目标前向LTR帧对应；

发送经编码的码流。
根据权利要求11所述的方法，其特征在于，所述判断当前帧是否被标记为长期参考LTR帧包括：

根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。
根据权利要求12所述的方法，其特征在于，所述根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧包括：

获取所述当前帧和与所述当前帧时域距离最近的前向LTR帧之间的间隔帧数；

如果所述间隔帧数等于所述LTR帧的标记间隔，则将所述当前帧标记为LTR帧；

如果所述间隔帧数不等于所述LTR帧的标记间隔，则对所述当前帧不标记为LTR帧。
根据权利要求12所述的方法，其特征在于，所述方法还包括：

根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。
根据权利要求11-14任意一项所述的方法，其特征在于，

所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量大于或等于编码质量阈值；或者，

当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求15所述的方法，其特征在于，还包括：

对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求15所述的方法，其特征在于，还包括：

对当前帧的后一帧进行编码，所述编码过程包括：将表示所述当前帧的后一帧的帧间参考关系的信息编入码流，所述后一帧的帧间参考关系表示所述后一帧参考与所述本帧时域距离最近的目标前向LTR帧，其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求16或17所述的方法，其特征在于，所述发送端设备根据单位时间内所包括的视频帧数确定M的数值。
一种视频通话方法，应用于具有显示屏和图像采集器的电子设备，其特征在于，包括：

响应于第一用户请求与第二用户进行视频通话的第一操作，建立所述第一用户与所述第二用户之间的视频通话连接；

通过所述图像采集器采集包括所述第一用户的环境的视频图像，所述视频图像包括多个视频帧；

对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；

发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧；所述发送端设备为所述第一用户使用的电子设备，所述接收端设备为所述第二用户使用的电子设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧。
根据权利要求19所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求19所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
根据权利要求19所述的方法，其特征在于，所述发送端设备根据所述当前帧的前n帧的编码质量确定N的数值，n<N。
根据权利要求20-22任意一项所述的方法，其特征在于，所述发送端设备根据单位时间内所包括的视频帧数确定M的数值。
根据权利要求23所述的方法，其特征在于，LTR帧的标记间隔D与N和M具有函数关系。
根据权利要求19所述的方法，其特征在于，所述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。
根据权利要求25所述的方法，其特征在于，LTR帧的标记间隔D与N和L具有函数关系。
根据权利要求24或26所述的方法，其特征在于，所述LTR帧的标记间隔D用于所述发送端设备标记LTR帧。
一种视频图像的显示方法，所述视频图像包括多个视频帧，其特征在于，包括：

解析码流，以得到表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧；

重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧；

显示所述视频图像。
根据权利要求28所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求28所述的方法，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
一种视频图像的发送设备，所述视频图像包括多个视频帧，其特征在于，包括：

编码模块，用于对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；

传输模块，用于发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧，其中，所述目标前向LTR帧为发送端设备接收到接收端设备确认消息的前向LTR帧，所述确认消息与所述目标前向LTR帧对应；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧。
根据权利要求31所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求31所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
根据权利要求31所述的设备，其特征在于，所述编码模块根据所述当前帧的前n帧的编码质量确定N的数值，n<N。
根据权利要求32-34任意一项所述的设备，其特征在于，所述编码模块根据单位时间内所包括的视频帧数确定M的数值。
根据权利要求35所述的设备，其特征在于，LTR帧的标记间隔D与N和M具有函数关系。
根据权利要求31所述的设备，其特征在于，所述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。
根据权利要求37所述的设备，其特征在于，LTR帧的标记间隔D与N和L具有函数关系。
根据权利要求36或38所述的设备，其特征在于，所述编码模块根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔D，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。
根据权利要求36或38所述的设备，其特征在于，所述LTR帧的标记间隔D用于所述编码模块标记LTR帧。
一种视频图像的发送设备，所述视频图像包括多个视频帧，其特征在于，包括：

判断模块，用于判断当前帧是否被标记为长期参考LTR帧；

编码模块，用于当所述当前帧未被标记为LTR帧时，对未标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧；或者，

当所述当前帧被标记为LTR帧时，对标记的当前帧进行编码，其中，所述编码过程包括：至少将表示当前帧的帧间参考关系的信息编入码流，所述当前帧的帧间参考关系表示所述当前帧参考与上述当前帧时域距离最近的目标前向LTR帧，其中，所述目标前向LTR帧为所述编码模块接收到接收端设备确认消息的前向LTR帧，所述确认消息与所述目标前向LTR帧对应；

传输模块，用于发送经编码的码流。
根据权利要求41所述的设备，其特征在于，

所述判断模块，具体用于根据LTR帧的标记间隔，判断当前帧是否被标记为LTR帧。
根据权利要求42所述的设备，其特征在于，所述判断模块包括：

获取子模块，用于获取所述当前帧和与所述当前帧时域距离最近的前向LTR帧之间的间隔帧数；

标记子模块，用于当所述间隔帧数等于所述LTR帧的标记间隔时，将所述当前帧标记为LTR帧；当所述间隔帧数不等于所述LTR帧的标记间隔，对所述当前帧不标记为LTR帧。
根据权利要求42所述的设备，其特征在于，

所述判断模块，还用于根据所述接收端设备反馈的网络状态信息，确定所述LTR帧的标记间隔，所述网络状态信息包括：网络丢包率、网络可用带宽和网络回环时间RTT中的一个或多个。
根据权利要求41-44任意一项所述的设备，其特征在于，

所述当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量大于或等于编码质量阈值；或者，

当前帧的帧间参考关系表示所述当前帧参考与所述当前帧时域距离最近的前向LTR帧，所述前向LTR帧为发送端设备标记为LTR帧的已编码的视频帧；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求45所述的设备，其特征在于，

所述编码模块，还用于对当前帧的后M+1帧进行编码，所述编码过程包括：将表示所述当前帧的后M+1帧的帧间参考关系的信息编入码流，所述后M+1帧的帧间参考关系表示所述后M+1帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述后M+1帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，M为正整数；其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求45所述的设备，其特征在于，

所述编码模块，还用于对当前帧的后一帧进行编码，所述编码过程包括：将表示所述当前帧的后一帧的帧间参考关系的信息编入码流，所述后一帧的帧间参考关系表示所述后一帧参考与所述本帧时域距离最近的目标前向LTR帧，其中所述当前帧未被标记为LTR帧且所述当前帧的编码质量小于编码质量阈值。
根据权利要求46或47所述的设备，其特征在于，

所述编码模块，用于根据单位时间内所包括的视频帧数确定M的数值。
一种视频通话设备，其特征在于，包括：

显示屏；图像采集器；一个或多个处理器；存储器；多个应用程序；以及一个或多个计算机程序，其中所述一个或多个计算机程序被存储在所述存储器中，所述一个或多个计算机程序包括指令，当所述指令被所述设备执行时，使得所述设备执行以下步骤：

响应于第一用户请求与第二用户进行视频通话的第一操作，建立所述第一用户与所述第二用户之间的视频通话连接；

通过所述图像采集器采集包括所述第一用户的环境的视频图像，所述视频图像包括多个视频帧；

对所述多个视频帧进行编码，得到经编码的码流，所述码流至少包括表示帧间参考关系的信息；

发送所述经编码的码流，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧；所述发送端设备为所述第一用户使用的视频通话设备，所述接收端设备为所述第二用户使用的视频通话设备；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧。
根据权利要求49所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求49所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
根据权利要求49所述的设备，其特征在于，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：

根据所述当前帧的前n帧的编码质量确定N的数值，n<N。
根据权利要求50-52任意一项所述的设备，其特征在于，当所述指令被所述设备执行时，使得所述设备具体执行以下步骤：

根据单位时间内所包括的视频帧数确定M的数值。
根据权利要求53所述的设备，其特征在于，LTR帧的标记间隔D与N和M具有函数关系。
根据权利要求49所述的设备，其特征在于，所述表示帧间参考关系的信息还包括L帧的帧间参考关系的信息，L＝(M1+1)+(M2+1)+…+(Mn+1)，所述L帧时域上在所述M帧之后，所述L帧的帧间参考关系的信息表示所述(Mn+1)帧中的第一帧参考与所述第一帧时域距离最近的目标前向LTR帧，所述(Mn+1)帧中在第一帧之后的每一帧均参考本帧的前一帧，其中，L为正整数，n为大于或等于1的正整数。
根据权利要求55所述的设备，其特征在于，LTR帧的标记间隔D与N和L具有函数关系。
根据权利要求54或56所述的设备，其特征在于，所述LTR帧的标记间隔D用于所述发送端设备标记LTR帧。
一种视频图像的接收设备，所述视频图像包括多个视频帧，其特征在于，包括：

解码模块，用于解析码流，以得到表示帧间参考关系的信息，其中，所述表示帧间参考关系的信息包括当前帧的帧间参考关系的信息和当前帧的前N帧的帧间参考关系的信息，其中：

所述当前帧的帧间参考关系的信息表示本帧参考与本帧时域距离最近的目标前向长期参考LTR帧；

所述当前帧的前N帧的帧间参考关系的信息表示所述前N帧中的每一帧均参考与本帧时域距离最近的前向LTR帧；

所述解码模块，还用于重建所述多个视频帧，其中，所述重建多个数据帧包括：根据当前帧的参考帧，重建当前视频帧；

显示模块，用于显示所述视频图像。
根据权利要求58所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考本帧的前一帧，其中N和M为正整数。
根据权利要求58所述的设备，其特征在于，所述表示帧间参考关系的信息还包括当前帧的后M帧的帧间参考关系的信息，所述当前帧的后M帧的帧间参考关系的信息表示所述后M帧中的每一帧均参考与本帧时域距离最近的前向LTR帧，其中N和M为正整数。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求1-10任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求11-18任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求19-27任一项所述的方法。
一种计算机可读存储介质，其特征在于，所述计算机可读存储介质中存储有计算机程序，当其在计算机上运行时，使得计算机执行如权利要求28-30任一项所述的方法。