WO2021093500A1

WO2021093500A1 - 视频数据的处理方法、装置、电子设备及计算机可读介质

Info

Publication number: WO2021093500A1
Application number: PCT/CN2020/120681
Authority: WO
Inventors: 银国徽
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2019-11-15
Filing date: 2020-10-13
Publication date: 2021-05-20
Also published as: CN110798731A

Abstract

本公开提供了一种视频数据的处理方法、装置、电子设备及计算机存储介质，该方法包括：获取待处理的传输流TS文件；基于待处理的TS文件，得到待处理的TS文件中的TS数据包；基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包；分别解析各个PES数据包，得到每个PES数据包的视频参数；基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。本公开的方案，在解析得到TS文件中的多个PES数据包后，针对每个PES数据包都解析出对应的视频参数，避免同时解析所有PES数据包时，有被遗漏的PES数据包，从而使得基于解析每个PES数据包得到的TS文件的视频参数更加准确。

Description

视频数据的处理方法、装置、电子设备及计算机可读介质

相关申请的交叉引用

本公开要求于2019年11月15日在中国知识产权局提交的标题为“视频数据的处理方法、装置、电子设备及计算机可读介质”中国专利申请No.201911120584.5的优先权，通过引用将该中国专利申请公开的全部内容并入本文。

技术领域

本公开涉及多媒体处理技术领域，具体而言，本公开涉及一种视频数据的处理方法、装置、电子设备及计算机可读介质。

背景技术

现有技术中，对于TS文件，一个TS文件中通常包括多个PES数据包，在解析PES数据包中的视频参数时，通常是同时解析所有PES数据包中的视频参数，这样解析PES数据包，会使得有的PES数据包没有被遗漏，没有被解析，从而使得解析得到的TS文件的视频参数不准确。

发明内容

本公开的目的旨在至少能解决上述的技术缺陷之一，提高视频参数的准确性。本公开采用的技术方案如下：

根据本公开的第一方面，提供了一种视频数据的处理方法，该方法包括：

获取待处理的传输流TS文件；

基于待处理的TS文件，得到待处理的TS文件中的TS数据包；

基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包；

分别解析各个PES数据包，得到每个PES数据包的视频参数；

基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。

本公开第一方面的实施例中，分别解析各个PES数据包，得到每个PES数据包的视频参数，包括：

分别解析各个PES数据包，得到每个PES数据包的视频参数的参数标识；

若参数标识为第一标识，则基于PES数据包，得到PES数据包中的显示时间参数PTS，第一标识用于标识PES数据包中包含显示时间参数PTS；

若参数标识为第二标识，基于PES数据包，得到PES数据包中的显示时间参数PTS和解码时间参数DTS，第二标识用于标识PES数据包中包含显示时间参数PTS和解码时间参数DTS；

视频参数包括显示时间参数PTS，或者，包括显示时间参数PTS和解码时间参数DTS。

本公开第一方面的实施例中，该方法还包括：

基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；

其中，若PES数据包为音频数据，显示时间参数PTS等于解码时间参数DTS。

本公开第一方面的实施例中，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，包括：

基于TS数据包，确定符合解析条件的TS数据包；

根据符合解析条件的TS数据包，得到待处理的TS文件对应的各个PES数据包，解析条件为TS数据包中的指定标识为设定值。

本公开第一方面的实施例中，TS数据包中包括对应于节目表的数据包，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，包括：

确定TS数据包中包括节目表的第一TS数据包，节目表用于标识TS数据包中的视频数据和音频数据；

基于节目表，确定第一TS数据包中的视频数据和音频数据；

基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包。

本公开第一方面的实施例中，基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包，包括：

基于第一TS数据包的视频数据，确定待处理的TS文件对应的各个PES数据包对应的视频数据；

基于第一TS数据包的音频数据，确定待处理的TS文件对应的各个PES数据包对应的音频数据；

基于各个PES数据包对应的视频数据和各个PES数据包对应的音频数据，确定待处理的TS文件对应的各个PES数据包。

本公开第一方面的实施例中，其特征在于，视频参数还包括序列参数集SPS和图像参数集PPS；

该方法还包括：

基于显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS，对待处理的TS文件进行格式转换。

根据本公开的第二方面，提供了一种视频数据的处理装置，该装置包括：

TS文件获取模块，用于获取待处理的传输流TS文件；

TS数据包确定模块，用于基于待处理的TS文件，得到待处理的TS文件中的TS数据包；

PES数据包确定模块，用于基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包；

PES数据包解析模块，用于分别解析各个PES数据包，得到每个PES数据包的视频参数；

视频参数确定模块，用于基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。

本公开第二方面的实施例中，PES数据包解析模块被配置为在分别解析各个PES数据包，得到每个PES数据包的视频参数时：

视频参数包括显示时间参数PTS,或者，包括显示时间参数PTS和解码时间参数DTS。

本公开第二方面的实施例中，该装置还包括：

数据类型确定模块，用于基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；

本公开第二方面的实施例中，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于TS数据包，确定符合解析条件的TS数据包；

本公开第二方面的实施例中，TS数据包中包括对应于节目表的数据包，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于节目表，确定第一TS数据包中的视频数据和音频数据；

本公开第二方面的实施例中，PES数据包确定模块被配置为在基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个 PES数据包时：

本公开第二方面的实施例中，视频参数还包括序列参数集SPS和图像参数集PPS；该装置还包括：

TS文件处理模块，用于基于显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS，对待处理的TS文件进行格式转换。

根据本公开的第三方面，提供了一种电子设备，该电子设备包括：

处理器和存储器；

存储器，用于存储计算机操作指令；

处理器，用于通过调用计算机操作指令，执行如本公开的第一方面的任一实施例中所示的方法。

根据本公开的第四方面，提供了一种计算机可读介质，该可读介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集由处理器加载并执行以实现如本公开的第一方面的任一实施例中所示的方法。

本公开实施例提供的技术方案带来的有益效果至少是：

本公开实施例的视频数据的处理方法、装置、电子设备及计算机可读介质，在解析得到TS文件中的多个PES数据包后，针对每个PES数据包都解析出对应的视频参数，避免同时解析所有PES数据包时，有被遗漏的PES数据包，从而使得基于解析每个PES数据包得到的TS文件的视频参数更加准确。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍。

图1为根据本公开的实施例的一种视频数据的处理方法的流程示意图；

图2为根据本公开的实施例的一种视频数据的处理装置的结构示意图；

图3为根据本公开的实施例的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对装置、模块或单元进行区分，并非用于限定这些装置、模块或单元一定为不同的装置、模块或单元，也并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

ES，基本数据流(elementary stream)，用于某些硬盘播或编辑系统。

TS，传输数据流(transition stream)，用于数据传输。

PES，基本数据流(Packetized Elementary Stream)。

PTS，显示时间参数(Presentation Time Stamp)。

DTS，解码时间参数(Decoding Time Stamp)。

SPS，序列参数集(Sequence Paramater Set)。

PPS，图像参数集(Picture Parameter Set)，SPS中保存了一组编码视频序列(Coded video sequence)的全局参数。所谓的编码视频序列即原始视频的一帧一帧的像素数据经过编码之后的结构组成的序列。而每一帧的编码后数据所依赖的参数保存于图像参数集中。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

针对上述技术问题，本公开的实施例提供的一种视频数据的处理方法，如图1所示，该方法可以包括：

步骤S110，获取待处理的传输流TS文件。

具体的，TS(Transport Stream)文件为固定时长的视频片段。

步骤S120，基于待处理的TS文件，得到待处理的TS文件中的TS数据包。

具体的，一个TS文件中可以包括多个TS数据包，TS文件中可以包括视频和音频中的至少一项，通常一个TS数据包为188字节。

步骤S130，基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包。

具体的，一个TS文件中可以包含多个PES数据包。

步骤S140，分别解析各个PES数据包，得到每个PES数据包的视频参数。

步骤S150，基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。

具体的，解析得到的视频参数可以用于对TS文件进行后续处理，比如，解析得到的视频参数用于对TS文件进行格式转换，以使得TS文件可以通过播放器播放。如果基于HLS协议，对TS文件进行格式转换，则视频参数可以包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS。

本公开的实施例中的方案，在解析得到TS文件中的多个PES数据包后，针对每个PES数据包都解析出对应的视频参数，避免同时解析所有PES数据包时，有被遗漏的PES数据包，从而使得基于解析每个PES数据包得到的TS文件的视频参数更加准确。

本公开的实施例中，步骤S130中，分别解析各个PES数据包，得到每个PES数据包的视频参数，可以包括：

其中，PTS和DTS在PES数据包中有对应的参数标识，则在解析PES数据包中的PTS和DTS时，可以先解析其对应的参数标识，基于参数标识可以确定从PES数据包中是否可以解析出对应的参数。

PES数据包中是否包括PTS和DTS，可以通过不同的标识位进行标识，比如，用第一标识来标识PES数据包中包含PTS，用第二标识来标识PES数据包中包含DTS，则在解析到的参数标识是第一标识时，表示可以解析得到PTS，则在解析得到的参数标识是第二标识时，表示可以解析得到 DTS。在本方案中，可以通过解析出的第一标识和第二标识的取值，来确定是否可以解析得到对应的视频参数。

作为一个示例，第一标识和第二标识的取值为1时，表示PES数据包中包含PTS和DTS，即当第一标识为1时，表示可以解析得到PTS，当参数标识为其他标识时，比如为0时，表示解析得不到PTS，当第二标识为1时，表示可以解析得到DTS，当参数标识为其他标识时，比如为0时，表示解析得不到DTS。则基于两个参数标识，可以得到以下四种情况：

标识：00，表示无PTS无DTS；

01，错误，不能只有DTS没有PTS；

10，有PTS；

11，有PTS和DTS.

由此，解析PES数据包时，视频参数包括以下两种情况：10或者11,10时表示PES数据包中包括显示时间参数PTS,或者，11时表示PES数据包中包括显示时间参数PTS和解码时间参数DTS。

本公开的实施例中，该方法还可以包括：

具体的，由于一个PES数据包对应的是一个视频帧的内容，一个视频帧的内容可以包括视频内容和音频内容，则PES数据包中的数据可以是音频数据，也可以是视频数据，在解析PES数据包时，可以基于解析的标识位判断该PES数据包的数据类型是音频数据还是视频数据。

作为一个示例，比如，解析PES数据包得到的一个数据类型标识位为streamId，基于该streamId可以判断该PES数据包中的数据是音频数据还是视频数据，在该示例中，streamId在c0和df(16进制的)之间时，PES数据包为音频数据，streamId在e0和ef之间时，PES数据包为视频数据。

本公开的实施例中，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，可以包括：

基于TS数据包，确定符合解析条件的TS数据包；

具体的，在解析PES数据包时，实际是解析其中的TS数据包中的body数据，一个PES数据包中可以包括至少一个TS数据包。则在解析TS数据包之前，可以判断TS数据包中的数据是不是符合解析条件的数据，如果是符合解析条件的数据，则进行解析，如果不是符合解析条件的数据，则不进行解析。

作为一个示例，比如，指定标识为body数据的前3个字节或前4个字节，设定值为1，则在解析TS数据包中的body数据时，先读取前3个字节或前4个字节，如果这3个字节或4个字节为1，则表示该TS数据包符合解析条件，可以解析，否则，如果这3个字节或4个字节不为1，则表示该TS数据包不符合解析条件，不可以解析。

本公开的实施例中，TS数据包中包括对应于节目表的数据包，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，可以包括：

基于节目表，确定第一TS数据包中的视频数据和音频数据；

具体的，在TS数据包中，包含有节目表的数据属于正常的TS数据包，则在解析TS数据包之前，可以从TS数据包中确定包含有节目表的第一TS数据包，只对第一TS数据包进行解析即可。

其中，节目单中包括了标识了哪些数据是音频数据，哪些是视频数据的相关信息，因此，节目表还可以用来区分出第一TS数据包中的音频数据和视频数据。比如，基于节目表中的不同的标识位，可以确定出第一TS数据包中哪些是视频数据，哪些是音频数据。

作为一个示例，节目表通过TS数据包中指定的标识位表示，比如， PID，PID＝0时，表示该TS数据包是包含节目单的数据包，则在TS数据包中，首先确定出TS数据包中标识位PID＝0对应的第一TS数据包，在节目单中，通过PMT来区分哪些是音频数据，哪些是视频数据，则在第一TS数据包中，基于节目单中的PMT，可以确定出第一TS数据包中哪些是音频数据，哪些是视频数据。

本公开的实施例中，基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包，可以包括：

具体的，在确定出第一TS数据包中哪些是音频数据，哪些是视频数据后，可以分别基于第一TS数据包中的音频数据和视频数据来确定出PES数据包。

本公开的实施例中，步骤S110中，获取待处理的传输流TS文件，可以包括：

获取待处理的m3u8文件；

解析待处理的m3u8文件，根据解析结果确定待处理的m3u8文件所对应的各个TS文件的播放地址信息；

根据播放地址信息，获取待处理的TS文件，待处理的TS文件为待处理的m3u8文件所对应的各个TS文件中的文件。

具体的，m3u8文件为纯文本文件，m3u8文件可以来源于网络，m3u8文件可以为直播文件，也可以为点播文件。在获取待处理的m3u8文件之后，可以解析该待处理的m3u8文件以获取对应的TS文件，TS文件可以包括多个TS文件，其中，可以通过正则解析的方式解析该m3u8文件。

m3u8文件还可携带有索引，该索引中标识了各TS文件及对应的播放地址信息，每个TS文件对应一个播放地址信息，则在解析该待处理的m3u8 文件以获取对应的TS文件时，可以基于该索引，获取待处理的TS文件。其中，播放地址信息为对应TS文件的在线播放地址，基于该播放地址信息，可以对应播放该地址信息对应的TS文件。在播放该TS文件之前，需要对该TS文件进行格式转换处理，以使得该TS文件的格式符合播放器的播放格式要求。

其中，待处理的TS文件可以为待处理的m3u8文件所对应的各个TS文件中的任一个或几个文件，也可以是基于用户的播放请求所确定的各个TS文件中的一个文件。其中，播放请求可以为用户通过终端向服务器发送的链接请求，表示用户想播放某个m3u8文件，在该播放请求中，可以包括m3u8文件的标识，基于该标识，服务器知道用户想要播放的是哪个m3u8文件。

如果m3u8文件中包括多个TS文件，各个TS文件对应的播放地址信息中还可以包括播放顺序，则按照该播放顺序，可以基于各个TS文件对应的地址信息，播放该多个TS文件。

本公开的实施例中，m3u8文件中携带有文件类型的标识，文件类型为点播文件或直播文件；

若文件类型为直播文件，获取待处理的m3u8文件为实时获取的m3u8文件。

具体的，在解析m3u8文件时，m3u8文件中携带有标识该m3u8文件的文件类型的标识，该标识可以为文件中的某个字段，通过该字段，可以确定该m3u8文件的文件类型，即该m3u8文件为点播文件还是直播文件，m3u8文件与解析出的TS文件的文件类型一致，m3u8文件为点播文件，解析出的TS文件也为点播文件，m3u8文件为直播文件，解析出的TS文件也为直播文件。

如果m3u8文件的文件类型为点播文件，则m3u8文件中的内容是不变的，如果m3u8文件的文件类型为直播文件，则m3u8文件中的内容时不断在变化的，即不断有新的内容加入到m3u8文件中，则需要实时获取该m3u8文件，实时解析该m3u8文件，以获取对应的TS文件，由此，如果m3u8文件的文件类型为点播文件，解析该m3u8文件得到的TS文件的数量是固定的，而如果m3u8文件的文件类型为直播文件，则解析该m3u8文件得到的TS文件的数量是实时变化的。

需要说明的是，在解析m3u8文件时，不只可以得到该m3u8文件的文件类型，还可以得到解析出的每个TS文件的时长。

本公开的实施例中，视频参数还包括序列参数集SPS和图像参数集PPS；

该方法还可以包括：

具体的，m3u8是某些移动设备浏览器缓存视频的专用视频格式，普通的播放器不能够正常播放，需要进行转码才可以播放。因此，可以基于待处理的TS文件对应的视频参数，将待处理的TS文件转换为设定格式的文件，其中，设定格式为播放器对应可播放文件的格式。比如，fmp4格式是在移动设备上通过普通播放器可以直接播放的视频格式，因此可以将M3U8文件转码为普通播放器兼容的格式，即fmp4格式，则TS文件转码后的格式与播放器的播放格式相兼容，通过该播放器可以直接播放该设定格式的文件。

本公开的实施例中，在对待处理的TS文件进行格式转换之后，该方法还可以包括：

获取针对待处理的m3u8文件的播放请求以及格式转换后的TS文件；

确定待处理的m3u8文件中各TS文件对应的播放地址信息；

依据各播放地址信息对应的播放顺序，依次播放各播放地址信息对应的格式转换后的TS文件。

具体的，在将TS文件进行格式转换后，转换后的TS文件的文件格式可以与播放器的播放格式相对应，则按照各播放地址信息对应的播放顺序，可以播放对应的格式转换后的TS文件，实现对TS文件的播放，其中，播放的TS文件可以是m3u8文件中各TS文件中的任意一个，或任意几个TS文件。

下面以一个具体示例，对本公开的方案进行具体说明：

步骤1：从TS文件中解析得到TS数据包。

步骤2：基于TS数据包，查找得到PAT表。

具体的，每个TS数据包中有一个PID字段，查找PAT表其实就是在解析TS文件得到的多个TS数据包中查找PID＝0的TS数据包，即包含节目表的第一TS数据包。

步骤3：基于PAT表，查找得到PMT表。

具体的，PID＝0的第一TS数据包中包括节目表，该节目表即为PMT表，则通过PID字段，可以知道在解析TS文件得到的多个TS数据包中，哪个是节目表。基于该节目表，可以对应得到TS数据包的属性信息(PMT表中包括用于标识TS数据包中哪些是音频数据，哪些是视频数据的相关信息)，该属性信息包括TS数据包的数据类型，该数据类型包括视频数据和音频数据，数据类型可以分别通过不同的类型标识表示，比如，视频的PID和音频的PID，通过视频的PID和音频的PID，即可知道在TS数据包中，哪些是视频数据，哪些是音频数据。

步骤4：基于PMT表，将多个TS数据包按照视频和音频进行分类。

具体的，基于PMT表可知TS数据包中哪些数据是音频数据，哪些是视频数据，则将多个TS数据包中的视频数据分为一类，音频数据分为一类，作为一个示例，多个TS数据包分别为TS数据包A和TS数据包B，则将TS数据包A中的视频数据和TS数据包B中的视频数据分为一类，将TS数据包A中的音频数据和TS数据包B中的音频数据分为一类。

步骤5：基于分类后的多个TS数据包，将多个TS数据包聚合成PES数据包。

具体的，一个TS数据包只有188个字节，播放器播放的一帧图像可能对应若干个188字节，一个视频帧的内容对应一个PES数据包，则一个TS数据包的数据可能只是一个视频帧的内容对应的一部分内容，因此，将多个TS数据包聚合成至少一个PES数据包；就是把上述分类得到的视频数据和音频数据分别进行聚合，得到至少一个PES数据包，PES数据包可以为音频PES数据包或视频PES数据包。

其中，在聚合的过程中，可通过标识位payload来标识一个PES数据包，即从payload＝0开始，到下一个payload＝0对应为1个PES数据包， payload＝0表示一个PES数据包的开始，得到的这一个PES数据包可能是视频PES数据包，也可能是音频PES数据包。

步骤6：解析各个PES数据包，确定各个PES数据包的数据类型；

具体的，PES数据包的数据类型为音频数据或视频数据，即解析PES数据包，可以得知该PES数据包是视频数据(视频PES数据包)，还是音频数据(音频PES数据包)，在上述步骤4对TS数据包进行分类时，已经通过视频的PID和音频的PID区分出哪些是视频，哪些是音频，因此，在解析PES时，仍然可以基于视频的PID和音频的PID来区分出PES中哪些是音频数据，哪些是视频数据。

可以理解的是，解析PES数据包后，不只可以确定出PES数据包的数据类型，还可以得到其他参数，比如，ESCR，CRC，PES数据包的包长度等参数。

步骤7：基于PES数据包，计算得到显示时间参数PTS和解码时间参数DTS。

具体的，PTS和DTS是MP4格式(播放器的播放格式)文件中需要用到的两个与编码相关的参数，其中，PTS是解码时间戳，DTS是展示时间戳，解码时间戳在展示时间戳之前，解码时间戳是为了告诉解码器什么时候解码PES，展示时间戳是为了告诉解码器什么时候播放PES。

步骤8：确定PES数据包中的ES数据包，并将PES数据包中的ES数据包存储。

具体的，ES数据包中的数据是真正的媒体数据，即视频的图像信息，其中不包括任何图像信息之外的信息，比如，PTS和DTS在ES数据包中都不包括。一个PES数据包中只应有一个ES数据包，则将PES数据包对应的TS数据包中的数据进行合并，即可得到对应的ES数据包。

步骤9：基于ES数据包，确定SPS和PPS。

具体的，SPS和PPS是MP4格式(播放器的播放格式)文件解码必须需要的两个参数，可基于ES数据包确定得到。

步骤10：基于计算得到的PTS、DTS、SPS和PPS参数，将TS文件转码为播放器的播放格式的文件，比如，播放器的播放格式为mp4，则将TS 文件转码为mp4格式的文件。

本示例中，在上述步骤6中，解析一个PES数据包的具体过程如下：

步骤A：提取PES数据包中的第一个TS数据包。

具体的，在将多个TS数据包聚合成PES数据包时，可以对应得到多个PES数据包，一个PES数据包对应多个TS数据包，则基于PES数据包中的body数据，从该PES数据包中对应的第一个TS数据包(TS{0})开始解析，其中，TS{0}对应的是payload＝0时对应的数据，在一个PES数据包中，从第一个payload＝0到下一个payload＝0所对应的TS数据包中的数据对应一个PES数据包。

步骤B：基于PES数据包中的body数据，判断该第一个TS数据包是否为正常的数据包。

具体的，基于PES数据包中的body数据，先读3个字节001，或4个字节0001，如果这3个字节或4个字节不为1，表示这个TS数据包是异常的数据包，不进行解析，如果为1，表示这个TS数据包是正常的数据包，可以进行解析。

步骤C：在第一个TS数据包为正常数据包时，确定当前PES数据包的数据类型。

具体的，在基于PES数据包中的body数据，先读3个字节001，或4个字节0001，且这3个字节或4个字节为1时，再读1个字节，该字节对应的标识位为streamId，通过该标识位可以判断出当前PES的数据类型，其中，PES的数据类型包括视频数据和音频数据。具体地，基于streamId判断当前PES数据包是视频数据还是音频数据的一种实现方式为：streamId在c0和df(16进制)之间为音频数据，在e0和ef之间为视频数据。

本公开的实施例中，在不断读取PES数据包中的body数据的过程中，body数据中还有PTS的参数标识和DTS的参数标识，PTS对应的参数标识为第一标识，DTS对应的参数标识为第二参数标识，如果读取到PTS对应的第一标识为1，则可以对应得到PTS，如果读取到的PTS对应的参数标识为0，则可以不再继续读下去，DTS的参数标识与PTS的参数标识为相同的原理，如果有DTS对应的第二参数标识为1，则可对应得到DTS，如果DTS对应的参数标识为0，则可以不再继续读下去。在读取body数据的过程中，还可以得到其他标识位对应的信息，比如，PES数据包的包长度等。

本公开的实施例中，步骤7中，基于PES数据包，计算得到PTS和DTS，具体可以包括：

基于PES数据包中的标识位ptsdtsflag，计算得到PTS和DTS，其中，ptsdtsflag为2或3；

当ptsdtsflag为2时，基于PES数据包中的body数据，先从ts{0}对应的body数据中读1个字节，向右移一位，与0x07相与得到pts0，再读2个字节，向右移一位，得到pts1，再读2个字节，向右移一位，得到pts2，则PTS＝[pts0左移30位，pts1左移15位，pts2]，此时，PTS对应一个数值；

如果PES数据包为音频数据，则PTS＝DTS。

当ptsdtsflag为3时，计算PTS的方式计算与上述ptsdtsflag为2时计算PTS的方式一致，计算DTS的方式与上述计算PTS的过程是一致的，但对应读取的字节的含义不同。

本公开的实施例中，步骤8中，确定PES数据包中的ES数据包，并将PES数据包中的ES数据包存储，可以包括：

基于PES的数据类型，解析PES数据包中的ES数据包：

如果ES数据包为视频数据，基于ES数据包中的body数据，先读3个字节001，或4个字节0001，如果这3个字节或4个字节不为1，表示这个TS数据包是异常的数据包，不进行解析，如果为1，表示这个TS数据包是正常的数据包，可以进行解析。在TS数据包为正常数据包之后，读取标识位NAL(network abstraction layer网络提取层)，并基于ES数据包，计算得到SPS和PPS。其中，h264的码流格式包括字节流格式，字节流格式是在h264官方协议文档中规定的格式。可以作为大多数编码器默认的输出格式。字节流格式的基本数据单位为NAL单元，也即NALU。为了从字节流中提取出NALU，协议规定，在每个NALU的前面加上起始码：0x000001或0x00000001(0x代表十六进制)。

然后基于SPS，PPS，PTS，DTS，将各个TS数据包中的ES数据包合并，即按照时序顺序将一个PES数据包中的各个TS数据包中的ES数据包合并得到一个PES数据包对应的ES数据包。

如果ES数据包为音频数据，检查标识位aac是否正常，具体为：先读2个字节，向右移4位，是否为0xff,如果是，标识位aac正常，如果不是，标识位aac不正常；如果标识位aac正常，从ES数据包中解析出一个ID，基于该ID，确定mpeg类型，mpeg类型包括mpeg-2和mpeg-4，同时解析出声道，频率，音频解码配置等参数。

基于声道，频率，音频解码配置等参数，将所有ES数据包合并，即将各个TS数据包中的ES数据包合并，具体为按照时序顺序将一个PES数据包中的各个TS数据包对应的ES数据包合并，得到一个PES数据包对应的ES数据包。其中，计算音频编码配置是基于声道和频率计算得到的。

最后将合并得到的ES数据包进行存储。

基于与图1中所示的视频数据的处理方法相同的原理，本公开的实施例中还提供了一种视频数据的处理装置20，如图2所示，该装置20可以包括：TS文件获取模块210，TS数据包确定模块220、PES数据包确定模块230、PES数据包解析模块240以及视频参数确定模块250，其中，

TS文件获取模块210，用于获取待处理的传输流TS文件；

TS数据包确定模块220，用于基于待处理的TS文件，得到待处理的TS文件中的TS数据包；

PES数据包确定模块230，用于基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包；

PES数据包解析模块240，用于分别解析各个PES数据包，得到每个PES数据包的视频参数；

视频参数确定模块250，用于基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。

可选的，在解析得到TS文件中的多个PES数据包后，针对每个PES 数据包都解析出对应的视频参数，避免同时解析所有PES数据包时，有被遗漏的PES数据包，从而使得基于解析每个PES数据包得到的TS文件的视频参数更加准确。

可选的，PES数据包解析模块被配置为在分别解析各个PES数据包，得到每个PES数据包的视频参数时：

可选的，该装置还包括：

可选的，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于TS数据包，确定符合解析条件的TS数据包；

可选的，TS数据包中包括对应于节目表的数据包，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于节目表，确定第一TS数据包中的视频数据和音频数据；

可选的，PES数据包确定模块被配置为在基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包时：

可选的，视频参数还包括序列参数集SPS和图像参数集PPS；该装置还包括：

本公开实施例的装置可执行图1所示的一种视频数据的处理方法，其实现原理相类似，本公开各实施例中的视频数据的处理装置中的各模块所执行的动作是与本公开各实施例中的视频数据的处理方法中的步骤相对应的，对于视频数据的处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频数据的处理方法中的描述，此处不再赘述。

基于与本公开的实施例中的方法相同的原理，下面参考图3，其示出了适于用来实现本公开实施例的电子设备(例如图1中的终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，其中，这里的处理器可以称为下文的处理装置601，存储器可以包括下文中的只读存储器(ROM)602、随机访问存储器(RAM)603以及存储装置608中的至少一项，具体如下所示：

如图3所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(Hyper Text Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待处理的传输流TS文件；基于待处理的TS文件，得到待处理的TS文件中的TS数据包；基于TS数据包，确定待处理的TS文件对应的各个分组的基本数据流PES数据包，待处理的TS文件中的一个视频帧的内容对应一个PES数据包；分别解析各个PES数据包，得到每个PES数据包的视频参数；基于各PES数据包的视频参数，得到待处理的TS文件的视频参数。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种视频数据的处理方法，包括：

获取待处理的传输流TS文件；

基于待处理的TS文件，得到待处理的TS文件中的TS数据包；

分别解析各个PES数据包，得到每个PES数据包的视频参数；

根据本公开的一个或多个实施例，分别解析各个PES数据包，得到每个PES数据包的视频参数，包括：

根据本公开的一个或多个实施例，该方法还包括：

根据本公开的一个或多个实施例，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，包括：

基于TS数据包，确定符合解析条件的TS数据包；

根据本公开的一个或多个实施例，TS数据包中包括对应于节目表的数据包，基于TS数据包，确定待处理的TS文件对应的各个PES数据包，包括：

基于节目表，确定第一TS数据包中的视频数据和音频数据；

根据本公开的一个或多个实施例，基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包，包括：

根据本公开的一个或多个实施例，视频参数还包括序列参数集SPS和图像参数集PPS；该方法还包括：

根据本公开的一个或多个实施例，【示例二】提供了一种视频数据的处理的装置，该装置包括：

TS文件获取模块，用于获取待处理的传输流TS文件；

根据本公开的一个或多个实施例，PES数据包解析模块被配置为在分别解析各个PES数据包，得到每个PES数据包的视频参数时：

根据本公开的一个或多个实施例，该装置还包括：

根据本公开的一个或多个实施例，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于TS数据包，确定符合解析条件的TS数据包；

根据本公开的一个或多个实施例，TS数据包中包括对应于节目表的数据包，PES数据包确定模块被配置为在基于TS数据包，确定待处理的TS文件对应的各个PES数据包时：

基于节目表，确定第一TS数据包中的视频数据和音频数据；

根据本公开的一个或多个实施例，PES数据包确定模块被配置为在基于第一TS数据包中的视频数据和音频数据，确定待处理的TS文件对应的各个PES数据包时：

根据本公开的一个或多个实施例，视频参数还包括序列参数集SPS和图像参数集PPS；该装置还包括：

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种视频数据的处理方法，包括：

获取待处理的传输流TS文件；

基于所述待处理的TS文件，得到所述待处理的TS文件中的TS数据包；

基于所述TS数据包，确定所述待处理的TS文件对应的各个分组的基本数据流PES数据包，所述待处理的TS文件中的一个视频帧的内容对应一个PES数据包；

分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数；以及

基于各所述PES数据包的视频参数，得到所述待处理的TS文件的视频参数。
根据权利要求1所述的方法，其中，所述分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数，包括：

分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数的参数标识；

在所述参数标识为第一标识的情况下，基于所述PES数据包，得到所述PES数据包中的所述显示时间参数PTS，所述第一标识用于标识所述PES数据包中包含所述显示时间参数PTS；

在所述参数标识为所述第二标识的情况下，基于所述PES数据包，得到所述PES数据包中的所述显示时间参数PTS和所述解码时间参数DTS，所述第二标识用于标识所述PES数据包中包含所述显示时间参数PTS和所述解码时间参数DTS；以及

所述视频参数包括所述显示时间参数PTS，或者，包括所述显示时间参数PTS和所述解码时间参数DTS。
根据权利要求2所述的方法，所述方法还包括：

基于所述PES数据包的解析结果，确定所述PES数据包的数据类型，所述数据类型为视频数据或音频数据；

其中，在所述PES数据包为所述音频数据的情况下，所述显示时间参数PTS等于所述解码时间参数DTS。
根据权利要求1至3中任一项所述的方法，其中，所述TS数据包中包括对应于节目表的数据包，所述基于所述TS数据包，确定所述待处理的TS文件对应的各个PES数据包，包括：

确定所述TS数据包中包括节目表的第一TS数据包，所述节目表用于标识TS数据包中的视频数据和音频数据；

基于所述节目表，确定所述第一TS数据包中的视频数据和音频数据；以及

基于所述第一TS数据包中的视频数据和音频数据，确定所述待处理的TS文件对应的各个PES数据包。
根据权利要求4所述的方法，其中，所述基于所述第一TS数据包中的视频数据和音频数据，确定所述待处理的TS文件对应的各个PES数据包，包括：

基于所述第一TS数据包的视频数据，确定所述待处理的TS文件对应的各个PES数据包对应的视频数据；

基于所述第一TS数据包的音频数据，确定所述待处理的TS文件对应的各个PES数据包对应的音频数据；以及

基于各个所述PES数据包对应的视频数据和各个所述PES数据包对应的音频数据，确定所述待处理的TS文件对应的各个PES数据包。
根据权利要求2或3所述的方法，其中，所述视频参数还包括序列参数集SPS和图像参数集PPS；

所述方法还包括：

基于所述显示时间参数PTS、所述解码时间参数DTS、所述序列参数集SPS和所述图像参数集PPS，对所述待处理的TS文件进行格式转换。
一种视频数据的处理装置，包括：

TS文件获取模块，用于获取待处理的传输流TS文件；

TS数据包确定模块，用于基于所述待处理的TS文件，得到所述待处理的TS文件中的TS数据包；

PES数据包确定模块，用于基于所述TS数据包，确定所述待处理的TS文件对应的各个分组的基本数据流PES数据包，所述待处理的TS文件中的一个视频帧的内容对应一个PES数据包；

PES数据包解析模块，用于分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数；以及

视频参数确定模块，用于基于各所述PES数据包的视频参数，得到所述待处理的TS文件的视频参数。
根据权利要求7所述的装置，其中，所述PES数据包解析模块被配置为在所述分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数时：

分别解析各个所述PES数据包，得到每个所述PES数据包的视频参数的参数标识；

在所述参数标识为第一标识的情况下，基于所述PES数据包，得到所述PES数据包中的所述显示时间参数PTS，所述第一标识用于标识所述PES数据包中包含所述显示时间参数PTS；

在所述参数标识为所述第二标识的情况下，基于所述PES数据包，得到所述PES数据包中的所述显示时间参数PTS和所述解码时间参数DTS，所述第二标识用于标识所述PES数据包中包含所述显示时间参数PTS和所述解码时间参数DTS；以及

所述视频参数包括所述显示时间参数PTS，或者，包括所述显示时间参数PTS和所述解码时间参数DTS。
一种电子设备，包括：

处理器和存储器；

所述存储器，被配置为存储计算机操作指令；

所述处理器，被配置为通过调用所述计算机操作指令，执行权利要求1至6中任一项所述的方法。
一种计算机可读介质，所述可读介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集由所述处理器加载并执行以实现权利要求1至6中任一项所述的方法。