WO2021093608A1

WO2021093608A1 - 视频数据的处理方法、装置、电子设备及计算机可读介质

Info

Publication number: WO2021093608A1
Application number: PCT/CN2020/125298
Authority: WO
Inventors: 银国徽
Original assignee: 北京字节跳动网络技术有限公司
Priority date: 2019-11-15
Filing date: 2020-10-30
Publication date: 2021-05-20
Also published as: CN110753259B; CN110753259A

Abstract

本公开提供了一种视频数据的处理方法、装置、电子设备及计算机存储介质，该方法包括：获取待处理的传输流TS文件；解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包，其中，一个PES数据包对应一个视频帧的内容；分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；分别解析各个ES数据包，得到每个ES数据包的音视频参数；基于各个ES数据包的音视频参数，得到TS文件的音视频参数。本公开的实施例中，可以在解析得到TS文件中的多个ES数据包后，针对每个ES数据包都解析出对应的音视频参数，避免同时解析所有ES数据包时，有被遗漏的ES数据包，从而使得基于解析每个ES数据包得到的TS文件的音视频参数更加准确。

Description

视频数据的处理方法、装置、电子设备及计算机可读介质

相关申请的交叉引用

本公开要求于2019年11月15日向中国国家知识产权局提交的申请号为201911122016.9的中国专利申请的权益，该中国专利申请公开的内容通过引用整体并入本文。

技术领域

本公开涉及多媒体处理技术领域，具体而言，本公开涉及一种视频数据的处理方法、装置、电子设备及计算机可读介质。

背景技术

现有技术中，对于TS文件，一个TS文件中通常包括多个ES数据包，在解析ES数据包中的音视频参数时，通常是同时解析所有ES数据包中的音视频参数，这样解析ES数据包，会使得有的ES数据包没有被遗漏，没有被解析，从而使得解析得到的TS文件的音视频参数不准确。

发明内容

本公开的目的旨在至少能解决上述的技术缺陷之一，提高音视频参数的准确性。本公开采用的技术方案如下：

第一方面，本公开提供了一种视频数据的处理方法，该方法包括：

获取待处理的传输流TS文件；

解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包；

分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；

分别解析各个ES数据包，得到每个ES数据包的音视频参数；

基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

本公开第一方面的可替代的实施例中，解析TS文件，得到TS文件所对应的各个PES数据包，包括：

解析TS文件，得到TS文件中的第一TS数据包；

根据符合预设条件的第一TS数据包，得到TS文件所对应的各个PES数据包，第一预设条件为TS数据包的第一指定标识位为第一设定值。

本公开第一方面的可替代的实施例中，该方法还包括：

基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；以及

若数据类型为视频数据，PES数据包为视频PES数据包；或者

若数据类型为音频数据，PES数据包为音频PES数据包。

本公开第一方面的可替代的实施例中，分别解析各个PES数据包，得到每个PES数据包的ES数据包，包括：

分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包；

分别解析各个音频PES数据包，得到每个音频PES数据包对应的音频ES数据包；

基于每个PES数据包对应的视频ES数据包和音频ES数据包，确定每个PES数据包对应的ES数据包。

本公开第一方面的可替代的实施例中，分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包，包括：

分别解析各个视频PES数据包对应的第二TS数据包，得到每个视频PES数据包对应的视频ES数据包，其中，第二TS数据包为符合第二预设条件的TS数据包，第二预设条件为TS数据包的第二指定标识位为第二设定值。

本公开第一方面的可替代的实施例中，分别解析各个音频PES数据包，得到每个音频PES数据包对应的音频ES数据包，包括：

分别解析各个视频PES数据包对应的第三TS数据包，得到每个音频PES数据包对应的音频ES数据包，其中，第三TS数据包为符合第三预设条件的TS数据包，第三预设条件为TS数据包的第三指定标识位为第三设定值。

本公开第一方面的可替代的实施例中，音视频参数包括显示时间参数 PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；

该方法还包括：

基于音视频参数，对待处理的TS文件进行格式转换。

第二方面，本公开提供了一种视频数据的处理装置，该装置包括：

TS文件获取模块，被配置为获取待处理的传输流TS文件；

PES数据包确定模块，被配置为解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包；

ES数据包确定模块，被配置为分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；

ES数据包解析模块，被配置为分别解析各个ES数据包，得到每个ES数据包的音视频参数；

音视频参数确定模块，被配置为基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

本公开第二方面的可替代的实施例中，PES数据包确定模块被进一步配置为在解析TS文件，得到TS文件所对应的各个PES数据包时

解析TS文件，得到TS文件中的第一TS数据包；

本公开第二方面的可替代的实施例中，该装置还包括：

数据类型确定模块，被配置为基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；其中，

若数据类型为视频数据，PES数据包为视频PES数据包；或者

若数据类型为音频数据，PES数据包为音频PES数据包。

本公开第二方面的可替代的实施例中，ES数据包确定模块被进一步配置为在分别解析各个PES数据包，得到每个PES数据包的ES数据包时

本公开第二方面的可替代的实施例中，ES数据包确定模块被进一步配置为在分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包时

分别解析各个视频PES数据包对应的第二TS数据包，得到每个视频PES数据包对应的视频ES数据包；

其中，第二TS数据包为符合第二预设条件的TS数据包，第二预设条件为TS数据包的第二指定标识位为第二设定值。

本公开第二方面的可替代的实施例中，ES数据包确定模块被进一步配置为分别解析各个音频PES数据包，得到每个音频PES数据包对应的在音频ES数据包时

分别解析各个视频PES数据包对应的第三TS数据包，得到每个音频PES数据包对应的音频ES数据包；

其中，第三TS数据包为符合第三预设条件的TS数据包，第三预设条件为TS数据包的第三指定标识位为第三设定值。

本公开第二方面的可替代的实施例中，音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；该装置还包括：

格式转换模块，被配置为基于音视频参数，对待处理的TS文件进行格式转换。

第三方面，本公开提供了一种电子设备，该电子设备包括：

存储器，被配置为存储计算机操作指令；以及

处理器，被配置为通过调用计算机操作指令，执行如本公开的第一方面的任一实施例中所示的方法。

第四方面，本公开提供了一种计算机可读介质，该可读介质存储有至少一条指令、至少一段程序、代码集或指令集，至少一条指令、至少一段程序、代码集或指令集在由处理器加载并执行时实现如本公开的第一方面的任一实施例中所示的方法。

附图说明

为了更清楚地说明本公开实施例中的技术方案，下面将对本公开实施例描述中所需要使用的附图作简单地介绍。

图1为本公开的实施例提供的一种视频数据的处理方法的流程示意图；

图2为本公开的实施例提供的一种视频数据的处理装置的结构示意图；以及

图3为本公开的实施例提供的一种电子设备的结构示意图。

具体实施方式

下面将参照附图更详细地描述本公开的实施例。虽然附图中显示了本公开的某些实施例，然而应当理解的是，本公开可以通过各种形式来实现，而且不应该被解释为限于这里阐述的实施例，相反提供这些实施例是为了更加透彻和完整地理解本公开。应当理解的是，本公开的附图及实施例仅用于示例性作用，并非用于限制本公开的保护范围。

应当理解，本公开的方法实施方式中记载的各个步骤可以按照不同的顺序执行，和/或并行执行。此外，方法实施方式可以包括附加的步骤和/或省略执行示出的步骤。本公开的范围在此方面不受限制。

本文使用的术语“包括”及其变形是开放性包括，即“包括但不限于”。术语“基于”是“至少部分地基于”。术语“一个实施例”表示“至少一个实施例”；术语“另一实施例”表示“至少一个另外的实施例”；术语“一些实施例”表示“至少一些实施例”。其他术语的相关定义将在下文描述中给出。

需要注意，本公开中提及的“第一”、“第二”等概念仅用于对装置、模块或单元进行区分，并非用于限定这些装置、模块或单元一定为不同的装置、模块或单元，也并非用于限定这些装置、模块或单元所执行的功能的顺序或者相互依存关系。

需要注意，本公开中提及的“一个”、“多个”的修饰是示意性而非限制性的，本领域技术人员应当理解，除非在上下文另有明确指出，否则应该理解为“一个或多个”。

本公开实施方式中的多个装置之间所交互的消息或者信息的名称仅用于说明性的目的，而并不是用于对这些消息或信息的范围进行限制。

ES，基本数据流(elementary stream)，用于某些硬盘播或编辑系统。

TS，传输数据流(transition stream)，用于数据传输。

PES，基本数据流(Packetized Elementary Stream)。

PTS，显示时间参数(Presentation Time Stamp)。

DTS，解码时间参数(Decoding Time Stamp)。

SPS，序列参数集(Sequence Parameter Set)。

PPS，图像参数集(Picture Parameter Set)。

下面以具体地实施例对本公开的技术方案以及本公开的技术方案如何解决上述技术问题进行详细说明。下面这几个具体的实施例可以相互结合，对于相同或相似的概念或过程可能在某些实施例中不再赘述。下面将结合附图，对本公开的实施例进行描述。

针对上述技术问题，本公开的实施例提供的一种视频数据的处理方法，如图1所示，该方法可以包括：

步骤S110，获取待处理的传输流TS文件。

可选择地或可替代地，TS(Transport Stream)文件为固定时长的视频片段。

步骤S120，解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包。

可选择地或可替代地，一个TS文件中可以包含多个PES数据包，一个PES数据包对应一个视频帧的内容，包括该视频帧对应的图像信息和音频数据。

步骤S130，分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包。

可选择地或可替代地，ES数据包中包括PES数据包中的图像信息和音频数据，每个PES数据包都有对应的ES数据包。

步骤S140，分别解析各个ES数据包，得到每个ES数据包的音视频参数。

步骤S150，基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

可选择地或可替代地，解析得到的音视频参数可以用于对TS文件进行后续处理，比如，解析得到的音视频参数用于对TS文件进行格式转换，以使得TS文件可以通过播放器播放。如果基于HLS协议，对TS文件进行格式转换，则音视频参数可以包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS。

本公开的实施例中的方案，可以在解析得到TS文件中的多个ES数据包后，针对每个ES数据包都解析出对应的音视频参数，避免同时解析所有ES数据包时，有被遗漏的ES数据包，从而使得基于解析每个ES数据包得到的TS文件的音视频参数更加准确。

本公开的实施例中，步骤S120中，解析TS文件，得到TS文件所对应的各个PES数据包，可以包括：

解析TS文件，得到TS文件中的第一TS数据包；

可选择地或可替代地，一个TS文件中可以包括多个TS数据包，通常一个TS数据包为188字节。在解析PES数据包时，实际是解析其中的TS数据包中的body数据，一个PES数据包中可以包括至少一个TS数据包。则在解析TS数据包之前，可以判断TS数据包是不是符合解析条件的数据包，如果是符合解析条件的数据包，则进行解析，如果不是符合解析条件的数据包，则不进行解析。

作为一个示例，比如，第一设定值为1，第一指定标识位为body数据的前3个字节或前4个字节，则在解析TS数据包中的body数据时，先读取前3个字节或前4个字节，如果这3个字节或4个字节为1，则表示该第一TS数据包符合解析条件，可以解析，否则，如果这3个字节或4个字节不为1，则表示该TS数据包不符合解析条件，不可以解析。

本公开的实施例中，该方法还可以包括：

基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；

若数据类型为视频数据，PES数据包为视频PES数据包；

若数据类型为音频数据，PES数据包为音频PES数据包。

可选择地或可替代地，由于一个PES数据包对应的是一个视频帧的内容，一个视频帧的内容可以包括视频数据和音频数据，则PES数据包中的数据可以包括音频数据和视频数据，在解析TS文件时，可以按照音频数据和视频数据解析得到PES数据包，PES数据包则可以是音频PES数据包，或者，是PES视频数据包。

作为一个示例，比如，解析PES数据包得到的一个数据类型标识位为streamId，基于该streamId可以判断该PES数据包中的数据是音频数据还是视频数据，在该示例中，streamId在c0和df(16进制的)之间时，PES数据包为音频PES数据包，streamId在e0和ef之间时，PES数据包为视频PES数据包。

本公开的实施例中，分别解析各个PES数据包，得到每个PES数据包的ES数据包，包括：

可选择地或可替代地，PES数据包如果是视频PES数据包，则对应于视频PES数据包，可以解析得到视频PES数据包对应的视频ES数据包，PES数据包如果是音频PES数据包，则对应于音频PES数据包，可以解析得到音频PES数据包对应的音频ES数据包，则基于视频ES数据包和音频ES数据包，可以得到该PES数据包对应的ES数据包。

本公开的实施例中，分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包，包括：

分别解析各个视频PES数据包对应的第二TS数据包，得到每个视频 PES数据包对应的视频ES数据包；

可选择地或可替代地，如果PES数据包是视频PES数据包，则先确定视频PES数据包对应的TS数据包中，符合第二预设条件的第二TS数据包，如果第二TS数据包是符合第二预设条件的TS数据包，则表示从该视频PES数据包中可以解析出对应的视频ES数据包，否则，如果第二TS数据包不是符合第二预设条件的TS数据包，则从该视频PES数据包中解析不出对应的视频ES数据包。

作为一个示例，比如，第二指定标识位为TS数据包中对应的前3位或前4位，第二设定值为1，则对于视频PES数据包，先解析该视频PES数据包对应的body数据的前3位或前4位，如果前3位或前4位为1，则表示该视频PES数据包符合第二预设条件，则解析符合第二预设条件的第二TS数据包，可以得到该视频PES数据包对应的视频ES数据包，否则，如果前3位或前4位不为1，则表示无法从视频PES数据包中解析到视频ES数据包。

本公开的实施例中，分别解析各个音频PES数据包，得到每个音频PES数据包对应的音频ES数据包，包括：

可选择地或可替代地，如果PES数据包是音频PES数据包，则先确定音频PES数据包对应的TS数据包中，符合第三预设条件的第三TS数据包，如果第三TS数据包是符合第三预设条件的TS数据包，则表示从该音频PES数据包中可以解析出对应的音频ES数据包，否则，如果第三TS数据包不是符合第三预设条件的TS数据包，则从该音频PES数据包中解析不出对应的音频ES数据包。

作为一个示例，比如，第三指定标识位为TS数据包中对应的标识位 aac，第三设定值为0xff(十六进制)，则对于音频PES数据包，先解析该音频PES数据包对应的body数据的2个字节，向右移4位，然后确定是否0xff，如果为0xff，则表示该音频PES数据包符合第三预设条件，则解析符合第三预设条件的第三TS数据包，可以得到该音频PES数据包对应的音频ES数据包，否则，如果不为0xff，则表示无法从音频PES数据包中解析到音频ES数据包。

在本发明的示例中，在解析音频PES数据包的同时，还可以解析出其他相关参数，比如声道、频率等，这些也可以作为音视频参数中的一部分。

本公开的实施例中，步骤S110中，获取待处理的传输流TS文件，可以包括：

获取待处理的m3u8文件；

解析待处理的m3u8文件，根据解析结果确定待处理的m3u8文件所对应的各个TS文件的播放地址信息；

根据播放地址信息，获取待处理的TS文件，待处理的TS文件为待处理的m3u8文件所对应的各个TS文件中的文件。

可选择地或可替代地，m3u8文件为纯文本文件，m3u8文件可以来源于网络，m3u8文件可以为直播文件，也可以为点播文件。在获取待处理的m3u8文件之后，可以解析该待处理的m3u8文件以获取对应的TS文件，TS文件可以包括多个TS文件，其中，可以通过正则解析的方式解析该m3u8文件。

m3u8文件还可携带有索引，该索引中标识了各TS文件及对应的播放地址信息，每个TS文件对应一个播放地址信息，则在解析该待处理的m3u8文件以获取对应的TS文件时，可以基于该索引，获取待处理的TS文件。其中，播放地址信息为对应TS文件的在线播放地址，基于该播放地址信息，可以对应播放该地址信息对应的TS文件。在播放该TS文件之前，需要对该TS文件进行格式转换处理，以使得该TS文件的格式符合播放器的播放格式要求。

其中，待处理的TS文件可以为待处理的m3u8文件所对应的各个TS文件中的任一个或几个文件，也可以是基于用户的播放请求所确定的各个 TS文件中的一个文件。其中，播放请求可以为用户通过终端向服务器发送的链接请求，表示用户想播放某个m3u8文件，在该播放请求中，可以包括m3u8文件的标识，基于该标识，服务器知道用户想要播放的是哪个m3u8文件。

如果m3u8文件中包括多个TS文件，各个TS文件对应的播放地址信息中还可以包括播放顺序，则按照该播放顺序，可以基于各个TS文件对应的地址信息，播放该多个TS文件。

本公开的实施例中，m3u8文件中携带有文件类型的标识，文件类型为点播文件或直播文件；

若文件类型为直播文件，获取待处理的m3u8文件为实时获取的m3u8文件。

可选择地或可替代地，在解析m3u8文件时，m3u8文件中携带有标识该m3u8文件的文件类型的标识，该标识可以为文件中的某个字段，通过该字段，可以确定该m3u8文件的文件类型，即该m3u8文件为点播文件还是直播文件，m3u8文件与解析出的TS文件的文件类型一致，m3u8文件为点播文件，解析出的TS文件也为点播文件，m3u8文件为直播文件，解析出的TS文件也为直播文件。

如果m3u8文件的文件类型为点播文件，则m3u8文件中的内容是不变的，如果m3u8文件的文件类型为直播文件，则m3u8文件中的内容时不断在变化的，即不断有新的内容加入到m3u8文件中，则需要实时获取该m3u8文件，实时解析该m3u8文件，以获取对应的TS文件，由此，如果m3u8文件的文件类型为点播文件，解析该m3u8文件得到的TS文件的数量是固定的，而如果m3u8文件的文件类型为直播文件，则解析该m3u8文件得到的TS文件的数量是实时变化的。

需要说明的是，在解析m3u8文件时，不只可以得到该m3u8文件的文件类型，还可以得到解析出的每个TS文件的时长。

本公开的实施例中，音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；方法还包括：

基于显示时间参数PTS，解码时间参数DTS、序列参数集SPS和图像参数集PPS，对待处理的TS文件进行格式转换。

可选择地或可替代地，m3u8是某些移动设备浏览器缓存视频的专用视频格式，普通的播放器不能够正常播放，需要进行转码才可以播放。因此，可以基于待处理的TS文件对应的音视频参数，将待处理的TS文件转换为设定格式的文件，其中，设定格式为播放器对应可播放文件的格式。比如，fmp4格式是在移动设备上通过普通播放器可以直接播放的视频格式，因此可以将M3U8文件转码为普通播放器兼容的格式，即fmp4格式，则TS文件转码后的格式与播放器的播放格式相兼容，通过该播放器可以直接播放该设定格式的文件。

本公开的实施例中，在对待处理的TS文件进行格式转换之后，该方法还可以包括：

获取针对待处理的m3u8文件的播放请求以及格式转换后的TS文件；

确定待处理的m3u8文件中各TS文件对应的播放地址信息；

依据各播放地址信息对应的播放顺序，依次播放各播放地址信息对应的格式转换后的TS文件。

可选择地或可替代地，在将TS文件进行格式转换后，转换后的TS文件的文件格式可以与播放器的播放格式相对应，则按照各播放地址信息对应的播放顺序，可以播放对应的格式转换后的TS文件，实现对TS文件的播放，其中，播放的TS文件可以是m3u8文件中各TS文件中的任意一个，或任意几个TS文件。

下面以一个具体示例，对本公开的方案进行具体说明：

步骤1：从TS文件中解析得到TS数据包。

步骤2：基于TS数据包，查找得到PAT表。

可选择地或可替代地，每个TS数据包中有一个PID字段，查找PAT表其实就是在解析TS文件得到的多个TS数据包中查找PID＝0的TS数据包，即包含节目表的第一TS数据包。

步骤3：基于PAT表，查找得到PMT表。

可选择地或可替代地，PID＝0的第一TS数据包中包括节目表，该节目表即为PMT表，则通过PID字段，可以知道在解析TS文件得到的多个TS数据包中，哪个是节目表。基于该节目表，可以对应得到TS数据包的属性信息(PMT表中包括用于标识TS数据包中哪些是音频数据，哪些是视频数据的相关信息)，该属性信息包括TS数据包的数据类型，该数据类型包括视频数据和音频数据，数据类型可以分别通过不同的类型标识表示，比如，视频的PID和音频的PID，通过视频的PID和音频的PID，即可知道在TS数据包中，哪些是视频数据，哪些是音频数据。

步骤4：基于PMT表，将多个TS数据包按照视频和音频进行分类。

可选择地或可替代地，基于PMT表可知TS数据包中哪些数据是音频数据，哪些是视频数据，则将多个TS数据包中的视频数据分为一类，音频数据分为一类，作为一个示例，多个TS数据包分别为TS数据包A和TS数据包B，则将TS数据包A中的视频数据和TS数据包B中的视频数据分为一类，将TS数据包A中的音频数据和TS数据包B中的音频数据分为一类。

步骤5：基于分类后的多个TS数据包，将多个TS数据包聚合成PES数据包。

可选择地或可替代地，一个TS数据包只有188个字节，播放器播放的一帧图像可能对应若干个188字节，一个视频帧的内容对应一个PES数据包，则一个TS数据包的数据可能只是一个视频帧的内容对应的一部分内容，因此，将多个TS数据包聚合成至少一个PES数据包；就是把上述分类得到的视频数据和音频数据分别进行聚合，得到至少一个PES数据包，PES数据包可以为音频PES数据包或视频PES数据包。

其中，在聚合的过程中，可通过标识位payload来标识一个PES数据包，即从payload＝0开始，到下一个payload＝0对应为1个PES数据包，payload＝0表示一个PES数据包的开始，得到的这一个PES数据包可能是视频PES数据包，也可能是音频PES数据包。

步骤6：解析各个PES数据包，确定各个PES数据包的数据类型；

可选择地或可替代地，PES数据包的数据类型为音频数据或视频数据，即解析PES数据包，可以得知该PES数据包是视频数据(视频PES数据包)，还是音频数据(音频PES数据包)，在上述步骤4对TS数据包进行分类时，已经通过视频的PID和音频的PID区分出哪些是视频，哪些是音频，因此，在解析PES时，仍然可以基于视频的PID和音频的PID来区分出PES中哪些是音频数据，哪些是视频数据。

可以理解的是，解析PES数据包后，不只可以确定出PES数据包的数据类型，还可以得到其他参数，比如，ESCR，CRC，PES数据包的包长度等参数。

步骤7：基于PES数据包，计算得到显示时间参数PTS和解码时间参数DTS。

可选择地或可替代地，PTS和DTS是MP4格式(播放器的播放格式)文件中需要用到的两个与编码相关的参数，其中，PTS是解码时间戳，DTS是展示时间戳，解码时间戳在展示时间戳之前，解码时间戳是为了告诉解码器什么时候解码PES，展示时间戳是为了告诉解码器什么时候播放PES。

步骤8：确定PES数据包中的ES数据包，并将PES数据包中的ES数据包存储。

可选择地或可替代地，ES数据包中的数据是真正的媒体数据，即视频的图像信息，其中不包括任何图像信息之外的信息，比如，PTS和DTS在ES数据包中都不包括。一个PES数据包中只应有一个ES数据包，则将PES数据包对应的TS数据包中的数据进行合并，即可得到对应的ES数据包。

步骤9：基于ES数据包，确定SPS和PPS。

可选择地或可替代地，SPS和PPS是MP4格式(播放器的播放格式)文件解码必须需要的两个参数，可基于ES数据包确定得到，具体确定过程如下：

基于ES数据包中的TS数据包对应的数据，基于第一个TS数据包(TS{0})中的body(body中包括TS数据包中真正的数据)数据，从body数据的第一个字节开始，先读4个字节，判断是否为1，如果为1，继续读1个字节，如果这个字节不等于0，则在SPS中存当前这个字节，得到SPS，如果等于0，读3个字节，如果这三个字节等于1，退回到4个字节；上述过程中得到的SPS是ES数据中位于0至1之间的数，位于0至1之外的数即为PPS。

上述计算SPS的过程就是在ES数据中找起始是001或0001的数，如果是1，就继续读后续的字节，不是就退出，如果是1，就继续读后续的字节，直到下一个001或0001，如果在第一个001或0001到下一个001或0001之间有不等于0的数，即为SPS，超过0001或001的即为PPS。

步骤10：基于计算得到的PTS、DTS、SPS和PPS参数，将TS文件转码为播放器的播放格式的文件，比如，播放器的播放格式为mp4，则将TS文件转码为mp4格式的文件。

本示例中，在上述步骤6中，解析一个PES数据包的具体过程如下：

步骤A：提取PES数据包中的第一个TS数据包。

可选择地或可替代地，在将多个TS数据包聚合成PES数据包时，可以对应得到多个PES数据包，一个PES数据包对应多个TS数据包，则基于PES数据包中的body数据，从该PES数据包中对应的第一个TS数据包(TS{0})开始解析，其中，TS{0}对应的是payload＝0时对应的数据，在一个PES数据包中，从第一个payload＝0到下一个payload＝0所对应的TS数据包中的数据对应一个PES数据包。

步骤B：基于PES数据包中的body数据，判断该第一个TS数据包是否为正常的数据包。

可选择地或可替代地，基于PES数据包中的body数据，先读3个字节001，或4个字节0001，如果这3个字节或4个字节不为1，表示这个TS数据包是异常的数据包，不进行解析，如果为1，表示这个TS数据包是正常的数据包，可以进行解析。

步骤C：在第一个TS数据包为正常数据包时，确定当前PES数据包的数据类型。

可选择地或可替代地，在基于PES数据包中的body数据，先读3个字节001，或4个字节0001，且这3个字节或4个字节为1时，再读1个字节，该字节对应的标识位为streamId，通过该标识位可以判断出当前PES的数据类型，其中，PES的数据类型包括视频数据和音频数据。具体地，基于streamId判断当前PES数据包是视频数据还是音频数据的一种实现方式为：streamId在c0和df(16进制)之间为音频数据，在e0和 ef之间为视频数据。

本公开的实施例中，在不断读取PES数据包中的body数据的过程中，body数据中还有PTS的参数标识和DTS的参数标识，PTS对应的参数标识为第一标识，DTS对应的参数标识为第二参数标识，如果读取到PTS对应的第一标识为1，则可以对应得到PTS，如果读取到的PTS对应的参数标识为0，则可以不再继续读下去，DTS的参数标识与PTS的参数标识为相同的原理，如果有DTS对应的第二参数标识为1，则可对应得到DTS，如果DTS对应的参数标识为0，则可以不再继续读下去。在读取body数据的过程中，还可以得到其他标识位对应的信息，比如，PES数据包的包长度等。

本公开的实施例中，步骤7中，基于PES数据包，计算得到PTS和DTS，具体可以包括：

基于PES数据包中的标识位ptsdtsflag，计算得到PTS和DTS，其中，ptsdtsflag为2或3；

当ptsdtsflag为2时，基于PES数据包中的body数据，先从ts{0}对应的body数据中读1个字节，向右移一位，与0x07相与得到pts0，再读2个字节，向右移一位，得到pts1，再读2个字节，向右移一位，得到pts2，则PTS＝[pts0左移30位，pts1左移15位，pts2]，此时，PTS对应一个数值；

如果PES数据包为音频数据，则PTS＝DTS。

当ptsdtsflag为3时，计算PTS的方式计算与上述ptsdtsflag为2时计算PTS的方式一致，计算DTS的方式与上述计算PTS的过程是一致的，但对应读取的字节的含义不同。

本公开的实施例中，步骤8中，确定PES数据包中的ES数据包，并将PES数据包中的ES数据包存储，可以包括：

基于PES的数据类型，解析PES数据包中的ES数据包：

如果ES数据包为视频数据，基于ES数据包中的body数据，先读3个字节001，或4个字节0001，如果这3个字节或4个字节不为1，表示这个TS数据包是异常的数据包，不进行解析，如果为1，表示这个TS数据包是正常的数据包，可以进行解析。在TS数据包为正常数据包之后，读取标识位NAL(network abstraction layer网络提取层)，并基于ES数据包，计算得到SPS和PPS。其中，h264的码流格式包括字节流格式，字节流格式是在h264官方协议文档中规定的格式。可以作为大多数编码器默认的输出格式。字节流格式的基本数据单位为NAL单元，也即NALU。为了从字节流中提取出NALU，协议规定，在每个NALU的前面加上起始码：0x000001或0x00000001(0x代表十六进制)。

然后基于SPS，PPS，PTS，DTS，将各个TS数据包中的ES数据包合并，即按照时序顺序将一个PES数据包中的各个TS数据包中的ES数据包合并得到一个PES数据包对应的ES数据包。

如果ES数据包为音频数据，检查标识位aac是否正常，具体为：先读2个字节，向右移4位，是否为0xff,如果是，标识位aac正常，如果不是，标识位aac不正常；如果标识位aac正常，从ES数据包中解析出一个ID，基于该ID，确定mpeg类型，mpeg类型包括mpeg-2和mpeg-4，同时解析出声道，频率，音频解码配置等参数。

基于声道，频率，音频解码配置等参数，将所有ES数据包合并，即将各个TS数据包中的ES数据包合并，具体为按照时序顺序将一个PES数据包中的各个TS数据包对应的ES数据包合并，得到一个PES数据包对应的ES数据包。其中，计算音频编码配置是基于声道和频率计算得到的。

最后将合并得到的ES数据包进行存储。

基于与图1中所示的视频数据的处理方法相同的原理，本公开的实施例中还提供了一种视频数据的处理装置20，如图2所示，该装置20可以包括：TS文件获取模块210，PES数据包确定模块220、ES数据包确定模块230、ES数据包解析模块240以及音视频参数确定模块250，其中，

TS文件获取模块210，可以被配置为获取待处理的传输流TS文件；

PES数据包确定模块220，可以被配置为解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包；

ES数据包确定模块230，可以被配置为分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；

ES数据包解析模块240，可以被配置为分别解析各个ES数据包，得到每个ES数据包的音视频参数；

音视频参数确定模块250，可以被配置为基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

本公开实施例的视频数据的处理装置，可以在解析得到TS文件中的多个ES数据包后，针对每个ES数据包都解析出对应的音视频参数，避免同时解析所有ES数据包时，有被遗漏的ES数据包，从而使得基于解析每个ES数据包得到的TS文件的音视频参数更加准确。

可选地，PES数据包确定模块可以被进一步配置为在解析TS文件，得到TS文件所对应的各个PES数据包时

解析TS文件，得到TS文件中的第一TS数据包；

可选地，该装置还包括：

数据类型确定模块，可以被配置为基于PES数据包的解析结果，确定PES数据包的数据类型，数据类型为视频数据或音频数据；

若数据类型为视频数据，PES数据包为视频PES数据包；

若数据类型为音频数据，PES数据包为音频PES数据包。

可选地，ES数据包确定模块可以被进一步配置为在分别解析各个PES数据包，得到每个PES数据包的ES数据包时

可选地，ES数据包确定模块可以被进一步配置为在分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包时

可选地，ES数据包确定模块可以被进一步配置为在分别解析各个音频PES数据包，得到每个音频PES数据包对应的在音频ES数据包时

可选地，音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；该装置还包括：

格式转换模块，可以被配置为基于音视频参数，对待处理的TS文件进行格式转换。

本公开实施例的装置可执行图1所示的一种视频数据的处理方法，其实现原理相类似，本公开各实施例中的视频数据的处理装置中的各模块所执行的动作是与本公开各实施例中的视频数据的处理方法中的步骤相对应的，对于视频数据的处理装置的各模块的详细功能描述具体可以参见前文中所示的对应的视频数据的处理方法中的描述，此处不再赘述。

基于与本公开的实施例中的方法相同的原理，下面参考图3，其示出了适于用来实现本公开实施例的电子设备(例如图1中的终端设备或服务器)600的结构示意图。本公开实施例中的终端设备可以包括但不限于诸如移动电话、笔记本电脑、数字广播接收器、PDA(个人数字助理)、PAD(平板电脑)、PMP(便携式多媒体播放器)、车载终端(例如车载导航终端)等等的移动终端以及诸如数字TV、台式计算机等等的固定终端。图3示出的电子设备仅仅是一个示例，不应对本公开实施例的功能和使用范围带来任何限制。

电子设备包括：存储器以及处理器，其中，这里的处理器可以称为下文的处理装置601，存储器可以包括下文中的只读存储器(ROM)602、随机访问存储器(RAM)603以及存储装置608中的至少一项，具体如下所示：

如图3所示，电子设备600可以包括处理装置(例如中央处理器、图形处理器等)601，其可以根据存储在只读存储器(ROM)602中的程序或者从存储装置608加载到随机访问存储器(RAM)603中的程序而执行各种适当的动作和处理。在RAM 603中，还存储有电子设备600操作所需的各种程序和数据。处理装置601、ROM 602以及RAM 603通过总线604彼此相连。输入/输出(I/O)接口605也连接至总线604。

通常，以下装置可以连接至I/O接口605：包括例如触摸屏、触摸板、键盘、鼠标、摄像头、麦克风、加速度计、陀螺仪等的输入装置606；包括例如液晶显示器(LCD)、扬声器、振动器等的输出装置607；包括例如磁带、硬盘等的存储装置608；以及通信装置609。通信装置609可以允许电子设备600与其他设备进行无线或有线通信以交换数据。虽然图3示出了具有各种装置的电子设备600，但是应理解的是，并不要求实施或具备所有示出的装置。可以替代地实施或具备更多或更少的装置。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在非暂态计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信装置609从网络上被下载和安装，或者从存储装置608被安装，或者从ROM 602被安装。在该计算机程序被处理装置601执行时，执行本公开实施例的方法中限定的上述功能。

需要说明的是，本公开上述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本公开中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本公开中，计算机可读信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读信号介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：电线、光缆、RF(射频)等等，或者上述的任意合适的组合。

在一些实施方式中，客户端、服务器可以利用诸如HTTP(Hyper Text Transfer Protocol，超文本传输协议)之类的任何当前已知或未来研发的网络协议进行通信，并且可以与任意形式或介质的数字数据通信(例如，通信网络)互连。通信网络的示例包括局域网(“LAN”)，广域网(“WAN”)，网际网(例如，互联网)以及端对端网络(例如，ad hoc端对端网络)，以及任何当前已知或未来研发的网络。

上述计算机可读介质可以是上述电子设备中所包含的；也可以是单独存在，而未装配入该电子设备中。

上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该电子设备执行时，使得该电子设备：获取待处理的传输流TS文件；解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包；分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；分别解析各个ES数据包，得到每个ES数据包的音视频参数；基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

可以以一种或多种程序设计语言或其组合来编写用于执行本公开的操作的计算机程序代码，上述程序设计语言包括但不限于面向对象的程序设计语言—诸如Java、Smalltalk、C++，还包括常规的过程式程序设计语言—诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)—连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本公开各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

描述于本公开实施例中所涉及到的模块或单元可以通过软件的方式实现，也可以通过硬件的方式来实现。其中，模块或单元的名称在某种情况下并不构成对该单元本身的限定。

本文中以上描述的功能可以至少部分地由一个或多个硬件逻辑部件来执行。例如，非限制性地，可以使用的示范类型的硬件逻辑部件包括：现场可编程门阵列(FPGA)、专用集成电路(ASIC)、专用标准产品(ASSP)、片上系统(SOC)、复杂可编程逻辑设备(CPLD)等等。

在本公开的上下文中，机器可读介质可以是有形的介质，其可以包含或存储以供指令执行系统、装置或设备使用或与指令执行系统、装置或设备结合地使用的程序。机器可读介质可以是机器可读信号介质或机器可读储存介质。机器可读介质可以包括但不限于电子的、磁性的、光学的、电磁的、红外的、或半导体系统、装置或设备，或者上述内容的任何合适组合。机器可读存储介质的更具体示例会包括基于一个或多个线的电气连接、便携式计算机盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或快闪存储器)、光纤、便捷式紧凑盘只读存储器(CD-ROM)、光学储存设备、磁储存设备、或上述内容的任何合适组合。

根据本公开的一个或多个实施例，【示例一】提供了一种视频数据的处理方法，包括：

获取待处理的传输流TS文件；

分别解析各个ES数据包，得到每个ES数据包的音视频参数；

基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

根据本公开的一个或多个实施例，解析TS文件，得到TS文件所对应的各个PES数据包，包括：

解析TS文件，得到TS文件中的第一TS数据包；

根据本公开的一个或多个实施例，该方法还包括：

若数据类型为视频数据，PES数据包为视频PES数据包；

若数据类型为音频数据，PES数据包为音频PES数据包。

根据本公开的一个或多个实施例，分别解析各个PES数据包，得到每个PES数据包的ES数据包，包括：

根据本公开的一个或多个实施例，分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包，包括：

根据本公开的一个或多个实施例，分别解析各个音频PES数据包，得到每个音频PES数据包对应的音频ES数据包，包括：

根据本公开的一个或多个实施例，音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；该方法还包括：

基于音视频参数，对待处理的TS文件进行格式转换。

根据本公开的一个或多个实施例，【示例二】提供了一种视频数据的处理的装置，该装置包括：

TS文件获取模块，可以被配置为获取待处理的传输流TS文件；

PES数据包确定模块，可以被配置为解析TS文件，得到TS文件所对应的各个分组的基本数据流PES数据包；

ES数据包确定模块，可以被配置为分别解析各个PES数据包，得到每个PES数据包中所包含的ES数据包；

ES数据包解析模块，可以被配置为分别解析各个ES数据包，得到每个ES数据包的音视频参数；

音视频参数确定模块，可以被配置为基于各个ES数据包的音视频参数，得到TS文件的音视频参数。

根据本公开的一个或多个实施例，PES数据包确定模块可以被进一步配置为在解析TS文件，得到TS文件所对应的各个PES数据包时：

解析TS文件，得到TS文件中的第一TS数据包；

根据本公开的一个或多个实施例，该装置还包括：

若数据类型为视频数据，PES数据包为视频PES数据包；

若数据类型为音频数据，PES数据包为音频PES数据包。

根据本公开的一个或多个实施例，PES数据包对应的TS数据包中的数据是符合解析条件的数据，解析条件为TS数据包的指定标识为设定值。ES数据包确定模块可以被进一步配置为在分别解析各个PES数据包，得到每个PES数据包的ES数据包时：

根据本公开的一个或多个实施例，ES数据包确定模块可以被进一步配置为在分别解析各个视频PES数据包，得到每个视频PES数据包对应的视频ES数据包时

根据本公开的一个或多个实施例，ES数据包确定模块可以被进一步配置为在分别解析各个音频PES数据包，得到每个音频PES数据包对应的在音频ES数据包时

根据本公开的一个或多个实施例，音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；该装置还包括：

以上描述仅为本公开的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本公开中所涉及的公开范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述公开构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本公开中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

此外，虽然采用特定次序描绘了各操作，但是这不应当理解为要求这些操作以所示出的特定次序或以顺序次序执行来执行。在一定环境下，多任务和并行处理可能是有利的。同样地，虽然在上面论述中包含了若干具体实现细节，但是这些不应当被解释为对本公开的范围的限制。在单独的实施例的上下文中描述的某些特征还可以组合地实现在单个实施例中。相反地，在单个实施例的上下文中描述的各种特征也可以单独地或以任何合适的子组合的方式实现在多个实施例中。

尽管已经采用特定于结构特征和/或方法逻辑动作的语言描述了本主题，但是应当理解所附权利要求书中所限定的主题未必局限于上面描述的特定特征或动作。相反，上面所描述的特定特征和动作仅仅是实现权利要求书的示例形式。

Claims

一种视频数据的处理方法，包括：

获取待处理的传输流TS文件；

解析所述TS文件，得到所述TS文件所对应的各个分组的基本数据流PES数据包；

分别解析各个所述PES数据包，得到每个所述PES数据包中所包含的ES数据包；

分别解析各个所述ES数据包，得到每个所述ES数据包的音视频参数；

基于各个所述ES数据包的音视频参数，得到所述TS文件的音视频参数。
根据权利要求1所述的方法，其中，所述解析所述TS文件，得到所述TS文件所对应的各个PES数据包，包括：

解析所述TS文件，得到所述TS文件中的第一TS数据包；

根据符合预设条件的第一TS数据包，得到所述TS文件所对应的各个PES数据包，所述第一预设条件为TS数据包的第一指定标识位为第一设定值。
根据权利要求1或2所述的方法，还包括：

基于所述PES数据包的解析结果，确定所述PES数据包的数据类型，所述数据类型为视频数据或音频数据；以及

若所述数据类型为所述视频数据，所述PES数据包为视频PES数据包；或者

若所述数据类型为所述音频数据，所述PES数据包为音频PES数据包。
根据权利要求3所述的方法，其中，所述分别解析各个所述PES数据包，得到每个所述PES数据包的ES数据包，包括：

分别解析各个所述视频PES数据包，得到每个所述视频PES数据包对应的视频ES数据包；

分别解析各个所述音频PES数据包，得到每个所述音频PES数据包对应的音频ES数据包；

基于每个PES数据包对应的所述视频ES数据包和所述音频ES数据包，确定每个所述PES数据包对应的ES数据包。
根据权利要求4所述的方法，其中，所述分别解析各个所述视频PES数据包，得到每个所述视频PES数据包对应的视频ES数据包，包括：

分别解析各个所述视频PES数据包对应的第二TS数据包，得到每个所述视频PES数据包对应的视频ES数据包，其中，所述第二TS数据包为符合第二预设条件的TS数据包，所述第二预设条件为TS数据包的第二指定标识位为第二设定值。
根据权利要求4所述的方法，其中，所述分别解析各个所述音频PES数据包，得到每个所述音频PES数据包对应的音频ES数据包，包括：

分别解析各个所述视频PES数据包对应的第三TS数据包，得到每个所述音频PES数据包对应的音频ES数据包，其中，所述第三TS数据包为符合第三预设条件的TS数据包，所述第三预设条件为TS数据包的第三指定标识位为第三设定值。
根据权利要求1至6中任一项所述的方法，其中，所述音视频参数包括显示时间参数PTS、解码时间参数DTS、序列参数集SPS和图像参数集PPS；以及

所述方法还包括：

基于所述音视频参数，对所述待处理的TS文件进行格式转换。
一种视频数据的处理装置，包括：

TS文件获取模块，被配置为获取待处理的传输流TS文件；

PES数据包确定模块，被配置为解析所述TS文件，得到所述TS文件所对应的各个分组的基本数据流PES数据包；

ES数据包确定模块，被配置为分别解析各个所述PES数据包，得到每个所述PES数据包中所包含的ES数据包；

ES数据包解析模块，被配置为分别解析各个所述ES数据包，得到每个所述ES数据包的音视频参数；

音视频参数确定模块，被配置为基于各个所述ES数据包的音视频参数，得到所述TS文件的音视频参数。
一种电子设备，包括：

存储器，被配置为存储计算机操作指令；以及

处理器，被配置为通过调用所述计算机操作指令，执行权利要求1至7中任一项所述的方法。
一种计算机可读介质，所述可读介质存储有至少一条指令、至少一段程序、代码集或指令集，所述至少一条指令、所述至少一段程序、所述代码集或指令集在由所述处理器加载并执行时实现权利要求1至7中任一项所述的方法。