WO2009137972A1

WO2009137972A1 - 视音频同流传输的方法、系统及相应的接收方法和设备

Info

Publication number: WO2009137972A1
Application number: PCT/CN2008/072681
Authority: WO
Inventors: 刘志强; 张建强; 彭铭
Original assignee: 中兴通讯股份有限公司
Priority date: 2008-05-13
Filing date: 2008-10-14
Publication date: 2009-11-19
Also published as: CN101272499B; CN101272499A

Description

视音频同流传输的方法、系统及相应的接收方法和设备

技术领域

本发明涉及移动多媒体广播或手机电视技术领域，尤其涉及一种移动多媒体广播视音频同流传输的方法及系统。

背景技术

移动多媒体广播是近年来兴起的一种多媒体播放技术。通过手持的终端，即使在高速移动的情况下，也可以观看电视。终端通过无线协议，接收到节目单，并可以选择自己有权限收看的频道，接收所选频道的多媒体数据，从而实现在移动终端上看电视。

系统发射的空中数据，被分成不同的频道，每个频道的数据又包括：视频、音频和数据三种类型，需要通过复用技术来分别传输；终端可以接收相关的数据，通过终端上的播放器，实现电视的正常播放。

现常见的媒体流传输标准主要有以下两种：

第一种是 RTP ( Real-time Transport Protocol, 实时传输协议）方式。这种方式可以通过打开多个 RTP通道来分别传输视频流和音频流；但这种方式存在视频流和音频流之间同步传输较难控制的问题。

第二种是 TS ( Transport Stream,传输流）方式。 TS协议是 MPEG( Moving Picture Expert Grou , 运动图像专家组）标准中的一种，它把视频、音频放在一个固定 188字节大小的包里传输，通过 PID ( Program Identifier, 节目标识 ) 字段来区分视频和音频，从而可以支持视频和音频在一个 TS流中传输；但是 TS方式的每个包很小，终端需要分级解析，为了获取一个完整的视音频帧，需要緩存大量 TS包，而且解析逻辑较复杂。

发明内容

本发明要解决的技术问题是提供一种视音频同流传输的方法及系统，简化终端视音频同步控制，降低视频音频解析复杂度，改善用户体验。为了解决上述技术问题，本发明提供了一种视音频同流传输的方法，包括以下步骤：

发送端设备按时间片周期緩存输入的视频数据和音频数据并按播放时间顺序排序，将同一时间片周期内的排序后的视频数据和音频数据分别封装为同一媒体帧内视频段中的视频单元和音频段中的音频单元，并在该媒体帧中写入视频单元和音频单元的播放时间信息，封装完成后，将该媒体帧从广播信道传输给接收端设备。

进一步地，该方法还包括：

接收端设备从广播信道中获取媒体帧后，解析出其中的视频单元、音频单元和播放时间信息，计算得到每个视频单元和音频单元的播放时间，将所述视频单元和音频单元顺序解码后，根据对应的播放时间进行播放。

进一步的，所述播放时间信息包括起始播放时间和相对播放时间，所述起始播放时间为所述时间片周期内所有视频单元与音频单元的播放时间中的最早时间值，所述相对播放时间是用视频单元或音频单元的播放时间减去所述起始播放时间得到。

进一步的，所述媒体帧包括媒体帧头、视频段和音频段，视频段又包括视频段头和一个或多个视频单元，音频段又包括音频段头和一个或多个音频单元；在所述媒体帧写入播放时间信息时，是将所述起始播放时间填入媒体帧头，将每个视频单元和音频单元的相对播放时间填入对应的视频段头和音频段头。

进一步的，生成的视频单元和音频单元都是可变长的。

进一步的，所述输入的视频数据和音频数据是视频码流和音频码流。

本发明提供的视音频同流传输的系统，包括发送端设备及接收端设备，所述发送端设备包括媒体帧发送模块，所述接收端设备包括媒体帧接收模块、媒体帧解析模块，其中：

所述发送端设备还包括视音频排序模块、媒体帧封装模块，其中：所述视音频排序模块用于按时间片周期緩存输入的视频数据和音频数据，将所述视频和音频数据按播放时间顺序排序后发送给媒体帧封装模块；所述媒体帧封装模块用于将同一时间片周期内的排序后的视频数据和音频数据分别顺序封装为同一媒体帧内视频段中的视频单元和音频段中的音频单元，并在该媒体帧中写入各视频单元和音频单元的播放时间信息，封装好媒体帧后发送给媒体帧发送模块；

所述媒体帧发送模块用于将封装好的媒体帧发送给所述接收端设备；所述接收端设备还包括视音频解码模块及视音频播放模块，其中：所述媒体帧接收模块用于接收所述发送端设备发来的广播媒体帧流，并转发给媒体帧解析模块；

所述媒体帧解析模块用于从媒体帧中解析出视频单元和音频单元，发送给视音频解码模块，同时从媒体帧中解析出起始播放时间和相对播放时间信息，发送给视音频播放模块；

所述视音频解码模块用于将视频单元和音频单元的视音频编码数据解码成能够播放的视音频数据，并发送给视音频播放模块；

所述视音频播放模块用于根据收到的起始播放时间和各视频单元和音频单元的相对播放时间计算出相应视频数据和音频数据的播放时间，并按时间顺序播放。

进一步的，所述媒体帧封装模块将媒体帧头、视频段和音频段封装为媒体帧时，将所述起始播放时间填入媒体帧头，将视频段头和一个或多个视频单元封装为视频段，将音频段头和一个或多个音频单元封装为音频段，将每个视频单元的相对播放时间填入对应的视频段的段头，将每个音频单元的相对播放时间填入到对应的音频段的段头。

进一步的，所述视音频排序模块緩存的所述输入的视频数据和音频数据是视频码流和音频码流。

釆用本发明提出的移动多媒体广播视音频同流传输的方法及系统，将相同时间段内视音频数据，按时间顺序封装在一个媒体帧后在前端发送，从而可简化接收端视音频同步控制，减少接收端的緩冲时间，降低视频音频解析复杂度，改善用户体验。

本发明要解决的另一技术问题是提供一种在接收端设备实现视音频同流的方法及相应的接收端设备，可以实现视音频同流时的同步播放，简化接收端视音频同步控制，降低视频音频解析复杂度。

为了解决上述技术问题，本发明提供了一种接收端设备实现视音频同流传输的方法，包括以下步骤：

进一步的，所述接收端设备收到的所述媒体帧包括媒体帧头、视频段和音频段，所述接收端设备是从所述媒体帧头解析出起始播放时间，从所述视频段解析出视频单元，从所述音频段解析出音频单元，在所述视频段的段头解析出各视频单元的相对播放时间，在所述音频段的段头解析出各音频单元的相对播放时间，用所述起始播放时间加上视频单元的相对播放时间得到视频数据的播放时间，用所述起始播放时间加上音频单元的相对播放时间得到音频数据的播放时间。

本发明提供的接收端设备，包括媒体帧接收模块和视音频播放模块，其中：

所述接收端设备还包括媒体帧解析模块和视音频解码模块；其中，所述媒体帧接收模块用于接收发送端设备发来的广播媒体帧流，并转发给媒体帧解析模块；

所述视音频解码模块用于将视频单元和音频单元的视音编码数据解码成能够播放的视音频数据，并发送给视音频播放模块；

所述视音频播放模块用于根据收到的起始播放时间和各音频单元和视频单元的相对播放时间计算出相应视频数据和音频数据的播放时间，并按时间顺序播放。

进一步的，所述接收端设备接收的所述媒体帧包括媒体帧头、视频段和音频段，所述接收端设备从所述媒体帧头解析出起始播放时间，从所述视频段解析出视频单元，从所述音频段解析出音频单元，在所述视频段的段头解析出视频单元的相对播放时间，在所述音频段的段头解析出各音频单元的相对播放时间，用所述起始播放时间加上视频单元的相对播放时间得到视频数据播放时间，用所述起始播放时间加上音频单元的相对播放时间得到音频数据的播放时间。

釆用本发明提出的在接收端设备实现视音频同流的方法及相应的接收端设备，可以正确解析和播放在相同时间段内封装在一个媒体帧内按时间顺序发送的视音频数据，简化终端视音频同步控制，减少终端的緩冲时间，降低视频音频解析复杂度，改善用户体验。

附图概述

图 1是本发明中移动多媒体广播视音频同流传输的系统结构图；图 2是本发明中媒体帧的结构示意图；

图 3是本发明实施例的多媒体广播前端广播流程图；

图 4是本发明实施例的多媒体广播终端播放流程图。

本发明的较佳实施方式

下面将结合附图及实施例对本发明的技术方案作更详细的说明：本发明提供一种视音频同流传输的系统，如图 1所示，包括移动多媒体广播系统发送端设备及接收端设备，发送端设备包括视音频排序模块、媒体帧封装模块及媒体帧发送模块，接收端设备包括媒体帧接收模块、媒体帧解析模块、视音频解码模块及视音频播放模块；其中：

视音频排序模块用于接收数据输入流，按时间片周期緩存视频和音频（文中也简称视音频）数据，然后将緩存的视音频数据按时间顺序排序，再将排序后的视音频数据发送给媒体帧封装模块；

其中，输入流是包含视频、音频码流的媒体流。

媒体帧封装模块用于将按时间排序后的视音频数据，分别作为视频单元和音频单元，按顺序分别封装到媒体帧中的视频段和音频段，即按顺序分别封装为同一媒体帧中的视频段中的视频单元和音频段中的音频单元，并将封装好的媒体帧发送给媒体帧发送模块；

其中，媒体帧包^某体帧头、视频段和音频段，如图 2所示；媒体帧头包含媒体帧起始播放时间、视频流参数和音频流参数等信息；视频段由视频段头和一个或多个视频单元组成，视频段头中包含视频相对播放时间，且视频单元是可变长的；音频段由音频段头和一个或多个音频单元组成，音频段头中包含音频相对播放时间，且音频单元是可变长的。

媒体帧发送模块用于将封装好的媒体帧以广播媒体帧流的方式发送给接收端设备；

媒体帧接收模块用于接收发送端设备发来的广播媒体流，并将其转发给媒体帧解析模块；

媒体帧解析模块用于从媒体帧中解析出视音频单元，并将其发送给视音频解码模块，同时从媒体帧中解析出起始播放时间和相对播放时间信息，发送给视音频播放模块；

视音频解码模块用于接收解析后的视音频单元，将指定的视音频编码数据解码成终端硬件能够播放的视音频数据，并把解码后的视音频数据发送给视音频播放模块；

视音频播放模块用于接收视音频解码模块解码出来的视音频数据并根据收到的起始播放时间和各视音频单元的相对播放时间计算出相应的视音频数据的播放时间，将视音频数据按时间顺序在终端展现即播放。

本发明还提供一种视音频同流传输的方法：

移动多媒体广播可以在一个固定的时间片内发送一个广播信道帧结构数据，固定时间片可以是 1秒但不限于 1秒，也可以是其它时间值。现在假设以 1秒钟作为时间片周期。

在移动多媒体广播发送端设备上，如图 3所示，按以下步骤操作： 301 , 发送端设备如移动多媒体广播前端接收数据输入流；

其中，输入流是包含视频、音频码流的媒体流，即视音频数据流。

302, 将输入的视音频数据放入视音频緩存中；

303 , 判断时间片周期是否到达；

如果时间片周期到达，则进行步骤 304; 如果时间片周期尚未到达，则继续执行步骤 301。

304 , 将緩存的视音频数据按播放时间顺序进行排序；

305 , 将按时间排序的视频数据和音频数据，按顺序分别封装为同一媒体帧内的视频段的视频单元和音频段的音频单元，并计算出视频单元和音频单元的相对播放时间；

其中，将该时间片周期内所有视频单元与音频单元的播放时间的最早时间值填入媒体帧头中的起始播放时间字段；根据视频单元和音频单元播放时间和起始播放时间以及计算公式：视频单元或音频单元相对播放时间 =视频单元或音频单元播放时间 -媒体帧起始播放时间，计算出视频单元和音频单元相对播放时间，将视频单元和音频单元相对播放时间分别写入视频段头和音频段头中。

306, 将媒体帧从广播信道传输给接收端设备。

在移动多媒体广播接收端设备上，如图 4所示，按以下步骤操作：

401 ,接收端设备如移动多媒体广播终端每秒钟从广播信道中获取一个媒体帧；

402,对所获得的媒体帧进行解析，获取视音频单元及其起始播放时间和相对播放时间信息；

403 , 将该媒体帧的视音频单元顺序放入解码器中解码；

404, 计算视音频数据的播放时间，根据其播放时间播放。

其中，视音频数据播放时间通过计算公式：视频数据或音频数据播放时间 =媒体帧起始播放时间 +视频单元或音频单元相对播放时间得到。

综上可知，由于媒体帧中包含了相同时间段中的视音频数据，同步控制比使用 RTP方式更加简单、容易；同时由于视音频单元都是可变长的，每个视音频单元都可以传输完整的视音频数据，使得多媒体广播接收端不再需要通过大量的緩存和复杂的解析来恢复完整的视音频数据，这种解析方法比 TS 解析更加简便。

Claims

权利要求书

1、一种视音频同流传输的方法，包括以下步骤：

2、如权利要求 1所述的方法，其特征在于，还包括：

3、如权利要求 2所述的方法，其特征在于：

所述播放时间信息包括起始播放时间和相对播放时间，所述起始播放时间为所述时间片周期内所有视频单元与音频单元的播放时间中的最早时间值，所述相对播放时间是用视频单元或音频单元的播放时间减去所述起始播放时间得到。

4、如权利要求 3所述的方法，其特征在于：

所述媒体帧包括媒体帧头、视频段和音频段，视频段又包括视频段头和一个或多个视频单元，音频段又包括音频段头和一个或多个音频单元；在所述媒体帧写入播放时间信息时，是将所述起始播放时间填入媒体帧头，将每个视频单元和音频单元的相对播放时间填入对应的视频段头和音频段头。

5、如权利要求 1所述的方法，其特征在于：生成的视频单元和音频单元都是可变长的。

6、如权利要求 1所述的方法，其特征在于：所述输入的视频数据和音频数据是视频码流和音频码流。

7、一种在接收端设备实现视音频同流的方法，包括以下步骤：接收端设备从广播信道中获取媒体帧后，解析出其中的视频单元、音频单元和播放时间信息，计算得到每个视频单元和音频单元的播放时间，将所述视频单元和音频单元顺序解码后，根据对应的播放时间进行播放。

8、如权利要求 7所述的方法，其特征在于：

所述接收端设备收到的所述媒体帧包括媒体帧头、视频段和音频段，所述接收端设备是从所述媒体帧头解析出起始播放时间，从所述视频段解析出视频单元，从所述音频段解析出音频单元，在所述视频段的段头解析出各视频单元的相对播放时间，在所述音频段的段头解析出各音频单元的相对播放时间，用所述起始播放时间加上视频单元的相对播放时间得到视频数据的播放时间，用所述起始播放时间加上音频单元的相对播放时间得到音频数据的播放时间。

9、一种视音频同流传输的系统，包括发送端设备及接收端设备，所述发送端设备包括媒体帧发送模块，所述接收端设备包括媒体帧接收模块、媒体帧解析模块，其特征在于：

所述媒体帧解析模块用于从媒体帧中解析出视频单元和音频单元，发送给视音频解码模块，同时从媒体帧中解析出起始播放时间和相对播放时间信息，发送给视音频播放模块；所述视音频解码模块用于将视频单元和音频单元的视音频编码数据解码成能够播放的视音频数据，并发送给视音频播放模块；

10、如权利要求 9所述的系统，其特征在于：

所述媒体帧封装模块将媒体帧头、视频段和音频段封装为媒体帧时，将所述起始播放时间填入媒体帧头，将视频段头和一个或多个视频单元封装为视频段，将音频段头和一个或多个音频单元封装为音频段，将每个视频单元的相对播放时间填入对应的视频段的段头，将每个音频单元的相对播放时间填入到对应的音频段的段头。

11、如权利要求 9或 10所述的系统，其特征在于：所述视音频排序模块緩存的所述输入的视频数据和音频数据是视频码流和音频码流。

12、一种接收端设备，包括媒体帧接收模块和视音频播放模块，其特征在于：

13、如权利要求 12所述的接收端设备，其特征在于: 所述接收端设备接收的所述媒体帧包括媒体帧头、视频段和音频段，所述接收端设备从所述媒体帧头解析出起始播放时间，从所述视频段解析出视频单元，从所述音频段解析出音频单元，在所述视频段的段头解析出视频单元的相对播放时间，在所述音频段的段头解析出各音频单元的相对播放时间，用所述起始播放时间加上视频单元的相对播放时间得到视频数据播放时间，用所述起始播放时间加上音频单元的相对播放时间得到音频数据的播放时间。