WO2018170852A1

WO2018170852A1 - 多设备间唇音同步方法及设备

Info

Publication number: WO2018170852A1
Application number: PCT/CN2017/077925
Authority: WO
Inventors: 孙涛
Original assignee: 华为技术有限公司
Priority date: 2017-03-23
Filing date: 2017-03-23
Publication date: 2018-09-27
Also published as: EP3591908B9; EP3591908A1; EP3591908A4; EP3591908B1; US20200099734A1; CN109565466A; US11146611B2; CN109565466B

Abstract

本发明实施例提供一种多设备间唇音同步方法及设备，该方法包括：从设备接收主设备发送的RTCP报文，根据RTCP报文中的PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的STC，接着接收主设备发布的RTP，将RTP拼接成完整的音频数据帧放入从设备的PCM缓存，输出PCM缓存中的音频数据帧。

Description

多设备间唇音同步方法及设备

技术领域

本发明实施例涉及通信技术领域，尤其涉及一种多设备间唇音同步方法及设备。

背景技术

随着WIFI音箱和蓝牙音箱的广泛应用，音视频播放设备通过无线连接的方式将音频数据发送到WIFI音箱或蓝牙音箱，由音视频播放设备播放视频，WIFI音箱或蓝牙音箱播放音频的这一应用得到越来越多的用户青睐。该应用中，最重要的问题是要保证唇音同步，才能给用户带来良好的使用体验。

在现有的蓝牙音箱的使用过程中，音视频播放设备中的蓝牙驱动模块从自身的音频脉冲编码调制(Pulse Code Modulation，PCM)缓存中读取音频PCM数据，并通过蓝牙协议实时发送到蓝牙音箱，蓝牙音箱的蓝牙音频驱动模块基于蓝牙协议接收PCM数据，并将PCM数据实时发送到蓝牙音箱的音频PCM缓存，蓝牙音箱的PCM播放驱动模块直接从蓝牙音箱的音频PCM缓存读取音频PCM数据播放输出。

可以看出，蓝牙音箱只解决了音频跨设备输出的问题，不能实现设备间的唇音同步，上述方法应用到WIFI音箱亦是如此，且对于WIFI音箱而言，由于WIFI路由器转发时延导致音视频输出不同步进一步加剧，如何实现多设备间唇音同步，是一个需要解决的问题。

发明内容

本发明实施例提供一种多设备间唇音同步方法及设备，解决多设备间同步播放视频和音频时如何实现唇音同步的问题。

第一方面，本发明实施例提供一种多设备间唇音同步方法，用于一个主设备同步输出音频和视频到至少一个从设备中，方法包括：从设备接收主设备发送的实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带主设备周期性采集的节目时钟参考PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点；从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC；从设备根据主设备发送的组播服务地址和端口接收主设备发布的RTP，将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取音频数据帧对应的显示时间戳PTS，将音频数据帧放入从设备的音频脉冲编码调制PCM缓存；从设备根据自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。从而，实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

在一种可能的设计中，RTCP报文中携带RTCP会话标识，从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，还包括：从设备向主设备发送加入RTCP会话请求，以使主设备向从设备发送RTCP会话标识。

在一种可能的设计中，从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC，包括：从设备根据如下公式计算出从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

其中，scf_clt为从设备节目时钟频率，scf_srv主设备节目时钟频率，ntp_rcv为接收到RTCP报文的时刻，scr_srv和ntp_snd分别为PCR和RTCP报文的发送时间点；

从设备根据计算出的STC校正值校正自身的STC。

在一种可能的设计中，从设备接收主设备发送的实时控制协议RTCP报文之前，还包括：从设备接收主设备发送的媒体描述信息，媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率；从设备根据SNTP服务地址和端口进行系统时间同步；

从设备接收主设备发送的实时控制协议RTCP报文，包括：

从设备根据RTCP服务地址和端口接收主设备发送的RTCP报文。

第二方面，本发明实施例提供一种多设备间唇音同步方法，用于一个主设备同步输出音频和视频到至少一个从设备中，方法包括：主设备根据预设采集周期采集节目时钟参考PCR；主设备在确定满足预设条件时向从设备发送实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点，以使从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正从设备的系统时钟STC；主设备从主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将RTP发布到组播服务地址和端口，RTP的时间戳头域携带了音频数据帧对应的显示时间戳，用于从设备根据组播服务地址和端口接收RTP。从而，实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

在一种可能的设计中，RTCP报文中携带RTCP会话标识，主设备在确定满足预设条件时向从设备发送实时控制协议RTCP报文之前，还包括：主设备接收从设备发送的加入RTCP会话请求，并向从设备发送RTCP会话标识。

在一种可能的设计中，主设备根据预设采集周期采集节目时钟参考PCR之前，还包括：主设备向从设备发送媒体描述信息，媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率，SNTP服务地址和端口用于从设备进行系统时间同步，RTCP服务地址和端口用于从设备根据RTCP服务地址和端口接收主设备发送的RTCP报文。

在一种可能的设计中，预设条件为：主设备实际采集PCR的时间间隔与预设采集周期之间的偏差大于预设阈值。

在一种可能的设计中，预设阈值为20ms，预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

其中，scr_curr为当前采集时钟值，scr_last为上一个采集时钟值，scf_srv为主设备节目时钟频率，cycle_read_x为预设采集周期。

第三方面，本发明实施例提供一种从设备，包括：

第一接收模块，用于接收主设备发送的实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带主设备周期性采集的节目时钟参考PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点；校正模块，用于根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC；第二接收模块，用于根据主设备发送的组播服务地址和端口接收主设备发布的RTP；处理模块，用于将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取音频数据帧对应的显示时间戳PTS，将音频数据帧放入从设备的音频脉冲编码调制PCM缓存；输出模块，用于根据自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。从而，实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

在一种可能的设计中，RTCP报文中携带RTCP会话标识，从设备还包括：发送模块，用于在校正模块根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，向主设备发送加入RTCP会话请求，以使主设备向从设备发送RTCP会话标识。

在一种可能的设计中，校正模块具体用于：根据如下公式计算出从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

根据计算出的STC校正值校正自身的STC。

在一种可能的设计中，第一接收模块还用于：在接收主设备发送的实时控制协议RTCP报文之前，接收主设备发送的媒体描述信息，媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率；处理模块还用于根据SNTP服务地址和端口进行系统时间同步；

第一接收模块具体用于：根据RTCP服务地址和端口接收主设备发送的RTCP报文。

第四方面，本发明实施例提供一种主设备，包括：采集模块，用于根据预设采集周期采集节目时钟参考PCR；发送模块，用于在确定满足预设条件时向从设备发送实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点，以使从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正从设备的系统时钟STC；处理模块，用于从主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将RTP发布到组播服务地址和端口，RTP的时间戳头域携带了音频数据帧对应的显示时间戳，用于从设备根据组播服务地址和端口接收RTP。从而，实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

在一种可能的设计中，RTCP报文中携带RTCP会话标识，主设备还包括：接收模块，用于在发送模块在确定满足预设条件时向从设备发送实时控制协议RTCP报文之前，接收从设备发送的加入RTCP会话请求，并向从设备发送RTCP会话标识。

在一种可能的设计中，发送模块还用于：在采集模块根据预设采集周期采集节目时钟参考PCR之前，向从设备发送媒体描述信息，媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率，SNTP服务地址和端口用于从设备进行系统时间同步，RTCP服务地址和端口用于从设备根据RTCP服务地址和端口接收主设备发送的RTCP报文。

在一种可能的设计中，预设阈值为20ms，预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

第五方面，本发明实施例提供一种终端，包括：接收器、处理器和发送器；接收器用于从所述终端外部接收数据，发送器用于向外部设备发送数据；处理器用于执行上述第一方面或第二方面任一所述的方法。

本发明实施例还提供了一种计算机存储介质，用于储存为上述任一方面中从设备或主设备所用的计算机软件指令，其包含用于执行上述各方面所设计的方法或程序。

本发明实施例还提供了一种数据处理系统，包括用于执行上述第一方面或第二方面提供的各方法的模块。

本发明实施例还提供了一种计算机程序，用于执行上述第一方面或第二方面提供的各方法。

附图说明

图1为本发明实施例提供的多设备间唇音同步方法实施例一的流程示意图；

图2为本发明实施例提供的多设备间唇音同步方法实施例二的流程示意图；

图3为本发明实施例提供的多设备间唇音同步方法的原理示意图；

图4为主设备启动媒体共享服务时各个模块的交互流程图；

图5为从设备查询媒体共享资源时各个模块的交互流程图；

图6为从设备同步播放共享媒体资源时各个模块的交互流程图；

图7为本发明实施例从设备实施例一的结构示意图；

图8为本发明实施例从设备实施例二的结构示意图；

图9为本发明实施例主设备实施例一的结构示意图；

图10为本发明实施例主设备实施例二的结构示意图；

图11为本发明实施例从设备实施例三的结构示意图；

图12为本发明实施例主设备实施例三的结构示意图；

图13为本发明实施例主设备实施例四的结构示意图。

具体实施方式

本发明实施例的技术方案，可以应用于无线蜂窝网络的各种通信系统，例如：全球移动通信(Global System of Mobile communication，GSM)系统，码分多址(Code Division Multiple Access，CDMA)系统，宽带码分多址(Wideband Code Division Multiple Access Wireless，WCDMA)系统，通用分组无线业务(General Packet Radio Service，GPRS)系统，LTE系统，通用移动通信系统(Universal Mobile Telecommunications System，UMTS)等，本发明实施例并不限定。

本发明实施例的技术方案主要应用于一个主设备和一个或多个从设备同步播放视频数据和音频数据时如何保证唇音同步的场景。唇音同步是指主设备播放视频数据与从设备播放音频数据同步，用户观看视频时可以达到口型与声音同步的播放效果。主设备与从设备之间通过WIFI等方式连接，由主设备播放视频数据，从设备播放音频数据，主设备支持音视频同步输出，如手机、机顶盒(Set-Top Box，STB)、电视盒子(Over The Top，OTT)盒子等。从设备可以为WIFI音箱等设备，从设备可以播放音频数据。

本发明实施例提出的多设备间唇音同步方法及设备，可实现一个主设备带动多个从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。用于下面结合附图详细说明本发明实施例提供的技术方案。

图1为本发明实施例提供的多设备间唇音同步方法实施例一的流程示意图，用于一个主设备同步输出音频和视频到至少一个从设备中，如图1所示，该方法包括：

S101、主设备根据预设采集周期采集节目时钟参考(Program Clock Reference，PCR)。

S102、主设备根据采集的PCR确定是否满足预设条件，在满足预设条件时向从设备发送实时控制协议(Real Time Control Protocol，RTCP)报文，RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的网络时间协议(Network Time protocol，NTP)域携带RTCP报文的发送时间点。

其中，预设条件为：主设备实际采集PCR的时间间隔与预设采集周期之间的偏差大于预设阈值。预设阈值例如为-60ms-20ms之间的值。以20ms为例，预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

S103、从设备接收主设备发送的RTCP报文，从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟(System Time Clock，STC)。

其中，从设备接收到RTCP报文后，由于RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的NTP域携带RTCP报文的发送时间点，因此从设备可获取到PCR、RTCP报文的发送时间点以及接收到RTCP报文的时刻。RTCP时延就是RTCP传输时延，为RTCP报文的发送时间点与接收到RTCP报文的时刻之差。

其中，RTCP报文中携带RTCP会话标识，RTCP会话标识是主设备用于区分不同的从设备所分配的标识，具体地，从设备向主设备发送加入RTCP会话请求，主设备接收到加入RTCP会话请求后向该从设备发送RTCP会话标识，之后在主设备向该从设备发送的RTCP报文中携带RTCP会话标识。

具体地，从设备可以根据如下公式计算出从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

其中，scf_clt为从设备节目时钟频率，scf_srv主设备节目时钟频率，ntp_rcv为接收到RTCP报文的时刻，scr_srv和ntp_snd分别为PCR和RTCP报文的发送时间点。

接着从设备根据计算出的STC校正值校正从设备的STC。

S104、主设备从主设备的音频脉冲编码调制(Pulse Code Modulation，PCM)缓存中复制出音频数据帧并打包成实时流分组(Real Time Packet，RTP)，将RTP发布到组播服务地址和端口，RTP的时间戳头域携带了该音频数据帧对应的显示时间戳。

S105、从设备根据主设备发送的组播服务地址和端口接收主设备发布的RTP，将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取该音频数据帧对应的显示时间戳，将该音频数据帧放入从设备的PCM缓存。音频数据帧例如为音频帧。

S106、从设备根据自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。

具体地，从设备根据音频数据帧显示时间戳，参考自身的STC同步播放音频PCM缓存中的音频数据帧。

本实施例提供的多设备间唇音同步方法，通过主设备根据预设周期采集PCR，在确定满足预设条件(也即需要进行时间校正)时向从设备发送RTCP报文，RTCP报文携带所采集的PCR和RTCP报文的发送时间点，从设备根据该PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的STC。然后从设备根据主设备发送的组播服务地址和端口接收主设备发布的RTP，将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取该音频数据帧对应的显示时间戳，将该音频数据帧放入从设备的PCM缓存。最后从设备参考自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。从而实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

图2为本发明实施例提供的多设备间唇音同步方法实施例二的流程示意图，如图2所示，本实施例的方法在图1所示实施例的基础上，其中，若从设备与主设备是非第一次同步输出音视频数据，则主设备节目时钟频率可以是在第一次同步输出音视频数据后存储在从设备中，同时可以存储相应的主设备的标识，则在二次同步输出时可直接使用。若从设备与主设备是第一次同步输出音视频数据，则在S103之前，主设备要向从设备发送主设备节目时钟频率。同样的，若从设备与主设备是非第一次同步输出音视频数据，则用于从设备进行系统时间同步的简单网络时间协议(Simple Network Time protocol，SNTP)服务地址和端口、用于从设备接收RTCP报文的RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率可以是在第一次同步输出音视频数据后存储在从设备中，同时可以存储相应的主设备的标识，则在二次同步输出时可直接使用。若从设备与主设备是第一次同步输出音视频数据，则在S101之前，还可以包括：

S107、主设备向从设备发送媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率。具体地，主设备可以通过超文本传输协议发布媒体描述信息，

S108、从设备接收主设备发送的媒体描述信息。通过解析媒体描述信息获取SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率，然后根据SNTP服务地址和端口进行系统时间同步，之后根据RTCP服务地址和端口接收主设备发送的RTCP报文。组播服务地址和端口用于从设备接收主设备发布的RTP。媒体格式为主设备对音频数据帧压缩编码索使用的格式，用于从设备确定相应的解码格式。时戳频率用于从设备根据主设备的两个帧之间间隔的时戳调整从设备的两个帧之间间隔的时戳。

后面的流程与图1所示的相同，此处不再赘述。

本实施例提供的多设备间唇音同步方法，主设备向从设备发送媒体描述信息，从设备根据媒体描述信息中的SNTP服务地址和端口进行系统时间同步，接着通过主设备根据预设周期采集PCR，在确定满足预设条件(也即需要进行时间校正)时向从设备发送RTCP报文，RTCP报文携带所采集的PCR和RTCP报文的发送时间点，从设备根据该PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的STC。然后从设备根据主设备发送的组播服务地址和端口接收主设备发布的RTP，将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取该音频数据帧对应的显示时间戳，将该音频数据帧放入从设备的PCM缓存。最后从设备参考自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。从而实现了主设备带动从设备同步输出音视频数据，实现主设备和从设备间的唇音同步，给用户带来良好的使用体验。

下面结合附图，结合主设备以及从设备内部的模块构成以及模块之间的交互过程详细说明主设备音频输出至从设备的原理示意图。

图3为本发明实施例提供的多设备间唇音同步方法的原理示意图，如图3所示，对于主设备，本发明实施例在现有主设备(媒体播放器)的基础上，新增加媒体信息发布模块、系统时间服务端、节目时钟服务端和RTP分组服务端，在现有从设备的基础上，新增加媒体信息下载模块、系统时间客户端、节目时钟客户端、RTP分组客户端和节目时钟驱动模块。其中，媒体信息发布模块、系统时间服务端、节目时钟服务端和RTP分组服务端以及媒体信息下载模块、系统时间客户端、节目时钟客户端RTP分组客户端和节目时钟驱动模块都可以是软件模块。媒体信息发布模块用于发布媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率。媒体信息下载模块用于接收媒体描述信息。系统时间服务端和系统时间客户端实现从设备与主设备之间的时间同步。节目时钟服务端和节目时钟客户端实现从设备与主设备的节目时钟的高精度同步，例如确保节目时钟偏差低于20ms(约1帧PCM输出时延)。如果节目时钟客户端没法将时钟频率调制到与节目时钟服务端一致时，应对SCR和PTS进行相应的时钟频率转换。RTP分组服务端与RTP分组客户端建立了音频数据帧从主设备传输到从设备的RTP通道。从设备节目时钟驱动模块用于在PCM播放驱动模块播放音频数据时参靠节目时钟客户端时钟输出。

需要说明的是，如图3所示，主设备原有的PCM播放驱动模块在连接了从设备后可以断开不使用，由从设备播放同步输出的音频，从设备连接了主设备后，从设备原有的音频目标解码器与音频PCM缓存(FIFO)也断开，播放主设备输出的音频。

具体来说，主设备的音视频同步过程为：主设备的音视频同步模块基于目标节目的同步策略(PCR基准、视频流基准、音频流基准或音视频参考基准)和纯音同步算法，根据输入的PCR、音频显示时间戳(Presentation Timestamp，PTS)和视频PTS计算出节目时钟参考值，接着音视频同步模块将节目时钟参考值和当前系统时钟采样(SCR)比较，当偏移超过门限值(通常100ms～200ms)时，则使用节目时钟参考值校正系统时钟，得到经过校正的PCR。音频、视频等媒体流输出时，对比PTS和SCR安排显示输出时序。如，当PTS小于或等于当前采样SCR时，则输出当前音频帧，否则不输出。主设备与从设备连接后，视频正常输出，音频不通过PCM播放驱动模块播放，而是通过RTP分组服务端输出至从设备，由从设备同步输出音频。

图4为主设备启动媒体共享服务时各个模块的交互流程图，如图4所示，包括：

S201、主设备的监控模块连接上从设备或者发现从设备后，启动媒体共享服务流程，包括启动系统时间同步(系统时间服务端执行)、启动节目时钟同步(节目时钟服务端执行)、启动组播(RTP分组服务端执行)、启动媒体信息发布(媒体信息发布模块执行)。

S202、媒体信息发布模块发布媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率。

接着，系统时间服务端根据SNTP服务地址和端口进行系统时间同步，节目时钟服务端根据RTCP服务地址和端口接收主设备发送的RTCP报文，根据RTCP报文进行节目时钟同步，RTP分组服务端根据组播服务地址和端口发布RTP。

图5为从设备查询媒体共享资源时各个模块的交互流程图，如图5所示，包括：

S301、从设备的监控模块向媒体信息下载模块发送查询服务端媒体信息的请求。

S302、媒体信息下载模块向媒体信息发布模块发送媒体描述信息请求，媒体信息发布模块返回媒体描述信息请求响应，携带媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率。

S303、媒体信息下载模块解析媒体描述信息获得所有服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率。

S304、从设备的监控模块配置SNTP服务地址和端口，启动时间客户端进行SNTP时间同步。

最后，时间客户端与系统时间服务端之间进行系统时间同步。

图6为从设备同步播放共享媒体资源时各个模块的交互流程图，如图6所示，包括：

S401、从设备的监控模块向节目时钟客户端发送同步节目时钟请求。

S402、节目时钟客户端向节目时钟服务端发送加入RTCP会话请求，节目时钟服务端返回RTCP会话标识。

S403、节目时钟服务端根据预设采集周期采集PCR，并在满足预设条件时向节目时钟客户端发送PCR采样值。

S404、节目时钟客户端根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的STC。

S405、从设备的监控模块向RTP分组客户端发送启动音频数据帧接收请求。

S406、RTP分组客户端向RTP分组服务端发送加入组播组请求。

S407、RTP分组服务端向RTP分组客户端发送RTP。

S408、RTP分组客户端接收RTP，将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取该音频数据帧对应的显示时间戳，将该音频数据帧放入从设备的PCM缓存。

S409、PCM播放驱动模块根据从设备的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。

本发明实施例可以根据上述方法示例对主设备和从设备进行功能模块的划分，例如，可以对应各个功能划分各个功能模块，也可以将两个或两个以上的功能集成在一个处理模块中。上述集成的模块既可以采用硬件的形式实现，也可以采用软件功能模块的形式实现。需要说明的是，本发明实施例各实施例中对模块的划分是示意性的，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式。

图7为本发明实施例从设备实施例一的结构示意图，如图7所示，本实施例的从设备可以包括：第一接收模块11、校正模块12、第二接收模块13、处理模块14和输出模块15，其中，第一接收模块11用于接收主设备发送的RTCP报文，RTCP报文中的RTP时间戳头域携带主设备周期性采集的节目时钟参考PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点。校正模块12用于根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC。第二接收模块13用于根据主设备发送的组播服务地址和端口接收主设备发布的RTP。处理模块14用于将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取音频数据帧对应的显示时间戳PTS，将音频数据帧放入从设备的音频脉冲编码调制PCM缓存。输出模块15用于根据自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。

图8为本发明实施例从设备实施例二的结构示意图，如图8所示，在图7所示的从设备的基础上，进一步地，本实施例的从设备还可以包括：发送模块16，发送模块16用于在校正模块12根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，向主设备发送加入RTCP会话请求，以使主设备向从设备发送RTCP会话标识。

进一步地，校正模块12具体用于：根据如下公式计算出从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

其中，scf_clt为从设备节目时钟频率，scf_srv主设备节目时钟频率，ntp_rcv为接收到RTCP报文的时刻，scr_srv和ntp_snd分别为PCR和RTCP报文的发送时间点。根据计算出的STC校正值校正自身的STC。

进一步地，第一接收模块11还用于：在接收主设备发送的实时控制协议RTCP报文之前，接收主设备发送的媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率；处理模块14还用于根据SNTP服务地址和端口进行系统时间同步；第一接收模块11具体用于：根据RTCP服务地址和端口接收主设备发送的RTCP报文。

图7或图8所示实施例的从设备，可以用于执行图1或图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图9为本发明实施例主设备实施例一的结构示意图，如图9所示，本实施例的主设备可以包括：采集模块21、发送模块22和处理模块23，其中，采集模块21用于根据预设采集周期采集节目时钟参考PCR。发送模块22用于在确定满足预设条件时向从设备发送实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点，以使从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正从设备的系统时钟STC。处理模块23用于从主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将RTP发布到组播服务地址和端口，RTP的时间戳头域携带了音频数据帧对应的显示时间戳，用于从设备根据组播服务地址和端口接收RTP。

图10为本发明实施例主设备实施例二的结构示意图，如图10所示，在图9所示的主设备的基础上，进一步地，本实施例的主设备还可以包括：接收模块24，该接收模块24用于在发送模块22在确定满足预设条件时向从设备发送RTCP报文之前，接收从设备发送的加入RTCP会话请求，并向从设备发送RTCP会话标识。

进一步地，发送模块22还用于：在采集模块21根据预设采集周期采集节目时钟参考PCR之前，向从设备发送媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率，SNTP服务地址和端口用于从设备进行系统时间同步，RTCP服务地址和端口用于从设备根据RTCP服务地址和端口接收主设备发送的RTCP报文。

其中，预设条件为主设备实际采集PCR的时间间隔与预设采集周期之间的偏差大于预设阈值。

可选的，预设阈值为20ms，预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

图9和图10所示实施例的主设备，可以用于执行图1或图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图11为本发明实施例从设备实施例三的结构示意图，如图11所示，本实施例的从设备可以包括：接收器31、处理器32和发送器33，其中，接收器31用于接收主设备发送的RTCP报文，RTCP报文中的RTP时间戳头域携带主设备周期性采集的节目时钟参考PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点。处理器32用于根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC。接收器31还用于根据主设备发送的组播服务地址和端口接收主设备发布的RTP。处理器32还用于将RTP拼接成完整的音频数据帧，并从RTP分组的时间戳头域获取音频数据帧对应的显示时间戳PTS，将音频数据帧放入从设备的音频脉冲编码调制PCM缓存。发送器33用于根据自身的STC和音频数据帧显示时间戳输出音频PCM缓存中的音频数据帧。

进一步地，发送器33还用于在校正模块根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，向主设备发送加入RTCP会话请求，以使主设备向从设备发送RTCP会话标识。

进一步地，处理器32具体用于：根据如下公式计算出从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

进一步地，接收器31还用于：在接收主设备发送的实时控制协议RTCP报文之前，接收主设备发送的媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率；处理器32还用于根据SNTP服务地址和端口进行系统时间同步；接收器31具体用于：根据RTCP服务地址和端口接收主设备发送的RTCP报文。

本实施例的从设备，可以用于执行图1或图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

图12为本发明实施例主设备实施例三的结构示意图，如图12所示，本实施例的主设备可以包括：处理器41和发送器42，其中，处理器41用于根据预设采集周期采集节目时钟参考PCR。发送器42用于在确定满足预设条件时向从设备发送实时控制协议RTCP报文，RTCP报文中的实时流分组RTP时间戳头域携带PCR，RTCP报文中的网络时间协议NTP域携带RTCP报文的发送时间点，以使从设备根据PCR、主设备节目时钟频率、从设备的节目时钟频率和RTCP时延校正从设备的系统时钟STC。处理器41还用于从主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将RTP发布到组播服务地址和端口，RTP的时间戳头域携带了音频数据帧对应的显示时间戳，用于从设备根据组播服务地址和端口接收RTP。

图13为本发明实施例主设备实施例四的结构示意图，如图13所示，在图12所示的主设备的基础上，进一步地，本实施例的主设备还可以包括：接收器43，该接收器43用于在发送器42在确定满足预设条件时向从设备发送RTCP报文之前，接收从设备发送的加入RTCP会话请求，并向从设备发送RTCP会话标识。

进一步地，发送器42还用于：在处理器41根据预设采集周期采集节目时钟参考PCR之前，向从设备发送媒体描述信息，媒体描述信息包括SNTP服务地址和端口、RTCP服务地址和端口、组播服务地址和端口、主设备节目时钟频率、媒体格式和时戳频率，SNTP服务地址和端口用于从设备进行系统时间同步，RTCP服务地址和端口用于从设备根据RTCP服务地址和端口接收主设备发送的RTCP报文。

可选的，预设阈值为20ms，预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

图12和图13所示实施例的主设备，可以用于执行图1或图2所示方法实施例的技术方案，其实现原理和技术效果类似，此处不再赘述。

本说明书中的各个实施例均采用递进的方式描述，各个实施例之间相同相似的部分互相参见即可，每个实施例重点说明的都是与其他实施例的不同之处。尤其，对于系统或装置实施例而言，由于其基本相似于方法实施例，所以描述的比较简单，相关之处参见方法实施例的部分说明即可。

本领域普通技术人员将会理解，本发明实施例的各个方面、或各个方面的可能实现方式可以被具体实施为系统、方法或者计算机程序产品。因此，本发明实施例的各方面、或各个方面的可能实现方式可以采用完全硬件实施例、完全软件实施例(包括固件、驻留软件等等)，或者组合软件和硬件方面的实施例的形式，在这里都统称为“电路”、“模块”或者“系统”。此外，本发明实施例的各方面、或各个方面的可能实现方式可以采用计算机程序产品的形式，计算机程序产品是指存储在计算机可读介质中的计算机可读程序代码。

计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质包含但不限于电子、磁性、光学、电磁、红外或半导体系统、设备或者装置，或者前述的任意适当组合，如随机存取存储器(RAM)、只读存储器(ROM)、可擦除可编程只读存储器(EPROM或者快闪存储器)、光纤、便携式只读存储器(CD-ROM)。

计算机中的处理器读取存储在计算机可读介质中的计算机可读程序代码，使得处理器能够执行在流程图中每个步骤、或各步骤的组合中规定的功能动作；生成实施在框图的每一块、或各块的组合中规定的功能动作的装置。

计算机可读程序代码可以完全在用户的本地计算机上执行、部分在用户的本地计算机上执行、作为单独的软件包、部分在用户的本地计算机上并且部分在远程计算机上，或者完全在远程计算机或者服务器上执行。也应该注意，在某些替代实施方案中，在流程图中各步骤、或框图中各块所注明的功能可能不按图中注明的顺序发生。例如，依赖于所涉及的功能，接连示出的两个步骤、或两个块实际上可能被大致同时执行，或者这些块有时候可能被以相反顺序执行。

Claims

一种多设备间唇音同步方法，用于一个主设备同步输出音频和视频到至少一个从设备中，其特征在于，所述方法包括：

所述从设备接收所述主设备发送的实时控制协议RTCP报文，所述RTCP报文中的实时流分组RTP时间戳头域携带所述主设备周期性采集的节目时钟参考PCR，所述RTCP报文中的网络时间协议NTP域携带所述RTCP报文的发送时间点；

所述从设备根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC；

所述从设备根据所述主设备发送的组播服务地址和端口接收所述主设备发布的RTP，将所述RTP拼接成完整的音频数据帧，并从所述RTP分组的时间戳头域获取所述音频数据帧对应的显示时间戳PTS，将所述音频数据帧放入所述从设备的音频脉冲编码调制PCM缓存；

所述从设备根据自身的STC和音频数据帧显示时间戳输出所述音频PCM缓存中的音频数据帧。
根据权利要求1所述的方法，其特征在于，所述RTCP报文中携带RTCP会话标识，所述从设备根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，还包括：

所述从设备向所述主设备发送加入RTCP会话请求，以使所述主设备向所述从设备发送RTCP会话标识。
根据权利要求1或2所述的方法，其特征在于，所述从设备根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC，包括：

所述从设备根据如下公式计算出所述从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

其中，scf_clt为所述从设备节目时钟频率，scf_srv所述主设备节目时钟频率，ntp_rcv为接收到RTCP报文的时刻，scr_srv和ntp_snd分别为所述PCR和所述RTCP报文的发送时间点；

所述从设备根据计算出的STC校正值校正自身的STC。
根据权利要求1～3任一项所述的方法，其特征在于，所述从设备接收所述主设备发送的实时控制协议RTCP报文之前，还包括：

所述从设备接收所述主设备发送的媒体描述信息，所述媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、所述组播服务地址和端口、所述主设备节目时钟频率、媒体格式和时戳频率；

所述从设备根据所述SNTP服务地址和端口进行系统时间同步；

所述从设备接收所述主设备发送的实时控制协议RTCP报文，包括：

所述从设备根据所述RTCP服务地址和端口接收所述主设备发送的RTCP报文。
一种多设备间唇音同步方法，用于一个主设备同步输出音频和视频到至少一个从设备中，其特征在于，所述方法包括：

所述主设备根据预设采集周期采集节目时钟参考PCR；

所述主设备在确定满足预设条件时向所述从设备发送实时控制协议RTCP报文，所述RTCP报文中的实时流分组RTP时间戳头域携带所述PCR，所述RTCP报文中的网络时间协议NTP域携带所述RTCP报文的发送时间点，以使所述从设备根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正所述从设备的系统时钟STC；

所述主设备从所述主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将所述RTP发布到组播服务地址和端口，所述RTP的时间戳头域携带了所述音频数据帧对应的显示时间戳，用于所述从设备根据所述组播服务地址和端口接收所述RTP。
根据权利要求5所述的方法，其特征在于，所述RTCP报文中携带RTCP会话标识，所述主设备在确定满足预设条件时向所述从设备发送实时控制协议RTCP报文之前，还包括：

所述主设备接收所述从设备发送的加入RTCP会话请求，并向所述从设备发送RTCP会话标识。
根据权利要求5或6所述的方法，其特征在于，所述主设备根据预设采集周期采集节目时钟参考PCR之前，还包括：

所述主设备向所述从设备发送媒体描述信息，所述媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、所述组播服务地址和端口、所述主设备节目时钟频率、媒体格式和时戳频率，所述SNTP服务地址和端口用于所述从设备进行系统时间同步，所述RTCP服务地址和端口用于所述从设备根据所述RTCP服务地址和端口接收所述主设备发送的RTCP报文。
根据权利要求5～7任一项所述的方法，其特征在于，所述预设条件为：

所述主设备实际采集PCR的时间间隔与所述预设采集周期之间的偏差大于预设阈值。
根据权利要求8所述的方法，其特征在于，所述预设阈值为20ms，所述预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

其中，scr_curr为当前采集时钟值，scr_last为上一个采集时钟值，scf_srv为所述主设备节目时钟频率，cycle_read_x为所述预设采集周期。
一种从设备，其特征在于，包括：

第一接收模块，用于接收所述主设备发送的实时控制协议RTCP报文，所述RTCP报文中的实时流分组RTP时间戳头域携带所述主设备周期性采集的节目时钟参考PCR，所述RTCP报文中的网络时间协议NTP域携带所述RTCP报文的发送时间点；

校正模块，用于根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC；

第二接收模块，用于根据所述主设备发送的组播服务地址和端口接收所述主设备发布的RTP；

处理模块，用于将所述RTP拼接成完整的音频数据帧，并从所述RTP分组的时间戳头域获取所述音频数据帧对应的显示时间戳PTS，将所述音频数据帧放入所述从设备的音频脉冲编码调制PCM缓存；

输出模块，用于根据自身的STC和音频数据帧显示时间戳输出所述音频PCM缓存中的音频数据帧。
根据权利要求10所述的从设备，其特征在于，所述RTCP报文中携带RTCP会话标识，所述从设备还包括：

发送模块，用于在所述校正模块根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正自身的系统时钟STC之前，向所述主设备发送加入RTCP会话请求，以使所述主设备向所述从设备发送RTCP会话标识。
根据权利要求10或11所述的从设备，其特征在于，所述校正模块具体用于：

根据如下公式计算出所述从设备的STC校正值scr_correct：

scr_correct＝scr_srv*scf_clt/scf_srv+(ntp_rcv–ntp_snd)*scf_clt/1000

其中，scf_clt为所述从设备节目时钟频率，scf_srv所述主设备节目时钟频率，ntp_rcv为接收到RTCP报文的时刻，scr_srv和ntp_snd分别为所述PCR和所述RTCP报文的发送时间点；

根据计算出的STC校正值校正自身的STC。
根据权利要求10～12任一项所述的从设备，其特征在于，所述第一接收模块还用于：

在接收所述主设备发送的实时控制协议RTCP报文之前，接收所述主设备发送的媒体描述信息，所述媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、所述组播服务地址和端口、所述主设备节目时钟频率、媒体格式和时戳频率；

所述处理模块还用于根据所述SNTP服务地址和端口进行系统时间同步；

所述第一接收模块具体用于：根据所述RTCP服务地址和端口接收所述主设备发送的RTCP报文。
一种主设备，其特征在于，包括：

采集模块，用于根据预设采集周期采集节目时钟参考PCR；

发送模块，用于在确定满足预设条件时向所述从设备发送实时控制协议RTCP报文，所述RTCP报文中的实时流分组RTP时间戳头域携带所述PCR，所述RTCP报文中的网络时间协议NTP域携带所述RTCP报文的发送时间点，以使所述从设备根据所述PCR、所述主设备节目时钟频率、所述从设备的节目时钟频率和RTCP时延校正所述从设备的系统时钟STC；

处理模块，用于从所述主设备的音频脉冲编码调制PCM缓存中复制出音频数据帧并打包成实时流分组RTP，将所述RTP发布到组播服务地址和端口，所述RTP的时间戳头域携带了所述音频数据帧对应的显示时间戳，用于所述从设备根据所述组播服务地址和端口接收所述RTP。
根据权利要求14所述的主设备，其特征在于，所述RTCP报文中携带RTCP会话标识，所述主设备还包括：

接收模块，用于在所述发送模块在确定满足预设条件时向所述从设备发送实时控制协议RTCP报文之前，接收所述从设备发送的加入RTCP会话请求，并向所述从设备发送 RTCP会话标识。
根据权利要求14或15所述的主设备，其特征在于，所述发送模块还用于：

在所述采集模块根据预设采集周期采集节目时钟参考PCR之前，向所述从设备发送媒体描述信息，所述媒体描述信息包括简单网络时间协议SNTP服务地址和端口、RTCP服务地址和端口、所述组播服务地址和端口、所述主设备节目时钟频率、媒体格式和时戳频率，所述SNTP服务地址和端口用于所述从设备进行系统时间同步，所述RTCP服务地址和端口用于所述从设备根据所述RTCP服务地址和端口接收所述主设备发送的RTCP报文。
根据权利要求14～16任一项所述的主设备，其特征在于，所述预设条件为：

所述主设备实际采集PCR的时间间隔与所述预设采集周期之间的偏差大于预设阈值。
根据权利要求17所述的主设备，其特征在于，所述预设阈值为20ms，所述预设条件为：

(scr_curr–scr_last)*1000/scf_srv<(cycle_read_x–20)或

(scr_curr–scr_last)*1000/scf_srv>(cycle_read_x+20)；

其中，scr_curr为当前采集时钟值，scr_last为上一个采集时钟值，scf_srv为所述主设备节目时钟频率，cycle_read_x为所述预设采集周期。