WO2014153831A1

WO2014153831A1 - 单路视频多路音频的视频监控方法及系统

Info

Publication number: WO2014153831A1
Application number: PCT/CN2013/076501
Authority: WO
Inventors: 李奎; 蔡瑞青; 陈杰; 凌在龙; 金祥庆
Original assignee: 杭州海康威视数字技术股份有限公司
Priority date: 2013-03-29
Filing date: 2013-05-30
Publication date: 2014-10-02
Also published as: US20170099524A1; US10477282B2; CN104079870B; CN104079870A; EP3104597A1; EP3104597A4

Abstract

本发明提供了一种单路视频多路音频的视频监控方法及系统，所述方法包括：设备端为每路音频分配一个固定的初始SSRC值；客户端与设备端建立RTSP交互方式；客户端向设备端请求单路视频和多路音频，设备端为每路音频随机生成对应的修正SSRC值并发送给客户端；设备端采集单路视频和多路音频，向客户端发送单路视频的RTP包，将每路音频的RTP包中的初始SSRC值修改为对应的修正SSRC值后，将每路音频的包含修正SSRC值的RTP包发送到所述客户端；客户端根据多路音频的RTP包中的修正SSRC值区分各路音频，并根据用户的需求播放视频和/或相应路的音频。本发明能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和/或相应路的音频。

Description

技术领域

本发明涉及一种单路视频多路音频的视频监控方法及系统。

背景技术

目前，在进行视频监控时，通常一路模拟视频采集点只能对应一路音频，嵌入式设备通过采集、编码、封装等一系列操作，将音视频信号合成为复合码流，可用于本地存储、中心远程请求等音视频应用。

然而，随着视频监控要求的提高，目前出现了一种将设置有网络摄像机的监控区域中划分有多个不同的功能区域（如几个拒台）的监控场景，在这种监控场景中，进行视频监控的管理中心不仅要求实现远程实时视频的采集和播放, 而且要求能够随意选播其中一路音频。针对这种监控场景，现有的一路模拟视频采集点对应一路音频的监控方式显然不能满足单路视频配合多路音频的应用需求。

发明内容

发明的目的在于提供一种单路视频多路音频的视频监控方法及系统，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和 /或相应路的音频。

为解决上述问题，本发明提供一种单路视频多路音频的视频监控方法，包括：

设备端为每路音频分配一个固定的初始 SSRC值；

客户端与设备端建立 RTSP交互方式；

所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端；

所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC 值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT 值；

所述客户端接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频。

进一步的，在上述方法中，所述生成并向所述客户端发送单路视频的 RTP 包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端的步骤包括：

将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；将单路视频的 RTP包发送至所述客户端；

将单路视频的 RTP包发送至所述客户端；将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP 包发送到所述客户端。

进一步的，在上述方法中，所述客户端根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频的步骤包括：

对所述 RTP包进行拆包，根据 RTP包中的 PT值区分视频和音频，并根据多路音频的 RTP包中的修正 SSRC值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和 /或相应路的音频的解压后的码流。进一步的，在上述方法中，设备端为每路音频随机生成对应的待写入 RTP 包的修正 SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端的步骤中：

在 RTSP交互过程中的 DESCRIBE P介段，所述设备端为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值携带在 SDP信息中发送给所述客户端。根据本发明的另一面，提供一种单路视频多路音频的视频监控系统，包括：客户端，用于通过 RTSP方式与所述设备端进行交互，向所述设备端请求单路视频和多路音频，及接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT 值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频；

设备端，用于通过 RTSP方式与所述客户端进行交互，为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端，及采集单路视频和多路音频，生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP

SSRC值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT值。

进一步的，在上述系统中，所述设备端，用于将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；将单路视频的 RTP包发送至所述客户端；将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端。进一步的，在上述系统中，所述客户端，用于对所述 RTP包进行拆包，根据 RTP包中的 PT值区分视频和音频，并根据多路音频的 RTP包中的修正 SSRC 值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和 /或相应路的音频的解压后的码流。

与现有技术相比，本发明通过设备端为每路音频分配一个固定的初始 SSRC 值；客户端与设备端建立 RTSP交互方式；所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入 RTP包的爹正

SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端；所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT值；所述客户端接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和 /或相应路的音频。

附图说明

图 1是本发明一实施例的客户端和设备端交互原理图；

图 2是本发明一实施例的单路视频多路音频的视频监控方法的流程图；图 3是本发明一实施例的单路视频多路音频的视频监控系统的模块图。具体实施方式

为使本发明的上述目的、特征和优点能够更加明显易懂，下面结合附图和具体实施方式对本发明作进一步详细的说明。实施例一

如图 1和 2所示，本发明提供一种单路视频多路音频的视频监控方法，包括客户端与设备端进行 RTSP ( Real Time Streaming Protocol ) 交互：

步骤 SI , 设备端为每路音频分配一个固定的初始 SSRC值；

步骤 S2, 客户端 1与设备端 2建立 RTSP交互方式；

步骤 S3, 所述客户端 1向所述设备端 2请求单路视频和多路音频，设备端 2为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值通过 SDP信息发送给所述客户端 1。这样客户端 1就可以根据所述修正 SSRC值的数量和顺序得知有几路音频，每路音频所对应的修正 SSRC值。

具体的， RTSP为实时流传输协议，是 TCP/IP协议体系中的一个应用层协议，是由哥伦比亚大学、网景和 RealNetworks公司提交的 IETF RFC标准。 RTSP 协议定义了一对多应用程序如何有效地通过 IP网络传送多媒体数据。 RTSP在体系结构上位于 RTP ( Realtime Transport Protocol ) 实时传输协议和 RTCP ( Realtime Transport Control Protocol ) 实时传输控制协议之上， RTSP使用 TCP 或 RTP完成数据传输。 HTTP与 RTSP相比， HTTP传送 HTML, 而 RTSP传送的是多媒体数据。 HTTP请求由客户端发出，设备端作出响应；使用 RTSP时，客户端 1和设备端 2都可以发出请求，即 RTSP可以是双向的。

优选的，步骤 S2中，可在 RTSP交互过程中的 DESCRIBE P介段，所述设备端 2为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值携带在 SDP信息中发送给所述客户端 1。具体的， RTSP交互大致可分为如下几个阶段： OPTIONS , SET_PARAMETER、 DESCRIBE, SETUP、 PLAY, PAUSE、 HEARTBEAT、 TEARDOWN。本实施例中，为了区分多路音频，在 DESCRIBE P介段为多路音频生成多个随机的 SSRC值如 SSRC1、 SSRC2...SSRCn, 并携带在 SDP信息里返回给客户端 1 , 按照先后顺序第一个 SSRC1为第一路音频的修正 SSRC值，第 n个 SSRCn为第 n路音频的修正 SSRC 值。然后在后续发送 RTP包到客户端 1时，将 RTP包的报头中的初始 SSRC值修改为相应的修正 SSRC值。例如，设备端 2在发送码流时根据音频 RTP包的初始 SSRC值来判断，若是音频的初始 SSRC值为 si , 则修改为第一路音频的初始 SSRC值为修正 SSRC值为 SSRC1,若是音频的初始 SSRC值为 Sn, 则修改为第 n路音频的修正 SSRC值为 SSRCn。

详细的， SDP是会话描述协议，其目的就是在媒体会话中，传递媒体流信息，允许会话描述的接收者去参与会话。 SDP基本上在 internet上工作， SDP定义了绘画描述的统一格式，但并不定义多播地址的分配和 SDP消息的传输，也不支持媒体编码方案的协商，这些功能均由下层会话传送协议完成。典型的下层会话传送协议包括: SAP(Session Announcement Protocol会话公告协议）、 SIP, RTSP、 HTTP和使用 MIME的 E-Mail, 其中， SAP只能包含一个会话描述，其它会话传输协议的 SDP可包含多个绘画描述， SDP绘画描述的统一格式包括以下一些方面：

1 )会话的名称和目的；

2 )会话存活时间；

3 ) 包含在会话中的媒体信息，包括：媒体类型（video, audio, etc) , 传输协议 (RTP/UDP/IP, H.320, etc) , 媒体格式 (H.261 video, MPEG video, etc) 多播或远端（单播 )地址和端口；

4 ) 为接收媒体而需的信息 (addresses , ports , formats and so on)；

5 )使用的带宽信息；

6 )可信赖的接洽信息（ Contact information )。步骤 S4, 所述设备端 2采集单路视频和多路音频，生成并向所述客户端 1发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端 1 , 其中，每个 RTP包包括一区分视频和音频的 PT值。具体的，所述设备端 2可通过一网络摄像机采集所述单路视频，网络摄像机是一种结合传统摄像机与网络技术所产生的新一代摄像机，它可以将影像通过网络传至地球另一端，且远端的浏览者不需用任何专业软件，只要标准的网络浏览器（如 Microsoft IE或 Netscape )或配套的客户端软件即可监视其影像。网络摄像机内置一个嵌入式芯片，采用嵌入式实时操作系统。所述设备端接收网络摄像机传送来的视频信号数字化后由高效压缩芯片压缩，通过网络总线传送给客户端或管理服务器。客户端 1的用户可以直接用浏览器或客户端软件观看监控视频，另外，授权用户还可以控制网络摄像机云台镜头的动作或对所述设备端和网络摄像机进行系统配置操作。设备端 2可以采集一路模拟视频源、多路模拟音频源，生成并向所述客户端 1发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP 包发送到所述客户端，即通过网络将单路视频和多路音频的 RTP包发送给所述客户端 1。

优选的，步骤 S4具体可包括：

所述设备端 2将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；

将单路视频的 RTP包发送至所述客户端，

将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端。具体的，为了使客户端 1接收到多路音频时，能够正确有效的区分每一路音频，这里需要将 RTP包

SSRC置为修正 SSRC值如 SSRC1,将第二路音频的 SSRC置为修正 SSRC值如 SSRC2,将第 n路音频的 SSRC置为修正 SSRC值如 SSRCn, 当客户端 1接收到多路音频时，能够根据修正 SSRC值对每一路音频进行区别存储和播放，所述设备端 2可包括采集模块、编码模块、封包模块、网络发送模块，分别完成单路视频和多路音频编码和压缩形成码流、封装所述码流形成 RTP包及发送所述 RTP包至所述客户端的各种功能， RTP包报文由两部分组成：报头和有效载荷。 RTP 头格式如下表所示，

其中：

V： RTP协议的版本号，占 2位，当前协议版本号为 2。

P: 填充标志，占 1位，如果 P=l , 则在该 4艮文的尾部填充一个或多个额的八位组，它们不是有效载荷的一部分。

X 扩展标志，占 1位，如果 X=l , 则在 RTP报头后跟有一个扩展报头。 CC: CSRC计数器，占 4位，指示 CSRC 标识符的个数。

M: 标记，占 1位，不同的有效载荷有不同的含义，对于视频，标记一帧的结束；对于音频，标记会话的开始。同步信源 (SSRC)标识符：占 32位，用于标识同步信源。该标识符是随机选择的，参加同一视频会议的两个同步信源不能有相同的 SSRC值。

特约信源 (CSRC)标识符：每个 CSRC标识符占 32位，可以有 0 ~ 15个。每个 CSRC标识了包含在该 RTP报文有效载荷中的所有特约信源。

PT: 有效载荷类型，占 7位，用于说明 RTP报文中有效载荷的类型，如 GSM 音频、 JPEM图像等。

序列号：占 16位，用于标识发送者所发送的 RTP报文的序列号，每发送一个报文，序列号增 1。接收者通过序列号来检测报文丢失情况，重新排序报文，恢复数据。

时戳 (Timestamp): 占 32位，时戳反映了该 RTP报文的第一个八位组的采样时刻。接收者使用时戳来计算延迟和延迟抖动，并进行同步控制。

步骤 S5,所述客户端 1接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频。

优选的，步骤 S5中，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频的步骤具体包括：

对所述 RTP包进行拆包，根据 RTP包中的 PT值区分视音频，并根据多路音频的 RTP包中的修正 SSRC值区分各路音频，对每路视频或音频的码流进行解压，并根据用户的需求播放视频和 /或相应路的音频的解压后的码流。具体的，所述客户端可包括网络接收模块、拆包模块、解码模块、播放模块，其中，网络接收模块实现接收单路视频和多路音频的 RTP包的功能，拆包模块实现所述 RTP包进行拆包，并根据 RTP报头中的 PT值和修正 SSRC值区分视频或各路音频的码流的功能，解码模块实现将码流进行解压的功能，播放模块根据用户的需求播放相应路的视频或音频的解压后的码流。

综上所述，本实施例中设备端独立采集单路视频和多路音频，客户端在可以需要实时预览和录像回放视音频时，对其中任意一路进行实时点播。实施例二

如图 1和 3所示，本发明还提供另一种单路视频多路音频的视频监控系统，包括客户端和设备端。

所述客户端 1 , 用于通过 RTSP ( Real Time Streaming Protocol )方式与所述设备端进行交互，向所述设备端请求单路视频和多路音频，及接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频。

优选的，所述客户端 1 , 用于对所述 RTP包进行拆包，并根据 RTP报头中的修正 SSRC值区分视频或各路音频的码流，对每路视频或音频的码流进行解压，并根据用户的需求播放相应路的视频或音频的解压后的码流。具体的，所述客户端 1可包括网络接收模块 11、拆包模块 12、解码模块 13、播放模块 14, 其中，网络接收模块 11实现接收单路视频和多路音频的 RTP包的功能，拆包模块 12实现所述 RTP包进行拆包，并根据 RTP报头中的初始 SSRC值或修正 SSRC 值存储每路视频或音频的码流的功能,解码模块 13实现将码流进行解压的功能，播放模块 14根据用户的需求播放相应路的视频或音频的解压后的码流。

所述设备端 2, 用于通过 RTSP方式与所述客户端进行交互，为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC 值发送给所述客户端 1 , 及采集单路视频和多路音频，生成并向所述客户端 1发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT值。具体的，所述设备端 2将每路音频对应的 RTP包的修正 SSRC 值发送给所述客户端 1后，客户端 1就可以根据所述修正 SSRC值的数量和顺序得知有几路音频，每路音频所对应的修正 SSRC值。

更优的，可在 RTSP交互过程中的 DESCRIBE P介段，所述设备端 2为每路音频随机生成对应的 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC 值携带在 SDP信息中发送给所述客户端。优选的，所述设备端 2, 用于将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；将单路视频的 RTP包发送至所述客户端；将每路音频的 RTP 包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端。具体的，所述设备端 2可包括采集模块 21、编码模块 22、封包模块 23、网络发送模块 24分别完成单路视频和多路音频、编码和压缩形成码流、封装所述码流形成 RTP包及发送所述 RTP包至所述客户端的各种功能。本实施例的详细内容可参见实施一中的对应部分，在此不再赘述。

综上所述，本发明通过设备端为每路音频分配一个固定的初始 SSRC值；客户端与设备端建立 RTSP交互方式；所述客户端向所述设备端请求单路视频和多路音频，所述设备端为每路音频随机生成对应的待写入 RTP包的修正 SSRC 值，并将每路音频对应的修正 SSRC值发送给所述客户端；所述设备端采集单路视频和多路音频，生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT值；所述客户端接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频，能够实现具有多路音频、单路视频的音视频采集，并供用户自由选择播放视频和 /或相应路的音频。

本说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例公开的系统而言，由于与实施例公开的方法相对应，所以描述的比较筒单，相关之处参见方法部分说明即可。

专业人员还可以进一步意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、计算机软件或者二者的结合来实现，为了清楚地说明硬件和软件的可互换性，在上述说明中已经按照功能一般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

显然，本领域的技术人员可以对发明进行各种改动和变型而不脱离本发明的精神和范围。这样，倘若本发明的这些修改和变型属于本发明权利要求及其等同技术的范围之内，则本发明也意图包括这些改动和变型在内。

Claims

权利要求

1、一种单路视频多路音频的视频监控方法，其特征在于，包括：

设备端为每路音频分配一个固定的初始 SSRC值；

客户端与设备端建立 RTSP交互方式；

2、如权利要求 1所述的单路视频多路音频的视频监控方法，其特征在于，所述生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端的步骤包括：

将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；

将单路视频的 RTP包发送至所述客户端；将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端。

3、如权利要求 2所述的单路视频多路音频的视频监控方法，其特征在于，所述客户端根据 RTP包中的 PT值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频的步骤包括：

对所述 RTP包进行拆包，根据 RTP包中的 PT值区分视视频和音频，并根据多路音频的 RTP包中的修正 SSRC值区分各路音频，对视频或每路音频的码流进行解压，并根据用户的需求播放视频和 /或相应路的音频的解压后的码流。

4、如权利要求 1所述的单路视频多路音频的视频监控方法，其特征在于，设备端为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端的步骤中：

在 RTSP交互过程中的 DESCRIBE P介段，所述设备端为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值携带在 SDP信息中发送给所述客户端。

5、一种单路视频多路音频的视频监控系统，其特征在于，包括：

客户端，用于通过 RTSP方式与所述设备端进行交互，向所述设备端请求单路视频和多路音频，及接收单路视频和多路音频的 RTP包，根据 RTP包中的 PT 值区分视频和音频，根据多路音频的 RTP包中的修正 SSRC值区分各路音频，并根据用户的需求播放视频和 /或相应路的音频；

设备端，用于通过 RTSP方式与所述客户端进行交互，为每路音频随机生成对应的待写入 RTP包的修正 SSRC值，并将每路音频对应的修正 SSRC值发送给所述客户端，及采集单路视频和多路音频，生成并向所述客户端发送单路视频的 RTP包，生成每路音频的包含初始 SSRC值的 RTP包，将每路音频的 RTP 包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端，其中，每个 RTP包包括一区分视频和音频的 PT值。

6、如权利要求 5所述的单路视频多路音频的视频监控系统，其特征在于，所述设备端，用于将每路视频或音频分别独立进行编码和压缩形成码流、封装所述码流形成包含初始 SSRC值的 RTP包；将单路视频的 RTP包发送至所述客户端；将每路音频的 RTP包中的初始 SSRC值修改为对应的修正 SSRC值后，将每路音频的包含修正 SSRC值的 RTP包发送到所述客户端。

7、如权利要求 6所述的单路视频多路音频的视频监控系统，其特征在于，所述客户端，用于对所述 RTP包进行拆包，根据 RTP包中的 PT值区分视频和音频，并根据多路音频的 RTP包中的修正 SSRC值区分各路音频，对视频或每路音频的码流进行解压，并根据用户的需求播放视频和 /或相应路的音频的解压后的码流。