WO2017107578A1

WO2017107578A1 - 流媒体与字幕即时同步显示、匹配处理方法、装置及系统

Info

Publication number: WO2017107578A1
Application number: PCT/CN2016/098659
Authority: WO
Inventors: 徐晶; 李萌; 孙俊; 顾思斌; 潘柏宇; 王冀
Original assignee: 合一网络技术(北京)有限公司
Priority date: 2015-12-22
Filing date: 2016-09-12
Publication date: 2017-06-29
Also published as: CN105959772A; US20190387263A1; EP3334175A4; CN105959772B; EP3334175A1

Abstract

本发明公开了一种流媒体与字幕即时同步显示、匹配处理方法、装置及系统，其中同步显示的方法，包括：将采集的流媒体中的视音频数据进行编码，并发送至直播服务器；获取对应所述视音频数据的字幕数据，并发送至直播服务器；所述直播服务器将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并将所述流媒体信息分发至网络节点上输出，从而保证视音频数据与字幕层的同步即时显示，提高字幕层与视音频数据匹配的准确度。

Description

流媒体与字幕即时同步显示、匹配处理方法、装置及系统

交叉引用

本申请主张2015年12月22日提交的中国专利申请号为201510970843.9的优先权，其全部内容通过引用包含于此。

技术领域

本发明涉及流媒体直播技术领域，特别涉及一种流媒体与字幕即时同步显示的方法、装置，流媒体与字幕同步匹配处理方法及装置，以及流媒体与字幕即时同步显示的系统。

背景技术

随着互联网+模式的迅速推广，以及流媒体直播的发展，字幕翻译相比较同声传译方式来说大大降低了视觉干扰及提高了同步水平。目前在全球互联网流媒体直播领域，大多采用视频单独播放、字幕单独翻译的模式，字幕和视频无法做到真正的实时声画字幕同步，并且做一层透明层放在视频上，用以字幕显示，无法进行移动端适配。总体上来说，实现字幕翻译的手段较为落后，操作复杂。

例如，专利CN102655606A公开了一种基于P2P网络的直播节目添加实时字幕和手语服务的方法及系统，其包括以下步骤：

1)根据节目的电视直播或现场，制作得到相应的实时字幕。

2)根据节目的电视直播或现场，制作得到相应的实时手语。

3)获取网络直播视频流，实时字幕和实时手语流，保存至各自的缓冲区。

步骤1)所述的制作实时字幕，具体步骤为：

1)根据节目的电视直播或现场，速录人员实时录入字幕内容。

2)速录人员对已经录入的字幕内容进行审核。

3)为字幕内容添加同步信息，主要包括时间戳，顺序号，误差偏移量。

4)将处理后的字幕推送至字幕服务器。

步骤2)所述的制作实时手语，具体步骤为：

1)根据节目的电视直播或现场，手语翻译人员实时翻译节目内容；

2)实时录制手语翻译人员的翻译内容，并且为手语视频添加同步信息，主要包括时间戳，误差偏移量；

3)将处理后的手语视频推送至手语流媒体服务器。

步骤3)所述的网络直播节目分别与字幕和手语同步并播放，具体步骤为：

1)获取网络直播视频流，实时字幕流和实时手语流，保存至各自的缓冲区；

2)解析缓冲区中直播节目视频帧、手语视频帧以及字幕的时间戳；

3)根据直播节目视频帧的时间戳，分别到字幕缓冲区和手语视频缓冲区匹配到相应的手语视频帧和字幕，如果有则显示直播视频的同时显示字幕与手语视频；没有，则只显示直播视频。

该现有技术所记载的技术方案是无法做到实时声画字幕同步，通过该方案制作好的字幕和手语即便加上误差偏移量也不可能同步加在直播视频的正确时间轴上。

此外，现存在的网络直播字幕均由广电领域添加字幕演变而来，通过硬件字幕设备在信号终端完成字幕添加，导致互联网字幕无法做到字幕与视音频的真正时间同步。

如何提供一种基于流媒体直播即时显示字幕的方法、装置及系统，能够实现流媒体直播视音频与字幕的达到即时同步显示，成为本领域技术人员需要解决的技术问题。

发明内容

本发明提供一种基于流媒体直播即时显示字幕的方法，以解决上述存在的技术问题。

本发明提供一种流媒体与字幕即时同步显示方法，包括：将采集的流媒体中的视音频数据进行编码，并发送至直播服务器；获取对应所述视音频数据的字幕数据，并发送至直播服务器；所述直播服务器将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并将所述流媒体信息分发至网络节点上输出。

可选的，所述为缓存后的所述字幕层和所述视音频数据建立同步匹配关系，包括：

对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴，或者，根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。

可选的，所述将具有同步匹配关系的所述字幕层和所述视音频数据混合，包括：

将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳；将所述字幕层与所述视音频数据合成。

可选的，为所述字幕层和所述视音频数据建立同步匹配关系，包括：

对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。

可选的，对所述字幕层的修正包括：插入预设字幕，跳过，修正字幕或者一键上字幕的操作。

可选的，所述播放时间轴的长度为视音频数据时间长度与所述预设延时时间之和。

可选的，所述获取对应所述视音频数据的字幕数据，并发送至直播服务器，包括：对获取对应所述视音频数据的字幕数据进行校正。

可选的，所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存，包括：对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频帧。

本发明还提供一种流媒体与字幕即时同步显示装置，包括：

视音频采集编码单元，用于将采集的流媒体中的视音频数据进行编码，并发送至直播服务器；

字幕获取单元，用于获取所述视音频数据的字幕数据，形成字幕层，并发送至直播服务器；

处理单元，所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存，以及缓存所述字幕层，并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；

混合编码单元，用于接收具有同步匹配关系的所述字幕层和所述视音频数据，并将二者混合，之后根据预定的传输协议分发至网络节点上输出。

可选的，所述处理单元包括：

播放时间轴形成单元，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

字幕时间轴形成单元或者字幕时间戳形成单元，其中，所述字幕时间轴形成单元，用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴；所述字幕时间戳形成单元，用于根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。

可选的，所述混合编码单元包括：

合成嵌入单元，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳，将所述字幕层与所述视音频数据合成。

可选的，所述处理单元包括：

字幕层修正单元，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整单元，用于调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。

可选的，所述字幕层修正单元，用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。

可选的，所述字幕获取单元包括：字幕数据修正单元，用于对获取对应所述视音频数据的字幕数据进行校正。

可选的，所述处理单元包括：延时缓存单元，用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视频数据的位置，延时该位置对应的视音频数据帧。

本发明还提供一种用于流媒体和字幕同步匹配的处理方法，包括：

将接收的编码后的视音频数据根据预设延时时间缓存；

将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存；

为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。

可选的，所述为所述视音频数据和所述字幕层建立同步匹配关系，包括：

可选的，所述为所述字幕层和所述视音频数据建立同步匹配关系，包括：

可选的，所述将接收的编码后的视音频数据根据预设延时时间缓存，包括：

对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频数据帧。

本发明一种用于流媒体和字幕同步匹配的处理装置，其特征在于，包括：

延时缓存单元，用于将接收的编码后的视音频数据根据预设延时时间缓存；

字幕层形成单元，用于将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存；

同步匹配关系建立单元，用于为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。

可选的，所述同步匹配关系建立单元包括：

字幕时间轴形成单元或字幕时间戳建立单元，其中，所述字幕时间轴形成单元，用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴；所述字幕时间戳建立单元，用于根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。

可选的，所述同步匹配关系建立单元包括：

调整单元，用于调整与修正内容相对应的所述播放时间轴或字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。

可选的，所述延时缓存单元用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频帧。

本发明还提供一种流媒体与字幕即时同步显示的系统，包括：

采集编码设备，用于采集流媒体中的视音频数据进行编码，并根据预定的视音频传输协议发送至直播服务器；

字幕获取设备，用于输入与所述视音频数据相匹配的字幕数据，并根据预定的字幕传输协议发送至所述直播服务器；

直播服务设备，用于将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；

混合编码设备，用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并根据预定的传输协议，将所述流媒体信息分发至网络节点上输出。

可选的，所述混合编码设备包括：

合成处理器，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳；将所述字幕层与所述视音频数据合成。

可选的，所述直播服务设备包括：

字幕层修正器，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；调整与修正内容相对应的所述字幕时间轴或播放时间轴，或者调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，使所述新字幕层与所述视音频数据同步匹配。

可选的，所述字幕获取设备包括：字幕数据修正器，用于对获取对应所述视音频数据的字幕数据进行校正。

以上为本发明提供一种流媒体与字幕即时同步显示、匹配处理的方法、装置及系统，其中，流媒体与字幕即时同步显示方法是将采集编码后的视音频数据发送至直播服务器中，直播服务器根据预设的延时时间对其进行缓存，同时获取与所述视音频数据相关的字幕数据，并发送至直播服务器中，直播服务器根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，将所述流媒体信息分发至网络节点上输出，由此使得在境内外直播节目或直播活动现场，对获取的视音频数据进行延时处理，并通过将视音频数据与字幕层之间建立同步匹配的关系，从而可有效的调整字幕与视音频数据的匹配，实现字幕可实时的与视音频数据同步的显示在视音频画面上，并与视音频同步；由于设定视音频的延时时长，从而能够对字幕数据和/或字幕层进行修正，使得字幕与视音频数据的匹配度更加精准，降低字幕的错误率，保证视音频与字幕同步显示的准确性，并且字幕与视音频的同步显示不受地域限制。

附图说明

图1是本发明提供的一种流媒体与字幕即时同步显示方法的流程图；

图2是本发明提供的一种流媒体与字幕即时同步显示装置的结构示意图；

图3是本发明提供的一种用于流媒体和字幕同步匹配的处理方法的流程图；

图4是本发明提供的一种用于流媒体和字幕同步匹配的处理装置的结构示意图；

图5是本发明提供的一种流媒体与字幕即时同步显示的系统的示意图；

图6示出了本发明的另一个实施例的一种流媒体与字幕即时同步显示设备的结构框图；

图7示出了本发明的另一个实施例的一种用于流媒体和字幕同步匹配的处理设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本发明。但是本发明能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本发明内涵的情况下做类似推广，因此本发明不受下面公开的具体实施的限制。

请参考图1所示，图1是本发明提供的一种本发明提供的一种流媒体与字幕即时同步显示方法的流程图。

本发明主要是将采集的直播现场的视音频文件，在播放时实时的显示于所述视音频文件同步的字幕文件，从而使字幕与视音频文件即时同步的呈现于显示设备上。具体采用如下步骤：

步骤S100：将采集的流媒体中的视音频数据进行编码，并发送至直播服务器。

在上述步骤中，所述流媒体中的视音频数据可以是在直播节目或者直播活动现场，对视音频进行录制，产生卫星及数字高清信号等，通过编码机采集卫星及数字高清信号，并对采集的信号进行编码，编码后发送至直播服务器。

在该步骤中，对所述视音频数据进行编码可以通过第三方软件实现，例如：Windows Media Encoder等。

编码后的视音频数据可以根据预定的传输协议发送至直播服务器，所述预定的传输协议可以是RTMP(Real Time Messaging Protocol，即：实时消息传输协议)，传输协议可以包括RTMP的基本协议以及RTMPT/RTMPS/RTMPE等多种变种。

需要说明的是，此处所述的直播节目或者直播活动现场不受地域限制，且所采集的直播节目信号或直播活动现场的信号也不受信号源的输入限制。

步骤S110：获取对应所述视音频数据的字幕数据，并发送至所述直播服务器。

在该步骤中，所述视音频数据的字幕数据可以是在直播节目或直播活动现场经过同声传译，对视音频同步有声翻译，速记人员将翻译内容录入在字幕管理系统中，并发送至直播服务器。

此处字幕数据的发送也可以采用如同视音频数据相同的传输协议进行传输。

为提高字幕录入的准确性，本实施中还可以对获取的对应于所述视音频数据的字幕数据进行校正，修改由于人为原因导致出现的错别字等问题，提高字幕数据的准确性。

步骤S120：所述直播服务器将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送。

在该步骤中，直播服务器将编码后的视音频数据根据预设延时时间进行缓存，具体可以将视音频数据缓存在直播服务器的存储空间内，所述预设延时时间可以根据需求设定在介于30秒到90秒之间，该时间可以根据存储空间的大小来确定。在本实施中对所述视音频数据的存储方式可以采用对每一帧进行延时处理，或者对所述视音频数据的开始部分进行延时处理，或者对所述视音频数据的结束部分进行延时处理等方式。例如：对视音频数据中的每一帧在服务器中实现30秒的延时缓存，或者是，视音频数据如果一秒显示25帧，则可以对该25帧的画面延时30秒，即25帧/秒×30秒，其中30秒为延时间；从而有利于在收到的字幕数据后对字幕数据进行处理，并为字幕数据与视音频数据建立同步匹配的关系，所述同步匹配关系是，在视音频数据显示时，在需要显示字幕的视音频位置将字幕层呈现。

可以理解是，在该实施例中，所述预设延时时间可以设定为30至90秒，延时时间可以根据流媒体直播服务器中存储量的大小来设定延时的时长，以上仅为一种显示较优的实现方式，并不用于限制本发明的延时时长的设定。对于视音频数据延时有利于提高字幕与视音频数据同步准确性。

需要说明的是，在本实施中，相应于视音频数据的延时，所述直播服务器收到字幕数据后也可以对其进行延时处理，更有利于字幕层与视音频数据之间同步匹配关系的建立。

在该步骤中，为所述字幕层与视音频数据之间建立同步匹配关系，具体实现方式可以有多种，本发明以下述两种方式对建立同步匹配关系进行说明。

第一种实施方式：对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴，并为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴；

第二种实施方式：对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴，并在所述播放时间轴上建立触发所述字幕层显示的时间戳。

以上采用两种实施方式对视音频数据与字幕层之间建立同步匹配的关系进行了说明，该这两种实施方式实际上是以视音频播放时间为基础，建立字幕层显示时间，从而实现视音频数据与字幕层之间的同步匹配关系。可以理解的是，视音频数据与字幕层同步匹配关系的建立并不仅仅限于上述两种方式，还可以通过对视音频数据帧进行标记实现二者的同步匹配，例如：在视音频数据显示字幕层的帧画面位置处加入标识，在字幕层上设置与所述视音频标识相同字幕层显示标记，通过视音频标识与字幕层标识实现二者之间的同步匹配关系。

对于视音频数据与字幕层之间建立同步匹配关系的方式并不限于上述内容，以上仅为实现二者之间具有同步匹配关系的举例说明。

需要说明的是，在上述两种方式中，所述播放时间轴的长度可以为视音频数据时间长度与所述预设延时时间之和。

在本步骤中，为保证字幕层的准确性，在为所述字幕层和所述视音频数据建立同步匹配关系后，可以对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上，之后再调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。

可以理解的是，此处的调整所述字幕时间轴可以通过采用黑色透明层覆盖修正字幕的位置上即可，例如：对字幕层进行修正时，删除了一个字幕，该字幕持续时间为3秒，对应视音频播放时间轴上少了75帧，则可以通过建立黑色透明覆盖层，覆盖在视音频数据的75帧的位置上，进而实现播放时间轴的调整。

对所述字幕层的修正包括：插入预设字幕，跳过，修正字幕或者一键上字幕等操作，例如：对于特定的称谓、特定词，可以通过人为的调配字幕体现时间码来完成跳过修正工作。一键上字幕功能可以运用于对于有政治敏感词汇，通过控制视音频播放时间轴的跳过该些敏感词汇，直接进行更新、上屏操作，从而使字幕层显示的内容更为准确，以及避免敏感词汇的出现，提高直播视频的安全性。

此处需要说明的是，在建立视音频数据和字幕层同步匹配关系后，对字幕层的修改可以是在直播服务器中实现，也可以通过直播服务器先将匹配后的字幕层发送，在对字幕层修改后返回至直播服务器，直播服务器再对收到的字幕层进行调整，使修改后的字幕层与视音频数据同步匹配，之后发送进行混合处理。因此，本发明中对字幕层的修改不仅可以在直播服务器中完成，也可以在直播服务器以外完成。

步骤S130：将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并将所述流媒体信息分发至网络节点上输出。

在该步骤中，基于步骤S120中的实施一和实施例二建立的同步匹配关系，可以通过以下方式将二者混合。

基于上述通过播放时间轴和字幕时间轴建立的同步匹配关系，可将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，具体实现可以是将字幕时间轴的时间刻度和视音频数据播放时间轴的时间刻度合成，进而实现混合。例如：按照视音频的播放时间建立的播放时间轴，假设在视频出现的第10秒开始有一个持续2秒的字幕，在视频播放的第11秒建立一个2秒的字幕时间轴，混合匹配则是，视音频开始按每秒25帧的时间开始播放，到第251帧的时候，也就是说在第11秒时，将字幕时间轴加入到播放时间轴上，之后在视音频数据播放到300帧时，字幕时间轴停止，字幕层消失，以此类推，从而达到视音频数据与字幕层的同步混合，并将混合后的视音频数据分发到各个网络节点上输出。

基于上述通过播放时间轴建立与其匹配的字幕层显示起始时间戳和结束时间戳的方式，该种方式主要基于视音频数据播放时间轴，在其上位于字幕层所显示的时间点上打有字幕层显示时间戳，当视音频数据播放到该时间点上，触发该时间戳，进而使字幕层显示。例如：假设在视频出现的第10秒开始有一个持续2秒的字幕，在视频播放的第11秒打一个字幕层显示的时间戳，在视频播放的第13秒打一个字幕停止的时间戳，混合则是，视音频开始按每秒25帧的时间开始播放，到第251帧的时候，也就是说在第11秒时，将播放时间轴自动触发字幕层的显示时间戳，进而使字幕层显示在该视频上，之后在视音频数据播放到300帧时，也就是在第13秒时，视频播放时间轴自动触发字幕层的停止时间戳，字幕层消失，以此类推，从而达到视音频数据与字幕层的混合。

在采用在视音频数据显示字幕层的帧画面位置处加入标识，在字幕层上设置与所述视音频标识相同字幕层显示标记，通过视音频标识与字幕层标识实现二者之间的同步匹配关系时，将二者混合是将二者的标记重叠，使得视音频数据在显示设备上播放时，当标记显示时，字幕层则能够在视音频数据显示字幕层的位置显示字幕层，实现二者即时同步显示。

需要说明的是，对于上述描述的视音频数据与字幕层混合的方式中，可以通过系统自动匹配，也可以通过人工干预的方式实现字幕层与视音频数据的匹配混合，人工干预方式，可以是在字幕层需要显示的位置，人工加入字幕层等方式。

上述混合过程的实现可以通过编码器实现，直播服务器将建立同步匹配关系的视音频数据和字幕层发送至混合编码器，通过混合编码器将二者进行混合，并最终发送。

可以理解的是，该步骤中将混合后的视音频数据和字幕层可以通过网路传输协议(例如：http协议)传输，并显示在显示设备上。

根据上述内容可以获知，本发明提供的一种流媒体与字幕即时同步显示方法，将采集编码后的视音频数据发送至直播服务器中，直播服务器根据预设的延时时间对其进行缓存，同时将获取得到与所述视音频数据相关的字幕数据形成字幕层，直播服务器将二者建立同步匹配关系并发送，经过对具有同步匹配关系的视音频数据和字幕层进行混合之后，通过网络节点分发出去，最终在显示设备上使视音频数据和字幕层即时同步显示。由此使得在境内外直播节目或直播活动现场，通过获取的视音频数据和字幕数据进行延时处理后，可有效的调整字幕与视音频数据的匹配，达到字幕可实时显示在视音频画面上；并且由于设定延时时长从而使得字幕与视音频数据的匹配度更加精准，降低字幕的错误率，保证视音频与字幕的同步显示，并且不受字幕显示不受地域限制。

另外，本发明提供的一种流媒体与字幕即时同步显示方法还可以通过对字幕层的修正，使字幕层的显示更加准确；以及在对字幕层进行修正后，通过调整字幕层时间轴或时间戳，可以实现更加精准的字幕与视音频画面的匹配度，进一步提高同步的精确度，以及利用人工干预的方式，进一步提高配合精度和同步输出的精度，从而保证字幕层的准确性和实时性。

以上是对本发明提供的一种流媒体与字幕即时同步显示方法的说明，本发明还提供一种流媒体与字幕即时同步显示的装置，请参看图2，其为本申请一种流媒体与字幕即时同步显示装置结构示意图。由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。

如图2所示，该装置具体包括：

视音频采集编码单元200，用于将采集的流媒体中的视音频数据进行编码，并发送至直播服务器。

字幕获取单元210，用于获取所述视音频数据的字幕数据，形成字幕层，并发送至直播服务器。所述字幕获取单元210包括：字幕数据修正单元，用于对获取对应所述视音频数据的字幕数据进行校正。

处理单元220，所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存，以及缓存所述字幕层，并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送。

所述处理单元220包括：

延时缓存单元，用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视频数据的位置，延时该位置对应的视音频数据帧。

字幕层修正单元，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上。所述字幕层修正单元，用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。

混合编码单元230，用于接收具有同步匹配关系的所述字幕层和所述视音频数据，并将二者混合，之后根据预定的传输协议分发至网络节点上输出。

所述混合编码单元230包括：合成嵌入单元，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳，将所述字幕层与所述视音频数据合成。

以上是对本发明提供的一种流媒体与字幕即时同步显示装置的说明，由于装置实施例基本相似于方法实施例，因此，描述仅为示意性，此处不再赘述。

基于上述本发明还提供一种用于流媒体和字幕同步匹配的处理方法，如图3所示，图3是本发明提供的一种用于流媒体和字幕同步匹配的处理方法流程图。由于流媒体和字幕同步匹配的处理方法，在本发明提供的流媒体与字幕即时同步显示方法中有详细说明，因此，此处描述为示意性，具体内容可参考图1及相关说明。

该方法包括：

步骤S300：将接收的编码后的视音频数据根据预设延时时间缓存。

所述步骤S300包括：对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频数据帧。

步骤S310：将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存。

步骤S320：为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。在所述步骤S320中，包括：

对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴。

对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上。

基于上述提供的一种用于流媒体和字幕同步匹配的处理方法，本发明还提供一种用于流媒体和字幕同步匹配的处理装置，由于装置实施例基本相似于方法实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可，下述描述的装置实施例仅仅是示意性的。

请参考图4所示，图4是本发明提供的一种用于流媒体和字幕同步匹配的处理装置的结构示意图。

该装置包括：

延时缓存单元400，用于将接收的编码后的视音频数据根据预设延时时间缓存。所述延时缓存单元400用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频帧。

字幕层形成单元410，用于将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存；

同步匹配关系建立单元420，用于为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。

所述同步匹配关系建立单元420，包括：播放时间轴形成单元，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴。

基于上述图1至图4，本发明还提供一种基于流媒体直播即时显示字幕的系统，请参看图5，其为是本发明提供的一种流媒体与字幕即时同步显示的系统的示意图。由于系统实施例基本相似于方法的实施例，所以描述得比较简单，相关之处参见方法实施例的部分说明即可，下述描述的系统实施例仅仅是示意性的。

该系统具体包括：

采集编码设备500，用于采集流媒体中的视音频数据进行编码，并发送至直播服务器；该设备主要能够采集直播现场活动的视音频数据，或者其他直播视音频数据等。

字幕获取设备510，用于获取对应所述视音频数据的字幕数据，并发送至直播服务器；所述字幕获取设备510包括：字幕数据修正器，用于对获取对应所述视音频数据的字幕数据进行校正。

直播服务设备520，用于将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送。

所述直播服务设备520包括：

数据信息处理器，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；以及用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴，或者，用于根据所述播放时间轴，建立所述字幕层显示的起始时间戳和结束时间戳。

混合编码设备530，用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并根据预定的传输协议，将所述流媒体信息传输发送出去，最终显示于终端设备上。

所述混合编码设备530包括：合成处理器，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳；将所述字幕层与所述视音频数据合成。

以上为本发明提供的一种流媒体与字幕即时同步显示的方法、装置；用于流媒体和字幕同步匹配的处理方法、装置；以及流媒体与字幕即时同步显示的系统。通过本发明提供的方法能够使得获得的视音频数据和字幕数据在经过建立同步匹配关系后，合成为一个整体文件并发送至显示设备上，从而使视音频数据和字幕层能够即时同步的显示，提高二者的同步精准度。

图6示出了本发明的另一个实施例的一种流媒体与字幕即时同步显示设备的结构框图。所述流媒体与字幕即时同步显示设备1100可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

所述流媒体与字幕即时同步显示设备1100包括处理器(processor)1110、通信接口(Communications Interface)1120、存储器(memory)1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

通信接口1120用于与网络设备通信，其中网络设备包括例如虚拟机管理中心、共享存储等。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC(Application Specific Integrated Circuit)，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于存放文件。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器(non-volatile memory)，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。

在一种可能的实施方式中，上述程序可为包括计算机操作指令的程序代码。该程序具体可用于：实现流媒体与字幕即时同步显示方法中各步骤的操作。

图7示出了本发明的另一个实施例的一种用于流媒体和字幕同步匹配的处理设备的结构框图。所述用于流媒体和字幕同步匹配的处理设备1200可以是具备计算能力的主机服务器、个人计算机PC、或者可携带的便携式计算机或终端等。本发明具体实施例并不对计算节点的具体实现做限定。

所述用于流媒体和字幕同步匹配的处理设备1200包括处理器1110、通信接口1120、存储器1130和总线1140。其中，处理器1110、通信接口1120、以及存储器1130通过总线1140完成相互间的通信。

处理器1110用于执行程序。处理器1110可能是一个中央处理器CPU，或者是专用集成电路ASIC，或者是被配置成实施本发明实施例的一个或多个集成电路。

存储器1130用于存放文件。存储器1130可能包含高速RAM存储器，也可能还包括非易失性存储器，例如至少一个磁盘存储器。存储器1130也可以是存储器阵列。存储器1130还可能被分块，并且所述块可按一定的规则组合成虚拟卷。

在一种可能的实施方式中，上述程序可为包括计算机操作指令的程序代码。该程序具体可用于：实现用于流媒体和字幕同步匹配的处理方法中各步骤的操作。

本领域普通技术人员可以意识到，本文所描述的实施例中的各示例性单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件形式来实现，取决于技术方案的特定应用和设计约束条件。专业技术人员可以针对特定的应用选择不同的方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

如果以计算机软件的形式来实现所述功能并作为独立的产品销售或使用时，则在一定程度上可认为本发明的技术方案的全部或部分(例如对现有技术做出贡献的部分)是以计算机软件产品的形式体现的。该计算机软件产品通常存储在计算机可读取的非易失性存储介质中，包括若干指令用以使得计算机设备(可以是个人计算机、服务器、或者网络设备等)执行本发明各实施例方法的全部或部分步骤。而前述的存储介质包括U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应以所述权利要求的保护范围为准。

实用性

根据本发明实施例所提供的流媒体与字幕即时同步显示、匹配处理的方法、装置及系统，在境内外直播节目或直播活动现场，对获取的视音频数据进行延时处理，并通过将视音频数据与字幕层之间建立同步匹配的关系，从而可有效的调整字幕与视音频数据的匹配，实现字幕可实时的与视音频数据同步的显示在视音频画面上，并与视音频同步；由于设定视音频的延时时长，从而能够对字幕数据和/或字幕层进行修正，使得字幕与视音频数据的匹配度更加精准，降低字幕的错误率，保证视音频与字幕同步显示的准确性，并且字幕与视音频的同步显示不受地域限制。

Claims

一种流媒体与字幕即时同步显示方法，其特征在于：

将采集的流媒体中的视音频数据进行编码，并发送至直播服务器；

获取对应所述视音频数据的字幕数据，并发送至直播服务器；

所述直播服务器将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；

将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并将所述流媒体信息分发至网络节点上输出。
根据权利要求1所述的流媒体与字幕即时同步显示方法，其特征在于：所述为所述字幕层和所述视音频数据建立同步匹配关系，包括：

对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴，或者，根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
根据权利要求2所述的流媒体与字幕即时同步显示方法，其特征在于：将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，包括：

将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳；将所述字幕层与所述视音频数据合成。
根据权利要求2所述的流媒体与字幕即时同步显示方法，其特征在于：为所述字幕层和所述视音频数据建立同步匹配关系，包括：

对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。
根据权利要求4所述的流媒体与字幕即时同步显示方法，其特征在于：对所述字幕层的修正包括：插入预设字幕，跳过，修正字幕或者一键上字幕的操作。
根据权利要求2所述的流媒体与字幕即时同步显示方法，其特征在于：所述播放时间轴的长度为视音频数据时间长度与所述预设延时时间之和。
根据权利要求1所述的流媒体与字幕即时同步显示方法，其特征在于：所述获取对应所述视音频数据的字幕数据，并发送至直播服务器，包括：

对获取对应所述视音频数据的字幕数据进行校正。
根据权利要求1所述的流媒体与字幕即时同步显示方法，其特征在于：所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存，包括：

对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频帧。
一种流媒体与字幕即时同步显示装置，其特征在于，包括：

视音频采集编码单元，用于将采集的流媒体中的视音频数据进行编码，并发送至直播服务器；

字幕获取单元，用于获取所述视音频数据的字幕数据，形成字幕层，并发送至直播服务器；

处理单元，所述直播服务器将编码后的视音频数据根据预设延时时间进行缓存，以及缓存所述字幕层，并为缓存后的所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；

混合编码单元，用于接收具有同步匹配关系的所述字幕层和所述视音频数据，并将二者混合，之后根据预定的传输协议分发至网络节点上输出。
根据权利要求9所述的流媒体与字幕即时同步显示装置，其特征在于，所述处理单元包括：

播放时间轴形成单元，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

字幕时间轴形成单元或者字幕时间戳形成单元，其中，所述字幕时间轴形成单元，用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴；所述字幕时间戳形成单元，用于根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
根据权利要求10所述的流媒体与字幕即时同步显示装置，其特征在于，所述混合编码单元包括：

合成嵌入单元，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳，将所述字幕层与所述视音频数据合成。
根据权利要求10所述的流媒体与字幕即时同步显示装置，其特征在于，所述处理单元包括：

字幕层修正单元，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整单元，用于调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。
根据权利要求12所述的流媒体与字幕即时同步显示装置，其特征在于，所述字幕层修正单元，用于对所述字幕层进行插入预设字幕、跳过、修正字幕或者一键上字幕的操作。
根据权利要求9所述的流媒体与字幕即时同步显示装置，其特征在于，所述字幕获取单元包括：字幕数据修正单元，用于对获取对应所述视音频数据的字幕数据进行校正。
根据权利要求9所述的流媒体与字幕即时同步显示装置，其特征在于，所述处理单元包括：延时缓存单元，用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视频数据的位置，延时该位置对应的视音频数据帧。
一种用于流媒体和字幕同步匹配的处理方法，其特征在于，包括：

将接收的编码后的视音频数据根据预设延时时间缓存；

将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存；

为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。
根据权利要求16所述的用于流媒体和字幕同步匹配的处理方法，其特征在于，所述为所述视音频数据和所述字幕层建立同步匹配关系，包括：

对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴，或者，根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
根据权利要求17所述的用于流媒体和字幕同步匹配的处理方法，其特征在于，所述为所述字幕层和所述视音频数据建立同步匹配关系，包括：

对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。
根据要求16所述的用于流媒体和字幕同步匹配的处理方法，其特征在于，所述将接收的编码后的视音频数据根据预设延时时间缓存，包括：

对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频数据帧。
一种用于流媒体和字幕同步匹配的处理装置，其特征在于，包括：

延时缓存单元，用于将接收的编码后的视音频数据根据预设延时时间缓存；

字幕层形成单元，用于将接收的与所述视音频数据对应的字幕数据，形成字幕层，并缓存；

同步匹配关系建立单元，用于为所述视音频数据和所述字幕层建立同步匹配关系，之后发送。
根据权利要求20所述的用于流媒体和字幕同步匹配的处理装置，其特征在于，所述同步匹配关系建立单元包括：

播放时间轴形成单元，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；

字幕时间轴形成单元或字幕时间戳建立单元，其中，所述字幕时间轴形成单元，用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴；所述字幕时间戳建立单元，用于根据所述播放时间轴，建立所述字幕层的显示起始时间戳和结束时间戳；所述字幕层的显示起始时间戳和结束时间戳统称为字幕时间戳。
根据权利要求21所述的用于流媒体和字幕同步匹配的处理装置，其特征在于，所述同步匹配关系建立单元包括：

字幕层修正单元，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；

调整单元，用于调整与修正内容相对应的所述播放时间轴或字幕时间轴，或所述字幕时间戳，使所述新字幕层与所述视音频数据同步匹配。
根据权利要求20所述的用于流媒体和字幕同步匹配的处理装置，其特征在于，所述延时缓存单元用于对所述视音频数据的每一帧延时缓存，或者对所述视音频数据的开始部分进行延时缓存，或者对所述视音频数据的结束部分进行延时缓存，或者根据预修改字幕位置或者预调整视音频数据的位置，延时该位置对应的视音频帧。
一种流媒体与字幕即时同步显示的系统，其特征在于：

采集编码设备，用于采集流媒体中的视音频数据进行编码，并根据预定的视音频传输协议发送至直播服务器；

字幕获取设备，用于输入与所述视音频数据相匹配的字幕数据，并根据预定的字幕传输协议发送至所述直播服务器；

直播服务设备，用于将编码后的视音频数据根据预设延时时间缓存，以及根据所述字幕数据形成字幕层并缓存，为所述字幕层和所述视音频数据建立同步匹配关系，之后将二者发送；

混合编码设备，用于将接收的具有同步匹配关系的所述字幕层和所述视音频数据混合，形成流媒体信息，并根据预定的传输协议，将所述流媒体信息分发至网络节点上输出。
根据权利要求24所述的流媒体与字幕即时同步显示的系统，其特征在于：所述直播服务设备包括：数据信息处理器，用于对缓存的所述视音频数据按照其播放时间点标记，形成播放时间轴；以及用于为所述字幕层建立与所述视音频数据的播放时间轴匹配的字幕时间轴，或者，用于根据所述播放时间轴，建立所述字幕层显示的起始时间戳和结束时间戳。
根据权利要求25所述的流媒体与字幕即时同步显示的系统，其特征在于：所述混合编码设备包括：

合成处理器，用于将所述字幕层的字幕时间轴嵌入至所述视音频数据的播放时间轴上，或者，用于在所述视音频数据的播放时间轴上嵌入所述起始时间戳和结束时间戳；将所述字幕层与所述视音频数据合成。
根据权利要求25所述的流媒体与字幕即时同步显示的系统，其特征在于，所述直播服务设备包括：

字幕层修正器，用于对具有所述同步匹配关系的字幕层进行修正，形成新字幕层，并覆盖在原字幕层上；调整与修正内容相对应的所述字幕时间轴或播放时间轴，或者调整与修正内容相对应的所述播放时间轴或所述字幕时间轴，使所述新字幕层与所述视音频数据同步匹配。
根据权利要求25所述的流媒体与字幕即时同步显示的系统，其特征在于：所述字幕获取设备包括：字幕数据修正器，用于对获取对应所述视音频数据的字幕数据进行校正。