WO2013097072A1

WO2013097072A1 - 识别视频的字符的方法和装置

Info

Publication number: WO2013097072A1
Application number: PCT/CN2011/084642
Authority: WO
Inventors: 杨杰; 万华林; 张军
Original assignee: 华为技术有限公司
Priority date: 2011-12-26
Filing date: 2011-12-26
Publication date: 2013-07-04
Also published as: CN103493067B; CN103493067A

Abstract

本发明实施例提供了一种识别视频的字符的方法和装置，该方法包括：根据源视频，确定字符模型；根据与目标视频相对应的该字符模型，从该目标视频包括的像素中，确定属于该目标视频的字符的字符像素；根据该字符像素，确定至少一个代表该字符的字符文本。根据本实施例的识别视频的字符的方法和装置，通过源视频确定字符模型，并根据该字符模型，从该视频的像素中确定该字符，因此无需通过分割算法等，从该视频的图像中分割出该字符，从而能够缩短在线图像识别过程的时间，提高视频分析过程的实时性。

Description

识别视频的字符的方法和装置技术领域

本发明涉及视频领域，并且更具体地，涉及识别视频的字符的方法和装置。背景技术

随着多媒体技术和网络技术的快速发展，数字视频出现爆炸式增长，以视频的方式获取信息成为一种比较方便的方式，尤其是新闻视频更是人们获取最新资讯的常用方式之一。但由于视频量巨大，顺序线性地观看大规模的视频（几十小时甚至上百小时）变得难以接受。人们更倾向于从大规模的视频中，有选择性地观看感兴趣的视频。基于内容的视频分析检索技术为这一需求提供了可能，传统的基于内容的视频分析检索技术是使用音视频以及文本等多模态特征对视频进行拆条分割以达到方便浏览的目的。视频的字符 (例如，新闻视频的标题）往往高度概括了该视频的主要内容。因此，对字符的识别，对于视频高层语义分析起着至关重要的作用。

现有的识别视频的字符的方法通常是将字符图像当作普通图像，使用连通域分析、图切法、 K-均值（K-means ) 聚类等分割算法，分割出字符，进而确定字符文本。在进行图像分割时，为了达到较好的分割效果，通常需要耗费较大的计算量，延长了整个字符识别过程的时间，从而降低了整个视频分析过程的实时性。

因此，需要合适的方案来识别视频的字符，以缩短在线实时识别字符的时间，提高视频分析过程的实时性。发明内容

本发明实施例提供一种识别视频的字符的方法和装置，能够缩短在线字符识别过程的时间，提高视频分析过程的实时性。

一方面，提供了一种识别视频的字符的方法，该方法包括：根据源视频，确定字符模型；根据与目标视频相对应的该字符模型，从该目标视频包括的像素中，确定属于该目标视频的字符的字符像素；根据该字符像素，确定至少一个代表该字符的字符文本。另一方面，提供了一种识别视频的字符的装置，该装置包括：字符模型确定模块，用于根据源视频，确定字符模型；字符像素确定模块，用于根据该字符模型确定模块确定的与目标视频相对应的该字符模型，从该目标视频包括的像素中，确定属于该目标视频的字符的字符像素；字符文本确定模块，用于根据该字符像素确定模块确定的该字符像素，确定至少一个代表该字符的字符文本。

根据本发明实施例的识别视频的字符的方法和装置，通过根据源视频确定字符模型，并根据与目标视频相对应的字符模型，从该目标视频的像素中确定该目标视频的字符，因此无需通过分割算法等，从该目标视频的图像中分割出该字符，从而能够缩短在线字符识别过程的时间，提高视频分析过程的实时性。附图说明

为了更清楚地说明本发明实施例的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作筒单地介绍，显而易见地，下面描述中的附图仅仅是本发明的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图 1是根据本发明实施例的识别视频的字符的方法的示意性流程图。图 2是根据本发明实施例的确定字符模型的方法的示意性流程图。

图 3 是根据本发明另一实施例的识别视频的字符的方法的示意性流程图。

图 4是根据本发明实施例的识别视频的字符的装置的示意性框图。

图 5是根据本发明实施例的字符模型确定模块的示意性框图。

图 6是根据本发明另一实施例的识别视频的字符的装置的示意性框图。具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

图 1 示出了根据本发明实施例的识别视频的字符的方法的示意性流程图。如图 1所示，该方法包括：

S110, 根据源视频，确定字符模型；

S120, 根据与目标视频相对应的该字符模型，从该目标视频包括的像素中，确定属于该目标视频的字符的字符像素；

S130, 根据该字符像素，确定至少一个代表该字符的字符文本。

具体地说，在 S110 中，可以根据源视频，确定字符模型，其中，该字符模型是一个概率模型，通过将目标视频中的像素代入该字符模型，能够计算出该像素属于与该字符模型相对应的字符的概率，在本发明实施例中，字符模型与字符的对应关系可以通过字符的颜色、大小、形状等体现，例如，可以根据源视频中的白颜色字符，确定白颜色字符模型，通过将目标视频中的像素代入该白颜色字符模型，能够确定该像素属于白颜色字符的概率。应理解，上述字符模型与字符的对应关系并不限定于字符的颜色、大小、形状，能够体现字符特征的参数均落入本发明实施例的范围内。

在本发明实施例中，可以根据图 2所示的确定字符模型的方法，确定该字符模型。如图 2所示，该方法包括：

S210, 根据字符区域判定参数，确定该源视频的第一图像包括第一字符区域；

S220, 对该第一字符区域进行连通域标注操作，确定该第一字符区域的连通域；

S230, 对该连通域进行聚类操作，确定该第一字符区域的连通域类； S240, 根据训练数据判定参数，从该连通域类中，确定训练连通域类，并将该训练连通域类包括的各连通域的平均值确定为训练数据；

S250, 根据该训练数据，确定该字符模型。

具体地说，由于在每段视频（例如，新闻视频）中，字符（例如，标题）出现的区域通常是固定的，因此，在 S210, 可以根据字符区域判定参数，判定源视频的一帧图像中是否包括字符区域，在本发明实施例中，字符区域判定参数可以包括：字符区域包括的边缘数量与该字符区域的面积的比率、该边缘数量在水平方向与垂直方向上的比率、以及该边缘数量在垂直方向上的对称度。其中，如果上述字符区域判定参数满足以下条件，则可以确定该图像包括字符区域，因此，该步骤可以以离线的方式自动进行。

1. 边缘数量和标题区域的面积的比率大于规定阈值，例如，可以将该阈值设为 0.1 ;

2. 边缘数量在水平方向与垂直方向上的比率在规定的范围内，例如，可以将该范围设为 [ 0.5 , 2 ];

3. 边缘数量在垂直方向上的对称度，即该字符区域中上半部和下半部分的边缘数量的比率在规定范围内，例如，可以将该范围设为 [ 0.5 , 2 1 应理解，以上列举的参数仅是本发明实施例的示例性说明，其他能够用于判定图像包括字符区域的参数及该参数阈值、范围均落入本发明的保护范围内。并且，以上参数的阈值及范围的具体数值仅是本发明的一个实施例，本发明并不限定于此。

在 S220, 对该字符区域进行连通域标注操作，确定该字符区域的所有连通域，这里，连通域标注操作是图像分析的一个标准算法，输入的内容是图像，输出的结果是该图像的若干个区域，每个区域内的像素具有相同或相似的特征，例如，相同的颜色。因此，该步骤可以以离线的方式自动进行。

在 S230, 对该连通域进行聚类操作，确定该字符区域的所有连通域类，这里，可以使用 K-means算法进行聚类， K-means算法是一个标准的聚类算法，输入的内容是全部数据（例如，上述连通域）和类别数量，输出的结果是各个类别的数据（例如，上述连通域）。在本发明实施例中，可以使用颜色作为聚类参数，即，根据颜色进行聚类，例如，所有白颜色的连通域归为一个连通域类。因此，该步骤可以以离线的方式自动进行。应理解，上述聚类参数并不限定于连通域的颜色，能够体现连通域共同特征的参数均落入本发明实施例的范围内。

在 S240, 根据训练数据判定参数，确定满足要求的连通域类，即训练连通域类，求出该训练连通域类中各连通域的平均值，例如，如果该连通域类中包括 10个连通域，则能够获得 10个平均值，并保存为与该训练连通域类相对应的训练数据，在本发明实施例中，训练数据判定参数可以包括：连通域类包括的连通域的数量、连通域类的面积与字符区域的面积的比率、以及连通域类的面积在垂直方向上的对称度。其中，如果上述字符区域判定参数满足以下条件，则可以确定该连通域类中的连通域属于字符，满足作为训练数据的要求，因此，该步骤可以以离线的方式自动进行。

1. 该连通域类包括的连通域的数量大于规定阈值，例如，可以将该阈值设为 20; 2. 该连通域类的面积与整个字符区域的面积的比例在规定的范围内，例如，可以将该范围设为 [ 0.3 , 0.9 ];

3. 该连通域类的面积在垂直方向上的对称度，即该连通域类在字符区域中线以上部分的面积与中线以下部分的面积的比率在规定范围内，例如，可以将该范围设为 [ 0.5 , 2 1

应理解，以上列举的参数仅是本发明实施例的示例性说明，其他能够确定该连通域类中的连通域属于字符的参数及该参数阈值、范围均落入本发明的保护范围内。并且，以上阈值及范围的具体数值仅是本发明的一个实施例，本发明并不限定于此。

在 S250, 可以根据该训练数据，确定该字符模型。在本发明实施例中，可以采用混合高斯模型，由公式（ 1 )表示该字符模型：

公式（ 1 )中 /^; ，∑_λ， )表示混合高斯模型的概率；表示第个高斯分量的权重， _Λ 表示第个高斯分量的概率， A表示该高斯分量的均值，

∑_k 表示该高斯分量的方差，高斯分量的个数 m取值为 2~3 , d表示特征向量 c的维数。在本发明实施例中，混合高斯模型的训练可以采用 EM算法，即期望最大化算法，通过逐步改进模型的参数，使参数和训练数据的似然概率逐渐增大，最后终止于一个极大点。直观地理解， EM算法也可被看作为一个逐次逼近算法：事先并不知道模型的参数，可以随机的选择一套参数或者事先粗略地给定某个初始参数 λθ , 确定出对应于这组参数的最可能的状态，计算每个训练样本的可能结果的概率，在当前的状态下再由样本对参数修正，重新估计参数 λ , 并在新的参数下重新确定模型的状态，这样，通过多次的迭代，循环直至某个收敛条件满足为止，就可以使得模型的参数逐渐逼近真实参数。因此，该步骤可以以离线的方式自动进行。

应理解，以上列举的字符模型的表达式以及训练方法仅是本发明的一个实施例，本发明并不限定于此。

在本发明实施例中，可以根据源视频的种类而确定多个不同种类的字符模型，并对该多个字符模型附以区别标记，该种类可以根据源视频信息（例如，源视频的来源、制作风格等）来确定，并且该区别标记可以在字符模型的名称中体现。应理解，在本发明实施例中，该源视频信息并不限定于上述源视频的来源、制作风格等，其他能够体现某类视频的共同特征的信息均落入本发明的保护范围内。并且，上述区别标记的体现方式仅为本发明的一个实施例，其他能够识别该字符模型的种类的方式均落入本发明的保护范围内。

在本发明实施例中，为了使确定的字符模型具有统计意义，优选使用在本发明实施例中，由于确定字符模型的方法中的各步骤均可以以离线的方式自动进行，因此无需人工干预，能够自动获得训练数据并预先建立字符的表观模型，从而能够加速在线字符识别的速度，缩短在线字符识别过程的时间，提高视频分析过程的实时性。

返回图 1 , 在 S120, 可以根据目标视频信息（例如，目标视频的来源、制作风格等）和字符模型的区分标记，确定与该目标视频相对应的字符模型，遍历目标视频的每一帧图像中的所有像素，通过将该像素代入该字符模型，能够确定该像素属于目标视频的字符的概率，当概率大于规定阈值（例如， 0.8 ) 时，可以确定该像素为字符的字符像素（种子点）。应理解，该阈值的具体数值仅为本发明的一个实施例，本发明并不限定于此，即，该阈值可以针对目标视频而设定，阈值设定相对较高时可以去除噪声点。

可选地，在本发明实施例中，还可以进一步根据字符区域判定参数，确定目标视频的一帧图像中是否包括字符区域，如果包括字符区域，则可以遍历该字符区域的所有像素。如果不包括字符区域，则可以直接转入下一帧图像。因此，该根据所述字符模型，从所述视频包括的像素中，确定属于所述字符的字符像素，包括：

根据字符区域判定参数，确定该目标视频的第二图像包括第二字符区域；

根据与该目标视频相对应的该字符模型，从该第二字符区域包括的像素中，确定属于该目标视频的字符的字符像素。

具体地说，由于在每段视频（例如，新闻视频）中，字符（例如，标题）出现的区域通常是固定的，因此，可以根据字符区域判定参数，判定目标视频的一帧图像中是否包括字符区域，在本发明实施例中，字符区域判定参数可以包括：字符区域包括的边缘数量与该字符区域的面积的比率、该边缘数量在水平方向与垂直方向上的比率、以及该边缘数量在垂直方向上的对称度。其中，如果上述字符区域判定参数满足以下条件，则可以确定该图像包括字符区域。

在本发明实施例中，通过判断目标视频的一帧图像中是否包括字符区域，如果包括字符区域，则可以遍历该字符区域的所有像素，如果不包括字符区域，则可以直接转入下一帧图像，能够进一步提高加速在线字符识别的速度，缩短在线图像识别过程的时间，提高视频分析过程的实时性。

返回图 1 , 在 S130, 可以根据种子填充算法，将在 S120确定的种子点填充为字符图像（例如，二值图像），并将该字符图像送入光学字符识别 ( OCR , Optical Character Recognition ) 引擎，最后输出字符文本。其中，种子填充算法又称为边界填充算法。其基本思想是：从多边形区域的一个内点开始，由内向外用给定的颜色画点直到边界为止。如果边界是以一种颜色指定的，则种子填充算法可逐个像素地处理直到遇到边界颜色为止。由于一段视频中可能存在多帧包括不同字符（例如，颜色，字数、字体、形状等不同）的图像，因此输出的字符文本也可能是一个以上。

因此，根据本发明实施例的识别视频的字符的方法，通过根据源视频确定字符模型，并根据与目标视频相对应的字符模型，从该目标视频的像素中，确定该目标视频的字符，因此无需通过分割算法（例如，连通域分析，图切法， K-means聚类等）等，从目标视频的图像中分割出该字符，从而能够缩短在线图像识别过程的时间，提高视频分析过程的实时性。在一段视频中可能存在相同的字符持续一定时间（即，在多帧图像中出现相同的字符）的情况，也可能由于识别的准确性而出现字符中个别单字出现错误的情况。因此，优选地，如图 4所示，根据图 1所示的本发明实施例的识别视频的字符的方法， S130之后还可以包括：

S140, 根据所述字符文本彼此之间的编辑距离和包括的字符数量，确定所述字符文本彼此之间的相似度；

S150, 根据该相似度，确定字符文本类，该字符文本类包括至少三个彼此之间的相似度小于第一阈值的字符文本；

S160, 根据该字符文本类包括的字符文本彼此之间的相似度，确定该字符文本类的代表字符文本。

具体地说，在 S140, 可以用相似度模型来表达用于确定字符文本彼此之间的编辑距离和包括的字符数量的关系，由以下公式（2 )表示：

5 = 1 - Dis(capl, cap!) I max (| ΐ|，| 2|) ( 2 )

公式（2 )中， S代表字符文本 rapl , rap2的相似度，取值范围可以设为： [ 0, 1 ]； Dis ( capl , cap2 ) 为字符文本 capl和 cap2之间的编辑距离，该编辑距离可以代表将字符文本 c^l转换为字符文本 cap2所需要的步骤， I c^l I , I capl I分别为字符文本" 、 capl所包括的单个字的数量。彼此之间的相似度小于规定阈值（例如 0.5 ) 的归为一类，作为一个字符文本类，即，可以认为同一字符文本类中的字符文本是相同的。

在 S160, 对于每一类字符文本类，可以比较其包括的每个字符文本与同类中其它字符文本的相似度，并求和。将相似度之和最大的字符文本作为该字符文本类的代表字符文本。

应理解，以上规定阈值的具体数值仅为本发明的一个实施例，本发明并不限定于此。

因此，通过根据相似度模型进行的聚类以及代表字符文本求取，能够去除字符文本的重复，校正由 OCR带来的部分错误。

上文中，结合图 1至图 3 , 详细描述了根据本发明实施例的识别视频的字符的方法，下面将结合图 4至图 6, 详细描述根据本发明实施例的识别视频的字符的装置。

图 4示出了根据本发明实施例的识别视频的字符的装置的示意性框图。如图 4所示，该装置可以包括：

字符模型确定模块 410, 用于根据源视频，确定字符模型；

字符像素确定模块 420, 用于根据字符模型确定模块 410确定的与目标视频相对应的该字符模型，从该目标视频包括的像素中，确定属于该目标视频的字符的字符像素；

字符文本确定模块 430, 用于根据字符像素确定模块 420确定的该字符像素，确定至少一个代表该字符的字符文本。

根据本发明实施例的识别视频的字符的装置可对应于本发明实施例的识别视频的字符的方法的执行主体，并且，该识别视频的字符的装置中的各模块和上述其他操作和 /或功能分别为了实现图 1中的方法的相应流程，为了筒洁，在此不再赘述。

图 5示出了根据本发明实施例的字符模型确定模块 410的示意性框图。如图 5所示，该字符模型确定模块 410可以包括：

字符区域判定单元 411 , 用于根据字符区域判定参数，确定所述源视频的第一图像包括第一字符区域；

连通域标注单元 412, 用于对所述字符区域判定单元 411确定的所述第一字符区域进行连通域标注操作，确定所述第一字符区域的连通域；

连通域聚类单元 413 , 用于对所述连通域标注单元 412确定的所述连通域进行聚类操作，确定所述第一字符区域的连通域类；

训练数据确定单元 414, 用于根据训练数据判定参数，从该连通域聚类单元 413确定的该连通域类中，确定训练连通域类，并将该训练连通域类包括的各连通域的平均值确定为训练数据；

字符模型确定单元 415 , 用于根据所述训练数据确定单元 414确定的所述训练数据，确定所述字符模型。

在本发明实施例中，由于所述字符模型确定模块 410及其包括的各单元进行的操作均可以以离线的方式自动进行，因此无需人工干预，能够自动获得训练数据并预先建立字符的表观模型，从而能够加速在线字符识别的速度，缩短在线图像识别过程的时间，提高视频分析过程的实时性。

根据本发明实施例的字符模型确定模块 410可对应于本发明实施例的确定字符模型的方法的执行主体，并且，该字符模型确定模块 410中的各单元和上述其他操作和 /或功能分别为了实现图 2 中的方法的相应流程，为了筒洁，在此不再赘述。

可选地，在本发明实施例中，还可以进一步根据字符区域判定参数，确定目标视频的一帧图像中是否包括字符区域，如果包括字符区域，则可以遍历该字符区域的所有像素。如果不包括字符区域，则可以直接转入下一帧图像。因此，该字符像素确定模块 420还用于根据字符区域判定参数，确定该目标视频的第二图像包括第二字符区域；以及

用于根据该字符模型确定模块 410确定的与该目标视频相对应的该字符模型，从该第二字符区域包括的像素中，确定属于该目标视频的字符的字符像素。

根据本发明实施例的识别视频的字符的装置，通过根据源视频确定字符模型，并根据与目标视频相对应的字符模型，从该目标视频的像素中，确定该目标视频的字符，因此无需通过分割算法（例如，连通域分析，图切法， K-means聚类等）等，从目标视频的图像中分割出该字符，从而能够缩短在线图像识别过程的时间，提高视频分析过程的实时性。

在一段视频中可能存在相同的字符持续一定时间（即，在多帧图像中出现相同的字符）的情况，也可能由于识别的准确性而出现字符中个别单字出现错误的情况。因此，如图 6所示，根据本发明实施例的识别视频的字符的装置还可以包括：

相似度确认模块 440, 用于根据所述字符文本确定模块 430确定的所述字符文本彼此之间的编辑距离和包括的字符数量，确定所述字符文本彼此之间的相似度；

字符文本类确定模块 450, 用于根据所述相似度确认模块 440确定的所述相似度，确定字符文本类，该字符文本类包括至少三个彼此之间的相似度小于第一阈值的字符文本；

代表字符文本确定模块 460, 用于根据所述字符文本类确定模块 450确定的所述字符文本类包括的字符文本彼此之间的相似度，确定所述字符文本类的代表字符文本。因此，通过根据相似度模型进行的聚类以及代表字符文本求取，能够去除字符文本的重复，校正由 OCR带来的部分错误。

根据本发明实施例的识别视频的字符的装置可对应于本发明实施例的识别视频的字符的方法的执行主体，并且，该识别视频的字符的装置中的各模块和上述其他操作和 /或功能分别为了实现图 1-3中的方法的相应流程，为了筒洁，在此不再赘述。

在本发明的各种实施例中，上述各过程的序号的大小并不意味着执行顺序的先后，各过程的执行顺序应以其功能和内在逻辑确定，而不应对本发明实施例的实施过程构成任何限定。

本领域普通技术人员可以意识到，结合本文中所公开的实施例描述的各示例的单元及算法步骤，能够以电子硬件、或者计算机软件和电子硬件的结合来实现。这些功能究竟以硬件还是软件方式来执行，取决于技术方案的特定应用和设计约束条件。专业技术人员可以对每个特定的应用来使用不同方法来实现所描述的功能，但是这种实现不应认为超出本发明的范围。

所属领域的技术人员可以清楚地了解到，为描述的方便和筒洁，上述描述的系统、装置和单元的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

在本申请所提供的几个实施例中，应该理解到，所揭露的系统、装置和方法，可以通过其它的方式实现。例如，以上所描述的装置实施例仅仅是示意性的，例如，所述单元的划分，仅仅为一种逻辑功能划分，实际实现时可以有另外的划分方式，例如多个单元或组件可以结合或者可以集成到另一个系统，或一些特征可以忽略，或不执行。另一点，所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口，装置或单元的间接耦合或通信连接，可以是电性，机械或其它的形式。

所述作为分离部件说明的单元可以是或者也可以不是物理上分开的，作为单元显示的部件可以是或者也可以不是物理单元，即可以位于一个地方，或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。

另外，在本发明各个实施例中的各功能单元可以集成在一个处理单元中，也可以是各个单元单独物理存在，也可以两个或两个以上单元集成在一个单元中。所述功能如果以软件功能单元的形式实现并作为独立的产品销售或使用时，可以存储在一个计算机可读取存储介质中。基于这样的理解，本发明的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的部分可以以软件产品的形式体现出来，该计算机软件产品存储在一个存储介质中，包括若干指令用以使得一台计算机设备（可以是个人计算机，服务器，或者网络设备等）执行本发明各个实施例所述方法的全部或部分步骤。而前述的存储介质包括： U盘、移动硬盘、只读存储器（ ROM, Read-Only Memory )、随机存取存储器（RAM, Random Access Memory ), 磁碟或者光盘等各种可以存储程序代码的介质。

以上所述，仅为本发明的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应所述以权利要求的保护范围为准。

Claims

权利要求

1、一种识别视频的字符的方法，其特征在于，所述方法包括：根据源视频，确定字符模型；

根据与目标视频相对应的所述字符模型，从所述目标视频包括的像素中，确定属于所述目标视频的字符的字符像素；

根据所述字符像素，确定至少一个代表所述字符的字符文本。

2、根据权利要求 1所述的方法，其特征在于，所述方法还包括：根据所述字符文本彼此之间的编辑距离和包括的字符数量，确定所述字符文本彼此之间的相似度；

根据所述相似度，确定字符文本类，所述字符文本类包括至少三个彼此之间的相似度小于设定的第一阈值的字符文本；

根据所述字符文本类包括的字符文本彼此之间的相似度，确定所述字符文本类的代表字符文本。

3、根据权利要求 1或 2所述的方法，其特征在于，所述根据源视频，确定字符模型，包括：

根据字符区域判定参数，确定所述源视频的第一图像包括第一字符区域；

对所述第一字符区域进行连通域标注操作，确定所述第一字符区域的连通域；

对所述连通域进行聚类操作，确定所述第一字符区域的连通域类；根据训练数据判定参数，从所述连通域类中，确定训练连通域类，并将所述训练连通域类包括的各连通域的平均值确定为训练数据；

根据所述训练数据，确定所述字符模型。

4、根据权利要求 3所述的方法，其特征在于，所述训练数据判定参数包括：所述连通域类包括的连通域的数量、所述连通域类的面积与所述第一字符区域的面积的比率、以及所述连通域类的面积在垂直方向上的对称度。

5、根据权利要求 1至 4中任一项所述的方法，其特征在于，所述根据与目标视频相对应的所述字符模型，从所述目标视频包括的像素中，确定属于所述目标视频的字符的字符像素，包括：

根据字符区域判定参数，确定所述目标视频的第二图像包括第二字符区域；根据与所述目标视频相对应的所述字符模型，从所述第二字符区域包括的像素中，确定属于所述目标视频的字符的字符像素。

6、根据权利要求 3至 5中任一项所述的方法，其特征在于，所述字符区域判定参数包括：字符区域包括的边缘数量与所述字符区域的面积的比率、所述边缘数量在水平方向与垂直方向上的比率、以及所述边缘数量在垂直方向上的对称度。

7、一种识别视频的字符的装置，其特征在于，所述装置包括：字符模型确定模块，用于根据源视频，确定字符模型；

字符像素确定模块，用于根据所述字符模型确定模块确定的与目标视频相对应的所述字符模型，从所述目标视频包括的像素中，确定属于所述目标视频的字符的字符像素；

字符文本确定模块，用于根据所述字符像素确定模块确定的所述字符像素，确定至少一个代表所述字符的字符文本。

8、根据权利要求 7所述的装置，其特征在于，所述装置还包括：相似度确认模块，用于根据所述字符文本确定模块确定的所述字符文本彼此之间的编辑距离和包括的字符数量，确定所述字符文本彼此之间的相似度；

字符文本类确定模块，用于根据所述相似度确认模块确定的所述相似度，确定字符文本类，所述字符文本类包括至少三个彼此之间的相似度小于设定的第一阈值的字符文本；

代表字符文本确定模块，用于根据所述字符文本类确定模块确定的所述字符文本类包括的字符文本彼此之间的相似度，确定所述字符文本类的代表字符文本。

9、根据权利要求 7或 8所述的装置，其特征在于，所述字符模型确定模块包括：

字符区域判定单元，用于根据字符区域判定参数，确定所述源视频的第一图像包括第一字符区域；

连通域标注单元，用于对所述字符区域判定单元确定的所述第一字符区域进行连通域标注操作，确定所述第一字符区域的连通域；

连通域聚类单元，用于对所述连通域标注单元确定的所述连通域进行聚类操作，确定所述第一字符区域的连通域类；训练数据确定单元，用于根据训练数据判定参数，从所述连通域聚类单元确定的所述连通域类中，确定训练连通域类，并将所述训练连通域类包括的各连通域的平均值确定为训练数据；据，确定所述字符模型。

10、根据权利要求 9所述的装置，其特征在于，所述训练数据判定参数包括：所述连通域类包括的连通域的数量、所述连通域类的面积与所述第一字符区域的面积的比率、以及所述连通域类的面积在垂直方向上的对称度。

11、根据权利要求 7至 10所述的装置，其特征在于，所述字符像素确定模块还用于根据字符区域判定参数，确定所述目标视频的第二图像包括第二字符区域；

用于根据所述字符模型确定模块确定的与所述目标视频相对应的所述字符模型，从所述第二字符区域包括的像素中，确定属于所述目标视频的字符的字符像素。

12、根据权利要求 9至 11 中任一项所述的装置，其特征在于，所述字符区域判定参数包括：字符区域包括的边缘数量与所述字符区域的面积的比率、所述边缘数量在水平方向与垂直方向上的比率、以及所述边缘数量在垂直方向上的对称度。