WO2013152682A1 - 一种新闻视频字幕标注方法 - Google Patents

一种新闻视频字幕标注方法 Download PDF

Info

Publication number
WO2013152682A1
WO2013152682A1 PCT/CN2013/073548 CN2013073548W WO2013152682A1 WO 2013152682 A1 WO2013152682 A1 WO 2013152682A1 CN 2013073548 W CN2013073548 W CN 2013073548W WO 2013152682 A1 WO2013152682 A1 WO 2013152682A1
Authority
WO
WIPO (PCT)
Prior art keywords
news
video
subtitle
image
subtitle area
Prior art date
Application number
PCT/CN2013/073548
Other languages
English (en)
French (fr)
Inventor
刘赵杰
Original Assignee
天脉聚源(北京)传媒科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 天脉聚源(北京)传媒科技有限公司 filed Critical 天脉聚源(北京)传媒科技有限公司
Publication of WO2013152682A1 publication Critical patent/WO2013152682A1/zh

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/278Subtitling
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04NPICTORIAL COMMUNICATION, e.g. TELEVISION
    • H04N5/00Details of television systems
    • H04N5/222Studio circuitry; Studio devices; Studio equipment
    • H04N5/262Studio circuits, e.g. for mixing, switching-over, change of character of image, other special effects ; Cameras specially adapted for the electronic generation of special effects
    • H04N5/272Means for inserting a foreground image in a background image, i.e. inlay, outlay

Definitions

  • the present invention relates to the field of video content analysis technologies, and in particular, to a news video captioning method. Background technique
  • Video is a collection of images, sounds and texts.
  • the subtitles in the video are an important source of high-level semantic content of the video, such as the title of the news, the content prompt information, the time when the broadcast, the narration, the thanks after the program and the work.
  • the list of people, etc. contains a wealth of high-level semantic information. Extracting the subtitle information in the video to automate the management of a large number of videos is of great significance for video retrieval using mature text retrieval technology.
  • subtitles in the news video mainly have the following forms: the title of the news, the important information prompts the subtitles (the journalist, the location of the news and the prompts of the person's place in the news), the voice prompt subtitles and the scrolling real-time information prompt.
  • the real-time information scrolling in these subtitles suggests that the subtitles may not have much to do with the news itself. The role of the desired.
  • the program extracts the news video subtitles by decoding the video, by analyzing the video frames, such as using a connected domain based method, a texture based method, an edge based method or a method based on the subtitle block feature to establish a classifier.
  • the subtitles are positioned, and then the positioned subtitle blocks are identified, and the final recognition result is manually confirmed to form a unified format video content text information annotation result.
  • the existing subtitle annotation technology does not take into account the characteristics of news videos.
  • News videos generally have a standard format or a fixed format, and this format is generally not updated for a long time. These formats generally include the location of the news headline, the font color size, the color of the background, etc., and the prompt subtitles are also fixed in position, usually in the horizontal and vertical directions. These types are not distinguished in the general subtitle annotation technology. As long as the subtitles appear in the news, the system will automatically locate and identify. The level of information on these subtitles is not differentiated, thereby reducing the amount of information provided by the subtitles.
  • Such annotation is not conducive to the proofreading in the later stage of the manual and is not conducive to the retrieval of video information, and of course it is not conducive to the reader's browsing of these news videos.
  • the manual labeling method can ensure the accuracy of the information, but the manual labeling has low sales volume, high cost, and limited information that can be extracted. At the same time, as the amount of data grows rapidly, this approach makes annotations unacceptable.
  • the computer program automatically locates and identifies and then assists the manual proofreading method.
  • the connected domain can quickly locate the subtitle region, but is sensitive to background complexity; the texture algorithm is simple to implement, but due to the influence of similar texture regions in the video The detection accuracy is low; the edge-based method has low computational complexity, but relies heavily on the background of video subtitles; there are also some methods based on statistics to build classifiers, which are too dependent on training samples.
  • the object of the present invention is to provide a news video captioning method, which can improve the accuracy of the captioning in the video, reduce the time of manual proofreading, and improve the effect of the news video retrieval.
  • a news video captioning method includes the following steps:
  • step D the news subtitle area and the template image in the news template library, if the match, then go to step E, if not, then go to step F;
  • Step F further includes the following steps:
  • the annotation result of the news subtitle area is stored in a news template library.
  • step A use the computer and TV card to collect news videos.
  • Extracting the candidate subtitle region from the video image in step C further includes the following steps:
  • step C1 the gradation transformation is performed according to the following formula:
  • step C2 further includes the following steps:
  • the gray image of the adjacent two video frames is compared, and the common corner set of the gray image of the adjacent two video frames is retained.
  • Performing the news subtitle area positioning in step C further includes the following steps:
  • the vertical and horizontal decomposition of the candidate subtitle regions is performed by the Sobel edge to determine the vertical and horizontal directions of the candidate subtitle regions.
  • the step C and the step D further verify the news subtitle area, and filter out the subtitle area that does not meet the following at least one rule:
  • the subtitle area has a predetermined distance from the boundary of the video image, and the upper, lower, left and right borders of the subtitle area are larger than the predetermined pixel point from the video image boundary;
  • the subtitle frame height is greater than the minimum subtitle height and less than the maximum subtitle height
  • the title caption color in the video image has a preset contrast with the background color.
  • step D the color texture features of the text and the background in the news subtitle area are extracted, and the features of the template image in the news template library are matched.
  • step E the format of the news subtitle area according to the template image annotation format is hierarchical, and the information corresponding to each level is set according to the content of the news, and the information is different in the index of the video. Weights appear.
  • a device for subtitle labeling of news videos comprising:
  • a decoding module configured to decode the news video to obtain a video image of a single frame
  • a positioning module configured to extract a candidate subtitle area from the video image, and perform a location of the news subtitle area
  • a matching module configured to match the news subtitle area with a template image in a news template library
  • An annotation module configured to label the news subtitle area according to a template image labeling format that is successfully matched when the matching is successful.
  • FIG. 1A is a main flowchart of a news video caption labeling in a specific embodiment of the present invention
  • FIG. 1B is a detailed flowchart of a news video caption labeling in a specific embodiment of the present invention
  • FIG. 2 is a structural diagram of a device in a specific embodiment of the present invention. detailed description
  • FIG. 1A the main method flow of the video video subtitle labeling in the specific embodiment of the present invention is as follows:
  • Step 11 Collect news videos.
  • Step 12 Decode the news video to obtain a single frame video image.
  • Step 13 Extract candidate subtitle regions from the video image, and perform news subtitle region positioning.
  • Step 14 Match the news subtitle area with the template image in the news template library.
  • Step 15 If there is a match, the news subtitle area is marked according to the template image annotation format that is successfully matched.
  • FIG. 1B is a detailed flowchart of the video video subtitle labeling in the specific embodiment of the present invention.
  • the process of subtitles of the news video includes the following steps: The scheme of using computer plus TV card can be stored side by side; the collection stage system performs directed collection of the video stream through the collection configuration plan, and then performs video content analysis on the video data of the collection.
  • Step 102 Decode the news video to obtain a video image of a single frame.
  • Step 103 Perform gradation transformation on each frame of the video image to generate a grayscale image, and perform gradation transformation according to the following formula:
  • L(x,y) 0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), where L(x,y) is the gray of the pixel point (x,y)
  • the degree values, R(x, y), G(x, y), and B(x, y) are the red, green, and blue components in the RGB colors of the pixel points (x, y).
  • Step 104 Detect a corner point in the generated grayscale image, and delete a corner point in the background. Since all the points in the video image whose curvature is sufficiently high are judged to be corner points, in addition to the corner points of the subtitle area in the corner map of the video image, there may be some corner points left by the background. In order to improve the accuracy of subtitle area detection, the isolated corner points in the corner distribution map are first filtered out to avoid noise accumulation and reduce noise in the final extraction result. Since the same subtitle in the video will appear in multiple video images successively and the position usually does not change, the background of the video image changes relatively large, which will result in if the adjacent two video images contain the same subtitles.
  • Point set (this set is a quasi-minimum set containing subtitle corners, because this set still contains some fixed background corner points) to filter out a large number of corner points left by the background pixels, thus greatly reducing the false positive rate .
  • the diagonal point filtering algorithm in order to improve the matching speed, it is necessary to first sort each corner point of the adjacent two video image corner point sets according to the size of the X or y coordinate value, and then find two. Corner points in the set of corner points with the same x and y coordinate values.
  • corner points in the subtitle area are almost evenly distributed, and the general subtitle area is a rectangle, the isolated corner points can be deleted.
  • corner points that are horizontally or vertically close to each other are merged.
  • the area after the merge may be smaller than the actual size, so the appropriate expansion is performed several times to finally determine the same candidate subtitle area.
  • Step 105 In order to further decompose the extracted candidate subtitle regions, use Sobel edge pairs
  • the candidate subtitle regions are decomposed in the vertical and horizontal directions, and the vertical and horizontal directions of the candidate subtitle regions are determined by the decomposition of the edge regions.
  • Step 106 Verify the news subtitle area. After vertical and horizontal decomposition, each region is extended to its circumscribed rectangle. The candidate subtitle area is now very close to the real subtitle frame. In this step, the features of the subtitles in some news are mainly used for targeted processing.
  • the appearance of subtitles in news video has certain rules, and these rules can be used to filter out subtitle areas that do not conform to at least one of the following rules:
  • the subtitle area has a predetermined distance from the boundary of the video image, and the upper, lower, left and right borders of the subtitle area are larger than the predetermined pixel point from the video image boundary;
  • the subtitle frame height is greater than the minimum subtitle height and less than the maximum subtitle height
  • the title caption color in the video image has a preset contrast with the background color.
  • Step 107 Extract the color texture features of the text and the background in the news subtitle area, and match the features of the template image in the news template library. If yes, go to step 108. If not, go to step 109.
  • the system is manually used in the early stage. It mainly uses the format of the news video to be marked. By manually selecting the subtitle information picture represented in each program as the template picture, then Label the image with the appropriate format. For example, a central set of news broadcasts, the corresponding annotation format is the title block and the area in which the title appears, the horizontal presentation of subtitle information, the vertical presentation of subtitle information and the subtitle information of the speech content.
  • the accuracy of the positioning of the template is improved, and only manual verification of the candidate pictures in the non-template is required. According to The amount of news video that needs to be processed determines whether or not to add a new template. In order to reduce the workload of manual annotation, the system currently only needs to mark the position of the corresponding subtitle in the template image.
  • Step 108 Label the news subtitle area according to the template image annotation format. That is, the candidate image is automatically labeled according to the template image annotation format system in the template library.
  • the annotation format is hierarchical, and the information corresponding to each level is manually set according to the content of the news, such as program content subtitles, news headlines, important information prompt subtitles, speech content subtitles, and the like. This information will appear with different weights in the index of the video.
  • the template information such as the color of the subtitles
  • the background of the subtitles may be fixed, and this information is very helpful for subtitle recognition. Caption recognition with template annotations is far better than subtitles that are not templated.
  • Step 109 Label the news subtitle area.
  • the main types of such pictures are as follows: one is the unconventional subtitle information in the news video, such as subtitles in the video content; the second is a new news program, such as a new news program or a revised news program that is not marked. .
  • the system will mark the subtitles according to the size of the font and the direction of the horizontal and vertical. The large subtitles and vertical subtitles may play a more important role in the news video.
  • Step 110 Store the result of the marking of the non-template news subtitle area in step 109 into the news template library, or identify it as a general subtitle.
  • Step 111 The system will import the results of the positioning and recognition into the editing system.
  • the editing system utilizes the rich candidate and likelihood information, and the system will highlight the position with low recognition score.
  • the apparatus for subtitle annotation of news video in the specific embodiment of the present invention includes: a collection module 201, configured to collect news videos;
  • a decoding module 202 configured to decode the news video to obtain a video image of a single frame
  • a positioning module 203 configured to extract a candidate subtitle area from the video image, and perform a subtitle area positioning of the news subtitle
  • a matching module 204 configured to match the news subtitle area with a template image in a news template library
  • the labeling module 205 is configured to mark the news subtitle area according to a template image labeling format that is successfully matched when the matching is successful. When there is no match, the news subtitle area is marked.
  • the present invention may take the form of an entirely hardware embodiment, an entirely software embodiment, or a combination of software and hardware.
  • the invention can be embodied in the form of one or more computer program products embodied on a computer-usable storage medium (including but not limited to disk storage, CD-ROM, optical storage, etc.) in which computer usable program code is embodied.
  • the computer program instructions can also be stored in a computer readable memory that can direct a computer or other programmable data processing device to operate in a particular manner, such that the instructions stored in the computer readable memory produce an article of manufacture comprising the instruction device.
  • the apparatus implements the functions specified in one or more blocks of a flow or a flow and/or block diagram of the flowchart.
  • These computer program instructions can also be loaded onto a computer or other programmable data processing device such that a series of operational steps are performed on a computer or other programmable device to produce computer-implemented processing for execution on a computer or other programmable device.
  • the instructions provide steps for implementing the functions specified in one or more of the flow or in a block or blocks of a flow diagram.

Landscapes

  • Engineering & Computer Science (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Studio Circuits (AREA)

Abstract

本申请公开了一种新闻视频字幕标注方法,首先采集新闻视频;对新闻视频进行解码,获得单帧的视频图像;从视频图像中提取候选字幕区域,进行新闻字幕区域定位;将新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配,则按照模板图像标注格式对新闻字幕区域进行标注,如果不匹配,则对新闻字幕区域进行标注。采用了本申请的技术方案,能够提高视频中字幕标注的准确率,减少人工校对的时间,提高对新闻视频检索的效果。

Description

一种新闻视频字幕标注方法 本申请要求在 2012年 4月 12日提交中国专利局、申请号为 201210106534.3、 发明名称为 "一种新闻视频字幕标注方法 "的中国专利申请的优先权,其全部内 容通过引用结合在本申请中。 技术领域
本发明涉及视频内容分析技术领域,尤其涉及一种新闻视频字幕标注方 法。 背景技术
随着信息时代的发展, 视频资料的增多, 日益呈现海量化的规模。 视频 内容同其它类型内容相比, 具备更为生动的展现形式, 承载了更为丰富的信 息。 为了实现对视频信息的高效访问, 方便人们对其高效浏览和检索, 视频 处理和检索工具的研制成为当务之急。视频是集图像、声音、文字为一体的, 其中视频中的字幕是视频高层语意内容的一个重要来源, 如新闻的标题、 内 容提示信息、 播出时的时间、 旁白、 节目后的致谢和工作人员名单等都包含 了丰富的高层语意信息。 提取视频中的字幕信息对大量视频的自动化管理, 对利用成熟的文本检索技术进行视频检索具有重要的意义。
新闻视频作为视频数据中最具有代表性的媒体之一, 广泛地受到人们的 关注。 而随着新闻视频数据的大量而快速地增加, 导致了人们迫切需要一个 快速、 有效的基于内容的浏览和检索系统。 在新闻视频中字幕具有明确、 丰 富的信息, 有助于人对新闻视频语义内容的理解, 是新闻视频语义信息获取 的一条重要途径。 同时还为新闻视频索引和视频分类提供了重要的信息, 因 此新闻视频字幕的自动检测具有重要意义。 新闻视频中出现的字幕主要有下 面几种形式: 新闻的标题, 重要信息提示字幕(新闻记者, 新闻的地点和新 闻中人物地点的提示), 语音提示字幕和滚动的实时信息提示。 这些字幕中滚 动的实时信息提示字幕可能与新闻本身关系不大, 其他都对新闻的标注有重 要的作用。
传统的新闻视频中字幕的标注方法一般有两种, 一是人工标注, 就是通 过釆用简单的标注工具, 通过标注人员对新闻视频反复浏览, 找出新闻视频 中出现的字幕信息, 对其中的重要信息进行简单的标注。 二是通过计算机程 序自动对新闻视频字幕检测和识别, 对新闻视频中的全部字幕进行统一处理, 然后由人工对识别的结果进行校正。 程序提取新闻视频字幕一般是通过对视 频解码, 通过对视频帧进行分析, 比如釆用基于连通域的方法, 基于紋理的 方法, 基于边缘的方法或基于对字幕块特征建立分类器的方法对视频中的字 幕进行定位, 然后对定位的字幕块进行识别, 最后识别的结果由人工进行确 认形成统一格式的视频内容文本信息标注结果。
现有的字幕标注技术没有考虑到新闻视频的特点, 新闻视频一般都有标 准格式或自己固定的格式, 而且这个格式一般也很长时间都不会更新。 这些 格式一般包括新闻标题的位置, 字体颜色大小、 背景的颜色等都固定, 还有 其中的提示字幕也位置固定, 通常为横竖方向等。 通用的字幕标注技术中没 有对这些类型加以区分,只要是新闻中出现的字幕, 系统都会自动定位识别。 让这些字幕的信息量的等级没有区分, 从而降低了字幕所提供的信息量。 这 样的标注不利于人工后期的校对也不利于视频信息的检索, 当然也更不利于 读者对这些新闻视频的浏览。
人工标注的方式能保证信息的准确,但是人工标注的销量低下,成本高, 而且所能提取的信息有限。 同时随着数据量飞速的增长, 这种方式让标注变 成不可接受的方式。 计算机程序自动定位识别然后辅助人工校对的方法, 在 视频字幕提取方法中, 基于连通域能快速定位字幕区域, 但对背景复杂度敏 感; 基于紋理算法实现简单, 但是由于视频中相近紋理区域影响使得检测的 准确率低; 基于边缘的方法计算复杂度低, 但很依赖视频字幕的背景; 还有 一些基于统计建立分类器的方法, 太依赖于训练样本。 现有的视频字幕处理 方法中都存在各自的问题, 很难找到一种方法能应对目前新闻视频的情况。 而且现有的系统没有充分利用新闻视频的特点, 仅从一个通用的视频字幕标 注考虑, 泛发型不好, 而且没有考虑到视频中字幕的不同类型。 结果导致视 频字幕自动定位和识别的效果很不理想, 导致最后人工校对的工作量增加, 从而增大了标注的成本。 发明内容
本发明的目的在于提出一种新闻视频字幕标注方法, 能够提高视频中字 幕标注的准确率, 减少人工校对的时间, 提高对新闻视频检索的效果。
为达此目的, 本发明釆用以下技术方案:
一种新闻视频字幕标注方法, 包括以下步骤:
A、 釆集新闻视频;
B、 对所述新闻视频进行解码, 获得单帧的视频图像;
C、 从所述视频图像中提取候选字幕区域, 进行新闻字幕区域定位;
D、将所述新闻字幕区域与新闻模板库中的模板图像进行匹配,如果匹配, 则转至步骤 E, 如果不匹配, 则转至步骤 F;
E、 按照模板图像标注格式对所述新闻字幕区域进行标注;
F、 对所述新闻字幕区域进行标注。
步骤 F进一步还包括以下步骤:
将对所述新闻字幕区域的标注结果存储到新闻模板库中。
步骤 A中, 釆用电脑和电视卡的方式釆集新闻视频。
步骤 C中从所述视频图像中提取候选字幕区域进一步包括以下步骤:
Cl、 对所述视频图像进行灰度变换, 生成灰度图像;
C2、 对所述灰度图像中的角点进行检测, 删除背景中的角点;
C3、 将剩下的角点进行合并, 生成候选字幕区域。
步骤 C1中, 按照下述公式进行灰度变换:
L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中, L(x,y)为像素点 (x,y) 的灰度值, R(x,y)、 G(x,y)和 B(x,y)为像素点 (x,y)的 RGB颜色中的红、 绿和蓝 分量。 步骤 C2中进一步包括以下步骤:
将所述灰度图像中孤立的角点滤除;
通过两帧相邻的视频图像的灰度图像进行比对, 保留两帧相邻的视频图 像的灰度图像的公共角点集合。
步骤 C中进行新闻字幕区域定位进一步包括以下步骤:
釆用 Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所 述候选字幕区域的垂直和水平方向。
步骤 C与步骤 D中间还对所述新闻字幕区域进行验证, 过滤掉不符合以 下至少一个规则的字幕区域:
新闻视频中字幕的出现持续预定时间;
新闻视频中横向字幕出现在屏幕的下方区域;
字幕区域距离视频图像边界有预定的距离, 字幕区域的上下左右边界距 视频图像边界大于预定的像素点;
字幕框高度大于最小的字幕高度和小于最大的字幕高度;
视频图像中的标题字幕颜色与背景颜色有预设的对比度。
步骤 D中, 提取所述新闻字幕区域中的文字和背景的颜色紋理特征, 与 新闻模板库中的模板图像的特征进行匹配。
步骤 E中, 按照模板图像标注格式对所述新闻字幕区域进行标注的格式 是分层次的, 每一层次对应的信息是根据新闻的内容设定的, 所述信息在视 频的索引中以不同的权重出现。
一种用于新闻视频字幕标注的装置, 包括:
釆集模块, 用于釆集新闻视频;
解码模块, 用于对所述新闻视频进行解码, 获得单帧的视频图像; 定位模块, 用于从所述视频图像中提取候选字幕区域, 进行新闻字幕区 域定位;
匹配模块, 用于将所述新闻字幕区域与新闻模板库中的模板图像进行匹 配; 标注模块, 用于在匹配成功时, 按照匹配成功的模板图像标注格式对所 述新闻字幕区域进行标注。 釆用了本发明的技术方案, 利用新闻视频固定的格式, 通过字幕模板的 方法和分层次的方法对新闻视频中的字幕进行标引, 尽可能地挖掘新闻视频 中的字幕信息, 从而提高了视频中字幕标注的准确率, 减少了人工校对的时 间, 提高了对新闻视频检索的效果。 附图说明
图 1A是本发明具体实施方式中新闻视频字幕标注的主要流程图; 图 1B是本发明具体实施方式中新闻视频字幕标注的详细流程图; 图 2是本发明具体实施方式中装置的结构图。 具体实施方式
下面结合附图并通过具体实施方式来进一步说明本发明的技术方案。 参见图 1A, 本发明具体实施方式中新闻视频字幕标注的主要方法流程如 下:
步骤 11 : 釆集新闻视频。
步骤 12: 对所述新闻视频进行解码, 获得单帧的视频图像。
步骤 13:从所述视频图像中提取候选字幕区域,进行新闻字幕区域定位。 步骤 14: 将所述新闻字幕区域与新闻模板库中的模板图像进行匹配。 步骤 15: 如果匹配, 按照匹配成功的模板图像标注格式对所述新闻字幕 区域进行标注。
如果不匹配, 对所述新闻字幕区域进行标注。
图 1B是本发明具体实施方式中新闻视频字幕标注的详细流程图。 如图 1 所示, 该新闻视频字幕标注的流程包括以下步骤: 釆用电脑加电视卡的方案, 可以边釆集边存储; 釆集阶段系统通过釆集配置 计划对视频流进行定向釆集, 然后对釆集的视频数据进行视频内容分析。
步骤 102、 对新闻视频进行解码, 获得单帧的视频图像。
步骤 103、 对每一帧视频图像进行灰度变换, 生成灰度图像, 按照下述公 式进行灰度变换:
L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中, L(x,y)为像素点 (x,y) 的灰度值, R(x,y)、 G(x,y)和 B(x,y)为像素点 (x,y)的 RGB颜色中的红、 绿和蓝 分量。
步骤 104、 对生成的灰度图像中的角点进行检测, 删除背景中的角点。 由于视频图像中所有边界曲率足够高的点都会被判断成是角点, 因此在 视频图像的角点分布图中除了含有字幕区域的角点之外, 还可能存在一些背 景留下的角点。 为了提高字幕区域检测的准确率, 先将角点分布图中孤立的 角点滤除, 这样可以避免噪声积累, 减少最后提取结果中的噪声。 由于视频 中同一字幕会接连出现在多个视频图像中并且位置通常不会发生变化, 而视 频图像的背景则变化相对较大, 这样就会导致如果相邻的两个视频图像中含 有相同的字幕, 则这两幅视频图像的字符对应的角点的坐标位置不会发生变 化, 而背景像素留下的角点的坐标值会发生变化, 这就可以通过寻找两个相 邻视频图像的公共角点集合(这个集合是一个包含字幕角点的准最小集合, 因为这个集合仍然含有一些固定不变的背景角点 )过滤掉很大一部分背景像 素留下的角点, 从而大大降低了误检率。 在对角点过滤算法进行实现时, 为 了提高匹配的速度,需要先对相邻两个视频图像角点集合中的每个角点按照 X 或者 y坐标值的大小进行排序, 然后再找出两个角点集合中 x、 y坐标值相同 的角点。由于在字幕区的角点几乎是均匀分布的,且一般的字幕区域是矩形, 所以孤立的角点可以删除。 为了形成候选字幕区域, 彼此水平或垂直接近的 角点合并。 为合并后的面积可能比实际的小, 所以适当的扩张几次, 最后确 定相同的候选字幕区域。
步骤 105、 为了将提取的候选字幕区域进一步分解, 釆用 Sobel边缘对 候选字幕区域进行垂直和水平方向的分解, 通过边缘区域的分解确定候选字 幕区域的垂直和水平方向。
步骤 106、 对新闻字幕区域进行验证。 经过垂直和水平分解后的结果, 接 下来每个区域扩展到它的外接矩形。 此时候选字幕区域已经很接近真实的字 幕框了。 本步骤中主要利用一些新闻中字幕的特征有针对性的处理。 新闻视 频中的字幕出现具有特定的一些规律, 可以通过这些规律, 过滤掉不符合以 下至少一个规则的字幕区域:
新闻视频中字幕的出现持续预定时间;
新闻视频中横向字幕出现在屏幕的下方区域;
字幕区域距离视频图像边界有预定的距离, 字幕区域的上下左右边界距 视频图像边界大于预定的像素点;
字幕框高度大于最小的字幕高度和小于最大的字幕高度;
视频图像中的标题字幕颜色与背景颜色有预设的对比度。
以上规则可以过滤很多过小,过大,或是垂直水平比率过小的非字幕框。 但是误报依然存在, 后续结合 sobel特征减少误报。 这里应该提到上述约束可 以筛选出包含大量的水平边缘点, 但很少有垂直边缘点, 或包含大量的垂直 边缘点, 但很少有横向边缘点的候选字幕区域。 最后, 使用基于单字幕行的 特征分析来减少误报警。
步骤 107、提取新闻字幕区域中的文字和背景的颜色紋理特征, 与新闻模 板库中的模板图像的特征进行匹配,如果匹配,则转至步骤 108 ,如果不匹配, 则转至步骤 109。
在本系统中模板库的建立主要有两个阶段, 系统前期就是用人工的手段, 主要对需要标注新闻视频的格式, 通过人工选出每个节目中有代表的字幕信 息图片作为模板图片, 然后对该图片标上相应的格式。 比如中央一套的新闻 联播, 相应的标注格式为标题块及其标题出现的区域, 横向提示字幕信息, 竖向提示字幕信息和说话内容字幕信息等。 后期随系统的运行, 模板的定位 准确程度提高, 仅仅需要人工对非模板内候选图片进行人工确认即可。 根据 需要处理新闻视频的量决定是否加入新的模板。 为了减少人工的标注的工作 量, 系统目前只需标注模板图片中相应字幕出现的位置即可。
步骤 108、按照模板图像标注格式对新闻字幕区域进行标注。 就是按模板 库中模板图片标注格式系统自动对该候选图片进行标注。 该标注格式是层次 的, 每一层次对应的信息都是由人工根据新闻的内容设定的, 比如节目内容 字幕, 新闻标题, 重要信息提示字幕, 说话内容字幕等。 这些信息会在视频 的索引中以不同的权重出现。 同时由于模板信息, 比如字幕的颜色, 字幕的 背景可能是固定, 这些信息对字幕识别有很大帮助。 有模板标注的字幕识别 的性能远远好于非模板标注的字幕。
步骤 109、 对新闻字幕区域进行标注。 这类图片主要有以下几种形式, 一 是新闻视频中不常规的字幕信息, 比如可能是视频内容中的字幕; 二是新的 新闻节目, 比如没有标注的新的新闻节目或改版的新闻节目。 系统会根据字 体的大小和横竖的方向信息对其中的字幕标注, 字体大的字幕和竖向字幕在 新闻视频中可能有更重要的作用。
步骤 110、将步骤 109对非模板的新闻字幕区域的标注结果存储到新闻模 板库中, 或者认定为一般字幕。
步骤 111、 系统会 ·ί巴定位和识别的结果导入到编辑系统, 编辑系统利用丰 富的候选结果和似然值信息, 系统会突出显示识别得分低的位置。
参见图 2, 本发明具体实施例中用于新闻视频字幕标注的装置包括: 釆集模块 201 , 用于釆集新闻视频;
解码模块 202 , 用于对所述新闻视频进行解码, 获得单帧的视频图像; 定位模块 203 , 用于从所述视频图像中提取候选字幕区域, 进行新闻字幕 区域定位;
匹配模块 204,用于将所述新闻字幕区域与新闻模板库中的模板图像进行 匹配;
标注模块 205 , 用于在匹配成功时,按照匹配成功的模板图像标注格式对 所述新闻字幕区域进行标注。 在不匹配时, 对所述新闻字幕区域进行标注。 本领域内的技术人员应明白, 本发明的实施例可提供为方法、 系统、 或 计算机程序产品。 因此, 本发明可釆用完全硬件实施例、 完全软件实施例、 或结合软件和硬件方面的实施例的形式。 而且, 本发明可釆用在一个或多个 其中包含有计算机可用程序代码的计算机可用存储介质 (包括但不限于磁盘 存储器、 CD-ROM、 光学存储器等)上实施的计算机程序产品的形式。
本发明是参照根据本发明实施例的方法、 设备(系统)、 和计算机程序产 品的流程图和 /或方框图来描述的。 应理解可由计算机程序指令实现流程图 和 /或方框图中的每一流程和 /或方框、 以及流程图和 /或方框图中的流程 和 /或方框的结合。可提供这些计算机程序指令到通用计算机、专用计算机、 嵌入式处理机或其他可编程数据处理设备的处理器以产生一个机器, 使得通 过计算机或其他可编程数据处理设备的处理器执行的指令产生用于实现在流 程图一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的 装置。
这些计算机程序指令也可存储在能引导计算机或其他可编程数据处理设 备以特定方式工作的计算机可读存储器中, 使得存储在该计算机可读存储器 中的指令产生包括指令装置的制造品, 该指令装置实现在流程图一个流程或 多个流程和 /或方框图一个方框或多个方框中指定的功能。
这些计算机程序指令也可装载到计算机或其他可编程数据处理设备上, 使得在计算机或其他可编程设备上执行一系列操作步骤以产生计算机实现的 处理, 从而在计算机或其他可编程设备上执行的指令提供用于实现在流程图 一个流程或多个流程和 /或方框图一个方框或多个方框中指定的功能的步骤。
尽管已描述了本发明的优选实施例, 但本领域内的技术人员一旦得知了 基本创造性概念, 则可对这些实施例作出另外的变更和修改。 所以, 所附权 利要求意欲解释为包括优选实施例以及落入本发明范围的所有变更和修改。 脱离本发明实施例的精神和范围。 这样, 倘若本发明实施例的这些修改和变 型属于本发明权利要求及其等同技术的范围之内, 则本发明也意图包含这些 改动和变型在内。

Claims

权 利 要 求
1、 一种新闻视频字幕标注方法, 其特征在于, 包括以下步骤:
釆集新闻视频;
对所述新闻视频进行解码, 获得单帧的视频图像;
从所述视频图像中提取候选字幕区域, 进行新闻字幕区域定位; 将所述新闻字幕区域与新闻模板库中的模板图像进行匹配;
如果匹配, 按照匹配成功的模板图像标注格式对所述新闻字幕区域进行 标注。
2、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 对 所述新闻字幕区域进行标注之后, 还包括步骤:
将对所述新闻字幕区域的标注结果存储到新闻模板库中。
3、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 釆 集新闻视频的步骤进一步包括: 釆用电脑和电视卡的方式釆集新闻视频。
4、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 从 所述视频图像中提取候选字幕区域的步骤进一步包括:
对所述视频图像进行灰度变换, 生成灰度图像;
对所述灰度图像中的角点进行检测, 删除背景中的角点;
将剩下的角点进行合并, 生成候选字幕区域。
5、 根据权利要求 4所述的一种新闻视频字幕标注方法, 其特征在于, 对 所述视频图像进行灰度变换, 生成灰度图像的步骤进一步包括: 对所述视频 图像按照下述公式进行灰度变换, 生成灰度图像:
L(x,y)=0.3 R(x,y)+0.59 G(x,y)+0.11 * B(x,y), 其中, L(x,y)为像素点 (x,y) 的灰度值, R(x,y:)、 G(x,y)和 B(x,y)为像素点 (x,y)的红、 绿和蓝分量。
6、 根据权利要求 4所述的一种新闻视频字幕标注方法, 其特征在于, 对 所述灰度图像中的角点进行检测, 删除背景中的角点的步骤进一步包括: 将所述灰度图像的背景中孤立的角点滤除; 通过两帧相邻的视频图像的灰度图像进行比对, 保留两帧相邻的视频图 像的灰度图像的公共角点集合。
7、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 进 行新闻字幕区域定位的步骤进一步包括:
釆用 Sobel边缘对所述候选字幕区域进行垂直和水平方向的分解,确定所 述候选字幕区域的垂直和水平方向。
8、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 从 所述视频图像中提取候选字幕区域, 进行新闻字幕区域定位之后, 还包括步 骤: 对所述新闻字幕区域进行验证, 过滤掉不符合以下至少一个规则的字幕 区域:
新闻视频中字幕的出现持续预定时间;
新闻视频中横向字幕出现在屏幕的下方区域;
字幕区域距离视频图像边界有预定的距离, 字幕区域的上下左右边界距 视频图像边界大于预定的像素点;
字幕框高度大于最小的字幕高度和小于最大的字幕高度;
视频图像中的标题字幕颜色与背景颜色有预设的对比度。
9、 根据权利要求 1所述的一种新闻视频字幕标注方法, 其特征在于, 将 所述新闻字幕区域与新闻模板库中的模板图像进行匹配的步骤进一步包括: 提取所述新闻字幕区域中的文字和背景的颜色紋理特征, 与新闻模板库中的 模板图像的特征进行匹配。
10、 根据权利要求 1 所述的一种新闻视频字幕标注方法, 其特征在于, 按照模板图像标注格式对所述新闻字幕区域进行标注的格式是分层次的, 每 一层次对应的信息是根据新闻的内容设定的, 所述信息在视频的索引中以不 同的权重出现。
11、 一种用于新闻视频字幕标注的装置, 其特征在于, 包括:
釆集模块, 用于釆集新闻视频;
解码模块, 用于对所述新闻视频进行解码, 获得单帧的视频图像; 定位模块, 用于从所述视频图像中提取候选字幕区域, 进行新闻字幕区 域定位;
匹配模块, 用于将所述新闻字幕区域与新闻模板库中的模板图像进行匹 配;
标注模块, 用于在匹配成功时, 按照匹配成功的模板图像标注格式对所 述新闻字幕区域进行标注。
PCT/CN2013/073548 2012-04-12 2013-04-01 一种新闻视频字幕标注方法 WO2013152682A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201210106534.3 2012-04-12
CN2012101065343A CN102780856B (zh) 2012-04-12 2012-04-12 一种新闻视频字幕标注方法

Publications (1)

Publication Number Publication Date
WO2013152682A1 true WO2013152682A1 (zh) 2013-10-17

Family

ID=47125603

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2013/073548 WO2013152682A1 (zh) 2012-04-12 2013-04-01 一种新闻视频字幕标注方法

Country Status (2)

Country Link
CN (1) CN102780856B (zh)
WO (1) WO2013152682A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103870795A (zh) * 2012-12-13 2014-06-18 北京捷成世纪科技股份有限公司 一种视频游动字幕的自动检测方法和装置
CN106534886B (zh) * 2015-09-09 2019-07-26 无锡天脉聚源传媒科技有限公司 一种节目的标引方法及装置
CN109558515A (zh) * 2017-09-27 2019-04-02 飞狐信息技术(天津)有限公司 一种视频内容属性标注方法及装置
CN109003269B (zh) * 2018-07-19 2021-10-08 哈尔滨工业大学 一种能提高医生效率的医学影像病灶的标注提取方法
CN109348289B (zh) * 2018-11-15 2021-08-24 北京奇艺世纪科技有限公司 新闻节目的标题提取方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020055950A1 (en) * 1998-12-23 2002-05-09 Arabesque Communications, Inc. Synchronizing audio and text of multimedia segments
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN102024009A (zh) * 2010-03-09 2011-04-20 李平辉 视频场景库生成方法及系统、搜索视频场景的方法及系统
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101031035A (zh) * 2006-03-03 2007-09-05 广州市纽帝亚资讯科技有限公司 基于视频序列分析的新闻视频单元自动分割方法
CN101453575B (zh) * 2007-12-05 2010-07-21 中国科学院计算技术研究所 一种视频字幕信息提取方法
CN102331990B (zh) * 2010-12-22 2013-06-19 四川大学 一种基于字幕提取的新闻视频检索方法
CN102208023B (zh) * 2011-01-23 2013-05-08 浙江大学 基于边缘信息和分布熵的视频字幕识别设计方法
CN102118638A (zh) * 2011-04-02 2011-07-06 天脉聚源(北京)传媒科技有限公司 一种电视节目归档方法和系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20020055950A1 (en) * 1998-12-23 2002-05-09 Arabesque Communications, Inc. Synchronizing audio and text of multimedia segments
CN1870728A (zh) * 2005-05-23 2006-11-29 北京大学 自动加配字幕的方法和系统
CN102024009A (zh) * 2010-03-09 2011-04-20 李平辉 视频场景库生成方法及系统、搜索视频场景的方法及系统
CN102075695A (zh) * 2010-12-30 2011-05-25 中国科学院自动化研究所 面向海量广播电视节目的新一代智能编目系统和方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103856689A (zh) * 2013-10-31 2014-06-11 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法
CN103856689B (zh) * 2013-10-31 2017-01-18 北京中科模识科技有限公司 面向新闻视频的人物对话字幕提取方法

Also Published As

Publication number Publication date
CN102780856B (zh) 2013-11-27
CN102780856A (zh) 2012-11-14

Similar Documents

Publication Publication Date Title
WO2013152682A1 (zh) 一种新闻视频字幕标注方法
WO2018028583A1 (zh) 字幕提取方法及装置、存储介质
CN103761261B (zh) 一种基于语音识别的媒体搜索方法及装置
CN102542268B (zh) 用于视频中文本区域检测与定位的方法
US20080095442A1 (en) Detection and Modification of Text in a Image
Yang et al. Lecture video indexing and analysis using video ocr technology
Hua et al. Automatic location of text in video frames
US7949207B2 (en) Video structuring device and method
CN111931775B (zh) 自动获取新闻标题方法、系统、计算机设备及存储介质
CN103714094B (zh) 识别视频中的对象的设备和方法
US7099894B2 (en) Multimedia information collection control apparatus and method
CN110110147A (zh) 一种视频检索的方法及装置
WO2022089170A1 (zh) 字幕区域识别方法、装置、设备及存储介质
US20190102615A1 (en) System and method for capturing and interpreting images into triple diagrams
WO2019041442A1 (zh) 图表数据结构化提取方法、系统、电子设备及计算机可读存储介质
JP4893861B1 (ja) 文字列検知装置、画像処理装置、文字列検知方法、制御プログラムおよび記録媒体
Kuwano et al. Telop-on-demand: Video structuring and retrieval based on text recognition
CN115988149A (zh) 一种ai智能图文生成视频的方法
JP4473813B2 (ja) メタデータ自動生成装置、メタデータ自動生成方法、メタデータ自動生成プログラムおよびプログラムを記録した記録媒体
CN111414908B (zh) 一种视频中字幕字符的识别方法及装置
Huang Automatic video text detection and localization based on coarseness texture
JP4839076B2 (ja) 映像中文字認識装置、映像中文字認識方法、プログラム、及び記録媒体
Paliwal et al. A survey on various text detection and extraction techniques from videos and images
CN114140798B (zh) 文本区域的分割方法、装置、电子设备和存储介质
Chavre et al. A survey on text localization method in natural scene image

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13775549

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13775549

Country of ref document: EP

Kind code of ref document: A1