WO2013097101A1 - 分析视频文件的方法和装置 - Google Patents

分析视频文件的方法和装置 Download PDF

Info

Publication number
WO2013097101A1
WO2013097101A1 PCT/CN2011/084783 CN2011084783W WO2013097101A1 WO 2013097101 A1 WO2013097101 A1 WO 2013097101A1 CN 2011084783 W CN2011084783 W CN 2011084783W WO 2013097101 A1 WO2013097101 A1 WO 2013097101A1
Authority
WO
WIPO (PCT)
Prior art keywords
segment
mute
video file
determining
point
Prior art date
Application number
PCT/CN2011/084783
Other languages
English (en)
French (fr)
Inventor
杨杰
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Priority to CN201180003260.9A priority Critical patent/CN103299319B/zh
Priority to PCT/CN2011/084783 priority patent/WO2013097101A1/zh
Publication of WO2013097101A1 publication Critical patent/WO2013097101A1/zh

Links

Classifications

    • GPHYSICS
    • G11INFORMATION STORAGE
    • G11BINFORMATION STORAGE BASED ON RELATIVE MOVEMENT BETWEEN RECORD CARRIER AND TRANSDUCER
    • G11B27/00Editing; Indexing; Addressing; Timing or synchronising; Monitoring; Measuring tape travel
    • G11B27/10Indexing; Addressing; Timing or synchronising; Measuring tape travel
    • G11B27/19Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier
    • G11B27/28Indexing; Addressing; Timing or synchronising; Measuring tape travel by using information detectable on the record carrier by using information signals recorded by the same method as the main recording
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/40Scenes; Scene-specific elements in video content
    • G06V20/49Segmenting video sequences, i.e. computational techniques such as parsing or cutting the sequence, low-level clustering or determining units such as shots or scenes

Definitions

  • the present invention relates to the field of information technology, and more particularly to a method and apparatus for analyzing video files in the field of information technology. Background technique
  • TV news programs are one of the main sources of news videos.
  • the analysis and application of news videos are increasingly attracting industry attention.
  • the main contents of current news video analysis include: news stripping, news search, news recommendation, potential hot event discovery, news event tracking and public opinion monitoring.
  • the news information the semantic information of the generated news video can be used as the metadata of the news events obtained by the stripping, so as to facilitate the analysis and application of subsequent news search, news event tracking and other processes.
  • News videos targeted by news strips focus on videos of multiple types of news events, such as news feeds and TV news programs in various regions. This type of news, in which different types and different events are combined, is not suitable for quick retrieval of information. Therefore, the need to divide news videos into multiple news video clips by different events has become very urgent.
  • the division of news videos into different events is commonly referred to as “news stripping” or “fragmentation”, which uses the audio and video features of news videos to segment news videos into different events.
  • Currently used audio and video features include a moderator clip (also known as an "omble frame”), a subtitle clip, a shot cut clip, and a silent clip.
  • segmentation time points can be obtained by means of moderator lens detection, caption detection, silence detection and lens switching detection, but these segmentation time points are not one-to-one relationship with news event segmentation points, more specifically, these
  • the segmentation time point is an "over-segmentation" with respect to the news event segmentation point, that is, the news event segmentation point set is a subset of the aforementioned segmentation time points.
  • Embodiments of the present invention provide a method and apparatus for analyzing a video file, which can accurately determine an event segmentation point.
  • an embodiment of the present invention provides a method for analyzing a video file, the method comprising: acquiring audio data and video data of a video file; determining, according to the audio data, at least one mute point of the video file; Obtaining a judgment segment of the video file, the judgment segment including at least one of a host lens segment, a title segment, and a subtitle segment of the video file; determining, according to the determination segment, the video file in the at least one mute point Event split point.
  • an embodiment of the present invention provides an apparatus for analyzing a video file, where the apparatus includes: a first acquiring module, configured to acquire audio data and video data of a video file; and a first determining module, configured to Obtaining the audio data obtained by the module, determining at least one mute point of the video file; the second obtaining module, configured to acquire, according to the video data acquired by the first acquiring module, a judgment segment of the video file, where the determination segment includes the At least one of a host lens segment, a title segment, and a subtitle segment of the video file; a second determining module, configured to determine the segment determined by the first determining module according to the second segment obtained by the second obtaining module At least one of the mute points determines the event segmentation point of the video file.
  • the method and apparatus for analyzing a video file by acquiring at least one mute point and a judging segment of the video file, and determining event segmentation of the video file in the at least one mute point according to the judging segment.
  • the point can accurately determine the event segmentation point, thereby accurately segmenting the video file, and thereby improving the efficiency and accuracy of the video cataloging.
  • FIG. 1 is a schematic flowchart of a method of analyzing a video file according to an embodiment of the present invention.
  • 2 is another schematic flowchart of a method of analyzing a video file according to an embodiment of the present invention.
  • FIG. 3 is a schematic flowchart of a method of determining a mute point according to an embodiment of the present invention.
  • FIG. 4 is another schematic flowchart of a method of determining a mute point according to an embodiment of the present invention.
  • FIG. 5 is still another schematic flowchart of a method of determining a mute point according to an embodiment of the present invention.
  • FIG. 6 is still another schematic flowchart of a method for analyzing a video file according to an embodiment of the present invention.
  • 7 is a schematic block diagram of an apparatus for analyzing a video file in accordance with an embodiment of the present invention.
  • FIG. 8 is another schematic block diagram of an apparatus for analyzing a video file according to an embodiment of the present invention.
  • 9 is a schematic block diagram of a first determining module in accordance with an embodiment of the present invention.
  • FIG. 10 is another schematic block diagram of a first determining module according to an embodiment of the present invention.
  • FIG. 11 is a schematic block diagram of a fifth determining unit according to an embodiment of the present invention. detailed description
  • the method 100 includes:
  • the device for analyzing the video file may obtain at least one mute point of the video file and the judgment segment according to the audio data and the video data of the video file, and the judgment segment may include the host lens segment, the title segment, and the subtitle segment of the video file. At least one segment, whereby the device can determine an event segmentation point of the video file in the at least one mute point according to the determining segment. Therefore, the method for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment. The event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • the audio data and the video data of the video file can be obtained by performing audio and video separation on the video file.
  • video files can be separated from audio and video using a video decoder.
  • the video file may include various types of video files, such as news videos, entertainment videos, science videos, and the like.
  • video files such as news videos, entertainment videos, science videos, and the like.
  • a video file including a news video will be described as an example, but the embodiment of the present invention is not limited thereto.
  • At least one silent point included in the video file can be determined.
  • the audio data corresponding to the host lens segment may be silenced to detect a mute point that may include an event segmentation point; or the audio data corresponding to the non-text segment may be silenced to determine that the event segmentation point may be included.
  • the mute point may be mute the other audio data and determine the mute point.
  • a determination segment of the video file may be acquired according to the video data, wherein the determination segment may include at least one of a host lens segment, a title segment, and a subtitle segment of the video file. It should be understood that the determination segment may also include other segments for determining whether the mute point is an event segmentation point, such as a non-host mode segment, a shot switch segment, and the like.
  • the host lens segment of the video file is obtained in the video data based on the face recognition method.
  • the face information of the host involved in the video file can be registered to the database, and the face lens segment can be obtained from the video data using the face recognition technology.
  • a segment including a moderator lens in the video data is referred to as a master lens segment, and a segment not including the moderator lens may be referred to as a non-host lens segment or a scene lens segment.
  • the embodiment of the present invention uses the mode of face recognition of the host to detect the moderator segment, and has higher universality than the method of extracting the moderator segment by using the hosted broadcast frame template or other structural information. And accuracy, and the detection rate is higher.
  • the video data may be divided into a text segment and a non-text segment by using a text recognition technology, wherein the text segment may include a title segment and a subtitle segment.
  • the text segment may include a title segment and a subtitle segment.
  • the text information is extracted from the frequency data, and the text matching algorithm is used to classify the segments of the same text content into text segments, and the segments in the video data without text are called non-text segments.
  • the text matching algorithm is used to classify the segments of the same text content into text segments, and the segments in the video data without text are called non-text segments.
  • the text matching algorithm is used to classify the segments of the same text content into text segments, and the segments in the video data without text are called non-text segments.
  • the text matching algorithm is used to classify the segments of the same text content into text segments, and the segments in the video data without text are called non-text segments.
  • the text matching algorithm is used to classify the segments of the same text content into text segments, and the segments in the video data without text
  • the text information is clustered into two categories: a title and a speaker subtitle, which can eliminate the situation that the event caused by the speaker subtitle in the automatic cataloging system is excessive, thereby improving the video.
  • the file performs the accuracy of event segmentation and can improve the efficiency and accuracy of video cataloging.
  • At least one of a moderator segment, a title segment and a subtitle segment of the video file included in the judgment segment may be comprehensively considered, and an event segmentation point of the video file is determined in the at least one mute point.
  • the device for analyzing the video file may further determine an event segmentation point of the video file according to a predetermined rule, thereby determining a start and end point of the event.
  • the predetermined rule is: (1) the mute point determined according to the moderator lens segment is the end point of the previous event and the start point of the next event; (2) the subsequent title segment of the moderator segment and the moderator lens The clip belongs to the same event; (3) the mute point on both sides of the title segment belongs to the same event as the title segment; (4) there is no mute point in the host lens segment, and the host lens segment is the starting point of a story.
  • the previous frame of the host's footage is the end of the previous story.
  • the apparatus for analyzing a video file may also comprehensively consider at least one of a host shot segment, a title segment, and a subtitle segment of the video file included in the judgment segment, and exclude, in the at least one mute point, that the event segmentation is impossible.
  • the mute point of the point may also comprehensively consider at least one of a host shot segment, a title segment, and a subtitle segment of the video file included in the judgment segment, and exclude, in the at least one mute point, that the event segmentation is impossible. The mute point of the point.
  • the device for analyzing the video file may exclude all the segmentation points in the title segment from the event segmentation point according to the title segment included in the judgment segment; for example, the mute between the moderator segment and the subsequent live lens segment may also be silenced; Points are excluded from the event segmentation point; for example, it is also possible to exclude the mute point between adjacent title segments whose title content is similar from the event segmentation point, and exclude the mute point included in the mute segment that does not switch with the lens. Wait for the event to be split.
  • the embodiment of the present invention is only described by taking the foregoing predetermined rules and examples as an example, but the embodiment of the present invention is not limited thereto, and the device for analyzing the video file may further determine the video based on other factors.
  • the event split point of the file may be determined by taking the foregoing predetermined rules and examples as an example, but the embodiment of the present invention is not limited thereto, and the device for analyzing the video file may further determine the video based on other factors.
  • the event split point of the file may be performed by taking the foregoing predetermined rules and examples as an example, but the embodiment of the present invention is not limited thereto, and the device for analyzing the video file may further determine the video based on other factors.
  • the event split point of the file may be determined by taking the foregoing predetermined rules and examples as an example, but the embodiment of the present invention is not limited thereto, and the device for analyzing the video file may further determine the video based on other factors.
  • the event split point of the file may be determined by taking the fore
  • the method for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment.
  • the event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • the method 100 for analyzing a video file further includes:
  • event information corresponding to the event segment includes at least one of a host information, a visited person information, a title information, and subtitle information;
  • a video file between the initial split point and the end split point included in the event split point may be determined as an event fragment.
  • the host lens segment is detected by the face recognition technology, and the host face information corresponding to the event segment may be acquired, and the host information includes, for example, a host name, a host face information, and the like.
  • the face information or feature of the interviewee can be obtained.
  • the text information can be extracted from the video data by the text recognition technology, and the header information and the subtitle information can be obtained by further analyzing the text information.
  • At least one of the moderator information, the interviewee information, the title information, and the caption information corresponding to the event segment may be determined as the metadata of the event segment.
  • the method for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment.
  • the event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • the method for analyzing a video file in the embodiment of the present invention facilitates subsequent video retrieval, recommendation, and the like by using semantic information such as host information, interviewee information, title information, and subtitle information as metadata of an event segment.
  • semantic information such as host information, interviewee information, title information, and subtitle information
  • Applications such as story tracking can avoid the use of low-level semantic information of audio and video, and cannot provide sufficient metadata for subsequent video analysis.
  • the audio data corresponding to the host lens segment may be silenced to detect a mute point that may include an event segmentation point; or may correspond to a non-text segment.
  • the audio data is silenced to determine the silence point that may include the event split point.
  • FIG. 3 shows a schematic flow diagram of a method 200 of determining a mute point in accordance with an embodiment of the present invention. As shown in FIG. 3, the method 200 includes:
  • S230 Determine, in the video data corresponding to the first mute segment, a lens switching point; S240, determine the lens switching point as a mute point of the first mute segment.
  • the lens switching point appearing in the mute segment can be determined as the mute point.
  • the mute point obtained here includes the event split point.
  • the object of the silence detection process is audio data corresponding to the non-text segment
  • the embodiment of the present invention combines the silence detection and the lens segmentation of the video.
  • the lens switching detection of the corresponding segment video data is started.
  • the detected lens segmentation point is a mute point. Otherwise the mute segment is ignored.
  • the embodiment of the present invention combines silence detection and shot splitting, and can not only provide accurate event segmentation points, but also reduce the amount of calculation for segmentation detection of non-silent segments.
  • FIG. 4 shows a schematic flow diagram of another method 300 of determining a silence point in accordance with an embodiment of the present invention. As shown in FIG. 4, the method 300 includes:
  • a method for determining a third mute segment in the second mute segment 330 including:
  • the embodiment of the present invention may also determine the third mute segment by using other methods or based on other criteria, for example, determining the longest 30% of the mute segments in the second mute segment as the third mute segment.
  • the moderator typically shorts an event first and then begins the next event.
  • the mute segment detection is performed on the audio segment corresponding to the moderator segment, and the segment length exceeds the threshold is determined as the mute segment, and the length of each mute segment is recorded, and the segment length is much larger than the average mute segment.
  • the midpoint is determined to be a silent point, which can greatly reduce the amount of manual labor, improve the automation of video stripping, and avoid the misclassification that occurs when the host footage contains multiple stories.
  • the method for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment.
  • the event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • a method 400 of analyzing a video file according to an embodiment of the present invention will be described in detail below with reference to FIG. 6, taking a news video as an example.
  • the method 400 includes:
  • S410 performing audio and video separation on the news video to obtain audio data and video data
  • S420 dividing the video data into a host lens segment and a live lens segment, and then extracting the event from the live lens segment using the face recognition technology
  • Other characters and can also write the detected face information and face features of the interviewee into the database
  • S430 using text recognition technology to extract text information from video data, using text matching algorithm to classify segments of the same text content into text segments, and segments without text are non-text segments. And by clustering the text detected by the text segment, the clustering mainly uses the two low-level image features of color and size to group the text into two categories, the larger type of the font is the title, and the smaller one is the speech.
  • a subtitle of a person thereby determining a title segment and a subtitle segment, wherein each class calculates a Gaussian model of the font color, and the news video of the same source calculates the model once;
  • S450 performing silent segment detection on the audio data corresponding to the host lens segment, performing cluster analysis on the length of the mute segment, determining a mute segment having a longer length, and using a midpoint of the mute segment as a mute point;
  • the mute point is used as a parent set of the news event segmentation point, and the main event lens segment, the title segment, the subtitle segment, and the like near the mute point are comprehensively considered to obtain a news event segmentation point;
  • the detected host information, the interviewee information, the text information and the like are used as the semantic information of the news event, and can be stored as metadata in the database.
  • the size of the sequence numbers of the above processes does not mean the order of execution, and the order of execution of each process should be determined by its function and internal logic, and should not be taken to the embodiments of the present invention.
  • the implementation process constitutes any limitation.
  • the method for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment.
  • the event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • FIG. 7 shows a schematic block diagram of an apparatus 500 for analyzing video files in accordance with an embodiment of the present invention.
  • the apparatus 500 includes:
  • the first obtaining module 510 is configured to obtain the audio data and the video data of the video file.
  • the first determining module 520 is configured to determine, according to the audio data acquired by the first acquiring module 510, at least one mute point of the video file.
  • the second obtaining module 530 is configured to obtain, according to the video data acquired by the first acquiring module 510, a judgment segment of the video file, where the determination segment includes at least one of a host lens segment, a title segment, and a subtitle segment of the video file. a fragment
  • the second determining module 540 is configured to determine, according to the determining segment acquired by the second obtaining module 530, the event segmentation point of the video file in the at least one mute point determined by the first determining module 520.
  • the apparatus for analyzing a video file obtains at least a video file by acquiring a mute point and a judging segment, and determining an event segmentation point of the video file in the at least one mute point according to the judging segment, capable of accurately determining an event segmentation point, thereby enabling event segmentation of the video file accurately, and thereby Can improve the efficiency and accuracy of video cataloging.
  • the apparatus 500 further includes: a third determining module 550, configured to determine, according to the event segmentation point determined by the second determining module 540, that the video file includes Event fragment
  • the third obtaining module 560 is configured to acquire, according to the video file, event information corresponding to the event segment, where the event information includes at least one of a host information, a visited person information, a title information, and a caption information;
  • the fourth determining module 570 is configured to determine the event information acquired by the third obtaining module 560 as the metadata of the event segment determined by the third determining module 550.
  • the first determining module 520 includes:
  • the first obtaining unit 521 is configured to obtain, according to the audio data acquired by the first acquiring module 510, non-text segment audio data corresponding to the non-text segment included in the video data;
  • a first determining unit 522 configured to determine, in the non-text segment audio data acquired by the first acquiring unit 521, a first mute segment
  • a second determining unit 523 configured to determine a shot switching point in the video data corresponding to the first silent segment determined by the first determining unit 522;
  • the third determining unit 524 is configured to determine the shot switching point determined by the second determining unit 523 as a mute point of the first mute segment.
  • the first determining module 520 includes:
  • a second obtaining unit 525 configured to acquire, according to the audio data, the host lens segment audio data corresponding to the host lens segment;
  • a fourth determining unit 526 configured to determine, in the moderator piece piece audio data acquired by the second acquiring unit 525, a second mute segment
  • a fifth determining unit 527 configured to determine, in the second mute segment determined by the fourth determining unit 526, a third mute segment, where the length of the mute segment included in the third mute segment is greater than the second mute segment The length of the silent segment other than the third silent segment is long;
  • the sixth determining unit 528 is configured to determine a midpoint of each silent segment in the third mute segment determined by the fifth determining unit 527 as the mute point.
  • the fifth determining unit 527 includes: a first determining subunit 5271, configured to determine an average value of lengths of all the silent segments included in the second silent segment;
  • the second determining subunit 5272 is configured to determine, in the second silent segment, a silence segment whose length is greater than or equal to the average value as the third silent segment.
  • the second obtaining module 530 is further configured to: obtain a moderator segment of the video file in the video data based on the face recognition method.
  • the apparatus 500 for analyzing a video file may correspond to the apparatus for analyzing a video file in the embodiment of the present invention, and the above-described and other operations and/or functions of the respective modules in the apparatus 500 are respectively for implementing the map.
  • the corresponding processes of the respective methods 100 to 400 in FIG. 6 to FIG. 6 are not described herein again for the sake of brevity.
  • the apparatus for analyzing a video file in the embodiment of the present invention can accurately determine at least one mute point and a judging segment of the video file, and determine an event segmentation point of the video file in the at least one mute point according to the judging segment.
  • the event segmentation point is determined, so that the event segmentation of the video file can be accurately performed, and thereby the efficiency and accuracy of the video cataloging can be improved.
  • the disclosed systems, devices, and methods may be implemented in other ways.
  • the device embodiments described above are merely illustrative.
  • the division of the unit is only a logical function division.
  • there may be another division manner for example, multiple units or components may be combined or Can be integrated into another system, or some features can be ignored, or not executed.
  • the mutual coupling or direct coupling or communication connection shown or discussed may be an indirect coupling or communication connection through some interface, device or unit, or an electrical, mechanical or other form of connection.
  • the units described as separate components may or may not be physically separated, and the components displayed as units may or may not be physical units, that is, may be located in one place, or may be distributed to multiple network units. Some or all of the units may be selected according to actual needs to achieve the objectives of the embodiments of the present invention.
  • each functional unit in each embodiment of the present invention may be integrated into one processing unit, or each unit may exist physically separately, or two or more units may be integrated into one unit.
  • the above integrated unit can be implemented in the form of hardware or in the form of a software functional unit.
  • the integrated unit if implemented in the form of a software functional unit and sold or used as a standalone product, may be stored in a computer readable storage medium.
  • the technical solution of the present invention contributes in essence or to the prior art, or all or part of the technical solution may be embodied in the form of a software product stored in a storage medium.
  • a number of instructions are included to cause a computer device (which may be a personal computer, server, or network device, etc.) to perform all or part of the steps of the methods described in various embodiments of the present invention.
  • the foregoing storage medium includes: a U disk, a removable hard disk, a read-only memory (ROM), a random access memory (RAM), a magnetic disk or an optical disk, and the like, which can store program codes. .

Abstract

本发明公开了一种分析视频文件的方法和装置。该方法包括:获取视频文件的音频数据和视频数据;根据该音频数据,确定该视频文件的至少一个静音点;根据该视频数据获取该视频文件的判断片段,该判断片段包括该视频文件的主持人镜头片段、标题片段和字幕片段中的至少一种片段;根据该判断片段,在该至少一个静音点中确定该视频文件的事件分割点。本发明实施例的分析视频文件的方法和装置,通过获取视频文件的至少一个静音点和判断片段,并根据该判断片段在该至少一个静音点中确定该视频文件的事件分割点,能够准确地确定事件分割点,从而能够准确地对视频文件进行事件分割,并由此能够提高视频编目的效率和准确性。

Description

分析视频文件的方法和装置 技术领域
本发明涉及信息技术领域, 尤其涉及信息技术领域中分析视频文件的方 法和装置。 背景技术
随着网络技术和信息技术的快速发展, 大量的信息和资讯涌入我们的视 线。 图像、 音频、 视频等采用多媒体数据的表达方式, 使得新闻的点击率得 到了大幅的提高。 多媒体数据正逐渐取代文字, 成为新闻的主要载体。 面对 海量的新闻视频, 人们感到了 "信息过载" 的压力。 于是, 人们开始关注如 何从海量的视频数据中找到自己感兴趣的信息。 这种需求促使了信息检索、 个性化推荐以及数据挖掘等技术的发展。
电视新闻节目是新闻视频的主要来源之一。新闻视频的分析和应用越来 越引起业内的关注。 目前新闻视频分析的主要内容包括: 新闻拆条、 新闻搜 索、 新闻推荐、 潜在热点事件发现、 新闻事件跟踪和舆情监控。 在新闻视频 分析的第一步即新闻拆条中, 生成的新闻视频的语义信息可以作为拆条得到 的新闻事件的元数据, 以便于后续的新闻搜索、 新闻事件跟踪等过程的分析 与应用。
新闻拆条针对的新闻视频集中了多个类型的新闻事件的视频, 比如新闻 联播和各地区的电视新闻节目。 这种不同类型、 不同事件组合在一起的新闻 方式不适合信息的快速检索。 因此, 将新闻视频按不同事件划分成多个新闻 视频片段的需求变得非常迫切。 将新闻视频按不同事件进行划分俗称为 "新 闻拆条" 或 "碎片化", 即利用新闻视频的音频和视频特征, 将新闻视频按 不同事件进行分割。 目前常用的音频和视频特征包括主持人镜头片段(也称 为 "口播帧")、 字幕片段、 镜头切换片段和静音片段。
目前, 通过主持人镜头检测、 字幕检测、 静音检测和镜头切换检测等方 法能够得到大量的分割时间点,但这些分割时间点与新闻事件分割点不是一 对一的关系, 更具体地说, 这些分割时间点相对于新闻事件分割点来说是一 种 "过分割", 即新闻事件分割点集是前述分割时间点的一个子集。
通常而言, 主持人在播报新闻时, 在叙述两个新闻事件时停顿的时间相 比讲述同一个新闻事件中间停顿的时间略长。 由此, 业内通常检测新闻视频 的静音片段, 将静音片段的中间点作为静音点, 并由此将该静音点确定为新 闻事件分割点。 但由于该方法中的静音点和事件分割点并没有必然联系, 因 此该方法不能准确地获取事件分割点。 发明内容
本发明实施例提供了一种分析视频文件的方法和装置, 能够准确地确定 事件分割点。
一方面, 本发明实施例提供了一种分析视频文件的方法, 该方法包括: 获取视频文件的音频数据和视频数据; 根据该音频数据, 确定该视频文件的 至少一个静音点; 根据该视频数据获取该视频文件的判断片段, 该判断片段 包括该视频文件的主持人镜头片段、 标题片段和字幕片段中的至少一种片 段;根据该判断片段,在该至少一个静音点中确定该视频文件的事件分割点。
另一方面,本发明实施例提供了一种分析视频文件的装置,该装置包括: 第一获取模块, 用于获取视频文件的音频数据和视频数据; 第一确定模块, 用于根据该第一获取模块获取的该音频数据,确定该视频文件的至少一个静 音点; 第二获取模块, 用于根据该第一获取模块获取的该视频数据, 获取该 视频文件的判断片段, 该判断片段包括该视频文件的主持人镜头片段、 标题 片段和字幕片段中的至少一种片段; 第二确定模块, 用于根据该第二获耳 莫 块获取的该判断片段, 在该第一确定模块确定的该至少一个静音点中, 确定 该视频文件的事件分割点。
基于上述技术方案, 本发明实施例的分析视频文件的方法和装置, 通过 获取视频文件的至少一个静音点和判断片段, 并根据该判断片段在该至少一 个静音点中确定该视频文件的事件分割点, 能够准确地确定事件分割点, 从 而能够准确地对视频文件进行事件分割, 并由此能够提高视频编目的效率和 准确性。 附图说明
为了更清楚地说明本发明实施例的技术方案, 下面将对本发明实施例中 所需要使用的附图作简单地介绍, 显而易见地, 下面所描述的附图仅仅是本 发明的一些实施例, 对于本领域普通技术人员来讲, 在不付出创造性劳动的 前提下, 还可以根据这些附图获得其他的附图。
图 1是根据本发明实施例的分析视频文件的方法的示意性流程图。 图 2是根据本发明实施例的分析视频文件的方法的另一示意性流程图。 图 3是根据本发明实施例的确定静音点的方法的示意性流程图。
图 4是根据本发明实施例的确定静音点的方法的另一示意性流程图。 图 5是根据本发明实施例的确定静音点的方法的再一示意性流程图。 图 6是根据本发明实施例的分析视频文件的方法的再一示意性流程图。 图 7是根据本发明实施例的分析视频文件的装置的示意性框图。
图 8是根据本发明实施例的分析视频文件的装置的另一示意性框图。 图 9是根据本发明实施例的第一确定模块的示意性框图。
图 10是根据本发明实施例的第一确定模块的另一示意性框图。
图 11是根据本发明实施例的第五确定单元的示意性框图。 具体实施方式
下面将结合本发明实施例中的附图,对本发明实施例中的技术方案进行 清楚、 完整地描述, 显然, 所描述的实施例是本发明的一部分实施例, 而不 是全部实施例。 基于本发明中的实施例, 本领域普通技术人员在没有做出创 造性劳动的前提下所获得的所有其他实施例, 都应属于本发明保护的范围。 图。 如图 1所示, 该方法 100包括:
S110, 获取视频文件的音频数据和视频数据;
S120, 根据该音频数据, 确定该视频文件的至少一个静音点;
S130, 根据该视频数据获取该视频文件的判断片段, 该判断片段包括该 视频文件的主持人镜头片段、 标题片段和字幕片段中的至少一种片段; S140, 根据该判断片段, 在该至少一个静音点中确定该视频文件的事件 分割点。
分析视频文件的装置可以根据视频文件的音频数据和视频数据, 获取该 视频文件的至少一个静音点以及判断片段, 该判断片段可以包括该视频文件 的主持人镜头片段、 标题片段和字幕片段中的至少一种片段, 由此, 该装置 可以根据该判断片段, 在该至少一个静音点中确定该视频文件的事件分割 点。 因此, 本发明实施例的分析视频文件的方法, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
在 S110 中, 对于需要分析的视频文件, 可以通过对该视频文件进行音 视频分离, 获取该视频文件的音频数据和视频数据。 例如, 可以利用视频解 码器将视频文件进行音视频分离。
应理解, 在本发明实施例中, 视频文件可以包括各种类型的视频文件, 例如新闻视频、 娱乐视频、 科教视频等。 为了更好地示出本发明, 在下文的 描述中, 将以视频文件包括新闻视频为例进行说明, 但本发明实施例并不限 于此。
在 S120中, 根据该音频数据, 可以确定该视频文件包括的至少一个静 音点。 例如, 可以对与主持人镜头片段相应的音频数据进行静音分析, 检测 其中可能包括事件分割点的静音点; 也可以对与非文字片段相应的音频数据 进行静音分析, 确定其中可能包括事件分割点的静音点。 当然, 也可以对其 它音频数据进行静音分析并确定静音点。
在 S130中, 根据该视频数据可以获取该视频文件的判断片段, 其中该 判断片段可以包括该视频文件的主持人镜头片段、标题片段和字幕片段中的 至少一种片段。 应理解, 该判断片段也可以包括其它用于确定静音点是否为 事件分割点的片段, 例如非主持人镜头片段、 镜头切换片段等。
在本发明实施例中, 可选地, 基于人脸识别方法, 在该视频数据中获取 该视频文件的主持人镜头片段。 例如, 可以将视频文件涉及到的主持人的人 脸信息注册到数据库, 并利用人脸识别技术从视频数据中获取主持人镜头片 段。 应理解, 在本发明实施例中, 视频数据中包括主持人镜头的片段称为主 持人镜头片段, 不包括主持人镜头的片段可以称之为非主持人镜头片段或现 场镜头片段。
因此, 本发明实施例利用主持人人脸识别的方法检测主持人镜头片段, 与利用主持人口播帧模板或其他结构性信息提取主持人镜头片段的方法相 比, 具有更高的普适性和准确率, 并且检测率更高。
在本发明实施例中, 可以利用文字识别技术将视频数据分为文字片段和 非文字片段, 其中文字片段可以包括标题片段和字幕片段。 例如, 可以从视 频数据中提取文字信息, 并利用文字匹配算法将相同文字内容的片段归纳为 文字片段, 视频数据中没有文字的片段称为非文字片段。 通过对文字片段进 行分析, 可以确定文字片段包括的标题片段和字幕片段。 例如, 对文字片段 中检测到的文字进行聚类, 聚类时主要利用颜色和尺寸这两种低层图像特征 将文本聚为两类, 根据字体较大的一类为标题, 字体较小的一类为说话人的 字幕, 可以确定标题片段和字幕片段。 其中, 标题分段可以用来确定事件分 割点, 而字幕片段可以用于去除过分割中涉及到的静音点。
因此, 本发明实施例通过对文字信息进行聚类, 将文字信息分为标题和 说话人字幕两类, 能够排除自动编目系统中因为说话人字幕造成的事件被过 分的情况, 从而能够提高对视频文件进行事件分割的准确性, 并能够提高视 频编目的效率和准确性。
在 S140中, 可以综合考虑该判断片段包括的视频文件的主持人镜头片 段、 标题片段和字幕片段中的至少一种片段, 在该至少一个静音点中确定该 视频文件的事件分割点。
在本发明实施例中, 分析视频文件的装置还可以根据预定规则, 确定视 频文件的事件分割点, 由此确定事件的开始和结束点。例如,该预定规则为: ( 1 ) 根据主持人镜头片段确定的静音点为前一个事件的结束点和下一个 事件的开始点; (2 )主持人镜头片段随后的标题片段与该主持人镜头片段属 于同一个事件; (3 )标题片段两侧的静音点与该标题片段属于同一个事件; ( 4 )主持人镜头片段中没有静音点的, 该主持人镜头片段为一个故事的开 始点, 该主持人镜头片段的前一帧为上一个故事的结束点。
应理解,分析视频文件的装置也可以综合考虑该判断片段包括的视频文 件的主持人镜头片段、 标题片段和字幕片段中的至少一种片段, 在该至少一 个静音点中排除不可能为事件分割点的静音点。
例如, 分析视频文件的装置可以根据判断片段包括的标题片段, 将标题 片段中的所有分割点排除在事件分割点之外; 例如, 也可以将主持人镜头片 段与随后的现场镜头片段中间的静音点排除在事件分割点之外; 例如, 也可 以将标题内容相似的相邻标题片段之间的静音点排除在事件分割点之外,将 与镜头没有发生切换的静音片段包括的静音点排除在事件分割点之外等。
应理解, 本发明实施例仅以上述预定规则和例子为例进行说明, 但本发 明实施例并不限于此, 分析视频文件的装置还可以基于其他因素, 确定视频 文件的事件分割点。
因此, 本发明实施例的分析视频文件的方法, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
在本发明实施例中, 可选地, 如图 2所示, 分析视频文件的该方法 100 还包括:
S150, 根据该事件分割点, 确定该视频文件包括的事件片段;
S160, 根据该视频文件获取与该事件片段相应的事件信息, 该事件信息 包括主持人信息、 被访问人信息、 标题信息和字幕信息中的至少一种;
S 170 , 将该事件信息确定为该事件片段的元数据。
在 S150中, 可以将事件分割点包括的起始分割点和结束分割点之间的 视频文件确定为事件片段。
在 S160中, 通过人脸识别技术检测主持人镜头片段, 可以获取与该事 件片段相应的主持人人脸信息, 该主持人信息例如包括主持人姓名、 主持人 人脸信息等。 类似地, 通过人脸识别技术分析非主持人镜头片段或现场镜头 片段, 可以获取被采访人的人脸信息或特征。 另外, 通过文字识别技术可以 从视频数据中提取文字信息, 并且通过对文字信息进行进一步的分析, 可以 获取标题信息和字幕信息。
在 S170中, 可以将与事件片段相应的主持人信息、 被访问人信息、 标 题信息和字幕信息中的至少一种, 确定为该事件片段的元数据。
因此, 本发明实施例的分析视频文件的方法, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
另一方面, 本发明实施例的分析视频文件的方法, 通过将主持人信息、 被访问人信息、 标题信息、 字幕信息等语义信息作为事件片段的元数据, 便 于随后进行的视频检索、 推荐以及故事跟踪等应用, 能够避免利用音视频低 层语义信息, 不能为后续视频分析提供充足的元数据的问题。
在本发明实施例中, 可以对与主持人镜头片段相应的音频数据进行静音 分析, 检测其中可能包括事件分割点的静音点; 也可以对与非文字片段相应 的音频数据进行静音分析, 确定其中可能包括事件分割点的静音点。 下面将 结合图 3至图 5 , 分别对上述两种情况进行描述。
图 3 示出了根据本发明实施例的确定静音点的方法 200 的示意性流程 图。 如图 3所示, 该方法 200包括:
S210, 根据该音频数据, 获取与该视频数据包括的非文字片段相应的非 文字片段音频数据;
S220, 在该非文字片段音频数据中确定第一静音片段;
S230, 在与该第一静音片段相应的视频数据中, 确定镜头切换点; S240, 将该镜头切换点确定为该第一静音片段的静音点。
通过对非文字片段对应的音频数据进行静音片段检测, 以及对静音片段 对应的视频数据进行镜头切换检测,可以将静音片段中出现的镜头切换点确 定为静音点。 考虑到事件播放时, 相邻事件之间会有一段静音, 因此, 此处 得到的静音点包括事件分割点。
具体而言, 在本发明实施例中, 静音检测处理的对象是非文字片段对应 的音频数据, 并且本发明实施例将静音检测和视频的镜头分割相结合。 当检 测到静音时, 启动相应片段视频数据的镜头切换检测, 当连续静音帧的长度 超过事先设定的最小静音长度时, 检测到的镜头分割点为静音点。 否则忽略 该静音片段。
因此, 本发明实施例将静音检测和镜头分割结合使用, 不仅能够提供准 确的事件分割点, 而且还能够减少对非静音片段进行镜头分割检测的计算 量。
图 4示出了根据本发明实施例的确定静音点的另一方法 300的示意性流 程图。 如图 4所示, 该方法 300包括:
S310, 根据该音频数据, 获取与该主持人镜头片段相应的主持人镜头片 段音频数据;
S320 , 在该主持人镜头片段音频数据中确定第二静音片段;
S330, 在该第二静音片段中确定第三静音片段, 该第三静音片段包括的 静音片段的长度、 比该第二静音片段中除该第三静音片段之外的静音片段的 长度长;
S340, 将该第三静音片段中各静音片段的中点确定为该静音点。
可选地, 如图 5 所示, 在该第二静音片段中确定第三静音片段的方法 330, 包括:
5331 , 确定该第二静音片段包括的所有静音片段的长度的平均值;
5332,将该第二静音片段中长度大于或等于该平均值的静音片段确定为 该第三静音片段。
应理解, 本发明实施例也可以采用其它方法或基于其它准则, 确定第三 静音片段, 例如, 将第二静音片段中长度最长的前 30%的静音片段确定为第 三静音片段。
例如, 在主持人镜头片段包含多个事件的情况下, 主持人通常先简短总 结上一个事件, 随后开始下一个事件。 本发明实施例通过对与主持人镜头片 段对应的音频片段进行静音片段检测, 并将片段长度超过阈值的确定为静音 片段, 以及记录各静音片段的长度, 将片段长度远远大于均值的静音片段的 中点确定为静音点, 能够极大的减少人工劳动量, 提高视频拆条的自动化程 度, 并避免主持人镜头片段中包含多个故事时出现的错分情况。
因此, 本发明实施例的分析视频文件的方法, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
下面将结合图 6, 以新闻视频为例, 对根据本发明实施例的分析视频文 件的方法 400进行详细描述。
如图 6所示, 该方法 400包括:
S410, 对新闻视频进行音视频分离, 获得音频数据和视频数据; S420, 将视频数据分为主持人镜头片段和现场镜头片段, 然后从现场镜 头片段中利用人脸识别技术提取出事件中涉及到的其他人物, 并且还可以将 检测到的被采访人的人脸信息和人脸特征写入数据库;
S430, 利用文字识别技术从视频数据中提取文字信息, 利用文字匹配算 法将相同文字内容的片段归纳为文字片段, 没有文字的片段为非文字片段。 并且通过对文字片段检测到的文字进行聚类, 聚类时主要利用颜色和尺寸这 两种低层图像特征将文本聚为两类, 字体较大的一类为标题, 较小的一类为 说话人的字幕, 从而确定标题片段和字幕片段, 其中每一类计算字体颜色的 高斯模型, 相同出处的新闻视频计算一次模型即可;
S440, 对与非文字片段对应的音频数据进行静音片段检测, 对静音片段 对应的视频数据进行镜头切换检测, 静音片段中出现的镜头切换点为静音 点;
S450, 对与主持人镜头片段对应的音频数据进行静音片段检测, 对静音 片段的长度进行聚类分析, 确定长度较长的静音片段, 并将该静音片段的中 点作为静音点;
S460, 将静音点作为新闻事件分割点的父集, 综合考虑静音点附近的主 持人镜头片段、 标题片段、 字幕片段等, 得出新闻事件分割点;
S470, 将检测得到的主持人信息、 被采访人信息、 文字信息等内容作为 该新闻事件的语义信息, 并可以作为元数据存储在数据库中。
应理解, 在本发明的各种实施例中, 上述各过程的序号的大小并不意味 着执行顺序的先后, 各过程的执行顺序应以其功能和内在逻辑确定, 而不应 对本发明实施例的实施过程构成任何限定。
因此, 本发明实施例的分析视频文件的方法, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
上文中结合图 1至图 6, 详细描述了根据本发明实施例的分析视频文件 的方法, 下面将结合图 7至图 11 ,描述根据本发明实施例的分析视频文件的 装置。
图 7示出了根据本发明实施例的分析视频文件的装置 500 的示意性框 图。 如图 7所示, 该装置 500包括:
第一获取模块 510, 用于获取视频文件的音频数据和视频数据; 第一确定模块 520, 用于根据该第一获取模块 510获取的该音频数据, 确定该视频文件的至少一个静音点;
第二获取模块 530, 用于根据该第一获取模块 510获取的该视频数据, 获取该视频文件的判断片段, 该判断片段包括该视频文件的主持人镜头片 段、 标题片段和字幕片段中的至少一种片段;
第二确定模块 540, 用于根据该第二获取模块 530获取的该判断片段, 在该第一确定模块 520确定的该至少一个静音点中,确定该视频文件的事件 分割点。
因此, 本发明实施例的分析视频文件的装置, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
在本发明实施例中, 可选地, 如图 8所示, 该装置 500还包括: 第三确定模块 550,用于根据该第二确定模块 540确定的该事件分割点, 确定该视频文件包括的事件片段;
第三获取模块 560, 用于根据该视频文件获取与该事件片段相应的事件 信息, 该事件信息包括主持人信息、 被访问人信息、 标题信息和字幕信息中 的至少一种;
第四确定模块 570, 用于将该第三获取模块 560获取的该事件信息, 确 定为该第三确定模块 550确定的该事件片段的元数据。
可选地, 如图 9所示, 该第一确定模块 520包括:
第一获取单元 521 , 用于根据该第一获取模块 510获取的该音频数据, 获取与该视频数据包括的非文字片段相应的非文字片段音频数据;
第一确定单元 522, 用于在该第一获取单元 521获取的该非文字片段音 频数据中, 确定第一静音片段;
第二确定单元 523 , 用于在与该第一确定单元 522确定的该第一静音片 段相应的视频数据中, 确定镜头切换点;
第三确定单元 524, 用于将该第二确定单元 523确定的该镜头切换点, 确定为该第一静音片段的静音点。
可选地, 如图 10所示, 该第一确定模块 520包括:
第二获取单元 525 , 用于根据该音频数据, 获取与该主持人镜头片段相 应的主持人镜头片段音频数据;
第四确定单元 526, 用于在该第二获取单元 525获取的该主持人镜头片 段音频数据中确定第二静音片段;
第五确定单元 527 , 用于在该第四确定单元 526确定的该第二静音片段 中, 确定第三静音片段, 该第三静音片段包括的静音片段的长度、 比该第二 静音片段中除该第三静音片段之外的静音片段的长度长;
第六确定单元 528, 用于将该第五确定单元 527确定的该第三静音片段 中各静音片段的中点确定为该静音点。
可选地, 如图 11所示, 该第五确定单元 527包括: 第一确定子单元 5271 ,用于确定该第二静音片段包括的所有静音片段的 长度的平均值;
第二确定子单元 5272,用于将该第二静音片段中长度大于或等于该平均 值的静音片段确定为该第三静音片段。
在本发明实施例中, 可选地, 该第二获取模块 530还用于: 基于人脸识 别方法, 在该视频数据中获取该视频文件的主持人镜头片段。
应理解,根据本发明实施例的分析视频文件的装置 500可对应于本发明 实施例中的分析视频文件的装置, 并且装置 500中的各个模块的上述和其它 操作和 /或功能分别为了实现图 1至图 6中的各个方法 100至 400的相应流程, 为了简洁, 在此不再赘述。
因此, 本发明实施例的分析视频文件的装置, 通过获取视频文件的至少 一个静音点和判断片段, 并根据该判断片段在该至少一个静音点中确定该视 频文件的事件分割点, 能够准确地确定事件分割点, 从而能够准确地对视频 文件进行事件分割, 并由此能够提高视频编目的效率和准确性。
本领域普通技术人员可以意识到, 结合本文中所公开的实施例描述的各 示例的单元及算法步骤, 能够以电子硬件、 计算机软件或者二者的结合来实 现, 为了清楚地说明硬件和软件的可互换性, 在上述说明中已经按照功能一 般性地描述了各示例的组成及步骤。这些功能究竟以硬件还是软件方式来执 行, 取决于技术方案的特定应用和设计约束条件。 专业技术人员可以对每个 特定的应用来使用不同方法来实现所描述的功能,但是这种实现不应认为超 出本发明的范围。
所属领域的技术人员可以清楚地了解到, 为了描述的方便和简洁, 上述 描述的系统、 装置和单元的具体工作过程, 可以参考前述方法实施例中的对 应过程, 在此不再赘述。
在本申请所提供的几个实施例中, 应该理解到, 所揭露的系统、 装置和 方法, 可以通过其它的方式实现。 例如, 以上所描述的装置实施例仅仅是示 意性的, 例如, 所述单元的划分, 仅仅为一种逻辑功能划分, 实际实现时可 以有另外的划分方式, 例如多个单元或组件可以结合或者可以集成到另一个 系统, 或一些特征可以忽略, 或不执行。 另外, 所显示或讨论的相互之间的 耦合或直接耦合或通信连接可以是通过一些接口、装置或单元的间接耦合或 通信连接, 也可以是电的, 机械的或其它的形式连接。 所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作 为单元显示的部件可以是或者也可以不是物理单元, 即可以位于一个地方, 或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或 者全部单元来实现本发明实施例方案的目的。
另外, 在本发明各个实施例中的各功能单元可以集成在一个处理单元 中, 也可以是各个单元单独物理存在, 也可以是两个或两个以上单元集成在 一个单元中。 上述集成的单元既可以采用硬件的形式实现, 也可以采用软件 功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销 售或使用时, 可以存储在一个计算机可读取存储介质中。 基于这样的理解, 本发明的技术方案本质上或者说对现有技术做出贡献的部分, 或者该技术方 案的全部或部分可以以软件产品的形式体现出来, 该计算机软件产品存储在 一个存储介质中, 包括若干指令用以使得一台计算机设备 (可以是个人计算 机, 服务器, 或者网络设备等)执行本发明各个实施例所述方法的全部或部 分步骤。 而前述的存储介质包括: U盘、 移动硬盘、 只读存储器(ROM, Read-Only Memory )、 随机存取存储器 ( RAM, Random Access Memory )、 磁碟或者光盘等各种可以存储程序代码的介质。
以上所述, 仅为本发明的具体实施方式, 但本发明的保护范围并不局限 于此, 任何熟悉本技术领域的技术人员在本发明揭露的技术范围内, 可轻易 想到各种等效的修改或替换, 这些修改或替换都应涵盖在本发明的保护范围 之内。 因此, 本发明的保护范围应以权利要求的保护范围为准。

Claims

权利要求
1、 一种分析视频文件的方法, 其特征在于, 包括:
获取视频文件的音频数据和视频数据;
根据所述音频数据, 确定所述视频文件的至少一个静音点;
根据所述视频数据获取所述视频文件的判断片段, 所述判断片段包括所 述视频文件的主持人镜头片段、 标题片段和字幕片段中的至少一种片段; 根据所述判断片段,在所述至少一个静音点中确定所述视频文件的事件 分割点。
2、 根据权利要求 1所述的方法, 其特征在于, 所述方法还包括: 根据所述事件分割点, 确定所述视频文件包括的事件片段;
根据所述视频文件获取与所述事件片段相应的事件信息, 所述事件信息 包括主持人信息、 被访问人信息、 标题信息和字幕信息中的至少一种; 将所述事件信息确定为所述事件片段的元数据。
3、 根据权利要求 1或 2所述的方法, 其特征在于, 所述确定所述视频 文件的至少一个静音点, 包括:
根据所述音频数据, 获取与所述视频数据包括的非文字片段相应的非文 字片段音频数据;
在所述非文字片段音频数据中确定第一静音片段;
在与所述第一静音片段相应的视频数据中, 确定镜头切换点; 将所述镜头切换点确定为所述第一静音片段的静音点。
4、 根据权利要求 1至 3中任一项所述的方法, 其特征在于, 所述确定 所述视频文件的至少一个静音点, 包括:
根据所述音频数据, 获取与所述主持人镜头片段相应的主持人镜头片段 音频数据;
在所述主持人镜头片段音频数据中确定第二静音片段;
在所述第二静音片段中确定第三静音片段, 所述第三静音片段包括的静 音片段的长度、 比所述第二静音片段中除所述第三静音片段之外的静音片段 的长度长;
将所述第三静音片段中各静音片段的中点确定为所述静音点。
5、 根据权利要求 4所述的方法, 其特征在于, 所述在所述第二静音片 段中确定第三静音片段, 包括: 确定所述第二静音片段包括的所有静音片段的长度的平均值; 将所述第二静音片段中长度大于或等于所述平均值的静音片段确定为 所述第三静音片段。
6、 根据权利要求 1至 5中任一项所述的方法, 其特征在于, 所述根据 所述视频数据获取所述视频文件的判断片段, 包括:
基于人脸识别方法,在所述视频数据中获取所述视频文件的主持人镜头 片段。
7、 一种分析视频文件的装置, 其特征在于, 包括:
第一获取模块, 用于获取视频文件的音频数据和视频数据;
第一确定模块, 用于根据所述第一获取模块获取的所述音频数据, 确定 所述视频文件的至少一个静音点;
第二获取模块, 用于根据所述第一获取模块获取的所述视频数据, 获取 所述视频文件的判断片段, 所述判断片段包括所述视频文件的主持人镜头片 段、 标题片段和字幕片段中的至少一种片段;
第二确定模块, 用于根据所述第二获取模块获取的所述判断片段, 在所 述第一确定模块确定的所述至少一个静音点中,确定所述视频文件的事件分 割点。
8、 根据权利要求 7所述的装置, 其特征在于, 所述装置还包括: 第三确定模块, 用于根据所述第二确定模块确定的所述事件分割点, 确 定所述视频文件包括的事件片段;
第三获取模块,用于根据所述视频文件获取与所述事件片段相应的事件 信息, 所述事件信息包括主持人信息、 被访问人信息、 标题信息和字幕信息 中的至少一种;
第四确定模块, 用于将所述第三获取模块获取的所述事件信息, 确定为 所述第三确定模块确定的所述事件片段的元数据。
9、 根据权利要求 7或 8所述的装置, 其特征在于, 所述第一确定模块 包括:
第一获取单元, 用于根据所述第一获取模块获取的所述音频数据, 获取 与所述视频数据包括的非文字片段相应的非文字片段音频数据;
第一确定单元,用于在所述第一获取单元获取的所述非文字片段音频数 据中, 确定第一静音片段; 第二确定单元,用于在与所述第一确定单元确定的所述第一静音片段相 应的视频数据中, 确定镜头切换点;
第三确定单元, 用于将所述第二确定单元确定的所述镜头切换点, 确定 为所述第一静音片段的静音点。
10、 根据权利要求 7至 9中任一项所述的装置, 其特征在于, 所述第一 确定模块包括:
第二获取单元, 用于根据所述音频数据, 获取与所述主持人镜头片段相 应的主持人镜头片段音频数据;
第四确定单元,用于在所述第二获取单元获取的所述主持人镜头片段音 频数据中确定第二静音片段;
第五确定单元, 用于在所述第四确定单元确定的所述第二静音片段中, 确定第三静音片段, 所述第三静音片段包括的静音片段的长度、 比所述第二 静音片段中除所述第三静音片段之外的静音片段的长度长;
第六确定单元,用于将所述第五确定单元确定的所述第三静音片段中各 静音片段的中点确定为所述静音点。
11、 根据权利要求 10所述的装置, 其特征在于, 所述第五确定单元包 括:
第一确定子单元, 用于确定所述第二静音片段包括的所有静音片段的长 度的平均值;
第二确定子单元, 用于将所述第二静音片段中长度大于或等于所述平均 值的静音片段确定为所述第三静音片段。
12、 根据权利要求 7至 11 中任一项所述的装置, 其特征在于, 所述第 二获取模块还用于: 基于人脸识别方法, 在所述视频数据中获取所述视频文 件的主持人镜头片段。
PCT/CN2011/084783 2011-12-28 2011-12-28 分析视频文件的方法和装置 WO2013097101A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
CN201180003260.9A CN103299319B (zh) 2011-12-28 分析视频文件的方法和装置
PCT/CN2011/084783 WO2013097101A1 (zh) 2011-12-28 2011-12-28 分析视频文件的方法和装置

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2011/084783 WO2013097101A1 (zh) 2011-12-28 2011-12-28 分析视频文件的方法和装置

Publications (1)

Publication Number Publication Date
WO2013097101A1 true WO2013097101A1 (zh) 2013-07-04

Family

ID=48696192

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2011/084783 WO2013097101A1 (zh) 2011-12-28 2011-12-28 分析视频文件的方法和装置

Country Status (1)

Country Link
WO (1) WO2013097101A1 (zh)

Cited By (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546667A (zh) * 2013-10-24 2014-01-29 中国科学院自动化研究所 一种面向海量广播电视监管的自动新闻拆条方法
CN104951478A (zh) * 2014-03-31 2015-09-30 富士通株式会社 信息处理方法和信息处理装置
CN107968959A (zh) * 2017-11-15 2018-04-27 广东广凌信息科技股份有限公司 一种教学视频的知识点分割方法
CN108810569A (zh) * 2018-05-23 2018-11-13 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
CN109005451A (zh) * 2018-06-29 2018-12-14 杭州星犀科技有限公司 基于深度学习的视频拆条方法
CN110267061A (zh) * 2019-04-30 2019-09-20 新华智云科技有限公司 一种新闻拆条方法及系统
CN111918145A (zh) * 2019-05-07 2020-11-10 华为技术有限公司 视频分段方法和视频分段装置
CN114866788A (zh) * 2021-02-03 2022-08-05 阿里巴巴集团控股有限公司 视频的处理方法及装置
CN115909174A (zh) * 2023-01-06 2023-04-04 中译文娱科技(青岛)有限公司 一种视频提取方法及系统

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635789A (zh) * 2003-12-30 2005-07-06 中国科学院自动化研究所 基于事件检测的体育节目中虚拟广告自动插入方法
CN1938714A (zh) * 2004-03-23 2007-03-28 英国电讯有限公司 用于对视频序列的场景进行语义分段的方法和系统
CN101616264A (zh) * 2008-06-27 2009-12-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及系统

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1635789A (zh) * 2003-12-30 2005-07-06 中国科学院自动化研究所 基于事件检测的体育节目中虚拟广告自动插入方法
CN1938714A (zh) * 2004-03-23 2007-03-28 英国电讯有限公司 用于对视频序列的场景进行语义分段的方法和系统
CN101616264A (zh) * 2008-06-27 2009-12-30 中国科学院自动化研究所 新闻视频编目方法及系统
CN102547139A (zh) * 2010-12-30 2012-07-04 北京新岸线网络技术有限公司 一种新闻视频节目切分方法、新闻视频编目方法及系统

Cited By (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN103546667B (zh) * 2013-10-24 2016-08-17 中国科学院自动化研究所 一种面向海量广播电视监管的自动新闻拆条方法
CN103546667A (zh) * 2013-10-24 2014-01-29 中国科学院自动化研究所 一种面向海量广播电视监管的自动新闻拆条方法
CN104951478A (zh) * 2014-03-31 2015-09-30 富士通株式会社 信息处理方法和信息处理装置
CN107968959A (zh) * 2017-11-15 2018-04-27 广东广凌信息科技股份有限公司 一种教学视频的知识点分割方法
CN107968959B (zh) * 2017-11-15 2021-02-19 广东广凌信息科技股份有限公司 一种教学视频的知识点分割方法
CN108810569B (zh) * 2018-05-23 2021-01-22 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
CN108810569A (zh) * 2018-05-23 2018-11-13 北京奇艺世纪科技有限公司 一种视频新闻分割方法和装置
CN109005451B (zh) * 2018-06-29 2021-07-30 杭州星犀科技有限公司 基于深度学习的视频拆条方法
CN109005451A (zh) * 2018-06-29 2018-12-14 杭州星犀科技有限公司 基于深度学习的视频拆条方法
CN110267061A (zh) * 2019-04-30 2019-09-20 新华智云科技有限公司 一种新闻拆条方法及系统
CN110267061B (zh) * 2019-04-30 2021-07-27 新华智云科技有限公司 一种新闻拆条方法及系统
WO2020224362A1 (zh) * 2019-05-07 2020-11-12 华为技术有限公司 视频分段方法和视频分段装置
CN111918145A (zh) * 2019-05-07 2020-11-10 华为技术有限公司 视频分段方法和视频分段装置
CN111918145B (zh) * 2019-05-07 2022-09-09 华为技术有限公司 视频分段方法和视频分段装置
CN114866788A (zh) * 2021-02-03 2022-08-05 阿里巴巴集团控股有限公司 视频的处理方法及装置
CN115909174A (zh) * 2023-01-06 2023-04-04 中译文娱科技(青岛)有限公司 一种视频提取方法及系统

Also Published As

Publication number Publication date
CN103299319A (zh) 2013-09-11

Similar Documents

Publication Publication Date Title
WO2013097101A1 (zh) 分析视频文件的方法和装置
CN108370447B (zh) 内容处理装置及其内容处理方法、服务器
US9612791B2 (en) Method, system and storage medium for monitoring audio streaming media
US10134440B2 (en) Video summarization using audio and visual cues
CN106649713B (zh) 一种基于内容的电影可视化处理方法及其系统
CN113613065B (zh) 视频编辑方法、装置、电子设备以及存储介质
CN110881115B (zh) 会议视频的拆条方法及系统
JP2004159331A (ja) ビデオを自動的に編集するためのシステムおよび方法
US9734408B2 (en) Identifying stories in media content
CN112733654B (zh) 一种视频拆条的方法和装置
CN111314732A (zh) 确定视频标签的方法、服务器及存储介质
JP2009118461A (ja) ビデオ・ストリームに対するリアル・タイム新規イベント検出のシステムおよび方法
WO2020135756A1 (zh) 视频段的提取方法、装置、设备及计算机可读存储介质
US20130006951A1 (en) Video dna (vdna) method and system for multi-dimensional content matching
EP2824593A1 (en) Method for enriching a multimedia content, and corresponding device
WO2023029389A1 (zh) 视频指纹的生成方法及装置、电子设备、存储介质、计算机程序、计算机程序产品
CN111274450A (zh) 视频识别方法
US20190311746A1 (en) Indexing media content library using audio track fingerprinting
US20170040040A1 (en) Video information processing system
KR20160060803A (ko) 오디오 및 비디오 데이터를 포함하는 영상의 저장 및 검색 장치와 저장 및 검색 방법
CN116017088A (zh) 视频字幕处理方法、装置、电子设备和存储介质
WO2011039773A2 (en) Tv news analysis system for multilingual broadcast channels
CN105284121A (zh) 多媒体流和社交网络线程之间的同步
Broilo et al. Unsupervised anchorpersons differentiation in news video
Haller et al. Audiovisual anchorperson detection for topic-oriented navigation in broadcast news

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11878509

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11878509

Country of ref document: EP

Kind code of ref document: A1