WO2008067749A1

WO2008067749A1 - Système et procédé de gestion de contenu média

Info

Publication number: WO2008067749A1
Application number: PCT/CN2007/071133
Authority: WO
Inventors: Fangshan Wang; Qi Fang; Yinyan Tan; Jieping Zhong
Original assignee: Huawei Technologies Co., Ltd.
Priority date: 2006-12-06
Filing date: 2007-11-27
Publication date: 2008-06-12
Also published as: CN100449547C; US8200597B2; CN101000617A; US20090240650A1

Description

说明书一种媒体内容管理系统及方法

[1] 技术领域

[2] 本发明涉及通信技术领域，尤其涉及一种媒体内容管理系统及方法。

[3] 发明背景

[4] 多媒体信息是人类感知自然，认识社会的主要途径。伴随着互联网络的发展和计算机应用的普及，网络上的多媒体信息呈爆炸式增长，这就在信息的管理和釆集中带来了新的问题。

[5] 在各种多媒体信息中，由于视频、音乐等多媒体信息有别于一般的文本文件，尤其体现在媒体内容信息管理方面。对于一些新闻、体育赛事等方面的媒体内容，由于不同的吋间播放的内容不完全一样，因此，需要将媒体中不同吋间段的内容进行统一标注和管理。以便在大量的媒体文件中检索需要的内容吋可以方便快捷的找到相应的部分，甚至可以直接利用电脑进行多个媒体内容的裁减

[6] 目前，在解决上述问题方面大多吋候釆用人为的手工协助，才能进行媒体内容管理，然而，这是一个耗吋耗力而又效果不好的方法。

[7] 另外的一些方法，通过利用一些文本信息对媒体内容进行描述，从而对媒体内容进行管理。具体实现为：定义一个本体库（ontology) ，作为描述物与物之间关联的概念架构，其可由计算机所分享与理解。

[8] 然而，一个构建完善的本体库通常可被搜寻引擎、知识管理、电子商务等应用软件所运用，用以增加搜寻的效率，或增进文件处理能力。由于在一些领域内

，其词汇是有限的，并且通常情况下有一些大家公认的词汇，相对而言，建立本体库的难度要小一些，因此，目前基于本体库的应用主要是一些领域本体 (d omain

ontology) 的应用，如在基因领域以及一些大的企业的内部信息管理等方面。因而在媒体内容管理的领域内如何定义一个完善的本体库是一个亟待解决的问题，目前还没有一个完善的本体库。另外，如何将本体库与媒体内容进行关联也是建立媒体库吋需要考虑的因素。目前对于媒体内容的识别和记录，大多数釆用图像识别或是人工标识的方法。前者一般应用在专业领域，如在足球比赛中，捕获射门或进球的视频；而后者一般通过人工对媒体进行识别进行手工描述，然后对本体库进行关联。

由于目前图像识别的准确性不高，处理速度慢，因此，利用图像识别的技术来进行媒体内容标注应用很少，效果不理想。

而手工描述和标注的方法主观性强，而且工作量大，在实际应用中效果也很差因此，基于目前的状况，如何对媒体内容进行有效管理仍是一个亟待解决的问题。

发明内容

本发明实施例提供一种媒体内容管理系统及方法。

本发明实施例是通过以下技术方案实现的：

本发明实施例提供一种媒体内容管理系统，包括：

文本分类器，用于对字幕信息按照定义好的主题内容进行分类，得到多个具有不同主题的内容片段；

媒体内容标注处理单元，用于标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段，并将所述具有具体吋间信息的多个具有不同主题的内容片段与本体库中的概念进行匹配，并以本体库中定义的词汇来标注所述内容片段。

本发明实施例提供一种媒体内容管理方法，包括：

根据待标注媒体内容的媒体标识获取对应的字幕信息；

提取上述获取的字幕信息中的字幕内容信息，对所述字幕内容信息按照吋间先后顺序进行标识，形成多个媒体内容吋间片段，并按照定义好的主题内容对所述多个媒体内容吋间片段进行分类，得到具有不同主题的多个内容片段；根据所述媒体内容吋间片段的吋间信息标注所述每个内容片段在媒体中的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段；根据所述具有具体吋间信息的多个具有不同主题的内容片段的主题与本体库中的概念进行匹配，以本体库中定义的词汇来标注所述内容片段。

[24] 由上述本发明实施例提供的技术方案可以看出，本发明实施例通过分析与媒体对应的字幕文件，对媒体内容按吋间区分成不同的内容片段，并对每个内容片段里面的内容与本体概念进行关联，记录了内容片段在媒体中出现的位置。这样是将媒体的内容利用标准的词汇进行描述，利于对内容描述信息的统一，使得对媒体的内容检索成为可能。

[25] 另外，利用本发明实施例提供的方法和系统，可以提供对媒体内容进行语义相关检索。在很多应用中，用户希望检索自己感兴趣的某方面的内容，而利用本体词汇进行描述和标注，在提供普通的内容检索的基础上，利用语义推理，可以进行关联搜索。例如，当某个新闻或其他多媒体片段被标注成"篮球"吋，在本体概念中，可以通过关系 "篮球 "是"体育"的子类，进行一个继承关系的推理，从而，当用户搜索"体育"相关节目内容吋，也会把该片段或该片段对应的整个媒体找出来。这在一定程度上丰富了媒体内容査询的范围。而记录了片段在媒体中的位置，可以让用户很方便的定位自己关注的内容。

[26] 在另外的一些场合，可以利用本发明提供的方法和系统进行相关媒体内容剪辑。如，当用户希望在大量的多媒体内容中找到他所关注的恐怖袭击相关的内容吋，利用本发明提供的系统的结果，可以很容易的编写应用程序，让电脑根据本体推理找到相关的主题，再根据主题从大量的媒体内容中，根据起止吋间将对应的内容进行剪辑，从而只将关注的内容找出来。这在一定程度上大大方便了人工处理的工作量。

[27] 附图简要说明

[28] 图 1为本发明所述系统一种实施例结构示意图；

[29] 图 2为本发明所述方法一种实施例流程图；

[30] 图 3为本发明所述方法内容分段、定位一种实施例流程图；

[31] 图 4为字幕内容分类一种实施例示意图；

[32] 图 5为媒体内容与本体库关联一种实施例示意图。

[33] 实施本发明的方式

[34] 本发明实施例提供一种媒体内容管理系统，所述系统一种实施例结构示意图如图 1所示，本系统包括：本体库、媒体库、及媒体库附带的媒体字幕库、文本分类器、媒体内容标注处理单元、媒体内容注册信息库等。下面对各实体的功能及各实体间的关联作详细介绍：

[35] 本体库：本体库中定义了若干概念，包括若干词汇，以及词汇之间的关系。这些词汇是对具体事务的描述，每一词汇都有唯一的资源标识。建立本体库的作用在于获取并存储媒体相关领域的知识，提供对该领域知识的共同理解，确定该领域内共同认可的词汇，并从不同层次的形式化模式上给出这些词汇（术语 ) 和词汇之间相互关系的明确定义。目前描述本体的语言或标准包括： OWL ( Web Ontology Language , ^ ^禾中本体语言) 、 KIF (Knowledge Interchange

Format, 一种数据交换标准）、 OCML (Operational Conceptual Modelling

Language , ^ ^禾中本体语言) 、 FLogic (Frame

Logic, 框架逻辑) 、 SHOE (Simple HTML Ontology

Extensions , 一种本体语言) 、 XOL (Ontology Exchange

Language , ^ ^禾中本体语言) 、 OIL (Ontology Inference Layer/Ontology

Interchange Language , 本体推理层 /本体交换语言) 、 DAML (DARPA Agent Markup Language , 一禾中本体语言) 以及 RDF (Resource Description

Framework, 资源描述框架）及其 RDF Schema (RDF的扩展）等。

[36] 媒体库：媒体库中保存的是具体的媒体内容，如视频内容、音频内容等。每个具体的媒体有一个唯一的标识。所述的媒体标识可以是媒体无重名的文件名，如" 2006-9-27新闻联播 .wmv"，或者是为媒体专门分配的索引等标识，如" 451235 8"等，还可能是其他的任何能够唯一标识该媒体的数字或文字、字母符号序列、 URL (统一资源定位器）或 URI (统一资源标识）。

[37] 媒体字幕库：记录的是与媒体库中的媒体内容对应的对媒体附带的字幕信息。

目前，字幕文件分嵌入式字幕文件和外挂字幕文件，嵌入式字幕文件直接融入在媒体文件中，是不可修改和编辑的；而外挂字幕文件需要一个另外的独立的文件，里面记录了按照吋间先后出现的话音等的字幕。视频外挂字幕文件包括但不限于 .txt、 .srt、 .subs .ssa .smi几种文件格式。字幕信息中除了包括字幕文本信息，即字幕内容信息外，还包括：字幕出现的吋间码信息、字幕文件所对应的媒体标识信息。一般，字幕文件的文件名中不带后缀部分与媒体内容文件名的不带后缀部分一致，据此可以直接判断二者的对应关系。

[38] 所述媒体库也可以和媒体字幕库放在一起，或者将媒体和媒体字幕文件放在一起。

[39] 媒体内容标注处理单元：用于标注经文本分类器（具体功能见下面文本分类器的功能介绍）分类后得到的每个具有不同主题的内容片段的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段，并将所述标注了具体播放吋间的具有不同主题的每个内容片段以本体库中定义的词汇进行标注，从而与本体库中的内容进行关联。

[40] 所述媒体内容标注处理单元包括三个子单元：

[41] 媒体内容提取单元：主要功能包括从媒体库中获取待标注的媒体内容的媒体标识，根据所述的媒体标识在媒体字幕库中获取对应的字幕信息，并识别所述字幕信息中的字幕内容信息，对字幕内容信息按照吋间先后顺序进行标识，形成多个字幕内容吋间片段，即媒体内容吋间片段。

[42] 内容分类定位单元：主要功能包括标注经文本分类器进行分类后的具有不同主题的内容片段的具体播放吋间信息，即标注每一个内容片段的开始吋间点和结束吋间点，得到具有具体吋间信息的多个具有不同主题的内容片段。

[43] 标注适配单元：主要功能包括将经内容分类定位单元按吋间区分的分类信息与本体库中的概念进行匹配，并以本体库中定义的词汇来标注该内容片段，生成内容标注信息，内容标注信息包括但不限于：该片段所属的媒体的标识、内容片段对应的本体概念标识、片段的起止吋间点描述信息等。

[44] 本实施例所述媒体内容标注处理单元的特征可以应用于本发明的其他实施例中

[45] 文本分类器：用于对媒体内容提取单元获取的若干独立的字幕信息中的字幕内容信息按照定义好的主题内容进行分类。文本分类器中一般有事先设定的若干主题词或主题语句以及判断文本内容是属于哪个主题的逻辑及算法。其输入是多个独立的文本信息，而输出是按照主题对这些文本信息的分类，分类后得到多个具有不同主题的内容片段。 [46] 媒体内容注册信息库：用于记录经标注适配单元标注好的内容片段。

[47] 本发明实施例提供一种媒体内容管理方法，所述方法一种实施例实现流程如图

2所示，包括如下步骤：

[48] 步骤 1 : 获取待标注媒体内容的媒体标识；

[49] 对于给定的媒体库，存放至少一个媒体文件，媒体内容提取单元从媒体库中获取待标注的媒体内容的媒体标识，所述媒体标识可能是媒体文件的文件名或是专门为媒体文件建立的索弓 I等标识信息。

[50] 步骤 2: 根据所述获取的媒体标识获取对应的字幕文件；

[51] 所述的字幕文件是指为每个媒体中的对话或者其他的话音、解释进行文字描述的文件。一个媒体标识可以唯一对应一份字幕文件。

[52] 目前，字幕文件分嵌入式字幕文件和外挂字幕文件，嵌入式字幕文件直接融入在媒体文件中，是不可修改和编辑的；而外挂字幕文件需要一个另外的独立的文件，里面记录了按照吋间先后出现的话音等的字幕。外挂字幕文件的格式包括但不限于： .txt、 .srt、 .sub ._ssa、 .smi等。这些文件格式的字幕里面的字幕文件至少包括：字幕内容信息及字幕出现的吋间码信息（开始吋间、结束吋间）、字幕文件所对应的媒体标识信息。所述的吋间信息在字幕中以标准格式的吋间码的格式出现，其格式为 XX： XX： XX，三个字段分别表示小吋、分、秒。

[53] 步骤 3: 提取上述获取的字幕文件中的字幕内容，对所述字幕内容信息按照吋间先后顺序进行标识，形成多个媒体内容吋间片段，并按照定义好的主题内容进行分类，得到具有不同主题的多个内容片段，根据所述媒体内容吋间片段的吋间信息标注每个内容片段在媒体中的具体播放吋间信息，得到具有具体吋间信息的多个具有不同个主题的内容片段；

[54] 一种实施例具体实现过程如图 3所示，包括如下步骤：

[55] 步骤 30: 读取字幕文件内容，记录每个标有起止吋间的字幕内容的标识及吋间

I口自te！、.,

[56] 对于给定的字幕文件进行识别，提取字幕文件中所有出现的字幕内容信息以及字幕内容对应的吋间码信息，所述的字幕内容信息可以为字幕语句，对于每个有吋间码的字幕语句，记录一个标识，内容提取结果如下实例所示：标识字幕语句吋间

1001 本拉登的生死成为大家关注的一个焦点 00:25: 17-00:25:25

1002 美国反恐发言人称无证据证明本拉登已死亡 00:25:30-00:25:33

1003 目前国际恐怖活动依然猖獗 00:30:39-00:30:45

1004 现在让我们来看看体育方面的消息 00:30:45-00:30:50

1005 今天，是中国网球公开赛的第四天 00:31: 15-00:31:20

[58] 其中每个吋间信息分为该语句在媒体播放吋的开始吋间和结束吋间， "-"前面的部分为开始吋间， "-"后面的部分为结束吋间。

[59] 每类格式的字幕文件均有固定的格式，有成熟的字幕内容、格式提取工具，如专业的 VOBSUB字幕识别软件，能够提取多种格式的字幕信息；而对于 .txt等的文本格式的字幕，其吋间和字幕信息都是固定格式，利用正则表达式可以提取满足条件的信息。该提取技术为现有技术，本发明对此不作详细描述。

[60] 步骤 31 : 以有标识的字幕语句为单位按照定义好的主题进行分类，形成多个包括一个或多个代表不同主题的内容片段；

[61] 目前基于文本信息的信息分类有多种方法，有相对成熟的现有技术。如 TF/ID

F (term frequency , 词汇步员率 /inverse document

frequency, 逆文本频率）在信息分类、检索中已成为公认的方法，还包括：贝叶斯算法、 Rocchio (相似度计算方法）、 KNN (K-nearest neighbor

K近邻方法）、 Naive

Bayes (朴素贝叶斯）等。所述的各种信息分类方法均能够将输入给分类器的不同的文本内容按照不同主题进行分类。所述的主题包括事先人为定制的知识分类或者在分类的过程中进行机器学习的关键词目录结构等。

[62] 本发明所述的对字幕内容分类是以整个字幕文件的内容为对象，每一个能够单独标识的字幕语句为单位。如图 4是分类的一个过程示意图。其中对字幕文件的分类过程釆用上述现有的技术之一，而输入数据可由本发明所述系统中的媒体内容提取单元产生，而输出数据的接收部件可为内容分类定位单元。

[63] 进行内容分类后，整个字幕文件分成若干个不同主题的分类信息，即本发明所述的内容片段，每个内容片段包含一个或多个能够独立区分的在媒体中有起止出现吋间的字幕语句，即主题。而片段与片段在吋间或包含字幕语句上可能有交叉或包含关系。而这些包含某一个主题内容的以字幕来代表内容的片段对应着媒体的某一个吋间段的媒体片段。对于一些新闻、体育解说节目等媒体来说，这些由字幕反映的内容，本身就是媒体所展现的人能够理解的内容。

[64] 步骤 32: 根据所述媒体内容吋间片段的吋间信息标注所述每个内容片段在媒体中的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段；

[65] 由于每个内容片段包含一个或多个主题，而每个主题出现的吋间均不同。而这里的内容片段是对应媒体中的某一个媒体片段的。需要根据每个主题出现的吋间来标注内容片段出现的吋间范围。

[66] 标注方法包括：根据一个吋间阈值（可以是事先设定的或是根据媒体利用算法确定）来对吋间间隔超过所述阈值的一个内容片段内的多个主题进行切分，成为多个同主题的内容片段。例如，当某个内容片段中，包含三个字幕语句 1001 、 1002、 1003 , 而吋间阈值设为 3分钟，字幕 1003的开始吋间与其他的两个字幕的吋间段相差 3分钟以上，则将该内容片段分成分别由 1001、 1002以及 1003组成的两个主题相同的不同的内容片段。

[67] 标注每个内容片段在媒体中播放的吋间段的方法包括：确定每个内容片段中出现吋间最早的语句为开始语句和结束吋间最晚的语句为结束语句，取内容片段的开始语句的开始吋间为内容片段在媒体播放吋的开始吋间，结束语句的结束吋间为内容片段的结束吋间。

[68]

步骤 4: 对上述分类处理后的内容与本体概念进行匹配，以本体中的词汇来标注该内容片段；

[70] 对于上述过程中进行字幕内容分类后得到的片段，每个片段有一个代表其内容的一个或若干主题（可以是关键词或语句）。为了将该片段的内容与本体中概念进行关联，需要对主题与本体概念进行适配，找到与内容片段对应的本体概念。所述的适配是指在本体库中找到与主题意义接近或相同的概念。具体实现上有多种现有方法。例如，可以利用传统的词语模糊匹配算法，在本体中找到与所匹配的主题词最接近的概念，或是根据片段的其他的主题词进行修正，最后可以匹配一个或多个本体词汇来标识该片段的主题内容。

[71] 对于一些简单的关键词与本体概念匹配中，可以利用传统的词语模糊匹配方法。具体方法一种实施例为：将本体概念作为普通的词汇，利用数据査询中的" like "函数，找出本体中包含一部分或全部待査词汇的词。如利用 "like"匹配方法，可以找出 "恐怖 "在本体中匹配的概念为"恐怖主义"；而当有多个匹配上的本体概念吋，可以通过匹配上的字占概念中字数比例等方法来判断匹配度，从而确定最接近的本体概念。其他的一些本体概念匹配算法，包括引入本体推理、相关性匹配算法等，能够提供更精确和效率更高的匹配方法。

[72] 而对于一些给定的本体库和给定的领域知识分类知识库，其概念之间本身就存在映射关系，这种映射关系显示了某个主题词或主题语句与本体概念中词汇的映射关系如下表所示：

[73]

[74] 对于这种有映射关系的主题，执行过程包括：首先选取内容片段的主题词；之后査找映射表中该主题词对应的本体 URI, 作为标注该内容片段的本体概念。如图 5所示为一个具体的内容片段与本体库关联的实施例；

[75] 步骤 5: 根据上述的匹配信息生成并存储标注信息。

[76] 标注信息包括对每个进行分类的内容片段进行记录，记录的内容包括但不限于：内容片段所属的媒体标识、内容片段所对应的媒体概念资源标识、内容片段在媒体中的起始吋间和终止吋间等。上述存储的标注信息作为对媒体内容进行管理的基础。

[77] 步骤 6: 判断是否存在待标注媒体；

[78] 如果不存在，则结束；如果存在，则重复执行上述步骤 1至步骤 5的操作。

[79] 上述实施例为本发明最佳实施例，其中找到媒体片段内容的主题如"网球"后，对其在本体中进行匹配，找到本体的词汇来标注该片段内容可以省略。

[80] 综上所述，本发明实施例通过分析与媒体对应的字幕文件，对媒体内容按吋间区分成不同的内容片段，并对每个片段里面的内容与本体概念进行关联，记录了内容片段在媒体中出现的位置。这样将媒体的内容利用标准的词汇进行描述，利于对内容描述信息的统一，使得对媒体的内容检索成为可能。

[81] 本领域普通技术人员可以理解实现上述实施例方法中的全部或部分步骤是可以通过程序指令相关的硬件来完成，所述的程序可以存储于一计算机可读存储介质中（所述的存储介质，如： ROM/RAM 磁盘、光盘等），该程序在执行吋，包括如下步骤：

[82] 步骤 1 : 获取待标注媒体内容的媒体标识；

[83] 对于给定的媒体库，存放至少一个媒体文件，媒体内容提取单元从媒体库中获取待标注的媒体内容的媒体标识，所述媒体标识可能是媒体文件的文件名或是专门为媒体文件建立的索弓 I等标识信息。

[84] 步骤 2: 根据所述获取的媒体标识获取对应的字幕文件；

[85] 所述的字幕文件是指为每个媒体中的对话或者其他的话音、解释进行文字描述的文件。一个媒体标识可以唯一对应一份字幕文件。

[86] 目前，字幕文件分嵌入式字幕文件和外挂字幕文件，嵌入式字幕文件直接融入在媒体文件中，是不可修改和编辑的；而外挂字幕文件需要一个另外的独立的文件，里面记录了按照吋间先后出现的话音等的字幕。外挂字幕文件的格式包括但不限于： .txt、 .srt、 .sub ._ssa、 .smi等。这些文件格式的字幕里面的字幕文件至少包括：字幕内容信息及字幕出现的吋间码信息（开始吋间、结束吋间）、字幕文件所对应的媒体标识信息。所述的吋间信息在字幕中以标准格式的吋间码的格式出现，其格式为 XX： XX： XX，三个字段分别表示小吋、分、秒。

[87] 步骤 3 : 提取上述获取的字幕文件中的字幕内容，对所述字幕内容信息按照吋间先后顺序进行标识，形成多个媒体内容吋间片段，并按照定义好的主题内容进行分类，得到具有不同主题的多个内容片段，根据所述媒体内容吋间片段的吋间信息标注每个内容片段在媒体中的具体播放吋间信息，得到具有具体吋间信息的多个具有不同个主题的内容片段。

[88] 步骤 4·· 对上述分类处理后的内容与本体概念进行匹配，以本体中的词汇来标注该内容片段；

[89] 对于上述过程中进行字幕内容分类后得到的片段，每个片段有一个代表其内容的一个或若干主题（可以是关键词或语句）。为了将该片段的内容与本体中概念进行关联，需要对主题与本体概念进行适配，找到与内容片段对应的本体概念。所述的适配是指在本体库中找到与主题意义接近或相同的概念。具体实现上有多种现有方法。例如，可以利用传统的词语模糊匹配算法，在本体中找到与所匹配的主题词最接近的概念，或是根据片段的其他的主题词进行修正，最后可以匹配一个或多个本体词汇来标识该片段的主题内容。

[90] 对于一些简单的关键词与本体概念匹配中，可以利用传统的词语模糊匹配方法。具体方法一种实施例为：将本体概念作为普通的词汇，利用数据査询中的" like "函数，找出本体中包含一部分或全部待査词汇的词。如利用 "like"匹配方法，可以找出 "恐怖 "在本体中匹配的概念为"恐怖主义"；而当有多个匹配上的本体概念吋，可以通过匹配上的字占概念中字数比例等方法来判断匹配度，从而确定最接近的本体概念。其他的一些本体概念匹配算法，包括引入本体推理、相关性匹配算法等，能够提供更精确和效率更高的匹配方法。

[91] 而对于一些给定的本体库和给定的领域知识分类知识库，其概念之间本身就存在映射关系，这种映射关系显示了某个主题词或主题语句与本体概念中词汇的映射关系如下表所示： [92]

主题词对应的本体 URI 备注

1 恐怖分子 http://www.xinhua.com/terns/

恐怖主义

2 体育 http://www. xinhua.com/terns/体育

[93] 对于这种有映射关系的主题，执行过程包括：首先选取内容片段的主题词；之后査找映射表中该主题词对应的本体 URI, 作为标注该内容片段的本体概念。如图 5所示为一个具体的内容片段与本体库关联的实施例；

[94] 步骤 5: 根据上述的匹配信息生成并存储标注信息。

[95] 标注信息包括对每个进行分类的内容片段进行记录，记录的内容包括但不限于：内容片段所属的媒体标识、内容片段所对应的媒体概念资源标识、内容片段在媒体中的起始吋间和终止吋间等。上述存储的标注信息作为对媒体内容进行管理的基础。

[96] 步骤 6: 判断是否存在待标注媒体；

[97] 如果不存在，则结束；如果存在，则重复执行上述步骤 1至步骤 5的操作。

[98] 以上所述，仅为本发明较佳的具体实施方式，但本发明的保护范围并不局限于此，任何熟悉本技术领域的技术人员在本发明揭露的技术范围内，可轻易想到的变化或替换，都应涵盖在本发明的保护范围之内。因此，本发明的保护范围应该以权利要求的保护范围为准。

Claims

权利要求书

[1] 1、一种媒体内容管理系统，其特征在于，包括：

[2] 2、如权利要求 1所述的系统，其特征在于，所述系统还包括：

本体库，用于存储若干概念，包括媒体相关领域共同认可的词汇，及所述词汇与词汇之间相互关系；

媒体库，用于保存具有媒体标识的具体的媒体内容；

媒体字幕库，用于保存与媒体库中的媒体内容对应的对媒体附带的字幕信息。

[3] 3、如权利要求 1或 2所述的系统，其特征在于，所述媒体内容标注处理单元进一步包括：

媒体内容提取单元，用于获取待标注的媒体内容的媒体标识，根据所述的媒体标识获取对应的字幕信息，并识别所述字幕信息中的字幕内容信息，对字幕内容信息按照吋间先后顺序进行标识，形成多个媒体内容吋间片段内容分类定位单元，用于根据所述媒体内容吋间片段的吋间信息标注经文本分类器分类后具有不同主题的每一个内容片段的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段；

标注适配单元，用于将经内容分类定位单元标注了具体吋间信息且具有不同主题的内容片段与本体库中的概念进行匹配，并以本体库中定义的词汇来标注所述内容片段。

[4] 4、如权利要求 3所述的系统，其特征在于，所述以本体库中定义的词汇来标注所述内容片段的标注信息包括：每类所属的媒体标识、每类内容对应的本体概念标识、每类内容的起止吋间点描述信息。

[5] 5、如权利要求 1所述的系统，其特征在于，所述系统进一步包括：

媒体内容注册信息库，用于记录与本体库中定义的词汇来标注的内容片段

[6] 6、如权利要求 1或 2所述的系统，其特征在于，所述本体库中每一词汇具有唯一的资源标识。

[7] 7、如权利要求 2所述的系统，其特征在于，所述媒体标识是媒体无重名的文件名、或为媒体专门分配的索引、或任何能够唯一标识该媒体的数字或文字、字母符号序列、统一资源定位器 _URL、或统一资源标识 URI。

[8] 8、如权利要求 2所述的系统，其特征在于，所述字幕信息包括：

字幕内容信息、字幕出现的吋间码信息、和 /或字幕文件所对应的媒体标识

Ι π Λ∑！、。

[9] 9、一种媒体内容管理方法，其特征在于，包括：

根据待标注媒体内容的媒体标识获取对应的字幕信息；

提取上述获取的字幕信息中的字幕内容信息，对所述字幕内容信息按照吋间先后顺序进行标识，形成多个媒体内容吋间片段，并按照定义好的主题内容对所述多个媒体内容吋间片段进行分类，得到具有不同主题的多个内容片段；

根据所述媒体内容吋间片段的吋间信息标注所述每个内容片段在媒体中的具体播放吋间信息，得到具有具体吋间信息的多个具有不同主题的内容片段；

根据所述具有具体吋间信息的多个具有不同主题的内容片段的主题与本体库中的概念进行匹配，以本体库中定义的词汇来标注所述内容片段。

[10] 10、如权利要求 9所述的方法，其特征在于，所述的字幕信息是为每个媒体中的对话或者其他的话音、解释进行文字描述的文件，包括：字幕内容信息、字幕出现的吋间码信息、和 /或字幕文件所对应的媒体标识信息。

[11] 11、如权利要求 9所述的方法，其特征在于，所述根据媒体内容吋间片段的吋间信息标注每个内容片段在媒体中的具体播放吋间信息的方法具体包括提取所述获取的字幕信息中的字幕内容信息，记录每个标有起止吋间的字幕内容的标识及吋间信息；

以有标识的字幕内容为单位按照定义好的主题进行分类，形成多个包括一个或多个主题的内容片段；

根据所述吋间信息标注所述每个内容片段在媒体中具体播放吋间信息。

[12] 12、如权利要求 11所述的方法，其特征在于，所述根据吋间信息标注每个内容片断在媒体中具体播放吋间信息的方法包括：

根据每个内容片段的主题在内容片段中出现的吋间标注内容片段的吋间信息。

[13] 13、如权利要求 12所述的方法，其特征在于，所述标注内容片段的吋间信息的方法具体包括：

根据事先设定的或根据媒体利用算法确定的吋间阈值将吋间间隔超过所述设定的阈值的一个内容片段内的多个主题切分成多个同主题的内容片段；确定每个内容片段中出现吋间最早的语句为开始语句和结束吋间最晚的语句为结束语句，取内容片段的开始语句的开始吋间为内容片段在媒体播放吋的开始吋间，结束语句的结束吋间为内容片段的结束吋间。

[14] 14、如权利要求 9所述的方法，其特征在于，所述方法还包括：

记录以本体库中定义的词汇来标注的内容片段。