WO2018090468A1

WO2018090468A1 - 视频节目的搜索方法和装置

Info

Publication number: WO2018090468A1
Application number: PCT/CN2016/113642
Authority: WO
Inventors: 李贤�
Original assignee: 广州视源电子科技股份有限公司
Priority date: 2016-11-18
Filing date: 2016-12-30
Publication date: 2018-05-24
Also published as: CN106708929A; CN106708929B

Abstract

本发明公开了一种视频节目的搜索方法，包括：接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。相应地，本发明还公开了一种视频节目的搜索装置。采用本发明实施例，能挖掘出文档的潜在语义，提高搜索视频节目的准确度和搜索效率。

Description

视频节目的搜索方法和装置

技术领域

本发明涉及计算机领域，尤其涉及视频节目的搜索方法和装置。

背景技术

在做综艺节目推荐时，ContentBase方法是一种重要的策略，主要是通过综艺内容描述的相似度进行聚类推荐，这种方法将内容相近的文本进行了聚类，现有主要是基于TF-IDF的Rocchio算法，Rocchio算法来源于向量空间模型理论，向量空间模型Vector space model的基本思想为采用向量来表示一个文本，之后的处理过程就可以转化为空间中向量的运算。Rocchio算法训练的过程，其实就是建立类别特征向量的过程，对于给定的一个未知文本，生成该文本的向量，然后计算该向量与各类别特征向量的相似度，最后将该文本分到与其最相似的类别中去。

但是采用上述算法存在以缺点：Rocchio算法无法挖掘文档的潜在语义。二、它假设训练数据是绝对正确的，因为它没有任何定量衡量样本是否含有噪声的机制，因而也就对错误数据毫无抵抗力。

发明内容

本发明实施例提出的一种视频节目的搜索方法和装置，能挖掘出文档的潜在语义，提高搜索视频节目的准确度和搜索效率。

本发明实施例提供的一种视频节目的搜索方法，包括：

接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；

根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。

进一步地，由描述视频节目的描述文档构建成索引矩阵的过程包括：将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值；

构建所述描述词条的查询向量的过程包括：设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值；其中，所述查询向量为列向量。

进一步地，由描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程，具体为：

对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；

调用分词工具；

利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；

根据TF-IDF算法从所述第一词语集中提取关键词；

根据所提取的每一个关键词在每一个描述文档中出现的词频，构建索引矩阵；其中，所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列，所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。

进一步地，所述构建所述描述词条的查询向量，具体为：

根据标准词条格式，对所述描述词条进行格式调整；

调用分词工具；

利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；

根据TF-IDF算法从所述第二词语集中提取关键词；

根据所提取的每一个关键词在所述描述词条中出现的词频，构建所述描述词条的查询向量。

进一步地，所述索引矩阵为H，则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为：H＝T*S*D^T；其中，T为正交矩阵，矩阵T的每一列是所述索引矩阵H的左奇异向量；S为对角矩阵，矩阵S的对角线元素是所述索引矩阵H的奇异值；D为正交矩阵，矩阵D的每一列为所述索引矩阵H的右奇异向量；所述查询向量为Q；

所述根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度，具体为：

选取T_K、S_K和D_K矩阵，修订所述潜在语义索引模型为H_K＝T_K*S_K*D_K ^T；其中，T_K为由矩阵T的前K列形成的矩阵，S_K为由矩阵S的前K个对角线元素形成的对角矩阵，D_K为由矩阵D的前K列形成的矩阵；K的数值大于所述排序区间包含的最大排序号；

对于修订后的所述潜在语义索引模型的索引矩阵H_K，计算所述查询向量的转置矩阵Q^T与所述矩阵T_K相乘所得的行向量和所述矩阵D_K与所述矩阵S_K相乘所得矩阵的第j行向量的两行向量之间的余弦相似度，作为所述索引矩阵H_K的第j列向量与所述查询向量Q的余弦相似度。

进一步地，所述搜索方法还包括：

当数据库增加描述新的视频节目的描述文档时，对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。

相应地，本发明实施例提供一种视频节目的搜索装置，包括：

用户信息接收模块，用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

查询向量构建模块，用于选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；

相似度计算模块，用于根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

视频节目选取模块，用于对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。

进一步地，所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元，具体用于：将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值；

所述查询向量构建模块包括的用于构建描述词条的查询向量的单元，具体用于：设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值；其中，所述查询向量为列向量。

进一步地，所述查询向量构建模块包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元，具体为：

第一格式调整单元，用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；

第一工具调用单元，用于调用分词工具；

第一分词单元，用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；

第一关键词提取单元，用于根据TF-IDF算法从所述第一词语集中提取关键词；

索引矩阵构建单元，用于根据所提取的每一个关键词在每一个描述文档中出现的词频，构建索引矩阵；其中，所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列，所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。

进一步地，所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元，具体为：

第二格式调整单元，用于根据标准词条格式，对所述描述词条进行格式调整；

第二工具调用单元，用于调用分词工具；

第二分词单元，用于利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；

第二关键词提取单元，用于根据TF-IDF算法从所述第二词语集中提取关键词；

查询向量构建单元，用于根据所提取的每一个关键词在所述描述词条中出现的词频，构建所述描述词条的查询向量。

所述相似度计算模块具体包括：

模型修订单元，用于选取T_K、S_K和D_K矩阵，修订所述潜在语义索引模型为H_K＝T_K*S_K*D_K ^T；其中，T_K为由矩阵T的前K列形成的矩阵，S_K为由矩阵S的前K个对角线元素形成的对角矩阵，D_K为由矩阵D的前K列形成的矩阵；K的数值大于所述排序区间包含的最大排序号；

计算单元，用于对于修订后的所述潜在语义索引模型的索引矩阵H_K，计算所述查询向量的转置矩阵Q^T与所述矩阵T_K相乘所得的行向量和所述矩阵D_K与所述矩阵S_K相乘所得矩阵的第j行向量的两行向量之间的余弦相似度，作为所述索引矩阵H_K的第j列向量与所述查询向量Q的余弦相似度。

进一步地，所述搜索装置还包括：

模型更新模块，用于当数据库增加描述新的视频节目的描述文档时，对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。

实施本发明实施例，具有如下有益效果：

本发明实施例提供的视频节目的搜索方法和装置，通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度，可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度，数值越高，则相关程度越高，进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户，并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的，能挖掘出文档的潜在语义，提高搜索视频节目的准确度。另外，通过用户输入的所述视频节目所属的视频类别，选择与该视频类别对应的潜在语义索引模型来进行计算，能进一步提高搜索视频节目的效率。

附图说明

图1是本发明提供的视频节目的搜索方法的一个实施例的流程示意图；

图2是本发明提供的视频节目的搜索装置的一个实施例的结构示意图；

图3是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图；

图4是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图。

具体实施方式

下面将结合本发明实施例中的附图，对本发明实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例仅仅是本发明一部分实施例，而不是全部的实施例。基于本发明中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本发明保护的范围。

参见图1，是本发明提供的视频节目的搜索方法的一个实施例的流程示意图；该搜索方法，包括步骤S1至S4，具体为：

S1，接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

S2，选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；所述索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频；所述查询向量为列向量，所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频；

S3，根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

S4，对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。

需要说明的是，通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度，可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度，数值越高，则相关程度越高，进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户，并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的，能挖掘出文档的潜在语义，提高搜索视频节目的准确度。另外，通过用户输入的所述视频节目所属的视频类别，选择与该视频类别对应的潜在语义索引模型来进行计算，能进一步提高搜索视频节目的效率。其中，上述的排序区间一般优选为排列在前的10个排序号。

进一步地，上述步骤S2中的根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程，具体为：

对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；对于对词条的格式调整，可以但不限于，将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。

调用分词工具；优选地，所述分词工具为jieba分词工具，但不限于为此分词工具。

利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；分词工具对描述词条进行分词的模式有多种，除了按正常分词模式切分外，还可以继续长词进行切分，提高召回率，尤其对短文本，可以切出比正常切分出更多的词，对后续的输出视频节目的准确度有提升效果。

根据TF-IDF算法从所述第一词语集中提取关键词；

需要说明的是，构建上述索引矩阵是预先根据数据库存储的描述文档构建而成的，构建过程需遵循：索引矩阵的第j列的第i个元素的数值代表第i个关键词在第j个视频节目的描述文档中出现的词频。其中，索引矩阵的第i行的所有元素所代表的同一个关键词，且不同行的元素所代表的关键词不相同。例如，假设索引矩阵的第1行的所有元素代表关键词A，索引矩阵的第1列的元素代表描述文档B，则该索引矩阵的第1行第1列的元素的数值代表关键词A在描述文档B出现的概率。

进一步地，上述步骤S2中的构建所述描述词条的查询向量，具体为：

根据标准词条格式，对所述描述词条进行格式调整；例如，将词条中的小写统一成大写、对词条中多余的空格删除、统一词条中的标点符号、将词条的全角格式或半角格式统一为一种等。

利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；分词工具对描述词条进行分词的模式有多种，除了按正常分词模式切分外，还可以继续长词进行切分，提高召回率，尤其对短文本，可以切出比正常切分出更多的词，对后续的输出视频节目的准确度有提升效果。

根据TF-IDF算法从所述第二词语集中提取关键词；

需要说明的是，构建所述描述词条的查询向量时，要确保所述查询向量的第i个元素代表的关键词与上述潜在语义索引模型的索引矩阵的第i行元素代表的关键词相同，使得比较查询向量与索引矩阵的每一列向量的余弦相似度具有意义。

另外，构建向量的过程还需遵循以下原则：所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，且所述查询向量的第i个元素的数值代表所述第i个元素对应的关键词在所述描述词条中出现的词频；例如，在假设索引矩阵的第1行的所有元素代表关键词A，则查询向量的第1行的元素代表的关键词为关键词A，则查询向量的第1行的元素的数值代表关键词A在描述词条中出现的词频。

上述步骤S3的具体实施过程具体为：

需要说明的是，此处的K值是个阈值选择，可以根据实际情况选择，分解过程采用H的K秩，是让索引矩阵H的前K个最大奇异值以后的奇异值都为零。上述对潜在语义索引模型的修订，能够提高检索效率。

进一步地，所述搜索方法还包括：

需要说明的是，由于视频节目会不断增加的，而对于描述新增加的视频节目的描述文档也会不断添加到数据库当中，因此需要对举在语义索引模型进行更新。

本发明实施例提供的视频节目的搜索方法，通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度，可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度，数值越高，则相关程度越高，进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户，并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的，能挖掘出文档的潜在语义，提高搜索视频节目的准确度。另外，通过用户输入的所述视频节目所属的视频类别，选择与该视频类别对应的潜在语义索引模型来进行计算，能进一步提高搜索视频节目的效率。

参阅图2，是本发明提供的视频节目的搜索装置的一个实施例的结构示意图。该搜索装置能够执行上述实施例提供的视频节目的搜索方法的全部流程，该搜索装置，包括：

用户信息接收模块10，用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

查询向量构建模块20，用于选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；

相似度计算模块30，用于根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

视频节目选取模块40，用于对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。

进一步地，参见图3，是本发明提供的视频节目的搜索装置的查询向量构建模块的一个实施例的结构示意图，所述查询向量构建模块20包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元，具体为：

第一格式调整单元21，用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；

第一工具调用单元22，用于调用分词工具；

第一分词单元23，用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；

第一关键词提取单元34，用于根据TF-IDF算法从所述第一词语集中提取关键词；

索引矩阵构建单元25，用于根据所提取的每一个关键词在每一个描述文档中出现的词频，构建索引矩阵；其中，所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列，所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。

进一步地，所述查询向量构建模块20还包括用于构建所述描述词条的查询向量的单元，具体为：

第二格式调整单元26，用于根据标准词条格式，对所述描述词条进行格式调整；

第二工具调用单元27，用于调用分词工具；

第二分词单元28，用于利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；

第二关键词提取单元29，用于根据TF-IDF算法从所述第二词语集中提取关键词；

查询向量构建单元31，用于根据所提取的每一个关键词在所述描述词条中出现的词频，构建所述描述词条的查询向量。

进一步地，参见图4，是本发明提供的视频节目的搜索装置的相似度计算模块的一个实施例的结构示意图，所述索引矩阵为H，则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为：H＝T*S*D^T；其中，T为正交矩阵，矩阵T的每一列是所述索引矩阵H的左奇异向量；S为对角矩阵，矩阵S的对角线元素是所述索引矩阵H的奇异值；D为正交矩阵，矩阵D的每一列为所述索引矩阵H的右奇异向量；所述查询向量为Q；

所述相似度计算模块30具体包括：

模型修订单元32，用于选取T_K、S_K和D_K矩阵，修订所述潜在语义索引模型为H_K＝T_K*S_K*D_K ^T；其中，T_K为由矩阵T的前K列形成的矩阵，S_K为由矩阵S的前K个对角线元素形成的对角矩阵，D_K为由矩阵D的前K列形成的矩阵；K的数值大于所述排序区间包含的最大排序号；

计算单元33，用于对于修订后的所述潜在语义索引模型的索引矩阵H_K，计算所述查询向量的转置矩阵Q^T与所述矩阵T_K相乘所得的行向量和所述矩阵D_K与所述矩阵S_K相乘所得矩阵的第j行向量的两行向量之间的余弦相似度，作为所述索引矩阵H_K的第j列向量与所述查询向量Q的余弦相似度。

进一步地，所述搜索装置还包括：

模型更新模块50，用于当数据库增加描述新的视频节目的描述文档时，对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。

本发明实施例提供的视频节目的搜索装置，通过计算要搜索视频的查询向量与潜在语义索引模型的索引矩阵的每一列向量的余弦相似度，可获得要搜索视频的描述词条与索引矩阵的每一列向量代表的描述文档之间的相关程度，数值越高，则相关程度越高，进而将与该描述词条相关程度高的描述文档所对应的视频节目推荐给用户，并由于潜在语义索引模型是根据描述视频节目的描述文档构建(训练)成的，能挖掘出文档的潜在语义，提高搜索视频节目的准确度。另外，通过用户输入的所述视频节目所属的视频类别，选择与该视频类别对应的潜在语义索引模型来进行计算，能进一步提高搜索视频节目的效率。

本领域普通技术人员可以理解实现上述实施例方法中的全部或部分流程，是可以通过计算机程序来指令相关的硬件来完成，所述的程序可存储于一计算机可读取存储介质中，该程序在执行时，可包括如上述各方法的实施例的流程。其中，所述的存储介质可为磁碟、光盘、只读存储记忆体(Read-Only Memory，ROM)或随机存储记忆体(Random Access Memory，RAM)等。

以上所述是本发明的优选实施方式，应当指出，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围。

Claims

一种视频节目的搜索方法，其特征在于，包括：

接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；

根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
如权利要求1所述的视频节目的搜索方法，其特征在于，

由描述视频节目的描述文档构建成索引矩阵的过程包括：将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值；

构建所述描述词条的查询向量的过程包括：设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值；其中，所述查询向量为列向量。
如权利要求1或2所述的视频节目的搜索方法，其特征在于，由描述同一视频类别的视频节目的描述文档构建成索引矩阵的过程，具体为：

对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；

调用分词工具；

利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；

根据TF-IDF算法从所述第一词语集中提取关键词；

根据所提取的每一个关键词在每一个描述文档中出现的词频，构建索引矩阵；其中，所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列，所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
如权利要求1或2所述的视频节目的搜索方法，其特征在于，所述构建所述描述词条的查询向量，具体为：

根据标准词条格式，对所述描述词条进行格式调整；

调用分词工具；

利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；

根据TF-IDF算法从所述第二词语集中提取关键词；

根据所提取的每一个关键词在所述描述词条中出现的词频，构建所述描述词条的查询向量。
如权利要求3所述的视频节目的搜索方法，其特征在于，所述索引矩阵为H，则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为：H＝T*S*D^T；其中，T为正交矩阵，矩阵T的每一列是所述索引矩阵H的左奇异向量；S为对角矩阵，矩阵S的对角线元素是所述索引矩阵H的奇异值；D为正交矩阵，矩阵D的每一列为所述索引矩阵H的右奇异向量；所述查询向量为Q；

所述根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度，具体为：

选取T_K、S_K和D_K矩阵，修订所述潜在语义索引模型为H_K＝T_K*S_K*D_K ^T；其中，T_K为由矩阵T的前K列形成的矩阵，S_K为由矩阵S的前K个对角线元素形成的对角矩阵，D_K为由矩阵D的前K列形成的矩阵；K的数值大于所述排序区间包含的最大排序号；

对于修订后的所述潜在语义索引模型的索引矩阵H_K，计算所述查询向量的转置矩阵Q^T与所述矩阵T_K相乘所得的行向量和所述矩阵D_K与所述矩阵S_K相乘所得矩阵的第j行向量的两行向量之间的余弦相似度，作为所述索引矩阵H_K的第j列向量与所述查询向量Q的余弦相似度。
如权利要求1所述的视频节目的搜索方法，其特征在于，所述搜索方法还包括：

当数据库增加描述新的视频节目的描述文档时，对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。
一种视频节目的搜索装置，其特征在于，包括：

用户信息接收模块，用于接收用户输入的描述视频节目的描述词条和所述视频节目所属的视频类别；

查询向量构建模块，用于选取与所述视频类别相对应的潜在语义索引模型，并根据所述语义索引模型的索引矩阵的构建方式，构建所述描述词条的查询向量；其中，所述潜在语义索引模型是对由描述同一视频类别的视频节目的描述文档所构建成的索引矩阵进行奇异值分解而获得的；

相似度计算模块，用于根据所述潜在语义索引模型，计算所述索引矩阵的每一列向量与所述查询向量的余弦相似度；

视频节目选取模块，用于对计算获得的余弦相似度进行从大到小的排序，并选取排序号属于排序区间的余弦相似度的列向量对应的视频节目提供给所述用户。
如权利要求7所述的视频节目的搜索装置，其特征在于，

所述查询向量构建模块包括的用于根据描述视频节目的描述文档构建成索引矩阵的单元，具体用于：将第i个关键词在第j个视频节目的描述文档中出现的词频作为索引矩阵的第j列的第i个元素的数值；

所述查询向量构建模块包括的用于构建描述词条的查询向量的单元，具体用于：设置所述查询向量的第i个元素代表的关键词与所述索引矩阵的第i行元素代表的关键词相同，并将第i个元素对应的关键词在所述描述词条中出现的词频作为所述查询向量的第i个元素的数值；其中，所述查询向量为列向量。
如权利要求7或8所述的视频节目的搜索装置，其特征在于，所述查询向量构建模块包括用于根据描述同一视频类别的视频节目的描述文档构建成索引矩阵的单元，具体为：

第一格式调整单元，用于对于数据库存储的描述同一视频类别的视频节目的所有描述文档，根据标准词条格式，对所述所有描述文档包含的词条进行格式调整；其中，所述数据库存储有多种视频类别的描述文档，一个描述文档描述一个视频节目，不同的描述文档描述的视频节目互不相同；

第一工具调用单元，用于调用分词工具；

第一分词单元，用于利用所述分词工具对格式调整后的所述所有描述文档的词条进行分词，获得第一词语集；

第一关键词提取单元，用于根据TF-IDF算法从所述第一词语集中提取关键词；

索引矩阵构建单元，用于根据所提取的每一个关键词在每一个描述文档中出现的词频，构建索引矩阵；其中，所述索引矩阵的行顺序是根据关键词在所述所有描述文档出现的总词频进行由高到低的排列，所述索引矩阵的列顺序根据关键词在每一个描述文档中出现的词频进行由高到低的排列。
如权利要求7或8所述的视频节目的搜索装置，其特征在于，所述查询向量构建模块还包括用于构建所述描述词条的查询向量的单元，具体为：

第二格式调整单元，用于根据标准词条格式，对所述描述词条进行格式调整；

第二工具调用单元，用于调用分词工具；

第二分词单元，用于利用所述分词工具对格式调整后的所述描述词条进行分词，获得第二词语集；

第二关键词提取单元，用于根据TF-IDF算法从所述第二词语集中提取关键词；

查询向量构建单元，用于根据所提取的每一个关键词在所述描述词条中出现的词频，构建所述描述词条的查询向量。
如权利要求9所述的视频节目的搜索装置，其特征在于，所述索引矩阵为H，则对所述索引矩阵进行奇异值分解所获得的所述潜在语义索引模型为：H＝T*S*D^T；其中，T为正交矩阵，矩阵T的每一列是所述索引矩阵H的左奇异向量；S为对角矩阵，矩阵S的对角线元素是所述索引矩阵H的奇异值；D为正交矩阵，矩阵D的每一列为所述索引矩阵H的右奇异向量；所述查询向量为Q；

所述相似度计算模块具体包括：

模型修订单元，用于选取T_K、S_K和D_K矩阵，修订所述潜在语义索引模型为H_K＝T_K*S_K*D_K ^T；其中，T_K为由矩阵T的前K列形成的矩阵，S_K为由矩阵S的前K个对角线元素形成的对角矩阵，D_K为由矩阵D的前K列形成的矩阵；K的数值大于所述排序区间包含的最大排序号；

计算单元，用于对于修订后的所述潜在语义索引模型的索引矩阵H_K，计算所述查询向量的转置矩阵Q^T与所述矩阵T_K相乘所得的行向量和所述矩阵D_K与所述矩阵S_K相乘所得矩阵的第j行向量的两行向量之间的余弦相似度，作为所述索引矩阵H_K的第j列向量与所述查询向量Q的余弦相似度。
如权利要求7所述的视频节目的搜索装置，其特征在于，所述搜索装置还包括：

模型更新模块，用于当数据库增加描述新的视频节目的描述文档时，对与所述新的视频节目所属的视频类别相对应的潜在语义索引模型进行更新。