WO2019136841A1

WO2019136841A1 - 直播间内容标签提取方法、存储介质、电子设备及系统

Info

Publication number: WO2019136841A1
Application number: PCT/CN2018/081286
Authority: WO
Inventors: 王璐; 张文明; 陈少杰
Original assignee: 武汉斗鱼网络科技有限公司
Priority date: 2018-01-09
Filing date: 2018-03-30
Publication date: 2019-07-18
Also published as: CN108280059A; CN108280059B

Abstract

本发明公开了一种直播间内容标签提取方法、存储介质、电子设备及系统，涉及大数据推荐技术领域，本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词；对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将意思相近的内容标签候选词作为该内容标签下的标签关联词；计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签，充分考虑内容标签的出现次数以及出现的直播间多少，标签多样性好，节约人力成本。

Description

直播间内容标签提取方法、存储介质、电子设备及系统

技术领域

本发明涉及大数据推荐技术领域，具体涉及一种直播间内容标签提取方法、存储介质、电子设备及系统。

背景技术

直播间是一个信息的载体，给直播间打上符合其内容和表现形式的标签可以对内含信息进行归纳，从而有利于直播平台内容的组织和编排。因此，如何采用有效的方法对直播间打上准确的内容标签是一个十分重要的问题。

直播间标签提取的方式一般有以下几种方式。一是采用直播网站人工定义的分区作为标签，这样做的缺陷是一个直播间只对应一个分区，标签不够丰富；且分区的含义较为宽泛，难以描述直播间的特点。二是采用人工的方式给直播间打标，但是由于直播间众多这样做人工成本太高。

发明内容

针对现有技术中存在的缺陷，本发明的目的在于提供一种直播间内容标签提取方法、存储介质、电子设备及系统，解决传统方案人力成本较高、标签多样性较差的缺点。

为达到以上目的，本发明采取的技术方案是：本发明公开了一种直播间内容标签提取方法：

构建直播词汇词典，所述直播词汇词典用于存储与直播平台内容相关的词汇；根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词；

对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词；

计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。

在上述技术方案的基础上，计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为：

其中：

M表示直播间ID号，L表示内容标签；

wr是内容标签L下的标签关联词的集合，该集合包含词wr ₁,wr ₂,...,wr _m，m表示wr中词的个数；

N(wr _i)是直播间M的弹幕文本中出现wr的次数；

w _i表示直播间M的弹幕文本中出现的全部标签关联词的集合，该集合包含词w ₁,w ₂,...,w _m，n表示w _i中词的个数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。

在上述技术方案的基础上，所述内容标签包括通用类标签和分区类标签，所述通用类标签为直播内容相关的内容标签，所述分区类标签为分区下直播间内关键词相关的内容标签。

在上述技术方案的基础上，所述设定时间为一个月。

本发明还公开了一种存储介质，该存储介质上存储有计算机程序，所述计算机程序被处理器执行时实现基于弹幕文本的直播间内容标签提取方法。

本发明还公开了一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现基于弹幕文本的直播间内容标签提取方法。

本发明还公开了一种基于弹幕文本的直播间内容标签提取系统，包括：

直播词汇词典，所述直播词汇词典用于存储与直播平台内容相关的词汇；

分词模块，所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词；

内容标签构建模块，所述内容标签构建模块用于对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词；

标签相关度计算模块，所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。

其中：

M表示直播间ID号，L表示内容标签；

wr是内容标签L下的标签关联词的集合，该集合包含词语wr ₁,wr ₂,...,wr _m，m表示wr中词语的个数；

N(wr _i)是直播间M的弹幕文本中出现词语wr的次数；

w _i表示直播间M的弹幕文本中出现的全部标签关联词的集合，该集合包含词语w ₁,w ₂,...,w _m，n表示w _i中词语的个数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

在上述技术方案的基础上，所述设定时间为一个月。

与现有技术相比，本发明的优点在于：

本发明根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词；对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将意思相近的内容标签候选词作为该内容标签下的标签关联词；计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签，充分考虑内容标签的出现次数以及出现的直播间多少，标签多样性好，节约人力成本。

附图说明

图1为本发明实施例中直播间内容标签提取方法的流程示意图；

图2为本发明实施例中直播间内容标签提取系统的结构示意图。

具体实施方式

以下结合附图及实施例对本发明作进一步详细说明。

参见图1所示，本发明实施例提供一种基于弹幕文本的直播间内容标签提取方法，包括：

S1，构建直播词汇词典，直播词汇词典用于存储与直播平台内容相关的词汇，根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词。

首先构建一个与直播平台内容相关的直播词汇词典，直播词汇词典包含游戏、二次元、以及直播相关的专有名词以及其他网络词汇，主要来源是搜狗的细胞词库和从论坛等网站通过人工方式收集。直播词汇词典的构建是为能够对弹幕文本进行合理的分词，由于弹幕文本中有很多网络常用语和专有名词，因此需要构建一个涵盖内容非常广的分词词典。

S2，对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将意思相近的内容标签候选词作为该内容标签下的标签关联词。

根据平台的直播内容建立内容标签，内容标签包括通用类标签和分区类标签，通用类标签为直播内容相关的内容标签，不涉及特定方面的专有知识；分区类标签为分区下直播间内关键词相关的内容标签，归纳的方法是观察该分区下房间标题经常会用到的关键性词语，利用分区相关的专有知识进行提炼。

这两类内容标签均可以采用以下步骤进行产生：

1)对近一个月的直播间标题和弹幕采用第一步构建的直播词汇词典进行分词。

2)对分词后的文本进行词频统计，取出出现频率较高或者出现直播间个数较多的词语。

3)在上述词语中，人工筛选挑选合适的词语作为内容标签的候选词。

4)对内容的候选词进行归纳整理，将几个意思相近的词抽象为一个内容标签，并将这些词作为该内容标签下的标签关联词。

S3，计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。

直播间的设定时间内的内容标签与该直播间的相关度的计算公式为：

其中：

M表示直播间ID号，L表示内容标签；

N(wr _i)是直播间M的弹幕文本中出现词语wr的次数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

计算出设定时间内所有内容标签与直播间的相关度后，从高到低进行排序，取分数最大的前10个标签作为该直播间对应的内容标签。

本发明实施例还公开了一种存储介质，该存储介质上存储有计算机程序，计算机程序被处理器执行时实现基于弹幕文本的直播间内容标签提取方法。

本发明实施例还公开了一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，处理器执行计算机程序时实现基于弹幕文本的直播间内容标签提取方法。

参见图2所示，本发明实施例还公开了一种基于弹幕文本的直播间内容标签提取系统，包括：

直播词汇词典，直播词汇词典用于存储与直播平台内容相关的词汇；

分词模块，分词模块用于根据直播词汇词典对预设时间内的直播间标题和弹幕进行分词；

内容标签构建模块，内容标签构建模块用于对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将意思相近的内容标签候选词作为该内容标签下的标签关联词；

标签相关度计算模块，标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。

其中：

M表示直播间ID号，L表示内容标签；

N(wr _i)是直播间M的弹幕文本中出现词语wr的次数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

直播词汇词典包含游戏、二次元、以及直播相关的专有名词以及其他网络词汇。

内容标签包括通用类标签和分区类标签，通用类标签为直播内容相关的内容标签，分区类标签为分区下直播间内关键词相关的内容标签。

本发明不局限于上述实施方式，对于本技术领域的普通技术人员来说，在不脱离本发明原理的前提下，还可以做出若干改进和润饰，这些改进和润饰也视为本发明的保护范围之内。本说明书中未作详细描述的内容属于本领域专业技术人员公知的现有技术。

Claims

一种基于弹幕文本的直播间内容标签提取方法，其特征在于：

构建直播词汇词典，所述直播词汇词典用于存储与直播平台内容相关的词汇；根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词；

对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词；

计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法，其特征在于：计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为：

其中：

M表示直播间ID号，L表示内容标签；

wr是内容标签L下的标签关联词的集合，该集合包含词wr ₁,wr ₂,...,wr _m，m表示wr中词的个数；

N(wr _i)是直播间M的弹幕文本中出现wr的次数；

w _i表示直播间M的弹幕文本中出现的全部标签关联词的集合，该集合包含词w ₁,w ₂,...,w _m，n表示w _i中词的个数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法，其特征在于：所述内容标签包括通用类标签和分区类标签，所述通用类标签为直播内容相关的内容标签，所述分区类标签为分区下直播间内关键词相关的内容标签。
如权利要求1所述的一种基于弹幕文本的直播间内容标签提取方法，其特征在于：所述设定时间为一个月。
一种存储介质，该存储介质上存储有计算机程序，其特征在于：所述计算机程序被处理器执行时实现权利要求1至4任一项所述的方法。
一种电子设备，包括存储器和处理器，存储器上储存有在处理器上运行的计算机程序，其特征在于：处理器执行计算机程序时实现权利要求1至4任一项所述的方法。
一种基于弹幕文本的直播间内容标签提取系统，其特征在于，包括：

直播词汇词典，所述直播词汇词典用于存储与直播平台内容相关的词汇；

分词模块，所述分词模块用于根据所述直播词汇词典对预设时间内的直播间标题和弹幕进行分词；

内容标签构建模块，所述内容标签构建模块用于对分词后的文本进行词频统计，提取词频超过预设值或直播间个数超过预设个数的词作为内容标签候选词，将意思相近的内容标签候选词抽象为一个内容标签，并将所述意思相近的内容标签候选词作为该内容标签下的标签关联词；

标签相关度计算模块，所述标签相关度计算模块用于计算设定时间内所有内容标签与直播间的相关度，根据相关度排序选择一个或多个内容标签作为该直播间的内容标签。
如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统，其特征在于：计算直播间的设定时间内的内容标签与该直播间的相关度的计算公式为：

其中：

M表示直播间ID号，L表示内容标签；

wr是内容标签L下的标签关联词的集合，该集合包含词语wr ₁,wr ₂,...,wr _m，m表示wr中词语的个数；

N(wr _i)是直播间M的弹幕文本中出现词语wr的次数；

w _i表示直播间M的弹幕文本中出现的全部标签关联词的集合，该集合包含词语w ₁,w ₂,...,w _m，n表示w _i中词语的个数；

N(w _i)是直播间M的弹幕文本中的w _i出现的总次数；

R是所有直播间个数；

R(wr)是弹幕文本中含有标签关联词集合wr中词语的直播间个数。
如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统，其特征在于：所述内容标签包括通用类标签和分区类标签，所述通用类标签为直播内容相关的内容标签，所述分区类标签为分区下直播间内关键词相关的内容标签。
如权利要求7所述的一种基于弹幕文本的直播间内容标签提取系统，其特征在于：所述设定时间为一个月。