WO2023169159A1

WO2023169159A1 - 一种事理图谱建立方法及相关装置

Info

Publication number: WO2023169159A1
Application number: PCT/CN2023/075917
Authority: WO
Inventors: 李忠阳; 李明磊; 郑毅; 怀宝兴; 袁晶
Original assignee: 华为云计算技术有限公司
Priority date: 2022-03-11
Filing date: 2023-02-14
Publication date: 2023-09-14

Abstract

本申请提供了一种事理图谱建立方法及相关装置，所述方法包括：获取第一数据，第一数据中包括视频、图像、文本、语音中的任意一种或者多种；将第一数据切分为m个集合，m个集合中的每个集合的数据代表一类事件，一类事件包括至少一个事件，m为任意正整数；确定m个集合中的数据代表的m类事件之间的逻辑关系；以m类事件中的每类事件分别为节点，m类事件之间的逻辑关系为节点的边，建立事理图谱。采用本申请的方法，可以以事件为节点，以事件之间的逻辑关系为节点的边，建立事理图谱，满足市场的需求。

Description

一种事理图谱建立方法及相关装置

本申请要求于2022年03月11日提交中国专利局、申请号为202210239563.0、申请名称为“一种数据处理方法和计算机”的中国专利申请的优先权，以及要求于2022年06月24日提交中国专利局、申请号为202210726908.5、申请名称为“一种事理图谱建立方法及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及事理图谱领域，具体涉及一种事理图谱建立方法及相关装置。

背景技术

知识图谱是以实体与实体之间的关系为核心建立的，它在搜索、推荐、问答等人工智能任务上获得了广泛的应用。

知识图谱具有一定的表征局限性，它只能表征实体与实体之间的关系，未能对事件与事件之间的关系进行表征。实际应用中，人们在了解到一个事件后，通常更希望对该事件的起因、发展状况、结果和经验教训等有更多的了解，甚至想要获取与该事件相关的或类似的事件，但现有的知识图谱不能满足市场的需求。

发明内容

本申请提供了一种事理图谱建立方法及相关装置，采用本申请所述的方法建立事理图谱，事理图谱中每个节点上的数据包括视频、文本、语音、图像中的一种或多种，每个节点上的数据代表一类事件，节点之间的边代表事件之间的逻辑关系，建立好的事理图谱可应用于多种场景下，应用范围广、适用性强。

第一方面，本申请提供了一种事理图谱建立方法，包括：获取第一数据，所述第一数据中包括视频、图像、文本、语音中的任意一种或者多种；将所述第一数据切分为m个集合，所述m个集合中的每个集合的数据代表一类事件，所述一类事件包括至少一个事件，m为任意正整数；确定所述m个集合中的数据代表的m类事件之间的逻辑关系；以所述m类事件中的每类事件分别为节点，所述m类事件之间的逻辑关系为所述节点的边，建立事理图谱。

可以看到，本申请提供了一种事理图谱建立方法，将第一数据切分为m个集合，每个集合代表一类事件，确定m个集合中的数据代表的m类事件之间的逻辑关系，以m类事件中的每类事件分别为节点，以m类事件之间的逻辑关系为节点的边，建立事理图谱。采用本申请所述的方法建立的事理图谱，事理图谱每个节点上的数据代表一类事件，节点之间的边代表事件之间的逻辑关系，表征了事件与事件之间的逻辑关系，满足了市场的需求。

基于第一方面，在可能的实现方式中，所述第一数据中的视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。

可以看到，本申请中，第一数据中的视频可以包括各种类型、各个方面的视频，本申请所述的方法适用性强，应用范围广。

基于第一方面，在可能的实现方式中，所述节点中的数据包括视频、图像、文本、语音中的任意一种或者多种。

可以看到，事理图谱中每个节点上的数据包括视频、图像、文本、语音中的任意一种或多种，换句话说，每个节点上的数据可以包括多种类型，而传统的知识图谱是基于文本建立的，知识图谱中每个节点上的数据只包括文本。

基于第一方面，在可能的实现方式中，所述逻辑关系包括因果关系、时序关系的一种或多种。

基于第一方面，在可能的实现方式中，所述确定所述m个集合中的数据代表的m类事件之间的逻辑关系，包括：根据训练好的逻辑关系预测模型，确定所述m个集合中的数据代表的m类事件之间的逻辑关系。

基于第一方面，在可能的实现方式中，在所述第一数据为至少一个视频的情况下，且所述一类事件包括一个事件的情况下，所述将所述第一数据切分为m个集合，包括：

对于所述至少一个视频中的每个视频，根据(i)至(iii)中的一者或多者，对所述至少一个视频进行切分获得所述m个集合，其中，

(i)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(ii)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(iii)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中。

基于第一方面，在可能的实现方式中，在所述第一数据中为至少一个视频的情况下，且所述一类事件包括至少一个事件的情况下，所述将所述第一数据切分为m个集合，包括：

将所述第一数据切分为n个集合，所述n个集合中的每个集合的数据代表一个事件，其中，n大于等于m；

对所述n个集合的数据所代表的n个事件中的相似事件进行融合，获得所述m个集合。

可以理解，可以先将第一数据划分为n个集合，n个集合中的每个集合代表一个事件，再将n个集合代表的n个事件中的相似事件进行融合，获得m个集合。

基于第一方面，在可能的实现方式中，所述将所述第一数据切分为n个集合，包括：对于所述至少一个视频中的每个视频，根据(iv)至(vi)中的一者或多者，对所述至少一个视频进行切分获得所述n个集合，其中，

(iv)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(v)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(vi)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中；

所述对所述n个集合的数据所代表的n个事件中的相似事件进行融合，包括：根据条件(vii)至(x)中的任意一者或多者，对所述n个事件中的相似事件进行融合，其中，

(vii)根据各个事件的标题相似度或关键词相似度，

(viii)根据各个集合的视频中携带的字幕内容或语音内容的相似度，

(ix)根据各个集合的视频中是否包含相同的视频帧，

(x)根据各个集合的视频中是否存在相同的人物身份。

基于第一方面，在可能的实现方式中，所述方法还包括：根据用户的操作，基于建立好的事理图谱，向用户推荐相关内容。

第二方面，本申请提供了一种建立事理图谱的装置，包括：

获取模块，用于获取第一数据，所述第一数据中包括视频、图像、文本、语音中的任意一种或者多种；

切分模块，用于将所述第一数据切分为m个集合，所述m个集合中的每个集合的数据代表一类事件，所述一类事件包括至少一个事件，m为任意正整数；

确定模块，用于确定所述m个集合中的数据代表的m类事件之间的逻辑关系；

事理图谱建立模块，用于以所述m类事件中的每类事件分别为节点，所述m类事件之间的逻辑关系为所述节点的边，建立事理图谱。

基于第二方面，在可能的实现方式中，所述第一数据中的视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。

基于第二方面，在可能的实现方式中，所述节点中的数据包括视频、图像、文本、语音中的任意一种或者多种。

基于第二方面，在可能的实现方式中，所述逻辑关系包括因果关系、时序关系的一种或多种。

基于第二方面，在可能的实现方式中，所述确定模块用于：根据训练好的逻辑关系预测模型，确定所述m个集合中的数据代表的m类事件之间的逻辑关系。

基于第二方面，在可能的实现方式中，在所述第一数据为至少一个视频的情况下，且所述一类事件包括一个事件的情况下，所述切分模块用于：

基于第二方面，在可能的实现方式中，在所述第一数据中为至少一个视频的情况下，且所述一类事件包括至少一个事件的情况下，所述切分模块用于，将所述第一数据切分为n个集合，所述n个集合中的每个集合的数据代表一个事件，其中，n大于等于m；所述装置还包括融合模块，所述融合模块用于，对所述n个集合的数据所代表的n个事件中的相似事件进行融合，获得所述m个集合。

基于第二方面，在可能的实现方式中，所述切分模块用于：对于所述至少一个视频中的每个视频，根据(iv)至(vi)中的一者或多者，对所述至少一个视频进行切分获得所述n个集合，其中，

所述融合模块用于：根据条件(vii)至(x)中的任意一者或多者，对所述n个事件中的相似事件进行融合，其中，

(vii)根据各个事件的标题相似度或关键词相似度，

(ix)根据各个集合的视频中是否包含相同的视频帧，

(x)根据各个集合的视频中是否存在相同的人物身份。

基于第二方面，在可能的实现方式中，所述装置还包括：推荐模块，用于根据用户的操作，基于建立好的事理图谱，向用户推荐相关内容。

第二方面中的各个功能模块具体用于实现上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

第三方面，本申请提供了一种计算设备集群，包括至少一个计算设备，所述至少一个计算设备中的每个计算设备包括存储器和处理器，所述存储器用于存储指令，所述处理器用于运行所述至少一个计算设备的存储器中存储的指令，以使所述计算设备集群执行上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

第四方面，本申请提供了一种计算机可读存储介质，包括计算机程序指令，当所述计算机程序指令在计算设备集群上运行时，使得所述计算机集群执行上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当所述指令被计算机集群执行时，使得所述计算机集群执行上述第一方面或第一方面的任意一种可能的实现方式所述的方法。

附图说明

图1为本申请提供的一种事理图谱建立方法的流程示意图；

图2为本申请提供的一种场景示意图；

图3为本申请提供的一种有向有环的事理图谱示意图；

图4为本申请提供的一种有向无环事理图谱示意图；

图5为本申请提供的一种事理图谱建立方法的流程示意图；

图6为本申请提供的一种逻辑关系预测模型的训练预测结构示意图；

图7为本申请提供的一种建立事理图谱的装置结构示意图；

图8为本申请提供的一种计算设备的结构示意图；

图9为本申请提供的一种计算设备集群的结构示意图；

图10为本申请提供的又一种计算设备的结构示意图。

具体实施方式

事理图谱指的是以事件为节点，以事件与事件之间的关系为边建立的图谱。

本申请提供了一种事理图谱建立方法，参见图1所示，图1为本申请提供的一种事理图谱建立方法的流程示意图，所述方法包括但不限于以下内容的描述。

S101、获取第一数据，第一数据中包括视频、图像、文本、语音中的任意一种或者多种。

第一数据中可以包括视频，视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。

其中，影视节目视频例如可以包括某个电视剧片段、某个电影、某个电影片段、某期综艺节目、某期综艺节目片段等中的一种或多种，其中，某个电视剧片段、某个电影、某个电影片段、某期综艺节目、某期综艺节目片段等可以以动画的形式呈现，当然还可以以人、物等形式呈现，本申请不做限定。

视频还可以包括新闻报道视频，这里，新闻报道视频指的是将新闻通过视频的形式播报出来，其中新闻报道视频可以通过电视播放出来，也可以通过网络在终端设备上播放出来，其中终端设备可以是手机、台式电脑、笔记本、平板、显示屏、电子手表或其他电子设备等，本申请对新闻报道视频的播放载体不做限定，新闻报道视频可以是对最近发生的事情进行报道，也可以是对人们比较关注的历史事件进行报道，本申请不做限定，新闻报道视频可以是关于任何方面的，例如可以是军事方面的，也可以是政治方面的，也可以是历史方面的，也可以是财经方面的，也可以是日常生活方面的等等，本申请不做限定。

视频中还可以包括广告视频，这里广告视频指的是广告以视频的形式存在，广告视频可以是关于任何方面的，可以是关于某实物的广告视频，例如可以是关于人们日常生活中某生活用品的广告视频，也可以是对某开发软件的应用进行宣传，也可以是对价值观念或生活理念的宣传，等等，本申请对广告视频涉及的具体内容不做限定，广告视频可以来源于电视上呈现的广告视频，也可以来源于通过网络在终端设备上呈现的广告视频，本申请对广告视频的来源不做限定。

摄录视频可以包括摄像机、照相机、红外传感器等设备通过摄像或录像获取到的视频。例如，摄录视频可以包括，摄像机或照相机或终端设备对环境信息进行摄像或录制获得的视频，其中环境信息中可以包括人或物或景色等，终端设备例如可以是手机、电脑，甚至可以是具有摄像或录制功能的其他电子设备等，本申请对摄像内容不做具体限定。摄录视频可以是通过前置摄像头摄像或录制获得，也可以是通过后置摄像头摄像或录制获得，本申请不做限定。摄录视频还可以包括车辆上的行车记录仪采集到的视频。摄录视频还可以包括监控视频，监控视频指的是监控设备获取到的视频，监控设备例如摄像机。

在一种场景中，摄录视频可以是用户自己通过摄像设备或录制设备摄像录制的视频，该摄录视频可以是关于任何内容的视频，例如，摄录视频可以是关于美食的视频，也可以是关于美妆的视频，也可以是关于旅游的视频，也可以是关于娱乐搞笑的视频，等等。

在一种场景中，摄录视频可以是关于游戏的视频，例如，用户在终端设备上打游戏时，开启了终端设备上的录制功能，录制了用户视角下该局游戏的所有过程；又例如，用户在一终端设备上打游戏时，利用另一终端设备录制了该用户打游戏的全部过程，该过程可以通过网络直播的形式实时传播出去，也可以非实时传播。

在一种场景中，摄录视频还可以包括电话视频，电话视频可以是多个人通过手机或电脑或其他电子设备进行通信时，以自身视角录制的视频，其中，通信可以是通过手机或电脑或其他电子设备上的特定软件进行的，其中，特定软件例如可以是社交软件，也可以是用于开会的会议软件，也可以是通过用户身份识别卡(subscriber identity module，SIM)进行的，也可以是通过其他方式进行的，本申请不做限定。本申请对电话视频中涉及的内容不做具体限定。

第一数据中的视频还可以包括一些其他形式的视频，例如网络平台上，对某个新闻相关的评论、看法的视频等；对某个事件前因后果以及该事件产生的影响进行解析的视频；对影视节目视频的解析、评论的视频；对金融市场、财经行情等方面进行解析的视频；等等。本申请对视频的来源不做具体限定。

第一数据中还可以包括图像，图像可以是与影视节目相关的图像，例如，可以是某个电视剧片段、某个电影、某个电影片段、某期综艺节目、某期综艺节目片段中的任意一个或多个视频帧。图像也可以是与新闻报道相关的图像，例如可以是上述新闻报道视频中的任意一个视频帧或任意多个视频帧。图像也可以是与广告相关的图像，例如，可以是上述广告视频中的任意一个视频帧或任意多个视频帧。图像也可以是图像采集设备对环境信息进行采集获得的图像，环境信息中包括人或物或景色等，本申请对图像中的内容不做具体限定，对图像的获取形式不做具体限定。

第一数据中还可以包括文本，本申请对文本中的内容及文本来源不做具体限定，例如，文本可以是关于任何方向的论文、期刊、杂志、文章、报纸等中的部分或全部文本，也可以是新闻文本，新闻文本指的是将新闻通过期刊、杂志、报纸等形式进行记录或传播，也可以影视节目中的台词、话剧台词、戏剧台词、广告词等。

第一数据中还可以包括语音，本申请对语音的表达形式不做具体限定，例如，语音可以用普通话的形式表达，也可以用外语的形式表达，也可以以方言的形式表达。本申请对语音中的内容不做具体限定，例如，语音的内容可以是新闻播报，新闻播报指的是将新闻通过电台或其他形式播报出来，也可以是多个人之间的对话，语音的内容也可以是歌词、影视节目中的台词、话剧台词、戏剧台词、广告词等。

可选的，第一数据中还可以包括日志数据，日志数据例如可以是智能手表中记录的用户的活动轨迹数据，还可以是穿戴设备中记录的用户的心率、步数等数据，本申请对日志数据不做具体限定。可选的，在获取到第一数据之后，可以对第一数据进行预处理。例如，第一数据中包括图像的情况下，可以对图像进行去噪、图像增强等，第一数据中包括监控视频的情况下，可以将监控视频中的无效帧删除掉，无效帧例如可以是监控区域内未出现人的视频帧，第一数据中包括语音的情况下，可以采用语音增强技术去除语音中包含的噪音，提高语音质量，等等，本申请对预处理操作不做具体限定。

S102、将第一数据切分为m个集合，m个集合中的每个集合的数据代表一个事件。

在第一数据为至少一个视频的情况下，对至少一个视频中的每个视频分别进行切分，一共获得m个集合，m个集合中的每个集合中的数据代表一个事件。关于如何对至少一个视频中的每个视频进行切分，下面介绍几种可能的实现方式。

在一种可能的实现方式中，根据每个视频中相邻视频帧之间的画面相似度确定相邻视频帧描述的是否为一个事件，在确定相邻视频帧描述的是一个事件的情况下，将相邻视频帧切分至一个集合中，在确定相邻视频帧描述的不是一个事件的情况，将相邻视频帧切分至不同的集合中。例如，至少一个视频中的某个视频包括视频帧1、视频帧2、视频帧3…视频帧k，其中邻接关系为视频帧1-视频帧2-视频帧3-…-视频帧k，首先，确定视频帧1与视频帧2描述的是否为一个事件，若视频帧1与视频帧2描述的是一个事件，则将视频帧1与视频帧2切分至一个集合中，若视频帧1与视频帧2描述的不是一个事件，则将视频帧1与视频帧2切分至不同集合中，例如视频帧1切分至集合1中，视频帧2切分至集合2中；然后，确定视频帧2与视频帧3描述的是否是一个事件，若是，则切分至一个集合中，若不是，则切分至不同集合中，例如视频帧2切分至集合2中，视频帧3切分至集合3中；…如此，将该视频中的视频帧1、视频帧2、视频帧3…视频帧k切分至一个或多个集合中。

根据相邻视频帧之间的画面相似度确定相邻视频帧描述的是否为一个事件的方法可以是，若相邻视频帧之间的画面相似度大于或等于第一阈值，则确定相邻视频帧描述的是一个事件，若相邻视频帧之间的画面相似度小于第一阈值，则确定相邻视频帧描述的不是一个事件。例如，若视频帧1与视频帧2之间的画面相似度大于第一阈值，视频帧2与视频帧3之间的画面相似度大于第一阈值，则确定视频帧1、视频帧2和视频帧3描述的是一个事件；若视频帧1与视频帧2之间的画面相似度大于第一阈值，视频帧2与视频帧3之间的画面相似度小于第一阈值，则将视频帧1与视频帧2描述的是一个事件，视频帧3与视频帧1、视频帧2描述的不是同一个事件；若视频帧1与视频帧2之间的画面相似度小于第一阈值，视频帧2与视频帧3之间的画面相似度大于第一阈值，则确定视频帧2与视频帧3描述的是一个事件，视频帧1描述的是与视频帧2、视频帧3不同的事件；等等。其中，第一阈值可以根据具体情况具体设置，本申请不做限定。

在一种可能的实现方式中，视频中携带有字幕，则可根据视频中携带的字幕内容确定哪些视频帧描述的是一个事件，将描述为一个事件的视频帧切分至一个集合中，描述为不同事件的视频帧切分至不同集合中。可选的，字幕实质是文本，可以根据字幕内容，利用自然语言处理技术，确定视频中的哪些视频帧描述的是一个事件。

在一种可能的实现方式中，视频中携带有语音，则可根据视频中携带的语音内容确定哪些视频帧描述的是一个事件，将描述为一个事件的视频帧切分至一个集合中，描述为不同事件的视频帧切分至不同集合中。可选的，可以利用语音识别技术将语音转化为文字，再利用自然语言处理技术，根据视频中的语音内容确定哪些视频帧描述的是一个事件，或者，也可以直接根据利用语音处理技术，对语音进行处理，确定视频中的哪些视频帧描述的是一个事件，将描述为一个事件的视频帧切分至一个集合中。

在一种可能的实现方式中，可以根据每个视频中人物身份，对至少一个视频中的每个视频进行切分。可选的，可以将包含一个指定人物身份的视频帧切分至一个集合中；也可以将包含多个指定人物身份的视频帧切分至一个集合中，一个集合代表一个事件，指定人物身份可以是指定的某个人，或指定的某些人，或指定的某个物，或指定的某些物等。例如指定人物身份可以是影视节目中指定的角色名称，也可以是影视节目中指定角色的扮演者，还可以是新闻报道中指定的报道者或指定的主持人，等等，本申请对指定人物身份不做限定。

例如，在一种场景中，一则新闻报道视频中包括两个主持人，两个主持人分别为主持人A和主持人B，可以将包含主持人A的视频帧切分至一个集合中，将包含主持人B的视频帧切分至另一个集合中。

又例如，在一种场景中，视频中包括多集电视剧，多集电视剧中包括角色A、角色B、角色C、角色D、角色E以及其他角色，在一种示例中，可以将包含角色A的视频帧切分至一个集合中，将包含角色B、角色C、角色D、角色E以及其他角色的视频帧切分至另一个集合中；在又一种示例中，可以将同时包含角色A和角色B的视频帧切分至一个集合中，将包含角色C、角色D、角色E以及其他角色的视频帧切分至另一个集合中。

可选的，可以利用提取特征的方式，提取指定人物身份的特征，利用提取出的特征，将包含指定人物身份的视频帧切分至一个集合中，本申请对如何将指定人物身份的视频帧切分至一个集合中不做限定。

可选的，可以根据上述任意一种可能的实现方式对至少一个视频中的每个视频进行切分，也可以根据上述任意可能的实现方式的组合对至少一个视频中的每个视频进行切分。

可选的，上述介绍的任意一种可能的实现方式或多种可能的实现方式的组合，均可以通过模型来实现，对模型进行训练后，获得训练好的模型，将至少一个视频输入训练好的模型中，获得m个集合，其中m个集合中的一个集合代表一个事件。

在第一数据为很多图像的情况下，将很多图像划分至m个集合，其中m个集合中的一个集合代表一个事件，m为任意正整数。例如，首先，将图像进行分类，例如，将图像分为风景图像、人图像、物体图像等。然后，将每一类图像划分至多个集合中，例如，对于人图像，可以根据人的身份，将人图像划分至多个集合中，比如，将一部电影或一部电视剧中同一个角色的图像划分至一个集合中，或者，将一个扮演者涉及到的所有影视节目中的图像划分至一个集合中；又例如，将与火灾或着火相关图像划分至一个集合中，将与追尾事故相关的图像划分至一个集合中，等等。最终将所有图像划分至m个集合中。又例如，对于一个图像，可以用文本描述该图像中的内容，例如，一个人在海上冲浪的风景图像，文本描述可以为“一个人在海上冲浪”，一条狗的图像可以用文本描述为“一条狗”，等等。根据文本描述，将很多图像划分至m个集合中，比如，文本描述中有相同的词语或关键词相同，可以划分至一个集合中。其中，用文本描述图像的内容，可以通过模型实现，模型可以基于大量图像和标签训练得到，标签为每个图像对应的文本描述。本申请对图像的具体划分方式不做限定，可以根据具体情况具体划分。

在第一数据既包括视频，又包括图像的情况下，根据视频对图像进行划分。比如，在一种实现方式中，可以先对视频进行切分，将视频切分至多个集合中，每个集合中的数据代表一个事件；对于每个图像来说，计算该图像与多个集合中任意一个集合中的任意一个视频帧或任意多个视频帧之间的相似度，若相似度大于或等于第一阈值，则将该图像划分至该集合中，若相似度小于第一阈值，则将该图像与另一集合中的任意一个视频帧或任意多个视频帧之间的相似度，若相似度大于或等于第一阈值，则将该图像划分至此集合中，否则再计算该图像与另一集合中的任意一个视频帧或任意多个视频帧之间的相似度…如此遍历，直至找到该图像所归属的集合，若该图像不属于多个集合中的任一集合，则将该图像划分至一个独立的集合中。对于被划分至独立的集合中的图像，可以将所有独立的集合的图像之间进行相似度的计算，若相似度大于或等于第一阈值，则将这些相似度大于或等于第一阈值的集合(图像)合并为一个集合，相似度小于第一阈值的，保持不变。

又比如，在一种实现方式中，先对视频进行切分，将视频切分至多个集合中；再确定图像中包括的人物身份，将图像划分至包括该人物身份的集合中。又比如，分别对视频和图像进行处理，即，将视频进行切分至多个集合中，再将图像划分至另外的多个集合中，分别计算包含视频的集合中任一视频帧或任意多个视频帧与包含图像的集合中的任一图像或任意多个图像之间的相似度，根据相似度对包含视频的集合与包含图像的集合进行合并，等等。

在第一数据为文本的情况下，可以利用自然语言处理技术，根据文本内容确定哪些文本描述的是一个事件，将描述为一个事件的文本切分至一个集合中，从而将所有文本切分至m个集合中。

在第一数据既包括视频，又包括文本的情况下，可以分别对视频和文本进行处理，将视频切分至多个集合中，将文本切分至另外的多个集合中；从包含视频的多个集合中任取一个集合，从包含文本的多个集合中任取一个集合，计算包含视频的集合中携带的字幕内容或语音内容，与包含文本的集合中的文本的相似度，若相似度大于或等于第二阈值，则将这两个集合合并，否则不合并；再从包含视频的多个集合中任取一个集合，从包含文本的多个集合中任取一个集合，进行相同的计算…直至遍历所有集合和所有可能的组合。

在第一数据为语音的情况下，可以利用自然语言处理技术，根据语音内容确定哪些语音描述的是一个事件，将描述为一个事件的语音切分至一个集合中，从而将所有语音切分至m个集合中。

在第一数据既包括视频，又包括语音的情况下，可以分别对视频和语音进行处理，将视频切分至多个集合中，将语音切分至另外的多个集合中；从包含视频的多个集合中任取一个集合，从包含语音的多个集合中任取一个集合，计算包含视频的集合中携带的字幕内容或语音内容，与包含语音的集合中的语音内容的相似度，若相似度大于或等于第二阈值，则将这两个集合合并，否则不合并；再从包含视频的多个集合中任取一个集合，从包含语音的多个集合中任取一个集合，进行相同的计算…直至遍历所有集合和所有可能的组合。

对于第一数据中包括视频、图像、文本、语音中的至少两种的情况，将第一数据切分为m个集合的方法，上述仅仅用于举例，并不构成限定，本申请对具体划分方法不限定。

需要说明的是，切分后的m个集合中，每个集合中的数据包括视频、图像、文本、语音中的一种或多种。例如，参见图2所示的示例图，图2中，第一数据中包括多个视频、多个图像、多个文本、多段语音，对第一数据进行切分，即，对多个视频中的每一个视频进行切分，将每一个视频切分为一个或多个较小的视频，对多个图像进行切分，将各个图像划分至不同的集合中，对多个文本中的每个文本进行切分，将切分后的文本划分至不同的集合中，对多段语音中的每段语音进行切分，将切分后较小段的语音划分至不同的集合中，每个集合中的数据包括视频、图像、文本、语音中的一种或多种。图2仅仅用于解释说明，并不构成对本申请的任何限定。

S103、确定m个集合中的数据代表的m个事件之间的逻辑关系。

可选的，每个集合中的数据代表一个事件，先确定每个事件的标题，根据每个事件的标题确定m个事件之间的逻辑关系。

下面介绍一下如何确定每个事件的标题，以及如何根据各个时间的标题确定事件之间的逻辑关系。

在一种实现方式中，一个集合中包括视频，用文本描述视频中每个视频帧的内容，该步骤与用文本描述每个图像的内容类似，再根据每个视频帧的文本描述，利用算法进行计算，确定该视频的标题，即该集合代表的事件的标题。可选的，用文本描述每个视频帧的内容或每个图像的内容可以通过模型来实现，模型可基于大量视频帧或大量图像、标签训练得到，标签中包括每个视频帧或每个图像的文本描述。将视频输入训练好的模型中，可获得各个视频帧的文本描述。其中，模型可通过卷积神经网络、循环神经网络等方式实现，本申请对模型的具体实现方式和训练方式不做限定。对于集合中包括多个图像的情况，同样可以利用该方法确定多个图像代表的事件的标题。

在一种实现方式中，一个集合中包括视频，视频中携带有字幕或语音，可以根据字幕内容或语音内容，利用自然语言处理技术，确定出每个视频的标题，即该集合代表的事件的标题。对于集合中包括文本或语音的情况，可利用同样的方法确定文本代表的事件的标题或语音代表的事件的标题。

在确定出每个事件的标题后，将各个事件的标题输入逻辑关系预测模型中，获得各个事件之间的逻辑关系。其中逻辑关系预测模型可以基于大量事件的标题训练得到，可选的，也可以基于大量事件和标签得到，标签包括各个事件之间的逻辑关系，本申请对逻辑关系预测模型的训练方式不做限定。

可选的，确定每个事件的标题，根据每个事件的标题确定m个事件之间的逻辑关系，可以通过一个模型来实现。即，将每个集合中的数据均输入模型中，其中每个集合中的数据包括视频、图像、文本、语音等中的一种或多种，模型输出为各个集合之间的逻辑关系，即各个事件之间的逻辑关系。

其中，逻辑关系包括因果关系、时序关系中的一种或多种。其中，因果关系(causality 或causation)指的是原因和结果之间的关联关系。事件之间的因果关系指的是因为一个或多个事件导致另一个或多个事件，其中前一个或多个事件称为原因事件，后一个或多个事件称为结果事件，原因事件导致结果事件。通常来说，一个事件发生可能是一个原因造成的，有可能是多个原因造成的，即一个结果事件可能对应着一个原因事件，也可能对应着多个原因事件；一个原因可能导致一个结果，也可能导致多个结果，即一个原因事件可能对应着一个结果事件，有可能对应着多个结果事件。本申请对原因事件和结果事件之间的对应关系不做限定。例如，事件1为发生车祸，事件2为拨打110，则事件1与事件2之间是因果关系，其中事件1为因，事件2为果，因为“发生车祸”所以“拨打110”。

时序关系，指的是时间的先后顺序关系，事件之间的时序关系指的是多个事件只是在不同的时间发生的，事件之间没有明显的因果关系。例如，事件1为洗菜，事件2为切菜，事件3为煮米饭，事件1、事件2、事件3之间没有明显的因果关系(因为一个事件导致另一个事件)，可以认为事件1、事件2、事件3之间是时序关系。

可选的，逻辑关系还可以包括其他关系，比如，让步关系、转折关系等等，事件之间的逻辑关系可以由用户根据具体情况、具体需求自己设置，比如，用户在训练逻辑关系预测模型时，可以在样本中设置事件与事件之间的逻辑关系有哪些，以及如何定义该逻辑关系等，从而根据训练好的逻辑关系预测模型预测事件之间的逻辑关系，本申请不做限定。

S104、以m个事件中的每个事件分别为节点，m个事件之间的逻辑关系为节点的边，建立事理图谱。

以每个事件为节点，各个事件之间的逻辑关系为节点的边，建立事理图谱，其中每个节点上的数据即每个集合中的数据，包括视频、图像、文本、语音等中的一种或多种，各个事件之间的边为有向边，边的方向表示的是事件之间的逻辑关系，由原因事件指向结果事件，或者，由时间上先发生的事件指向后发生的事件(只是发生的时间不同，在时间上有先发生和后发生的顺序，没有因果关系)。

可以理解，因为存在因果关系的事件之间的对应关系多样化，可能是一个原因事件对应着多个结果事件，也可能是多个原因事件对应着一个结果事件，也可能是一个原因事件对应着一个结果事件，因此，建立的事理图谱中可能存在环状，也可能不存在环状，也就是说，建立好的事理图谱可以为有向有环图，也可以为有向无环图。另外，第一数据中包括多个人物的数据或多个事物的数据，多个事件表示的是多个人物或多个事物的事件，也就是说事件是发生在多个人物或多个事物上的，只是发生的时间先后不同，按照时间发生的先后顺序(即时序关系)建立的事理图谱也可能构成环状。

参见图3，图3为本申请提供的一种有向有环的事理图谱示意图。图3中，“开车”与“发生车祸”之间没有必然的因果关系，只是事件发生的时间不同，属于时序关系；“发生车祸”与“拨打120”、“拨打110”是因果关系，因为“发生车祸”，所以“拨打120”、“拨打110”；“发生车祸”与“车辆爆炸”是因果关系，“发生车祸”导致了“车辆爆炸”；而“车辆爆炸”与“拨打120”、“拨打110”也属于因果关系，因为“车辆爆炸”，所以“拨打120”、“拨打110”；“拨打120”与“医生救治伤员”属于因果关系，因为“拨打120”，所以才会有“医生救治伤员”事件。

参见图4，图4为本申请提供的一种有向无环事理图谱示意图，图4中，事理图谱是根据事件发生的先后顺序建立的，该事理图谱中的所有事件均是时序关系，事件之间并无因果关系，例如，“坐公交车”事件与“吃火锅”事件只是在不同的时间发生而已，同理，“看电影”与“吃爆米花”、“喝可乐”之间也无因果关系，“喝可乐”与“在海边玩耍”也无因为关系。

上述示例仅仅用于举例，并不构成对本申请的任何限定。

建立好的事理图谱，可以应用于任何终端设备上，例如终端设备可以是手机、台式电脑、笔记本、平板、穿戴设备等。可选的，将建立好的事理图谱安装在终端设备上，终端设备为用户提供查询功能，用户通过输入关键词，查询到目标内容，另外，基于建立好的事理图谱，终端设备还可以根据目标内容向用户推荐与目标内容相关的内容，例如，若用户查询的目标内容是原因事件，可终端设备基于事理图谱向用户推荐结果事件，若用户查询的目标内容是结果事件，可终端设备基于事理图谱向用户推荐原因事件，或者，终端设备向用户推荐与目标内容具有时序关系的事件，等等。

建立好的事理图谱可以应用于监控设备中，其中，事理图谱中设置了一个或多个报警事件，一个或多个报警事件可以位于事理图谱的一个节点上，也可以位于多个节点上，每个报警事件对应的数据包括视频、图像中的一种或多种。监控设备在对监控区域进行监控时，将获取到的监控区域的视频帧与每个报警事件中的视频帧或图像进行相似度的计算，若相似度大于或等于第一阈值，则确定监控区域发生了报警事件，监控设备触发报警操作，报警操作例如可以是监控设备发出鸣笛声，还可以是监控设备向相关人员发送提示信息，提示信息用于提示监控区域内发生了报警事件，等等。若相似度小于第一阈值，则不做处理。

参见图5，图5为本申请提供的又一种事理图谱建立方法的流程示意图，所述方法包括但不限定于以下内容的描述。

S201、获取第一数据，第一数据中包括视频、图像、文本、语音中的任意一种或者多种。

S202、将第一数据切分为n个集合，n个集合中的每个集合的数据代表一个事件。

步骤S201、S202可分别参考图1方法实施例中步骤S101、S102中相关内容的描述，为了说明书的简洁，在此不再赘述。

S203、对n个集合所代表的n个事件中的相似事件进行融合，获得m个集合，m个集合中的每个集合代表一类事件。

对n个集合进行融合，获得m个集合，m个集合中的每个集合中代表一类事件，一类事件可以包括一个事件，也可以包括多个事件，一类事件包括多个事件，指的是由n个事件中的两个或两个以上的事件融合得到的多个事件，其中n大于或等于m。

下面介绍一个如何进行融合。

在一种可能的实现方式中，n个集合中的每个集合中的数据代表一个事件，先确定每个事件的标题，然后根据各个事件的标题的相似度，对事件进行融合。其中，标题的相似度可以理解为，两个事件的标题中包含相同文本的数量是否大于或等于第三阈值，若大于或等于第三阈值，则进行融合，否则不融合。关于确定标题的方法，可参考图1方法实施例步骤S103中确定每个事件的标题相关内容的描述。

在一种可能的实现方式中，用多个关键词描述每个集合中的数据代表的事件，根据各个事件之间包含相同关键词的数量，对n个事件进行融合。例如，在两个事件包含相同关键词的数量大于或等于第三阈值的情况下，可以将两个事件进行合并，即将两个事件对应的集合合并，若包含相同关键词的数量小于第三阈值的情况下，则不合并，第三阈值可根据具体情况具体设置。

可选的，确定每个集合中的数据代表的事件的关键词的方法，与图1方法实施例步骤S103中确定每个事件的标题的方法类似，对于视频/图像来说，用文本描述视频中每个视频帧/图像的内容，再根据每个视频帧/图像的文本描述，利用算法进行计算，确定该视频/图像涉及的关键词；对于包括字幕或语音的视频、文本、语音来说，利用自然语言处理技术，确定关键词。确定每个集合中的数据代表的事件的关键词还可以通过其他方法，本申请不做限定。

在一种可能的实现方式中，可以根据各个集合的视频中携带的字幕内容或语音内容的相似度，对n个事件进行融合。例如，计算集合1中视频携带的字幕内容与集合2中视频携带的字幕内容的相似度，若相似度大于或等于第二阈值，则将集合1与集合2进行合并，若相似度小于第二阈值，则不合并。

在一种可能的实现方式中，可以根据各个集合的视频中是否包含相同的视频帧，若两个集合中包含相同的视频帧，则可以将两个集合进行合并，若不包含相同的视频帧，则不合并。

在一种可能的实现方式中，若两个集合的视频中存在相同的人或相同的物，则可以将两个集合合并，例如，集合1视频中包含有角色A的视频帧，集合2视频中也包含有角色A的视频帧，则两个集合可以合并；又例如，集合1视频中包含解说者B的视频帧，集合2视频中也包含解说者B的视频帧，则两个集合可以合并。若两个集合的视频中不包含相同的人或相同的物，则不合并。

S204、确定m个集合中的数据代表的m类事件之间的逻辑关系。

可选的，可以先确定m类事件中每类事件的标题，根据每类事件的标题确定m类事件之间的逻辑关系。确定每类事件的标题与确定每个事件的标题的方法类似，具体可参见图1方法实施例步骤S103中相关内容的描述。

S205、以m类事件中的每类事件分别为节点，m类事件之间的逻辑关系为节点的边，建立事理图谱。

关于本实施例中，未详尽的步骤可参考图1方法实施例中相关内容的描述，为了说明书的简洁，在此不再赘述。

下面以逻辑关系预测模型为例，介绍一下模型的训练、预测过程。参见图6，图6为本申请实施例提供了一种逻辑关系预测模型的训练、预测结构示意图。如图6所示，数据获取设备560用于获取训练数据，训练数据可以包括用于代表事件的视频、图像、文本、语音等中的一种或多种，训练数据还可以包括标签，标签中包括各个事件之间的逻辑关系，其中逻辑关系包括因果关系、时序关系等。

在获取到训练数据之后，数据获取设备560将这些训练数据存入数据库530中，数据库530可以实现对训练数据进行维护。训练设备520可以基于数据库530中的训练数据进行训练，从而获得训练好的逻辑关系预测模型513，将训练好的逻辑关系预测模型513移植至执行设备510上。可选，训练设备520可以独立于执行设备510存在，也可以集成于执行设备510内部。

用户可以通过执行设备510的输入输出I/O接口512输入需要预测的数据，比如，m个集合的数据，其中每个集合中的数据代表一类事件，或者，也可以通过数据获取设备560将m个集合的数据输入至数据库530中，然后执行设备510从数据库530中获取m个集合的数据，逻辑关系预测模型513对输入m个集合进行逻辑关系预测，确定出各个集合之间的逻辑关系，并将各个集合之间的逻辑关系通过输入输出I/O接口512输出。

需要说明的是，在实际的应用中，所述数据库530中维护的训练数据不一定都来自于数据获取设备560，也有可能是从其他设备获取得到的。另外需要说明的是，训练设备520也不一定完全基于数据库530维护的训练数据进行逻辑关系预测模型513的训练，也有可能从其他设备获取训练数据进行模型训练，上述描述不应该作为对本申请实施例的限定。

逻辑关系预测模型513可以应用在本申请图1或图5所示的方法实施例中。在执行设备510对输入数据进行处理，或者在执行设备510的计算模块511执行计算等相关的处理过程中，执行设备510可以调用数据存储系统550中的数据、代码等以用于相应的处理，也可以将相应处理得到的数据、指令等存入数据存储系统550中。

需要说明的是，训练设备520可以针对不同的目标，基于不同的训练数据生成相应的逻辑关系预测模型513，该相应的逻辑关系预测模型513可以用于实现上述目标，从而为用户提供所需的结果。

这里仅仅以逻辑关系预测模型为例说明，对于本申请中涉及的其他模型也可以通过图6所示的方法训练和预测，本申请不做限定。

参见图7，图7为本申请提供的一种建立事理图谱的装置700结构示意图，所述装置700包括：

获取模块701，用于获取第一数据，第一数据中包括视频、图像、文本、语音中的任意一种或者多种；

切分模块702，用于将第一数据切分为m个集合，m个集合中的每个集合的数据代表一类事件，一类事件包括至少一个事件，m为任意正整数；

确定模块703，用于确定m个集合中的数据代表的m类事件之间的逻辑关系；

事理图谱建立模块704，用于以m类事件中的每类事件分别为节点，m类事件之间的逻辑关系为节点的边，建立事理图谱。

在可能的实现方式中，第一数据中的视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。

在可能的实现方式中，节点中的数据包括视频、图像、文本、语音中的任意一种或者多种。

在可能的实现方式中，逻辑关系包括因果关系、时序关系的一种或多种。

在可能的实现方式中，确定模块703用于：根据训练好的逻辑关系预测模型，确定m个集合中的数据代表的m类事件之间的逻辑关系。

在可能的实现方式中，在第一数据为至少一个视频的情况下，且一类事件包括一个事件的情况下，切分模块702用于：

对于至少一个视频中的每个视频，根据(i)至(iii)中的一者或多者，对至少一个视频进行切分获得m个集合，其中，

(i)每个视频中相邻视频帧之间的相似度确定相邻视频帧描述的是否为一个事件，若是，将相邻视频帧切分至一个集合中，若否，将相邻视频帧切分至不同集合中，

(ii)每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将描述为一个事件的视频帧切分至一个集合中，

(iii)每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中。

在可能的实现方式中，在第一数据中为至少一个视频的情况下，且一类事件包括至少一个事件的情况下，切分模块702用于，将第一数据切分为n个集合，n个集合中的每个集合的数据代表一个事件，其中，n大于等于m；装置还包括融合模块705，融合模块705用于，对n个集合的数据所代表的n个事件中的相似事件进行融合，获得m个集合。

在可能的实现方式中，切分模块702用于：

对于至少一个视频中的每个视频，根据(iv)至(vi)中的一者或多者，对至少一个视频进行切分获得n个集合，其中，

(iv)每个视频中相邻视频帧之间的相似度确定相邻视频帧描述的是否为一个事件，若是，将相邻视频帧切分至一个集合中，若否，将相邻视频帧切分至不同集合中，

(v)每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将描述为一个事件的视频帧切分至一个集合中，

(vi)每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中；

融合模块705用于：根据条件(vii)至(x)中的任意一者或多者，对n个事件中的相似事件进行融合，其中，

(vii)根据各个事件的标题相似度或关键词相似度，

(ix)根据各个集合的视频中是否包含相同的视频帧，

(x)根据各个集合的视频中是否存在相同的人物身份。

在可能的实现方式中，装置700还包括：推荐模块706，用于根据用户的操作，基于建立好的事理图谱，向用户推荐相关内容。

其中，获取模块701、切分模块702、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706均可以通过软件实现，或者可以通过硬件实现。示例性的，接下来以切分模块702为例，介绍切分模块702的实现方式。类似的，获取模块701、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706的实现方式可以参考切分模块702的实现方式。

模块作为软件功能单元的一种举例，切分模块702可以包括运行在计算设备上的代码。其中，计算设备可以是云服务中的计算设备，其中计算设备例如可以是裸金属服务器、虚拟机，进一步地，计算设备可以是一台或多台。例如，切分模块702可以包括运行在多个计算设备上的代码。需要说明的是，用于运行该代码的多个计算设备可以分布在相同的区域(region)中，也可以分布在不同的region中。进一步地，用于运行该代码的多个计算设备可以分布在相同的可用区(availability zone，AZ)中，也可以分布在不同的AZ中，每个AZ包括一个数据中心或多个地理位置相近的数据中心。其中，通常一个区域region可以包括多个可用区AZ。

同样，用于运行该代码的多个计算设备可以分布在同一个虚拟私有云(virtual private cloud，VPC)中，也可以分布在多个VPC中。其中，通常一个VPC设置在一个region内，同一region内两个VPC之间，以及不同region的VPC之间跨区通信需在每个VPC内设置通信网关，经通信网关实现VPC之间的互连。

模块作为硬件功能单元的一种举例，切分模块702可以包括至少一个计算设备，如服务器、计算机、手机等。或者，A模块也可以是利用专用集成电路(application-specific integrated circuit，ASIC)实现、或可编程逻辑器件(programmable logic device，PLD)实现的设备等。其中，上述PLD可以是复杂程序逻辑器件(complex programmable logical device，CPLD)、现场可编程门阵列(field-programmable gate array，FPGA)、通用阵列逻辑(generic array logic，GAL)或其任意组合实现。

切分模块702包括的多个计算设备可以分布在相同的region中，也可以分布在不同的region中。切分模块702包括的多个计算设备可以分布在相同的AZ中，也可以分布在不同的 AZ中。同样，切分模块702包括的多个计算设备可以分布在同一个VPC中，也可以分布在多个VPC中。其中，所述多个计算设备可以是服务器、虚拟机、ASIC、PLD、CPLD、FPGA和GAL等计算设备的任意组合。

需要说明的是，在其他实施例中，切分模块702可以用于执行一种事理图谱建立方法中的任意步骤，获取模块701、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706均可以用于执行一种事理图谱建立方法中的任意步骤,获取模块701、切分模块702、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706负责实现的步骤可根据需要指定，通过获取模块701、切分模块702、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706分别实现一种事理图谱建立方法中不同的步骤，来实现建立事理图谱的装置700的全部功能。

参见图8，图8为本申请提供的一种计算设备800的结构示意图，计算设备800例如裸金属服务器、虚拟机，该计算设备800可以配置为建立事理图谱的设备，建立事理图谱的设备可以为手机、计算机、平板、服务器，计算设备800包括：总线802、处理器804、存储器806和通信接口808。处理器804、存储器806和通信接口808之间通过总线802通信。计算设备800可以是服务器或终端设备。应理解，本申请不限定计算设备800中的处理器、存储器的个数。

总线802可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图8中仅用一条线表示，但并不表示仅有一根总线或一种类型的总线。总线802可包括在计算设备800各个部件(例如，存储器806、处理器804、通信接口808)之间传送信息的通路。

处理器804可以包括中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

存储器806可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。处理器804还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard disk drive，HDD)或固态硬盘(solid state drive，SSD)。

存储器806中存储有可执行的程序代码，处理器804执行该可执行的程序代码以分别实现前述获取模块701、切分模块702、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706的功能，从而实现一种事理图谱建立方法。也即，存储器806上存有用于执行一种事理图谱建立方法的指令。

通信接口808使用例如但不限于网络接口卡、收发器一类的收发模块，来实现计算设备800与其他设备或通信网络之间的通信。

本申请实施例还提供了一种计算设备集群。该计算设备集群包括至少一台计算设备。该计算设备可以是手机、计算机、笔记本、平板、服务器，服务器例如可以是中心服务器、边缘服务器，或者是本地数据中心中的本地服务器。

如图9所示，图9为本申请提供的一种计算设备集群的结构示意图，所述计算设备集群包括至少一个计算设备800。计算设备集群中的一个或多个计算设备800中的存储器806中可以存有相同的用于执行一种事理图谱建立方法的指令。

在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备800的存储器806中也可以分别存有用于执行一种事理图谱建立方法的部分指令。换言之，一个或多个计算设备800的组合可用于共同执行一种事理图谱建立方法的指令。

需要说明的是，计算设备集群中的不同的计算设备800中的存储器806可以存储不同的指令，分别用于执行事理图谱建立方法的部分功能。也即，不同的计算设备800中的存储器806存储的指令可以实现获取模块701、切分模块702、确定模块703、事理图谱建立模块704、融合模块705和推荐模块706中的一个或多个模块的功能。

在一些可能的实现方式中，计算设备集群中的一个或多个计算设备可以通过网络连接。其中，所述网络可以是广域网或局域网等等。图10示出了一种可能的实现方式。如图10所示，两个计算设备800A和800B之间通过网络进行连接。具体地，通过各个计算设备中的通信接口与所述网络进行连接。在这一类可能的实现方式中，计算设备800A中的存储器806中存有执行获取模块701、切分模块702、融合模块705的功能的指令。同时，计算设备800B中的存储器806中存有执行确定模块703、事理图谱建立模块704和推荐模块706的功能的指令。计算设备800A用于获取第一数据，并对第一数据进行切分处理或融合处理，并将切分或融合处理后的数据通过网络发送至计算设备800B，计算设备800B确定处理后的数据之间的逻辑关系，并基于这些数据及这些数据之间的逻辑关系建立事理图谱，基于建立好的事理图谱向用户推荐相关内容。

应理解，图10中示出的计算设备800A的功能也可以由多个计算设备800完成，或者云服务平台中包括多个与计算设备800A具有相同功能的计算设备。同样，计算设备800B的功能也可以由多个计算设备800完成，或者云服务平台中包括多个与计算设备800B具有相同功能的计算设备。

本申请实施例还提供了另一种计算设备集群。该计算设备集群中各计算设备之间的连接关系可以类似的参考图9和图10所述计算设备集群的连接方式。不同的是，该计算设备集群中的一个或多个计算设备800中的存储器806中可以存有不同的用于执行一种事理图谱建立方法的指令。在一些可能的实现方式中，该计算设备集群中的一个或多个计算设备800的存储器806中也可以分别存有用于执行一种事理图谱建立方法的部分指令。换言之，一个或多个计算设备800的组合可以共同执行用于执行一种事理图谱建立方法的指令。

本申请实施例还提供了一种包含指令的计算机程序产品。所述计算机程序产品可以是包含指令的，能够运行在计算设备上或被储存在任何可用介质中的软件或程序产品。当所述计算机程序产品在至少一个计算设备上运行时，使得至少一个计算设备执行一种事理图谱建立方法。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备或计算设备集群执行一种事理图谱建立方法。

以上实施例仅用以说明本发明的技术方案，而非对其限制；尽管参照前述实施例对本发明进行了详细的说明，本领域的普通技术人员应当理解：其依然可以对前述各实施例所记载的技术方案进行修改，或者对其中部分技术特征进行等同替换；而这些修改或者替换，并不使相应技术方案的本质脱离本发明各实施例技术方案的保护范围。

Claims

一种事理图谱建立方法，其特征在于，包括：

获取第一数据，所述第一数据中包括视频、图像、文本、语音中的任意一种或者多种；

将所述第一数据切分为m个集合，所述m个集合中的每个集合的数据代表一类事件，所述一类事件包括至少一个事件，m为任意正整数；

确定所述m个集合中的数据代表的m类事件之间的逻辑关系；

以所述m类事件中的每类事件分别为节点，所述m类事件之间的逻辑关系为所述节点的边，建立事理图谱。
根据权利要求1所述的方法，其特征在于，所述第一数据中的视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。
根据权利要求1或2所述的方法，其特征在于，所述节点中的数据包括视频、图像、文本、语音中的任意一种或者多种。
根据权利要求1-3任一项所述的方法，其特征在于，所述逻辑关系包括因果关系、时序关系的一种或多种。
根据权利要求1-4任一项所述的方法，其特征在于，所述确定所述m个集合中的数据代表的m类事件之间的逻辑关系，包括：

根据训练好的逻辑关系预测模型，确定所述m个集合中的数据代表的m类事件之间的逻辑关系。
根据权利要求1-5任一项所述的方法，其特征在于，在所述第一数据为至少一个视频的情况下，且所述一类事件包括一个事件的情况下，

所述将所述第一数据切分为m个集合，包括：

对于所述至少一个视频中的每个视频，根据(i)至(iii)中的一者或多者，对所述至少一个视频进行切分获得所述m个集合，其中，

(i)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(ii)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(iii)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中。
根据权利要求1-5任一项所述的方法，其特征在于，在所述第一数据中为至少一个视频的情况下，且所述一类事件包括至少一个事件的情况下，

所述将所述第一数据切分为m个集合，包括：

将所述第一数据切分为n个集合，所述n个集合中的每个集合的数据代表一个事件，其中，n大于等于m；

对所述n个集合的数据所代表的n个事件中的相似事件进行融合，获得所述m个集合。
根据权利要求7所述的方法，其特征在于，所述将所述第一数据切分为n个集合，包括：

对于所述至少一个视频中的每个视频，根据(iv)至(vi)中的一者或多者，对所述至少一个视频进行切分获得所述n个集合，其中，

(iv)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(v)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(vi)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中；

所述对所述n个集合的数据所代表的n个事件中的相似事件进行融合，包括：

根据条件(vii)至(x)中的任意一者或多者，对所述n个事件中的相似事件进行融合，其中，

(vii)根据各个事件的标题相似度或关键词相似度，

(viii)根据各个集合的视频中携带的字幕内容或语音内容的相似度，

(ix)根据各个集合的视频中是否包含相同的视频帧，

(x)根据各个集合的视频中是否存在相同的人物身份。
根据权利要求1-8任一项所述的方法，其特征在于，所述方法还包括：

根据用户的操作，基于建立好的事理图谱，向用户推荐相关内容。
一种建立事理图谱的装置，其特征在于，包括：

获取模块，用于获取第一数据，所述第一数据中包括视频、图像、文本、语音中的任意一种或者多种；

切分模块，用于将所述第一数据切分为m个集合，所述m个集合中的每个集合的数据代表一类事件，所述一类事件包括至少一个事件，m为任意正整数；

确定模块，用于确定所述m个集合中的数据代表的m类事件之间的逻辑关系；

事理图谱建立模块，用于以所述m类事件中的每类事件分别为节点，所述m类事件之间的逻辑关系为所述节点的边，建立事理图谱。
根据权利要求10所述的装置，其特征在于，所述第一数据中的视频包括影视节目视频、新闻报道视频、广告视频、摄录视频中的任意一种或多种。
根据权利要求10或11所述的装置，其特征在于，所述节点中的数据包括视频、图像、文本、语音中的任意一种或者多种。
根据权利要求10-12任一项所述的装置，其特征在于，所述逻辑关系包括因果关系、时序关系的一种或多种。
根据权利要求10-13任一项所述的装置，其特征在于，所述确定模块用于：

根据训练好的逻辑关系预测模型，确定所述m个集合中的数据代表的m类事件之间的逻辑关系。
根据权利要求10-14任一项所述的装置，其特征在于，在所述第一数据为至少一个视频的情况下，且所述一类事件包括一个事件的情况下，

所述切分模块用于：

对于所述至少一个视频中的每个视频，根据(i)至(iii)中的一者或多者，对所述至少一个视频进行切分获得所述m个集合，其中，

(i)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(ii)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(iii)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中。
根据权利要求10-14任一项所述的装置，其特征在于，

在所述第一数据中为至少一个视频的情况下，且所述一类事件包括至少一个事件的情况下，所述切分模块用于，将所述第一数据切分为n个集合，所述n个集合中的每个集合的数据代表一个事件，其中，n大于等于m；

所述装置还包括融合模块，所述融合模块用于，对所述n个集合的数据所代表的n个事件中的相似事件进行融合，获得所述m个集合。
根据权利要求16所述的装置，其特征在于，所述切分模块用于：

对于所述至少一个视频中的每个视频，根据(iv)至(vi)中的一者或多者，对所述至少一个视频进行切分获得所述n个集合，其中，

(iv)所述每个视频中相邻视频帧之间的相似度确定所述相邻视频帧描述的是否为一个事件，若是，将所述相邻视频帧切分至一个集合中，若否，将所述相邻视频帧切分至不同集合中，

(v)所述每个视频中携带的字幕内容或语音内容确定描述为一个事件的视频帧，将所述描述为一个事件的视频帧切分至一个集合中，

(vi)所述每个视频中的人物身份，将包含一个指定人物身份的视频帧切分至一个集合中，或者，将包含多个指定人物身份的视频帧切分至一个集合中；

所述融合模块用于：

根据条件(vii)至(x)中的任意一者或多者，对所述n个事件中的相似事件进行融合，其中，

(vii)根据各个事件的标题相似度或关键词相似度，

(viii)根据各个集合的视频中携带的字幕内容或语音内容的相似度，

(ix)根据各个集合的视频中是否包含相同的视频帧，

(x)根据各个集合的视频中是否存在相同的人物身份。
根据权利要求10-17任一项所述的装置，其特征在于，所述装置还包括：

推荐模块，用于根据用户的操作，基于建立好的事理图谱，向用户推荐相关内容。
一种计算设备集群，其特征在于，包括至少一个计算设备，所述至少一个计算设备中的每个计算设备包括存储器和处理器，所述存储器用于存储指令，所述处理器用于运行所述至少一个计算设备的存储器中存储的指令，以使所述计算设备集群执行如权利要求1至9任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括计算机程序指令，当所述计算机程序指令在计算设备集群上运行时，使得所述计算机集群执行如权利要求1至9任一项所述的方法。