WO2020103899A1

WO2020103899A1 - 用于生成图文信息的方法和用于生成图像数据库的方法

Info

Publication number: WO2020103899A1
Application number: PCT/CN2019/119914
Authority: WO
Inventors: 齐镗泉
Original assignee: 连尚（新昌）网络科技有限公司
Priority date: 2018-11-23
Filing date: 2019-11-21
Publication date: 2020-05-28
Also published as: CN109697239B; CN109697239A

Abstract

本申请实施例公开了用于生成图文信息的方法和用于生成图像数据库的方法。该用于生成图文信息方法的一具体实施方式包括：从待配图信息中获取标题关键词和内容主题；从图像数据库中选取与标题关键词和内容主题匹配的图像，其中，图像数据库基于图像描述生成；将选取的图像插入待配图信息中，生成目标图文信息。该实施方式有助于降低配图成本。

Description

用于生成图文信息的方法和用于生成图像数据库的方法

技术领域

本申请涉及计算机技术领域，具体涉及用于生成图文信息的方法和用于生成图像数据库的方法。

背景技术

互联网技术的快速发展与移动终端的普及改变了传统资讯(例如新闻)展示平台与内容展现形式。与传统的纯文本资讯信息相比，图文并茂的资讯信息更能吸引读者的注意。

相关技术中通过人工配图实现图文并茂的资讯信息，然而人工配图是一件费时费力并且低效的工作。

发明内容

本申请实施例提出了用于生成图文信息的方法和用于生成图像数据库的方法。

第一方面，本申请的一些实施例提供了一种用于生成图文信息的方法，该方法包括：从待配图信息中获取标题关键词和内容主题；从图像数据库中选取与标题关键词和内容主题匹配的图像，其中，图像数据库基于图像描述生成；将选取的图像插入待配图信息中，生成目标图文信息。

第二方面，本申请的一些实施例提供了一种用于生成图文信息的方法，该方法包括：从待配图信息中获取标题关键词和内容主题；基于标题关键词和内容主题确定待选取图像的类别；从至少一个图像数据库中选取与类别匹配的图像数据库；从选取的图像数据库中选取与标题关键词和内容主题匹配的图像，其中，至少一个图像数据库是基于图像描述生成；将选取的图像插入待配图信息中，生成目标图文信息。

第三方面，本申请的一些实施例提供了一种用于生成图像数据库的方法，该方法包括：获取图像集合，图像集合中的图像为图文信息中的配图；对于图像集合中的图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词；基于图像集合和所提取的图像关键词，生成图像数据库。

第四方面，本申请的一些实施例提供了一种电子设备，包括：一个或多个处理器；存储装置，其上存储有一个或多个程序，当一个或多个程序被一个或多个处理器执行，使得一个或多个处理器实现如第一方面至第三方面描述的方法。

第五方面，本申请的一些实施例提供了一种计算机可读介质，其上存储有计算机程序，该计算机程序被处理器执行时实现如第一方面至第三方面描述的方法。

本申请实施例提供的用于生成图文信息的方法和用于生成图像数据库的方法，通过从待配图信息中获取标题关键词和内容主题，之后从基于图像描述生成的图像数据库中选取与标题关键词和内容主题匹配的图像，最后将选取的图像插入待配图信息中生成目标图文信息，从而有助于降低配图成本。

附图说明

通过阅读参照以下附图所作的对非限制性实施例所作的详细描述，本申请的其它特征、目的和优点将会变得更明显：

图1是本申请一些实施例可以应用于其中的示例性系统架构图；

图2是根据本申请的用于生成图像数据库的方法的一个实施例的流程图；

图3是根据本申请的用于生成图像数据库的方法的一个应用场景的示意图；

图4是根据本申请的用于生成图文信息的方法的一个实施例的流程图；

图5是根据本申请的用于生成图文信息的方法的一个实施例的流程图；

图6是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图；

图7是适于用来实现本申请实施例的电子设备的计算机系统的结构示意图。

具体实施方式

下面结合附图和实施例对本申请作进一步的详细说明。可以理解的是，此处所描述的具体实施例仅仅用于解释相关发明，而非对该发明的限定。另外还需要说明的是，为了便于描述，附图中仅示出了与有关发明相关的部分。

需要说明的是，在不冲突的情况下，本申请中的实施例及实施例中的特征可以相互组合。下面将参考附图并结合实施例来详细说明本申请。

如图1所示，系统架构100可以包括服务器101、103和网络102。网络102用以在服务器101和103之间提供通信链路的介质。网络102可以包括各种连接类型，例如有线、无线通信链路或者光线电缆等等。

服务器101可以是用于生成图像数据库的服务器。服务器101可以获取图像集合(例如，从服务器103获取图像集合)，之后获取每个图像的描述信息并从中提取图像关键词，生成图像与图相关词相对应的图像数据库。

服务器101还可以是对资讯信息进行配图的服务器。服务器101可以从资讯信息中获取标题关键词和内容主题，并从基于图像描述生成的图像数据库中选择匹配的图像插入资讯信息中生成图文并茂的资讯信息。

服务器102可以是储存有图像或图文信息的服务器。

需要说明的是，本申请实施例所提供的用于生成图像数据库的方法或用于生成图文信息的方法一般由服务器101执行。

需要说明的是，服务器101、103可以是硬件，也可以是软件。当服务器101、103为硬件时，可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。当服务器为软件时，可以实现成多个软件或软件模块(例如用来提供分布式服务)，也可以实现成单个软件或软件模块。在此不做具体限定。

需要指出的是，服务器101的本地也可以直接存储图像集合，服务器101可以直接获取本地的图像集合。此时，示例性系统架构100可以不包括服务器103。

应该理解，图1中的网络和服务器的数目仅仅是示意性的。根据实现需要，可以具有任意合适数目的网络和服务器。

继续参考图2，示出了根据本申请的用于生成图像数据库的方法的一个实施例的流程200。该用于生成图像数据库的方法，可以包括以下步骤201～203。

步骤201，获取图像集合。

在本实施例中，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以从本地或远程获取图像集合。其中，图像集合中的图像可以是图文信息中的配图。图文信息可以包括文本内容和配图。例如，图文信息可以是新闻、博文等资讯信息。

这里，图像集合中的图像可以是上述执行主体或不同于上述执行主体的服务器从存储图像或图文信息的服务器中获取。例如，通过网络爬虫从网页服务器中的网页中爬取配图。

步骤202，对于图像集合中的每个图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词。

在本实施例中，对于图像集合中的每个图像，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以首先获取该图像的描述信息，然后从获取的描述信息中提取至少一个关键词作为该图像的图像关键词。图像的描述信息可以是对图像中包含的特征(例如，图像中的场景、显著性物体等)的文字表述。这里，可以利用分词技术从描述信息中提取关键词。

在本实施例的一些可选的实现方式中，可以通过如下步骤获取图像的描述信息：对图像进行图像识别(例如通过图像识别模型)，然后根据图像识别结果生成图像的描述信息。作为示例，对于某一图像，经过图像识别，可以确定图像的场景为客厅以及图像中的显著性物体为一把椅子，则该图像的描述信息可以为“客厅中有一把椅子”。

在本实施例的一些可选的实现方式中，可以通过图像描述技术(Image Caption Technique)来获取图像的描述信息。例如，可以将图像输入到训练好的图像描述模型中，得到与输入图像对应的描述信息。这里，图像描述模型可以用于表征输入图像与描述信息之间的对应关系。该示例中，可以采用LSTM(Long Short-Term Memory，长短期记忆网络)单元的编码器框架作为图像描述模型。

可选地，上述图像描述模型可以通过如下步骤训练得到：

首先，从预先生成的图像描述数据库中获取多个图像以及与每个图像对应的描述信息。其中，图像描述数据库中存储有图像和与图像对应的描述信息。

然后，将上述多个图像中的每个图像作为输入，将与输入图像对应的描述信息作为输出，利用机器学习的方法对初始图像描述模型进行训练，得到图像描述模型。

可选地，上述图像描述数据库可以通过如下步骤生成：

首先，从本地或远程获取图文信息集合。

之后，对于上述图文信息集合中的每个图文信息，获取该图文信息中的配图以及从该图文信息的文本内容中提取与配图对应的描述信息。

最后，将配图及其对应的描述信息对应地进行存储，建立图像描述数据库。

在本实施例的一些可选的实现方式中，每个图像的描述信息可以是自然语言描述的句子。上述至少一个关键词可以包括自然语言描述的句子中所包含的名词和/或形容词。对应地，对于图像集合中的每个图像，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词，可以包括如下两步：

第一步，对自然语言描述的句子进行分词，得到该自然语言描述的句子所包含的名词和/或形容词。

第二步，将上述名词和/或形容词提取为该图像的图像关键词。

作为示例，一图像的描述信息为“客厅中有一把椅子”，对该句子进行分词处理，得到其中包含的名词“客厅”、“椅子”，则可以将“客厅”、“椅子”这两个关键词提取为该图像的图像关键词。

步骤203，基于图像集合和所提取的图像关键词，生成图像数据库。

在本实施例中，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以使用图像集合和步骤202所提取的图像关键词建立图像数据库。作为示例，可以将上述图像集合中的每个图像及其图像关键词对应地进行存储，建立图像数据库。

继续参考图3，其示出了根据本申请的用于生成图像数据库的方法的一个应用场景300。在图3的应用场景300中，服务器302从本地获取图像集合，其中图像301为图像集合中的一个图像。之后，将图像301输入到训练好的图像描述模型中，得到描述信息“一朵黄色的花矗立于荒野”。对上述描述信息进行分词处理，获取其中的名词“花”、“荒野”和形容词“黄色”，并由上述三个关键词组成图像301的图像关键词(即，“花”、“荒野”、“黄色”)。然后，将图像301和图像关键词“花”、“荒野”、“黄色”作为一条数据记录存储到数据库中。类似地，对图像集合中的其他图像进行同样的处理和存储，最终得到图像数据库。

本申请实施例提供的用于生成图像数据库的方法，通过收集图文信息中的配图，之后获取每个配图的描述信息，并从描述信息中提取图像关键词，最后基于收集的配图和提取的图像关键词生成图像数据库，从而有助于降低配图成本。

进一步参考图4，示出了根据本申请的用于生成图像数据库的方法的另一实施例的流程400。该用于生成图像数据库的方法，可以包括以下步骤401～405。

步骤401，获取图像集合。

步骤402，对于图像集合中的每个图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词。

步骤403，确定图像集合中不同图像的图像关键词之间的相似度。

在本实施例中，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以确定图像集合中不同图像的图像关键词之间的相似度。作为示例，对于图像集合中的任意两个图像A和B，可以计算图像A的图像关键词与图像B的图像关键词之间的相似度。

步骤404，基于不同图像的图像关键词之间的相似度，对图像集合中的图像进行分类，得到至少一个子图像集合。

在本实施例中，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以利用不同图像的图像关键词之间的相似度大小对上述图像集合中的各个图像进行分类(例如，通过聚类进行分类)，得到至少一个子图像集合(每个子图像集合代表一个类别的图像)。

步骤405，生成与至少一个子图像集合分别对应的至少一个图像数据库。

在本实施例中，对于上述至少一个子图像集合中的每个子图像集合，用于生成图像数据库的方法的执行主体(例如图1的服务器101)可以将该子图像集合中的每个图像及其图像关键词对应地进行存储，得到与该子图像集合对应的图像数据库。

作为示例，图像集合包括100万个图像，利用图像关键词之间的相似度可以将该图像集合划分为1000个子图像集合(假定每个子图像集合包括1000个图像)，进而建立1000个图像数据库。若仅建立一个图像数据库时，则获取一个图像最多需要匹配100万次。相比之下，本实施例中获取一个图像最多需要匹配2000次(确定匹配的图像数据库最多需要匹配1000次，检索匹配的数据库最多需要匹配1000次)，从而有效提高了检索图像的效率。

从图4中可以看出，与图2对应的实施例相比，本实施例中的用于生成图像数据库的方法的流程400体现了利用图像关键词之间的相似度对图像进行分类以及根据不同类别的图像建立不同的图像数据库的步骤。由此，本实施例描述的方案可以有效提高检索图像的效率。

进一步参考图5，其示出了根据本申请的用于生成图文信息的方法的一个实施例的流程500。该用于生成图文信息的方法可以包括以下步骤501～503。

步骤501，从待配图信息中获取标题关键词和内容主题。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以从待配图信息中获取标题关键词和内容主题。这里，待配图信息可以是需要进行配图的资讯信息(例如，仅包含文本内容的新闻)。

在本实施例的一些可选的实现方式中，步骤501具体可以包括以下步骤：

首先，获取待配图信息的标题和文本内容。

之后，利用分词技术从标题中提取关键词作为标题关键词。

然后，将文本内容输入到训练好的文本主题模型中，得到待配图信息的内容主题。其中，内容主题可以包括主题关键词。这里，文本主题模型可以表征文本内容与内容主题之间的对应关系。

文本主题模型是对文字中隐含主题的一种建模方法。一般认为一篇文章的每个词都是通过“以一定概率选择了某个主题，并从这个主题中以一定概率选择某个词语”。文本主题模型训练方法可以包括LSA(Latent semantic analysis，隐性语义分析)、pLSA(Probabilistic latent semantic analysis，概率隐性语义分析)、LDA(Latent Dirichlet allocation，隐狄利克雷分配)等。文本主题模型的训练是目前广泛研究和应用的公知技术，在此不再赘述。

步骤502，从图像数据库中选取与标题关键词和内容主题匹配的图像。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以图像数据库中选取与步骤502获取的标题关键词和内容主题相匹配的图像。其中，图像数据库是基于图像描述生成的。

在本实施例的一些可选的实现方式中，步骤502具体可以包括如下步骤：首先，确定图像数据库所包括的图像的图像关键词与上述标题关键词和上述内容主题的相似度；然后，选取相似度大于或等于预设阈值的图像。作为示例，可以从图像数据库中选取图像关键词与标题关键词和内容主题的相似度大于或等于相似度阈值(例如90％)的图像。

在本实施例的一些可选的实现方式中，图像数据库具体可以通过如下三个步骤生成：

第一步，获取图像集合。其中，图像集合中的图像为图文信息中的配图。

第二步，对于图像集合中的每个图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词。

第三步，基于图像集合和所提取的图像关键词，生成图像数据库。

上述第一步至第三步的具体描述可以参考图2对应的实施例中关于步骤201～步骤203的具体描述，在此不做赘述。

可选地，可以通过图像描述技术(Image Caption Technique)来获取图像的描述信息。例如，可以将图像输入到训练好的图像描述模型中，得到与输入图像对应的描述信息。这里，图像描述模型可以用于表征输入图像与描述信息之间的对应关系。该示例中，可以采用LSTM(Long Short-Term Memory，长短期记忆网络)单元的编码器框架作为图像描述模型。

可选地，上述图像描述模型可以通过如下步骤训练得到：

可选地，上述图像描述数据库可以通过如下步骤生成：

首先，从本地或远程获取图文信息集合。

步骤503，将选取的图像插入待配图信息中，生成目标图文信息。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以将选取的图像按照预设的插入规则(例如，插入图像关键词所在的段落之后等)插入到待配图信息中，生成图文并茂的资讯信息。

本申请实施例提供的用于生成图文信息的方法，通过获取待配图信息的标题关键词和内容主题，之后从基于图像描述生成的图像数据库中选取匹配的图像，最后将选取的图像插入待配图信息中生成目标图文信息，从而有助于降低配图成本。

进一步参考图6，其示出了根据本申请的用于生成图文信息的方法的另一实施例的流程600。该用于生成图文信息的方法可以包括以下步骤601～605。

步骤601，从待配图信息中获取标题关键词和内容主题。

获取标题关键词和内容主题的具体步骤可以参考图5对应的实施例中关于获取标题关键词和内容主题的具体步骤的描述，在此不再赘述。

步骤602，基于标题关键词和内容主题确定待选取图像的类别。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以基于标题关键词和内容主题确定待选取图像的类别。作为示例，可以将步骤601获取的标题关键词和内容主题进行融合，确定待选取的图像的类别。

步骤603，从至少一个图像数据库中选取与类别匹配的图像数据库。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以从至少一个图像数据库中选取与步骤602确定的类别相匹配的图像数据库。其中，上述至少一个图像数据库是基于图像描述生成的。

在本实施例的一些可选的实现方式中，图像数据库具体可以通过如下五个步骤生成：

第三步，确定图像集合中不同图像的图像关键词之间的相似度。

第四步，基于不同图像的图像关键词之间的相似度，对图像集合中的图像进行分类，得到至少一个子图像集合。

第五步，生成与上述至少一个子图像集合中分别对应的至少一个图像数据库。

上述第一步至第五步的具体描述可以参考图4对应的实施例中关于步骤401～步骤405的具体描述，在此不做赘述。

步骤604，从选取的图像数据库中选取与标题关键词和内容主题匹配的图像。

在本实施例中，用于生成图文信息的方法的执行主体(例如图1的服务器101)可以步骤603选取的图像数据库中选取与标题关键词和内容主题匹配的图像。作为示例，可以从选取的图像数据库中选取图像关键词与标题关键词和内容主题的相似度大于或等于相似度阈值(例如90％)的图像。

步骤605，将选取的图像插入待配图信息中，生成目标图文信息。

从图6中可以看出，与图5对应的实施例相比，本实施例中的用于生成图文信息的方法的流程600体现了利用标题关键词和内容主题确定的类别选取匹配的图像数据库以及从匹配的图像数据库中选取图像的步骤。由此，本实施例描述的方案可以有效提高配图效率。

下面参考图7，其示出了适于用来实现本申请实施例的电子设备(例如图1的服务器101)的计算机系统700的结构示意图。图7示出的电子设备仅仅是一个示例，不应对本申请实施例的功能和使用范围带来任何限制。

如图7所示，计算机系统700包括一个或多个中央处理单元(CPU)701，其可以根据存储在只读存储器(ROM)702中的程序或者从存储部分708加载到随机访问存储器(RAM)703中的程序而执行各种适当的动作和处理。在RAM 703中，还存储有系统700操作所需的各种程序和数据。CPU 701、ROM 702以及RAM 703通过总线704彼此相连。输入/输出(I/O)接口705也连接至总线704。

以下部件连接至I/O接口705：包括鼠标、键盘等的输入部分706；包括诸如有机发光二极管(OLED)显示器、液晶显示器(LCD)等以及扬声器等的输出部分707；包括硬盘等的存储部分708；以及包括诸如LAN卡、调制解调器等的网络接口卡的通信部分709。通信部分709经由诸如因特网的网络执行通信处理。驱动器710也根据需要连接至I/O接口705。可拆卸介质711，诸如磁盘、光盘、磁光盘、半导体存储器等等，根据需要安装在驱动器710上，以便于从其上读出的计算机程序根据需要被安装入存储部分708。

特别地，根据本公开的实施例，上文参考流程图描述的过程可以被实现为计算机软件程序。例如，本公开的实施例包括一种计算机程序产品，其包括承载在计算机可读介质上的计算机程序，该计算机程序包含用于执行流程图所示的方法的程序代码。在这样的实施例中，该计算机程序可以通过通信部分709从网络上被下载和安装，和/或从可拆卸介质711被安装。在该计算机程序被中央处理单元(CPU)701执行时，执行本申请的方法中限定的上述功能。

需要说明的是，本申请所述的计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质或者是上述两者的任意组合。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线、或半导体的系统、装置或器件，或者任意以上的组合。计算机可读存储介质的更具体的例子可以包括但不限于：具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机访问存储器(RAM)、只读存储器(ROM)、可擦式可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件、或者上述的任意合适的组合。在本申请中，计算机可读存储介质可以是任何包含或存储程序的有形介质，该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。而在本申请中，计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号，其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式，包括但不限于电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质，该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。计算机可读介质上包含的程序代码可以用任何适当的介质传输，包括但不限于：无线、电线、光缆、RF等等，或者上述的任意合适的组合。

可以以一种或多种程序设计语言或其组合来编写用于执行本申请的操作的计算机程序代码，所述程序设计语言包括面向对象的程序设计语言-诸如 Java、Smalltalk、C++，还包括常规的过程式程序设计语言-诸如“C”语言或类似的程序设计语言。程序代码可以完全地在用户计算机上执行、部分地在用户计算机上执行、作为一个独立的软件包执行、部分在用户计算机上部分在远程计算机上执行、或者完全在远程计算机或服务器上执行。在涉及远程计算机的情形中，远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)-连接到用户计算机，或者，可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。

附图中的流程图和框图，图示了按照本申请各种实施例的系统、方法和计算机程序产品的可能实现的体系架构、功能和操作。在这点上，流程图或框图中的每个方框可以代表一个模块、程序段、或代码的一部分，该模块、程序段、或代码的一部分包含一个或多个用于实现规定的逻辑功能的可执行指令。也应当注意，在有些作为替换的实现中，方框中所标注的功能也可以以不同于附图中所标注的顺序发生。例如，两个接连地表示的方框实际上可以基本并行地执行，它们有时也可以按相反的顺序执行，这依所涉及的功能而定。也要注意的是，框图和/或流程图中的每个方框、以及框图和/或流程图中的方框的组合，可以用执行规定的功能或操作的专用的基于硬件的系统来实现，或者可以用专用硬件与计算机指令的组合来实现。

作为另一方面，本申请还提供了一种计算机可读介质，该计算机可读介质可以是上述实施例中描述的服务器中所包含的；也可以是单独存在，而未装配入该服务器中。上述计算机可读介质承载有一个或者多个程序，当上述一个或者多个程序被该服务器执行时，使得该服务器：从待配图信息中获取标题关键词和内容主题；从图像数据库中选取与标题关键词和内容主题匹配的图像，其中，图像数据库基于图像描述生成；将选取的图像插入待配图信息中，生成目标图文信息。

以上描述仅为本申请的较佳实施例以及对所运用技术原理的说明。本领域技术人员应当理解，本申请中所涉及的发明范围，并不限于上述技术特征的特定组合而成的技术方案，同时也应涵盖在不脱离上述发明构思的情况下，由上述技术特征或其等同特征进行任意组合而形成的其它技术方案。例如上述特征与本申请中公开的(但不限于)具有类似功能的技术特征进行互相替换而形成的技术方案。

Claims

一种用于生成图文信息的方法，其特征在于，包括：

从待配图信息中获取标题关键词和内容主题；

从图像数据库中选取与所述标题关键词和所述内容主题匹配的图像，其中，所述图像数据库基于图像描述生成；

将选取的图像插入所述待配图信息中，生成目标图文信息。
根据权利要求1所述的方法，其特征在于，所述图像数据库具体通过如下步骤生成：

获取图像集合，所述图像集合中的图像为图文信息中的配图；

对于所述图像集合中的图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词；

基于所述图像集合和所提取的图像关键词，生成图像数据库。
根据权利要求2所述的方法，其特征在于，所述获取该图像的描述信息，包括：

将该图像输入预先训练的图像描述模型中，得到该图像的描述信息，其中，所述图像描述模型用于表征输入图像与描述信息之间的对应关系。
根据权利要求3所述的方法，其特征在于，所述图像描述模型通过如下步骤训练得到：

从预先生成的图像描述数据库中获取多个图像以及与所述多个图像对应的描述信息；

将所述多个图像中的图像作为输入，将与输入图像对应的描述信息作为输出，训练得到所述图像描述模型。
根据权利要求4所述的方法，其特征在于，所述图像描述数据库通过如下步骤生成：

获取图文信息集合；

对于图文信息集合中的图文信息，获取该图文信息中的配图以及与配图对应的描述信息；

基于所获取的配图以及与配图对应的描述信息，生成所述图像描述数据库。
根据权利要求2至5中任一项所述的方法，其特征在于，对于所述图像集合中的图像，该图像的描述信息为自然语言描述的句子，所述至少一个关键词包括所述自然语言描述的句子所包含的名词和/或形容词；所述从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词，包括：

对所述自然语言描述的句子进行分词，得到所述自然语言描述的句子所包含的名词和/或形容词；

将所述名词和/或形容词提取为该图像的图像关键词。
根据权利要求2至6中任一项所述的方法，其特征在于，所述基于所述图像集合和所提取的图像关键词，生成图像数据库，包括：

确定所述图像集合中不同图像的图像关键词之间的相似度；

基于不同图像的图像关键词之间的相似度，对所述图像集合中的图像进行分类，得到至少一个子图像集合；

生成与所述至少一个子图像集合分别对应的至少一个图像数据库。
根据权利要求1至7中任一项所述的方法，其特征在于，所述从图像数据库中选取与所述标题关键词和所述内容主题匹配的图像，包括：

确定所述图像数据库所包括的图像的图像关键词与所述标题关键词和所述内容主题的相似度；

选取所述相似度大于或等于预设阈值的图像。
根据权利要求1至8中任一项所述的方法，其特征在于，所述从待配图信息中获取标题关键词和内容主题，包括：

获取所述待配图信息的标题和文本内容；

从所述标题中提取所述标题关键词；

将所述文本内容输入到预先训练的文本主题模型中，得到所述内容主题。
一种用于生成图文信息的方法，其特征在于，包括：

从待配图信息中获取标题关键词和内容主题；

基于所述标题关键词和所述内容主题确定待选取图像的类别；

从至少一个图像数据库中选取与所述类别匹配的图像数据库，其中，所述至少一个图像数据库是基于图像描述生成；

从选取的图像数据库中选取与所述标题关键词和所述内容主题匹配的图像；

将选取的图像插入所述待配图信息中，生成目标图文信息。
根据权利要求10所述的方法，其特征在于，所述至少一个图像数据库通过如下步骤生成：

获取图像集合，所述图像集合中的图像为图文信息中的配图；

对于所述图像集合中的图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词；

确定所述图像集合中不同图像的图像关键词之间的相似度；

基于不同图像的图像关键词之间的相似度，对所述图像集合中的图像进行分类，得到至少一个子图像集合；

生成与所述至少一个子图像集合分别对应的至少一个图像数据库。
一种用于生成图像数据库的方法，其特征在于，包括：

获取图像集合，所述图像集合中的图像为图文信息中的配图；

对于所述图像集合中的图像，获取该图像的描述信息，从该图像的描述信息中提取至少一个关键词作为该图像的图像关键词；

基于所述图像集合和所提取的图像关键词，生成图像数据库。
根据权利要求12所述的方法，所述基于所述图像集合和所提取的图像关键词，生成图像数据库，包括：

确定不同图像的图像关键词之间的相似度；

基于不同图像的图像关键词之间的相似度，对所述图像集合中的图像进行分类，得到至少一个子图像集合；

生成与所述至少一个子图像集合分别对应的至少一个图像数据库。
一种电子设备，包括：

一个或多个处理器；

存储装置，其上存储有一个或多个程序；

当所述一个或多个程序被所述一个或多个处理器执行，使得所述一个或多个处理器实现如权利要求1至13中任一项所述的方法。
一种计算机可读介质，其上存储有计算机程序，其中，所述程序被处理器执行时实现如权利要求1至13中任一项所述的方法。