WO2024046189A1

WO2024046189A1 - 文本生成方法以及装置

Info

Publication number: WO2024046189A1
Application number: PCT/CN2023/114514
Authority: WO
Inventors: 赵中州; 宋雪萌; 聂礼强; 井立强; 刘萌; 关惟俐; 周伟; 陈海青
Original assignee: 阿里巴巴（中国）有限公司
Priority date: 2022-08-30
Filing date: 2023-08-23
Publication date: 2024-03-07
Also published as: CN115496550A

Abstract

本说明书实施例提供文本生成方法以及装置，其中所述文本生成方法包括：获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；根据文本数据和视觉属性信息，确定目标对象的对象属性集；基于对象属性集，生成目标对象的目标描述文本。通过获取目标对象的多模态图文数据，确定目标对象的视觉属性信息，考虑了目标对象的显性特征，使得目标对象的对象属性更加全面，并且，根据文本数据和视觉属性信息，确定目标对象的对象属性集，综合了目标对象的文本数据以及视觉属性信息，使得生成的目标描述文本更加连贯，进一步提高了目标描述文本的准确性。

Description

文本生成方法以及装置

本申请要求于2022年08月30日提交中国专利局、申请号为202211048016.0、申请名称为“文本生成方法以及装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本说明书实施例涉及计算机技术领域，特别涉及一种文本生成方法。本说明书一个或者多个实施例同时涉及一种文本生成装置，一种计算设备，一种计算机可读存储介质。

背景技术

随着计算机技术的发展，文本摘要的生成逐渐成为自然语言处理领域的热点话题。以电商场景为例，在电商场景中，每种商品的描述通常由丰富多样的数据构成，为了能够更好地描述商品的特点，吸引用户进行购买，需要生成商品对应的文本摘要，供用户快速准确地了解商品的信息。

目前，通常由主播对商品信息进行充分理解，并将商品的显著特点进行概述。然而，由于在电商领域中商品是海量的，由人工概述获得商品的文本摘要，需要花费大量人力，付出高昂的成本，并且，人工势必会引入大量不确定性因素，导致生成的文本摘要准确性差。因此，亟需一种准确的文本生成方案。

发明内容

有鉴于此，本说明书实施例提供了一种文本生成方法。本说明书一个或者多个实施例同时涉及一种文本生成装置，一种计算设备，一种计算机可读存储介质以及一种计算机程序，以解决现有技术中存在的技术缺陷。

根据本说明书实施例的第一方面，提供了一种文本生成方法，包括：

获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；

基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；

根据文本数据和视觉属性信息，确定目标对象的对象属性集；

基于对象属性集，生成目标对象的目标描述文本。

根据本说明书实施例的第二方面，提供了一种文本生成装置，包括：

获取模块，被配置为获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；

识别模块，被配置为基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；

确定模块，被配置为根据文本数据和视觉属性信息，确定目标对象的对象属性集；

生成模块，被配置为基于对象属性集，生成目标对象的目标描述文本。

根据本说明书实施例的第三方面，提供了一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成方法的步骤。

根据本说明书实施例的第四方面，提供了一种计算机可读存储介质，其存储有计算机可执行指令，该指令被处理器执行时实现上述文本生成方法的步骤。

根据本说明书实施例的第五方面，提供了一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成方法的步骤。

本说明书一个实施例提供的文本生成方法，获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；根据文本数据和视觉属性信息，确定目标对象的对象属性集；基于对象属性集，生成目标对象的目标描述文本。通过获取目标对象的多模态图文数据，确定目标对象的视觉属性信息，考虑了目标对象的显性特征，使得目标对象的对象属性更加全面，并且，根据文本数据和视觉属性信息，确定目标对象的对象属性集，综合了目标对象的文本数据以及视觉属性信息，使得生成的目标描述文本更加连贯，进一步提高了目标描述文本的准确性。

附图说明

图1是本说明书一个实施例提供的一种文本生成系统的框架图；

图2是本说明书一个实施例提供的另一种文本生成系统的框架图；

图3是本说明书一个实施例提供的一种文本生成方法的流程图；

图4是本说明书一个实施例提供的一种文本生成方法中文本处理模型的训练流程图；

图5是本说明书一个实施例提供的一种文本生成方法中图像分类模型的训练流程图；

图6是本说明书一个实施例提供的一种文本生成方法的处理过程流程图；

图7是本说明书一个实施例提供的一种文本生成方法中目标商品详情页的示意图；

图8是本说明书一个实施例提供的一种文本生成方法中客户端的显示界面示意图；

图9是本说明书一个实施例提供的一种文本生成装置的结构示意图；

图10是本说明书一个实施例提供的一种计算设备的结构框图。

具体实施方式

在下面的描述中阐述了很多具体细节以便于充分理解本说明书。但是本说明书能够以很多不同于在此描述的其它方式来实施，本领域技术人员可以在不违背本说明书内涵的情况下做类似推广，因此本说明书不受下面公开的具体实施的限制。

在本说明书一个或多个实施例中使用的术语是仅仅出于描述特定实施例的目的，而非旨在限制本说明书一个或多个实施例。在本说明书一个或多个实施例和所附权利要求书中所使用的单数形式的“一种”、“所述”和“该”也旨在包括多数形式，除非上下文清楚地表示其他含义。还应当理解，本说明书一个或多个实施例中使用的术语“和/或”是指并包含一个或多个相关联的列出项目的任何或所有可能组合。

应当理解，尽管在本说明书一个或多个实施例中可能采用术语第一、第二等来描述各种信息，但这些信息不应限于这些术语。这些术语仅用来将同一类型的信息彼此区分开。例如，在不脱离本说明书一个或多个实施例范围的情况下，第一也可以被称为第二，类似地，第二也可以被称为第一。取决于语境，如在此所使用的词语“如果”可以被解释成为“在……时”或“当……时”或“响应于确定”。

首先，对本说明书一个或多个实施例涉及的名词术语进行解释。

模态：指数据存在的形式，如自然语言、图片等形式。

商品摘要：基于商品的信息，如商品的描述、外观等，来生成一段简短的、具有商品显著信息的文本摘要。

自然语言生成：使计算机具有人一样的表达和写作的功能。即能够根据一些关键信息及其在机器内部的表达形式，经过一个规划过程，来自动生成一段高质量的自然语言文本。

BART(Bidirectional and Auto-Regressive Transformers)：一种兼具上下文语境信息和自回归特性的模型，该模型输入自然语言，生成自然语言。

自动语音识别(ASR，Automatic Speech Recognition)：将人类表述的语言转化为对应的文字的技术。

词性标注：一种可以在句子中把每个词的词性标注出来的技术。

互信息：两个随机变量之间的依赖度。

在本说明书中，提供了一种文本生成方法，本说明书同时涉及一种文本生成装置，一种计算设备，以及一种计算机可读存储介质，在下面的实施例中逐一进行详细说明。

随着计算机技术的发展，文本摘要的生成逐渐成为自然语言处理领域的热点话题。以电商场景为例，在电商场景中，每种商品的描述通常由丰富多样的数据构成，例如商品的标题、详细的文本描述和图像等。为了能够更好地描述商品的特点，吸引用户进行购买，需要生成商品对应的文本摘要，供用户快速准确地了解商品的信息。

目前，通常由主播对商品信息进行充分理解，并将商品的显著特点进行概述。然而，由于在电商领域中商品是海量的，由人工编排获得商品的文本摘要，需要花费大量人力，付出高昂的成本，并且，人工势必会引入大量不确定性因素，大部分文本摘要仅为简单的拼接，导致生成的文本摘要准确性差，修改成本高。因此，亟需一种准确的文本生成方案。

为了提高文本生成的效率以及准确性，本方案提供了一种多基于多模态数据生成描述文本的方案，给定目标对象的多模态图文数据，端到端的自动化生成能够准确概括目标对象的特点和突出目标对象优势的描述文本。

具体实施时，本说明书实施例提供的文本生成方法，获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；根据文本数据和视觉属性信息，确定目标对象的对象属性集；基于对象属性集，生成目标对象的目标描述文本。通过获取目标对象的多模态图文数据，确定目标对象的视觉属性信息，考虑了目标对象的显性特征，使得目标对象的对象属性更加全面，并且，根据文本数据和视觉属性信息，确定目标对象的对象属性集，综合了目标对象的文本数据以及视觉属性信息，使得生成的目标描述文本更加连贯，进一步提高了目标描述文本的准确性。

参见图1，图1示出了本说明书一个实施例提供的一种文本生成系统的框架图，其中，文本生成系统包括服务端和客户端：

客户端：向服务端发送目标对象的图文数据，其中，图文数据包括图像数据和文本数据；

服务端：获取目标对象的图文数据；基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；根据文本数据和视觉属性信息，确定目标对象的对象属性集；基于对象属性集，生成目标对象的目标描述文本，并将目标描述文本发送至客户端，以使客户端显示目标描述文本。

客户端：接收并显示服务端发送的目标描述文本，以使用户根据目标描述文本对目标对象进行介绍。

值得说明的是，本说明书实施例中提供的文本生成方法一般由服务端执行，但是，在本说明书的其它实施例中，客户端也可以与服务端具有相似的功能，从而执行本说明书实施例所提供的文本生成方法。在其他实施例中，本说明书实施例所提供的文本生成方法还可以是由客户端与服务端共同执行。

应用本说明书实施例的方案，获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；根据文本数据和视觉属性信息，确定目标对象的对象属性集；基于对象属性集，生成目标对象的目标描述文本。通过获取目标对象的多模态图文数据，确定目标对象的视觉属性信息，考虑了目标对象的显性特征，使得目标对象的对象属性更加全面，并且，根据文本数据和视觉属性信息，确定目标对象的对象属性集，综合了目标对象的文本数据以及视觉属性信息，使得生成的目标描述文本更加连贯，进一步提高了目标描述文本的准确性。

本说明书一个或多个实施例提供的方案，可以应用于文本生成场景，如电商直播场景、会议场景、教育场景等等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

参见图2，图2示出了本说明书一个实施例提供的另一种文本生成系统的框架图，该系统可以包括服务端100以及多个客户端200。多个客户端200之间通过服务端100可以建立通信连接，在文本生成场景中，服务端100即用来在多个客户端200之间提供文本生成服务，多个客户端200可以分别作为发送端或接收端，通过服务端100实现实时通信。

用户通过客户端200可与服务端100进行交互以接收其它客户端200发送的数据，或将数据发送至其它客户端200等。在文本生成场景中，可以是用户通过客户端200向服务端100发布数据流，服务端100将该数据流推送至订阅该数据流的客户端中。数据流例如可以是图文数据。如在电商直播场景中，用户通过客户端可以实时采集目标商品的图文数据，并将图文数据发送至服务端，服务端可以根据客户端发送的图文数据，生成对应的商品描述文本，将该商品描述文本推送至包括该商品的所有直播间，以使主播根据商品描述文本对目标商品进行介绍。又如在会议场景中，参会用户通过客户端可以实时采集图文数据并发送至服务端，服务端可以对客户端发送的图文数据进行处理，生成摘要文本，并将摘要文本推送至其它参会用户的客户端等。

其中，客户端200与服务端100之间通过网络建立连接。网络为客户端与服务端之间提供了通信链路的介质。网络可以包括各种连接类型，例如有线、无线通信链路或者光纤电缆等等。客户端200所传输的数据可能需要经过编码、转码、压缩等处理之后才发布至服务端100。

客户端200可以为浏览器、APP(Application，应用程序)、或网页应用如H5(HyperText Markup Language5，超文本标记语言第5版)应用、或轻应用(也被称为小程序，一种轻量级应用程序)或云应用等，客户端200可以基于服务端提供的相应服务的软件开发工具包(SDK，Software Development Kit)，如基于实时通信(RTC，Real Time Communication)SDK开发获得等。客户端200可以部署在电子设备中，需要依赖设备运行或者设备中的某些App而运行等。电子设备例如可以具有显示屏并支持信息浏览等，如可以是个人移动终端如手机、平板电脑、个人计算机等。在电子设备中通常还可以配置各种其它类应用，例如人机对话类应用、模型训练类应用、文本处理类应用、网页浏览器应用、购物类应用、搜索类应用、即时通信工具、邮箱客户端、社交平台软件等。

服务端100可以包括提供各种服务的服务器，例如为多个客户端提供通信服务的服务器，又如为客户端上使用的模型提供支持的用于后台训练的服务器，又如对客户端发送的数据进行处理的服务器等。

需要说明的是，服务端100可以实现成多个服务器组成的分布式服务器集群，也可以实现成单个服务器。服务器也可以为分布式系统的服务器，或者是结合了区块链的服务器。服务器也可以是云服务、云数据库、云计算、云函数、云存储、网络服务、云通信、中间件服务、域名服务、安全服务、内容分发网络(CDN，Content Delivery Network)、以及大数据和人工智能平台等基础云计算服务的云服务器，或者是带人工智能技术的智能云计算服务器或智能云主机。

参见图3，图3示出了本说明书一个实施例提供的一种文本生成方法的流程图，具体包括以下步骤：

步骤302：获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据。

本说明书一个或多个实施例中，随着计算机技术的发展，针对目标对象的描述形式也越来越丰富，如商品的描述包括标题、详细的文本描述以及商品展示图像等。为了准确生成目标对象的描述文本，可以获取目标对象的多模态数据，多模态数据可以包括图像数据以及文本数据，进一步根据多模态的图文数据生成目标对象的目标描述文本。

具体地，目标对象是指需要生成目标描述文本的对象，也可以理解为等待生成目标描述文本的对象，包括但不限于商品、人物、风景、名胜古迹等等。目标对象的图文数据是指包括目标对象相关信息的图像数据以及文本数据。图像数据可以是目标对象的配图、照片、设计图等等，文本数据可以是目标对象的名称、结构化属性、细节信息、工艺信息等等。

实际应用中，获取目标对象的图文数据的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一种可选的实现方式中，可以在接收到文本生成指令的情况下，获取目标对象的图文数据。一种可能的方式中，文本生成指令中携带了用户输入的涵盖目标对象信息的图文数据；另一种可能的方式中，文本生成指令中包括目标对象的唯一标识，根据该唯一标识，可以确定目标对象，进一步获取目标对象的图文数据。

示例性地，以目标对象为目标商品为例，由于商品的详情页中存在大量的商品细节信息，并且整个详情页之间存在上下文语义连贯性，能够完成涵盖目标商品的信息，因此，接收文本生成指令后，根据文本生成指令中的目标对象的唯一标识，可以从目标商品的详情页中获取目标对象的图文数据。

本说明书另一种可选的实现方式中，由于目标对象的图文数据通常是变化的，因此可以监测目标对象的图文数据，在图文数据产生变化的情况下，实时获取目标对象的图文数据，生成目标对象的目标描述文本，以便于用户在需要目标描述文本时，可以立刻查询到目标描述文本。也即，上述获取目标对象的图文数据的步骤，可以包括以下步骤：

对目标对象的图文数据进行监测；

在图文数据更新的情况下，获取目标对象的图文数据。

本说明书实施例中，图文数据的更新包括增加、删除、替换、更改等，本说明书实施例中，目标对象的图文数据只要有变动，即可认为目标对象的图文数据产生更新。

进一步地，由于目标描述文本的生成过程会花费一定时间，本说明书实施例中还可以采用离线定时的方式生成目标对象的目标描述文本。离线定时的方式是指定时更新目标对象的目标描述文本。

需要说明的是，在定时更新目标描述文本之前，可以检测目标对象的图文数据是否发生变更，也即定时任务启动时，将当前目标对象的图文数据与上次更新时目标对象的图文数据进行比较。若图文数据发生变更，则触发定时任务，获取目标对象的图文数据，基于该图文数据生成目标描述文本；若图文数据未发生变更，则不对目标对象的描述文本进行更新。

应用本说明书实施例的方案，通过对目标对象的图文数据进行监测，在图文数据更新的情况下，获取目标对象的图文数据，实现了主动生成目标对象的目标描述文本，节省了用户获得目标描述文本的时间，提高了用户体验度。

步骤304：基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征。

本说明书一个或多个实施例中，在获取目标对象的图文数据之后，进一步可以基于图文数据中包括的图像数据，识别目标对象的视觉属性信息，通过生成视觉属性信息，相当于将图像数据转化为文本数据，统一了目标对象的多模态数据，减小了多种模态之间的模态异构性。

具体地，视觉属性信息表征目标对象的显性特征，显性特征是指目标对象显现的特征，可以是目标对象的颜色、形状等名词特征，还可以是美观、漂亮、大方等形容词特征，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，基于图像数据，识别目标对象的视觉属性信息的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一种可选的实现方式中，由于图像数据中可能包括目标对象的文本数据，因此，可以利用光学字符识别(OCR，Optical Character Recognition)获得图像数据中的文本数据。还可以利用图像颜色识别工具获得图像数据中的视觉属性信息。

本说明书另一种可选的实现方式中，可以利用预先训练的图片分类模型识别目标对象的视觉属性信息，也即，上述基于图像数据，识别目标对象的视觉属性信息的步骤，可以包括以下步骤：

将图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标对象的视觉属性信息。

具体地，预先训练的图片分类模型是对预设分类模型进行训练生成的模型，预设分类模型是指能够实现分类的模型，如Swin Transformer模型、残差神经网络(ResNet，Residual Network)、图像分类变换模型(Vit，Vision Transformer)，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

以图像分类变换模型为例，把图像数据输入图像分类变换模型，和传统的卷积神经网络输入图片不同的是，这里将图像数据分为一个个分块(patch)，如将图像分成9个patch。每个patch的大小是可以指定的，比如16×16等等。然后把每个patch输入到嵌入层(embedding)，通过该层以后，可以得到一系列向量(token)，9个patch都会得到它们对应的向量，然后在所有的向量之前加入一个用于分类的向量，这个分类的向量的维度和其他9个向量一致。此外，还需要加入位置信息。然后把所有的向量输入Transformer编码器(Encoder)中，然后把Transformer Encoder重复堆叠L次，再将用于分类的token的输出输入多层感知器(MLP，Multilayer Perceptron)Head，然后得到最终分类的结果。

应用本说明书实施例的方案，将图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标对象的视觉属性信息，提高了获得目标对象的视觉属性信息的效率以及准确性，进一步使得后续生成的目标描述文本更加准确。

值得说明的是，在获取目标对象的视觉属性信息之后，可以对比目标对象的视觉属性信息和文本数据，根据对比结果对目标对象的文本数据进行修改。

示例性地，目标对象的文本数据为“红色衣服女式显年轻”，获得目标对象的视觉属性信息为“玫红色显白”，对比文本数据和视觉属性信息，将目标对象文本数据中的“红色”替换为“玫红色”，获得修改后的文本数据为“玫红色衣服女式显年轻”。

步骤306：根据文本数据和视觉属性信息，确定目标对象的对象属性集。

本说明书一个或多个实施例中，在获取目标对象的图文数据，基于图像数据，识别目标对象的视觉属性信息之后，进一步可以根据文本数据和视觉属性信息，确定目标对象的对象属性集，通过综合文本数据和视觉属性信息，丰富了目标对象的对象属性，使得生成的目标描述文本更加连贯、准确。

具体地，对象属性集是指由多个目标对象的对象属性信息构成的集合，对象属性信息中包括目标对象的文本数据以及视觉属性信息，对象属性信息可以理解为完整描述目标对象属性的文本信息。

实际应用中，可以对文本数据和视觉属性信息进行合并拼接，确定目标对象的对象属性集。例如目标对象的文本数据为“橘色猫咪沙发靠枕”，视觉属性信息为“橘色高级感”，将目标对象的文本数据和视觉属性信息进行拼接，即可确定目标对象的对象属性集中包括的内容为“橘色猫咪沙发靠枕橘色高级感”。

进一步地，为了减少数据处理量，提高文本生成效率，在对文本数据和视觉属性信息进行拼接时，还可以取文本数据和视觉属性信息的并集，引用上述示例，确定的对象属性集为“橘色猫咪沙发靠枕高级感”。

本说明书一种可选的实现方式中，以目标对象为目标商品为例，上述根据文本数据和视觉属性信息，确定目标对象的对象属性集的步骤，可以包括以下步骤：

根据文本数据和视觉属性信息，确定目标商品的商品属性集，其中，文本数据包括目标商品的标题、简介、产品参数中的至少一种。

具体地，商品的标题通常包括商品的品牌名等，商品简介通常包括商品的产地、功能等，商品的产品参数通常包括商品的尺寸、材质、货号等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

示例性地，以目标商品为抱枕为例，目标商品的标题为“大熊抱枕毛绒巨型靠背床头靠垫生日礼物”，目标商品的简介为“熊猫造型的抱枕可爱童真，手感柔软，还是刷手机和阅读的好伴侣”，目标商品的产品参数为“货号：00001，材质：其他，大小：70cm*90cm”。

应用本说明书实施例的方案，根据文本数据和视觉属性信息，确定目标商品的商品属性集，其中，文本数据包括目标商品的标题、简介、产品参数中的至少一种，丰富了目标商品的对象属性，使得生成的商品描述文本更加连贯、准确。

步骤308：基于对象属性集，生成目标对象的目标描述文本。

本说明书一个或多个实施例中，获取目标对象的图文数据，基于图像数据，识别目标对象的视觉属性信息，根据文本数据和视觉属性信息，确定目标对象的对象属性集之后，进一步可以基于对象属性集，生成目标对象的目标描述文本。

具体地，目标描述文本是指可以简明、确切地描述目标对象的文本。在本说明书实施例中，描述文本还可以理解为摘要文本、剧本、概要、内容提要以及摘要剧本。

需要说明的是，以目标对象为目标商品为例，目标商品的目标描述文本即为商品描述文本，上述基于对象属性集，生成目标对象的目标描述文本的步骤，可以包括以下步骤：

基于商品属性集，生成目标商品的目标描述文本。

实际应用中，基于对象属性集，生成目标对象的目标描述文本的方式有多种，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

本说明书一种可选的实现方式中，可以将对象属性集中的文本内容进行分词处理，利用预先设置的描述文本生成模板对分词获得的各词语进行处理，生成目标对象的目标描述文本。其中，分词处理的方式可以是利用分词工具进行分词处理，还可以是利用预设词语表匹配获得分词结果，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

示例性地，以对象属性集中的文本内容为“橘色猫咪沙发靠枕高级感”为例，对该文本内容进行分词，获得分词结果为“橘色、猫咪、沙发靠枕、高级感”，获取预先设置的描述文本生成模板为“XX是XX形状的，给人XX的感觉”，将分词结果填充至描述文本生成目标中，获得目标描述文本为“沙发靠枕是橘色猫咪形状的，给人高级的感觉”。

本说明书另一种可选的实现方式中，可以利用预先训练的文本处理模型生成目标描述文本，也即，上述基于对象属性集，生成目标对象的目标描述文本的步骤，可以包括以下步骤：

将对象属性集输入预先训练的文本处理模型中，经文本处理模型生成目标对象的目标描述文本。

具体地，预先训练的文本处理模型是对预设处理模型进行训练生成的模型，预设处理模型是指能够实现文本处理的模型，如兼具上下文语境信息和自回归特性的Transformer模型(BART，Bidirectional and Auto-Regressive Transformers)、文本到文本传输转换模型(T5，Text-to-Text Transfer Transformer)、预训练模型(GPT，Generative Pre-Training)等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

以BART模型为例，BART是一个编码器-解码器(Encoder-Decoder)的结构，其Encoder端的输入是加了噪音的序列，Decoder端的输入是添加了起始符(right-shifted)的序列，Decoder端的目标是原序列。

应用本说明书实施例的方案，将对象属性集输入预先训练的文本处理模型中，经文本处理模型生成目标对象的目标描述文本，提高了获得目标描述文本的效率以及生成的目标描述文本的准确性。

值得说明的是，生成目标对象的目标描述文本之后，可以直接在客户端显示目标描述文本。还可以将目标描述文本存储至预设数据库中，在当前客户端关联到目标对象时，再从预设数据库中调用目标描述文本，也即，上述基于对象属性集，生成目标对象的目标描述文本的步骤之后，还可以包括以下步骤：

在客户端当前展示的对象为目标对象的情况下，从预设数据库中调用目标描述文本，其中，预设数据库用于存储生成的目标描述文本；

在客户端显示目标描述文本；或者，对目标描述文本进行音频转换，生成并播放目标描述文本对应的音频数据。

具体地，若客户端当前展示的对象为目标对象，则表示需要获取目标对象的目标描述文本。此时，可以在预设数据库中查找目标描述文本，判断预设数据库中是否存在预先生成的目标描述文本。若存在，则直接从预设数据库中调用该目标描述文本，在客户端显示目标描述文本。若预设数据库中没有目标描述文本，则可以利用本说明书实施例提供的文本生成方法，实时生成目标描述文本，并在客户端显示生成的目标描述文本。

进一步地，由于客户端显示目标描述文本，用户可以根据目标描述文本对目标对象进行介绍。为了减轻用户工作量，还可以利用文本-音频转换工具对目标描述文本进行音频转换，生成目标描述文本对应的音频数据，在生成音频数据后，主动播放该音频数据，实现对目标对象的介绍。

应用本说明书实施例的方案，在客户端当前展示的对象为目标对象的情况下，从预设数据库中调用目标描述文本，节省了用户获得目标描述文本的时间，提高了用户体验度；在客户端显示目标描述文本，无需用户仔细了解目标对象，可以直接根据目标描述文本对目标对象进行介绍；生成并播放目标描述文本对应的音频数据，无需用户进行介绍，节省了大量人力成本。

下面对图1所示实施例中文本处理模型的训练方式进行详细说明。

本说明书一个或多个实施例中，文本处理模型的训练方式，可以包括以下步骤：

获取第一样本集，其中，第一样本集中包括多个样本对象，每个样本对象携带样本文本数据和样本描述文本；

识别每个样本描述文本，确定各样本对象的样本视觉属性信息；

对每个样本文本数据进行数据增广，确定各样本对象的增广文本数据；

基于多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得文本处理模型。

具体地，样本对象用于训练文本处理模型，样本对象包括但不限于商品、人物、风景、名胜古迹等等。样本对象携带的样本文本数据为描述样本对象的文本数据，如样本对象的名称、特有属性、细节信息、工艺信息等等。样本描述文本为样本对象对应的描述文本，样本描述文本也可以理解为样本摘要文本、样本剧本、样本概要、样本内容提要以及样本摘要剧本。一般情况下，获取第一样本集的方式可以是人工输入的大量样本文本数据以及样本描述文本组成第一样本集；也可以是从其他数据获取设备或者数据库中读取大量样本文本数据以及样本描述文本组成第一样本集，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

实际应用中，识别每个样本描述文本，确定各样本对象的样本视觉属性信息的方式可以是对每个样本描述文本进行分词处理，将各分词结果与预先设置的视觉属性词表进行匹配，获得各样本对象的样本视觉属性信息；还可以直接对样本描述文本进行词性标注，保留得到的名词和形容词，确定样本视觉属性信息。

本说明书实施例中，考虑到同一个语义对应多个词语，如表达好看的词语有美丽、漂亮、颜值高等，因此，可以对样本对象的样本文本数据进行数据增广，扩充样本对象的样本文本数据，使得样本文本数据更加多样化，对样本数据中增加一定的噪音，进一步使得训练的模型具有更强的泛化能力。

示例性地，样本对象的样本文本数据为“这件衣服真好看”，将样本文本数据中的“好看”替换为好看的近义词，实现对样本文本数据的数据增广，获得增广文本数据为“这件衣服真美丽”、“这件衣服真漂亮”、“这件衣服真棒”等，其中，增广文本数据可以是一个，也可以是多个，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，获取第一样本集，其中，第一样本集中包括多个样本对象，每个样本对象携带样本文本数据和样本描述文本，识别每个样本描述文本，确定各样本对象的样本视觉属性信息，对每个样本文本数据进行数据增广，确定各样本对象的增广文本数据，基于多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得文本处理模型，考虑了样本对象的显性特征，使得样本对象的对象属性更加全面，扩充样本对象的样本文本数据，使得样本文本数据更加多样化，进一步使得训练的模型具有更强的泛化能力，提高了训练后的模型的准确性。

示例性地，以样本对象为样本商品为例，可以从样本商品的直播间以及商品详情页中获得样本文本数据以及样本描述文本，进一步构建第一样本集，也即，上述获取第一样本集的步骤，可以包括以下步骤：

从多个样本商品的直播间中提取各样本商品的直播数据，其中，直播数据包括视频数据和语音数据；

对直播数据进行识别转换，生成各样本商品的样本描述文本；

从多个样本商品的详情页中提取各样本商品的样本文本数据；

根据多个样本商品的样本文本数据和样本描述文本，构建第一样本集。

具体地，由于商品详情页存在大量的商品细节信息，且整个详情页之间存在上下文语义连贯性，能完整涵盖商品的图文数据。因此，可以从样本商品的详情页中提取各样本商品的样本文本数据，提取样本文本数据的方式包括但不限于OCR技术。并且，还可以从样本商品的直播间中收集样本商品的直播数据，这些直播数据包括视频数据以及语音数据，利用ASR技术对直播数据进行识别转换，生成各样本商品的样本描述文本。在获得样本文本数据以及样本描述文本之后，可以构建第一样本集，其中，样本描述文本可以理解为样本对象携带的样本标签，该样本标签表征真实想要预设处理模型输出的结果。

应用本说明书实施例的方案，从多个样本商品的直播间中提取各样本商品的直播数据，其中，直播数据包括视频数据和语音数据，对直播数据进行识别转换，生成各样本商品的样本描述文本，从多个样本商品的详情页中提取各样本商品的样本文本数据，根据多个样本商品的样本文本数据和样本描述文本，构建第一样本集，丰富了第一样本集，使得样本集中的样本文本数据上下文语义连贯，进一步提高了训练后的模型的准确性。

进一步地，在获得多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据之后，可以基于样本视觉属性信息，分别对样本文本数据以及增广文本数据进行处理，确定各样本对象的初始训练样本和增广训练样本，也即，上述，基于多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得文本处理模型的步骤，可以包括以下步骤：

合并每个样本对象的样本文本数据和样本视觉属性信息，确定各样本对象的初始训练样本；

合并每个样本对象的增广文本数据和样本视觉属性信息，确定各样本对象的增广训练样本；

利用多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得文本处理模型。

具体地，合并每个样本对象的样本文本数据和样本视觉属性信息，确定各样本对象的初始训练样本、合并每个样本对象的增广文本数据和样本视觉属性信息，确定各样本对象的增广训练样本的方式可以是文本拼接，还可以对去重后的文本数据进行拼接。

应用本说明书实施例的方案，合并每个样本对象的样本文本数据和样本视觉属性信息，确定各样本对象的初始训练样本，合并每个样本对象的增广文本数据和样本视觉属性信息，确定各样本对象的增广训练样本，利用多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得文本处理模型。通过综合文本数据和样本视觉属性信息，丰富了样本对象的对象属性，提升了训练后的模型的泛化性。

进一步地，在获得各样本对象的初始训练样本、增广训练样本之后，可以基于初始训练样本、增广训练样本对预设处理模型进行训练，也即，上述利用多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得文本处理模型的步骤，可以包括以下步骤：

提取第一样本对象的第一初始训练样本和第一增广训练样本，其中，第一样本对象为第一样本集中的任一样本对象；

将第一初始训练样本输入预设处理模型中，生成第一预测描述文本，并将第一增广训练样本输入预设处理模型中，生成第二预测描述文本；

根据第一预测描述文本和第一样本描述文本计算第一损失值；

根据第二预测描述文本和第一样本描述文本计算第二损失值；

根据第一预测描述文本和第二预测描述文本计算第三损失值；

基于第一损失值、第二损失值以及第三损失值，调整预设处理模型的模型参数，并返回执行提取第一样本对象的第一初始训练样本和第一增广训练样本的步骤；

在达到第一训练停止条件的情况下，获得完成训练的文本处理模型。

具体地，第一样本描述文本是指真实想要预设处理模型输出的结果，即第一样本描述文本为真实结果。而将第一初始训练样本输入预设处理模型中，生成的第一预测描述文本以及将第一增广训练样本输入预设处理模型中，生成的第二预测描述文本为预设处理模型生成的预测结果，在预测结果和真实结果之间的差异足够小时，即第一损失值以及第二损失值足够小时，说明预测结果足够接近真实结果。

特别地，由于第一增广训练样本为增加了噪音的第一初始训练样本，为了使得预设处理模型对第一初始训练样本和第一增广训练样本的预测结果接近，提高预设处理模型的抗噪音能力，因此可以根据第一预测描述文本和第二预测描述文本计算第三损失值。最终，在获得第一损失值、第二损失值以及第三损失值之后，可以基于第一损失值、第二损失值以及第三损失值，调整预设处理模型的模型参数，并返回执行提取第一样本对象的第一初始训练样本和第一增广训练样本的步骤，在达到第一训练停止条件的情况下，获得完成训练的文本处理模型。

需要说明的是，可以利用交叉熵损失函数计算第一损失值和第二损失值，利用相对熵损失函数(KLD，Kullback-Leibler Divergence)计算第三损失值，第一训练停止条件包括但不限于第一预设阈值、第一预设迭代次数，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，通过利用交叉熵损失函数，提高了计算第一损失值和第二损失值的效率和准确率，利用相对熵损失函数，提高了计算第三损失值的效率和准确率，进一步使完成训练的文本处理模型更加准确。

本说明书一种可选的实现方式中，为了学习到更好的文本特征，还可以利用各样本对象初始训练样本和样本描述文本，对预设处理模型中的编码器使用互信息最大化损失函数进行约束，也即，预设处理模型包括编码器；上述将第一初始训练样本输入预设处理模型中，生成第一预测描述文本，并将第一增广训练样本输入预设处理模型中，生成第二预测描述文本的步骤之前，还可以包括以下步骤：

将第一初始训练样本输入编码器，生成第一特征向量；

将第一样本描述文本输入编码器，生成第二特征向量；

根据第一特征向量和第二特征向量，计算编码损失值；

基于编码损失值，调整编码器的参数，并返回执行将第一初始训练样本输入编码器，生成第一特征向量的步骤；

在达到第二训练停止条件的情况下，确定完成训练的编码器。

具体地，可以利用以下公式(1)计算编码损失值：

其中，B是训练过程中一个batch的大小(每次更新参数的时候需要算B个数据的损失),zi＝avg(Zi)，avg代表平均池化操作(average pooling)，Zi代表第i个初始训练样本输入到编码器之后得到的特征向量，zy＝avg(Zy)，Zy代表第i个样本描述文本输入到编码器之后得到的特征向量。

需要说明的是，第二训练停止条件包括但不限于第二预设阈值、第二预设迭代次数，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，将第一初始训练样本输入编码器，生成第一特征向量，将第一样本描述文本输入编码器，生成第二特征向量，根据第一特征向量和第二特征向量，计算编码损失值，基于编码损失值，调整编码器的参数，并返回执行将第一初始训练样本输入编码器，生成第一特征向量的步骤，在达到第二训练停止条件的情况下，确定完成训练的编码器，对预设处理模型中的编码器使用了互信息最大化损失函数进行约束，使得预设处理模型可以学习到更好的文本特征，使完成训练的文本处理模型更加准确。

参见图4，图4示出了本说明书一个实施例提供的一种文本生成方法中文本处理模型的训练流程图，具体包括：

获取多个样本对象，每个样本对象携带样本文本数据和样本描述文本；识别每个样本描述文本，确定各样本对象的样本视觉属性信息；对每个样本文本数据进行数据增广，确定各样本对象的增广文本数据；合并每个样本对象的样本文本数据和样本视觉属性信息，将合并的结果经预设处理模型的编码器和解码器，生成第一预测描述文本；合并每个样本对象的增广文本数据和样本视觉属性信息，将合并的结果经预设处理模型的编码器和解码器，生成第二预测描述文本；根据第一预测描述文本和样本描述文本计算第一损失值；根据第二预测描述文本和样本描述文本计算第二损失值；根据第一预测描述文本和第二预测描述文本计算第三损失值；基于第一损失值、第二损失值以及第三损失值，调整预设处理模型的模型参数，在达到第一训练停止条件的情况下，获得完成训练的文本处理模型。

其中，预设处理模型包括编码器和解码器，将每个样本对象合并后的样本文本数据和样本视觉属性信息输入编码器，生成第一特征向量；将每个样本对象的样本描述文本输入编码器，生成第二特征向量；根据第一特征向量和第二特征向量，计算编码损失值；基于编码损失值，调整编码器的参数，在达到第二训练停止条件的情况下，确定完成训练的编码器。

下面对图1所示实施例中图片分类模型的训练方式进行详细说明。

本说明书一个或多个实施例中，图片分类模型的训练方式，可以包括以下步骤：

获取第二样本集，其中，第二样本集中包括多个样本对象，每个样本对象携带样本图像数据和样本描述文本；

利用多个样本对象的样本图像数据和样本视觉属性信息，训练预设分类模型，获得图片分类模型。

具体地，获取第二样本集、识别每个样本描述文本，确定各样本对象的样本视觉属性信息的具体方式可以参考上述文本处理模型训练方式，本说明书实施例便不再进行赘述。确定各样本对象的样本视觉属性信息考虑了样本对象的显性特征，使得样本对象的对象属性更加全面，提高了训练后的模型的准确性。

进一步地，利用多个样本对象的样本图像数据和样本视觉属性信息，训练预设分类模型，获得图片分类模型的步骤，可以包括以下步骤：

提取第二样本对象的第二样本图像数据和第二样本视觉属性信息，其中，第二样本对象为第二样本集中的任一样本对象；

将第二样本图像数据输入预设分类模型中，获得第二样本对象的预测视觉属性信息；

根据第二样本视觉属性信息和第二样本对象的预测视觉属性信息，计算预设分类模型的分类损失值；

根据分类损失值，调整预设分类模型的模型参数，并返回执行提取第二样本对象的第二样本图像数据和第二样本视觉属性信息的步骤；

在达到第三训练停止条件的情况下，获得完成训练的图片分类模型。

需要说明的是，可以基于第二样本对象的预测视觉属性信息和第二样本视觉属性信息计算分类损失值，第二样本视觉属性信息表征真实想要预设分类模型输出的结果，而将第二样本图像数据输入预设分类模型，输出的预测视觉属性信息就是预设分类模型的预测结果，在预测结果和真实结果之间的差异足够小时，即分类损失值足够小，说明预测结果足够接近真实结果，此时预设分类模型训练完成，获得完成训练的图片分类模型。

在本说明书实施例中，通过计算分类损失值可以直观地示出预设分类模型的预测结果与真实结果之间的差异，后续可以基于该差异对预设分类模型进行针对性训练，调整预设分类模型的参数，可以有效提高预设分类模型训练的速率及预设分类模型训练的效果。

需要说明的是，第三训练停止条件包括但不限于第三预设阈值、第三预设迭代次数，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

一种可能的实现方式中，可以仅基于分类损失值和第三预设阈值之间的关系，确定是否停止训练。具体地，若分类损失值大于第三预设阈值，则说明第二样本视觉属性信息和第二样本对象的预测视觉属性信息的差异较大，预设分类模型的分类识别能力较差，此时可以调整预设分类模型的模型参数，并返回执行提取第二样本对象的第二样本图像数据和第二样本视觉属性信息的步骤，继续对预设分类模型进行训练，直至分类损失值小于或等于第三预设阈值，说明第二样本视觉属性信息和第二样本对象的预测视觉属性信息的差异较小，停止训练，获得训练后的图片分类模型。

其中，第三预设阈值为分类损失值的临界值，在分类损失值大于第三预设阈值的情况下，说明预设分类模型的预测结果与真实结果之间仍存在一定偏差，仍需调整预设分类模型的模型参数，并对该预设分类模型进行训练；在分类损失值小于或等于第三预设阈值的情况下，说明预设分类模型的预测结果与真实结果的接近程度已经足够，可以停止训练。

另一种可能的实现方式中，除了比较分类损失值和第三预设阈值的关系之外，还可以结合迭代次数，确定当前的预设分类模型是否训练完成。具体的，若分类损失值小于或等于第三预设阈值，则说明第二样本视觉属性信息和第二样本对象的预测视觉属性信息的差异较小，停止训练，获得训练后的图片分类模型，即分类损失值小于或等于第三预设阈值时，无需结合迭代次数即可停止训练以获得训练后的图片分类模型；若分类损失值大于第三预设阈值，判断此刻的迭代次数是否达到第三预设迭代次数，若此刻的迭代次数并未达到第三迭代次数，则调整预设分类模型的模型参数，并返回执行提取第二样本对象的第二样本图像数据和第二样本视觉属性信息的步骤，继续对预设分类模型进行训练，直至达到第三预设迭代次数的情况下，停止迭代，得到训练后的图片分类模型。

其中，第三预设阈值、第三预设迭代次数的数值具体根据实际情况进行选择，本说明书实施例对此不作任何限定。在迭代次数达到第三预设迭代次数时，说明预设分类模型的训练次数已经足够，此时预设分类模型的预测结果与真实结果的接近程度已经足够，可以停止训练。

实际应用中，计算分类损失值的函数有很多，如交叉熵损失函数、L1范数损失函数、最大损失函数、均方误差损失函数、对数损失函数等，具体根据实际情况进行选择，本说明书实施例对此不作任何限定。

应用本说明书实施例的方案，可以根据分类损失值判断预设分类模型的具体训练情况，并在训练未合格的情况下根据分类损失值反向调整预设分类模型的模型参数，以提高该模型的分类识别能力，训练速率高，且训练效果好。

参见图5，图5示出了本说明书一个实施例提供的一种文本生成方法中图像分类模型的训练流程图，具体包括：

获取多个样本对象，每个样本对象携带样本图像数据和样本描述文本；识别每个样本描述文本，确定各样本对象的样本视觉属性信息；将每个样本对象的样本图像数据输入预设分类模型中，获得预测视觉属性信息；根据样本视觉属性信息和预测视觉属性信息，计算预设分类模型的分类损失值；根据分类损失值，对预设分类模型进行调参，在达到第三训练停止条件的情况下，获得完成训练的图片分类模型。

下述结合附图6，以本说明书提供的文本生成方法在电商直播场景的应用为例，对所述文本生成方法进行进一步说明。其中，图6示出了本说明书一个实施例提供的一种文本生成方法的处理过程流程图，具体包括以下步骤：

步骤602：获取目标商品的详情页数据，其中，详情页数据包括图像数据和文本数据，文本数据包括目标商品的标题、简介、产品参数中的至少一种。

参见图7，图7示出了本说明书一个实施例提供的一种文本生成方法中目标商品详情页的示意图。

目标商品详情页中包括咖啡杯的图像数据，如图中的两个咖啡杯，还包括目标商品的标题：咖啡杯大容量带勺子；目标商品的简介：高釉烧制，安全放心，暖调，为生活带来不一样的体验；目标商品的产品参数：样式丰富，500ml。

步骤604：将图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标商品的视觉属性信息，其中，视觉属性信息表征目标商品的显性特征。

具体地，将图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标商品的视觉属性信息为“白色、暖调棕色、有条纹、无条纹、色彩柔和、简约大方”。

步骤606：合并文本数据和视觉属性信息，确定目标商品的商品属性集。

具体地，合并文本数据和视觉属性信息，确定目标商品的商品属性集为“咖啡杯大容量带勺子、高釉烧制，安全放心，暖调，为生活带来不一样的体验、样式丰富，500ml，白色、暖调棕色、有条纹、无条纹、色彩柔和、简约大方”。

步骤608：将商品属性集输入预先训练的文本处理模型中，经文本处理模型生成目标商品的目标描述文本。

具体地，参见图8，图8示出了本说明书一个实施例提供的一种文本生成方法中客户端的显示界面示意图。客户端显示界面中包括的目标描述文本为“这是一款大容量带勺子的咖啡杯，其容量有500ml。这款咖啡杯样式丰富，有白色、暖调棕色，有条纹款、无条纹款。色彩柔和，简约大方。咖啡杯采用高釉烧制，安全放心，为您带来不一样的生活体验。”。

步骤610：在客户端显示目标描述文本，以使虚拟主播根据目标描述文本对目标商品进行介绍。

应用本说明书实施例的方案，获取目标商品的详情页数据，将详情页数据中的图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标商品的视觉属性信息，合并详情页数据中的文本数据和视觉属性信息，确定目标商品的商品属性集，将商品属性集输入预先训练的文本处理模型中，经文本处理模型生成目标商品的目标描述文本，在客户端显示目标描述文本，以使虚拟主播根据目标描述文本对目标商品进行介绍，将多模态数据与算法结合，应用到虚拟主播剧本构建流程中，用来指导符合直播场景特色的内容构建，并且支持多源文本数据与图像数据的输入，支持长文本生成，从而实现自动化生成的商品摘要。

与上述方法实施例相对应，本说明书还提供了文本生成装置实施例，图9示出了本说明书一个实施例提供的一种文本生成装置的结构示意图。如图9所示，该装置包括：

获取模块902，被配置为获取目标对象的图文数据，其中，图文数据包括图像数据和文本数据；

识别模块904，被配置为基于图像数据，识别目标对象的视觉属性信息，其中，视觉属性信息表征目标对象的显性特征；

确定模块906，被配置为根据文本数据和视觉属性信息，确定目标对象的对象属性集；

生成模块908，被配置为基于对象属性集，生成目标对象的目标描述文本。

可选地，获取模块902，进一步被配置为对目标对象的图文数据进行监测；在图文数据更新的情况下，获取目标对象的图文数据。

可选地，该装置还包括：调用模块，被配置为在客户端当前展示的对象为目标对象的情况下，从预设数据库中调用目标描述文本，其中，预设数据库用于存储生成的目标描述文本；在客户端显示目标描述文本；或者，对目标描述文本进行音频转换，生成并播放目标描述文本对应的音频数据。

可选地，目标对象包括目标商品；确定模块906，进一步被配置为根据文本数据和视觉属性信息，确定目标商品的商品属性集，其中，文本数据包括目标商品的标题、简介、产品参数中的至少一种；

生成模块908，进一步被配置为基于商品属性集，生成目标商品的目标描述文本。

可选地，生成模块908，进一步被配置为将对象属性集输入预先训练的文本处理模型中，经文本处理模型生成目标对象的目标描述文本；

该装置还包括：文本处理模型训练模块，被配置为获取第一样本集，其中，第一样本集中包括多个样本对象，每个样本对象携带样本文本数据和样本描述文本；识别每个样本描述文本，确定各样本对象的样本视觉属性信息；对每个样本文本数据进行数据增广，确定各样本对象的增广文本数据；基于多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得文本处理模型。

可选地，样本对象包括样本商品；文本处理模型训练模块，进一步被配置为从多个样本商品的直播间中提取各样本商品的直播数据，其中，直播数据包括视频数据和语音数据；对直播数据进行识别转换，生成各样本商品的样本描述文本；从多个样本商品的详情页中提取各样本商品的样本文本数据；根据多个样本商品的样本文本数据和样本描述文本，构建第一样本集。

可选地，文本处理模型训练模块，进一步被配置为合并每个样本对象的样本文本数据和样本视觉属性信息，确定各样本对象的初始训练样本；合并每个样本对象的增广文本数据和样本视觉属性信息，确定各样本对象的增广训练样本；利用多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得文本处理模型。

可选地，文本处理模型训练模块，进一步被配置为提取第一样本对象的第一初始训练样本和第一增广训练样本，其中，第一样本对象为第一样本集中的任一样本对象；将第一初始训练样本输入预设处理模型中，生成第一预测描述文本，并将第一增广训练样本输入预设处理模型中，生成第二预测描述文本；根据第一预测描述文本和第一样本描述文本计算第一损失值；根据第二预测描述文本和第一样本描述文本计算第二损失值；根据第一预测描述文本和第二预测描述文本计算第三损失值；基于第一损失值、第二损失值以及第三损失值，调整预设处理模型的模型参数，并返回执行提取第一样本对象的第一初始训练样本和第一增广训练样本的步骤；在达到第一训练停止条件的情况下，获得完成训练的文本处理模型。

可选地，预设处理模型包括编码器；该装置还包括：编码器训练模块，被配置为将第一初始训练样本输入编码器，生成第一特征向量；将第一样本描述文本输入编码器，生成第二特征向量；根据第一特征向量和第二特征向量，计算编码损失值；基于编码损失值，调整编码器的参数，并返回执行将第一初始训练样本输入编码器，生成第一特征向量的步骤；在达到第二训练停止条件的情况下，确定完成训练的编码器。

可选地，识别模块904，进一步被配置为将图像数据输入预先训练的图片分类模型中，经图片分类模型的分类识别，获得目标对象的视觉属性信息；

该装置还包括：图片分类模型训练模块，被配置为获取第二样本集，其中，第二样本集中包括多个样本对象，每个样本对象携带样本图像数据和样本描述文本；识别每个样本描述文本，确定各样本对象的样本视觉属性信息；利用多个样本对象的样本图像数据和样本视觉属性信息，训练预设分类模型，获得图片分类模型。

可选地，图片分类模型训练模块，进一步被配置为提取第二样本对象的第二样本图像数据和第二样本视觉属性信息，其中，第二样本对象为第二样本集中的任一样本对象；将第二样本图像数据输入预设分类模型中，获得第二样本对象的预测视觉属性信息；根据第二样本视觉属性信息和第二样本对象的预测视觉属性信息，计算预设分类模型的分类损失值；根据分类损失值，调整预设分类模型的模型参数，并返回执行提取第二样本对象的第二样本图像数据和第二样本视觉属性信息的步骤；在达到第三训练停止条件的情况下，获得完成训练的图片分类模型。

上述为本实施例的一种文本生成装置的示意性方案。需要说明的是，该文本生成装置的技术方案与上述的文本生成方法的技术方案属于同一构思，文本生成装置的技术方案未详细描述的细节内容，均可以参见上述文本生成方法的技术方案的描述。

图10示出了本说明书一个实施例提供的一种计算设备的结构框图。该计算设备1000的部件包括但不限于存储器1010和处理器1020。处理器1020与存储器1010通过总线1030相连接，数据库1050用于保存数据。

计算设备1000还包括接入设备1040，接入设备1040使得计算设备1000能够经由一个或多个网络1060通信。这些网络的示例包括公用交换电话网(PSTN，Public Switched Telephone Network)、局域网(LAN，Local Area Network)、广域网(WAN，Wide Area Network)、个域网(PAN，Personal Area Network)或诸如因特网的通信网络的组合。接入设备1040可以包括有线或无线的任何类型的网络接口(例如，网络接口卡(NIC，Network Interface Card))中的一个或多个，诸如IEEE802.11无线局域网(WLAN，Wireless Local Area Networks)无线接口、全球微波互联接入(Wi-MAX，World Interoperability for Microwave Access)接口、以太网接口、通用串行总线(USB，Universal Serial Bus)接口、蜂窝网络接口、蓝牙接口、近场通信(NFC，Near Field Communication)接口，等等。

在本说明书的一个实施例中，计算设备1000的上述部件以及图10中未示出的其他部件也可以彼此相连接，例如通过总线。应当理解，图10所示的计算设备结构框图仅仅是出于示例的目的，而不是对本说明书范围的限制。本领域技术人员可以根据需要，增添或替换其他部件。

计算设备1000可以是任何类型的静止或移动计算设备，包括移动计算机或移动计算设备(例如，平板计算机、个人数字助理、膝上型计算机、笔记本计算机、上网本等)、移动电话(例如，智能手机)、可佩戴的计算设备(例如，智能手表、智能眼镜等)或其他类型的移动设备，或者诸如台式计算机或PC的静止计算设备。计算设备1000还可以是移动式或静止式的服务器。

其中，处理器1020用于执行如下计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成方法的步骤。

上述为本实施例的一种计算设备的示意性方案。需要说明的是，该计算设备的技术方案与上述的文本生成方法的技术方案属于同一构思，计算设备的技术方案未详细描述的细节内容，均可以参见上述文本生成方法的技术方案的描述。

本说明书一实施例还提供一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现上述文本生成方法的步骤。

上述为本实施例的一种计算机可读存储介质的示意性方案。需要说明的是，该存储介质的技术方案与上述的文本生成方法的技术方案属于同一构思，存储介质的技术方案未详细描述的细节内容，均可以参见上述文本生成方法的技术方案的描述。

本说明书一实施例还提供一种计算机程序，其中，当所述计算机程序在计算机中执行时，令计算机执行上述文本生成方法的步骤。

上述为本实施例的一种计算机程序的示意性方案。需要说明的是，该计算机程序的技术方案与上述的文本生成方法的技术方案属于同一构思，计算机程序的技术方案未详细描述的细节内容，均可以参见上述文本生成方法的技术方案的描述。

上述对本说明书特定实施例进行了描述。其它实施例在所附权利要求书的范围内。在一些情况下，在权利要求书中记载的动作或步骤可以按照不同于实施例中的顺序来执行并且仍然可以实现期望的结果。另外，在附图中描绘的过程不一定要求示出的特定顺序或者连续顺序才能实现期望的结果。在某些实施方式中，多任务处理和并行处理也是可以的或者可能是有利的。

所述计算机指令包括计算机程序代码，所述计算机程序代码可以为源代码形式、对象代码形式、可执行文件或某些中间形式等。所述计算机可读介质可以包括：能够携带所述计算机程序代码的任何实体或装置、记录介质、U盘、移动硬盘、磁碟、光盘、计算机存储器、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、电载波信号、电信信号以及软件分发介质等。

需要说明的是，对于前述的各方法实施例，为了简便描述，故将其都表述为一系列的动作组合，但是本领域技术人员应该知悉，本说明书实施例并不受所描述的动作顺序的限制，因为依据本说明书实施例，某些步骤可以采用其它顺序或者同时进行。其次，本领域技术人员也应该知悉，说明书中所描述的实施例均属于优选实施例，所涉及的动作和模块并不一定都是本说明书实施例所必须的。

在上述实施例中，对各个实施例的描述都各有侧重，某个实施例中没有详述的部分，可以参见其它实施例的相关描述。

以上公开的本说明书优选实施例只是用于帮助阐述本说明书。可选实施例并没有详尽叙述所有的细节，也不限制该发明仅为所述的具体实施方式。显然，根据本说明书实施例的内容，可作很多的修改和变化。本说明书选取并具体描述这些实施例，是为了更好地解释本说明书实施例的原理和实际应用，从而使所属技术领域技术人员能很好地理解和利用本说明书。本说明书仅受权利要求书及其全部范围和等效物的限制。

Claims

一种文本生成方法，包括：

获取目标对象的图文数据，其中，所述图文数据包括图像数据和文本数据；

基于所述图像数据，识别所述目标对象的视觉属性信息，其中，所述视觉属性信息表征所述目标对象的显性特征；

根据所述文本数据和所述视觉属性信息，确定所述目标对象的对象属性集；

基于所述对象属性集，生成所述目标对象的目标描述文本。
根据权利要求1所述的方法，所述获取目标对象的图文数据的步骤，包括：

对所述目标对象的图文数据进行监测；

在所述图文数据更新的情况下，获取所述目标对象的图文数据。
根据权利要求1或2所述的方法，所述基于所述对象属性集，生成所述目标对象的目标描述文本的步骤之后，还包括：

在客户端当前展示的对象为所述目标对象的情况下，从预设数据库中调用所述目标描述文本，其中，所述预设数据库用于存储生成的所述目标描述文本；

在所述客户端显示所述目标描述文本；或者，对所述目标描述文本进行音频转换，生成并播放所述目标描述文本对应的音频数据。
根据权利要求1所述的方法，所述目标对象包括目标商品；所述根据所述文本数据和所述视觉属性信息，确定所述目标对象的对象属性集的步骤，包括：

根据所述文本数据和所述视觉属性信息，确定所述目标商品的商品属性集，其中，所述文本数据包括所述目标商品的标题、简介、产品参数中的至少一种；

所述基于所述对象属性集，生成所述目标对象的目标描述文本的步骤，包括：

基于所述商品属性集，生成所述目标商品的目标描述文本。
根据权利要求1所述的方法，所述基于所述对象属性集，生成所述目标对象的目标描述文本的步骤，包括：

将所述对象属性集输入预先训练的文本处理模型中，经所述文本处理模型生成所述目标对象的目标描述文本；

其中，所述文本处理模型的训练方式，包括：

获取第一样本集，其中，所述第一样本集中包括多个样本对象，每个样本对象携带样本文本数据和样本描述文本；

识别每个样本描述文本，确定各样本对象的样本视觉属性信息；

对每个样本文本数据进行数据增广，确定所述各样本对象的增广文本数据；

基于所述多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得所述文本处理模型。
根据权利要求5所述的方法，所述样本对象包括样本商品；所述获取第一样本集的步骤，包括：

从多个样本商品的直播间中提取各样本商品的直播数据，其中，所述直播数据包括视频数据和语音数据；

对所述直播数据进行识别转换，生成所述各样本商品的样本描述文本；

从所述多个样本商品的详情页中提取各样本商品的样本文本数据；

根据所述多个样本商品的样本文本数据和样本描述文本，构建所述第一样本集。
根据权利要求5所述的方法，所述基于所述多个样本对象的样本视觉属性信息、样本文本数据以及增广文本数据，训练预设处理模型，获得所述文本处理模型的步骤，包括：

合并每个样本对象的样本文本数据和样本视觉属性信息，确定各样本对象的初始训练样本；

合并每个样本对象的增广文本数据和样本视觉属性信息，确定各样本对象的增广训练样本；

利用所述多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得所述文本处理模型。
根据权利要求7所述的方法，所述利用所述多个样本对象的初始训练样本、增广训练样本以及样本描述文本，训练预设处理模型，获得所述文本处理模型的步骤，包括：

提取第一样本对象的第一初始训练样本和第一增广训练样本，其中，所述第一样本对象为所述第一样本集中的任一样本对象；

将所述第一初始训练样本输入预设处理模型中，生成第一预测描述文本，并将所述第一增广训练样本输入预设处理模型中，生成第二预测描述文本；

根据所述第一预测描述文本和第一样本描述文本计算第一损失值；

根据所述第二预测描述文本和所述第一样本描述文本计算第二损失值；

根据所述第一预测描述文本和所述第二预测描述文本计算第三损失值；

基于所述第一损失值、所述第二损失值以及所述第三损失值，调整所述预设处理模型的模型参数，并返回执行所述提取第一样本对象的第一初始训练样本和第一增广训练样本的步骤；

在达到第一训练停止条件的情况下，获得完成训练的文本处理模型。
根据权利要求8所述的方法，所述预设处理模型包括编码器；所述将所述第一初始训练样本输入预设处理模型中，生成第一预测描述文本，并将所述第一增广训练样本输入预设处理模型中，生成第二预测描述文本的步骤之前，还包括：

将所述第一初始训练样本输入所述编码器，生成第一特征向量；

将所述第一样本描述文本输入所述编码器，生成第二特征向量；

根据所述第一特征向量和所述第二特征向量，计算编码损失值；

基于所述编码损失值，调整所述编码器的参数，并返回执行所述将所述第一初始训练样本输入所述编码器，生成第一特征向量的步骤；

在达到第二训练停止条件的情况下，确定完成训练的所述编码器。
根据权利要求1所述的方法，所述基于所述图像数据，识别所述目标对象的视觉属性信息的步骤，包括：

将所述图像数据输入预先训练的图片分类模型中，经所述图片分类模型的分类识别，获得所述目标对象的视觉属性信息；

其中，所述图片分类模型的训练方式，包括：

获取第二样本集，其中，所述第二样本集中包括多个样本对象，每个样本对象携带样本图像数据和样本描述文本；

识别每个样本描述文本，确定各样本对象的样本视觉属性信息；

利用所述多个样本对象的样本图像数据和样本视觉属性信息，训练预设分类模型，获得所述图片分类模型。
根据权利要求10所述的方法，所述利用所述多个样本对象的样本图像数据和样本视觉属性信息，训练预设分类模型，获得所述图片分类模型的步骤，包括：

提取第二样本对象的第二样本图像数据和第二样本视觉属性信息，其中，所述第二样本对象为所述第二样本集中的任一样本对象；

将所述第二样本图像数据输入预设分类模型中，获得所述第二样本对象的预测视觉属性信息；

根据所述第二样本视觉属性信息和所述第二样本对象的预测视觉属性信息，计算所述预设分类模型的分类损失值；

根据所述分类损失值，调整所述预设分类模型的模型参数，并返回执行所述提取第二样本对象的第二样本图像数据和第二样本视觉属性信息的步骤；

在达到第三训练停止条件的情况下，获得完成训练的图片分类模型。
一种文本生成装置，包括：

获取模块，被配置为获取目标对象的图文数据，其中，所述图文数据包括图像数据和文本数据；

识别模块，被配置为基于所述图像数据，识别所述目标对象的视觉属性信息，其中，所述视觉属性信息表征所述目标对象的显性特征；

确定模块，被配置为根据所述文本数据和所述视觉属性信息，确定所述目标对象的对象属性集；

生成模块，被配置为基于所述对象属性集，生成所述目标对象的目标描述文本。
一种计算设备，包括：

存储器和处理器；

所述存储器用于存储计算机可执行指令，所述处理器用于执行所述计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述文本生成方法的步骤。
一种计算机可读存储介质，其存储有计算机可执行指令，该计算机可执行指令被处理器执行时实现权利要求1至11任意一项所述文本生成方法的步骤。