WO2022141142A1

WO2022141142A1 - 一种确定目标音视频的方法及系统

Info

Publication number: WO2022141142A1
Application number: PCT/CN2020/141192
Authority: WO
Inventors: 李少红; 李勇; 石世壮; 林俊江; 覃金诚
Original assignee: 浙江核新同花顺网络信息股份有限公司
Priority date: 2020-12-30
Filing date: 2020-12-30
Publication date: 2022-07-07

Abstract

本申请实施例公开了一种确定目标音视频的方法。该方法在计算设备上实现，计算设备具有至少一个处理器和至少一个存储设备。该方法包括以下步骤：获取与用户相关的对话信息；确定所述对话信息的对话特征信息；获取所述用户的用户特征信息；基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及基于所述至少一项目标属性，确定所述目标音视频。

Description

一种确定目标音视频的方法及系统

技术领域

本申请涉及音视频处理领域，特别涉及一种确定目标音视频的方法及系统。

背景技术

目前，人机对话技术已经广泛进入人类的日常生活中，可应用于智能客服机器人、智能音响、聊天机器人、智能家居等。通过人机语音对话方式可以实现用户需求。例如，用户可以通过智能客户机器人来解答问题。但是目前智能客服机器人与用户之间的对话方式为纯文本对话，或语音、文本、图片等形式相结合的即时消息方式。用户对于反馈的消息需要较高的理解和学习能力，用户往往不能直接基于反馈的消息解决问题。因此，期望提供一种智能生成音视频的方法和系统，能够通过音视频更直观地解答用户的问题或与用户进行对话。

发明内容

本申请的一个方面提供一种确定目标音视频的方法。该方法可以在计算设备上实现，所述计算设备可以具有至少一个处理器和至少一个存储设备。所述方法可以包括以下步骤：获取与用户相关的对话信息；确定所述对话信息的对话特征信息；获取所述用户的用户特征信息；基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；基于所述至少一项目标属性，确定所述目标音视频。

在一些实施例中，基于所述至少一项目标属性，确定所述目标音视频可以包括：获取数据库，所述数据库包括多个素材，所述多个素材包括以下中的至少一项素材：一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像；以及基于所述至少一项目标属性和所述数据库，确定所述目标音视频。

在一些实施例中，基于所述至少一项目标属性，确定所述目标音视频可以进一步包括：对于所述至少一项目标属性中的每一项，计算所述数据库中多个素材中的每个素材与所述目标属性的匹配度；对于所述数据库中多个素材中的每个素材，基于所述素材的对应于所述至少一项目标属性的至少一个匹配度，确定匹配总分；基于所述数据库中多个素材对应的多个匹配分数，从所述多个素材中，基于所述匹配分数，选择一个或多个目标素材；以及基于所述一个或多个目标素材，确定所述目标音视频。

在一些实施例中，基于所述至少一项目标属性，确定所述目标音视频可以进一步包括：基于所述一个或多个目标素材和所述至少一项目标属性，通过对所述一个或多个目标素材的基本属性进行调整来生成所述目标音视频。

在一些实施例中，所述目标音视频的至少一项目标属性可以包括内容属性、详细程度、理解难度、播放速度、画面色调或音色中的一项或多项。

在一些实施例中，基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性可以包括：获取至少一个训练后的目标属性确定模型；将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型；以及基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。

在一些实施例中，基于所述至少一项目标属性，确定所述目标音视频可以包括：获取训练后的素材确定模型；将所述对话特征信息输入所述素材确定模型；基于所述素材确定模型的输出，确定初始音视频；以及基于所述至少一项目标属性，通过对所述初始音视频的基本属性进行调整来生成所述目标音视频。

在一些实施例中，所述目标音视频可以包括一个或多个片段。

在一些实施例中，所述方法可以进一步包括：确定在所述目标音视频播放的过程中，用户是否提供了用户反馈；以及响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。

在一些实施例中，在所述目标音视频播放的过程中，所述用户提供的所述用户反馈可以包括以下中的一项或多项：暂停次数、暂停时长、回放次数、回放时长、快进次数、快进时长、慢播次数、慢播时长、是否提出新的问题以及是否提前结束播放。

在一些实施例中，所述用户特征信息可以包括用户个人信息，所述用户个人信息包括以下中的一项或多项：年龄、性别、学历、工作背景以及健康状况。

在一些实施例中，用户特征信息可以包括用户的偏好信息，所述用户的偏好信息可以包括所述用户的偏好设置、所述用户当前的情绪或所述用户过去针对历史音视频提供的历史用户反馈信息中的至少一项。

本申请的一个方面提供一种确定目标音视频的系统。所述系统可以包括：用于存储计算机指令的至少一个存储器；与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：获取与用户相关的对话信息；确定所述对话信息的对话特征信息；获取所述用户的用户特征信息；基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及基于所述至少一项目标属性，确定所述目标音视频。

在一些实施例中，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器可以使所述系统进一步执行：获取数据库，所述数据库包括多个素材，所述多个素材包括以下中的至少一项素材：一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像；以及基于所述至少一项目标属性和所述数据库，确定所述目标音视频。

在一些实施例中，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器可以使所述系统进一步执行：对于所述至少一项目标属性中的每一项，计算所述数据库中多个素材中的每个素材与所述目标属性的匹配度；对于所述数据库中多个素材中的每个素材，基于所述素材的对应于所述至少一项目标属性的至少一个匹配度，确定匹配总分；基于所述数据库中多个素材对应的多个匹配分数，从所述多个素材中，基于所述匹配分数，选择一个或多个目标素材；以及基于所述一个或多个目标素材，确定所述目标音视频。

在一些实施例中，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器可以使所述系统进一步执行：基于所述一个或多个目标素材和所述至少一项目标属性，通过对所述一个或多个目标素材的基本属性进行调整来生成所述目标音视频。

在一些实施例中，为基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性，所述至少一个处理器可以使所述系统进一步执行：获取至少一个训练后的目标属性确定模型；将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型；以及基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。

在一些实施例中，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器可以使所述系统进一步执行：获取训练后的素材确定模型；将所述对话特征信息输入所述素材确定模型；基于所述素材确定模型的输出，确定初始音视频；以及基于所述至少一项目标属性，通过对所述初始音视频的基本属性进行调整来生成所述目标音视频。

在一些实施例中，所述至少一个处理器可以使所述系统进一步执行：确定在所述目标音视频播放的过程中，用户是否提供了用户反馈；以及响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。

在一些实施例中，所述用户特征信息可以包括用户个人信息，所述用户个人信息可以包括以下中的一项或多项：年龄、性别、学历、工作背景以及健康状况。

在一些实施例中，所述用户特征信息可以包括用户的偏好信息，所述用户的偏好信息可以包括所述用户的偏好设置、所述用户当前的情绪或所述用户过去针对历史音视频提供的历史用户反馈信息中的至少一项。

本申请的一个方面提供一种确定目标音视频的装置。所述装置可以包括：获取模块，用于获取与用户相关的对话信息；确定模块，用于确定所述对话信息的对话特征信息；获取模块，用于获取所述用户的用户特征信息；确定模块，用于基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及确定模块，用于基于所述至少一项目标属性，确定所述目标音视频。

本申请的一个方面提供一种计算机可读存储介质。所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行方法。所述方法可以包括：获取与用户相关的对话信息；确定所述对话信息的对话特征信息；获取所述用户的用户特征信息；基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及基于所述至少一项目标属性，确定所述目标音视频。

附图说明

本申请将以示例性实施例的方式进一步说明，这些示例性实施例将通过附图进行详细描述。这些实施例并非限制性的，在这些实施例中，相同的编号表示相同的结构，其中：

图1是根据本申请的一些实施例所示的确定目标音视频的系统的场景图；

图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图；

图3是根据本申请的一些实施例所示的示例性终端设备的示意图；

图4是根据本申请的一些实施例所示的示例性处理设备的框图；

图5是根据本申请的一些实施例所示的确定目标音视频的示例性流程图；

图6是根据本申请一些实施例所示的确定与目标音视频对应的至少一项目标属性的流程图；

图7是根据本申请一些实施例所示的基于数据库确定目标音视频的流程图；

图8是根据本申请一些实施例所示的另一确定目标音视频的流程图；以及

图9是根据本申请一些实施例所示的终端与服务器进行交互的示意图。

具体实施方式

为了更清楚地说明本申请实施例的技术方案，下面将对实施例描述中所需要使用的附图作简单的介绍。显而易见地，下面描述中的附图仅仅是本申请的一些示例或实施例，对于本领域的普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图将本申请应用于其它类似情景。除非从语言环境中显而易见或另做说明，图中相同标号代表相同结构或操作。

应当理解，本文使用的“系统”、“装置”、“单元”和/或“模块”是用于区分不同级别的不同组件、元件、部件、部分或装配的一种方法。然而，如果其他词语可实现相同的目的，则可通过其他表达来替换所述词语。

如本申请和权利要求书中所示，除非上下文明确提示例外情形，“一”、“一个”、“一种”和/或“该”等词并非特指单数，也可包括复数。一般说来，术语“包括”与“包含”仅提示包括已明确标识的步骤和元素，而这些步骤和元素不构成一个排它性的罗列，方法或者设备也可能包含其它的步骤或元素。

本申请中使用了流程图用来说明根据本申请的实施例的系统所执行的操作。应当理解的是，前面或后面操作不一定按照顺序来精确地执行。相反，可以按照倒序或同时处理各个步骤。同时，也可以将其他操作添加到这些过程中，或从这些过程移除某一步或数步操作。

本申请披露了一种确定目标音视频的系统和方法。该方法可以包括获取与用户相关的对话信息；确定所述对话信息的对话特征信息；获取所述用户的用户特征信息；基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及基于所述至少一项目标属性，确定所述目标音视频。如本文中所使用的，术语“音视频”又称为A/V，表示音频或视频。通过用户特征信息以及目标属性，可以针对用户的需求提供目标音视频，从而给用户更好的体验。该方法可以进一步包括基于用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。根据用户在观看目标音视频的过程中的用户反馈，能够调整目标音视频的基本属性(例如，播放速度等)，给用户带来更好的观看体验。

图1是根据本申请的一些实施例所示的示例性确定目标音视频的系统的示意图。在一些实施例中，确定目标音视频的系统100(或简称为系统100)可以是用于人机对话的系统。例如，系统100可以应用于各种智能人机对话设备，包括但不限于智能客服机器人、智能音响、聊天机器人、智能家居设备(例如，智能电视、智能空调、智能扫地/拖地设备)、智能交通工具等。系统100还可以结合终端上的网页或APP为用户提供交互服务，例如系统100中的服务器110可以通过APP上的智能客服系统，为用户解答问题。本申请并不对此进行限制。在一些实施例中，系统100可包括服务器110、网络120、终端130和存储设备140。

在一些实施例中，服务器110可以是单个服务器，也可以是服务器组。所述服务器组可以是集中式的，也可以是分布式的(例如，服务器110可以是分布式的系统)。在一些实施例中，服务器110可以是本地的，也可以是远程的。例如，服务器110可以经由网络120访问存储在终端130和/或存储设备140中的信息和/或数据。又例如，服务器110可以直接连接到终端130和/或存储设备140以访问存储信息和/或数据。在一些实施例中，服务器110可以在云平台上实施。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。在一些实施例中，服务器110可以在包括图2中所示的一个或以上组件的计算设备200上实现。

在一些实施例中，服务器110可包括处理设备112。处理设备112可以处理与确定目标音视频相关的信息和/或数据以执行本申请描述的一个或以上功能。例如，处理设备112可以基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性。处理设备112还可以基于所述至少一项目标属性，确定所述目标音视频。在一些实施例中，所述处理设备112可包括一个或以上处理引擎(例如，单核处理引擎或多核处理引擎)。处理设备112可以包括中央处理单元(CPU)、专用集成电路(ASIC)、专用指令集处理器(ASIP)、图形处理单元(GPU)、物理处理单元(PPU)、数字信号处理器(DSP)、现场可编程门阵列(FPGA)、可编程逻辑器件(PLD)、控制器、微控制器单元、精简指令集计算机(RISC)、微处理器等，或其任意组合。在实施例中，处理设备112可以集成在终端130中。

网络120可以促进信息和/或数据的交换。在一些实施例中，系统100的一个或以上组件(例如，服务器110、终端130或存储设备140)可以经由网络120将信息和/或数据发送到系统100的其他组件。例如，服务器110可以经由网络120从终端130获得与用户相关的对话信息。在一些实施例中，网络120可以是有线网络或无线网络等或其任意组合。仅作为示例，网络120可以包括电缆网络、有线网络、光纤网络、电信网络、内部网络、互联网、局域网络(LAN)、广域网络(WAN)、无线局域网络(WLAN)、城域网(MAN)、公共交换电话网络(PSTN)、蓝牙网络、紫蜂网络、近场通信(NFC)网络等或其任意组合。在一些实施例中，网络120可以包括一个或以上网络接入点。例如，网络120可以包括有线或无线网络接入点，如基站和/或互联网交换点120-1、120-2、……。通过接入点，确定目标音视频的系统100的一个或以上部件可以连接到网络120以交换数据和/或信息。

在一些实施例中，用户可以是使用终端130的个体。用户可以使用终端130来进行对话、观看目标音视频等。在一些实施例中，终端130可以包括移动设备130-1、平板计算机 130-2、膝上型计算机130-3、车载设备130-4等或其任意组合。在一些实施例中，移动设备130-1可以包括智能家居设备、可穿戴设备、智能移动设备、虚拟现实设备、增强现实设备、智能客户机器人、聊天机器人、智能交通工具等，或其任意组合。在一些实施例中，智能家居设备可以包括智能照明设备、智能电器控制装置、智能监控设备、智能电视、智能摄像机、对讲机、智能音响、智能扫地/拖地设备等，或其任意组合。在一些实施例中，该可穿戴设备可包括智能手镯、智能鞋袜、智能眼镜、智能头盔、智能手表、智能衣服、智能背包、智能配件等或其任意组合。在一些实施例中，智能移动设备可以包括智能电话、个人数字助理(PDA)、游戏设备、导航设备、销售点(POS)等，或其任意组合。在一些实施例中，虚拟现实设备和/或增强型虚拟现实设备可以包括虚拟现实头盔、虚拟现实眼镜、虚拟现实眼罩、增强现实头盔、增强现实眼镜、增强现实眼罩等，或其任意组合。例如，虚拟现实设备和/或增强现实设备可以包括Google Glass ^TM、Oculus Rift ^TM、Hololens ^TM或Gear VR ^TM等。在一些实施例中，车载设备130-4可以包括车载计算机、车载电视等。

存储设备140可以存储与确定目标音视频有关的数据和/或指令。在一些实施例中，存储设备140可以存储从终端130获得的数据。在一些实施例中，存储设备140可以存储服务器110可以执行或使用的以执行本发明中描述的示例性方法的数据和/或指令。在一些实施例中，存储设备140可包括大容量存储器、可移动存储器、易失性读写内存、只读内存(ROM)等或其任意组合。示例性的大容量存储器可以包括磁盘、光盘、固态磁盘等。示例性可移动存储器可以包括闪存驱动器、软盘、光盘、内存卡、压缩盘、磁带等。示例性易失性读写内存可以包括随机存取内存(RAM)。示例性RAM可包括动态随机存取内存(DRAM)、双倍数据速率同步动态随机存取内存(DDR SDRAM)、静态随机存取内存(SRAM)、晶闸管随机存取内存(T-RAM)和零电容随机存取内存(Z-RAM)等。示例性ROM可以包括掩模型只读内存(MROM)、可编程只读内存(PROM)、可擦除可编程只读内存(EPROM)、电可擦除可编程只读内存(EEPROM)、光盘只读内存(CD-ROM)和数字多功能磁盘只读内存等。在一些实施例中，所述存储设备140可以在云平台上实现。仅作为示例，该云平台可以包括私有云、公共云、混合云、社区云、分布云、内部云、多层云等或其任意组合。

在一些实施例中，存储设备140可以连接到网络120，以与确定系统100的一个或以上组件(例如，服务器110、终端130)通信。确定系统100的一个或以上组件可以经由网络120访问存储设备140中存储的数据和/或指令。在一些实施例中，存储设备140可以直接连接到系统100的一个或以上组件(例如，服务器110、终端130)或与之通信。在一些实施例中，存储设备140可以是服务器110的一部分。

本领域普通技术人员将理解，当系统100的元件(或组件)执行时，元件可以通过电信号和/或电磁信号执行。例如，当终端130向服务器110发送用户对目标音视频的操作时，终端130的处理器可以生成一个编码请求的电信号。然后，终端130的处理器可以将电信号发送到输出端口。若终端130经由有线网络与服务器110通信，则输出端口可物理连接至电缆，其进一步将电信号传输给服务器110的输入端口。如果终端130经由无线网络与服务器110通信，则终端130的输出端口可以是一个或以上天线，其将电信号转换为电磁信号。在电子设备内，例如终端130和/或服务器110，当处理器处理指令、发出指令和/或执行动作时，指令和/或动作通过电信号进行。例如，当处理器从存储介质(例如，存储设备140)检索或保存数据时，它可以将电信号发送到存储介质的读/写设备，其可以在存储介质中读取或写入结构化数据。该结构数据可以通过电子设备的总线，以电信号的形式传输至处理器。此处，电信号可以指一个电信号、一系列电信号和/或至少两个不连续的电信号。

图2是根据本申请的一些实施例所示的示例性计算设备的示例性硬件和/或软件组件的示意图。在一些实施例中，服务器110、终端130可以是在计算设备200上执行。例如，处理设备112可以在计算设备200上实现，并且被配置用于执行本申请中披露的处理设备112的功能。

计算设备200可用于实现如本文所述的确定目标音视频的系统100的任何组件。例如，处理设备112可以在计算设备200上通过其硬件、软件程序、固件或其组合实现。尽管仅示出了一个这样的计算机，但是为了方便，与本文所述的人机对话技术有关的计算机功能可以在多个类似平台上以分布式方式实现，以分配处理负荷。

计算设备200可以包括连接到与其连接的网络的通信端口250，以便于数据通信。计算设备200还可以包括以一个或以上逻辑电路的形式执行程序指令的处理器220。例如，处理器220可以包括其中的接口电路和处理电路。接口电路可以被配置为从总线210接收电信号，其中电信号编码用于处理电路的结构化数据和/或指令。处理电路可以进行逻辑计算，然后将结论、结果和/或指令编码确定为电信号。然后，接口电路可以经由总线210从处理电路发出电信号。

计算设备200还可以包括不同形式的程序存储和数据存储，包括：例如磁盘270、只读内存(ROM)230或随机存取内存(RAM)240，用于存储由计算设备200处理和/或传输的各种数据文件。计算设备200还可以包括存储在ROM 230、RAM 240和/或由处理器220执行的其他类型的非暂时性存储介质中的程序指令。本申请的方法和/或流程可以以程序指令的方式实现。计算设备200还包括输入/输出组件260，用来支持计算机和其他组件之间进行输入/输出。计算设备200也可以通过网络通信接收编程和数据。

为了方便说明，图2中仅描述了一个处理器。也可以包括至少两个处理器，因此本申请中描述的由一个处理器执行的操作和/或方法步骤也可以由多个处理器共同地或单独执行。例如，如果在计算设备200的本申请处理器中执行操作A和操作B，应当理解，操作A和操作B也可以由计算设备200中的两个不同的CPU和/或处理器联合或分开执行(例如，第一处理器执行操作A，第二处理器执行操作B，或者第一和第二处理器共同执行操作A和B)。

图3是根据本申请的一些实施例所示的示例性移动设备的示例性硬件和/或软件组件的示意图。在一些实施例中，终端130可以在移动设备300上实现。如图3所示，移动设备300可以包括通信平台310、显示器320、图形处理单元(GPU)330、中央处理单元(CPU)340、输入/输出(I/O)350、内存360、移动操作系统(OS)370和存储器390。在一些实施例中，任何其他合适的组件，包括但不限于系统总线或控制器(未示出)，也可包括在移动设备300内。

在一些实施例中，移动操作系统370(如，iOS ^TM、Android ^TM、Windows Phone ^TM)和一个或以上应用程序380可以从存储器390加载到内存360中以便由CPU340执行。应用程序380可以包括浏览器或任何其他合适的移动应用程序，用于接收和呈现与确定目标音视频有关的信息或来自确定目标音视频的系统100的其他信息。用户与信息流的交互可以通过I/O 350实现，并通过网络120提供给处理设备112和/或确定目标音视频的系统100的其他组件。

为了实施本申请描述的各种模块、单元及其功能，计算机硬件平台可用作本文中描述的一个或以上组件的硬件平台。具有用户接口组件的计算机可用于实施个人计算机(PC)或任何其他类型的工作站或终端设备。若计算机被适当的程序化，计算机亦可用作服务器。

图4是根据本申请的一些实施例所示的示例性处理设备的框图。处理设备可以是图1所描述的示例性处理设备112。在一些实施例中，处理设备112可以基于至少一项目标属性，确定目标音视频。在一些实施例中，处理设备112可以在处理单元(例如，图2所示的处理器210或图3所示的CPU 340)上实现。仅作为示例，可以在终端设备的CPU 340上实现处理设备112。如图4所示，处理设备112可以包括获取模块410、确定模块420、以及训练模块430。

所述获取模块410可以获取与系统100有关的信息。例如，所述获取模块可以获取用户发出的对话信息和所述用户的用户特征信息。关于所述用户发出的对话信息和所述用户的用户特征信息的描述可以参考本申请其他地方的相关描述(例如，图5及其相关描述)，在此不再赘述。

所述确定模块420可以确定所述对话信息的对话特征信息。所述确定模块420可以基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性。所述确定模块420也可以基于所述至少一项目标属性，确定所述目标音视频。所述确定模块420还可以确定在所述目标音视频播放的过程中，用户是否提供了用户反馈。所述确定模块420还可以响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。关于对所述对话特征信息、所述至少一项目标属性、所述目标音视频、所述用户反馈、以及是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性的确定描述可以参考本申请其他地方的相关描述(例如，图5-8及其相关描述)，在此不再赘述。

所述训练模块430可以用于训练目标属性确定模型和素材确定模型。关于目标属性确定模型和素材确定模型的训练的描述可以参见本申请其他地方的相关描述(例如，图5、图8以及相关描述)，在此不再赘述。

应当理解，图4所示的系统及其模块可以利用各种方式来实现。例如，在一些实施例中，系统及其模块可以通过硬件、软件或者软件和硬件的结合来实现。其中，硬件部分可以利用专用逻辑来实现；软件部分则可以存储在存储器中，由适当的指令执行系统，例如微处理器或者专用设计硬件来执行。本领域技术人员可以理解上述的方法和系统可以使用计算机可执行指令和/或包含在处理器控制代码中来实现，例如在诸如磁盘、CD或DVD-ROM的载体介质、诸如只读存储器(固件)的可编程的存储器或者诸如光学或电子信号载体的数据载体上提供了这样的代码。本说明书的系统及其模块不仅可以有诸如超大规模集成电路或门阵列、诸如逻辑芯片、晶体管等的半导体、或者诸如现场可编程门阵列、可编程逻辑设备等的可编程硬件设备的硬件电路实现，也可以用例如由各种类型的处理器所执行的软件实现，还可以由上述硬件电路和软件的结合(例如，固件)来实现。

需要注意的是，以上对于处理设备400及其模块的描述，仅为描述方便，并不能把本说明书限制在所举实施例范围之内。可以理解，对于本领域的技术人员来说，在了解该系统的原理后，可能在不背离这一原理的情况下，对各个模块进行任意组合，或者构成子系统与其他模块连接。例如，在一些实施例中，图4中披露的获取模块、确定模块可以是一个系统中的不同模块，也可以是一个模块实现上述的两个或两个以上模块的功能。又例如，确定模块可以被细分为对话特征信息确定单元、目标属性确定单元以及目标音视频确定单元，分别用于实现确定对话特征信息、确定至少一项目标属性以及确定目标音视频。还例如，处理设备400中各个模块可以共用一个存储模块，各个模块也可以分别具有各自的存储模块。诸如此类的变形，均在本说明书的保护范围之内。在一些实施例中，图4中的训练模块可以省略。对一个或多个机器学习模型的训练过程可以由外部处理设备完成。

图5是根据本申请一些实施例所示的确定目标音视频的示例性流程图。在一些实施例中，过程500可以通过存储在存储设备(例如存储设备140，计算设备200的ROM 230或RAM 240，或移动设备300的存储器390或内存360)中的一组指令(例如，应用程序)来实现。例如，处理器220和/或图4中的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行过程500。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程500可以利用未描述的一个或以上附加操作和/或没有在此讨论的一个或以上操作来完成。另外，如图5所示和下面描述的过程操作的顺序不是限制性的。

在510中，处理设备112(例如，获取模块410)可以获取与用户相关的对话信息。

如本文所使用的，“与用户相关的对话信息”指用户通过终端发出的对话信息和/或用户通过终端接收到的对话信息。例如，用户发出的对话信息包括但不限于语音、文本、图片等形式。在一些实施例中，用户可以通过终端(例如图1所示的终端130)上的用户界面发出对话信息，与计算设备(例如计算设备200，服务器110)进行交互。例如，用户可以与智能客服机器人、聊天机器人等进行对话。在一些实施例中，处理设备112可以通过网络120从终端获取用户发出的对话信息。例如，处理设备112可以通过网络120实时从终端获取用户发出的对话信息。

在一些实施例中，处理设备112可以获取用户最新发出的对话信息和/或上下文对话信息。在一些实施例中，用户最新发出的对话信息可以包括一个或多个字或词、一句话、一段话、一条或多条语音消息、一张或多张图片等。用户最新发出的对话信息可以包括陈述句(例如，“你好”)、疑问句(例如，“系统如何使用”)等。仅作为示例，用户可以通过终端上的用户界面提出一个问题，处理设备112可以通过生成目标音视频来回答用户的问题。上下文对话信息可以包括用户在发送最新的消息之前，通过终端发送和接收到的连续的信息。例如，当用户通过终端发送一条信息后，处理设备112可以分析用户发送的信息，并将反馈信息(如文字、语音、图片、音视频等)发送至终端。用户可以基于该反馈信息，继续发送新的信息。在这种情况下，新的信息就是用户最新发出的对话信息，而上下文对话信息包括用户之前发送的信息及上述反馈信息(也称为两轮连续的对话信息)。在一些实施例中，上下文对话信息可以包括最新的多轮对话信息，也可以包括全部的对话信息。对话信息的轮数可预先设置在系统100中。

在520中，处理设备112(例如，确定模块420)可以确定对话信息的对话特征信息。

对话特征信息可以包括对话信息中的关键词、情绪等。在一些实施例中，处理设备112可以根据对话信息来确定对话特征信息。例如，处理设备112可以根据最新发出的对话信息来确定对话特征。若对话信息为文本，处理设备112可以根据关键词提取技术来提取对话信息中的关键词。示例性关键词提取技术可以包括但不限于Topic model、TFIDF、TextRank、RAKE等技术。若对话信息为语音，处理设备112可以通过语音识别技术将语音信息转换为本文，进而对转化的文本进行对话特征信息提取。

若对话信息为图片，处理设备112可以通过图像识别技术识别对话信息中的图片中的对话特征信息。例如，处理设备112可以识别图片中的文字，通过文字内容识别出关键词。再例如，处理设备112可以识别图片中的特征，从而判断出图片表达的情绪。例如，用户发出的图片为愤怒的表情，处理设备112可以从该图片中提取图像特征，从而判断出情绪内容。

在一些情况下，可通过对上下文对话信息来更准确地了解用户的问题或想要表达的内容。在一些实施例中，处理设备112可以根据上下文对话信息确定对话特征信息。通过对上下文对话信息进行分析，进行语义识别，可以确定出对话特征信息。具体地，处理设备112可以通过层次模型或非层次模型来确定对话特征信息。

在530中，处理设备112(例如，获取模块410)可以获取用户的用户特征信息。

用户特征信息可以包括用户个人信息、用户的偏好信息、用户的其他信息(例如，用户的爱好)等。

用户个人信息可以包括年龄、性别、学历、工作背景、健康状况、家庭住址、婚姻状况、教育背景等或其组合。例如，用户可以通过终端输入用户个人信息，例如，语音输入、文本输入等。处理设备112可以通过网络120从终端获取用户个人信息。再例如，终端上可以安装有APP，用户通过终端与APP进行交互，需要登录该APP。处理设备112可以通过终端获取用户的用户ID，并通过网络120从存储设备140获取该用户ID所对应的用户个人信息。

用户的偏好信息可以包括用户的偏好设置、用户当前的情绪或用户过去针对历史音视频提供的历史用户反馈信息。偏好设置可以包括用户对目标音视频播放速度的偏好设置(例如，慢速、正常、快速)、用户对目标音视频播放声音的偏好设置(例如，女声、男声)、用户对目标音视频播放内容的偏好设置(例如，简洁、详细)、用户对目标音视频播放画质(例如，蓝光、高清、标清)的偏好设置等。在一些实施例中，用户可以在终端提供用户的偏好设置。例如，终端130可以提供偏好设置选择页面供用户选择(例如通过上述APP提供)。在一些实施例中，用户的偏好设置可以被保存在存储设备140中。处理器112可以基于用户在该APP登录使用的用户ID，通过网络120从存储设备140获取该用户ID所对应的用户偏好信息。

用户当前的情绪可以包括快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶。或者，用户的情绪可以被归类为正面、负面、中性等。处理设备112可以根据对话信息识别用户当前的情绪。例如，当与用户相关的对话信息为文本信息时，处理设备112可以通过文本情感分析技术来识别用户当前的情绪。示例性文本情感分析技术可以包括但不限于基于关键词提取规则的技术、基于机器学习模型(例如，支持向量机、神经网络、Logistic回归等)的技术等或其组合。例如，处理设备112可以获取情绪关键词列表(例如，正面词、负面词或表达愤怒的词、表达快乐的词、表达悲伤的词等)，从文本中提取情绪关键词，与情绪关键词列表进行比较，从而确定出文本表达的情绪。

用户过去针对历史音视频提供的历史用户反馈信息可以包括用户对音视频的内容的反馈、对音视频播放声音的反馈、对音视频播放速度的反馈、对视频播放画质的反馈，对音视频播放过程的反馈等，或其任意组合。在一些实施例中，处理设备112可以通过用户对历史音视频的操作来判断历史用户反馈。例如，处理设备112可以通过用户对历史音视频进行的暂停、回放、快进等操作确定用户对音视频播放内容的反馈。又例如，处理设备112可以通过用户对历史音视频进行的调整播放速度的操作确定对音视频播放速度的反馈。再例如，处理设备112可以通过用户对历史视频进行的画质调整操作确定对视频播放画质的反馈。

在540中，处理设备112(例如，确定模块420)可以基于对话特征信息和用户特征信息，确定与目标音视频对应的至少一项目标属性。

在一些实施例中，目标属性可以包括但不限于语义信息、详细程度、理解难度、播放速度、播放声音的音色、播放画质、画面色调等或其组合。在一些实施例中，目标属性至少包括语义信息。语义信息指的是处理设备112根据用户的对话信息(例如一个问题)确定的反馈信息所要表达的含义。在一些实施例中，处理设备112可以根据提取的对话特征信息来确定语义信息。在一些实施例中，语义信息可以以关键词的形式表达。例如，基于用户最新发送的对话信息提取的关键词为“你好”，确定的语义信息可以是“问好”。

在一些实施例中，可以通过属性确定规则基于用户特征信息确定目标属性。属性确定规则可以用于确定全部的目标属性或单个的目标属性。

在一些实施例中，属性确定规则可以包括将单个用户特征信息与预设的参考信息(例如类别或阈值)进行比较，确定目标属性。可以通过单个用户特征信息确定单个或多个目标属性，也可以通过多个用户特征确定单个目标属性。例如，可以根据用户的年龄与年龄阈值比较来确定多个目标属性。若大于第一年龄阈值(例如，60岁)，则详细程度为详细，理解难度为简单，播放速度为慢速，音色为常规，画面色调为冷色调等沉稳色调。又例如，若用户的年龄小于第二年龄阈值(例如10岁)，则详细程度为详细，理解难度为简单，播放速度为慢速，音色为儿童喜欢的音色(如卡通人物的音色)，画面色调为暖色调。再例如，可以根据用户的学历与学历类别比较来确定理解难度。若学历属于小学生，则理解难度为较低。

在一些实施例中，属性确定规则可以包括将多个用户特征信息进行组合后与预设的参考信息进行比较，以确定单个目标属性。具体地，可以对多个用户特征信息赋予权重，以加权的方式进行组合。例如，用户年龄，用户学历，和用户的情绪三个特征可以进行组合，权重分别为0.3，0.4，0.3。用户年龄在18岁与50岁之间，则对应于年龄的理解难度评分为0.5(或适中)。学历为高中，则对应于学历的理解难度评分为0.3(或偏低)。情绪为暴躁或不耐烦，则对应于情绪的理解难度评分为0.3(或偏低)。对应于这三个用户特征的理解难度总分，可以是0.3*0.5+0.4*0.3+0.3*0.3＝0.36。在一些实施例中，可以用数值(例如该理解难度总分)来直接反映目标属性。在一些实施例中，可以用一个类别来反映目标属性。例如该总分偏低，则详细程度可以为偏低。

在一些实施例中，处理设备112还可以基于机器学习模型确定目标属性。具体地，处理设备112可以获取至少一个训练后的目标属性确定模型；将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型；以及基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。关于使用机器学习模型确定目标属性的相关内容可参考图6及其描述，在此不再赘述。

在550中，处理设备112(例如，确定模块420)可以基于至少一项目标属性，确定目标音视频。通过至少一项目标属性，可以给用户提供个性化目标音视频内容，给用户提供更好的观看体验，也更有助于用户解答问题，和/或提高用户人机交互的体验。

在一些实施例中，处理设备112可以从存储设备140中获取数据库。数据库可以包括多个素材，例如一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像中的至少一个。数据库中的每个素材都具有至少一项基本属性，例如语义信息、详细程度、理解难度、情绪属性等。处理设备112可以基于至少一项目标属性，从数据库中选取一个与目标属性匹配的目标音视频。例如，用户发出的对话信息为“这个系统怎么用？”；处理器提取的对话特征信息可以是“系统”和“怎么用”；处理器112通过网络120获取到用户的偏好设置，用户对目标音视频播放内容的偏好设置为详细；则处理器112确定的目标音视频可以是详细版的关于如何使用系统的视频。

在一些实施例中，当处理设备112确定数据库中没有与目标属性匹配的目标音视频时，可以从数据库中获取与目标属性匹配的一个或多个非音视频形式的素材，例如文字、图片等。可选地，处理器112可以直接将与目标属性匹配的文字或图片发送至终端，以与用户进行对话。处理器112还可以基于上述与目标属性匹配的一个或多个非音视频形式的素材，生成目标音视频。例如，处理器112可以基于文字生成语音，并将文字、图像和语音合成目标视频。根据数据库确定目标音视频的内容可以参考图7及其描述，在此不再赘述。

在一些实施例中，处理设备112可以根据机器学习模型基于至少一项目标属性确定目标音视频。关于根据机器学习模型确定目标音视频的内容可以参考图8及其描述，在此不再赘述。

在一些实施例中，目标音视频可以是单个视频。在一些实施例中，目标音视频可以包括多个按顺序排列的片段。终端播放所述目标音视频时，可以按顺序播放上述多个片段。例如，多个片段可以是内容相似的片段。处理器112可以从数据库中找到多个与目标属性匹配的音视频，并按照一定规则对多个音视频排序，组成一个完整的目标音视频。例如，处理器112可以按照音视频与目标属性的匹配度对上述多个音视频进行排序。再例如，处理器112可以按照目标属性中的某一项的数值对上述多个音视频进行排序，例如按照理解难度的值由低到高排序(即上述多个音视频的理解难度递增)。在一些实施例中，处理设备112可以根据机器学习模型(例如图8中描述的素材确定模型)，直接生成含有多个片段的目标音视频。

在560中，处理设备112(例如，确定模块420)可以确定在所述目标音视频播放的过程中，用户是否提供了用户反馈。

在所述目标音视频播放的过程中，用户提供的用户反馈可以包括暂停次数、暂停时长、回放次数、回放时长、快进次数、快进时长、慢播次数、慢播时长、是否提出新的问题、是否提前结束播放，等或其组合。这些用户反馈可以表明用户对于目标音视频的理解和吸收能力，和/或用户对目标音视频的接受程度(例如喜欢或不喜欢)。在一些实施例中，处理设备112可以通过用户在终端130上对目标音视频执行的操作来确定用户是否提供了用户反馈。例如，终端130可以确定用户在终端130对目标音视频的执行的暂停操作、回放操作、快进操作、慢播操作、关闭操作、发送新消息的操作等，继而通过网络120传输给处理设备112。具体地，终端130可以检测到用户对用户界面上的一些按钮的操作和/或用户在用户界面上的手势操作。例如终端130可以检测到用户对目标音视频点击的暂停按钮、回放、快进、慢速播放按钮、关闭按钮，确定执行暂停操作、回放操作、快进操作、慢播操作、关闭操作。例如，若用户对目标音视频的快进次数大于一定阈值(例如3次)，这可能反映了目标音视频内容对于用户来说过于简单易懂，或用户不喜欢目标音视频的内容，或用户偏好于较快的播放速度等。

在570中，处理设备112(例如，确定模块420)可以响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。通过确定用户是否提供了用户反馈，处理器112可以进一步优化目标音视频的内容，为用户提供更好的观看效果，提高用户体验。

在一些实施例中，未播放片段的基本属性可以与目标属性相对应。基本属性可以仅包括部分目标属性，例如，详细程度。基本属性还可以包括全部目标属性。基本属性可以包括语义信息、详细程度、理解难度、播放速度、播放声音、播放画质、画面色调等或其组合。当检测到用户反馈，处理设备112可以根据用户反馈来调整目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。在一些实施例中，可以通过属性调整规则来确定调整后的基本属性。属性调整规则可以类似于属性确定规则。在一些实施例中，属性调整规则可以包括用户反馈中单种类型的反馈是否大于阈值。仅作为示例，若暂停次数大于阈值(例如，3)，则可以将至少一个未播放片段调整为更详细的片段。若快进时长大于阈值(例如，3min)，则可以调整目标音视频至少一个未播放片段的播放速度，例如可以调整为1.5倍播放速度。应当注意的是，本申请并不限制属性确定规则和属性调整规则。

应该注意的是，关于过程500的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，过程500可以进一步包括将目标音视频存储到存储设备140中。再例如，过程500中操作560-570可以省略。

图6是根据本申请一些实施例所示的确定与目标音视频对应的至少一项目标属性的流程图。在一些实施例中，过程600的一个或者多个步骤可以被执行以获取图5中所述步骤540中所述的至少一项目标属性。在一些实施例中，过程600可以通过存储在存储设备(例如存储设备140，计算设备200的ROM 230或RAM 240，或移动设备300的存储器390或内存360)中的一组指令(例如，应用程序)来实现。例如，处理器220和/或图4中的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行过程500。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程600可以利用未描述的一个或以上附加操作和/或没有在此讨论的一个或以上操作来完成。另外，如图6所示和下面描述的过程操作的顺序不是限制性的。

在610中，处理设备112(例如，获取模块420)可以获取至少一个训练后的目标属性确定模型。

目标属性确定模型可以是用于确定与目标音视频对应的至少一项目标属性的模型，例如机器学习模型。在一些实施例中，所述至少一个目标属性确定模型可以包括深度学习模型，例如，深度神经网络(DNN)模型、卷积神经网络(CNN)模型、递归神经网络(RNN)模型、特征图金字塔网络(FPN)模型、Seq2Seq模型、长短期记忆(LSTM)模型等。仅仅作为示例，所述目标属性确定模型可以接收模型输入(例如，对话特征信息、用户特征新、和/或其他与用户有关的信息)，并且所述目标属性确定模型可以输出至少一项目标属性信息。在一些实施例中，所述目标属性确定模型可以输出一个音视频属性信息序列。例如，所述音视频属性信息序列可以包括按顺序排列的多组属性信息，其中所述多组属性信息中的每一组对应于目标音视频的一个片段。

在一些实施例中，处理设备112(例如，训练模块430)可以从系统100的一个或多个组件(例如，存储设备140、终端130)、或者第三方系统(例如，目标属性确定模型的供应方的数据库系统)中获取所述至少一个训练后的目标属性确定模型。例如，所述至少一个目标属性确定模型可以由计算设备(例如，处理设备112)提前训练好，并存储在系统100的存储器中(例如，存储设备140、存储器220、和/或存储器390)。处理设备112可以访问所述存储器并检索所述至少一个目标属性确定模型。在一些实施例中，所述至少一个目标属性确定模型可以根据一种或多种机器学习算法生成。所述一种或者多种机器学习算法可以包括但不限于人工神经网络算法、深度学习算法、决策树算法、关联规则算法、归纳逻辑编程算法、支持向量机算法、聚类算法、贝叶斯网络算法、强化学习算法、表示学习算法、相似性度量学习算法、稀疏字典学习算法、遗传算法、基于规则的机器学习算法等中一种或其任意组合。

仅仅作为示例，处理设备112或另一计算设备(例如，用于训练目标属性确定模型的外部计算设备)可以根据有监督学习算法来训练所述目标属性确定模型。处理设备112可以获取一个或多个第一训练样本和一个第一初始模型。每个第一训练样本可以包括样本用户的样本对话特征信息、样本用户特征信息、以及给用户播放的样本音视频的样本属性信息或者样本属性信息序列。待训练的第一初始模型可以包括一个或多个模型参数，例如层数、节点数、第一损失函数等或其任意组合。在训练之前第一初始模型可以具有一个或多个模型参数的初始参数值。

对第一初始模型的训练可以包括一个或多个第一迭代过程，以基于一个或多个第一训练样本来迭代更新第一初始模型的模型参数，直到在某一迭代过程中满足第一终止条件为止。示例性的第一终止条件可以是在某一迭代过程中获得的第一损失函数的值小于阈值、已经执行了一定数量的迭代过程、第一损失函数收敛使得在前一次迭代过程中所获取的第一损失函数的值与当前迭代过程中所获取的第一损失函数的值的差异在某个阈值范围内等。所述第一损失函数可以用于测量在一次迭代过程中由所述第一初始模型预测的音视频属性信息与样本音视频属性信息、或预测的音视频属性信息序列与样本音视频属性信息序列之间的差异。例如，可以将每个第一训练样本的样本用户的样本对话特征信息和样本用户特征信息输入到所述第一初始模型中，并且所述第一初始模型可以输出第一训练样本的预测音视频属性信息或预测音视频属性信息序列。所述第一损失函数可以用于测量每个第一训练样本的预测音视频属性信息与样本音视频属性信息、或预测音视频属性信息序列与样本音视频属性信息序列之间的差异。示例性的第一损失函数可以包括焦点损失函数、对数损失函数、交叉熵损失等。如果在当前迭代过程中不满足所述第一终止条件，则处理设备112可以进一步根据机器学习算法(例如，反向传播算法)更新用于下一迭代过程的第一初始模型。如果在当前迭代过程中满足所述第一终止条件，则处理设备112可以将当前迭代过程中的第一初始模型指定为所述目标属性确定模型。

在620中，处理设备112(例如，确定模块420)可以将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型。

在一些实施例中，处理设备112可以将步骤520确定的所述对话特征信息和步骤530确定的用户特征信息输入到一个目标属性确定模型中，该目标属性确定模型可以输出所有的音视频属性信息或者音视频属性信息序列。在一些实施例中，处理设备112可以将步骤520确定的所述对话特征信息和步骤530确定的用户特征信息输入到多个目标属性确定模型中，该多个目标属性确定模型中的每个目标属性确定模型可以输出对应的一项或多项音视频属性信息、或一项或多项音视频属性信息序列。例如，处理设备可以将步骤520确定的所述对话特征信息和步骤530确定的用户特征信息分别输入到第一目标属性确定模型和第二目标属性确定模型中，所述第一目标属性确定模型可以输出对应的一项或多项音视频属性信息或音视频属性信息序列，例如，语义信息、详细程度、理解难度，所述第二目标属性确定模型可以输出其余的音视频属性信息或者属性信息序列。

在一些实施例中，处理设备可以对所述对话特征信息和所述用户特征信息的至少一部分进行预处理，生成对应的模型输入特征序列，并将模型输入特征序列输入到所述至少一个目标属性确定模型中，以获取音视频属性信息或音视频属性信息序列。例如，处理设备112的预处理操作可以包括去除对判断句子语义无关的特殊字符，将对话中的部分非关键信息进行归一化并映射为统一的字符等。

步骤630，处理设备112(例如，确定模块420)可以基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。如步骤620所述，所述至少一个目标属性确定模型的输出可以是一项或者多项音视频属性信息或音视频属性信息序列。在一些实施例中，处理设备112可以获取所述至少一个目标属性确定模型的输出，并基于所获取的模型输出，确定所述至少一项目标属性。例如，处理设备112可以对所获取的一项或多项音视频属性信息进行排序，例如，按照重要性进行排序。根据实际需要，处理设备112可以进一步按照排列顺序选择一项或多项音视频属性信息(例如，排列靠前的一项或多项音视频属性信息)作为所述至少一项目标属性。

在一些实施例中，处理设备112可以将步骤520确定的对话特征信息和步骤530确定的用户特征信息的至少一部分发送到另外的计算设备(例如，目标属性确定模型的供应方的计算设备)。该计算设备可以基于获取的对话特征信息和用户特征信息生成一项或多项音视频属性信息，并将生成的一项或多项音视频属性信息发送到处理设备112。处理设备112可以基于接收到的一项或多项音视频属性信息，确定至少一项目标属性。

应该注意的是，关于过程600的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，过程600可以进一步包括对模型输出的获取步骤，或一个或多个存储步骤(例如，对模型的输入和输出结果进行存储)。

图7是根据本申请一些实施例所示的基于数据库确定目标音视频的流程图。在一些实施例中，过程700可以通过存储在存储设备(例如存储设备140，计算设备200的ROM 230或RAM 240，或移动设备300的存储器390或内存360)中的一组指令(例如，应用程序)来实现。例如，处理器220和/或图4中的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行过程700。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程700可以利用未描述的一个或以上附加操作和/或没有在此讨论的一个或以上操作来完成。另外，如图7所示和下面描述的过程操作的顺序不是限制性的。

在710中，处理设备112(例如，获取模块410)可以获取数据库。在一些实施例中，数据库可以是系统100预先制作并存储的数据库。数据库还可以是从外部资源中获取而形成的数据库，例如，基于网络120从外部存储设备获取的数据库。数据库可以包括视觉数据库、音频数据库、文本数据库、图片数据库等或其组合。

数据库可以用于提供目标音视频的候选内容。数据库中可以包括多个素材，例如，文字、图像、音频、视频。在一些实施例中，多个素材可以包括一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像等或其组合。在一些实施例中，多个素材中的候选内容可以是由处理设备112通过与用户相关的对话特征信息确定。例如，处理设备112可以根据对话信息中的关键词来确定候选内容。仅作为示例，若关键词为“系统，如何使用”，则多个素材可以包括与系统使用相关的多个候选内容。

在720中，处理设备112(例如，确定模块420)可以基于至少一项目标属性和数据库，确定目标音视频。

在一些实施例中，处理设备112可以通过将至少一项目标属性中的每一项与数据库中的素材进行匹配，基于匹配结果选择目标素材，从而确定目标音视频。例如，选择的目标素材可以是音视频，并且可以直接被指定为目标音视频。再例如，处理设备可以进一步按照目标属性来调整音视频形式的目标素材的至少部分基本属性，以生成目标视频，例如调整播放速度、播放声音、画面色调等。在一些实施例中，处理设备112可以基于目标素材，生成新的视频作为目标音视频。例如，处理设备112可以基于目标素材中的一段或多段目标文字生成目标音视频。具体地，处理设备112可以获取上述一段或多段目标文字的文本序列，然后基于文本序列生成对应的语音序列作为目标音频。又例如，处理设备112可以进一步基于该目标音频以及目标素材中的一张或多张目标图片，生成目标视频。处理设备112还可以基于上述目标素材的多种组合来确定目标音视频，例如基于从数据库中找到的多个目标图片与一个目标音频，生成目标视频。

在一些实施例中，为了确定目标素材，对于至少一项目标属性中的每一项，处理设备112可以计算数据库中多个素材中的每个素材的基本属性与各项目标属性的匹配度。匹配度可以以数字(例如，1-10)或等级(例如，高、中、低)表示。以一段候选文字作为素材为例，处理设备112需要计算此段候选文字的基本属性与每一项目标属性的匹配度。在一些实施例中，基本属性和目标属性可以用数值来表示。为了计算一个素材的一项基本属性与一项对应的目标属性之间的匹配度，处理器可以比较该素材的该项基本属性的数值与对应的目标属性的数值之间的差异(例如通过确定比值)。类似地，处理设备112可以计算候选文字的基本属性中的语义信息与目标属性中的语义信息的匹配度、候选文字的基本属性中的详细程度与目标属性中的详细程度的匹配度等。

基于计算出的每个素材的各项基本属性与各项目标属性的匹配度，处理设备112可以确定一项或多项匹配分数。在一些实施例中，一项基本属性与一项目标属性的匹配分数可以与匹配度成正相关(或负相关)。匹配分数可以是数字(例如，百分比)形式，例如30％，60％。在一些实施例中，处理设备112可以基于多个素材中的每个素材的一项或多项匹配分数，从多个素材中，选择一个或多个目标素材。例如，处理设备112可以将每个素材相对应目标属性的匹配分数进行求和得到匹配总分，再依照总匹配分数对各个素材进行排序。再例如，处理设备112可以将每个素材相对应目标属性的匹配分数取平均值，根据平均值对各个素材进行排序。又例如，可以对多项目标属性分配不同的权重值，将各个匹配分数与对应的目标属性的权重值相乘后进行加和得到匹配总分，根据匹配总分对各个素材进行排序。处理器112可以进一步根据排序结果选择对应的目标素材(例如，前20％，或前三个素材)。

在一些实施例中，处理设备112可以基于一个或多个目标素材和至少一项目标属性，通过对一个或多个目标素材的基本属性进行调整后，确定所述目标音视频。例如，所述一个或多个目标素材可以包括一个或多个初始音视频。处理设备112可以按照至少一项目标属性，对初始音视频的至少部分基本属性进行调整，例如可以调整初始音视频的播放速度、画面色调、声音音色等。

应当注意，关于过程700的以上描述仅是出于说明的目的而提供的，并且不旨在限制本申请的范围。对于本领域普通技术人员而言，可以在本申请的教导下进行多种变化和修改。然而，那些变化和修改不脱离本申请的范围。在一些实施例中，过程700可以利用一个或多个未描述的附加操作和/或本文未讨论的一个或多个操作来完成。附加地或可替代地，图7所示的过程700的操作顺序并非限制性的。

图8是根据本申请一些实施例所示的另一确定目标音视频的流程图。在一些实施例中，过程800可以通过存储在存储设备(例如存储设备140，计算设备200的ROM 230或RAM 240，或移动设备300的存储器390或内存360)中的一组指令(例如，应用程序)来实现。例如，处理器220和/或图4中的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行过程800。以下所示过程的操作仅出于说明的目的。在一些实施例中，过程800可以利用未描述的一个或以上附加操作和/或没有在此讨论的一个或以上操作来完成。另外，如图5所示和下面描述的过程操作的顺序不是限制性的。

在810中，处理设备112(例如，获取模块410)可以获取训练后的素材确定模型。所述素材确定模型可以是用于生成与目标音视频有关的目标素材的模型，例如机器学习模型。在一些实施例中，所述素材确定模型可以包括深度学习模型，例如，深度神经网络(DNN) 模型、卷积神经网络(CNN)模型、递归神经网络(RNN)模型、特征图金字塔网络(FPN)模型、Seq2Seq模型、长短期记忆(LSTM)模型等。仅仅作为示例，所述素材确定模型可以接收模型输入(例如，对话特征信息、和/或其他与用户有关的信息)，并且所述素材确定模型可以输出与目标音视频有关的一个或多个目标素材。所述与目标音视频有关的一个或多个目标素材可以包括一个或多个音频、一个或多个视频、一个或多个文字、一个或多个图像等。关于目标素材的相关内容可以参考图7及其描述，在此不再赘述。

在一些实施例中，处理设备112可以从系统100的一个或多个组件(例如，存储设备140、终端130)、或者第三方系统(例如，素材确定模型的供应方的数据库系统)中获取所述训练后的素材确定模型。例如，所述素材确定模型可以由计算设备(例如，处理设备112)提前训练好，并存储在系统100的存储器中(例如，存储设备140、存储器220、和/或存储器390)。处理设备112可以访问所述存储器并检索所述素材确定模型。在一些实施例中，所述素材确定模型可以根据本申请其他地方所描述的一种或多种机器学习算法生成(例如，图6中步骤610及其相关描述)。

仅仅作为示例，处理设备112(例如，训练模块430)或另一计算设备(例如，素材确定模型的供应方的计算设备)可以根据有监督学习算法来训练所述素材确定模型。处理设备112可以获取一个或多个第二训练样本和一个第二初始模型。每个第二训练样本可以包括样本用户的样本对话特征信息以及一个或多个样本音视频素材。待训练的第二初始模型可以包括一个或多个模型参数，例如层数、节点数、第二损失函数等或其任意组合。在训练之前第二初始模型可以具有一个或多个模型参数的初始参数值。

对第二初始模型的训练可以包括一个或多个第二迭代过程，以基于一个或多个第二训练样本来迭代更新第二初始模型的模型参数，直到在某一迭代过程中满足第二终止条件为止。示例性的第二终止条件可以是在某一迭代过程中获得的第二损失函数的值小于阈值、已经执行了一定数量的迭代过程、第二损失函数收敛使得在前一次迭代过程中所获取的第二损失函数的值与当前迭代过程中所获取的第二损失函数的值的差异在某个阈值范围内等。所述第二损失函数可以用于测量在一次迭代过程中由所述第二初始模型预测的一个或多个音视频素材与对应的样本音视频素材之间的差异。例如，可以将每个第二训练样本的样本用户的样本对话特征信息输入到所述第二初始模型中，并且所述第二初始模型可以输出训练样本的一个或多个预测音视频素材。所述第二损失函数可以用于测量每个训练样本的一个或多个预测音视频素材与对应的样本音视频素材之间的差异。示例性的第二损失函数可以包括焦点损失函数、对数损失函数、交叉熵损失等。如果在当前迭代过程中不满足所述第二终止条件，则处理设备112可以进一步根据机器学习算法(例如，反向传播算法)更新用于下一迭代过程的第二初始模型。如果在当前迭代过程中满足所述第二终止条件，则处理设备112可以将当前迭代过程中的第二初始模型指定为所述素材确定模型。

在820中，处理设备112(例如，确定模块420)可以将所述对话特征信息输入所述素材确定模型。

在一些实施例中，处理设备112可以将步骤520确定的所述对话特征信息直接输入到素材确定模型中，该素材确定模型可以输出一个或多个音视频素材。在一些实施例中，处理设备112可以将步骤520确定的所述对话特征信息进行编码生成对话特征信息序列，并将所述对话特征序列输入到所述素材确定模型，该素材确定模型可以输出对应的音视频素材序列。

在一些实施例中，处理设备可以对所述对话特征信息的至少一部分进行预处理，并将预处理后的所述对话特征信息的至少一部分输入到所述素材确定模型中以获取一个或多个音视频素材或者音视频素材序列。例如，处理设备112可以执行一个或多个预处理操作，例如，对所述对话特征信息进行预处理以生成对应的模型输入序列，去除对判断句子语义无关的特殊字符，将对话中的链接、地名等信息进行归一化并映射为统一的字符等。

在830中，处理设备112(例如，确定模块420)可以基于所述素材确定模型的输出，确定初始音视频。

如步骤820所述，所述素材确定模型的输出可以是一个或多个音视频素材或音视频素材序列。在一些实施例中，处理设备112可以获取所述素材确定模型的输出，并基于所获取的模型输出，确定所述初始音视频。例如，如果所述素材模型直接输出一个完整的音视频，则处理设备112将该音视频指定为所述初始音视频。又例如，如果所述素材模型输出的是两个或两个以上音视频片段、或由多个音视频片段组成的视频序列，处理设备112可以将所述两个或两个以上音视频片段、或者该音视频序列中的多个音视频片段按照一定的顺序进行拼接，以生成初始音视频。再例如，如果所述素材模型输出的是一个或多个图片、一个或多个音频，处理设备112可以将所述一个或多个图片与对应的一个或多个音频进行组合，以生成所述初始音视频。再例如，如果所述素材模型输出的是一个或多个图片、一个或多个文字，处理设备112可以将所述一个或多个图片与对应的一个或多个文字进行组合，以生成所述初始音视频。仅作为示例，所述素材确定模型的输出可以是一段文字，处理器112可以将这段文字转换为音频，并结合含有虚拟人物的画面生成一段视频，模拟虚拟人物与用户进行视频对话。这种方式有利于提高用户对话的兴趣，给用户带来良好的用户体验。例如，当用户是儿童时，处理器112可以生成含有卡通人物的视频，模拟卡通人物与用户进行视频对话。

在一些实施例中，处理设备112可以将步骤520确定的对话特征信息的至少一部分发送到另外的计算设备(例如，素材确定模型的供应方的计算设备)。该计算设备可以基于获取的对话特征信息生成一个或多个音视频素材，并将生成的一个或多个音视频素材发送到处理设备112。处理设备112可以基于接收到的一个或多个音视频素材，确定所述初始音视频。

步骤840，处理设备112(例如，确定模块420)可以基于所述至少一项目标属性，通过对所述初始音视频的基本属性进行调整来生成所述目标音视频。关于所述至少一项目标属性的确定可以参考本申请其他地方的描述(例如，图5、图6及其相关描述)，在此不再赘述。

在一些实施例中，处理设备112可以参照所述至少一项目标属性，确定需要调整的所述初始音视频的基本属性。处理设备112可以进一步确定需要调整的基本属性的可调范围。处理设备112可以进一步基于所述需要调整的基本属性的可调范围和所述对应的目标属性，对需要调整的基本属性进行调整，使得调整后的基本属性与对应的目标属性一致或相近。所基本属性可调范围指在一定范围内，可以对所述基本属性进行调整，例如，所述至少一项目标属性包括详细程度为详细、理解难度为简单、播放速度为慢速、播放声音为常规男声、画面色调为，所述初始音视频的基本属性包括详细程度为详细、理解难度为简单、播放速度为快速、播放声音为童声、画面色调为暖色调。处理设备112可以确定需要调整的基本属性包括播放速度和播放声音，并进行相应调整。处理设备112可以将调整后的初始音视频指定为所述目标音视频。如果所述初始音视频的基本属性与所述至少一项目标属性中的每一项匹配，则处理设备112可以直接将所述初始音视频指定为所述目标音视频。

应该注意的是，关于过程800的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。例如，过程800可以进一步包括一个发送步骤将所述目标音视频发送到目标终端，或一个或多个存储步骤(例如，对所述初始音视频、目标音视频进行存储)。

图9是根据本申请一些实施例所示的终端与服务器进行交互的示意图。在一些实施例中，图9所示的交互过程900以及示例性步骤可以通过存储在存储设备(例如存储设备140，计算设备200的ROM 230或RAM 240，或移动设备300的存储器390或内存360)中的一组指令(例如，应用程序)来实现。例如，处理器220和/或图4中的模块可以执行一组指令，并且当执行指令时，处理器220和/或模块可以被配置以执行交互过程900。以下所示过程的操作仅出于说明的目的。在一些实施例中，交互过程900可以利用未描述的一个或以上附加操作和/或没有在此讨论的一个或以上操作来完成。交互过程900仅作为示例，用于说明本申请的人机交互的整个应用流程，并不作为对本申请的限制。

交互过程900可以应用于各种智能人机对话的应用场景，包括但不限于用户与智能客服机器人、智能音响、聊天机器人、智能家居设备(例如，智能电视、智能空调、智能扫地/拖地设备)、智能交通工具、与终端上的网页或APP等进行对话的应用场景。根据交互过程900，用户可以通过终端130(例如，终端130上的用户界面)与服务器110(或服务器110中的处理设备112)进行交互。仅作为示例，用户可以通过终端130上的用户界面提出一个问题，处理设备112可以通过生成目标音视频来回答用户的问题，用户还可以对目标音视频提供用户反馈，从而优化目标音视频内容，更好地为用户服务。具体的，步骤901、905、908、909、9011由终端130执行，步骤902、903、904、906、907、9010、9012、9013由服务器110执行。

在901中，用户可以通过终端130接收用户输入的与用户相关的对话信息(或简称为对话信息)。“与用户相关的对话信息”指用户通过终端发出的对话信息和/或用户通过终端接收到的对话信息。例如，用户发出的对话信息包括但不限于语音、文本、图片等形式。终端130接收用户输入的对话信息后可以通过网络120传输到服务器110(例如，处理设备112)，从而获取对话信息。以终端130为智能客服机器人为例，用户可以通过智能客服机器人的用户界面输入与用户相关的对话信息(或简称为对话信息)，来与智能客服机器人进行对话。

在902中，处理设备112可以获取终端130发出的用户最新发出的对话信息和/或上下文对话信息。在一些实施例中，用户最新发出的对话信息可以包括一个或多个字或词、一句话、一段话、一条或多条语音消息、一张或多张图片等。用户最新发出的对话信息可以包括陈述句(例如，“你好”)、疑问句(例如，“系统如何使用”)等。上下文对话信息可以包括用户在发送最新的消息之前，通过终端发送和接收到的连续的信息。例如，当用户通过终端发送一条信息后，处理设备112可以分析用户发送的信息，并将反馈信息(如文字、语音、图片、音视频等)发送至终端。用户可以基于该反馈信息，继续发送新的信息。在这种情况下，新的信息就是用户最新发出的对话信息，而上下文对话信息包括用户之前发送的信息及上述反馈信息(也称为两轮连续的对话信息)。在一些实施例中，上下文对话信息可以包括最新的多轮对话信息，也可以包括全部的对话信息。对话信息的轮数可预先设置在系统100中。

处理设备112可以确定对话信息的对话特征信息。对话特征信息可以包括对话信息中的关键词、情绪等。在一些实施例中，处理设备112可以根据对话信息来确定对话特征信息。例如，处理设备112可以根据最新发出的对话信息来确定对话特征。若对话信息为文本，处理设备112可以根据关键词提取技术来提取对话信息中的关键词。示例性关键词提取技术可以包括但不限于Topic model、TFIDF、TextRank、RAKE等技术。若对话信息为语音，处理设备112可以通过语音识别技术将语音信息转换为本文，进而对转化的文本进行对话特征信息提取。

在一些实施例中，用户还可以通过终端输入用户特征信息。用户特征信息可以包括用户个人信息、用户的偏好信息、用户的其他信息(例如，用户的爱好)等。

用户个人信息可以包括年龄、性别、学历、工作背景、健康状况、家庭住址、婚姻状况、教育背景等或其组合。例如，用户可以通过语音输入、文本输入等输入。示例性的，终端可以提供用户个人信息的表达供用户进行填写。处理设备112可以通过网络120从终端获取用户个人信息。再例如，终端上可以安装有APP，用户通过终端与APP进行交互，需要登录该APP。处理设备112可以通过终端获取用户的用户ID，并通过网络120从存储设备140获取该用户ID所对应的用户个人信息。

用户的偏好信息可以包括用户的偏好设置、用户当前的情绪或用户过去针对历史音视频提供的历史用户反馈信息。偏好设置可以包括用户对目标音视频播放速度的偏好设置(例如，慢速、正常、快速)、用户对目标音视频播放声音的偏好设置(例如，女声、男声)、用户对目标音视频播放内容的偏好设置(例如，简洁、详细)、用户对目标音视频播放画质(例如，蓝光、高清、标清)的偏好设置等。在一些实施例中，用户可以在终端提供用户的偏好设置，例如，终端130可以提供偏好设置选择页面供用户选择(例如通过上述APP提供)。在一些实施例中，用户的偏好设置可以被保存在存储设备140中。处理器112可以基于用户在该APP登录使用的用户ID，通过网络120从存储设备140获取该用户ID所对应的用户偏好信息。

用户当前的情绪可以包括快乐、喜欢、悲伤、惊讶、愤怒、恐惧、厌恶。或者，用户的情绪可以被归类为正面、负面、中性等。处理设备112可以根据对话信息识别用户当前的情绪。例如，当与用户相关的对话信息为文本信息时，处理设备112可以通过文本情感分析技术来识别用户当前的情绪。示例性文本情感分析技术可以包括但不限于基于关键词提取规则的技术、基于机器学习模型的技术等或其组合。例如，处理设备112可以获取情绪关键词列表(例如，正面词、负面词或表达愤怒的词、表达快乐的词、表达悲伤的词等)，从文本中提取情绪关键词，与情绪关键词列表进行比较，从而确定出文本表达的情绪。

用户过去针对历史音视频提供的历史用户反馈信息可以包括用户对音视频的内容的反馈、对音视频播放声音的反馈、对音视频播放速度的反馈、对视频播放画质的反馈，对音视频播放过程的反馈等，或其任意组合。在一些实施例中，终端130可以存储用户对历史音视频进行的操作，处理设备112可以通过访问终端130获取用户对历史音视频的操作，从而判断历史用户反馈。例如，终端130可以存储有用户对历史音视频进行的暂停、回放、快进等操作，处理设备112可以通过获取用户对历史音视频进行的暂停、回放、快进等操作确定用户对音视频播放内容的反馈。又例如，终端130可以存储有用户对历史音视频进行的调整播放速度的操作，处理设备112可以获取用户对历史音视频进行的调整播放速度的操作确定对音视频播放速度的反馈。再例如，终端130可以存储有用户对历史视频进行的调整播放速度的操作，处理设备112可以通过用户对历史视频进行的画质调整操作确定对视频播放画质的反馈。

在903中，处理设备112可以基于对话特征信息和用户特征信息，确定与目标音视频对应的至少一项目标属性。在一些实施例中，目标属性可以包括但不限于语义信息、详细程度、理解难度、播放速度、播放声音的音色、播放画质、画面色调等或其组合。在一些实施例中，目标属性至少包括语义信息。语义信息指的是处理设备112根据用户的对话信息(例如一个问题)确定的反馈信息所要表达的含义。在一些实施例中，处理设备112可以根据提取的对话特征信息来确定语义信息。在一些实施例中，语义信息可以以关键词的形式表达。例如，基于用户最新发送的对话信息提取的关键词为“你好”，确定的语义信息可以是“问好”。

在一些实施例中，属性确定规则可以包括将单个用户特征信息与预设的参考信息(例如类别或阈值)进行比较，确定目标属性。可以通过单个用户特征信息确定单个或多个目标属性，也可以通过多个用户特征确定单个目标属性。例如，可以根据用户的年龄与年龄阈值比较来确定多个目标属性，若大于第一年龄阈值(例如，60岁)，则详细程度为详细，理解难度为简单，播放速度为慢速，音色为常规，画面色调为冷色调等沉稳色调。又例如，若用户的年龄小于第二年龄阈值(例如10岁)，则详细程度为详细，理解难度为简单，播放速度为慢速，音色为儿童喜欢的音色(如卡通人物的音色)，画面色调为暖色调。再例如，可以根据用户的学历与学历类别比较来确定理解难度，若学历属于小学生，则理解难度为较低。

在904中，处理设备112可以基于至少一项目标属性，判断是否可以确定目标音视频。

在906中，若可以确定目标音视频，处理设备112可以基于至少一项目标属性，自动确定目标音视频。通过至少一项目标属性，可以给用户提供个性化目标音视频内容，给用户提供更好的观看体验，也更有助于用户解答问题，和/或提高用户人机交互的体验。

处理器112还可以基于上述与目标属性匹配的一个或多个非音视频形式的素材，生成目标音视频。例如，处理器112可以基于文字生成语音，并将文字、图像和语音合成目标视频。根据数据库确定目标音视频的内容可以参考图7及其描述，在此不再赘述。

在907中，若不可以确定目标音视频，处理设备112可以自动生成非音视频形式的素材。在一些实施例中，当处理设备112确定数据库中没有与目标属性匹配的目标音视频时，可以从数据库中获取与目标属性匹配的一个或多个非音视频形式的素材，例如文字、图片等。在一些实施例中，若用户提出的问题比较简单，处理器112也可以直接判定为不需要确定目标音视频，从而执行步骤907。可选地，处理器112可以直接将与目标属性匹配的文字或图片发送至终端，以与用户进行对话。

在905中，终端130可以通过网络120接收自动生成的目标音视频或非音视频形式素材。在908中，对于接收的目标音视频，用户可以通过终端130(例如，点击)播放目标音视频。在909中，终端130也可以设置为自动播放目标音视频。在播放目标音视频的过程中，终端130可以接收用户提供的用户反馈。用户提供的用户反馈可以包括暂停次数、暂停时长、回放次数、回放时长、快进次数、快进时长、慢播次数、慢播时长、是否提出新的问题、是否提前结束播放，等或其组合。这些用户反馈可以表明用户对于目标音视频的理解和吸收能力，和/或用户对目标音视频的接受程度(例如喜欢或不喜欢)。

在9010中，处理设备112可以通过用户在终端130上对目标音视频执行的操作来获取用户反馈。例如，终端130可以确定用户在终端130对目标音视频的执行的暂停操作、回放操作、快进操作、慢播操作、关闭操作、发送新消息的操作等，继而通过网络120传输给处理设备112。具体地，终端130可以检测到用户对用户界面上的一些按钮的操作和/或用户在用户界面上的手势操作。例如终端130可以检测到用户对目标音视频点击的暂停按钮、回放、快进、慢速播放按钮、关闭按钮，确定执行暂停操作、回放操作、快进操作、慢播操作、关闭操作。例如，若用户对目标音视频的快进次数大于一定阈值(例如3次)，这可能反映了目标音视频内容对于用户来说过于简单易懂，或用户不喜欢目标音视频的内容，或用户偏好于较快的播放速度等。

在9012中，处理设备112可以自动调整目标音视频的未播放片段。例如，响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，处理设备112可以基于所述用户反馈，自动调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。通过确定用户是否提供了用户反馈，处理器112可以进一步优化目标音视频的内容，为用户提供更好的观看效果，提高用户体验。

在一些实施例中，未播放片段的基本属性可以与目标属性相对应。基本属性可以仅包括部分目标属性，例如，详细程度。基本属性还可以包括全部目标属性。基本属性可以包括语义信息、详细程度、理解难度、播放速度、播放声音、播放画质、画面色调等或其组合。当检测到用户反馈，处理设备112可以根据用户反馈来调整目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。在一些实施例中，可以通过属性调整规则来确定调整后的基本属性。属性调整规则可以类似于属性确定规则。在一些实施例中，属性调整规则可以包括用户反馈中单种类型的反馈是否大于阈值。仅作为示例，若暂停次数大于阈值(例如，3)，则可以将至少一个未播放片段调整为更详细的片段。若快进时长大于阈值(例如，3min)，则可以调整目标音视频至少一个未播放片段的播放速度，例如可以调整为1.5倍播放速度。

在9011中，终端130可以通过网络120接收调整后的目标音视频。在一些实施例中，调整后的目标音视频可以将原先的目标音视频覆盖。在一些实施例中，调整后的目标音视频可以是新生成的目标音视频。附加地或可选地，终端130还可以给出调整后的目标音视频的提示。例如，显示调整目标音视频的基本属性(例如，显示“已将播放速度调整为1.5倍”)。

在909中，在一些实施例中，用户还可以通过终端130对调整后的目标音视频提供用户反馈，终端130可以继续接收用户反馈，从而再一次执行过程9010-9011中的步骤，直至用户不再提供用户反馈。

在9013中，处理器112可以确定客户是否还需要发送其他对话信息。例如，终端130 可以在其界面上显示对话框，询问用户是否还需要发送其他对话信息。例如，界面上可以显示“您还有其他问题吗？”若是，则再次执行步骤901中的内容，用户可以进一步输入对话信息。若否，则交互过程结束。界面上可以显示结束语，例如，“本次对话结束，谢谢”。

该注意的是，关于交互过程900的描述出于说明性目的，并不用于限制本申请的保护范围。对于本领域的技术人员来说，可以在本申请的指示下做出多个变体和修改。然而，这些变体和修改不会脱离本申请的保护范围。

需要说明的是，不同实施例可能产生的有益效果不同，在不同的实施例里，可能产生的有益效果可以是以上任意一种或几种的组合，也可以是其他任何可能获得的有益效果。

以上内容描述了本申请和/或一些其他的示例。根据上述内容，本申请还可以做出不同的变形。本申请披露的主题能够以不同的形式和例子所实现，并且本申请可以被应用于大量的应用程序中。后文权利要求中所要求保护的所有应用、修饰以及改变都属于本申请的范围。

同时，本申请使用了特定词语来描述本申请的实施例。如“一个实施例”、“一实施例”、和/或“一些实施例”意指与本申请至少一个实施例相关的某一特征、结构或特点。因此，应强调并注意的是，本说明书中在不同位置两次或多次提及的“一实施例”、或“一个实施例”、或“一替代性实施例”并不一定是指同一实施例。此外，本申请的一个或多个实施例中的某些特征、结构或特点可以进行适当的组合。

本领域技术人员能够理解，本申请所披露的内容可以出现多种变型和改进。例如，以上所描述的不同系统组件都是通过硬件设备所实现的，但是也可能只通过软件的解决方案得以实现。例如：在现有的服务器上安装系统。此外，这里所披露的位置信息的提供可能是通过一个固件、固件/软件的组合、固件/硬件的组合或硬件/固件/软件的组合得以实现。

所有软件或其中的一部分有时可能会通过网络进行通信，如互联网或其他通信网络。此类通信能够将软件从一个计算机设备或处理器加载到另一个。例如：从放射治疗系统的一个管理服务器或主机计算机加载至一个计算机环境的硬件平台，或其他实现系统的计算机环境，或与提供确定轮椅目标结构参数所需要的信息相关的类似功能的系统。因此，另一种能够传递软件元素的介质也可以被用作局部设备之间的物理连接，例如光波、电波、电磁波等，通过电缆、光缆或者空气实现传播。用来载波的物理介质如电缆、无线连接或光缆等类似设备，也可以被认为是承载软件的介质。在这里的用法除非限制了有形的“储存”介质，其他表示计算机或机器“可读介质”的术语都表示在处理器执行任何指令的过程中参与的介质。

本申请各部分操作所需的计算机程序编码可以用任意一种或多种程序语言编写，包括面向对象编程语言如Java、Scala、Smalltalk、Eiffel、JADE、Emerald、C++、C#、VB.NET、Python等，常规程序化编程语言如C语言、Visual Basic、Fortran 2003、Perl、COBOL 2002、PHP、ABAP，动态编程语言如Python、Ruby和Groovy，或其他编程语言等。该程序编码可以完全在用户计算机上运行、或作为独立的软件包在用户计算机上运行、或部分在用户计算机上运行部分在远程计算机运行、或完全在远程计算机或服务器上运行。在后种情况下，远程计算机可以通过任何网络形式与用户计算机连接，例如，局域网(LAN)或广域网(WAN)、或连接至外部计算机(例如通过因特网)、或在云计算环境中、或作为服务使用如软件即服务(SaaS)。

此外，除非权利要求中明确说明，本申请所述处理元素和序列的顺序、数字字母的使用、或其他名称的使用，并非用于限定本申请流程和方法的顺序。尽管上述披露中通过各种示例讨论了一些目前认为有用的发明实施例，但应当理解的是，该类细节仅起到说明的目的，附加的权利要求并不仅限于披露的实施例，相反，权利要求旨在覆盖所有符合本申请实施例实质和范围的修正和等价组合。例如，虽然以上所描述的系统组件可以通过硬件设备实现，但是也可以只通过软件的解决方案得以实现，如在现有的服务器或移动设备上安装所描述的系统。

同理，应当注意的是，为了简化本申请披露的表述，从而帮助对一个或多个发明实施例的理解，前文对本申请实施例的描述中，有时会将多种特征归并至一个实施例、附图或对其的描述中。但是，这种披露方法并不意味着本申请对象所需要的特征比权利要求中提及的特征多。实际上，实施例的特征要少于上述披露的单个实施例的全部特征。

一些实施例中使用了描述属性、数量的数字，应当理解的是，此类用于实施例描述的数字，在一些示例中使用了修饰词“大约”、“近似”或“大体上”来修饰。除非另外说明，“大约”、“近似”或“大体上”表明所述数字允许有±20％的变化。相应地，在一些实施例中，说明书和权利要求中使用的数值参数均为近似值，该近似值根据个别实施例所需特点可以发生改变。在一些实施例中，数值参数应考虑规定的有效数位并采用一般位数保留的方法。尽管本申请一些实施例中用于确认其范围广度的数值域和参数为近似值，在具体实施例中，此类数值的设定在可行范围内尽可能精确。

针对本申请引用的每个专利、专利申请、专利申请公开物和其他材料，如文章、书籍、说明书、出版物、文档、物件等，特将其全部内容并入本申请作为参考。与本申请内容不一致或产生冲突的申请历史文件除外，对本申请权利要求最广范围有限制的文件(当前或之后附加于本申请中的)也除外。需要说明的是，如果本申请附属材料中的描述、定义、和/或术语的使用与本申请所述内容有不一致或冲突的地方，以本申请的描述、定义和/或术语的使用为准。

最后，应当理解的是，本申请中所述实施例仅用以说明本申请实施例的原则。其他的变形也可能属于本申请的范围。因此，作为示例而非限制，本申请实施例的替代配置可视为与本申请的教导一致。相应地，本申请的实施例不限于本申请明确介绍和描述的实施例。

Claims

一种确定目标音视频的方法，在计算设备上实现，所述计算设备具有至少一个处理器和至少一个存储设备，其特征在于，所述方法包括以下步骤：

获取与用户相关的对话信息；

确定所述对话信息的对话特征信息；

获取所述用户的用户特征信息；

基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及

基于所述至少一项目标属性，确定所述目标音视频。
如权利要求1所述的方法，其特征在于，所述基于所述至少一项目标属性，确定所述目标音视频包括：

获取数据库，所述数据库包括多个素材，所述多个素材包括以下中的至少一项素材：一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像；以及

基于所述至少一项目标属性和所述数据库，确定所述目标音视频。
如权利要求2所述的方法，其特征在于，所述基于所述至少一项目标属性，确定所述目标音视频进一步包括：

对于所述至少一项目标属性中的每一项，

计算所述数据库中多个素材中的每个素材与所述目标属性的匹配度；

对于所述数据库中多个素材中的每个素材，

基于所述素材的对应于所述至少一项目标属性的至少一个匹配度，确定匹配总分；

基于所述数据库中多个素材对应的多个匹配分数，从所述多个素材中，基于所述匹配分数，选择一个或多个目标素材；以及

基于所述一个或多个目标素材，确定所述目标音视频。
如权利要求3所述的方法，其特征在于，所述基于所述至少一项目标属性，确定所述目标音视频进一步包括：

基于所述一个或多个目标素材和所述至少一项目标属性，通过对所述一个或多个目标素材的基本属性进行调整来生成所述目标音视频。
如权利要求1所述的方法，其特征在于，所述目标音视频的至少一项目标属性包括内容属性、详细程度、理解难度、播放速度、画面色调或音色中的一项或多项。
如权利要求1所述的方法，其特征在于，所述基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性包括：

获取至少一个训练后的目标属性确定模型；

将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型；以及

基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。
如权利要求1所述的方法，其特征在于，基于所述至少一项目标属性，确定所述目标音视频包括：

获取训练后的素材确定模型；

将所述对话特征信息输入所述素材确定模型；

基于所述素材确定模型的输出，确定初始音视频；以及

基于所述至少一项目标属性，通过对所述初始音视频的基本属性进行调整来生成所述目标音视频。
如权利要求1所述的方法，其特征在于，所述目标音视频包括一个或多个片段。
如权利要求8所述的方法，其特征在于，所述方法进一步包括：

确定在所述目标音视频播放的过程中，用户是否提供了用户反馈；以及

响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，

基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。
如权利要求9所述的方法，其特征在于，在所述目标音视频播放的过程中，所述用户提供的所述用户反馈包括以下中的一项或多项：暂停次数、暂停时长、回放次数、回放时长、快进次数、快进时长、慢播次数、慢播时长、是否提出新的问题以及是否提前结束播放。
如权利要求1所述的方法，其特征在于，所述用户特征信息包括用户个人信息，所述用户个人信息包括以下中的一项或多项：年龄、性别、学历、工作背景以及健康状况。
如权利要求1所述的方法，所述用户特征信息包括用户的偏好信息，所述用户的偏好信息包括所述用户的偏好设置、所述用户当前的情绪或所述用户过去针对历史音视频提供的历史用户反馈信息中的至少一项。
一种确定目标音视频的系统，其特征在于，所述系统包括：

用于存储计算机指令的至少一个存储器；

与所述存储器通讯的至少一个处理器，其中当所述至少一个处理器执行所述计算机指令时，所述至少一个处理器使所述系统执行：

获取与用户相关的对话信息；

确定所述对话信息的对话特征信息；

获取所述用户的用户特征信息；

基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及

基于所述至少一项目标属性，确定所述目标音视频。
如权利要求13所述的系统，其特征在于，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器使所述系统进一步执行：

获取数据库，所述数据库包括多个素材，所述多个素材包括以下中的至少一项素材：一个或多个候选音频、一个或多个候选视频、一个或多个候选文字、一个或多个候选图像；以及

基于所述至少一项目标属性和所述数据库，确定所述目标音视频。
如权利要求14所述的系统，其特征在于，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器使所述系统进一步执行：

对于所述至少一项目标属性中的每一项，

计算所述数据库中多个素材中的每个素材与所述目标属性的匹配度；

对于所述数据库中多个素材中的每个素材，

基于所述素材的对应于所述至少一项目标属性的至少一个匹配度，确定匹配总分；

基于所述数据库中多个素材对应的多个匹配分数，从所述多个素材中，基于所述匹配分数，选择一个或多个目标素材；以及

基于所述一个或多个目标素材，确定所述目标音视频。
如权利要求15所述的系统，其特征在于，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器使所述系统进一步执行：

基于所述一个或多个目标素材和所述至少一项目标属性，通过对所述一个或多个目标素材的基本属性进行调整来生成所述目标音视频。
如权利要求13所述的系统，其特征在于，所述目标音视频的至少一项目标属性包括内容属性、详细程度、理解难度、播放速度、画面色调或音色中的一项或多项。
如权利要求13所述的系统，其特征在于，为基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性，所述至少一个处理器使所述系统进一步执行：

获取至少一个训练后的目标属性确定模型；

将所述对话特征信息和所述用户特征信息的至少一部分输入所述至少一个训练后的目标属性确定模型；以及

基于所述至少一个训练后的目标属性确定模型的输出，确定所述至少一项目标属性。
如权利要求13所述的系统，其特征在于，为基于所述至少一项目标属性，确定所述目标音视频，所述至少一个处理器使所述系统进一步执行：

获取训练后的素材确定模型；

将所述对话特征信息输入所述素材确定模型；

基于所述素材确定模型的输出，确定初始音视频；以及

基于所述至少一项目标属性，通过对所述初始音视频的基本属性进行调整来生成所述目标音视频。
如权利要求13所述的系统，其特征在于，所述目标音视频包括一个或多个片段。
如权利要求20所述的系统，其特征在于，所述至少一个处理器使所述系统进一步执行：

确定在所述目标音视频播放的过程中，用户是否提供了用户反馈；以及

响应于在所述目标音视频播放的过程中，所述用户提供了用户反馈，

基于所述用户反馈，确定是否需要调整所述目标音视频的一个或多个片段中的至少一个未播放片段的基本属性。
如权利要求21所述的系统，其特征在于，在所述目标音视频播放的过程中，所述用户提供的所述用户反馈包括以下中的一项或多项：暂停次数、暂停时长、回放次数、回放时长、快进次数、快进时长、慢播次数、慢播时长、是否提出新的问题以及是否提前结束播放。
如权利要求13所述的系统，其特征在于，所述用户特征信息包括用户个人信息，所述用户个人信息包括以下中的一项或多项：年龄、性别、学历、工作背景以及健康状况。
如权利要求13所述的系统，所述用户特征信息包括用户的偏好信息，所述用户的偏好信息包括所述用户的偏好设置、所述用户当前的情绪或所述用户过去针对历史音视频提供的历史用户反馈信息中的至少一项。
一种确定目标音视频的装置，其特征在于，包括：

获取模块，用于获取与用户相关的对话信息；

确定模块，用于确定所述对话信息的对话特征信息；

获取模块，用于获取所述用户的用户特征信息；

确定模块，用于基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及

确定模块，用于基于所述至少一项目标属性，确定所述目标音视频。
一种计算机可读存储介质，所述存储介质存储计算机指令，当计算机读取存储介质中的计算机指令后，计算机执行一种方法，所述方法包括：

获取与用户相关的对话信息；

确定所述对话信息的对话特征信息；

获取所述用户的用户特征信息；

基于所述对话特征信息和用户特征信息，确定与所述目标音视频对应的至少一项目标属性；以及

基于所述至少一项目标属性，确定所述目标音视频。