WO2020019252A1

WO2020019252A1 - 训练人工智能模型的方法、装置、存储介质及机器人

Info

Publication number: WO2020019252A1
Application number: PCT/CN2018/097251
Authority: WO
Inventors: 廉士国; 刘兆祥
Original assignee: 深圳前海达闼云端智能科技有限公司
Priority date: 2018-07-26
Filing date: 2018-07-26
Publication date: 2020-01-30
Also published as: CN109074502A

Abstract

一种训练人工智能模型的方法、装置、存储介质及机器人，所述方法包括：响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果；获取所述用户对所述服务结果的反馈信息；根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对；当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对更新所述预设人工智能模型。采用本公开的技术方案，可以实现对训练样本对的自动标注，通过标注的训练样本对不断提升人工智能模型的性能，相比于现有技术中通过人工参与训练样本标注的方式，可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。

Description

训练人工智能模型的方法、装置、存储介质及机器人

技术领域

本公开涉及人工智能技术领域，尤其涉及一种训练人工智能模型的方法、装置、存储介质及机器人。

背景技术

随着科技的高速发展，人工智能（Artificial Intelligence，AI）应运而生，其在服务机器人、智能终端、专家系统等各领域得到了广泛应用。为了更好地符合用户的需求，通常需要对人工智能模型进行训练，以不断地提升其性能。

现有技术中，需要通过人工采集大量数据并对数据做标注，然后将标注好的数据作为训练样本来训练人工智能模型。然而，采用该方式所需的训练周期较长且成本较高。

发明内容

为了克服现有技术中存在的问题，本公开提供一种训练人工智能模型的方法、装置、存储介质及机器人。

为了实现上述目的，本公开第一方面提供一种训练人工智能模型的方法，包括：

响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果；

获取所述用户对所述服务结果的反馈信息；

根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对；

当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对训练所述预设人工智能模型。

本公开第二方面提供一种训练人工智能模型的装置，包括：

服务响应模块，用于响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果；

反馈信息获取模块，用于获取所述用户对所述服务结果的反馈信息；

标注模块，用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对；

训练模块，用于当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对训练所述预设人工智能模型。

本公开第三方面提供一种计算机可读存储介质，其上存储有计算机程序指令，该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。

本公开第四方面提供一种机器人运动控制装置，包括：本公开第三方面所述的计算机可读存储介质；以及一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。

本公开第五方面提供一种机器人，包括本公开第二方面所述的训练人工智能模型的装置。

采用上述技术方案，至少可以达到如下技术效果：

基于预设人工智能模型输出与服务请求信息对应的服务结果，获取用户对服务结果的反馈信息对服务请求信息和服务结果进行标注，生成训练样本，并在训练样本对的数量达到预设阈值时，利用各训练样本对训练预设人工智能模型，可以实现对训练样本对的自动标注，通过标注的训练样本对不断提升人工智能模型的性能，相比于现有技术中通过人工参与训练样本标注的方式，可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。

本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。

附图说明

为了更清楚地说明本公开实施例或现有技术中的技术方案，下面将对实施例描述中所需要使用的附图作一简单地介绍，显而易见地，下面描述中的附图是本公开的一些实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据这些附图获得其他的附图。

图1是根据本公开一示例性实施例示出的一种训练人工智能模型的方法的流程图；

图2是根据本公开另一示例性实施例示出的一种训练人工智能模型的方法的流程图；

图3是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图；

图4是根据本公开另一示例性实施例示出的一种训练人工智能模型的装置的框图；

图5是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图。

具体实施方式

为使本公开实施例的目的、技术方案和优点更加清楚，下面将结合本公开实施例中的附图，对本公开实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本公开一部分实施例，而不是全部的实施例。基于本公开中的实施例，本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例，都属于本公开保护的范围。

需要说明的是，本公开的说明书和权利要求书以及上述附图中的术语“第一”、“第二”等是用于区别类似的对象，而不必理解为描述特定的顺序或先后次序。

图1是根据本公开一示例性实施例示出的一种训练人工智能模型的方法的流程图，如图1所示，该方法包括以下步骤：

在步骤S101中，响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果。

在一种实施方式中，服务请求信息可以是文本、语音、图片等形式中的至少一种。响应于用户的服务请求信息，可以根据预设人工智能模型输出与服务请求信息对应的服务结果。

值得说明的是，本公开实施例中的人工智能模型可以是基于视觉的物体识别模型、人脸性别识别模型、个性化推荐模型、文本对话模型等等。

例如，用户手里拿着一个梨并输入语音“这是什么？”，响应于该服务请求信息，利用基于视觉的物体识别模型可以输出服务结果“梨”。

又如，用户输入语音“你知道最新的科幻大片吗？”，响应于该服务请求信息，利用文本对话模型可以输出服务结果“黑镜”。

在步骤S102中，获取用户对服务结果的反馈信息。

在本公开的实施例中，用户对服务结果的反馈信息可以包括用户的语音、面部表情和肢体动作中的一者或多者。

在步骤S103中，根据反馈信息对服务请求信息和服务结果进行标注，生成训练样本对。

在一种实施方式中，如图2所示，可以根据反馈信息确定用户的情感倾向，其中，情感倾向包括正向倾向和负向倾向，正向倾向表示用户对服务结果满意，而负向倾向表示用户对服务结果不满意。

示例地，对于面部表情，正向倾向可以表现为满意的笑容等，负向倾向可以表现为无奈的笑容、厌恶的表情等；对于语音，正向倾向可以表现为“嗯，没错”、“你太棒了”、“差不多”等，负向倾向可以表现为“不对”等；对于肢体动作，正向倾向可以表现为点头、竖大拇指等，负向倾向可以表现为摇头、摊开双手等。

若情感倾向为负向倾向，则可以对服务结果进行修正，并再次获取用户对修正后的服务结果的反馈信息，根据该反馈信息确定用户的情感倾向，直到用户的情感倾向为正向倾向；若情感倾向为正向倾向，则可以根据服务请求信息标注输入样本并根据服务结果标注输出样本，得到训练样本对。

例如，以人工智能模型为人脸性别识别模型为例示意，用户输入“你觉得我是男性还是女性？”的服务请求信息，响应于该服务请求信息，基于该人脸性别识别模型输出“男性”这一服务结果，并捕捉到用户很无奈地摊开双手这一反馈信息，通过对用户的肢体动作和面部表情进行融合和分析，可以确定用户情感倾向为负向倾向。此时，输出“女性”这一修正后的服务结果，在确定用户对该服务结果的情感倾向为正向倾向后，将该服务请求信息标注信息“人脸图像”以作为输入样本，根据服务结果标注信息“女性”以作为输出样本，由此得到训练样本对（“人脸图像”，“女性”）。

又如，以人工智能模型为个性化推荐模型为例示意，用户输入“给我放首歌吧”的服务请求信息，响应于该服务请求信息，基于个性化推荐模型为用户推荐“歌曲A”这一服务结果，并捕捉到用户不耐烦地说“这个太吵了”这一反馈信息，通过对用户的面部表情和语音进行融合和分析，确定用户的情感倾向为负向倾向。接着，再次向用户推荐“歌曲B”，用户皱着眉头说“节奏有点快”，通过对用户的面部表情和语音进行融合和分析，确定用户的情感倾向为负向倾向。紧接着，再次向用户推荐“歌曲C”，用户露出满意的微小并点头，通过对用户的面部表情和肢体动作进行融合和分析，确定用户的情感倾向为正向倾向，因而将“歌曲A”的类型标注为“太吵”、将“歌曲B”的类型标注为“太快”、将“歌曲C”的类型标注为“不吵”和“不快”，并标注该用户的“个性化喜好”以作为输入样本且标注“歌曲C”为对应的输出样本，得到训练样本对（“个性化喜好”、“歌曲C”）。

在步骤S104中，当生成的训练样本对的数量达到预设阈值时，利用各训练样本对更新预设人工智能模型。

通过循环执行上述步骤S101至步骤S103，不断地生成训练样本，当训练样本对的数量达到预设阈值时，则利用这些训练样本对更新预设人工智能模型。通过每生成一定数量的训练样本对后对人工智能模型进行一次更新，可以不断提升人工智能模型的性能。

在一种实施方式中，可以获取用于训练预设人工智能模型的原始训练样本对，将生成的训练样本对和原始训练样本对合并后进行训练，得到新的人工智能模型，并使用新的人工智能模型替换预设人工智能模型。

在另一种实施方式中，可以利用生成的训练样本对，对预设人工智能模型进行迁移训练，得到新的人工智能模型，并使用新的人工智能模型替换预设人工智能模型。

值得说明的是，预设阈值可以根据人工智能模型的不同进行设置。例如，若人工智能模型为用于识别物体形状的模型，可以将预设阈值设置为一较低数值T ₁；若人工智能模型为用于识别人脸性别的模型，可以将预设阈值设置为一较高数值T ₂；若人工智能模型为用于识别物体颜色的模型，可以将预设阈值设置为位于T ₁和T ₂之间的数值。

采用上述训练人工智能模型的方法，可以实现对训练样本对的自动标注，通过标注的训练样本对不断提升人工智能模型的性能，相比于现有技术中通过人工参与训练样本标注的方式，可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。

图3是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图，如图3所示，所述装置300包括：服务响应模块301、反馈信息获取模块302、标注模块303和训练模块304。

该服务响应模块301用于响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果。

该反馈信息获取模块302用于获取所述用户对所述服务结果的反馈信息。

该标注模块303用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对。

该训练模块304用于当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对更新所述预设人工智能模型。

在另一个实施例中，如图4所示，所述标注模块303包括：

情感倾向确定子模块331，用于根据所述反馈信息确定所述用户的情感倾向；

修正子模块332，用于当所述情感倾向为负向倾向时，对所述服务结果进行修正，并再次执行所述获取用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤，直至所述用户的情感倾向为正向倾向；

标注子模块333，用于当所述情感倾向为正向倾向时，根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本，得到所述训练样本对，所述训练样本对包括所述输入样本和所述输出样本。

在另一个实施例中，如图4所示，所述训练模块304包括：

获取子模块341，用于获取用于训练所述预设人工智能模型的原始训练样本对；

训练子模块342，用于将生成的所述训练样本对与所述原始训练样本对合并后进行训练，得到新的人工智能模型；

第一替换子模块343，用于使用所述新的人工智能模型替换所述预设人工智能模型。

在另一个实施例中，如图4所示，所述训练模块304包括：

迁移学习子模块344，用于利用生成的所述训练样本对，对所述预设人工智能模型进行迁移学习，生成新的人工智能模型；

第二替换子模块345，用于使用所述新的人工智能模型替换所述预设人工智能模型。

在另一个实施例中，所述反馈信息包括以下信息中的一者或多者：语音、面部表情和肢体动作。

所属本领域的技术人员应该清楚地了解到，为描述的方便和简洁，上述描述的训练人工智能模型的装置的各模块的具体工作过程，可以参考前述方法实施例中对应的过程，此处不再赘述。

其次，为描述的方便和简洁，仅以上述各功能模块的划分进行举例说明，实际应用中，可以根据需要而将上述功能分配由不同的功能模块完成，即将装置的内部结构划分成不同的功能模块，以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程，可以参考前述方法实施例中的对应过程，在此不再赘述。

通过上述实施例的训练人工智能模型的装置，可以实现对训练样本对的自动标注，通过标注的训练样本对不断提升人工智能模型的性能，相比于现有技术中通过人工参与训练样本标注的方式，可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。

相应地，本公开实施例还提供一种机器人，包括上述实施例所述的训练人工智能模型的装置。

图5是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图，如图5所示，该装置500可以包括：处理器501，存储器502。该装置500还可以包括多媒体组件503，输入/输出（I/O）接口504，以及通信组件505中的一者或多者。

其中，处理器501用于控制该装置500的整体操作，以完成上述的训练人工智能模型的方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该装置500的操作，这些数据例如可以包括用于在该装置500上操作的任何应用程序或方法的指令，以及应用程序相关的数据，例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现，例如静态随机存取存储器（Static Random Access Memory，简称SRAM），电可擦除可编程只读存储器（Electrically Erasable Programmable Read-Only Memory，简称EEPROM），可擦除可编程只读存储器（Erasable Programmable Read-Only Memory，简称EPROM），可编程只读存储器（Programmable Read-Only Memory，简称PROM），只读存储器（Read-Only Memory，简称ROM），磁存储器，快闪存储器，磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏，音频组件用于输出和/或输入音频信号。例如，音频组件可以包括一个麦克风，麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器，用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口，上述其他接口模块可以是键盘，鼠标，按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该装置500与其他设备之间进行有线或无线通信。无线通信，例如Wi-Fi，蓝牙，近场通信（Near Field Communication，简称NFC），2G、3G或4G，或它们中的一种或几种的组合，因此相应的该通信组件505可以包括：Wi-Fi模块，蓝牙模块，NFC模块。

在一示例性实施例中，装置500可以被一个或多个应用专用集成电路（Application Specific Integrated Circuit，简称ASIC）、数字信号处理器（Digital Signal Processor，简称DSP）、数字信号处理设备（Digital Signal Processing Device，简称DSPD）、可编程逻辑器件（Programmable Logic Device，简称PLD）、现场可编程门阵列（Field Programmable Gate Array，简称FPGA）、控制器、微控制器、微处理器或其他电子元件实现，用于执行上述的训练人工智能模型的方法。

在另一示例性实施例中，还提供了一种包括程序指令的计算机可读存储介质，该程序指令被处理器执行时实现上述的训练人工智能模型的方法的步骤。例如，该计算机可读存储介质可以为上述包括程序指令的存储器502，上述程序指令可由装置500的处理器501执行以完成上述的训练人工智能模型的方法。

以上结合附图详细描述了本公开的优选实施方式，但是，本公开并不限于上述实施方式中的具体细节，在本公开的技术构思范围内，可以对本公开的技术方案进行多种简单变型，这些简单变型均属于本公开的保护范围。

另外需要说明的是，在上述具体实施方式中所描述的各个具体技术特征，在不矛盾的情况下，可以通过任何合适的方式进行组合，为了避免不必要的重复，本公开对各种可能的组合方式不再另行说明。

此外，本公开的各种不同的实施方式之间也可以进行任意组合，只要其不违背本公开的思想，其同样应当视为本公开所公开的内容。

Claims

一种训练人工智能模型的方法，其特征在于，包括：

响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果；

获取所述用户对所述服务结果的反馈信息；

根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对；

当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对更新所述预设人工智能模型。
根据权利要求1所述的方法，其特征在于，所述根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对，包括：

根据所述反馈信息确定所述用户的情感倾向；

当所述情感倾向为负向倾向时，对所述服务结果进行修正，并再次执行所述获取所述用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤，直至所述用户的情感倾向为正向倾向；

当所述情感倾向为正向倾向时，根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本，得到所述训练样本对，所述训练样本对包括所述输入样本和所述输出样本。
根据权利要求1所述的方法，其特征在于，所述利用生成的所述训练样本对更新所述预设人工智能模型，包括：

获取用于训练所述预设人工智能模型的原始训练样本对；

将生成的所述训练样本对和所述原始训练样本对合并后训练，得到新的人工智能模型；

使用所述新的人工智能模型替换所述预设人工智能模型。
根据权利要求1所述的方法，其特征在于，所述利用生成的所述训练样本对更新所述预设人工智能模型，包括：

利用生成的所述训练样本对，对所述预设人工智能模型进行迁移训练，生成新的人工智能模型；

使用所述新的人工智能模型替换所述预设人工智能模型。
根据权利要求1~4中任一项所述的方法，其特征在于，所述反馈信息包括以下信息中的一者或多者：语音、面部表情和肢体动作。
一种训练人工智能模型的装置，其特征在于，包括：

服务响应模块，用于响应于用户的服务请求信息，基于预设人工智能模型输出相应的服务结果；

反馈信息获取模块，用于获取所述用户对所述服务结果的反馈信息；

标注模块，用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注，生成训练样本对；

训练模块，用于当生成的所述训练样本对的数量达到预设阈值时，利用各所述训练样本对更新所述预设人工智能模型。
根据权利要求6所述的装置，其特征在于，所述标注模块包括：

情感倾向确定子模块，用于根据所述反馈信息确定所述用户的情感倾向；

修正子模块，用于当所述情感倾向为负向倾向时，对所述服务结果进行修正，并再次执行所述获取用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤，直至所述用户的情感倾向为正向倾向；

标注子模块，用于当所述情感倾向为正向倾向时，根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本，得到所述训练样本对，所述训练样本对包括所述输入样本和所述输出样本。
根据权利要求6所述的装置，其特征在于，所述训练模块包括：

获取子模块，用于获取用于训练所述预设人工智能模型的原始训练样本对；

训练子模块，用于将生成的所述训练样本对与所述原始训练样本对合并后进行训练，得到新的人工智能模型；

第一替换子模块，用于使用所述新的人工智能模型替换所述预设人工智能模型。
根据权利要求6所述的装置，其特征在于，所述训练模块包括：

迁移学习子模块，用于利用生成的所述训练样本对，对所述预设人工智能模型进行迁移学习，生成新的人工智能模型；

第二替换子模块，用于使用所述新的人工智能模型替换所述预设人工智能模型。
根据权利要求6~9中任一项所述的装置，其特征在于，所述反馈信息包括以下信息中的一者或多者：语音、面部表情和肢体动作。
一种计算机可读存储介质，其上存储有计算机程序指令，其特征在于，该程序指令被处理器执行时实现权利要求1~5中任一项所述方法的步骤。
一种训练人工智能模型的装置，其特征在于，包括：

权利要求11中所述的计算机可读存储介质；以及

一个或者多个处理器，用于执行所述计算机可读存储介质中的程序。
一种机器人，其特征在于，包括权利要求6~10中任一项所述的训练人工智能模型的装置。