WO2020019252A1 - 训练人工智能模型的方法、装置、存储介质及机器人 - Google Patents

训练人工智能模型的方法、装置、存储介质及机器人 Download PDF

Info

Publication number
WO2020019252A1
WO2020019252A1 PCT/CN2018/097251 CN2018097251W WO2020019252A1 WO 2020019252 A1 WO2020019252 A1 WO 2020019252A1 CN 2018097251 W CN2018097251 W CN 2018097251W WO 2020019252 A1 WO2020019252 A1 WO 2020019252A1
Authority
WO
WIPO (PCT)
Prior art keywords
artificial intelligence
intelligence model
training
training sample
user
Prior art date
Application number
PCT/CN2018/097251
Other languages
English (en)
French (fr)
Inventor
廉士国
刘兆祥
Original Assignee
深圳前海达闼云端智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳前海达闼云端智能科技有限公司 filed Critical 深圳前海达闼云端智能科技有限公司
Priority to PCT/CN2018/097251 priority Critical patent/WO2020019252A1/zh
Priority to CN201880001053.1A priority patent/CN109074502A/zh
Publication of WO2020019252A1 publication Critical patent/WO2020019252A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/10Terrestrial scenes

Definitions

  • the present disclosure relates to the field of artificial intelligence technology, and in particular, to a method, a device, a storage medium, and a robot for training an artificial intelligence model.
  • AI Artificial Intelligence
  • the present disclosure provides a method, a device, a storage medium, and a robot for training an artificial intelligence model.
  • a first aspect of the present disclosure provides a method for training an artificial intelligence model, including:
  • the preset artificial intelligence model is trained by using each of the training sample pairs.
  • a second aspect of the present disclosure provides a device for training an artificial intelligence model, including:
  • a service response module configured to respond to a user's service request information and output a corresponding service result based on a preset artificial intelligence model
  • a feedback information obtaining module configured to obtain feedback information of the user on the service result
  • a labeling module configured to label the service request information and the service result according to the feedback information, and generate a pair of training samples
  • a training module is configured to train the preset artificial intelligence model by using each of the training sample pairs when the number of the generated training sample pairs reaches a preset threshold.
  • a third aspect of the present disclosure provides a computer-readable storage medium having stored thereon computer program instructions that, when executed by a processor, implement the steps of the method described in the first aspect of the present disclosure.
  • a fourth aspect of the present disclosure provides a robot motion control device, including: the computer-readable storage medium described in the third aspect of the present disclosure; and one or more processors for executing a program in the computer-readable storage medium. .
  • a fifth aspect of the present disclosure provides a robot including the apparatus for training an artificial intelligence model according to the second aspect of the present disclosure.
  • Fig. 1 is a flow chart showing a method for training an artificial intelligence model according to an exemplary embodiment of the present disclosure
  • Fig. 2 is a flow chart showing a method for training an artificial intelligence model according to another exemplary embodiment of the present disclosure
  • Fig. 3 is a block diagram of a device for training an artificial intelligence model according to an exemplary embodiment of the present disclosure
  • Fig. 4 is a block diagram of a device for training an artificial intelligence model according to another exemplary embodiment of the present disclosure
  • Fig. 5 is a block diagram of a device for training an artificial intelligence model according to an exemplary embodiment of the present disclosure.
  • Fig. 1 is a flowchart illustrating a method for training an artificial intelligence model according to an exemplary embodiment of the present disclosure. As shown in Fig. 1, the method includes the following steps:
  • step S101 in response to the user's service request information, a corresponding service result is output based on a preset artificial intelligence model.
  • the service request information may be at least one of a text, a voice, and a picture.
  • a service result corresponding to the service request information can be output according to a preset artificial intelligence model.
  • the artificial intelligence model in the embodiment of the present disclosure may be a vision-based object recognition model, a face gender recognition model, a personalized recommendation model, a text dialogue model, and the like.
  • a service result "pear" can be output using a vision-based object recognition model.
  • a text dialogue model can be used to output the service result "black mirror".
  • step S102 feedback information of a user on a service result is obtained.
  • the feedback information of the user on the service result may include one or more of the user's voice, facial expression, and limb movement.
  • step S103 the service request information and the service result are marked according to the feedback information, and a training sample pair is generated.
  • the user ’s emotional tendency may be determined according to the feedback information, wherein the emotional tendency includes a positive tendency and a negative tendency, and the positive tendency indicates that the user is satisfied with the service result, and the negative tendency Indicates that the user is not satisfied with the service results.
  • positive tendencies can be expressed as satisfactory smiles, etc.
  • negative tendencies can be expressed as helpless smiles, disgusted expressions, etc .
  • positive tendencies can be expressed as "um, yes", “ You are awesome ",” almost “, etc.
  • Negative tendencies can be expressed as” wrong ", etc.
  • positive tendencies can be expressed as nodding, thumbs, etc.
  • Negative tendencies can be expressed as shaking his head and spreading his hands Wait.
  • the service result can be modified, and the user's feedback information on the modified service result can be obtained again, and the user's emotional tendency is determined based on the feedback information, until the user's emotional tendency is a positive tendency; If the emotional tendency is a positive tendency, an input sample can be labeled according to the service request information and an output sample can be labeled according to the service result to obtain a training sample pair.
  • an artificial intelligence model is used as an example for the face gender recognition model.
  • the user enters service request information of "Do you think I am a male or a woman?"
  • the result of this service is to capture the feedback information that the user is very helpless to spread his hands.
  • the user's emotional tendency can be determined to be a negative tendency.
  • the modified service result of "female" is output.
  • the service request information is marked with the information "face image” as an input sample, and the service The result is labeled with the information "female” as an output sample, thereby obtaining a training sample pair ("face image", "female”).
  • the user enters the service request information of "play a song for me", and in response to the service request information, recommends "song A” to the user based on the personalized recommendation model.
  • the result of this service is to capture the feedback information that the user is impatient to say "this is too noisy”.
  • the user's emotional tendency is determined to be negative.
  • the user's emotional tendency is determined to be a negative tendency.
  • step S104 when the number of generated training sample pairs reaches a preset threshold, each training sample pair is used to update a preset artificial intelligence model.
  • training samples are continuously generated, and when the number of training sample pairs reaches a preset threshold, these training sample pairs are used to update the preset artificial intelligence model.
  • the performance of the artificial intelligence model can be continuously improved.
  • an original training sample pair used to train a preset artificial intelligence model may be obtained, and the generated training sample pair and the original training sample pair may be combined and trained to obtain a new artificial intelligence model and use the new artificial intelligence model.
  • the artificial intelligence model replaces the preset artificial intelligence model.
  • the generated artificial intelligence model can be used for migration training by using the generated training sample pair to obtain a new artificial intelligence model, and the new artificial intelligence model can be used to replace the artificial intelligence model.
  • the preset threshold can be set according to different artificial intelligence models. For example, if the artificial intelligence model is a model for identifying the shape of an object, a preset threshold value may be set to a lower value T 1 ; if the artificial intelligence model is a model for identifying a face gender, the preset threshold value may be set to A higher value T 2 ; if the artificial intelligence model is a model for identifying the color of an object, the preset threshold may be set to a value between T 1 and T 2 .
  • Fig. 3 is a block diagram of a device for training an artificial intelligence model according to an exemplary embodiment of the present disclosure.
  • the device 300 includes a service response module 301, a feedback information acquisition module 302, and a labeling module 303. And training module 304.
  • the service response module 301 is configured to output a corresponding service result based on a preset artificial intelligence model in response to a user's service request information.
  • the feedback information acquisition module 302 is configured to acquire feedback information of the user on the service result.
  • the labeling module 303 is configured to label the service request information and the service result according to the feedback information, and generate a training sample pair.
  • the training module 304 is configured to update the preset artificial intelligence model by using each of the training sample pairs when the number of the training sample pairs generated reaches a preset threshold.
  • the labeling module 303 includes:
  • a correction sub-module 332, configured to correct the service result when the emotional tendency is negative, and execute the obtaining the user's feedback information on the service result again to determine the service information according to the feedback information
  • a labeling sub-module 333 is configured to label an input sample according to the service request information and label an output sample according to the service result when the emotional tendency is a positive tendency, to obtain the training sample pair, where the training sample pair includes The input samples and the output samples.
  • the training module 304 includes:
  • An acquisition submodule 341, configured to acquire an original training sample pair used to train the preset artificial intelligence model
  • a first replacement sub-module 343 is configured to replace the preset artificial intelligence model with the new artificial intelligence model.
  • the training module 304 includes:
  • a transfer learning submodule 344 configured to use the generated training sample pair to perform transfer learning on the preset artificial intelligence model to generate a new artificial intelligence model
  • a second replacement sub-module 345 is configured to replace the preset artificial intelligence model with the new artificial intelligence model.
  • the feedback information includes one or more of the following information: speech, facial expressions, and limb movements.
  • an embodiment of the present disclosure further provides a robot including the device for training an artificial intelligence model described in the foregoing embodiment.
  • Fig. 5 is a block diagram of a device for training an artificial intelligence model according to an exemplary embodiment of the present disclosure.
  • the device 500 may include a processor 501 and a memory 502.
  • the device 500 may further include one or more of a multimedia component 503, an input / output (I / O) interface 504, and a communication component 505.
  • the processor 501 is configured to control the overall operation of the device 500 to complete all or part of the steps in the method for training an artificial intelligence model described above.
  • the memory 502 is used to store various types of data to support the operation of the device 500. These data may include, for example, instructions for any application program or method for operating on the device 500, and application-related data, such as contact information. Personal data, messages sent and received, pictures, audio, video, and more.
  • the memory 502 may be implemented by any type of volatile or non-volatile storage device or a combination thereof, such as a Static Random Access Memory (Static Random Access Memory).
  • Static Random Access Memory Static Random Access Memory
  • the multimedia component 503 may include a screen and an audio component.
  • the screen may be, for example, a touch screen, and the audio component is used to output and / or input audio signals.
  • the audio component may include a microphone for receiving external audio signals. The received audio signal may be further stored in the memory 502 or transmitted through the communication component 505.
  • the audio component also includes at least one speaker for outputting an audio signal.
  • the I / O interface 504 provides an interface between the processor 501 and other interface modules.
  • the other interface modules may be a keyboard, a mouse, a button, and the like. These buttons can be virtual buttons or physical buttons.
  • the communication component 505 is used for wired or wireless communication between the apparatus 500 and other devices. Wireless communication, such as Wi-Fi, Bluetooth, Near Field Communication (NFC), 2G, 3G, or 4G, or one or more of them, so the corresponding communication component 505 may include: Wi-Fi module, Bluetooth module, NFC module.
  • the apparatus 500 may be implemented by one or more application specific integrated circuits (Application Specific Integrated Circuits). Integrated Circuit (ASIC for short), Digital Signal Processor (Digital Signal Processor (DSP), Digital Signal Processing Device (DSPD), Programmable Logic Device (PLD), Field Programmable Gate Array (FPGA), Control Device, microcontroller, microprocessor, or other electronic components, to perform the method of training artificial intelligence models described above.
  • ASIC Application Specific Integrated Circuits
  • ASIC Application Specific Integrated Circuits
  • DSP Digital Signal Processor
  • DSPD Digital Signal Processing Device
  • PLD Programmable Logic Device
  • FPGA Field Programmable Gate Array
  • Control Device microcontroller, microprocessor, or other electronic components, to perform the method of training artificial intelligence models described above.
  • a computer-readable storage medium including program instructions is provided.
  • the program instructions when executed by a processor, implement the steps of the foregoing method for training an artificial intelligence model.
  • the computer-readable storage medium may be the above-mentioned memory 502 including program instructions, and the above-mentioned program instructions may be executed by the processor 501 of the apparatus 500 to complete the above-mentioned method for training an artificial intelligence model.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Physics & Mathematics (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Evolutionary Biology (AREA)
  • Evolutionary Computation (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Multimedia (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

一种训练人工智能模型的方法、装置、存储介质及机器人,所述方法包括:响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果;获取所述用户对所述服务结果的反馈信息;根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对;当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对更新所述预设人工智能模型。采用本公开的技术方案,可以实现对训练样本对的自动标注,通过标注的训练样本对不断提升人工智能模型的性能,相比于现有技术中通过人工参与训练样本标注的方式,可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。

Description

训练人工智能模型的方法、装置、存储介质及机器人 技术领域
本公开涉及人工智能技术领域,尤其涉及一种训练人工智能模型的方法、装置、存储介质及机器人。
背景技术
随着科技的高速发展,人工智能(Artificial Intelligence,AI)应运而生,其在服务机器人、智能终端、专家系统等各领域得到了广泛应用。为了更好地符合用户的需求,通常需要对人工智能模型进行训练,以不断地提升其性能。
现有技术中,需要通过人工采集大量数据并对数据做标注,然后将标注好的数据作为训练样本来训练人工智能模型。然而,采用该方式所需的训练周期较长且成本较高。
发明内容
为了克服现有技术中存在的问题,本公开提供一种训练人工智能模型的方法、装置、存储介质及机器人。
为了实现上述目的,本公开第一方面提供一种训练人工智能模型的方法,包括:
响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果;
获取所述用户对所述服务结果的反馈信息;
根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对;
当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对训练所述预设人工智能模型。
本公开第二方面提供一种训练人工智能模型的装置,包括:
服务响应模块,用于响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果;
反馈信息获取模块,用于获取所述用户对所述服务结果的反馈信息;
标注模块,用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对;
训练模块,用于当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对训练所述预设人工智能模型。
本公开第三方面提供一种计算机可读存储介质,其上存储有计算机程序指令,该程序指令被处理器执行时实现本公开第一方面所述方法的步骤。
本公开第四方面提供一种机器人运动控制装置,包括:本公开第三方面所述的计算机可读存储介质;以及一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
本公开第五方面提供一种机器人,包括本公开第二方面所述的训练人工智能模型的装置。
采用上述技术方案,至少可以达到如下技术效果:
基于预设人工智能模型输出与服务请求信息对应的服务结果,获取用户对服务结果的反馈信息对服务请求信息和服务结果进行标注,生成训练样本,并在训练样本对的数量达到预设阈值时,利用各训练样本对训练预设人工智能模型,可以实现对训练样本对的自动标注,通过标注的训练样本对不断提升人工智能模型的性能,相比于现有技术中通过人工参与训练样本标注的方式,可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。
本公开的其他特征和优点将在随后的具体实施方式部分予以详细说明。
附图说明
为了更清楚地说明本公开实施例或现有技术中的技术方案,下面将对实施例描述中所需要使用的附图作一简单地介绍,显而易见地,下面描述中的附图是本公开的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1是根据本公开一示例性实施例示出的一种训练人工智能模型的方法的流程图;
图2是根据本公开另一示例性实施例示出的一种训练人工智能模型的方法的流程图;
图3是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图;
图4是根据本公开另一示例性实施例示出的一种训练人工智能模型的装置的框图;
图5是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图。
具体实施方式
为使本公开实施例的目的、技术方案和优点更加清楚,下面将结合本公开实施例中的附图,对本公开实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本公开一部分实施例,而不是全部的实施例。基于本公开中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本公开保护的范围。
需要说明的是,本公开的说明书和权利要求书以及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必理解为描述特定的顺序或先后次序。
图1是根据本公开一示例性实施例示出的一种训练人工智能模型的方法的流程图,如图1所示,该方法包括以下步骤:
在步骤S101中,响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果。
在一种实施方式中,服务请求信息可以是文本、语音、图片等形式中的至少一种。响应于用户的服务请求信息,可以根据预设人工智能模型输出与服务请求信息对应的服务结果。
值得说明的是,本公开实施例中的人工智能模型可以是基于视觉的物体识别模型、人脸性别识别模型、个性化推荐模型、文本对话模型等等。
例如,用户手里拿着一个梨并输入语音“这是什么?”,响应于该服务请求信息,利用基于视觉的物体识别模型可以输出服务结果“梨”。
又如,用户输入语音“你知道最新的科幻大片吗?”,响应于该服务请求信息,利用文本对话模型可以输出服务结果“黑镜”。
在步骤S102中,获取用户对服务结果的反馈信息。
在本公开的实施例中,用户对服务结果的反馈信息可以包括用户的语音、面部表情和肢体动作中的一者或多者。
在步骤S103中,根据反馈信息对服务请求信息和服务结果进行标注,生成训练样本对。
在一种实施方式中,如图2所示,可以根据反馈信息确定用户的情感倾向,其中,情感倾向包括正向倾向和负向倾向,正向倾向表示用户对服务结果满意,而负向倾向表示用户对服务结果不满意。
示例地,对于面部表情,正向倾向可以表现为满意的笑容等,负向倾向可以表现为无奈的笑容、厌恶的表情等;对于语音,正向倾向可以表现为“嗯,没错”、“你太棒了”、“差不多”等,负向倾向可以表现为“不对”等;对于肢体动作,正向倾向可以表现为点头、竖大拇指等,负向倾向可以表现为摇头、摊开双手等。
若情感倾向为负向倾向,则可以对服务结果进行修正,并再次获取用户对修正后的服务结果的反馈信息,根据该反馈信息确定用户的情感倾向,直到用户的情感倾向为正向倾向;若情感倾向为正向倾向,则可以根据服务请求信息标注输入样本并根据服务结果标注输出样本,得到训练样本对。
例如,以人工智能模型为人脸性别识别模型为例示意,用户输入“你觉得我是男性还是女性?”的服务请求信息,响应于该服务请求信息,基于该人脸性别识别模型输出“男性”这一服务结果,并捕捉到用户很无奈地摊开双手这一反馈信息,通过对用户的肢体动作和面部表情进行融合和分析,可以确定用户情感倾向为负向倾向。此时,输出“女性”这一修正后的服务结果,在确定用户对该服务结果的情感倾向为正向倾向后,将该服务请求信息标注信息“人脸图像”以作为输入样本,根据服务结果标注信息“女性”以作为输出样本,由此得到训练样本对(“人脸图像”,“女性”)。
又如,以人工智能模型为个性化推荐模型为例示意,用户输入“给我放首歌吧”的服务请求信息,响应于该服务请求信息,基于个性化推荐模型为用户推荐“歌曲A”这一服务结果,并捕捉到用户不耐烦地说“这个太吵了”这一反馈信息,通过对用户的面部表情和语音进行融合和分析,确定用户的情感倾向为负向倾向。接着,再次向用户推荐“歌曲B”,用户皱着眉头说“节奏有点快”,通过对用户的面部表情和语音进行融合和分析,确定用户的情感倾向为负向倾向。紧接着,再次向用户推荐“歌曲C”,用户露出满意的微小并点头,通过对用户的面部表情和肢体动作进行融合和分析,确定用户的情感倾向为正向倾向,因而将“歌曲A”的类型标注为“太吵”、将“歌曲B”的类型标注为“太快”、将“歌曲C”的类型标注为“不吵”和“不快”,并标注该用户的“个性化喜好”以作为输入样本且标注“歌曲C”为对应的输出样本,得到训练样本对(“个性化喜好”、“歌曲C”)。
在步骤S104中,当生成的训练样本对的数量达到预设阈值时,利用各训练样本对更新预设人工智能模型。
通过循环执行上述步骤S101至步骤S103,不断地生成训练样本,当训练样本对的数量达到预设阈值时,则利用这些训练样本对更新预设人工智能模型。通过每生成一定数量的训练样本对后对人工智能模型进行一次更新,可以不断提升人工智能模型的性能。
在一种实施方式中,可以获取用于训练预设人工智能模型的原始训练样本对,将生成的训练样本对和原始训练样本对合并后进行训练,得到新的人工智能模型,并使用新的人工智能模型替换预设人工智能模型。
在另一种实施方式中,可以利用生成的训练样本对,对预设人工智能模型进行迁移训练,得到新的人工智能模型,并使用新的人工智能模型替换预设人工智能模型。
值得说明的是,预设阈值可以根据人工智能模型的不同进行设置。例如,若人工智能模型为用于识别物体形状的模型,可以将预设阈值设置为一较低数值T 1;若人工智能模型为用于识别人脸性别的模型,可以将预设阈值设置为一较高数值T 2;若人工智能模型为用于识别物体颜色的模型,可以将预设阈值设置为位于T 1和T 2之间的数值。
采用上述训练人工智能模型的方法,可以实现对训练样本对的自动标注,通过标注的训练样本对不断提升人工智能模型的性能,相比于现有技术中通过人工参与训练样本标注的方式,可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。
图3是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图,如图3所示,所述装置300包括:服务响应模块301、反馈信息获取模块302、标注模块303和训练模块304。
该服务响应模块301用于响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果。
该反馈信息获取模块302用于获取所述用户对所述服务结果的反馈信息。
该标注模块303用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对。
该训练模块304用于当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对更新所述预设人工智能模型。
在另一个实施例中,如图4所示,所述标注模块303包括:
情感倾向确定子模块331,用于根据所述反馈信息确定所述用户的情感倾向;
修正子模块332,用于当所述情感倾向为负向倾向时,对所述服务结果进行修正,并再次执行所述获取用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤,直至所述用户的情感倾向为正向倾向;
标注子模块333,用于当所述情感倾向为正向倾向时,根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本,得到所述训练样本对,所述训练样本对包括所述输入样本和所述输出样本。
在另一个实施例中,如图4所示,所述训练模块304包括:
获取子模块341,用于获取用于训练所述预设人工智能模型的原始训练样本对;
训练子模块342,用于将生成的所述训练样本对与所述原始训练样本对合并后进行训练,得到新的人工智能模型;
第一替换子模块343,用于使用所述新的人工智能模型替换所述预设人工智能模型。
在另一个实施例中,如图4所示,所述训练模块304包括:
迁移学习子模块344,用于利用生成的所述训练样本对,对所述预设人工智能模型进行迁移学习,生成新的人工智能模型;
第二替换子模块345,用于使用所述新的人工智能模型替换所述预设人工智能模型。
在另一个实施例中,所述反馈信息包括以下信息中的一者或多者:语音、面部表情和肢体动作。
所属本领域的技术人员应该清楚地了解到,为描述的方便和简洁,上述描述的训练人工智能模型的装置的各模块的具体工作过程,可以参考前述方法实施例中对应的过程,此处不再赘述。
其次,为描述的方便和简洁,仅以上述各功能模块的划分进行举例说明,实际应用中,可以根据需要而将上述功能分配由不同的功能模块完成,即将装置的内部结构划分成不同的功能模块,以完成以上描述的全部或者部分功能。上述描述功能模块的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
通过上述实施例的训练人工智能模型的装置,可以实现对训练样本对的自动标注,通过标注的训练样本对不断提升人工智能模型的性能,相比于现有技术中通过人工参与训练样本标注的方式,可以缩短人工智能模型的训练周期、降低训练成本、提高训练效率。
相应地,本公开实施例还提供一种机器人,包括上述实施例所述的训练人工智能模型的装置。
图5是根据本公开一示例性实施例示出的一种训练人工智能模型的装置的框图,如图5所示,该装置500可以包括:处理器501,存储器502。该装置500还可以包括多媒体组件503,输入/输出(I/O)接口504,以及通信组件505中的一者或多者。
其中,处理器501用于控制该装置500的整体操作,以完成上述的训练人工智能模型的方法中的全部或部分步骤。存储器502用于存储各种类型的数据以支持在该装置500的操作,这些数据例如可以包括用于在该装置500上操作的任何应用程序或方法的指令,以及应用程序相关的数据,例如联系人数据、收发的消息、图片、音频、视频等等。该存储器502可以由任何类型的易失性或非易失性存储设备或者它们的组合实现,例如静态随机存取存储器(Static Random Access Memory,简称SRAM),电可擦除可编程只读存储器(Electrically Erasable Programmable Read-Only Memory,简称EEPROM),可擦除可编程只读存储器(Erasable Programmable Read-Only Memory,简称EPROM),可编程只读存储器(Programmable Read-Only Memory,简称PROM),只读存储器(Read-Only Memory,简称ROM),磁存储器,快闪存储器,磁盘或光盘。多媒体组件503可以包括屏幕和音频组件。其中屏幕例如可以是触摸屏,音频组件用于输出和/或输入音频信号。例如,音频组件可以包括一个麦克风,麦克风用于接收外部音频信号。所接收的音频信号可以被进一步存储在存储器502或通过通信组件505发送。音频组件还包括至少一个扬声器,用于输出音频信号。I/O接口504为处理器501和其他接口模块之间提供接口,上述其他接口模块可以是键盘,鼠标,按钮等。这些按钮可以是虚拟按钮或者实体按钮。通信组件505用于该装置500与其他设备之间进行有线或无线通信。无线通信,例如Wi-Fi,蓝牙,近场通信(Near Field Communication,简称NFC),2G、3G或4G,或它们中的一种或几种的组合,因此相应的该通信组件505可以包括:Wi-Fi模块,蓝牙模块,NFC模块。
在一示例性实施例中,装置500可以被一个或多个应用专用集成电路(Application Specific Integrated Circuit,简称ASIC)、数字信号处理器(Digital Signal Processor,简称DSP)、数字信号处理设备(Digital Signal Processing Device,简称DSPD)、可编程逻辑器件(Programmable Logic Device,简称PLD)、现场可编程门阵列(Field Programmable Gate Array,简称FPGA)、控制器、微控制器、微处理器或其他电子元件实现,用于执行上述的训练人工智能模型的方法。
在另一示例性实施例中,还提供了一种包括程序指令的计算机可读存储介质,该程序指令被处理器执行时实现上述的训练人工智能模型的方法的步骤。例如,该计算机可读存储介质可以为上述包括程序指令的存储器502,上述程序指令可由装置500的处理器501执行以完成上述的训练人工智能模型的方法。
以上结合附图详细描述了本公开的优选实施方式,但是,本公开并不限于上述实施方式中的具体细节,在本公开的技术构思范围内,可以对本公开的技术方案进行多种简单变型,这些简单变型均属于本公开的保护范围。
另外需要说明的是,在上述具体实施方式中所描述的各个具体技术特征,在不矛盾的情况下,可以通过任何合适的方式进行组合,为了避免不必要的重复,本公开对各种可能的组合方式不再另行说明。
此外,本公开的各种不同的实施方式之间也可以进行任意组合,只要其不违背本公开的思想,其同样应当视为本公开所公开的内容。

Claims (13)

  1. 一种训练人工智能模型的方法,其特征在于,包括:
    响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果;
    获取所述用户对所述服务结果的反馈信息;
    根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对;
    当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对更新所述预设人工智能模型。
  2. 根据权利要求1所述的方法,其特征在于,所述根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对,包括:
    根据所述反馈信息确定所述用户的情感倾向;
    当所述情感倾向为负向倾向时,对所述服务结果进行修正,并再次执行所述获取所述用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤,直至所述用户的情感倾向为正向倾向;
    当所述情感倾向为正向倾向时,根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本,得到所述训练样本对,所述训练样本对包括所述输入样本和所述输出样本。
  3. 根据权利要求1所述的方法,其特征在于,所述利用生成的所述训练样本对更新所述预设人工智能模型,包括:
    获取用于训练所述预设人工智能模型的原始训练样本对;
    将生成的所述训练样本对和所述原始训练样本对合并后训练,得到新的人工智能模型;
    使用所述新的人工智能模型替换所述预设人工智能模型。
  4. 根据权利要求1所述的方法,其特征在于,所述利用生成的所述训练样本对更新所述预设人工智能模型,包括:
    利用生成的所述训练样本对,对所述预设人工智能模型进行迁移训练,生成新的人工智能模型;
    使用所述新的人工智能模型替换所述预设人工智能模型。
  5. 根据权利要求1~4中任一项所述的方法,其特征在于,所述反馈信息包括以下信息中的一者或多者:语音、面部表情和肢体动作。
  6. 一种训练人工智能模型的装置,其特征在于,包括:
    服务响应模块,用于响应于用户的服务请求信息,基于预设人工智能模型输出相应的服务结果;
    反馈信息获取模块,用于获取所述用户对所述服务结果的反馈信息;
    标注模块,用于根据所述反馈信息对所述服务请求信息和所述服务结果进行标注,生成训练样本对;
    训练模块,用于当生成的所述训练样本对的数量达到预设阈值时,利用各所述训练样本对更新所述预设人工智能模型。
  7. 根据权利要求6所述的装置,其特征在于,所述标注模块包括:
    情感倾向确定子模块,用于根据所述反馈信息确定所述用户的情感倾向;
    修正子模块,用于当所述情感倾向为负向倾向时,对所述服务结果进行修正,并再次执行所述获取用户对所述服务结果的反馈信息至根据所述反馈信息确定所述用户的情感倾向的步骤,直至所述用户的情感倾向为正向倾向;
    标注子模块,用于当所述情感倾向为正向倾向时,根据所述服务请求信息标注输入样本并根据所述服务结果标注输出样本,得到所述训练样本对,所述训练样本对包括所述输入样本和所述输出样本。
  8. 根据权利要求6所述的装置,其特征在于,所述训练模块包括:
    获取子模块,用于获取用于训练所述预设人工智能模型的原始训练样本对;
    训练子模块,用于将生成的所述训练样本对与所述原始训练样本对合并后进行训练,得到新的人工智能模型;
    第一替换子模块,用于使用所述新的人工智能模型替换所述预设人工智能模型。
  9. 根据权利要求6所述的装置,其特征在于,所述训练模块包括:
    迁移学习子模块,用于利用生成的所述训练样本对,对所述预设人工智能模型进行迁移学习,生成新的人工智能模型;
    第二替换子模块,用于使用所述新的人工智能模型替换所述预设人工智能模型。
  10. 根据权利要求6~9中任一项所述的装置,其特征在于,所述反馈信息包括以下信息中的一者或多者:语音、面部表情和肢体动作。
  11. 一种计算机可读存储介质,其上存储有计算机程序指令,其特征在于,该程序指令被处理器执行时实现权利要求1~5中任一项所述方法的步骤。
  12. 一种训练人工智能模型的装置,其特征在于,包括:
    权利要求11中所述的计算机可读存储介质;以及
    一个或者多个处理器,用于执行所述计算机可读存储介质中的程序。
  13. 一种机器人,其特征在于,包括权利要求6~10中任一项所述的训练人工智能模型的装置。
PCT/CN2018/097251 2018-07-26 2018-07-26 训练人工智能模型的方法、装置、存储介质及机器人 WO2020019252A1 (zh)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/CN2018/097251 WO2020019252A1 (zh) 2018-07-26 2018-07-26 训练人工智能模型的方法、装置、存储介质及机器人
CN201880001053.1A CN109074502A (zh) 2018-07-26 2018-07-26 训练人工智能模型的方法、装置、存储介质及机器人

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2018/097251 WO2020019252A1 (zh) 2018-07-26 2018-07-26 训练人工智能模型的方法、装置、存储介质及机器人

Publications (1)

Publication Number Publication Date
WO2020019252A1 true WO2020019252A1 (zh) 2020-01-30

Family

ID=64789265

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/097251 WO2020019252A1 (zh) 2018-07-26 2018-07-26 训练人工智能模型的方法、装置、存储介质及机器人

Country Status (2)

Country Link
CN (1) CN109074502A (zh)
WO (1) WO2020019252A1 (zh)

Cited By (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626883A (zh) * 2020-05-29 2020-09-04 上海商汤智能科技有限公司 核保方法及装置、电子设备和存储介质
CN111859953A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 训练数据的挖掘方法、装置、电子设备及存储介质
CN111861737A (zh) * 2020-08-06 2020-10-30 深圳壹账通智能科技有限公司 基于区块链的风控模型优化方法、装置和计算机设备
CN112036570A (zh) * 2020-07-30 2020-12-04 第四范式(北京)技术有限公司 标注任务的调度方法、装置和可读存储介质
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112818651A (zh) * 2021-01-21 2021-05-18 北京明略软件系统有限公司 基于企业微信的智能推荐撰写方法及系统
CN113327591A (zh) * 2021-06-16 2021-08-31 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113487575A (zh) * 2021-07-13 2021-10-08 中国信息通信研究院 用于训练医学影像检测模型的方法及装置、设备、可读存储介质
CN113765959A (zh) * 2020-06-30 2021-12-07 北京沃东天骏信息技术有限公司 信息推送方法、装置、设备及计算机可读存储介质
CN114694009A (zh) * 2022-03-31 2022-07-01 上海深至信息科技有限公司 一种人工智能模型的训练系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110349577B (zh) * 2019-06-19 2022-12-06 达闼机器人股份有限公司 人机交互方法、装置、存储介质及电子设备
CN110660479A (zh) * 2019-09-18 2020-01-07 苏州晗林信息技术发展有限公司 一种动态医学影像ai训练诊断系统
CN110751227A (zh) * 2019-10-28 2020-02-04 中国建设银行股份有限公司 数据处理方法、装置、设备及存储介质
CN111209931A (zh) * 2019-12-23 2020-05-29 深圳智链物联科技有限公司 数据处理方法、平台、终端设备及存储介质
CN111693938A (zh) * 2020-06-10 2020-09-22 北京云迹科技有限公司 机器人的楼层定位方法及装置、机器人、可读存储介质
CN112966071B (zh) * 2021-02-03 2023-09-08 北京奥鹏远程教育中心有限公司 一种用户反馈信息分析方法、装置、设备及可读存储介质
CN115213889B (zh) * 2021-08-18 2023-01-13 达闼机器人股份有限公司 机器人控制方法、装置、存储介质及机器人
CN115169549B (zh) * 2022-06-24 2023-08-22 北京百度网讯科技有限公司 人工智能模型更新方法、装置、电子设备及存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021463A (zh) * 2016-05-17 2016-10-12 北京百度网讯科技有限公司 基于人工智能提供智能服务的方法、智能服务系统及智能终端
CN107463601A (zh) * 2017-06-13 2017-12-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
CN107515906A (zh) * 2017-08-07 2017-12-26 北京小度信息科技有限公司 对象处理方法、装置、电子设备及计算机存储介质
CN108115678A (zh) * 2016-11-28 2018-06-05 深圳光启合众科技有限公司 机器人及其动作控制方法和装置

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105093986A (zh) * 2015-07-23 2015-11-25 百度在线网络技术(北京)有限公司 基于人工智能的拟人机器人控制方法、系统及拟人机器人
CN105183848A (zh) * 2015-09-07 2015-12-23 百度在线网络技术(北京)有限公司 基于人工智能的人机聊天方法和装置
CN105068661B (zh) * 2015-09-07 2018-09-07 百度在线网络技术(北京)有限公司 基于人工智能的人机交互方法和系统
CN105224959B (zh) * 2015-11-02 2019-03-26 北京奇艺世纪科技有限公司 排序模型的训练方法和装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106021463A (zh) * 2016-05-17 2016-10-12 北京百度网讯科技有限公司 基于人工智能提供智能服务的方法、智能服务系统及智能终端
CN108115678A (zh) * 2016-11-28 2018-06-05 深圳光启合众科技有限公司 机器人及其动作控制方法和装置
CN107463601A (zh) * 2017-06-13 2017-12-12 北京百度网讯科技有限公司 基于人工智能的对话理解系统构建方法、装置、设备及计算机可读存储介质
CN107515906A (zh) * 2017-08-07 2017-12-26 北京小度信息科技有限公司 对象处理方法、装置、电子设备及计算机存储介质

Cited By (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111626883A (zh) * 2020-05-29 2020-09-04 上海商汤智能科技有限公司 核保方法及装置、电子设备和存储介质
CN111859953A (zh) * 2020-06-22 2020-10-30 北京百度网讯科技有限公司 训练数据的挖掘方法、装置、电子设备及存储介质
CN111859953B (zh) * 2020-06-22 2023-08-22 北京百度网讯科技有限公司 训练数据的挖掘方法、装置、电子设备及存储介质
CN113765959A (zh) * 2020-06-30 2021-12-07 北京沃东天骏信息技术有限公司 信息推送方法、装置、设备及计算机可读存储介质
CN112036570A (zh) * 2020-07-30 2020-12-04 第四范式(北京)技术有限公司 标注任务的调度方法、装置和可读存储介质
CN111861737B (zh) * 2020-08-06 2022-09-20 深圳壹账通智能科技有限公司 基于区块链的风控模型优化方法、装置和计算机设备
CN111861737A (zh) * 2020-08-06 2020-10-30 深圳壹账通智能科技有限公司 基于区块链的风控模型优化方法、装置和计算机设备
CN112070224A (zh) * 2020-08-26 2020-12-11 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112070224B (zh) * 2020-08-26 2024-02-23 成都品果科技有限公司 一种神经网络训练用样本的修订系统及方法
CN112818651A (zh) * 2021-01-21 2021-05-18 北京明略软件系统有限公司 基于企业微信的智能推荐撰写方法及系统
CN113327591A (zh) * 2021-06-16 2021-08-31 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113327591B (zh) * 2021-06-16 2023-01-17 北京有竹居网络技术有限公司 一种语音处理方法及装置
CN113487575B (zh) * 2021-07-13 2024-01-16 中国信息通信研究院 用于训练医学影像检测模型的方法及装置、设备、可读存储介质
CN113487575A (zh) * 2021-07-13 2021-10-08 中国信息通信研究院 用于训练医学影像检测模型的方法及装置、设备、可读存储介质
CN114694009A (zh) * 2022-03-31 2022-07-01 上海深至信息科技有限公司 一种人工智能模型的训练系统

Also Published As

Publication number Publication date
CN109074502A (zh) 2018-12-21

Similar Documents

Publication Publication Date Title
WO2020019252A1 (zh) 训练人工智能模型的方法、装置、存储介质及机器人
JP6902683B2 (ja) 仮想ロボットのインタラクション方法、装置、記憶媒体及び電子機器
WO2020134556A1 (zh) 图像风格迁移方法、装置、电子设备及存储介质
WO2019100738A1 (zh) 多人参与的人机交互方法及装置
CN105141587B (zh) 一种虚拟玩偶互动方法及装置
CN109446961B (zh) 姿势检测方法、装置、设备及存储介质
JP2018014094A (ja) 仮想ロボットのインタラクション方法、システム及びロボット
KR102448382B1 (ko) 텍스트와 연관된 이미지를 제공하는 전자 장치 및 그 동작 방법
US10719695B2 (en) Method for pushing picture, mobile terminal, and storage medium
JP7209851B2 (ja) 画像変形の制御方法、装置およびハードウェア装置
KR102585230B1 (ko) 통화 요청에 대한 알림 메시지를 제공하는 디바이스 및 방법
WO2024000867A1 (zh) 情绪识别方法、装置、设备及存储介质
CN111160448B (zh) 一种图像分类模型的训练方法及装置
CN110245757A (zh) 一种图像样本的处理方法及装置、电子设备和存储介质
US20240005466A1 (en) Animal face style image generation method and apparatus, model training method and apparatus, and device
WO2022166897A1 (zh) 脸型调整图像生成方法、模型训练方法、装置和设备
WO2020019683A1 (zh) 一种输入方法、装置和电子设备
JP2022537860A (ja) 音声パケット推薦方法、装置、電子機器およびプログラム
CN110991182B (zh) 用于专业领域的分词方法、装置、存储介质及电子设备
CN110349577B (zh) 人机交互方法、装置、存储介质及电子设备
CN112036174B (zh) 一种标点标注方法及装置
CN112306603A (zh) 信息提示方法、装置、电子设备及存储介质
CN110226202A (zh) 用于发送和接收音频数据的方法和设备
CN111506184A (zh) 化身呈现方法及电子设备
WO2023093280A1 (zh) 语音控制方法、装置、电子设备及存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18927465

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 07/05/2021)

122 Ep: pct application non-entry in european phase

Ref document number: 18927465

Country of ref document: EP

Kind code of ref document: A1