WO2023197613A1

WO2023197613A1 - 一种小样本微调方法、系统及相关装置

Info

Publication number: WO2023197613A1
Application number: PCT/CN2022/134801
Authority: WO
Inventors: 刘红丽; 李峰; 于彤; 申冲
Original assignee: 苏州浪潮智能科技有限公司
Priority date: 2022-04-15
Filing date: 2022-11-28
Publication date: 2023-10-19
Also published as: CN114492363A; CN114492363B

Abstract

本申请提供一种小样本微调方法，涉及计算机技术领域，包括：输入数据集，按固定模板组成输入样例；构建候选标签词集合和候选prompt模板集合；通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板；输出最佳标签词映射关系以及提示模板对应的最佳prompt模板格式。本申请通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。本申请还提供一种小样本微调系统、非易失性可读存储介质和电子设备，具有上述有益效果。

Description

一种小样本微调方法、系统及相关装置

相关申请的交叉引用

本申请要求于2022年04月15日提交中国专利局，申请号为202210392419.0，申请名称为“一种小样本微调方法、系统及相关装置”的中国专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及计算机技术领域，特别涉及一种小样本微调方法、系统及相关装置。

背景技术

当前，在下游任务中微调预训练语言模型(LM)已成为NLP领域的通用做法。在标准的“预训练(pre-training)和微调(fine-tuning)”范式中，预训练阶段和下游任务之间的差距可能很大：它们训练目标不同。对于下游任务，通常需要引入新的参数。然而，随着语言模型的日益增大，很难有效地全参数微调预训练模型和新任务相关的参数，但是基于prompt的微调可以使得下游任务采用与预训练目标相同的格式，并且不需要新的参数。

当prompt模板包含一些训练示例时，预训练的语言模型可以执行许多任务。但是这种类型的小样本学习可能是非常不稳定的：prompt模板格式的选择、训练样本、甚至训练样本顺序都可能导致准确性在接近偶然到接近最先进水平之间漂移，这种不稳定性源于语言模型对预测某些答案的偏差，例如，那些被放在提示语末尾附近的答案，或在预训练数据中常见的答案，这些偏差往往会导致模型的输出分布发生变化。因此不同的prompt模板对最终准确性影响很大。

为了更好的完成相关下游任务，当前大多数prompt模板是根据人工直觉设计的。但是，找到一个合适的、正确的提示模板，既需要专业知识、又需要对语言模型内部的运作方式有着充分的理解。其实，针对不同任务，就人工手动设计提示模板或者标签词，是一件费力不讨好的事情。因此，应该采用自动化构建prompt方法。但是prompt模板的搜索空间很大，而且当只有少量标注数据进行模板搜索时，很容易导致过度拟合。

发明内容

本申请的目的是提供一种小样本微调方法、系统、非易失性可读存储介质和电子设备，能够减少不同prompt模板之间的差异性，提高下游任务准确率。

为解决上述技术问题，本申请提供一种小样本微调方法，具体技术方案如下：

输入数据集，按固定模板组成输入样例；

构建候选标签词集合和候选prompt模板集合；

通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板；

输出最佳标签词映射关系以及提示模板对应的最佳prompt模板格式。

在一些实施例中，输入数据集，按固定模板组成输入样例包括：

获取输入内容；

将输入内容以固定模板表示；

计算输入内容与训练集中所有样本之间的余弦相似度；

从前预设百分比的训练集样本中进行随机采样，得到输入样例。

在一些实施例中，构建候选标签词集合和候选prompt模板集合包括：

自动化选择最佳候选标签词；

自动化选择候选prompt模板。

在一些实施例中，自动化选择候选标签词包括：

初始化词表；

采用word2vec方法将词表中所有的词向量化，通过余弦相似度确定每个标签对应的近义词集合；

通过未经微调的预训练模型L，对于训练集中的每一个类别，在词表中选择使得条件概率最大的单词，以及包含单词的条件概率集合：

确定各类别下的候选标签词为近义词集合和条件概率几何交集的最大值；

综合各类别下的候选标签词，确定令训练集正确率最大的分配方式作为最佳候选标签词。

在一些实施例中，自动化选择候选prompt模板包括：

确定最佳候选标签词；

通过填充占位符生成初始提示模板；初始提示模板用于令训练集中的输出概率最大；

采用集束搜索算法对初始提示模板解码得到候选prompt模板。

在一些实施例中，通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板包括：

确定每个类别的前预设数量个候选标签词集合；

将候选标签词集合与候选prompt模板对应的模板集合组合得到搜索空间列表；

通过搜索空间列表确定输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板。

本申请还提供一种小样本微调系统，包括：

样例组成模块，用于输入数据集，按固定模板组成输入样例；

候选集合构建模块，用于构建候选标签词集合和候选prompt模板集合；

最佳选择模块，用于通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板；

输出模块，用于输出最佳标签词映射关系以及提示模板对应的最佳prompt模板格式。

在一些实施例中，样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将输入内容以固定模板表示；

相似度计算单元，用于计算输入内容与训练集中所有样本之间的余弦相似度；

采样单元，用于从前预设百分比的训练集样本中进行随机采样，得到输入样例。

本申请还提供一种非易失性可读存储介质，其上存储有计算机程序，计算机程序被处理器执行时实现如上的方法的步骤。

本申请还提供一种电子设备，包括存储器和处理器，存储器中存有计算机程序，处理器调用存储器中的计算机程序时实现如上的方法的步骤。

本申请提供一种小样本微调方法，具体技术方案如下：输入数据集，按固定模板组成输入样例；构建候选标签词集合和候选prompt模板集合；通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板；输出最佳标签词映射关系以及提示模板对应的最佳prompt模板格式。

本申请通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。采用prompt微调预训练模型方法降低了内存需求和系统复杂性，尤其防止小样本过拟合。同时本申请采用强化学习过程搜索最佳标签词和模板，解决通用算法容易陷入局部最优问题。

本申请还提供一种小样本微调系统、非易失性可读存储介质和电子设备，具有上述有益效果，此处不再赘述。

附图说明

为了更清楚地说明本申请实施例或现有技术中的技术方案，下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍，显而易见地，下面描述中的附图仅仅是本申请的实施例，对于本领域普通技术人员来讲，在不付出创造性劳动的前提下，还可以根据提供的附图获得其他的附图。

图1为本申请实施例所提供的小样本微调方法的流程图；

图2为本申请实施例所提供的小样本微调系统结构示意图；

图3为本申请实施例所提供一种电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合本申请实施例中的附图，对本申请实施例中的技术方案进行清楚、完整地描述，显然，所描述的实施例是本申请一部分实施例，而不是全部的实施例。基于本申请中的实施例，本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例，都属于本申请保护的范围。

下文先对本申请的相关概念进行说明：

一般而言NLP(Natural Language Processing，自然语言处理)高效预训练框架围绕三个部分进行：模型预训练、模型微调和模型推理。

当前对prompt(提示)的研究有两种不同的方向：一、对于像175B GPT-3和11B T5这样的超大型模型，微调它们比较困难而且成本很高，因此希望固定它们的参数，然后将不同的prompt应用到不同任务上，但是通常该方法精度无法和微调相比。二、采用基于prompt的微调方法，能够保持精度的同时大大缩减优化参数量。

在标准的微调方案中，通常输入句子为[CLS]语句1[SEP]或者成对的句子[CLS]语句1[SEP]语句2[SEP]，然后在[CLS]部分添加一个额外的分类器(全连接层+softmax(归一化指数函数))。这种方法会引入新的参数，且在训练过程中会导致局部最优。

采用基于提示的微调方法能有效缓解，即将下游任务视为一种掩码语言模型 (masked language modeling，MLM)的“自动补全”任务。例如输入的句子是：

x _prompt＝[CLS]x ₁It was[MASK].[SEP]

其中x ₁表示输入的句子，It was[MASK]则表示一个prompt模板，其中[MASK]部分则为一个标签词，其作为当前句子所属类的标签的代替词，例如对于电影评论二分类任务，其包含positive(积极)和negative(消极)，则可以分别使用great(好的)和terrible(坏的)两个词作为两个类的标签词。

值得注意的是：上述方法重新使用了预先训练的参数权重，并且没有引入任何新参数来进行微调。同时还减少了微调和预训练之间的差距，这可以更有效地用于小样本场景。

当作为分类任务时：

原始是给定一个输入句子x _in，其属于对应某个类y的概率。经过转化后，给定一个输入句子x _prompt时，其prompt模板中[MASK]预测为映射的标签词M(y)的概率。

由上述分析，可以得知prompt由两部分构成：

模板T：例如It was[MASK]

标签词映射M(y)：即[MASK]位置预测输出的词汇集合，与真实标签y构成映射关系。

在基于提示的微调方法中，不同的模板和标签词选择其实对最终结果影响很大：使用相同“标签词”，即使对“模板”进行较小改动(如换标点符号)也会呈现不同结果；使用相同“模板”，不同的“标签词”效果也不一样。

因此，如何缓解这种不稳定性并自动化构建有效提示模板是当前研究热点。

在做自然语言处理的过程中，经常会遇到需要找出相似语句或词语的场景，涉及到句子或词语相似度计算的问题。具体计算流程：首先对句子进行分词，然后对分好的每一个词获取其对应的Vector(向量)，然后将所有Vector相加并求平均，得到句子Vector，最后再利用如下公式计算其夹角余弦值即可，余弦值越接近1(即夹角越小)表示语句或词语之间的相似度越高：

其中利用word2vec模型计算Vector是目前常用方法之一。word2vec是google在2013年推出的一个NLP工具，它的特点是将所有的词向量化，这样词与词之间就可以定量的去度量他们之间的关系，挖掘词之间的联系。

强化学习中关键因素包括模型载体(Agent)、环境(Environment)、状态(State)、动作(Action)和奖励(Reward)。强化学习的目标是学习一个策略，使得智能体在合适的时候做出合适的动作，以获得最大的奖励。

强化学习中两种重要的方法是基于Q值的强化学习和基于策略梯度的强化学习。策略梯度算法的实质是建立一个策略网络(policy network)，通过观察环境状态预测出目前应该执行的策略，执行这个策略，并获取可以获得的最大奖励。

Prompt微调会从预训练语料库带来偏置。例如，在零样本情感分类设置中，给定“N/A”作为输入，GPT-3倾向于预测为“positive”而不是“negative”，而本应该分配50/50的概率给这两个相反的标签。另一个问题是同一对象的不同表示(例如，“computer(电脑)”和“PC”)可能会竞争概率质量，导致任务标签上的分布不理想。因此在实际应用中校正很有必要。

本申请的核心思想是对带偏置的标签词进行补偿，把它们校准为无偏状态。具体流程首先输入无文本样例，即将无文本["N/A","","[MASK]"]分别和标签词组合，如"N/A"与标签词“好”组成Prompt：“N/A。这个评价很好”；然后将Prompts输入语言模型，输出标签词位置对应的所有类别概率(logits)，并取平均值后归一化得到p_cf；根据公式W＝[diag(p_cf)] ^-1计算校正矩阵；校正后类别概率p _cal＝softmax(W*p _pre+b)，本申请中b为零。

请参考图1，图1为本申请实施例所提供的小样本微调方法的流程图，该方法包括：

S101：输入数据集，按固定模板组成输入样例；

S102：构建候选标签词集合和候选prompt模板集合；

S103：通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的候选prompt模板集合中的提示模板；

S104：输出最佳标签词映射关系以及提示模板对应的最佳prompt模板格式。

首先输入数据集并进行数据处理：

初始化提示模板格式T：sentence(句子)，表示这个评价很__。

输入下游任务数据，分训练集、验证集、测试集；

可以采用SBERT(sentence-BERT，语义相似度预训练模型)方法对句子进行编码，对于验证集的每个输入，分别计算与训练集中所有样本之间的余弦相似度，然后仅从前预设百分比的训练集样本中进行随机采样，例如从前50％的训练集样本中进行随机采样，组成输入；

转换成prompts输入x _prompt＝T(x _in)。

而对于步骤S102，可以分为两部分执行：

第一部分，先确定候选标签词集合，可以包括如下步骤；

第一步、初始化词表

第二步、采用word2vec方法将词表中所有的词向量化，通过余弦相似度确定每个标签对应的近义词集合S ^c；

第三步、通过未经微调的预训练模型

对于训练集中的每一个类别c，在词表中选择使得条件概率最大的Topk单词，集合为V ^c：

其中

表示基于模型

的输出概率分布。

第四步、每个类别下的候选标签词为近义词集合和条件概率集合交集的最大Topn，即M ^c＝Topn{S ^c∩V ^c}，其中n<k；

第五步、综合每个类别下的候选标签词，然后找出使得训练集正确率最大的分配方式作为临时最佳标签词；

第二部分，确定候选prompt模板集合，可以先确定最佳候选标签词；通过填充占位符生成初始提示模板，提示模板用于令训练集中的输出概率最大，最后采用集束搜索算法对初始提示模板解码得到候选prompt模板。由于面向生成式的自然语言模型基于多种无监督目标进行预训练，适合通过填充占位符<X>和<Y>方式生成提示模板。

上文获取每一个类别的前n个候选标签词集合，表示为{M ¹，M ²，...，M ^c，...，M ^N}，其中M ^c表示类别为c时映射的候选标签词集合，N表示类别数目。结合上文得到的候选模板集合T。将两者组合为搜索空间如表1的搜索空间列表，目标是在微调过程中找到最佳的标签词与模板分配方式。通过(1*N+1)的列表L表示，L[0:N-1]中编码数字表示对应集合内候选标签词的下标，L[N]中编码数字表示对应集合内候选模板的下标。

表1 搜索空间列表

而强化学习中关键因素在本申请中的含义可以参考表2，表2为强化学习及其含义对照表，包含了本实施例所应用的强化学习对象及其含义：

表2 强化学习及其含义对照表

强化学习	含义
智能体	策略网络(RNN控制器)
环境	语言模型环境
动作	标签词和模板选择(编码)
状态	当前标签词和提示模板
奖励	准确度

在将文本输入至模型，该模型包含语言模型环境，得到输出结果。将输出结果与标签相比，计算二者损失，将损失结果作为奖励，反馈给智能体，智能体根据奖励确定模板和标签词的选择方向，直至确定最佳标签词和提示模板。

本申请实施例通过构建候选标签词集合，通过选择近义词集合和条件概率集合的交集，缩减候选标签词搜索空间，同时减少不同prompt模板之间的差异性，提高下游任务准确率。此外，采用prompt微调预训练模型方法降低了内存需求和系统复杂性，尤其防止小样本过拟合。将每个类别下的候选标签词作为近义词集合和条件概率集合的交集，缩小了标签词的搜索空间。同时本申请采用强化学习过程搜索最佳标签词和模板，解决通用算法容易陷入局部最优问题。

下文中，本申请实施例以预训练好的GPT-3模型为例，对本申请的一种具体应用过程进行说明：

本申请实施例采用来自CLUE Benchmark(中文语言理解基准测)的中文自然语言理解数据集，包含多个不同类型的任务，包括情感分析任务、自然语言推理、多种文本分类、文本匹配任务和成语阅读理解等。下面以电商产品评论情感分析数据集(EPRSTMT)为实施例进行讲解。

数据量：训练集(32)，验证集(32)，测试集(753)

例子：{"id":23,"sentence":"外包装上有点磨损，试听后感觉不错","label":"Positive"}

每一条数据有三个属性，从前往后分别是id,sentence,label。其中label是标签，Negative表示负向，对应0。而Positive表示正向，对应1。

第一步：将原始训练和验证数据转换为prompts输入和true_labels列表，比如sentence："外包装上有点磨损，试听后感觉不错"是验证集的一个示例，采用SBERT方法在训练集中找到相似样本s1：“已收货，试听了一下，音质可以”和s2：“话筒声小插上耳机手机还能外放破耳机别买。”。采用初始化模板格式和标签词，最后prompts的样例如下：

s1。这个评价很好。s2。这个评价很差。sentence。这个评价很[MASK]

需要注意，GPT-3在预训练输入时没有考虑[CLS][SEP]等分隔符，所以对应下游任务输入也不添加。

第二步：自动化选择候选标签词

假设结果为negative候选集合M ¹:{差，难用，消极}，positive候选集合M ²:{好，不错，积极}。

第三步：自动化选择候选模板

假设候选模板T：{sentence。这个评价很[MASK]。

sentence。消费者态度是[MASK]。

sentence。一个[MASK]的评价。}

第四步：通过强化学习搜索最佳标签词和提示模板

注意，任务类别数目和候选数目越多，强化学习优势越明显。

假设搜索到标签词：{难用，不错}，搜索到模板：这个评价很[MASK]，则对应的无文本输入为：

N/A。这个评价很难用。

N/A。这个评价很不错。

这个评价很难用。

这个评价很不错。

[MASK]。这个评价很难用。

[MASK]。这个评价很不错。

假设无文本输入预训练模型，输出标签词对应概率取平均值后归一化得到p_cf：[0.03201457 0.96798543]，可以看出当前模型对正面(positive)的标签词偏好非常明显；根据公式[diag(p_cf)] ^-1计算校正矩阵W：

假设输入样例：“居然有个耳机是坏的，也懒得换嘞。”组成模板格式输入LM模型输出标签词{差，好}对应概率[0.000906262,0.01283005]，归一化[0.065975690.93402431]，根据最大值位置预测为“好”，预测错误。在实际应用中根据W*p _pre计算较正后为[2.06080189，0.96491567]，根据最大值位置预测为“差”，预测正确。

本申请实施例以校正后准确率为奖励反馈更新策略网络，以此输出更好的标签词和模板选择。

需要注意的是，本实施例以情感分类为基础进行说明，但在实际应用中不仅局限于分类，其它诸如完形填空、自然语言推理等下游任务均可以此方式进行改进。

下面对本申请实施例提供的一种小样本微调系统进行介绍，下文描述的小样本微调系统与上文描述的小样本微调方法可相互对应参照。

图2为本申请实施例所提供的小样本微调系统结构示意图，本申请还提供一种小样本微调系统，包括：

最佳选择模块，用于通过强化学习搜索输入样例对应的候选标签词集合中的最佳标签词，和输入样例对应的所述候选prompt模板集合中的提示模板；

基于上述实施例，作为一些实施方式，所述样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将输入内容以固定模板表示；

本申请还提供了一种非易失性可读存储介质，其上存有计算机程序，该计算机程序被执行时可以实现上述实施例所提供的步骤。该存储介质可以包括：U盘、移动硬盘、只读存储器(Read-Only Memory，ROM)、随机存取存储器(Random Access Memory，RAM)、磁碟或者光盘等各种可以存储程序代码的介质。

参见图3所示，本申请还提供了一种电子设备，可以包括存储器11和处理器12，存储器11中存有计算机程序，处理器12调用存储器11中的计算机程序时，可以实现上述实施例所提供的步骤。当然所述电子设备还可以包括各种网络接口，电源等组件。

说明书中各个实施例采用递进的方式描述，每个实施例重点说明的都是与其他实施例的不同之处，各个实施例之间相同相似部分互相参见即可。对于实施例提供的系统而言，由于其与实施例提供的方法相对应，所以描述的比较简单，相关之处参见方法部分说明即可。

本文中应用了具体个例对本申请的原理及实施方式进行了阐述，以上实施例的说明只是用于帮助理解本申请的方法及其核心思想。应当指出，对于本技术领域的普通技术人员来说，在不脱离本申请原理的前提下，还可以对本申请进行若干改进和修饰，这些改进和修饰也落入本申请权利要求的保护范围内。

还需要说明的是，在本说明书中，诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来，而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且，术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含，从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素，而且还包括没有明确列出的其他要素，或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下，由语句“包括一个……”限定的要素，并不排除在包括所述要素的过程、方法、物品或者设备中还存在另外的相同要素。

Claims

一种小样本微调方法，其特征在于，包括：

输入数据集，按固定模板组成输入样例；

构建候选标签词集合和候选prompt模板集合；

通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；

输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
根据权利要求1所述的小样本微调方法，其特征在于，所述方法还包括：

所述数据集划分为训练集、验证集、测试集；

所述训练集用于随机采样，组成输入样例；

所述验证集用于计算余弦相似度。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

基于id属性,sentence属性,label属性组成数据集中的数据；其中，所述id属性用于表示所述数据的id,所述sentence属性用于表示所述数据的内容，所述label属性用于表示所述数据的标签词。
根据权利要求1所述的小样本微调方法，其特征在于，所述输入数据集，按固定模板组成输入样例包括：

获取输入内容；

将所述输入内容以固定模板表示；

计算所述输入内容与所述训练集中所有样本之间的余弦相似度；

从前预设百分比的训练集样本中进行随机采样，得到输入样例。
根据权利要求4所述的小样本微调方法，其特征在于，所述方法还包括：

初始化提示模板格式；

将所述输入内容以初始化提示模板的格式表示。
根据权利要求4所述的小样本微调方法，其特征在于，所述计算所述输入内容与所述训练集中所有样本之间的余弦相似度的步骤包括：

采用SBERT方法对输入内容进行编码；

对于所述验证集的每个输入内容，分别计算与所述训练集中所有样本之间的所述余弦相似度。
根据权利要求3所述的小样本微调方法，其特征在于，所述方法还包括：

将所述输入样例转化成prompts输入。
根据权利要求1所述的小样本微调方法，其特征在于，构建候选标签词集合和候选prompt模板集合包括：

自动化选择最佳候选标签词；

自动化选择候选prompt模板。
根据权利要求8所述的小样本微调方法，其特征在于，所述自动化选择候选标签词包括：

初始化词表；

采用word2vec方法将所述词表中所有的词向量化，通过余弦相似度确定每个标签对应的近义词集合；

通过未经微调的预训练模型，对于训练集中的每一个类别，在所述词表中选择使得条件概率最大的单词，以及包含所述单词的条件概率集合：

确定各类别下的候选标签词为所述近义词集合和所述条件概率的几何交集的最大值；

综合各类别下的候选标签词，确定令所述训练集正确率最大的分配方式作为最佳候选标签词。
根据根据权利要求9所述的小样本微调方法，其特征在于，所述方法还包括：所述条件概率集合通过公式

确定；

其中，Topk为条件概率最大的单词，v为初始化词表；
为未经微调的预训练模型；c为所述训练集中的每一个类别；
表示基于模型
的输出概率分布，T(X _in)为输入样例。
根据权利要求9所述的小样本微调方法，其特征在于，所述自动化选择候选prompt模板包括：

确定所述最佳候选标签词；

通过填充占位符生成初始提示模板；所述初始提示模板用于令所述训练集中的输出概率最大；

采用集束搜索算法对所述初始提示模板解码得到候选prompt模板。
根据权利要求11所述的小样本微调方法，其特征在于，通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板包括：

确定每个类别的前预设数量个候选标签词集合；

将所述候选标签词集合与所述候选prompt模板对应的模板集合组合得到搜索空间列表；

通过所述搜索空间列表确定所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板。
根据权利要求12所述的小样本微调方法，其特征在于，所述方法还包括：

通过将所述候选标签词集合与所述候选prompt模板对应的模板集合组合得到所述搜索空间列表，以在微调过程中确定最佳的所述候选标签词与所述候选prompt模板分配方式。
根据权利要求1所述的小样本微调方法，其特征在于，所述方法还包括：

通过所述强化学习中的关键因素确定所述最佳标签词和所述提示模板，所述关键因素包括：智能体、环境、动作、状态、奖励。
根据权利要求14所述的小样本微调方法，其特征在于，确定最佳标签词以及所述最佳prompt模板格式的步骤包括：

将文本输入至模型，得到输出结果；所述模型包含语言模型环境；

计算所述输出结果与标签词的损失；

将所述损失作为所述奖励反馈至所述智能体；

所述智能体依据所述奖励确定模板与标签词的选择方向，直至确定最佳标签词和提示模板。
根据权利要求1所述的小样本微调方法，其特征在于，所述方法还包括：

当输入无文本时，输出标签词对应概率取平均值后归一化得到归一概率p_cf；根据公式[diag(p_cf)] ^-1计算校正矩阵。
一种小样本微调系统，其特征在于，包括：

样例组成模块，用于输入数据集，按固定模板组成输入样例；

候选集合构建模块，用于构建候选标签词集合和候选prompt模板集合；

最佳选择模块，用于通过强化学习搜索所述输入样例对应的候选标签词集合中的最佳标签词，和所述输入样例对应的所述候选prompt模板集合中的提示模板；

输出模块，用于输出所述最佳标签词映射关系以及所述提示模板对应的最佳prompt模板格式。
根据权利要求17所述的小样本微调系统，其特征在于，所述样例组成模块包括：

输入单元，用于获取输入内容；

转换单元，用于将所述输入内容以固定模板表示；

相似度计算单元，用于计算所述输入内容与训练集中所有样本之间的余弦相似度；

采样单元，用于从前预设百分比的训练集样本中进行随机采样，得到输入样例。
一种非易失性可读存储介质，其上存储有计算机程序，其特征在于，所述计算机程序被处理器执行时实现如权利要求1-16任一项所述的方法的步骤。
一种电子设备，其特征在于，包括存储器和处理器，所述存储器中存有计算机程序，所述处理器调用所述存储器中的计算机程序时实现如权利要求1-16任一项所述的方法的步骤。