WO2023010916A1

WO2023010916A1 - 软件自动修复方法、系统、电子设备及存储介质

Info

Publication number: WO2023010916A1
Application number: PCT/CN2022/091008
Authority: WO
Inventors: 程圣宇; 朱琪豪; 孙泽宇; 肖元安; 张文杰; 熊英飞; 张路; 曹继承; 彭星海
Original assignee: 中兴通讯股份有限公司; 北京大学
Priority date: 2021-08-06
Filing date: 2022-05-05
Publication date: 2023-02-09
Also published as: CN115934147A

Abstract

一种软件自动修复方法、系统、电子设备及存储介质，软件自动修复方法包括：获取软件缺陷代码(101)；根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板(102)；填充补丁模板，生成软件缺陷代码的补丁(103)；用补丁修复软件缺陷代码(104)。

Description

软件自动修复方法、系统、电子设备及存储介质

交叉引用

本申请基于申请号为“202110904041.3”、申请日为2021年8月6日的中国专利申请提出，并要求该中国专利申请的优先权，该中国专利申请的全部内容在此以引入方式并入本申请。

技术领域

本申请实施例涉及计算机领域，特别涉及一种软件自动修复方法、系统、电子设备及存储介质。

背景技术

软件自动修复(Automatic Bug Fixing，简称“ABF”)，严格意义上来说是指在不需要人工介入的情况下，通过自动化生成正确的修复包来修复目标软件中存在的Bug的一种程序。

传统的软件自动修复技术主要从代码仓库中挖掘预存的补丁模板、根据缺陷代码进行贪心搜索以及随机搜索等技术，生成能够通过测试样例的软件补丁。由于预存的补丁模板有限，但程序开发语言多种多样，预存的补丁模板泛化能力有限，并不能完全适配所有缺陷代码，尤其在用于处理新的软件缺陷时，根据预存的补丁模板，难以得到适配的补丁，从而难以完成对缺陷代码的自动修复。

发明内容

本申请实施例提供了一种软件自动修复方法，包括：获取软件缺陷代码；根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板；填充补丁模板，生成软件缺陷代码的补丁；用补丁修复软件缺陷代码。

本申请实施例提供了一种软件自动修复系统，包括：获取模块，用于获取软件缺陷代码；模板生成模块，用于根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板；补丁生成模块，用于填充补丁模板，生成软件缺陷代码的补丁；修复模块，用于用补丁修复软件缺陷代码。

本申请实施例还提供了一种电子设备，包括：至少一个处理器；与至少一个处理器通信连接的存储器；存储器存储有可被至少一个处理器执行的指令，指令被至少一个处理器执行，以使至少一个处理器能够执行上述软件自动修复方法。

本申请实施例还提供了一种计算机可读存储介质，存储有计算机程序，计算机程序被处理器执行时实现上述软件自动修复方法。

附图说明

一个或多个实施例通过与之对应的附图中的图片进行示例性说明，这些示例性说明并不构成对实施例的限定，附图中具有相同参考数字标号的元件表示为类似的元件，除非有特别申明，附图中的图不构成比例限制。

图1是根据本申请一实施例提供的软件自动修复方法流程图；

图2是根据本申请一实施例提供的软件自动修复的扩展语法规则；

图3是根据本申请一实施例提供的补丁模板生成模型的示意图；

图4是根据本申请一实施例提供的提案器/决策器结构的示意图；

图5是根据本申请一实施例提供的软件自动修复方法实施示意图；

图6是根据本申请一实施例提供的软件自动修复系统示意图；

图7是根据本申请一实施例提供的电子设备结构示意图。

具体实施方式

为使本申请实施例的目的、技术方案和优点更加清楚，下面将结合附图对本申请的各实施例进行详细的阐述。然而，本领域的普通技术人员可以理解，在本申请各实施例中，为了使读者更好地理解本申请而提出了许多技术细节。但是，即使没有这些技术细节和基于以下各实施例的种种变化和修改，也可以实现本申请所要求保护的技术方案。以下各个实施例的划分是为了描述方便，不应对本申请的具体实现方式构成任何限定，各个实施例在不矛盾的前提下可以相互结合相互引用。

本申请实施例的主要目的在于提出一种软件自动修复方法、系统、电子设备及存储介质，能够针对不同程序开发语言的缺陷代码生成适配性高的补丁，提高软件自动修复的修复能力。

本申请的实施例涉及一种软件自动修复方法，如图1所示，方法具体包括：

步骤101，获取软件缺陷代码；

步骤102，根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板；

步骤103，填充补丁模板，生成软件缺陷代码的补丁；

步骤104，用补丁修复软件缺陷代码。

本实施例的软件自动修复方法，应用于电子设备中，例如，电脑、手机、平板等，通过开发一个软件自动修复系统，实现软件的自动修复。本实施例的软件自动修复方法，通过根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板，填充补丁模板，生成软件缺陷代码的补丁，可以使得生成的补丁与软件缺陷代码的语法相符，不论软件缺陷代码以何种语言编写，都可以生成适配的补丁进行修复，提高软件自动修复的修复能力。

下面对本实施方式的软件自动修复方法的实现细节进行具体的说明，以下内容仅为方便理解提供的实现细节，并非实施本方案的必须。

在步骤101中，电子设备获取软件缺陷代码，即故障源代码。

具体地，软件缺陷代码可以由电子设备根据代码测试结果获取，也可以由电子设备读取技术人员的输入内容获取。

在步骤102中，电子设备根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板。

具体地，电子设备可以基本深度学习技术，从获取的软件缺陷代码中，自学习软件缺陷代码的语法，调用训练好的补丁模板生成模型，生成符合软件缺陷代码的语法的补丁模板。

在一个例子中，在步骤102之前，电子设备还基于缺陷定位技术，在软件缺陷代码中确定缺陷函数；解析缺陷函数，生成第一抽象语法树(Abstract Syntax Tree，简称“AST”)；根据第一抽象语法树中每一节点的特征向量、标签及邻接矩阵，得到第一抽象语法树的前序遍历序列、各节点标签向量及第一抽象语法图；根据预设的语法规则和语法特征，得到扩展程序语法；根据扩展程序语法的规则序列，调用词嵌入方法，生成各规则序列嵌入向量和程序补丁；根据规则序列的编码序号，生成各规则序列编码向量；根据程序补丁，生成第二抽象语法树；根据第二抽象语法树，得到第二抽象语法图及第二抽象语法树路径。

补丁模板生成模型，包括：代码编码器、补丁编码器、抽象语法树路径编码器和扩展语法解码器。生成软件缺陷代码的补丁模板，具体包括：将前序遍历序列、各节点标签向量及第一抽象语法图输入代码编码器，得到代码编码结果；将代码编码结果和各规则序列嵌入向量、各规则序列编码向量、第二抽象语法图输入补丁编码器，得到补丁编码结果；将代码编码结果、代码编码结果和第二抽象语法树路径输入抽象语法树路径编码器，得到抽象语法树路径编码结果；将抽象语法树路径编码结果输入扩展语法解码器，选取最佳规则序列；根据最佳规则序列，生成补丁模板。

其中，最佳规则序列并不是一个完整的补丁序列，而是完整的补丁序列中的一个序列段，补丁模板生成模型需要将此序列段再次经过代码编码器、补丁编码器、抽象语法树路径编码器和扩展语法解码器的迭代运算，对序列段进行延长扩展，直到此序列段无法扩展或者长度达到预设要求时，停止迭代运算，得到一个完整的补丁序列。补丁模板生成模型根据生成的各完整的补丁序列，生成补丁模板。

具体地，在每个生成完整的补丁序列的过程中，补丁编码器的初始输入可以是一个预设的字符串，以这个字符串标识补丁序列的开始，在扩展语法解码器生成首个序列段后，将此首个序列段在迭代运算时，再输入补丁编码器，经过迭代运算对此首个序列段进行延长扩展，在首个序列段后续接一下新的序列段，即得到一个延长扩展后的序列段，将延长扩展后的序列段继续迭代运算，得到一个完整的补丁序列。

其中，第一抽象语法树中每一节点都代表一个字符串，其特征向量将字符串经过词嵌入技术处理，将字符串向量化得到的。前序遍历序列是对第一抽象语法树进行前序遍历得到，序列中每个元素即是一个特征向量。本申请还为每一个第一抽象语法树节点标记一个标签，该标签用于表征该节点表示的字符串与缺陷所在的缺陷代码行的位置关系，具有四种类型：1、该节点位于缺陷代码行内部；2、该节点位于缺陷代码行的前一行；3、该节点位于缺陷代码行的后一行；4、该节点位于其他行。本申请将每个第一抽象语法树节点的标签同样通过词嵌入技术被转化为节点标签向量，同时各节点标签向量序列和前序遍历序列拥有一样的节点顺序。由于前序遍历序列和各节点标签向量没有包含第一抽象语法树上各节点之间的结构信息，因此本申请还对第一抽象语法树进行处理，得到第一抽象语法图，将节点只和其最接近的左邻居相连接，不添加其他额外的边。第一抽象语法图的存储形式是各节点的邻接矩阵。

本申请还使用存储的预设的语法规则，比如，修改操作的语法规则和软件缺陷代码的语法(也称为原生语法)信息，得到扩展程序语法。并用该语法解析得到的规则序列，调用词嵌入方法，生成各规则序列嵌入向量和程序补丁，规则序列嵌入向量是使用规则的ID编码规则信息。通过embedding的方法将这些规则表示为实数向量。一些软件自动修复方法中，以规则定义编码将语法规则(即规则序列)视为原子标记，实际上，这样会导致丢失部分规则内容的信息。为了缓解此问题，我们使用规则定义的编码来增强规则的表示形式，将规则内容编码为向量。根据规则序列中的编码序号生成规则序列编码向量。通过修复补丁构造部分补丁模板的抽象语法树(即第二抽象语法树)，利用部分抽象语法树得到第二抽象语法图及部分抽象语法树路径(即第二抽象语法树路径)。

图2给出了本申请的扩展语法的具体组成。本申请没有针对特定的程序语言进行设计，因此将原生的程序语言称为HL(host language)。NTS代表HL语法中的原有的非终结符，<HLStatement>代表HL语法中代表表达式的非终结符，<HLIdentifier>代表HL语法中的终结符。本申请的扩展语法包括以下6个规则：规则1规定一个补丁包含一个或多个修改操作。规则2规定修改操作具有两种类型，add和/或change。规则3声明了add类型的修改操作的语法。add类型的修改操作会在缺陷行代码前插入一个新生成的表达式，即<HLIdentifier>可以被HL的语法扩展为一个表达式或是从原本的缺陷函数中拷贝一个表达式。规则4声明了change类型的修改操作的语法。change类型的修改操作会替换缺陷代码的一部分子树。该修改操作包含两个参数，第一个参数是被替换的子树的位置，用其在抽象语法树的前序遍历的序列中的位置来表示。第二个参数代表新生成的子树，用于替换原有的出现缺陷的子树，其中需要满足新的子树和旧的子树需要有相同的根节点以满足替换后程序的语法正确性。在两种类型的修改操作中，模型都需要生成新的抽象语法树。在实际情况中，虽然替换前后的程序上都会有不同程度的修改，但是很大一部分的程序之间是存在相同的部分。利用这个性质，本申请提出一种拷贝操作，能够在生成新的抽象语法树的时候，从缺陷函数中拷贝一个类型相同的表达式。规则5声明了该操作的语法，该操作可以被用于扩展HL语法中的任意的非终结符。拷贝操作具有一个参数，该参数指明需要被拷贝的抽象语法树的位置，同样使用其在前序遍历序列中的位置来标明语法树的位置，其中被拷贝的子树的根节点同样需要与非终结符具有相同的节点类型，以保证拷贝后的语法正确性。规则6声明补丁模板内可以将终结符转化为一个特殊的占位符placeholder，当模型判断一个终结符应该被扩展为项目特定的标识符的时候，可以用placeholder来代替其在补丁中的位置，同时终结符也可以被词表中的某个常用标识符所代替。在本申请的实现中，在训练集中出现次数超过100次的标识符，将其加入词表中。

图3所示，是本申请所采用的神经网络算法构造的补丁模板生成模型的示意图。本申请的补丁模板生成模型总共包含4个组成部分，代码编码器(code encoder)：用来处理输入的缺陷函数的抽象语法树；补丁编码器(AST encoder)：用来处理生成至一半的补丁的抽象语法树；抽象语法树的路径编码器(tree path encoder)：用来处理根节点至被扩展节点的抽象语法树路径；扩展语法解码器(expanded syntax decoder)：用来根据隐含层的输入来输出每一条语法规则被选择的概率。

在一个例子中，代码编码器，包括：第一自注意力层、第一门控层和第一图卷积层；将前序遍历序列、各节点标签向量及第一抽象语法图输入代码编码器，得到代码编码结果，包括：根据前序遍历序列，获取各节点的位置特征向量；根据前序遍历序列与位置特征向量，获取第一问询向量、第一键值向量及第一权值向量；将第一问询向量、第一键值向量及第一权值向量输入第一自注意力层，得到第一自注意力结果；将第一自注意力结果各节点标签向量输入第一门控层，得到第一门控结果；将第一门控结果与第一抽象语法图输入第一图卷积层，得到第一图卷积结果；将第一图卷积结果赋值给第一问询向量、第一键值向量及第一权值向量，对第一自注意力层、第一门控层和第一图卷积层进行迭代计算，得到代码编码结果。

其中，如图3所示，第一自注意力层的组成可以是自注意力神经元，该神经元首先需要用位置特征向量来表征每一个节点的位置信息。位置特征向量的计算公式如下:

其中pos＝i+step,step为预设的词嵌入向量的维度，词嵌入向量是特征向量经过词嵌入处理后得到的向量，i代表该单词是其序列的第i个成员，j代表词嵌入向量第j维的数值。代码编码器将位置特征向量分别与三个输入的向量做融合，得到第一问询向量(Q)、第一键值向量(K)及第一权值向量(V)。本实施例中，将位置特征向量与同一个输入向量做融合，得到值相同的Q、K、V。

自注意力神经元基于多头注意力机制，对输入的Q、K、V进行计算，单个头的计算过程如下：

其中，d _k＝d/H，d为词嵌入向量的维度，H为自注意神经元的头数，T是转置运算。自注意力层计算得到的结果为第一自注意力结果。

代码编码器将第一自注意力结果各节点标签向量输入第一门控层，其中，第一门控层可以由门控神经元组成。门控神经元具有三个输入参数，问询向量q以及两个向量c ₁和c ₂，其中，q和c ₁由第一自注意力结果赋值，c ₂由节点标签向量赋值。门控神经元计算过程如下：

其中i代表该单词是该序列第i个成员，α为对应向量所计算的权重，

代表c ₁，c ₂经过第一全连接层计算之后的特征向量，

代表c ₁，c ₂经过第二全连接层计算之后的特征向量。

代码编码器将第一门控结果与第一抽象语法图输入第一图卷积层，得到第一图卷积结果，其中，第一图卷积层可以由图卷积神经元组成。该神经元的计算过程可以表示为：

其中A为第一抽象语法图G的正则化邻接矩阵，r ^s与r ^p代表图G中的任一节点，u _p代表对应节点的特征向量，节点对应的特征向量的初始值为上一个神经元的输出，即，对应节点的h _i向量。W _g是图卷积网络中使用的可以被神经网络学习的权重矩阵，初始值为任意值。

代码编码器将第一图卷积结果赋值给Q、K、V，对第一自注意力层、第一门控层和第一图卷积层进行迭代计算，得到代码编码结果。其中，代码编码器可以一个第一自注意力层、一个第一门控层、一个第一图卷积层为一组，通过设置N ₁组，实现N ₁次迭代计算。

在一个例子中，补丁编码器，包括：第二自注意力层、第二门控层、自然语言注意力层和第二图卷积层；将代码编码结果和各规则序列嵌入向量、各规则序列编码向量、第二抽象语法图输入补丁编码器，得到补丁编码结果，包括：根据前序遍历序列，获取各节点的位置特征向量；根据规则序列嵌入向量与位置特征向量，获取第二问询向量、第二键值向量及第二权值向量；将第二问询向量、第二键值向量及第二权值向量输入第二自注意力层，得到第二自注意力结果；将第二自注意力结果和各规则序列编码向量输入第二门控层，得到第二门控结果；将代码编码结果及第二门控结果输入自然语言注意力层，得到自然语言注意力结果；将第一自然语言注意力结果和第二抽象语法图输入第二图卷积层，得到第二图卷积结果；将第二图卷积结果赋值给第二问询向量、第二键值向量及第二权值向量，对第二自注意力层、第二门控层、自然语言注意力层和第二图卷积层进行迭代计算，得到补丁编码结果。

其中，补丁编码器的计算的位置特征向量与代码编码器中的位置特征向量相同，第二问询向量、第二键值向量及第二权值向量分别与第一问询向量、第一键值向量及第一权值向量的计算过程相同，只需要将计算过程中的前序遍历序列更改为规则序列嵌入向量即可。第二自注意力层可以由与代码编码器相同的自注意力神经元组成。第二门控层可以由与代码编码器相同的门控神经元组成。自然语言注意力层可以由与代码编码器相同的自注意力神经元组成，第二图卷积层可以由与代码编码器相同的第一图卷积神经元组成。

在一个例子中，在第二门控层和自然语言注意力层之间，有一个语法规则序列r ₁，r ₂，...，r _P用于在解码步骤中生成部分AST，其中P表示序列的长度。还可以进行通过embedding的方法将这些语法规则表示为实数向量r ₁，r ₂，...，r _P，对于语法规则i：a-->b ₁...b _K，其中a是父节点，而b ₁...b _K是前继节点。它们可以是终结符或非终结符。索引i是规则的ID。我们使用全连接的方式，通过将规则内容编码为向量r ^(c)。其中，输入为向量a b ₁b _K。特别的，该序列也被填充到最大长度。然后，规则定义特征y ₁ ^(rule)，...，y _P ^(rule)由另一个全连接层计算得出。

其中r _i是规则r _i的表查询嵌入，r _i ^(c)是内容编码规则表示，并且我们再次编码了前继节点信息a。在步骤后，还进行了层归一化。

其中，补丁编码器可以一个第二自注意力层、一个第二门控层、一个自然语言注意力层和一个第二图卷积层为一组，通过设置N ₂组，实现N ₂次迭代计算。

在一个例子中，抽象语法树路径编码器，包括：补丁注意力层、代码注意力层和全连接层；将代码编码结果、代码编码结果和第二抽象语法树路径输入抽象语法树路径编码器，得到抽象语法树路径编码结果，包括：将补丁编码结果与第二抽象语法树路径输入补丁注意力层，得到补丁注意力结果；将代码编码结果与补丁注意力结果输入代码注意力层，得到代码注意力结果；将代码注意力结果输入全连接层，将全连接层输出结果赋值给第二抽象语法树路径，对补丁注意力层、代码注意力层和全连接层进行迭代计算，得到抽象语法树路径编码结果。

其中，补丁注意力层可以由补丁注意力神经元组成，补丁注意力神经元与代码编码器的自注意力神经元相同，代码注意力层可以由代码注意力神经元组成，代码注意力神经元与代码编码器的自注意力神经元相同。抽象语法树路径编码器可以一个补丁注意力神经元、一个代码注意力神经元、一个全连接神经元为一组，通过设置N ₃组，实现N ₃次迭代计算。

抽象语法树路径编码器将生成的补丁信息与缺陷代码描述结合在一起，并与对应的抽象语法树路径信息结合。抽象语法树路径是指将根节点到要被扩展的语法树节点之间的深度遍历序列。与抽象语法树读取器类似，在抽象语法树路径编码器中我们使用了多个结构相同的模块(每个模块包含多个子层)。在每个子层之间使用残差连接及层归一化。抽象语法树路径编码器将要扩展的非终结节点作为查询输入。查询节点表示为从根节点到要扩展的节点的路径。我们将该路径中的节点表示为实数，然后对这些向量应用的全连接层，其的输出为q _i ^(path)。然后，我们应用两个与代码编码器相同结构的注意力子层来结合代码编码器和补丁编码器的输出。

在补丁编码器的输出上应用抽象语法树注意力子层，并提取特征。在这一层中，Q是根据查询q _i ^(path)计算得到的，K和V是根据代码编码器输出的代码特征计算得出的。抽象语法树路径编码器将从输入描述中进一步结合到解码器中功能。这种结合也通过注意力子层来实现，其中Q由抽象语法树注意力子层的输出特征计算；和K和V代码编码器的输出计算。最后，我们使用了两层全连接，其中第一层具有GELU激活函数，然后提取特征以进行预测。

在一个例子中，扩展语法解码器，包括：原生规则提案器、拷贝规则提案器、缺陷子树提案器和决策器；将抽象语法树路径编码结果输入扩展语法解码器，选取最佳规则序列，生成补丁模板，包括：将抽象语法树路径编码结果分别输入原生规则提案器、拷贝规则提案器及缺陷子树提案器，得到扩展规则选择概率；其中，原生规则提案器用于生成预定义的扩展规则的选择概率，拷贝规则提案器用于选择子树，缺陷子树提案器选择具有缺陷的子树位置；将抽象语法树路径编码结果、扩展规则选择概率、第一抽象语法树的子树和具有缺陷的子树位置输入决策器，获取最佳规则的概率；根据最佳规则的概率，得到最佳规则序列。

如图4所示，是本申请提出的提案器/决策器结构的示意图。在扩展抽象语法树的时候，每一个提案器会给出多个可供选择的语法规则，并给出每一个语法规则的估计概率p。例如，对提案器1可以有选择1-1、选择1-2到选择1-m，对应p _1-1、p _1-2到p _1-m，以此类推，至提案器N可以有选择N-t、选择N-2到选择N-m，对应p _N-N、p _N-2到p _N-t，基于被扩展的语法树的节点类型，决策器需要给出每一个提案器的概率q。例如，对提案器1可以有对应的概率q ₁，至提案器N可以有对应的概率q _N。每一条语法规则的概率最后由p*q计算得出。

每一个提案器中会存在一个逻辑部件，对于那些包含在该提案器中，但又不能用于扩展当前语法树节点的规则(例如语法规则的左侧节点和当前节点类型不同)，该逻辑部件会将相应语法规则的概率重置为0。

决策器中同样存在一个相似的逻辑部件，对于那些不能被用于对应节点的提案器，该逻辑部件也会将对应的概率重置为0，使得该提案器所提出的语法规则的最终概率为0，这同样保证了本申请生成的补丁的语法正确性。

本申请的实现中包含三个提案器和一个决策器。第一个提案器是原生规则提案器(Rule Predictor)，该部件用于估计预定义的扩展规则的选择概率。第二个提案器是拷贝规则提案器，该部件用于子树拷贝操作中选择一个合适的子树。第三个提案器是子树提案器，该部件用于扩展change节点时，选择具有缺陷的子树位置。最后，决策器分别输出三个提案器的选择概率，与各自提案器所生成的概率相组合，输出最佳语法规则的概率，本申请从特殊的起始规则开始迭代生成完整的规则序列。

相对于代码生成，该解码器很难直接简单地迁移到修改操作序列的生成上，首先扩展语法中存在一些特殊的非终结符具有不同的扩展规则，同时修改操作需要满足一些语法上的限制，这些原有的解码器都没有办法实现。因此本申请提出了一种提案器/决策器结构来估计每一步扩展规则的概率。提案器的功能是提供不同的可用规则的集合，同时每一条规则有其对应的被选概率。决策器的功能是提供不同提案器的选择概率，对于不合法的提案器所提供的选项，决策器都会将其概率修改为0，则最终语法规则的概率由决策器提供的概率和提案器的概率相乘所得到。

将代码生成看作代码抽象语法树的扩展过程，根据生成的部分抽象语法树去估计下一步语法规则选择的概率，采用该解码器能够使得生成的补丁一定能够满足对应语言的语法。

在一个例子中，拷贝规则提案器，还用于在选择第一抽象语法树的子树后，根据子树对应在缺陷函数中的位置，生成拷贝操作编码；缺陷子树提案器，还用于在选择具有缺陷的子树位置后，根据具有缺陷的子树位置，生成缺陷子树编码；将抽象语法树路径编码结果、扩展规则选择概率、第一抽象语法树的子树和具有缺陷的子树位置输入决策器，包括：将抽象语法树路径编码结果、扩展规则选择概率、拷贝操作编码、缺陷子树编码输入决策器。

在步骤103中，电子设备将软件缺陷代码的标识符，填充补丁模板，生成软件缺陷代码的补丁。

具体地，本申请针对一些软件自动修复技术无法生成项目特定的标识符的不足，提出了在补丁模板中使用占位符，再填充补丁模板的技术。一些软件自动修复技术解决无法生成项目特定的标识符的直接的方法是让神经网络从输入的上下文中选择合适的标识符，但这需要将整个软件缺陷代码的上下文当作模型的输入，目前没有神经网络能够处理如此庞大的输入。本申请提出在补丁中生成一些特定的占位符来代替这些项目特定的标识符，在补丁被应用于缺陷程序上时，这些占位符会被实例化为对应的标识符，通过考虑程序中的类型约束等，对于一个位置的可用标识符的数量不会太多，因此占位符不会对补丁模板的语法内容产生太多影响。

在步骤104中，电子设备用补丁修复软件缺陷代码。

具体地，本申请提出采用扩展语法制导的解码器来生成修改操作而不是完整的修复后的代码。本申请借鉴了代码自动生成领域中的语法制导的解码器，同时，针对重复生成复杂表达式的问题，本申请将补丁转化为预定义修改操作的序列，修改操作能够较为简洁地表示程序小部分上的修改。为了能够让解码器能够依照语法生成对应的修改操作，注意到修改操作的序列同样能被一组包含原本语言语法的扩展语法所描述。因此，本申请在原生语法的基础上给出了一种适用于修改操作的扩展语法，从而可以用补丁修复软件缺陷代码。

如图5所示，本申请提供一种基于扩展语法规则的软件自动修复方法，将待修复软件方法转化为抽象语法树的表达方式，同时利用生成语法规则序列的方法生成补丁模板，最后相应地填充补丁模板，从而获取待修复软件的修复方案，帮助开发人员修复开发过程中出现的软件缺陷。本申请针对现有基于深度学习的软件自动修复技术可能生成语法不正确以及补丁表达形式不够简洁的不足，提出采用扩展语法制导的解码器来生成修改操作而不是完整的修复后的代码。本申请借鉴了代码自动生成领域中的语法制导的解码器，该解码器将代码生成看作代码抽象语法树的扩展过程，根据生成的部分抽象语法树去估计下一步语法规则选择的概率，采用该解码器能够使得生成的补丁一定能够满足对应语言的语法。同时，针对重复生成复杂表达式的问题，本申请将补丁转化为预定义修改操作的序列，修改操作能够较为简洁地表示程序小部分上的修改。为了能够让解码器能够依照语法生成对应的修改操作，注意到修改操作的序列同样能被一组包含原本语言语法的扩展语法所描述。因此，本申请在原有语法的基础上给出了一种适用于修改操作的扩展语法。

在一个例子中，也可以以中序或者后序对第一抽象语法树进行遍历，并将各向量序列也对应使用对应的遍历顺序。

在一个例子中，本申请的软件自动修复方法被用于进行缺陷修复实验，具体有较高的修复率。

(1)首先需要获取训练模型所需的训练集。本申请从Github代码仓库中爬取了创建时间在2011年3月到2018年3月之间的Java语法的提交记录，并采用关键词筛选的办法从中筛选出和修复相关的代码提交记录并且仅修改一个代码片段的提交记录。最终的训练数据集共包含103585条训练数据，其中80％作为训练集，20％作为验证集。

(2)本申请实验的验证采用常用的缺陷数据集Defects4J v1.2的395个缺陷和Defects4J v2.0的额外的420个缺陷。实验中采用的缺陷定位方法是在软件自动修复研究常用的基于测试样例覆盖情况的Ochiai算法。每个缺陷给予5个小时的补丁验证时间。

(3)下表列出了本申请在实验数据上的修复结果。

	Defects4J v1.2	Defects4J v2.0
TBar	42	8
SimFix	34	2
本申请	53	19

TBar和Simfix是两种在Defects4J v1.2性能表现最好的两个软件自动修复技术，表格中分别列出了三项技术在两个测试数据集上修复的缺陷总数。从表格中可以看出，本申请在Defects4J v1.2上比TBar多修复了11个缺陷，在Defects4J v2.0上多修复了一倍的缺陷。这些结果说明本申请能够比现有的技术具有更强的修复能力，同时具有更好的泛化性。

本申请实施方式还涉及一种软件自动修复系统，如图6所示，包括：

获取模块601，用于获取软件缺陷代码；

模板生成模块602，用于根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板；

补丁生成模块603，填充补丁模板，生成软件缺陷代码的补丁；

修复模块604，用于用补丁修复软件缺陷代码。

在一个例子中，在根据软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合软件缺陷代码所使用语言的语法的补丁模板前，方法还包括：基于缺陷定位技术，在软件缺陷代码中确定缺陷函数；解析缺陷函数，生成第一抽象语法树；根据第一抽象语法树中每一节点的特征向量、标签及邻接矩阵，得到第一抽象语法树的前序遍历序列、各节点标签向量及第一抽象语法图；根据预设的语法规则和语法特征，得到扩展程序语法；根据扩展程序语法的规则序列，调用词嵌入方法，生成各规则序列嵌入向量和程序补丁；根据规则序列的编码序号，生成各规则序列编码向量；根据程序补丁，生成第二抽象语法树；根据第二抽象语法树，得到第二抽象语法图及第二抽象语法树路径；补丁模板生成模型，包括：代码编码器、补丁编码器、抽象语法树路径编码器和扩展语法解码器；生成符合软件缺陷代码所使用语言的语法的补丁模板，包括：将前序遍历序列、各节点标签向量及第一抽象语法图输入代码编码器，得到代码编码结果；将代码编码结果和各规则序列嵌入向量、各规则序列编码向量、第二抽象语法图输入补丁编码器，得到补丁编码结果；将代码编码结果、代码编码结果和第二抽象语法树路径输入抽象语法树路径编码器，得到抽象语法树路径编码结果；将抽象语法树路径编码结果输入扩展语法解码器，选取最佳规则序列；根据最佳规则序列，生成补丁模板。

在一个例子中，补丁编码器，包括：第二自注意力层、第二门控层、自然语言注意力层和第二图卷积层；将代码编码结果和各规则序列嵌入向量、各规则序列编码向量、第二抽象语法图输入补丁编码器，得到补丁编码结果，包括：根据前序遍历序列，获取各节点的位置特征向量；根据规则序列嵌入向量与位置特征向量，获取第二问询向量、第二键值向量及第二权值向量；将第二问询向量、第二键值向量及第二权值向量输入第二自注意力层，得到第二自注意力结果；将第二自注意力结果和各规则序列编码向量输入第二门控层，得到第二门控结果；将代码编码结果及第二门控结果输入自然语言注意力层，得到自然语言注意力结果；将自然语言注意力结果和第二抽象语法图输入第二图卷积层，得到第二图卷积结果；将第二图卷积结果赋值给第二问询向量、第二键值向量及第二权值向量，对第二自注意力层、第二门控层、自然语言注意力层和第二图卷积层进行迭代计算，得到补丁编码结果。

本申请的实施例还涉及一种电子设备，如图7所示，包括：至少一个处理器701；与至少一个处理器通信连接的存储器702；其中，存储器702存储有可被至少一个处理器701执行的指令，指令被至少一个处理器701执行上述的任一方法实施例。

其中，存储器702和处理器701采用总线方式连接，总线可以包括任意数量的互联的总线和桥，总线将一个或多个处理器701和存储器702的各种电路连接在一起。总线还可以将诸如外围设备、稳压器和功率管理电路等之类的各种其他电路连接在一起，这些都是本领域所公知的，因此，本文不再对其进行进一步描述。总线接口在总线和收发机之间提供接口。收发机可以是一个元件，也可以是多个元件，比如多个接收器和发送器，提供用于在传输介质上与各种其他装置通信的单元。经处理器701处理的信息通过天线在无线介质上进行传输，进一步，天线还接收信息并将信息传送给处理器701。

处理器701负责管理总线和通常的处理，还可以提供各种功能，包括定时，外围接口，电压调节、电源管理以及其他控制功能。而存储器702可以被用于存储处理器在执行操作时所使用的信息。

本申请的实施例涉及一种计算机可读存储介质，存储有计算机程序。计算机程序被处理器执行时实现上述方法实施例。

即，本领域技术人员可以理解，实现上述实施例方法中的全部或部分步骤是可以通过程序来指令相关的硬件来完成，该程序存储在一个存储介质中，包括若干指令用以使得一个设备(可以是单片机，芯片等)或处理器(processor)执行本申请各个实施例方法的全部或部分步骤。而前述的存储介质包括：U盘、移动硬盘、只读存储器(ROM，Read-Only Memory)、随机存取存储器(RAM，Random Access Memory)、磁碟或者光盘等各种可以存储程序代码的介质。

本领域的普通技术人员可以理解，上述各实施方式是实现本申请的具体实施例，而在实际应用中，可以在形式上和细节上对其作各种改变，而不偏离本申请的精神和范围。

Claims

一种软件自动修复方法，包括：

获取软件缺陷代码；

根据所述软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合所述软件缺陷代码所使用语言的语法的补丁模板；

填充所述补丁模板，生成所述软件缺陷代码的补丁；

用所述补丁修复所述软件缺陷代码。
根据权利要求1所述的软件自动修复方法，其中，在所述根据所述软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合所述软件缺陷代码所使用语言的语法的补丁模板前，所述方法还包括：

基于缺陷定位技术，在所述软件缺陷代码中确定缺陷函数；

解析所述缺陷函数，生成第一抽象语法树；

根据所述第一抽象语法树中每一节点的特征向量、标签及邻接矩阵，得到第一抽象语法树的前序遍历序列、各节点标签向量及第一抽象语法图；

根据预设的语法规则和所述语法信息，得到扩展程序语法；

根据所述扩展程序语法的规则序列，调用词嵌入方法，生成各规则序列嵌入向量和程序补丁；

根据所述规则序列的编码序号，生成各规则序列编码向量；

根据所述程序补丁，生成第二抽象语法树；

根据所述第二抽象语法树，得到第二抽象语法图及第二抽象语法树路径；

所述补丁模板生成模型，包括：代码编码器、补丁编码器、抽象语法树路径编码器和扩展语法解码器；

所述生成符合所述软件缺陷代码所使用语言的语法的补丁模板，包括：

将所述前序遍历序列、各所述节点标签向量及所述第一抽象语法图输入所述代码编码器，得到代码编码结果；

将所述代码编码结果和各所述规则序列嵌入向量、各所述规则序列编码向量、所述第二抽象语法图输入所述补丁编码器，得到补丁编码结果；

将所述代码编码结果、所述代码编码结果和所述第二抽象语法树路径输入所述抽象语法树路径编码器，得到抽象语法树路径编码结果；

将所述抽象语法树路径编码结果输入所述扩展语法解码器，选取最佳规则序列；

根据所述最佳规则序列，生成所述补丁模板。
根据权利要求2所述的软件自动修复方法，其中，所述代码编码器，包括：第一自注意力层、第一门控层和第一图卷积层；

所述将所述前序遍历序列、各所述节点标签向量及所述第一抽象语法图输入所述代码编码器，得到代码编码结果，包括：

根据所述前序遍历序列，获取各节点的位置特征向量；

根据前序遍历序列与所述位置特征向量，获取第一问询向量、第一键值向量及第一权值向量；

将所述第一问询向量、所述第一键值向量及所述第一权值向量输入所述第一自注意力层，得到第一自注意力结果；

将所述第一自注意力结果各所述节点标签向量输入所述第一门控层，得到第一门控结果；

将所述第一门控结果与所述第一抽象语法图输入所述第一图卷积层，得到第一图卷积结果；

将所述第一图卷积结果赋值给所述第一问询向量、所述第一键值向量及所述第一权值向量，对所述第一自注意力层、第一门控层和第一图卷积层进行迭代计算，得到所述代码编码结果。
根据权利要求2或3所述的软件自动修复方法，其中，所述补丁编码器，包括：第二自注意力层、第二门控层、自然语言注意力层和第二图卷积层；

所述将所述代码编码结果和各所述规则序列嵌入向量、各所述规则序列编码向量、所述第二抽象语法图输入所述补丁编码器，得到补丁编码结果，包括：

根据所述前序遍历序列，获取各节点的位置特征向量；

根据所述规则序列嵌入向量与所述位置特征向量，获取第二问询向量、第二键值向量及第二权值向量；

将所述第二问询向量、所述第二键值向量及所述第二权值向量输入所述第二自注意力层，得到第二自注意力结果；

将所述第二自注意力结果和各所述规则序列编码向量输入所述第二门控层，得到第二门控结果；

将所述代码编码结果及所述第二门控结果输入所述自然语言注意力层，得到自然语言注意力结果；

将所述自然语言注意力结果和所述第二抽象语法图输入所述第二图卷积层，得到第二图卷积结果；

将所述第二图卷积结果赋值给所述第二问询向量、所述第二键值向量及所述第二权值向量，对所述第二自注意力层、第二门控层、所述自然语言注意力层和第二图卷积层进行迭代计算，得到所述补丁编码结果。
根据权利要求2至4中任意一项所述的软件自动修复方法，其中，所述抽象语法树路径编码器，包括：补丁注意力层、代码注意力层和全连接层；

所述将所述代码编码结果、所述代码编码结果和所述第二抽象语法树路径输入所述抽象语法树路径编码器，得到抽象语法树路径编码结果，包括：

将所述补丁编码结果与所述第二抽象语法树路径输入所述补丁注意力层，得到补丁注意力结果；

将所述代码编码结果与所述补丁注意力结果输入所述代码注意力层，得到代码注意力结果；

将所述代码注意力结果输入所述全连接层，将所述全连接层输出结果赋值给所述第二抽象语法树路径，对所述补丁注意力层、所述代码注意力层和所述全连接层进行迭代计算，得到所述抽象语法树路径编码结果。
根据权利要求2至5中任意一项所述的软件自动修复方法，其中，所述扩展语法解码器，包括：原生规则提案器、拷贝规则提案器、缺陷子树提案器和决策器；

所述将所述抽象语法树路径编码结果输入所述扩展语法解码器，选取最佳规则序列，包括：

将所述抽象语法树路径编码结果分别输入所述原生规则提案器、所述拷贝规则提案器及所述缺陷子树提案器，得到扩展规则选择概率；其中，所述原生规则提案器用于生成预定义的扩展规则的选择概率，所述拷贝规则提案器用于选择所述第一抽象语法树的子树，所述缺陷子树提案器选择所述具有缺陷的子树位置；

将所述抽象语法树路径编码结果、所述扩展规则选择概率、所述第一抽象语法树的子树和具有缺陷的子树位置输入决策器，获取最佳规则的概率；

根据所述最佳规则的概率，得到所述最佳规则序列。
根据权利要求6所述的软件自动修复方法，其中，所述拷贝规则提案器，还用于在所述选择所述第一抽象语法树的子树后，根据所述子树对应在所述缺陷函数中的位置，生成拷贝操作编码；

所述缺陷子树提案器，还用于在所述选择所述具有缺陷的子树位置后，根据所述具有缺陷的子树位置，生成缺陷子树编码；

所述将所述抽象语法树路径编码结果、所述扩展规则选择概率、所述第一抽象语法树的子树和具有缺陷的子树位置输入决策器，包括：

将所述抽象语法树路径编码结果、所述扩展规则选择概率、所述拷贝操作编码、所述缺陷子树编码输入所述决策器。
一种软件自动修复系统，包括：

获取模块，用于获取软件缺陷代码；

模板生成模块，用于根据所述软件缺陷代码的语法特征和训练好的补丁模板生成模型，生成符合所述软件缺陷代码所使用语言的语法的补丁模板；

补丁生成模块，用于填充所述补丁模板，生成所述软件缺陷代码的补丁；

修复模块，用于用所述补丁修复所述软件缺陷代码。
一种电子设备，包括：

至少一个处理器；以及，与所述至少一个处理器通信连接的存储器；其中，

所述存储器存储有可被所述至少一个处理器执行的指令，所述指令被所述至少一个处理器执行，以使所述至少一个处理器能够执行如权利要求1至7中任一所述的软件自动修复方法。
一种计算机可读存储介质，存储有计算机程序，所述计算机程序被处理器执行时实现权利要求1至7中任一项所述的软件自动修复方法。