WO2022089188A1

WO2022089188A1 - 一种代码处理方法、装置、设备及介质

Info

Publication number: WO2022089188A1
Application number: PCT/CN2021/123127
Authority: WO
Inventors: 王亚伟; 帕维尔彼得罗琴科; 德米特里卡彭科
Original assignee: 华为云计算技术有限公司
Priority date: 2020-11-02
Filing date: 2021-10-11
Publication date: 2022-05-05
Also published as: EP4220381A1; CN116406459A; EP4220381A4; US20230273776A1

Abstract

本申请提供了一种代码处理方法，该方法应用于软件开发技术领域，包括：通过用户界面接收用户输入的代码，根据用户输入的代码确定待补全代码的上下文特征，然后根据待补全代码的上下文特征从上下文数据库中确定待补全代码的至少一个候选项，该上下文数据库中存储有样本代码以及样本代码的上下文特征，接着通过用户界面向用户呈现至少一个候选项。由于候选项是通过对代码进行静态分析，如静态语法分析、静态语义分析得到，候选项符合语法规则，有较高概率通过编译检查。故该方法预测的候选项具有较高准确度，基于此进行代码补全，可以提高补全精度和效率。

Description

一种代码处理方法、装置、设备及介质

本申请要求于2020年11月02日提交俄罗斯知识产权局、申请号为RU2020135915、申请名称为“一种代码智能补全方法”的俄罗斯专利申请的优先权，其全部内容通过引用结合在本申请中。

技术领域

本申请涉及软件开发技术领域，尤其涉及一种代码处理方法、装置、设备以及计算机可读存储介质。

背景技术

在进行软件开发时，许多开发工具如集成开发环境(integrated development environment，IDE)提供有代码补全(code completion)功能。代码补全是指用户输入部分代码，如输入关键字或函数的一部分，开发工具可以向用户提供至少一个候选项，用于帮助用户补全关键字或函数。如此可以减少用户的输入操作，提高开发效率。

随着人工智能(artificial intelligence，AI)技术尤其是深度学习在文本生成中取得的进展，通过AI进行代码自动生成和补全成为了热门的研究方向。然而，目前基于AI进行代码补全时，对于待补全代码的预测准确度较低。很多情况下，用户仍需要手动补全代码，或者在接受待补全代码的预测结果之后对预测结果再手动进行修正。

业界亟需提供一种预测准确度较高的代码处理方法，进行自动地代码补全，进而提高开发效率。

发明内容

有鉴于此，本申请提供了一种代码处理方法，该方法通过根据待补全代码的上下文特征，对代码进行静态分析的方式预测待补全代码的候选项，提高了预测准确度，进而实现自动代码补全，提高开发效率。本申请还提供了上述方法对应的装置、设备、计算机可读存储介质以及计算机程序产品。

第一方面，本申请提供了一种代码处理方法。该方法可以由代码处理系统执行。代码处理系统提供有用户界面，例如是图形用户界面(graphical user interface，GUI)或者命令用户界面(command user interface，CUI)。

代码处理系统可以通过用户界面接收用户输入的代码，然后根据用户输入的代码确定待补全代码的上下文特征。其中，上下文特征是指能够表达代码所在语境的特征，例如包括基类的类型、基类的类名、前缀、返回类型和布尔特征中的任意一种或多种。接着代码处理系统根据待补全代码的上下文特征从上下文数据库中确定待补全代码的至少一个候选项。其中，上下文数据库中存储有样本代码以及样本代码的上下文特征。样本代码可以包括开源数据集或用户私有数据集中类名、方法名、函数名、变量名或者参数名等标识符中的任意一个或多个。代码处理系统可以通过用户界面如GUI向用户呈现上述至少一个候选项，进而实现代码补全。

由于待补全代码的候选项是通过对代码进行静态分析，如静态地语法分析、语义分析得到，因此待补全代码的候选项符合语法规则，而且待补全代码的候选项是根据待补全代码的上下文特征从上下特征数据库中确定的，而不是通过长短期记忆(long short time memory， LSTM)等模型预测得到，有较高的概率通过编译检查。因此，该方法预测的候选项具有较高的准确度。基于上述候选项进行代码补全可以有效减少用户手动补全代码的次数，或者有效减少用户对补全的代码进行修正的次数，极大地提高了开发效率，提高了用户体验。

并且，该方法无需复杂模型，对算力要求较低，不需要图形处理器(graphic processor unit，GPU)资源，可以部署在本地，避免网络传输时延导致卡顿等现象，提高了用户体验。

在一些可能的实现方式中，代码处理系统还可以获取至少一个候选项在上下文数据库中的统计信息，该统计信息可以包括候选项的调用次数，如嵌套调用次数、循环调用次数等等，该统计信息可以反映候选项的使用频率，代码处理系统可以根据统计信息对至少一个候选项进行过滤，例如过滤使用频率较低的候选项。对应地，代码处理系统可以通过用户界面如GUI向用户呈现过滤后的候选项，从而为用户提供使用频率较高的候选项，如此，可以有效减少候选项的数量，避免推荐过期的、弃用的应用程序编程接口(application programming interface，API)等，提高预测准确度。

其中，代码处理系统还可以根据统计信息对候选项进行排序，对应地，代码处理系统在提供候选项时，还可以按照排序结果顺序显示候选项。如此用户可以快速获知排序靠前、使用频率较高的候选项，方便用户快速选中上述候选项，提高代码补全效率。

在一些可能的实现方式中，代码处理系统还可以将至少一个候选项和待补全代码的上下文特征输入评估模型，获得至少一个候选项的推荐概率。对应地，代码处理系统可以根据至少一个候选项的推荐概率对候选项进行进一步筛选，如根据至少一个候选项的推荐概率确定至少一个候选项中的目标候选项，通过用户界面向用户呈现目标候选项。由此可以进一步提高预测准确度，提高代码补全精度和效率。

其中，评估模型可以通过从开源数据集或用户私有数据集中收集的样本对初始模型进行训练得到。初始模型可以是包括2层或者2层以上隐藏层的简单模型。隐藏层可以是全连接层(Dense layer)，该隐藏层的激活函数可以是双曲函数如双曲正切函数TANH。输出层包括损失函数，该损失函数可以是交叉熵损失函数(cross entry，XENT)等等。

通过上述初始模型训练的评估模型无需消耗GPU资源，可以部署在在本地(例如是本地计算设备)，如此可以降低传输时延，避免网络传输时延过长导致卡顿等现象，提高了用户体验。

在一些可能的实现方式中，评估模型可以通过二元分类模型实现。该二元分类模型以候选项以及候选项的上下文特征为输入，以推荐标签为输出。二元分类模型具体是将输入的候选项以及候选项的上下文特征与已有标识符以及该标识符的上下文特征进行匹配，从而确定推荐标签。其中，推荐标签可以取值为0，1，或者是true、false，当推荐标签为0或者是false时，表征不推荐该候选项，当推荐标签为1或者true时，表征推荐该候选项。

评估模型可以根据上述推荐标签进一步过滤候选项，提高预测候选项的准确度，从而提高代码补全精度。其中，评估模型还可以获取推荐标签为1或true的候选项的统计信息，基于统计信息确定候选项的推荐概率，例如根据评分值确定推荐概率。如此，代码处理系统可以根据该推荐概率顺序显示评估模型推荐的候选项。

在一些可能的实现方式中，候选项包括函数名时，代码处理系统还可以根据所述用户输入的代码所在代码文件中的代码(为了便于描述，下文称之为本地代码)填充所述至少一个候选项的参数。对应地，代码处理系统可以通过用户界面如GUI向用户呈现填充有上述参数的至少一个候选项，由此可以实现多符号补全。

具体地，代码处理系统可以利用深度优先搜索算法搜索函数对应的参数，例如从本地代码中搜索得到函数对应的参数，然后基于搜索得到的参数对候选项进行参数填充。进一步地，代码处理系统还可以针对一个候选项填充多组参数，得到多个填充参数后的候选项。代码处理系统可以根据参数与待补全代码的距离在内的信息为多个填充参数后的候选项排序，按照排序结果过滤候选项，或者顺序显示候选项。如此，可以实现将接近用户输入意图的候选项在先显示，方便用户快速选中，提高代码补全效率。

需要说明的是，在面向对象的计算机语言中，函数名包括方法名。因此，代码处理系统可以根据本地代码填充方法参数，由此实现多符号补全。

在一些可能的实现方式中，代码处理系统可以根据代码的上下文特征进行代码分析，从上下文数据库中确定待补全代码的至少一个候选项。具体地，代码处理系统可以根据待补全代码的上下文特征，利用深度优先搜索(deep first search，DFS)算法搜索上下文数据库，确定待补全代码的至少一个候选项。

其中，代码处理系统可以通过深度优先搜索算法搜索出与待补全代码的上下文特征匹配的候选项。针对每一个候选项，代码处理系统可以继续进行搜索，直至搜索到静态函数调用为止。

由于该方法是结合待补全代码的上下文特征在上下文特征库中搜索出候选项，而上下文特征库中的样本代码及其上下文特征是从符合语法规则的、通过编译检查的代码提取的，因此，通过该方法得到的候选项符合语法规则，较大概率通过编译检查。

而且，该方法采用深度优先搜索算法进行匹配，能够匹配出上下文特征库中所有相符的候选项。而上下文数据库中的样本代码还可以包括生僻的标识符，如生僻的API。基于此，即使在复杂上下文环境(使用生僻API的上下文环境)下，该方法也可以从上下文数据库中确定出较为准确的候选项，实现高精度的代码预测。

在一些可能的实现方式中，用户输入的代码中包括所述待补全代码的前缀。例如是待补全的标识符的前缀。基于此，代码处理系统还可以根据输入的代码确定补全条件。该补全条件具体为待补全代码的候选项包括上述前缀。对于一个长度为N(N为大于1的正整数)的标识符而言，该标识符的前缀可以是前1位代码至前N-1位代码中的任意一个。

其中，用户输入的代码包括待补全代码的前缀的情况下，代码处理系统可以根据所述待补全代码的上下文特征从上下文数据库中确定与所述待补全代码的前缀匹配的至少一个候选项。如此，可以更精准地预测候选项，提高预测准确度。

在一些可能的实现方式中，所述上下文数据库包括基于开源数据集构建的数据库和基于所述用户的私有数据集构建的数据库中的至少一个。

以基于Java的代码补全场景为例，代码处理系统可以对开源数据集如GitHub corpus中的代码进行索引，从而识别代码中的类名、方法名、函数名、变量名、参数名、运算符等标识符，然后确定每一个标识符的上下文特征，在数据库中存储标识符以及标识符的上下文特征，从而得到上下文数据库。

代码处理系统也可以对用户的私有数据集，如用户提供的代码仓中的代码进行索引，从而识别代码中的类名、方法名、函数名、变量名、参数名、运算符等标识符，然后确定每一个标识符的上下文特征，根据该标识符及其上下文特征，得到上下文数据库。

具体地，代码处理系统可以根据开源数据集和用户私有数据集分别构建上下文数据库，利用根据开源数据集构建的上下文数据库以及根据用户私有数据集构建的上下文数据库确定待补全代码的候选项，由此提高预测准确度。

在一些可能的实现方式中，待补全代码包括类的方法(也称作类方法)中的代码，用户输入的代码中包括返回类型。代码处理系统可以根据返回类型对类方法中的待补全代码预测候选项，基于该候选项实现类方法的补全。

在一些可能的实现方式中，一个类方法可以在不同环境中被调用。对应地，一个类方法的上下文可以是不同的。基于此，代码处理系统可以针对每一个方法调用，根据该方法调用的上下文特征确定该方法调用的角色。例如，针对getitem()方法，可以确定该方法调用的角色包括get accessor(或称作read accessor)，针对add()方法可以确定该方法调用的角色包括adder，针对removeitem()方法，可以确定该方法调用的角色包括remover。

当代码处理系统在训练评估模型时，还可以根据加入方法调用的角色等特征，以此提升评估模型的精度。如此，评估模型可以结合方法调用的角色确定候选项的推荐概率，使得评估模型推荐的候选项更符合用户的意图，由此可以获得更高的补全精度。

在一些可能的实现方式中，考虑到代码中变量之间会产生关系，如生产者-消费者(producer-consumer)关系，大多数场景下，变量之间的循环引用是不合法的，例如，变量A作为变量B的消费者，同时变量B也作为变量A的消费者，通常是不合法的，因此，代码处理系统还可以对数据流进行追踪，从至少一个候选项中过滤存在循环引用的候选项，通过用户界面如GUI向用户呈现过滤后的候选项。如此可以避免循环引用的情况发生，提高补全准确度。

第二方面，本申请提供了一种代码处理装置。所述代码处理装置包括：

接口单元，用于通过用户界面接收用户输入的代码；

特征提取单元，用于根据所述用户输入的代码确定待补全代码的上下文特征；

分析单元，用于根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，所述上下文数据库中存储有样本代码以及所述样本代码的上下文特征；

所述接口单元，还用于通过所述用户界面向所述用户呈现所述至少一个候选项。

在一些可能的实现方式中，所述分析单元还用于：

获取所述至少一个候选项在所述上下文数据库中的统计信息；

根据所述统计信息对所述至少一个候选项进行过滤；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现过滤后的候选项。

在一些可能的实现方式中，所述装置还包括：

评估单元，用于将所述至少一个候选项和所述待补全代码的上下文特征输入评估模型，获得所述至少一个候选项的推荐概率，根据所述至少一个候选项的推荐概率确定所述至少一个候选项中的目标候选项；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现所述目标候选项。

在一些可能的实现方式中，所述装置还包括：

参数填充单元，用于在所述候选项包括函数名时，根据所述用户输入的代码所在文件中的代码填充所述至少一个候选项的参数；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现填充有所述参数的所述至少一个候选项。

在一些可能的实现方式中，所述分析单元具体用于：

根据所述待补全代码的上下文特征，利用深度优先搜索算法搜索上下文数据库，确定所述待补全代码的至少一个候选项。

在一些可能的实现方式中，所述用户输入的代码中包括所述待补全代码的前缀；

所述分析单元具体用于：

根据所述待补全代码的上下文特征从上下文数据库中确定与所述待补全代码的前缀匹配的至少一个候选项。

在一些可能的实现方式中，所述待补全代码包括类的方法中的代码，且所述用户输入的代码中包括返回类型。

在一些可能的实现方式中，所述装置还包括：

评估单元，用于根据所述待补全代码的上下文特征确定所述待补全代码对应的方法调用的角色，所述角色用于辅助确定所述待补全代码的候选项的推荐概率。

在一些可能的实现方式中，所述分析单元还用于：

从所述至少一个候选项中过滤存在循环引用的候选项；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现过滤后的所述候选项。

第三方面，本申请提供一种设备，所述设备包括处理器和存储器。所述处理器、所述存储器进行相互的通信。所述处理器用于执行所述存储器中存储的指令，以使得设备执行如第一方面或第一方面的任一种实现方式中的方法。

第四方面，本申请提供一种计算机可读存储介质，所述计算机可读存储介质中存储有指令，所述指令指示设备执行上述第一方面或第一方面的任一种实现方式所述的方法。

第五方面，本申请提供了一种包含指令的计算机程序产品，当其在设备上运行时，使得设备执行上述第一方面或第一方面的任一种实现方式所述的方法。

本申请在上述各方面提供的实现方式的基础上，还可以进行进一步组合以提供更多实现方式。

附图说明

为了更清楚地说明本申请实施例的技术方法，下面将对实施例中所需使用的附图作以简单地介绍。

图1为本申请实施例提供的一种代码处理系统的系统架构图；

图2为本申请实施例提供的一种显示至少一个候选项的界面示意图；

图3A为本申请实施例提供的一种代码处理系统的架构示意图；

图3B为本申请实施例提供的一种代码处理系统的架构示意图；

图4为本申请实施例提供的一种代码处理方法的流程图；

图5为本申请实施例提供的一种显示至少一个候选项的界面示意图；

图6为本申请实施例提供的一种补全代码片段之前以及之后的界面示意图；

图7为本申请实施例提供的一种代码补全的效果示意图；

图8为本申请实施例提供的一种代码补全的效果示意图；

图9为本申请实施例提供的一种代码处理装置的结构示意图；

图10为本申请实施例提供的一种计算设备的结构示意图。

具体实施方式

本申请实施例中的术语“第一”、“第二”仅用于描述目的，而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此，限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。

首先对本申请实施例中所涉及到的一些技术术语进行介绍。

在软件开发领域，源代码是指开发人员利用开发工具如代码编辑器、集成开发环境(integrated development environment，IDE)所支持的计算机语言，如C语言、Java语言、Python语言等中的至少一种语言编写的代码文件。

源代码(也可以称作源程序)包括一系列人类可读的计算机语言指令。源代码中的计算机语言指令可以被编译器编译为计算机可执行的二进制指令。计算机执行该二进制指令从而实现相应的功能。其中，计算机可执行的二进制指令也可以称为目标代码。代码可以包括源代码和目标代码。

标识符(token)是源代码编译过程中最小的编译单位。标识符可以包括关键字、类名、方法名、函数名、变量名、参数名、运算符中的任意一种或多种。其中，关键字是指计算机语言中规定的具有特殊意义的字，如表征断点的break、表征返回的return等等。类(class)是指面向对象的计算机语言中的一种描述所创建对象的共同属性和方法(method)的数据结构。类名即为类的名称。方法名即为类所描述的方法的名称。例如类名可以是DocumentBuilder，方法名可以是newDocument。

函数(function)是用于实现某种功能的可执行代码块。由于方法与对象和类相关，依赖对象进行调用，因此，方法也可以视为面向对象的计算机语言中一种特殊的函数。函数名即为函数的名称，例如count、print等等。函数支持传入一些参数，对参数进行处理，进一步地，函数还可以返回一些数据，即函数还可以包括返回值。参数名即为参数的名称。定义函数名和函数体时使用的参数称为形式参数，简称形参。形参是一种虚拟变量，不占用内存。函数被调用时的参数称为实际参数，简称实参。实参是一种变量，占用内存。变量(variable)是一种存储可变数据的数据结构，该可变数据可以是可变数值，例如函数值，或者是可变文本，例如用户键入的文本。变量名是指变量的名称。

代码补全(code completion)是指根据用户(例如是开发人员)已输入的代码(例如是源代码)对用户意图输入的至少一个标识符进行预测，根据预测结果为用户提供输入建议，以便用户根据该输入建议直接补全代码。代码补全可以减少用户键入字符的次数，减少拼写错误，而且无需用户花费时间记忆不熟悉的类名、方法名等，如此可以提高开发效率。

代码补全可以分为单符号补全(single token completion)和多符号补全(multi token completion)。其中，单符号补全是指对单个标识符进行预测，进而根据该预测结果进行补全。在一些实施例中，单符号补全可以包括对类名、方法名、函数名、变量名或者参数名进行补全。多符号补全是指对多个标识符进行预测，进而根据该预测结果进行补全。在一些实施例中，多符号补全可以包括对类名、方法名和参数名中的多种进行补全，或者是对包括多个标识符的代码片段(code snippet)进行补全。其中，代码片段是一小段的源代码，该代码片段可以包括一些功能性的语句，例如类声明、函数声明，或者是有起止标识符的代码块。多符号补全的一个典型应用是对类的方法(也可以简称为类方法)进行补全，尤其是针对具有返回类型的类方法进行补全。

随着人工智能(artificial intelligence，AI)尤其是深度学习在自然语言文本生成任务中取得的突破性进展，业界提出了通过AI对计算机语言文本(具体是代码)进行处理，实现代码自动补全的技术方案。例如，构建基于长短期记忆网络(Long Short-Term Memory，LSTM)的深度神经网络，该网络是一种时间递归神经网络，适于处理和预测具有时间顺序的序列。然后将用户输入的代码进行序列化得到输入序列，接着将该输入序列输入上述深度神经网络预测下一个标识符的候选项，由此实现单符号补全。进一步地，还可以挑选概率较高的候选项，将该候选项与输入的代码合并后进行序列化，生成新的输入序列，将该输入序列输入上述深度神经网络预测下一个标识符的候选项，由此实现多符号补全。

上述方法的关键在于代码建模。目前代码建模主要包括序列建模和抽象语法树(abstract syntax code，AST)建模。序列建模是通过对代码进行词法分析，获取token流实现，然而这种方式容易产生不符合语法的代码。AST建模是通过对代码进行词法分析和语法分析实现，基于这种方法产生的代码即使符合语法规则，也有较高的概率不能编译。也即上述方法预测的补全代码的准确度不高，难以满足用户需求。

有鉴于此，本申请提供了一种代码处理方法。该方法可以由代码处理系统执行。具体地，代码处理系统通过用户界面例如图形用户界面(graphical user interface，GUI)或者命令用户界面(command user interface，CUI)接收用户输入的代码，然后根据用户输入的代码确定待补全代码的上下文特征，接着根据待补全代码的上下文特征从上下文数据库中确定待补全代码的至少一个候选项，其中，上下文数据库中存储有样本代码以及样本代码的上下文特征，代码处理系统通过用户界面如GUI向用户呈现上述至少一个候选项，进而实现代码补全。

由于待补全代码的候选项是通过对代码进行静态分析，如静态地语法分析、语义分析得到，因此待补全代码的候选项符合语法规则，而且待补全代码的候选项是根据待补全代码的上下文特征从上下特征数据库中确定的，而不是通过LSTM等模型预测得到，有较高的概率通过编译检查。因此，该方法预测的候选项具有较高的准确度。基于上述候选项进行代码补全可以有效减少用户手动补全代码的次数，或者有效减少用户对补全的代码进行修正的次数，极大地提高了开发效率，提高了用户体验。

上述上下文数据库中的样本代码可以包括生僻的应用程序编程接口(application programming interface，API)，基于此，即使在复杂上下文环境(使用生僻API的上下文环境)下，该方法也可以从上下文数据库中确定出较为准确的候选项，实现高精度的代码预测。

进一步地，代码处理系统还可以获取至少一个候选项在上下文数据库中的统计信息，然后根据统计信息对至少一个候选项进行过滤。一方面可以进一步提高预测准确度，另一方面可以避免推荐过期的(outdated)或者弃用的(deprecated)候选项，如过期的或者弃用的API。

代码处理系统不仅可以对方法名、函数名等标识符进行预测，还可以对方法、函数的参数进行预测，即代码处理系统可以进行单符号预测或多符号预测，由于代码处理系统是通过静态分析从上下文数据库中预测候选项，因此，无论是对单符号预测还是多符号预测均具有较高准确度。此外，代码处理系统将填充有参数的候选项输入评估模型，获得候选项的推荐概率，然后基于该推荐概率进行精准推荐，进一步提高代码补全准确度。

需要说明的是，本申请实施例提供的代码处理方法可以是以插件(plug-in)的形式提供给用户使用。插件是一种遵循一定规范的应用程序接口编写出来的程序，该程序运行在程序规定的平台下(可能同时支持多个平台)，而不能脱离规定的平台单独运行。

具体地，开发工具的服务提供商或者是第三方可以发布针对开发工具如IDE或代码编辑器的插件，以增强该开发工具的功能。为了便于描述，本申请以开发工具为IDE进行示例说明。

参见图1所示的代码处理系统的系统架构图，如图1所示，代码处理系统100包括IDE102和位于后端的补全子系统104。其中，IDE102包括IDE内核1022(IDE core)和安装在该IDE102中的IDE插件1024。补全子系统104包括代码分析模块1042和上下文数据库1044。可选地，补全子系统104还可以包括参数填充模块1046、评估模块1048和索引模块1049中的任意一个或多个。

具体地，IDE内核1022用于提供IDE102的原生功能，如代码提示、代码拼写检测等等，IDE插件1024用于和补全子系统104交互实现增强功能，如实现智能代码补全。下面对交互过程进行详细说明。

在一些实施例中，IDE插件1024可以通过用户界面接收用户输入的代码，获取输入光标在代码中的位置，其中输入光标所在位置即为待补全代码的位置，由此可以确定待补全代码的上下文特征，例如基类的类型(如public、private、protected等)、基类的类名、前缀、返回类型以及布尔特征中的任意一种或多种。其中，布尔特征可以包括如下特征中的至少一种：

private boolean is_in_direct_new；

private boolean is_in_binary_op；

private boolean is_in_variable_name；

private boolean inClassDeclarationName；

private boolean is_in_interface；

private boolean is_in_for_declaration。

IDE插件1024可以将待补全代码的上下文特征发送至补全子系统104，补全子系统104根据待补全代码的上下文特征进行静态分析，生成待补全代码的至少一个候选项，并将至少一个候选项返回给IDE插件1024。IDE102可以向用户呈现待补全代码的至少一个候选项，以便用户从中选择一个候选进行代码补全。

其中，补全子系统104的上下文数据库1044中存储有样本代码以及样本代码的上下文特征。其中，样本代码可以是类名、方法名、函数名、变量名或者参数名等标识符，需要说明，样本代码可以是单标识符，也可以是多标识符。样本代码的上下文特征具体为基于样本代码的上下文提取的特征，例如可以是变量类型、对象类型、返回类型等等。补全子系统104的代码分析模块1042可以根据待补全代码的上下文特征，从上下文数据库1044中确定待补全代码的至少一个候选项。

为了便于理解，本申请实施例还提供了IDE102向用户呈现候选项的界面示意图。如图2所示，代码编辑界面200呈现有用户输入的代码，具体如图中202所示。需要说明，图2中202展示了用户输入的代码的一个片段，具体为:

public static void basicString(){

Document doc＝

在该代码片段之前或者在该代码片段之后还可以包括一些代码片段，图2中以“…”进行示意说明。IDE插件1024获取输入光标的位置，具体为“＝”之后，IDE插件1024可以根据该位置确定待补全代码的上下文，进而从中提取待补全代码的上下文特征。在该示例中，待补全代码的上下文特征可以包括返回类型为Document类型。IDE插件1024将上下文特征发送至补全子系统104，代码分析模块1042根据该上下文特征，从上下文数据库中确定待补全代码的至少一个候选项。可选地，代码分析模块1042还可以获取候选项在上下文数据库1044中的统计信息，根据统计信息对至少一个候选项进行过滤。进一步地，代码分析模块1042 还可以将候选项(例如是过滤后的候选项)传输至参数填充模块1046、评估模块1048进行后续处理，如进行参数填充、推荐概率评估。IDE102可以获取上述候选项，例如是代码分析模块1042过滤后的候选项，参数填充模块1046填充参数的候选项，或者是评估模块1048根据推荐概率确定的候选项，并显示上述候选项，具体如图2中204所示。

需要说明的是，IDE内核1022也可以通过文本补全技术，根据用户输入的代码直接生成至少一个候选项。在一些实施例中，IDE内核1022本身具有的补全方法，如文本补全方法可以和本申请实例提供的代码补全方法兼容使用。当IDE内核1022提供的文本补全方法与本申请实施例提供的代码处理方法一起使用时，IDE102可以一并显示文本补全方法生成的候选项和本申请实施例的代码处理方法生成的候选项，具体如图2中204和206所示。

其中，IDE102在显示不同方法生成的候选项时，还可以通过不同显示方式进行区分。例如，IDE102可以在候选项之前添加该候选项所采用的方法的标识。如图2中所示，IDE102可以采用圆圈标识IDE内核1022通过文本补全方法生成的候选项，采用添加有方框的加号标识通过本申请实施例的代码处理方法生成的候选项。又例如，IDE102也可以通过不同颜色或者不同字体区分不同方法生成的候选项。

需要说明的是，IDE102可以根据每个候选项的概率依次显示候选项。如此可以方便用户快速获知概率较高的候选项，以及选中概率较高的候选项进行代码补全。

在一些可能的实现方式中，代码分析模块1042可以根据待补全代码的上下文特征，从代码特征库中确定出较多的候选项。考虑到有些候选项的使用概率较低，代码分析模块1042还可以根据候选项在上下文数据库1044中的统计信息，如被调用的次数callCount、嵌套调用次数nestedCount等，根据该统计信息对至少一个候选项进行过滤，滤除概率较低的候选项。

进一步地，候选项为函数名(面向对象的计算机语言中，函数名可以是方法名)时，参数填充模块1046还可以对候选项，例如对过滤后的候选项进行参数填充，由此实现多符号补全，避免用户手动输入函数的参数。具体地，参数填充模块1046可以通过搜索本地代码(具体是用户输入的代码所在代码文件中的代码)的方式确定合适的参数，并将该参数填充到候选项。接着参数填充模块1046将填充参数后的候选项输入评估模块1048，评估模块1048可以通过评估模型对填充参数后的候选项进行评估，确定填充参数后的候选项的推荐概率。

评估模块1048可以将各填充参数后的候选项及其推荐概率发送至IDE插件1024。对应地，IDE102可以根据推荐概率显示排序前N的候选项，或者显示推荐概率大于预设概率的候选项。需要说明的是，评估模块1048也可以根据推荐概率对填充参数后的候选项进行筛选，例如筛选排序前N的候选项，或者筛选推荐概率大于预设概率的候选项，然后向IDE插件1024返回筛选的候选项，IDE显示筛选的候选项，或者显示筛选的候选项及其推荐概率。

索引模块1049还可以对本地代码如用户的代码仓中的代码进行索引，根据索引结果获取样本代码以及样本代码的上下文特征，存储在上下文数据库1044中。对应地，代码分析模块1042根据待补全代码的上下文特征从上下文数据库1044中确定的候选项可以包括本地代码调用，如包括本地变量名。索引模块1049通过对用户的代码仓中的代码进行索引，丰富了上下文数据库，从而使得在进行智能代码补全时，智能推荐结果更准确。

在一些可能的实现方式中，开发工具的服务提供商也可以在开发上述开发工具时，将本申请实施例提供的代码处理方法的相关代码原生地嵌入在内核中，如此可以省去安装插件的操作，避免插件安装引入的安全隐患。

在本申请实施例中，代码处理系统100的各个部分可以集中地部署在本地计算设备(处于用于用户直接控制之下的用户设备，如笔记本电脑、台式机、智能手机等用户终端)或者云计算集群(包括至少一个云计算设备，例如：云服务器等)中。当然，代码处理系统100的各个部分也可以分布式地部署在云计算集群中。下面对代码处理系统100的部署方式进行详细说明。

在一些可能的实现方式中，IDE102和补全子系统104可以部署在本地计算设备，如个人计算机(personal computer，PC)等终端设备中。由于本申请实施例中的代码处理系统100在进行代码分析时的算力消耗较小，而且，评估模型通过简单的(例如包括2层隐藏层)的网络即可实现，因此，对于终端设备的计算性能的要求较低，轻量级的终端设备即可满足业务需求。此外，补全子系统104与IDE102一同部署在本地计算设备，可以减少IDE102和补全子系统104的交互时间，避免网络传输时延导致补全功能卡顿，影响用户体验。

在另一些可能的实现方式中，IDE102和补全子系统104可以部署在云计算集群中。也即IDE 102为cloud IDE，IDE102和补全子系统104以云服务形式提供给用户使用。

其中，云服务提供商可以将补全子系统104提供的智能代码补全服务和cloud IDE提供的代码开发环境提供服务整合成一个云服务提供给用户使用，也可以分别提供cloud IDE和代码智能补全两个云服务供用户使用。在一些情况下，云服务提供商可以将代码智能补全服务作为cloud IDE的增值服务，用户购买或者租赁该增值服务后，云服务提供商将其结合在cloud IDE中提供给用户使用。

参见图3A所示的代码处理系统100的架构示意图，如图3A所示，IDE102和补全子系统104由一个云服务提供商提供，IDE102和补全子系统104可以部署在同一个云计算集群。在本申请实施例其他可能的实现方式中，IDE102和补全子系统104也可以由不同云服务提供商提供，部署在不同云计算集群。

接着参见图3B所示的代码处理系统100的架构示意图，IDE102可以部署在本地计算设备，补全子系统104可以部署在云计算集群。用户通过本地计算设备中部署的IDE102进行代码处理时，如果触发代码补全，则IDE102调用云计算集群中的补全子系统104获得待补全代码的至少一个候选项。其中，使用该补全服务的用户可以预先注册云服务，如此可以实现云服务引流。

而且，部署在云计算集群中的评估模型可以是基于用户的私有数据集，例如基于用户提供的代码仓构建的数据集训练得到的定制模型，该模型与用户环境更贴合，具有较好的推荐效果。

上述图3A至图3B仅是本申请实施例中代码处理系统100部署方式的一些具体示例，在本申请实施例其他可能的实现方式中，代码处理系统100可以采用其他方式部署，例如IDE102部署在云端，补全子系统104部署在本地计算设备，本申请实施例对此不作限定。

接下来，从代码处理系统100的角度，对本申请实施例提供的代码处理方法进行详细介绍。

参见图4所示的代码处理方法的流程图，该方法包括：

S402：代码处理系统100通过用户界面接收用户输入的代码。

代码处理系统100(例如是IDE102)可以通过用户界面(如GUI或CUI)接收用户通过物理键盘键入的代码。当然，代码处理系统100也可通过用户界面接收用户通过虚拟键盘以触控方式键入的代码。

在一些可能的实现方式中，代码处理系统100也可以通过用户界面选中代码文件，以接收该代码文件中的代码。其中，该代码文件中的代码可以包括当前用户在先编写的代码，也可以包括其他用户在先编写的代码。

用户输入的代码可以是根据单一计算机语言编写的代码，例如是根据C语言编写的代码，根据Java语言编写的代码，或者是根据Python语言编写的代码。在一些实施例中，用户输入的代码也可以是根据多种计算机语言、采用混合编程方式编写的代码，例如是根据C语言或嵌入式汇编语言编写的代码。

S404：代码处理系统100根据用户输入的代码确定待补全代码的上下文特征。

代码处理系统100(例如是IDE102中的IDE插件1024)可以捕获输入光标所在的位置，当触发代码补全功能时，该输入光标所在的位置即为补全位置。需要说明的是，补全位置可以是输入行的末尾位置，或者是中间位置。当然，在一些实施例中，补全位置也可以是输入行的起始位置。

在计算机语言中，代码的上下文(context)可以理解为代码所在的语境或者环境。上下文特征(features of context)是指能够表达代码所在语境的特征，例如包括基类的类型、基类的类名、前缀、返回类型和布尔特征中的任意一种或多种。

以输入的代码包括“Document doc＝”为例，待补全代码的补全位置为“＝”之后的位置，该位置具体为输入的末尾位置，待补全代码的上下文特征可以包括返回值类型为Document类型，布尔类型is_in_API为true。其中，is_in_API为true指示当前补全为类方法补全。

补全类型可以是单符号补全或者是多符号补全。代码处理系统可以根据预先设置确定补全类型为单符号补全或者多符号补全，也可以根据用户触发代码补全功能时设置的补全类型确定本次补全行为为单符号补全或者是多符号补全。

触发补全功能可以有多种实现方式。例如代码处理系统100可以检测用户停止输入的时间达到预设时间，则确定触发代码补全功能。又例如代码处理系统100可以设置触发条件，如鼠标右键双击、单击快捷键(例如是tab键)，当代码处理系统100检测到触发条件被满足时，如检测到用户双击鼠标右键或者单击快捷键时，触发代码补全功能。进一步地，用户还可以在触发代码补全功能时，设置补全类型为单符号补全或多符号补全。

在一些可能的实现方式中，输入的代码可以包括待补全代码的前缀，例如是待补全的标识符的前缀。基于此，代码处理系统100还可以根据输入的代码确定补全条件。该补全条件具体为待补全代码的候选项包括上述前缀。对于一个长度为N(N为大于1的正整数)的标识符而言，该标识符的前缀可以是前1位代码至前N-1位代码中的任意一个。

S406：代码处理系统100根据待补全代码的上下文特征从上下文数据库中确定待补全代码的至少一个候选项。

上下文数据库中存储有样本代码以及样本代码的上下文特征。样本代码可以包括类名、方法名、函数名、变量名或者参数名等标识符中的任意一个或多个。该样本代码可以来自开源数据集或者用户的私有数据集。

具体地，以基于Java的代码补全场景为例，代码处理系统100可以对开源数据集如GitHub corpus中的代码进行索引，从而识别代码中的类名、方法名、函数名、变量名、参数名、运算符等标识符，然后确定每一个标识符的上下文特征，在数据库中存储标识符以及标识符的上下文特征，从而得到上下文数据库。

在一些可能的实现方式中，代码处理系统100也可以对用户私有的数据集，如用户提供的代码仓中的代码进行索引，从而识别代码中的类名、方法名、函数名、变量名、参数名、运算符等标识符，然后确定每一个标识符的上下文特征，根据该标识符及其上下文特征，得到上下文数据库。

考虑到准确度，代码处理系统100也可以根据开源数据集和用户的私有数据集分别构建上下文数据库，例如构建第一上下文数据库和第二上下文数据库，第一上下文数据库用于存储开源数据集中的标识符以及标识符的上下文特征，第二上下文数据库用于存储用户私有数据集中的标识符以及标识符的上下文特征。

在构建上下文数据库后，代码处理系统100(例如是补全子系统104中的代码分析模块1042)可以根据代码的上下文特征进行代码分析，从上下文数据库中确定待补全代码的至少一个候选项。

具体地，代码处理系统100(例如是补全子系统104中的代码分析模块1042)根据待补全代码的上下文特征，利用深度优先搜索(deep first search，DFS)算法搜索上下文数据库，确定待补全代码的至少一个候选项。

深度优先搜索算法是一种用于遍历树(例如是代码的抽象语法树)或图的算法。以遍历树为例进行说明，沿着树的深度遍历树的节点，尽可能深地搜索树的分支。当节点v的所在边都己被探寻过，搜索将回溯到发现节点v的那条边的起始节点。这一过程一直进行到已发现从源节点可达的所有节点为止。如果还存在未被发现的节点，则选择其中一个作为源节点并重复以上过程，整个进程反复进行直到所有节点都被访问为止。

代码处理系统100可以通过深度优先搜索算法搜索出与待补全代码的上下文特征匹配的候选项，针对每一个候选项，代码处理系统100可以继续进行搜索，直至搜索到静态函数调用为止。

以“Document doc＝”为例，返回值类型为Document类型，代码处理系统100可以搜索返回值类型为Document类型的函数调用或者API调用，例如包括newDocument()或parse()。针对newDocument，代码处理系统100继续进行深度搜索，确定newDocument被DocumentBuilder调用，然后搜索返回DocumentBuilder的调用，例如包括newDocumentBuilder()，接着代码处理系统100根据newDocumentBuilder()继续进行深度搜索，具体地，代码处理系统100确定DocumentBuilder被DocumentBuilderFactory调用，代码处理系统100搜索返回DocumentBuilderFactory.newInstance。

由于DocumentBuilderFactory.newInstance为静态函数调用，该静态函数调用可以在等号右边直接被调用，因此代码处理系统100可以停止针对newDocument的深度搜索，生成候选项:DocumnetBuilderFactory.newInstance().newdDocumentBuilder().newDocument()。

针对parse()的深度搜索过程可以参考针对newDocument()的深度搜索过程，基于该搜索过程可以生成候选项:

DocumnetBuilderFactory.newInstance().newdDocumentBuilder().parse()。

进一步地，当用户输入的代码中包括待补全代码的前缀时，代码处理系统100(例如是代码分析模块1042)可以从搜索得到的候选项中确定与待补全代码的前缀匹配的至少一个候选项。以“Document doc＝Doc”为例，前缀包括Doc，则代码处理系统100可以从搜索到的返回值为Document类型的候选项中筛选前缀包括Doc的候选项，滤除前缀不包括Doc的候选项，如DOMUtils.getOwnerDocument(new IIOMetadataNode(“”))。

在一些可能的实现方式中，代码处理系统100还可以确定至少一个候选项的评价指标值，然后根据该评价指标值对至少一个候选项过滤，或者是对评价指标值进行排序。

其中，评价指标值可以是根据候选项在上下文数据库1044中的统计信息确定的评分值，或者是基于评估模型确定的推荐概率的概率值。统计信息可以包括使用(useage)信息。例如候选项包括类名(typename)时，统计信息可以包括类使用信息；又例如候选项包括方法名时，统计信息可以包括方法使用信息。

其中，类使用信息具体可以包括如下信息中的任意一种或多种：

public int nestedCount；

public int extendsCount；

public int fieldCount；

public int assignCount；

public int ifCount；

public int finallyCount；

public int localVariableCount；

public int parameterCount；

public int newCount；

public int callBaseCount；

public int totalCount；

public int localCount；

public int samePackage。

类似地，方法使用信息具体可以包括如下信息中的任意一种或多种：

public int callCount；

public int constructorCount；

public int methodCount；

public int repeatCount；

public int firstCount；

public int boolCount；

public int finallyCount；

public int nestedCount；

public int rightAssignSide；

public int inReturn。

代码处理系统100(例如是补全子系统104中的代码分析模块1042)可以根据候选项的上述使用信息，确定候选项的评分值。具体地，代码处理系统100可以为不同使用信息分别赋予权重，然后通过加权运算(如加权求和、加权求平均值)确定候选项的评分值。

代码处理系统100可以根据评分值对至少一个候选项进行过滤，例如代码处理系统100可以滤除评分值低于预设值的候选项，或者评分值排序靠后(如Top 10之后)的候选项，如此可以避免推荐过期的、弃用的API等，提高准确度。进一步地，代码处理系统100还可以根据评分值对至少一个候选项进行排序，以便按照评分值高低顺序显示候选项。

在一些可能的实现方式中，候选项包括函数名时，代码处理系统100还可以对至少一个候选项填充参数。具体地，代码处理系统100可以利用深度优先搜索算法搜索函数对应的参数，例如从本地代码中搜索得到函数对应的参数，然后基于搜索得到的参数对候选项进行参数填充。

其中，代码处理系统100(例如是补全子系统104的参数填充模块1046)在填充参数时，可以针对一个候选项填充多组参数，得到多个填充参数后的候选项。如图5所示，代码处理系统100可以根据参数与待补全代码的距离(distance)在内的信息为多个填充参数后的候选项排序，例如代码处理系统100可以将填充有距离较近的参数的候选项502排在靠前的位置进行显示。

在一些可能的实现方式中，候选项包括函数名时，代码处理系统100还可以向用户提供填充有参数的候选项以及未填充参数的候选项，以便填充有参数的候选项不满足用户需求时，用户可以选择上述未填充参数的候选项，手动输入参数，避免不必要的修正操作。

在填充参数后，代码处理系统100不仅可以用于补全整行代码，还可以用于进一步补全整个代码片段。其中，补全代码片段实质是多符号补全，其具体实现方式可以参考补全整行代码的具体实现方式。

图6还使出了补全整个代码片段的界面图，图6中所示(A)为补全代码片段之前的界面示意图，如图6中(A)所示，用户输入的代码包括：

public static void documentBuilderMethod(){

String path＝“/path/to/file”；

Document doc＝

基于上述代码，代码处理系统100可以识别本地变量path和file，基于document类型，确定至少一个候选项包括：

DocumnetBuilderFactory.newInstance().newdDocumentBuilder().parse()

接着，代码处理系统100识别file为上述候选项的参数，同时需要在此之前创建file，path作为file的参数。此外，代码处理系统100识别到分析器配置异常ParserConfigurationException，根据该异常补全代码片段中的try catch语句，如图6中(B)所示，加粗以及倾斜的代码即为补全的代码。

在一些可能的实现方式中，代码处理系统100还可以将至少一个候选项(例如是填充有参数的候选项)和待补全代码的上下文特征输入评估模型，获得至少一个候选项的推荐概率。对应地，代码处理系统100可以根据至少一个候选项的推荐概率确定至少一个候选项中的目标候选项。其中，目标候选项是推荐概率满足预设条件的候选项，例如推荐概率大于预设概率值，或者推荐概率排名靠前(例如是前N，N为正整数)的候选项。

其中，评估模型可以通过从开源数据集或用户私有数据集中收集的样本对初始模型进行训练得到。具体地，代码处理系统100可以构建初始模型，该初始模型可以是包括2层或者2层以上隐藏层的模型。在一些实施例中，初始模型可以包括一层输入层，两层隐藏层，以及一层输出层。其中，隐藏层可以是全连接层(Dense layer)，该隐藏层的激活函数可以是双曲函数如双曲正切函数TANH。输出层包括损失函数，该损失函数可以是交叉熵损失函数(cross entry，XENT)等等。

然后，代码处理系统100可以将从开源数据集或用户私有数据集中收集的样本(包括标识符以及标识符的上下文特征)输入初始模型进行训练，以迭代更新初始模型的参数。当模型的损失函数满足训练结束条件，如损失函数趋于收敛或者小于预设值时，则可以停止训练。经过训练的模型可以作为评估模型，用于评估填充参数的候选项正确的概率。其中，填充参数的候选项正确的概率可以作为该候选项的推荐概率。

其中，评估模型也可以通过二元分类模型实现。该二元分类模型以候选项(例如可以是填充有参数的候选项)以及候选项的上下文特征为输入，以推荐标签为输出。二元分类模型具体是将输入的候选项以及候选项的上下文特征与已有标识符以及该标识符的上下文特征进行匹配，从而确定推荐标签。其中，推荐标签可以取值为0，1，或者是true、false，当推荐标签为0或者是false时，表征不推荐该候选项，当推荐标签为1或者true时，表征推荐该候选项。

代码处理系统100可以根据上述推荐标签进一步过滤候选项，提高预测候选项的准确度，从而提高代码补全精度。其中，评估模型还可以获取推荐标签为1的候选项的统计信息，基于统计信息确定候选项的推荐概率，例如根据评分值确定推荐概率。

在一些可能的实现方式中，一个类方法可以在不同环境中被调用。对应地，一个类方法的上下文可以是不同的。基于此，代码处理系统100可以针对每一个方法调用，根据该方法调用的上下文特征确定该方法调用的角色。例如，针对getitem()方法，可以确定该方法调用的角色包括get accessor(或称作read accessor)，针对add()方法可以确定该方法调用的角色包括adder，针对removeitem()方法，可以确定该方法调用的角色包括remover。

当代码处理系统100在训练评估模型时，还可以根据加入方法调用的角色等特征，以此提升评估模型的精度。如此，评估模型可以结合方法调用的角色确定候选项的推荐概率，使得评估模型推荐的候选项更符合用户的意图，由此可以获得更高的补全精度。

考虑到代码中变量之间会产生关系，如生产者-消费者(producer-consumer)关系，大多数场景下，变量之间的循环引用是不合法的，例如，变量A作为变量B的消费者，同时变量B也作为变量A的消费者，通常是不合法的，因此，代码处理系统100还可以对数据流进行追踪，从而避免循环引用的情况发生，提高补全准确度。

S408：代码处理系统100通过所述用户界面向用户呈现至少一个候选项。

具体地，代码处理系统100可以通过用户界面如GUI，向用户呈现该代码处理系统100根据待补全代码的上下文特征从上下文数据库中确定的至少一个候选项。在一些可能的实现方式中，代码处理系统100还根据统计信息对上述至少一个候选项进行过滤处理，则代码处理系统100可以通过用户界面如GUI，向用户呈现该代码处理系统100根据统计信息过滤后的候选项。其中，代码处理系统100还可以根据统计信息对候选项排序，然后顺序显示候选项。例如，代码处理系统100根据统计信息确定候选项的评分值，按照评分值高低顺序显示候选项。

在一些可能的实现方式中，候选项包括函数名，代码处理系统100还根据本地代码对候选项进行参数填充，则代码处理系统100可以通过用户界面如GUI，向用户呈现该代码处理系统100填充参数后的至少一个候选项。

在一些可能的实现方式中，代码处理系统100还将候选项输入评估模型进行评估，获得候选项的推荐概率，并根据至少一个候选项的推荐概率确定至少一个候选项中的目标候选项，则代码处理系统100可以通过用户界面如GUI向用户呈现目标候选项。代码处理系统100显示目标候选项时，可以按照推荐概率顺序显示候选项。

其中，待补全的代码为类方法中的代码，代码处理系统100还根据待补全代码对应的方法调用的角色，确定候选项的推荐概率，进而确定目标候选项时，代码处理系统100还可以显示基于方法调用的角色确定的目标候选项。

下面结合一具体示例进行说明。参见图7所示的代码补全的效果示意图，如图7所示，用户对方法getFullName()进行补全，具体地，用户输入“ret”之后，代码处理系统100可以确定“ret”的上下文特征，如返回类型为string，而name、LastName均为string类型。

当代码处理系统100采用的评估模型未结合方法调用的角色进行评估时，如图7中(A)所示，代码处理系统100可以根据变量与待补全代码的距离确定返回LastName的概率高于返回name的概率，代码处理系统100优先推荐返回LastName、然后推荐返回name。

当代码处理系统100采用的评估模型还结合方法调用的角色进行评估时，如图7中(B)所示，代码处理系统100可以确定该方法调用的角色包括get accessor，代码处理系统100的评估模型可以按照由近及远的顺序依次确定LastName、name、builder是否具有get accessor对应的功能，显然LastName、name不具有相应的功能，而builder具有相应的功能，因此，代码处理系统100优先返回builder，考虑到返回类型为string，因此，通过builder调用toString，返回string类型。此时代码处理系统优先推荐返回builder.toString。

虽然图7中(A)所示的推荐结果如return LastName虽然语法正确，能够通过编译，然而与用户的意图仍存在一定差距，而图7中(B)所示的推荐结果更接近用户的真实意图，进一步提高了准确度。并且，通过图7中(B)对应的方法可以实现对未知pattern的预测，具有较好的泛化性能。

在一些可能的实现方式中，代码处理系统100还从至少一个候选项中过滤存在循环引用的候选项，则代码处理系统100可以通过用户界面如GUI向用户呈现对循环引用的候选项进行过滤之后的候选项。

下面结合一具体示例进行说明。参见图8所示的代码补全的效果示意图，首先新建一个frame，然后新建一个panel，接着通过add方法将panel加入frame，然后用户输入panel.a触发有前缀的代码补全，如果不进行数据流追踪，如图8(A)所示，代码处理系统100根据距离优先返回add(frame)，frame和panel之间形成循环引用，如果进行数据流追踪，如图8(B)所示，代码处理系统100可以过滤循环引用的候选项add(frame)，优先返回add(label)。由此可见，通过对数据流进行追踪，可以使得代码补全的准确度更高，提高了代码补全的用户体验。

进一步地，代码处理系统100在向用户呈现候选项(例如是填充有参数的候选项)之后，还可以接收用户选择的候选项，根据该候选项以及上下文特征更新上下文数据库。在一些实施例中，代码处理系统100还可以根据用户选择的候选项以及该候选项的上下文特征，更新用于训练模型或测试模型的数据集。

需要说明的是，上述实施例主要以类方法补全作为示例进行详细说明，在对包括类名、变量名以及无返回类型的方法等进行补全时，可以直接将待补全代码的上下文特征输入预先训练的补全模型得到候选项。其中，补全模型具体可以是基于统计信息的补全模型。

上文结合图1至图8对本申请实施例提供的代码处理方法进行了详细介绍，接下来结合附图对本申请实施例提供的代码处理系统、代码处理装置以及用于实现代码处理功能的计算设备进行介绍。

参见图1，本申请实施例提供一种代码处理系统100，该系统用于执行前述方法实施例中步骤S402至S408，且该系统可选地执行前述各步骤中可选的方法。该系统包括IDE102和补全子系统104。IDE102和补全子系统104的组成以及各组成部分的功能参见上文相关内容描述，在此不再赘述。

如图9所示，本申请实施例还提供一种代码处理装置900，该装置900用于执行前述代码处理方法。代码处理装置900可以包括前述图1描述的系统架构中的IDE插件1024和前述补全子系统104中的部分或者全部模块。代码处理装置900的功能划分可以与前述图1中的划分相同，例如：代码处理装置900包括IDE插件1024和补全子系统104，补全子系统104进一步包括代码分析模块1042、上下文数据库1044，可选的，补全子系统104，还可以包括参数填充模块1046、评估模块1048、索引模块1049。代码处理装置900还可以有其他的功能单元的划分方式，本申请实施例对该装置900中的功能单元的划分不做限定，下面示例性地提供一种划分：

代码处理装置900包括接口单元902、特征提取单元904和分析单元906。

接口单元902，用于通过用户界面接收用户输入的代码；

特征提取单元904，用于根据所述用户输入的代码确定待补全代码的上下文特征；

分析单元906，用于根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，所述上下文数据库中存储有样本代码以及所述样本代码的上下文特征；

接口单元902，还用于通过所述用户界面向所述用户呈现所述至少一个候选项。

在一些可能的实现方式中，所述分析单元906还用于：

根据所述统计信息对所述至少一个候选项进行过滤；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现过滤后的候选项。

在一些可能的实现方式中，所述装置900还包括：

所述接口单元902具体用于：

通过所述用户界面向所述用户呈现所述目标候选项。

在一些可能的实现方式中，所述装置900还包括：

参数填充单元，用于所述候选项包括函数名时，根据所述用户输入的代码所在代码文件中的代码填充所述至少一个候选项的参数；

所述接口单元具体用于：

在一些可能的实现方式中，所述分析单元906具体用于：

所述分析单元906具体用于：

在一些可能的实现方式中，所述装置900还包括：

在一些可能的实现方式中，所述分析单元906还用于：

从所述至少一个候选项中过滤存在循环引用的候选项；

所述接口单元902具体用于：

通过所述用户界面向所述用户呈现过滤后的所述候选项。

根据本申请实施例的代码处理装置900可对应于执行本申请实施例中描述的方法，并且代码处理装置900的各个模块/单元的上述和其它操作和/或功能分别为了实现图4所示实施例中的各个方法的相应流程，为了简洁，在此不再赘述。

上述代码处理装置900可以通过计算设备实现。图10提供了一种计算设备，如图10所示，计算设备1000具体可以用于实现上述图9所示实施例中代码处理装置900的功能。

计算设备1000包括总线1001、处理器1002、显示器1003和存储器1004。处理器1002、存储器1004和显示器1003之间通过总线1001通信。

总线1001可以是外设部件互连标准(peripheral component interconnect，PCI)总线或扩展工业标准结构(extended industry standard architecture，EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示，图10中仅用一条粗线表示，但并不表示仅有一根总线或一种类型的总线。

处理器1002可以为中央处理器(central processing unit，CPU)、图形处理器(graphics processing unit，GPU)、微处理器(micro processor，MP)或者数字信号处理器(digital signal processor，DSP)等处理器中的任意一种或多种。

显示器1003是一种输入输出(input/output，I/O)设备。该设备可以将电子文件如代码文件显示到屏幕上，以供用户查看。根据制造材料不同，显示器1003可以分为液晶显示器(liquid crystal display，LCD)、有机电激光(organic light emitting diode，OLED)显示器等。具体地，显示器1003可以通过GUI显示用户输入的代码，向GUI向用户呈现待补全代码的候选项等等。

存储器1004可以包括易失性存储器(volatile memory)，例如随机存取存储器(random access memory，RAM)。存储器1004还可以包括非易失性存储器(non-volatile memory)，例如只读存储器(read-only memory，ROM)，快闪存储器，机械硬盘(hard drive drive，HDD)或固态硬盘(solid state drive，SSD)。

存储器1004中存储有可执行的程序代码，处理器1002执行该可执行的程序代码以执行前述代码处理方法。具体地，处理器1002执行上述程序代码，以控制显示器1003通过用户界面如GUI接收用户输入的代码，然后控制显示器1003通过总线1001传输用户输入的代码至处理器1002，处理器1002可以根据用户输入的代码确定待补全代码的上下文特征，接着根据待补全代码的上下文特征从上下文数据库中确定待补全代码的至少一个候选项，然后控制显示器1003通过用户界面如GUI向用户呈现至少一个候选项。

在一些可能的实现方式中，处理器1002还可以控制其他接口接收用户输入的代码。其中，其他接口可以是麦克风等。具体地，麦克风可以接收以语音形式输入的代码。

本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质，(例如，软盘、硬盘、磁带)、光介质(例如，DVD)、或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令，所述指令指示计算设备执行上述应用于代码处理装置的代码处理方法。

本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计算机指令。在计算设备上加载和执行所述计算机指令时，全部或部分地产生按照本申请实施例所述的流程或功能。

所述计算机指令可以存储在计算机可读存储介质中，或者从一个计算机可读存储介质向另一计算机可读存储介质传输，例如，所述计算机指令可以从一个网站站点、计算机或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算机或数据中心进行传输。

所述计算机程序产品可以为一个软件安装包，在需要使用前述代码处理方法的任一方法的情况下，可以下载该计算机程序产品并在计算设备上执行该计算机程序产品。

上述各个附图对应的流程或结构的描述各有侧重，某个流程或结构中没有详述的部分，可以参见其他流程或结构的相关描述。

Claims

一种代码处理方法，其特征在于，所述方法包括：

通过用户界面接收用户输入的代码；

根据所述用户输入的代码确定待补全代码的上下文特征；

根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，所述上下文数据库中存储有样本代码以及所述样本代码的上下文特征；

通过所述用户界面向所述用户呈现所述至少一个候选项。
根据权利要求1所述的方法，其特征在于，所述方法还包括：

获取所述至少一个候选项在所述上下文数据库中的统计信息；

根据所述统计信息对所述至少一个候选项进行过滤；

所述通过所述用户界面向所述用户呈现所述至少一个候选项，包括：

通过所述用户界面向所述用户呈现过滤后的候选项。
根据权利要求1或2所述的方法，其特征在于，所述方法还包括：

将所述至少一个候选项和所述待补全代码的上下文特征输入评估模型，获得所述至少一个候选项的推荐概率；

所述通过所述用户界面向所述用户呈现所述至少一个候选项，包括：

根据所述至少一个候选项的推荐概率确定所述至少一个候选项中的目标候选项；

通过所述用户界面向所述用户呈现所述目标候选项。
根据权利要求1至3任一项所述的方法，其特征在于，所述候选项包括函数名，所述方法还包括：

根据所述用户输入的代码所在代码文件中的代码填充所述至少一个候选项的参数；

所述通过所述用户界面向所述用户呈现所述至少一个候选项，包括:

通过所述用户界面向所述用户呈现填充有所述参数的所述至少一个候选项。
根据权利要求1至4任一项所述的方法，其特征在于，所述根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，包括：

根据所述待补全代码的上下文特征，利用深度优先搜索算法搜索上下文数据库，确定所述待补全代码的至少一个候选项。
根据权利要求1至5任一项所述的方法，其特征在于，所述用户输入的代码中包括所述待补全代码的前缀；

所述根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，包括：

根据所述待补全代码的上下文特征从上下文数据库中确定与所述待补全代码的前缀匹配的至少一个候选项。
根据权利要求1至6任一项所述的方法，其特征在于，所述上下文数据库包括基于开源数据集构建的数据库和基于所述用户的私有数据集构建的数据库中的至少一个。
根据权利要求1至7任一项所述的方法，其特征在于，所述待补全代码包括类的方法中的代码，且所述用户输入的代码中包括返回类型。
根据权利要求8所述的方法，其特征在于，所述方法还包括：

根据所述待补全代码的上下文特征确定所述待补全代码对应的方法调用的角色，所述角色用于辅助确定所述待补全代码的候选项的推荐概率。
根据权利要求1至9任一项所述的方法，其特征在于，所述方法还包括：

从所述至少一个候选项中过滤存在循环引用的候选项；

所述通过所述用户界面向所述用户呈现所述至少一个候选项，包括：

通过所述用户界面向所述用户呈现过滤后的所述候选项。
一种代码处理装置，其特征在于，所述装置包括：

接口单元，用于通过用户界面接收用户输入的代码；

特征提取单元，用于根据所述用户输入的代码确定待补全代码的上下文特征；

分析单元，用于根据所述待补全代码的上下文特征从上下文数据库中确定所述待补全代码的至少一个候选项，所述上下文数据库中存储有样本代码以及所述样本代码的上下文特征；

所述接口单元，还用于通过所述用户界面向所述用户呈现所述至少一个候选项。
根据权利要求11所述的装置，其特征在于，所述分析单元还用于：

获取所述至少一个候选项在所述上下文数据库中的统计信息；

根据所述统计信息对所述至少一个候选项进行过滤；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现过滤后的候选项。
根据权利要求11或12所述的装置，其特征在于，所述装置还包括：

评估单元，用于将所述至少一个候选项和所述待补全代码的上下文特征输入评估模型，获得所述至少一个候选项的推荐概率，根据所述至少一个候选项的推荐概率确定所述至少一个候选项中的目标候选项；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现所述目标候选项。
根据权利要求11至13任一项所述的装置，其特征在于，所述装置还包括：

参数填充单元，用于所述候选项包括函数名时，根据所述用户输入的代码所在代码文件中的代码填充所述至少一个候选项的参数；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现填充有所述参数的所述至少一个候选项。
根据权利要求11至14任一项所述的装置，其特征在于，所述分析单元具体用于：

根据所述待补全代码的上下文特征，利用深度优先搜索算法搜索上下文数据库，确定所述待补全代码的至少一个候选项。
根据权利要求11至15任一项所述的装置，其特征在于，所述用户输入的代码中包括所述待补全代码的前缀；

所述分析单元具体用于：

根据所述待补全代码的上下文特征从上下文数据库中确定与所述待补全代码的前缀匹配的至少一个候选项。
根据权利要求11至16任一项所述的装置，其特征在于，所述上下文数据库包括基于开源数据集构建的数据库和基于所述用户的私有数据集构建的数据库中的至少一个。
根据权利要求11至17任一项所述的装置，其特征在于，所述待补全代码包括类的方法中的代码，且所述用户输入的代码中包括返回类型。
根据权利要求18所述的装置，其特征在于，所述装置还包括：

评估单元，用于根据所述待补全代码的上下文特征确定所述待补全代码对应的方法调用的角色，所述角色用于辅助确定所述待补全代码的候选项的推荐概率。
根据权利要求11至19任一项所述的装置，其特征在于，所述分析单元还用于：

从所述至少一个候选项中过滤存在循环引用的候选项；

所述接口单元具体用于：

通过所述用户界面向所述用户呈现过滤后的所述候选项。
一种计算设备，其特征在于，所述设备包括处理器、存储器和显示器；

所述处理器用于执行所述存储器中存储的指令，以使得所述设备执行如权利要求1至10中任一项所述的方法。
一种计算机可读存储介质，其特征在于，包括指令，当其在计算设备上运行时，使得所述计算设备执行如权利要求1至10中任一项所述的方法。