WO2023078009A1 - 一种模型权重获取方法以及相关系统 - Google Patents

一种模型权重获取方法以及相关系统 Download PDF

Info

Publication number
WO2023078009A1
WO2023078009A1 PCT/CN2022/122500 CN2022122500W WO2023078009A1 WO 2023078009 A1 WO2023078009 A1 WO 2023078009A1 CN 2022122500 W CN2022122500 W CN 2022122500W WO 2023078009 A1 WO2023078009 A1 WO 2023078009A1
Authority
WO
WIPO (PCT)
Prior art keywords
neural network
network model
weight
weights
model
Prior art date
Application number
PCT/CN2022/122500
Other languages
English (en)
French (fr)
Inventor
周卫民
刘一峰
李亿
戴宗宏
Original Assignee
华为云计算技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为云计算技术有限公司 filed Critical 华为云计算技术有限公司
Publication of WO2023078009A1 publication Critical patent/WO2023078009A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections

Definitions

  • the model weight acquisition system may also update the weights of the trained first neural network model to the weight library. In this way, the diversity of data in the weight library can be enriched, and it can help the training of other models.
  • the model weight acquisition system may, according to the structural information of the first neural network model and the structural information of the neural network model corresponding to at least one set of historical weights in the multiple sets of historical weights in the weight library, determining the similarity between the structure of the first neural network model and the structure of the neural network model corresponding to the at least one set of historical weights, and then according to the structure of the first neural network model corresponding to the at least one set of historical weights The similarity of the structure of the neural network model, the weight of the second neural network model is obtained as a reference weight.
  • the search efficiency is greatly improved, and the method reduces the occupation of computing resources and improves the utilization rate of computing resources.
  • the reference matrix is copied and/or concatenated to obtain the target matrix.
  • the structural information of the first neural network model and the structural information of the neural network model corresponding to at least one set of historical weights in the weight library determine the structure of the first neural network model and the The similarity of the structure of the neural network model corresponding to at least one set of historical weights;
  • FIG. 2 is a schematic interface diagram of a configuration interface provided by an embodiment of the present application.
  • the convolution kernel when the input data includes multiple channels, it is usually possible to construct a convolution kernel with the same number of input channels as the input data, so as to perform cross-correlation operations with multi-channel input data. Assuming that the number of channels of the input data is c i , the number of input channels of the convolution kernel is also c i .
  • the window size of the convolution kernel can be set as k h ⁇ k w .
  • Each input channel is assigned a kernel array with size k h ⁇ k w , and c i kernel arrays are concatenated on the input channel dimension to obtain a convolution kernel with shape c i ⁇ k h ⁇ k w .
  • the method for obtaining model weights can be used in a scenario where a neural network model whose structure changes during the iterative training process is used for model training.
  • the neural network model for a task often requires continuous iterative training.
  • the user can choose to inherit the weight of the previous iteration to speed up the training.
  • the model weight acquisition system can search for references from the weight library. weights, converting the reference weights to obtain available weights for the first neural network model. In this way, the problem that the weight of the previous iteration cannot be inherited and the user needs to train from scratch is avoided, and the degree of freedom for optimizing the neural network model is improved.
  • the model weight acquisition system 100 includes an interaction module 102 , a search module 104 , a conversion module 106 and a weight library 108 .
  • the weight database 108 is a database for storing weights, and the weight database 108 stores multiple sets of historical weights.
  • the historical weights may be, for example, weights obtained by training neural network models with different structures under different tasks.
  • the weight database 108 may be a database constructed by the cloud service provider itself.
  • the model weight acquisition system 100 may not include the aforementioned self-built weight database 108, for example, the model weight acquisition system 100 may directly call a third-party database.
  • the user can input the model file of the first neural network model through the model file acquisition control 202, and the training platform recognizes the model file to obtain the structural information of the first neural network model.
  • the user triggers the weight acquisition control 204, and the training platform searches the weight library 108 to obtain reference weights in response to the user's operation, and converts the reference weights to obtain the weights of the first neural network model.
  • the user also configures the data set used for training the first neural network model through the data set configuration control 206. For example, a data set can be selected by browsing the catalog, and then the user triggers the training control 208.
  • the training platform responds to the user's operation, according to the obtained
  • the weights of the first neural network model are initialized, and then the configured data set is used to train the initialized first neural network model.
  • the method includes:
  • Lines 7 to 11 of the data encoding file represent edges in this neural network model. For example, line 7 indicates the edge from node 0 to node 1, line 8 indicates the edge from node 0 to node 2, and line 9 indicates the edge from node 1 to node 2. Line 10 indicates the edge from node 3 to node 0, and line 11 indicates the edge from node 2 to node 4.
  • the model weight acquisition system 100 may use graph neural networks (graph neural networks, GNN) to determine the similarity of structures of different neural network models.
  • GNN graph neural networks
  • the model weight acquisition system 100 can obtain the corresponding graph structure according to the structural information of the neural network model, and then encode the graph structure through the graph neural network GNN to obtain coded representations of different graph structures, which are usually vectors.
  • the model weight acquisition system 100 can determine the distance between different vectors, such as cosine distance or Euclidean distance, so as to obtain the similarity of the structures of different models.
  • the reference matrix includes a matrix corresponding to the convolution kernel of the second neural network model, when the window size of the convolution kernel of the first neural network model is smaller than the second neural network model
  • the model weight acquisition system 100 can The above reference matrix is clipped to obtain the target matrix.
  • FIG. 5 and FIG. 6 are only some examples of weight conversion.
  • the model weight acquisition system 100 may also convert reference weights through other rules or other models.
  • the converting module 106 is configured to convert the reference weights to obtain the weights of the first neural network model.
  • the reference matrix includes a matrix corresponding to the convolution kernel of the second neural network model, and the conversion module 106 is specifically configured to:
  • the embodiment of the present application also provides a computing device cluster.
  • the computing device cluster includes at least one computing device, and any computing device in the at least one computing device may be from a cloud environment or an edge environment, or may be a terminal device.
  • the computing device cluster is specifically used to implement the functions of the model weight acquisition system 100 in the embodiment shown in FIG. 1 .
  • the bus 901 may be a peripheral component interconnect standard (peripheral component interconnect, PCI) bus or an extended industry standard architecture (extended industry standard architecture, EISA) bus, etc.
  • PCI peripheral component interconnect
  • EISA extended industry standard architecture
  • the bus can be divided into address bus, data bus, control bus and so on. For ease of representation, only one thick line is used in FIG. 9 , but it does not mean that there is only one bus or one type of bus.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • General Engineering & Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Biophysics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Health & Medical Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请提供了一种模型权重获取方法,包括:获取第一神经网络模型的结构信息,根据第一神经网络模型的结构信息,从存储有多组历史权重的权重库中搜索获得参考权重,参考权重为多组历史权重中与第一神经网络模型的结构相似的第二神经网络模型的权重,对参考权重进行转换,获得第一神经网络模型的权重。该方法通过搜索权重库中与待训练的神经网络模型的结构相似的神经网络模型的权重,并对该权重进行转换,从而获得待训练的神经网络模型可用的权重,无需从头开始进行模型训练,提高了模型训练效率。

Description

一种模型权重获取方法以及相关系统
本申请要求于2021年11月05日提交中国国家知识产权局、申请号为202111307019.7、发明名称为“一种模型权重获取方法以及相关系统”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能(artificial intelligence,AI)技术领域,尤其涉及一种模型权重获取方法、系统以及计算设备集群、计算机可读存储介质、计算机程序产品。
背景技术
随着神经网络(neural network)的兴起,人工智能AI在许多领域取得了显著的进步。例如:在图像处理领域,基于神经网络构建的AI模型(也可称作神经网络模型)被广泛用于对图像进行目标检测。又例如,在自然语言处理领域,神经网络模型被广泛用于对文本的语义进行理解,以实现智能问答。
为了提高模型训练效率,通常可以获取在海量数据集上对神经网络模型进行预训练所得的神经网络模型的预训练权重。然后,在需要针对特定任务训练一个与预训练神经网络模型的结构相同的神经网络模型时,可以加载该预训练权重至待训练的神经网络模型,并以该预训练权重为起点,利用数据集对待训练的神经网络模型的权重进行微调(fine-tuning),从而加速训练过程。其中,微调是指在训练神经网络模型时,重用在类似的数据集上训练好的模型权重进行初始化,然后以较小的学习率进行训练。
然而,上述方法要求待训练的神经网络模型的结构与预训练的神经网络模型的结构一致,例如要求卷积核的窗口尺寸、卷积核的输入输出通道数、卷积层的数量等一致。当待训练的神经网络模型的结构与可获取的预训练的神经网络模型的结构不一致时,例如待训练的神经网络模型的规模远大于预训练的神经网络模型的规模时,难以直接加载预训练权重进行微调,或者在迭代训练过程中,用户变更了神经网络模型的结构时,难以使用历史权重继续训练,极大地影响了模型训练效率。
发明内容
本申请提供了一种模型权重获取方法,该方法通过搜索权重库中与待训练的神经网络模型的结构相似的神经网络模型的权重,并对该权重进行转换,从而获得待训练的神经网络模型可用的权重,无需从头开始进行模型训练,提高了模型训练效率。本申请还提供了上述方法对应的系统、计算设备集群、计算机可读存储介质以及计算机程序产品。
第一方面,本申请提供了一种模型权重获取方法。该方法可以由模型权重获取系统执行。在一些实施例中,该模型权重获取系统可以是软件系统。计算设备或计算设备集群通过运行该软件系统的程序代码,以执行模型权重获取方法。在另一些实施例中,该模型权重获取系统也可以是用于获取模型权重的硬件系统。
具体地,权重库中存储有多组历史权重,多组历史权重可以是预先对不同结构的神经 网络模型进行训练所得的权重。模型权重获取系统可以获取第一神经网络模型的结构信息,根据所述第一神经网络模型的结构信息搜索权重库,获得与第一神经网络模型的结构相似的第二神经网络模型的权重,即参考权重,然后对该参考权重进行转换,获得第一神经网络模型的权重。
在该方法中,即使第一神经网络模型与预训练的神经网络模型的结构不一致,也可以通过对预训练的神经网络模型中与第一神经网络模型的结构相似的第二神经网络模型的权重进行转换,从而获得第一神经网络模型可使用的权重,实现了模型权重的重复利用,无需从头开始进行模型训练,提高了模型训练效率。该方法通过重用其他训练任务训练得到的权重,可以减少大量的重复工作,避免资源浪费。
在一些可能的实现方式中,所述参考权重可以通过与所述第二神经网络模型的结构对应的参考矩阵表征,模型权重获取系统可以对参考矩阵进行转换,例如通过基于规则的转换方式进行转换,或者通过基于模型的转换方式进行转换,从而获得第一神经网络模型的权重。
其中,基于规则的转换方式具体为:模型权重获取系统对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,该目标矩阵用于表征所述第一神经网络模型的权重。基于模型的转换方式具体为:模型权重获取系统将所述参考矩阵输入权重转换模型进行转换,获得所述目标矩阵。
模型权重获取系统通过对表征参考权重的参考矩阵进行裁剪、拼接和/或复制等处理,或者是将参考矩阵输入权重转换模型,得到第一神经网络模型可用的权重,由此实现了对与第一神经网络模型的结构不一致的预训练的神经网络模型的权重的重复利用,提高了历史权重的利用率,避免了从头开始进行模型训练导致的资源浪费,缩短了训练时间。
在一些可能的实现方式中,第二神经网络模型可以包括卷积层,卷积层具有卷积核,相应地,参考矩阵包括第二神经网络模型的卷积核对应的矩阵。当所述第一神经网络模型的卷积核的窗口尺寸小于所述第二神经网络模型的卷积核的窗口尺寸,或所述第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,模型权重获取系统可以对所述参考矩阵进行裁剪,获得所述目标矩阵。当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,模型权重获取系统可以对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵。
该方法通过对第二神经网络模型的卷积核对应的矩阵进行裁剪、拼接和/复制,从而得到第一神经网络模型的权重,基于该权重进行模型训练,可以提高模型训练效率。
在一些可能的实现方式中,模型权重获取系统可以根据所述第一神经网络模型的权重对所述第一神经网络模型进行初始化,然后利用数据集对初始化后的所述第一神经网络模型进行训练。
由于模型权重获取系统采用的是参考权重转换得到的权重,具体是在其他训练任务中的权重进行转换得到的权重,因此,采用参考权重转换得到的权重初始化后的模型通常比随机初始化后的模型具有更好的效果,基于此,模型权重获取系统可以使用微调方式对采用参考权重转换得到的权重初始化后的模型进行训练,由此加速训练过程,提升模型训练效率。
在一些可能的实现方式中,当所述第一神经网络模型训练完成时,模型权重获取系统还可以将训练完成的所述第一神经网络模型的权重更新至所述权重库。如此,可以丰富权重库中数据的多样性,为其他模型的训练提供帮助。
在一些可能的实现方式中,模型权重获取系统可以根据所述第一神经网络模型的结构信息以及所述权重库中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,然后根据所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,获取所述第二神经网络网络模型的权重作为参考权重。
其中,所述第一神经网络模型的结构和所述第二神经网络模型的结构的相似度满足预设条件。相似度满足预设条件可以是相似度大于预设阈值,或者是相似度排序靠前(例如相似度排序为top n,n为正整数)。
在该方法中,模型权重获取系统可以通过确定权重库中至少一组历史权重对应的神经网络模型的结构与第一神经网络模型的结构的相似度,并基于该相似度确定与第一神经网络模型的结构相似的第二神经网络模型,获取第二神经网络模型的权重作为参考权重。通过对上述参考权重进行简单的转换,可以获得第一神经网络模型可用的权重,由此可以提升第一神经网络模型的训练效率。
在一些可能的实现方式中,模型权重获取系统可以借助图神经网络确定不同神经网络模型的结构的相似度。具体地,模型权重获取系统可以根据所述第一神经网络模型的结构信息,获得第一图结构,以及根据所述至少一组历史权重对应的神经网络模型的结构信息,获得至少一个第二图结构。然后模型权重获取系统可以根据所述第一图结构和所述至少一个第二图结构,采用图神经网络确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度。
由于图神经网络天然具有聚合图结构中邻居节点的编码表示的特性,因此,基于该图神经网络分别对不同图结构时编码,可以基于图结构中节点之间的连接关系,聚合邻居节点的编码表示,从而获得各节点更新后的编码表示,基于各节点更新后的编码表示,可以获得整个图结构的编码表示。由于更新后的编码表示考虑了节点自身及其邻居节点的特征,因此,基于上述编码表示确定的模型的结构的相似度具有较高准确性。基于此,模型权重获取系统基于相似度获取的参考权重具有较高的参考价值。
在一些可能的实现方式中,所述权重库中存储有每组历史权重对应的标签,所述标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型。模型权重获取系统在搜索权重库时,可以根据所述每组历史权重对应的标签,从权重库中确定搜索集合,该搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重。然后模型权重获取系统可以根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。
相对于直接搜索权重库,该方法先基于标签确定搜索集合,然后从搜索集合中确定参考权重,有效缩小了搜索范围,提高了搜索效率,进而提升了获取第一神经网络模型的权重的效率。
在一些可能的实现方式中,模型权重获取系统还可以结合历史搜索记录,提高搜索效 率。具体地,模型权重获取系统可以根据所述第一神经网络模型的结构信息查询所述权重库的历史搜索记录,该历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重。当所述第一神经网络模型的结构信息在历史搜索记录中命中时,模型权重获取系统可以获取搜索得到的历史权重作为参考权重。
由于无需重新执行从权重库中搜索参考权重的操作,大大提升了搜索效率,而且该方法降低了对计算资源的占用,提高了计算资源的利用率。
第二方面,本申请提供了一种模型权重获取系统。所述系统包括:
交互模块,用于获取第一神经网络模型的结构信息;
搜索模块,用于根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,所述权重库中存储有多组历史权重,所述参考权重为所述多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重;
转换模块,用于对所述参考权重进行转换,获得所述第一神经网络模型的权重。
在一些可能的实现方式中,所述参考权重通过与所述第二神经网络模型的结构对应的参考矩阵表征,所述转换模块具体用于:
对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,所述目标矩阵用于表征所述第一神经网络模型的权重;或者,
将所述参考矩阵输入权重转换模型进行转换,获得所述目标矩阵。
在一些可能的实现方式中,所述参考矩阵包括所述第二神经网络模型的卷积核对应的矩阵,所述转换模块具体用于:
当所述第一神经网络模型的卷积核的窗口尺寸小于所述第二神经网络模型的卷积核的窗口尺寸,或所述第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,对所述参考矩阵进行裁剪,获得所述目标矩阵;
当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵。
在一些可能的实现方式中,所述系统还包括:
训练模块,用于根据所述第一神经网络模型的权重对所述第一神经网络模型进行初始化,利用数据集对初始化后的所述第一神经网络模型进行训练。
在一些可能的实现方式中,所述系统还包括:
更新模块,用于当所述第一神经网络模型训练完成时,将训练完成的所述第一神经网络模型的权重更新至所述权重库。
在一些可能的实现方式中,所述搜索模块具体用于:
根据所述第一神经网络模型的结构信息以及所述权重库中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度;
根据所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,获取所述第二神经网络网络模型的权重作为参考权重,所述第一神经网络模型的结构和所述第二神经网络模型的结构的相似度满足预设条件。
在一些可能的实现方式中,所述搜索模块具体用于:
根据所述第一神经网络模型的结构信息,获得第一图结构,以及根据所述至少一组历史权重对应的神经网络模型的结构信息,获得至少一个第二图结构;
根据所述第一图结构和所述至少一个第二图结构,采用图神经网络确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度。
在一些可能的实现方式中,所述权重库中存储有每组历史权重对应的标签,所述标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型,所述搜索模块具体用于:
根据所述每组历史权重对应的标签,从权重库中确定搜索集合,所述搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重;
根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。
在一些可能的实现方式中,所述搜索模块具体用于:
根据所述第一神经网络模型的结构信息查询所述权重库的历史搜索记录,所述历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重;
当所述第一神经网络模型的结构信息在历史搜索记录中命中时,获取搜索得到的历史权重作为参考权重。
第三方面,本申请提供一种计算设备集群。所述计算设备集群包括至少一台计算设备,所述至少一台计算设备包括至少一个处理器和至少一个存储器。其中,至少一个处理器和至少一个存储器进行相互的通信。至少一个存储器中存储有计算机可读指令,至少一个处理器用于执行至少一个存储器中存储的指令,以使得计算设备集群执行如第一方面或第一方面的任一种实现方式中的模型权重获取方法。
第四方面,本申请提供一种计算机可读存储介质。所述计算机可读存储介质中存储有计算机可读指令,所述计算机可读指令在计算设备或计算设备集群上运行时,使得所述计算设备或计算设备集群执行上述第一方面或第一方面的任一种实现方式所述的模型权重获取方法。
第五方面,本申请提供了一种包含指令的计算机程序产品。该计算机程序产品包括计算机可读指令,该计算机可读指令在计算设备或计算设备集群上运行时,使得计算设备或计算设备集群执行上述第一方面或第一方面的任一种实现方式所述的模型权重获取方法。
本申请在上述各方面提供的实现方式的基础上,还可以进行进一步组合以提供更多实现方式。
附图说明
为了更清楚地说明本申请实施例的技术方法,下面将对实施例中所需使用的附图作以简单地介绍。
图1为本申请实施例提供的一种模型权重获取方法的系统架构图;
图2为本申请实施例提供的一种配置界面的界面示意图;
图3为本申请实施例提供的一种模型权重获取方法的流程图;
图4为本申请实施例提供的一种识别模型文件获得结构信息的流程示意图;
图5为本申请实施例提供的一种权重转换的示意图;
图6为本申请实施例提供的另一种权重转换的示意图;
图7为本申请实施例提供的一种模型权重获取方法的流程示意图;
图8为本申请实施例提供的一种模型权重获取方法的流程示意图;
图9为本申请实施例提供的一种计算设备集群的结构示意图。
具体实施方式
本申请实施例中的术语“第一”、“第二”仅用于描述目的,而不能理解为指示或暗示相对重要性或者隐含指明所指示的技术特征的数量。由此,限定有“第一”、“第二”的特征可以明示或者隐含地包括一个或者更多个该特征。
首先对本申请实施例中所涉及到的一些技术术语进行介绍。
神经网络是一种模仿生物神经网络(例如动物的中枢神经系统,特别是大脑)的结构和功能的数学模型或计算模型。因此,神经网络也称作神经网络模型(本申请中,为了表达简洁,如无特殊说明,神经网络模型有时也简称为模型),神经网络模型通常由大量的神经元联结进行计算。
神经元也可以称作节点(node),是神经网络模型的基本单元。节点通过连接(connection)形成神经网络模型。其中,节点一般用于表示对数据(如图像、文本)施加的数学操作,该数学操作包括但不限于卷积(convolution)、池化(pooling)、加法(add)、激活(例如为sigmoid、tanh或者ReLU)等。输入数据输入至神经网络模型后,由节点对输入数据执行相应的数学操作,然后将处理后的数据传递至该节点连接的下一节点进行处理,以此类推,最后一个节点完成数据处理,可以获得输出数据。
一些节点施加的数学操作需要设置可学习的参数,例如卷积等操作需要设置卷积核等参数,这些可学习的参数也称作权重。其中,卷积核等权重可以通过矩阵(matrix)表示。该矩阵可以是多维矩阵,也称作多维数组(array)。
以卷积核为例,当输入数据包括多个通道时,通常可以构造输入通道数与输入数据的通道数相同的卷积核,从而实现与多通道的输入数据进行互相关运算。假设输入数据的通道数为c i,那么卷积核的输入通道数也为c i。卷积核的窗口尺寸可以设置为k h×k w。每个输入通道分配一个尺寸为k h×k w的核数组,c i个核数组在输入通道维上连结得到形状为c i×k h×k w的卷积核。进一步地,输出数据也可以包括多个通道。为此,可以为每个输出通道分别创建形状为c i×k h×k w的核数组,将c o个形状为c i×k h×k w的核数组在输出通道维上连结,获得形状为c o×c i×k h×k w的卷积核。由此可见,神经网络模型的权重与神经网络模型的结构是对应的,神经网络模型的结构不同,例如卷积核的窗口尺寸不同,则用于表示神经网络模型的权重的矩阵的形状可以是不同的。
神经网络模型通常具备学习能力,神经网络模型的权重可以通过学习得到。学习神经网络模型的权重的过程也称作模型训练。为了提高模型训练效率,可以获取在海量数据集上对神经网络模型进行预训练所得的神经网络模型的预训练权重。然后,在需要针对特定任务(例如是目标检测任务、图像分类任务)训练一个与预训练神经网络模型的结构相同的神经网络模型时,可以加载该预训练权重至待训练的神经网络模型,并以该预训练权重 为起点,利用数据集对待训练的神经网络模型的权重进行微调,从而加速训练过程。
然而,相关的方法要求待训练的神经网络模型的结构与预训练的神经网络模型的结构一致。当待训练的神经网络模型的结构与可获取的预训练的神经网络模型的结构不一致时,例如待训练的神经网络模型的规模远大于预训练的神经网络模型的规模时,难以直接加载预训练权重至待训练的神经网络模型进行微调,或者在迭代训练过程中,用户变更了神经网络模型的结构时,难以使用历史权重继续训练,极大地影响了模型训练效率。
有鉴于此,本申请实施例提供了一种模型权重获取方法。该方法可以由模型权重获取系统执行。在一些实施例中,该模型权重获取系统可以是软件系统。计算设备或计算设备集群通过运行该软件系统的程序代码,以执行模型权重获取方法。在另一些实施例中,该模型权重获取系统也可以是用于获取模型权重的硬件系统。本申请实施例以模型权重获取系统为软件系统进行示例说明。
具体地,权重库中存储有多组历史权重,多组历史权重可以是预先对不同结构的神经网络模型进行训练所得的权重。模型权重获取系统可以通过搜索权重库,获得与待训练的神经网络模型的结构相似的预训练的神经网络模型的权重,即参考权重,然后对该参考权重进行转换,获得待训练的神经网络模型可用的权重。
为了便于描述,本申请实施例也可以将上述待训练的神经网络模型称作第一神经网络模型,将与待训练的神经网络模型的结构相似的神经网络模型称作第二神经网络模型。
在该方法中,即使待训练的神经网络模型(即第一神经网络模型)与预训练的神经网络模型的结构不一致,也可以通过对预训练的神经网络模型中与第一神经网络模型的结构相似的第二神经网络模型的权重进行转换,从而获得第一神经网络模型可使用的权重,实现了模型权重的重复利用,无需从头开始进行模型训练,提高了模型训练效率。而且,该方法通过重用其他训练任务训练得到的权重,可以减少大量的重复工作,避免资源(如计算资源)浪费。
本申请实施例的模型权重获取方法可以应用于多种模型训练场景。下面分别对不同模型训练场景进行介绍。
例如,该模型权重获取方法可以用于对初始神经网络模型进行模型训练的场景。具体地,第一神经网络模型可以为初始神经网络模型,该初始神经网络模型可以是大模型,例如为权重数量在百亿级别的大模型,模型权重获取系统可以从权重库中搜索与该初始神经网络模型的结构相似的神经网络模型(也称作相似神经网络模型)的权重,得到至少一组参考权重。每组参考权重可以通过与相似神经网络模型的结构对应的参考矩阵表征。该实施例中,参考矩阵中包括的权重数量可以为十亿级别。模型权重系统可以对该参考矩阵进行复制或拼接等操作,获得初始神经网络模型可用的权重,初始神经网络模型可用的权重可以通过对参考矩阵进行复制或拼接得到的目标矩阵表征。模型权重获取系统还可以基于转换得到的权重对初始神经网络模型进行初始化,然后对初始化后的神经网络模型进行训练,以加速训练过程。
又例如,该模型权重获取方法可以用于迭代训练过程中结构发生变化的神经网络模型进行模型训练的场景。针对一个任务的神经网络模型往往需要不停的迭代训练,在迭代训练过程中,用户可以选择继承往次迭代的权重来加速训练。当数据集扩增或者识别分类的 调整导致神经网络模型的结构变化时,即第一神经网络模型为迭代训练过程中结构发生变化的神经网络模型时,模型权重获取系统可以从权重库中搜索参考权重,对参考权重进行转换,获得该第一神经网络模型可用的权重。如此,避免了往次迭代的权重无法继承,用户需要从头训练的问题,提高了优化神经网络模型的自由度。
为了使得本申请的技术方案更加清楚、易于理解,下面先对本申请的模型权重获取方法的系统架构进行介绍。
参见图1所示的模型权重获取方法的系统架构示意图,如图1所示,模型权重获取系统100可以为软件系统,该软件系统可以部署在云环境10中。云环境指示云服务提供商拥有的,用于提供计算、存储、通信资源的中心计算设备集群。该中心计算设备集群包括一个或多个中心服务器。模型权重获取系统100以云服务的形式,向用户提供模型权重获取服务以供用户使用。
具体地,终端20可以与云环境10建立连接。终端20上部署有客户端(图1中未示出),该客户端可以是通用客户端如浏览器,或者是专用于获取模型权重的专用客户端。用户可以通过客户端使用模型权重获取系统100提供的云服务,以获取模型权重。
其中,模型权重获取系统100包括交互模块102、搜索模块104、转换模块106和权重库108。其中,权重库108为用于存储权重的数据库,权重库108存储有多组历史权重。该历史权重例如可以是在不同任务下对不同结构的神经网络模型进行训练所得的权重。权重库108可以是云服务提供商自行构建的数据库。在一些实施例中,模型权重获取系统100也可以不包括上述自行构建的权重库108,例如模型权重获取系统100可以直接调用第三方数据库。
接下来,对模型权重获取系统100的功能模块进行详细说明。
交互模块102用于获取第一神经网络模型的结构信息。搜索模块104用于根据所述第一神经网络模型的结构信息搜索权重库108,获得参考权重。所述参考权重为权重库108存储的多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重。转换模块106用于对所述参考权重进行转换,获得所述第一神经网络模型的权重。
其中,交互模块102提供有交互逻辑。客户端访问模型权重获取系统100时,可以加载交互模块102提供的交互逻辑,以向用户提供交互界面。该交互界面可以是图形用户界面(graphical user interface,GUI),或者是命令用户界面(command user interface,CUI)。以交互界面为GUI为例,该交互界面可以提供结构信息获取控件以及权重获取控件。用户可以通过结构信息获取控件直接输入第一神经网络模型的结构信息,模型权重获取系统100接收用户输入的第一神经网络模型的结构信息。在一些实施例中,交互界面也可以提供模型文件获取控件。用户也可以通过模型文件获取控件输入第一神经网络模型的模型文件,模型文件具体是保存模型完成推理过程所需要的信息的文件,例如模型文件保存有模型的结构信息和权重。模型权重获取系统100可以通过识别上述模型文件,获得第一神经网络模型的结构信息。当权重获取控件被触发时,模型权重获取系统100可以根据第一神经网络模型的结构信息搜索权重库108,获得参考权重,并对参考权重进行转换,获得该第一神经网络模型可用的权重。
需要说明的是,上述模型权重获取服务可以单独提供给用户使用,也可以作为模型训练服务的增值服务提供给用户使用。当模型权重获取服务作为模型训练服务的增值服务提供给用户使用时,模型权重获取系统100的功能也可以由训练平台实现。其中,训练平台可以是用于模型训练的云平台。
例如,云服务提供商可以通过提供训练平台,以向用户提供模型训练服务。当用户购买了增值服务时,则向用户下发模型权重获取服务的使用权限。用户在上述训练平台训练神经网络模型时,可以通过训练平台调用模型权重获取服务,从而获取第一神经网络模型的权重。进一步地,训练平台根据所述第一神经网络模型的权重(例如是转换后的权重)对第一神经网络模型进行初始化,然后利用数据集对初始化后的所述第一神经网络模型进行训练,以加速训练过程。
下面以训练平台执行模型权重获取方法的场景进行示例说明。参见图2所示的配置界面的示意图,该配置界面200包括模型文件获取控件202、权重获取控件204以及数据集配置控件206和训练控件208。
用户可以通过模型文件获取控件202输入第一神经网络模型的模型文件,训练平台识别该模型文件,获得第一神经网络模型的结构信息。用户触发权重获取控件204,训练平台响应于用户的操作,搜索权重库108获得参考权重,并对参考权重进行转换,获得第一神经网络模型的权重。用户还通过数据集配置控件206配置训练第一神经网络模型所采用的数据集,例如可以通过浏览目录的方式选择一个数据集,然后用户触发训练控件208,训练平台响应于用户的操作,根据获得的权重对第一神经网络模型进行初始化,然后利用配置的数据集对初始化后的第一神经网络模型进行训练。
在一些可能的实现方式中,模型权重获取系统100(或者训练平台)也可以部署在边缘环境或者终端中。其中,边缘环境指示在地理位置上距离终端(即端侧设备)较近的,用于提供计算、存储、通信资源的边缘计算设备集群。边缘计算设备集群包括一个或多个边缘计算设备,该边缘计算设备可以为服务器、计算盒子等。终端包括但不限于台式机、笔记本电脑、智能手机等。具体地,开发者可以将模型权重获取系统100的程序代码打包成软件包,然后通过分发系统如应用商店分发该软件包,以供用户使用。例如,用户可以在终端上安装软件包,终端运行该软件包,从而执行模型权重获取方法。
需要说明的是,上述实施例是以模型权重获取系统100为软件系统进行示例说明。在一些可能的实现方式中,模型权重获取系统100可以为硬件系统,例如可以包括云环境10中的一个或多个服务器。
接下来,从模型权重获取系统100的角度,对本申请实施例提供的模型权重获取方法进行详细介绍。
参见图3所示的模型权重获取方法的流程图,该方法包括:
S302:模型权重获取系统100接收第一神经网络模型的模型文件。
模型文件是指对神经网络模型的结构信息和权重进行保存的文件。其中,神经网络模型可以基于深度学习框架构建。深度学习框架将神经网络模型的计算过程抽象成数据流图(data flow graphs),该数据流图可以反映神经网络模型的结构信息,当神经网络模型运行 时,深度学习框架的执行器可以根据调度策略依次执行数据流图,从而完成计算过程。
神经网络模型采用不同的深度学习框架时,模型文件可以采用不同的格式。例如,神经网络模型采用TensorFlow框架时,模型文件通过Protobuf保存数据流图,通过SSTable保存权重。又例如,神经网络模型采用Keras框架时,模型文件通过JavaScript对象简谱(JavaScript Object Notation,JSON)保存数据流图,通过h5py保存权重。
第一神经网络模型是指待训练的神经网络模型。在一些实施例中,该待训练的神经网络模型可以是初始神经网络模型。在另一些实施例中,该待训练的神经网络模型可以是迭代训练过程中结构发生变化的神经网络模型,例如为数据集扩增导致结构发生变化的神经网络模型,或者是识别分类调整导致结构发生变化的神经网络模型。
具体实现时,模型权重获取系统100可以向用户提供交互界面,例如是GUI或者CUI等类型的交互界面,然后接收用户通过上述交互界面输入的第一神经网络模型的模型文件。在一些实施例中,模型权重获取系统100也可以内置多种神经网络模型的模型文件,然后根据用户的选择操作,将用户选中的神经网络模型确定为第一神经网络模型,并获取该第一神经网络模型的模型文件。
S304:模型权重获取系统100识别第一神经网络模型的模型文件,获得第一神经网络模型的结构信息。
具体地,第一神经网络模型的模型文件包括数据流图,该数据流图能够反映第一神经网络的结构信息,模型权重获取系统100可以识别上述数据流图,获得第一神经网络模型的结构信息。
参见图4所示的识别模型文件获得结构信息的流程示意图,如图4所示,模型文件包括数据流图,数据流图采用包括“节点”(nodes)和“边”(edges)的有向图来描述数学计算。其中,“节点”一般用于表示施加的数学操作。节点包括用于施加卷积(简称为conv)、激活(例如为ReLU)、加法(add)等不同数学操作的节点。节点也可以表示数据输入(feed in)的起点/输出(push out)的终点,或者是读取/写入持久变量(persistent variable)的终点。“边”一般表示“节点”之间的输入/输出关系。模型权重获取系统100可以通过识别上述数据流图中的“节点”和“边”,获得以数据编码形式表示的结构信息。
以数据编码形式表示的结构信息可以保存在数据编码文件中。如图4所示,t#0为数据编码文件第一行的标志,t#-1为数据编码文件最后一行的标志,数据编码文件中间的每一行分别表示节点或边。其中,“v”为节点标志,表示该行用于描述节点,“e”为边标志,表示该行用于描述边。表示节点的行中还包括节点标识(identifier,ID)和节点类型,表示边的行中还包括边开始的节点的节点ID和边结束的节点的节点ID。
在图4的示例中,数据编码文件的第2至6行表示该神经网络模型中节点标识分别为0,1,2,3,4的五个节点。节点0的节点类型编码为31,基于节点类型和节点类型编码的对应关系可知,节点0为用于施加卷积操作的节点,卷积核为1×3×3的矩阵,即卷积核包括一个输入通道,卷积核的窗口尺寸为卷积3×3。节点1、2的节点类型编码为11、16,基于节点类型和节点类型编码的对应关系可知,节点1为用于施加ReLU操作的节点,节点2为用于施加add操作的节点。节点3、4的节点类型编码为43、46,基于节点类型和节点类型编码的对应关系可知,节点3、4为数据输入的起点和数据输出的终点。
数据编码文件的第7至11行表示该神经网络模型中的边。例如,第7行表示节点0指向节点1的边,第8行表示节点0指向节点2的边,第9行表示节点1指向节点2的边。第10行表示节点3指向节点0的边,第11行表示节点2指向节点4的边。
上述S302至S304为本申请实施例中模型权重获取系统100获取第一神经网络模型的结构信息的一种实现方式,在本申请实施例其他可能的实现方式中,模型权重获取系统100也可以通过其他方式获取第一神经网络模型的结构信息。例如,模型权重获取系统100可以直接接收用户输入的第一神经网络模型的结构信息。
S306:模型权重获取系统100根据所述第一神经网络模型的结构信息搜索权重库108,获得参考权重。
其中,权重库108中存储有多组历史权重。每一组历史权重可以通过矩阵表示。多组历史权重可以是预先对不同结构的神经网络模型进行训练所得的权重。例如,多组历史权重可以包括预先对常用的神经网络模型在开源的数据集上训练好的权重,或者是项目开发过程中训练得到的权重。如此,权重库108可以保障网络结构的多样性、训练任务的多样性,能够为用户提供合适的权重。
其中,权重库108在存储历史权重时,通常是采用组(group)类型的数据对象进行存储。group可以类比为字典,包括键(key)和值(value)。其中,键通常可以为组成员的标识,值通常可以为组成员,该组成员包括表示历史权重的矩阵。例如,预先训练的神经网络模型包括用于施加卷积操作的节点,则键可以包括上述节点的标识,值可以为上述节点采用的卷积核对应的矩阵。
具体地,模型权重获取系统100可以获取权重库108中存储的权重对应的神经网络模型的结构信息,例如是从权重库108中存储的权重对应的神经网络模型的模型文件中获取结构信息,然后根据第一神经网络模型的结构信息与权重库108中存储的历史权重对应的神经网络模型的结构信息,确定第一神经网络模型的结构与至少一组历史权重对应的神经网络模型的结构的相似度。当该相似度大于预设阈值时,则确定第一神经网络模型的结构与该权重对应的神经网络模型的结构相似。为了便于描述,与第一神经网络模型的结构相似的神经网络模型称作第二神经网络模型。模型权重获取系统100将该第二神经网络模型的权重作为参考权重。参考权重为多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重。
在一些可能的实现方式中,模型权重获取系统100也可以遍历权重库108,获取权重库108中存储的每一组权重对应的神经网络模型的结构信息,然后分别确定第一神经网络模型的结构与权重库108中每一组历史权重对应的神经网络模型的结构的相似度,将与第一神经网络模型的结构的相似度最大或者相似度排序靠前(例如为top n,n为正整数)的神经网络模型确定为与第一神经网络模型的结构相似的第二神经网络模型。模型权重获取系统100获取上述第二神经网络模型的权重,从而获得参考权重。
进一步地,模型权重获取系统100也可以在相似度大于预设阈值的多个第二神经网络模型中,获取相似度最大的神经网络模型的权重,得到参考权重。其中,模型权重获取系统100可以获取与第一神经网络模型的结构的相似度满足预设条件的神经网络模型的权重作为参考权重,相似度大于预设阈值和/或相似度排序靠前为相似度满足预设条件的一些具 体实现,本申请实施例对此不作限定。
具体实现时,模型权重获取系统100可以采用图神经网络(graph neural networks,GNN)确定不同神经网络模型的结构的相似度。具体地,模型权重获取系统100可以根据神经网络模型的结构信息获得对应的图结构,然后通过图神经网络GNN对图结构进行编码,从而得到不同图结构的编码表示,该编码表示通常为向量。模型权重获取系统100可以确定不同向量之间的距离,例如是余弦距离或者是欧式距离,从而获得不同模型的结构的相似度。
神经网络模型中节点的节点类型通常是有限的,模型权重获取系统100可以预先对不同节点类型的节点进行编码,得到各节点类型的节点的编码表示。在对神经网络模型对应的图结构进行编码时,模型权重获取系统100可以获取该神经网络模型中各节点的编码表示,基于图结构中节点之间的连接关系,聚合邻居节点的编码表示,从而获得各节点更新后的编码表示,基于各节点更新后的编码表示,可以获得整个图结构的编码表示。例如,模型权重获取系统100可以将各节点更新后的编码表示进行拼接,从而获得图结构的编码表示。由于更新后的编码表示考虑了节点自身及其邻居节点的特征,因此,基于上述编码表示确定的模型的结构的相似度具有较高准确性。
上述用于确定不同神经网络模型的结构的相似度的图神经网络可以通过训练得到。具体地,模型权重获取系统100可以预先收集不同类型的神经网络模型,并为收集的神经网络模型添加类型标签,该类型标签用于标识该神经网络模型的类型,例如为darknet、残差网络(residual network,resnet)或者是retinanet等类型,然后根据收集的神经网络模型的图结构和类型标签,生成样本数据。模型权重获取系统100可以将待训练的图神经网络连接分类器,然后将样本数据输入待训练的图神经网络,图神经网络可以对样本数据中图结构进行编码,分类器可以基于图结构的编码表示进行分类,模型权重获取系统100可以根据分类结果与样本数据中的类型标签确定损失值,基于该损失值更新图神经网络的权重,以此实现对图神经网络的训练。当损失值趋于收敛或小于预设值时,模型权重获取系统100可以停止训练图神经网络,获得训练好的图神经网络,以用于对图结构进行编码。
进一步地,为了提高搜索效率,权重库108中还可以存储每组历史权重对应的标签,该标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型。相应地,模型权重获取系统100可以根据所述每组历史权重对应的标签,从权重库中确定搜索集合,该搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重,然后模型权重获取系统100可以根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。在本实施例中,模型权重获取系统100基于历史权重的标签可以有效缩小搜索范围,进而提高搜索效率。
在一些可能的实现方式中,模型权重获取系统100可以存储历史搜索记录。该历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重。基于此,模型权重获取系统100还可以根据第一神经网络模型的结构信息查询历史搜索记录,当第一神经网络模型的结构信息在历史搜索记录中命中时,可以获取历史搜索记录中与该结构信息对应的历史权重作为参考权重。
S308:模型权重获取系统100对参考权重进行转换,获得第一神经网络模型的权重。
模型权重获取系统100搜索的参考权重对应的神经网络模型的结构信息与第一神经网 络模型的结构信息不一致,第一神经网络模型难以直接加载上述参考权重,为此,模型权重获取系统100可以对参考权重进行转换,得到第一神经网络模型可以直接加载的权重。
其中,模型权重获取系统100对参考权重进行转换有多种实现方式,下面分别对不同实现方式进行详细说明。
第一种方式为基于规则的权重转换。具体地,参考权重通过与所述第二神经网络模型的结构对应的参考矩阵表征,模型权重获取系统100可以对参考矩阵进行裁剪、拼接和/或复制,获得与第一神经网络模型的结构对应的目标矩阵,该目标矩阵用于表征第一神经网络模型的权重。
其中,对参考矩阵进行裁剪是指提取参考矩阵中的部分元素,形成新的矩阵。例如可以提取矩阵的若干行或者若干例,或者是提取若干行(列)元素中的若干列(行)。模型权重获取系统100可以基于预设的约束条件,提取参考矩阵的若干行和/或若干列,从而实现对参考矩阵的裁剪。其中,约束条件可以是左对齐、右对齐、上对齐、下对齐或者中心点对齐中的一种或多种。对参考矩阵进行拼接是指将多个参考矩阵中的元素按行或列拼接。例如,参考矩阵1的窗口尺寸为3×3,参考矩阵2的窗口尺寸为3×2,则可以将参考矩阵1和参考矩阵2的元素按行拼接,得到窗口尺寸为3×5的矩阵。对参考矩阵进行复制是指提取参考矩阵中的所有元素,得到参考矩阵的副本。
参见图5所示的权重转换的示意图,参考矩阵包括第二神经网络模型的卷积核对应的矩阵,当第一神经网络模型的卷积核的窗口尺寸小于第二所述第二神经网络模型的卷积核的窗口尺寸,或第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,模型权重获取系统100可以对所述参考矩阵进行裁剪,获得目标矩阵。例如,第二神经网络模型的卷积核的窗口尺寸为5*5,则模型权重获取系统100可以裁剪第二神经网络模型的卷积核,例如是提取第二神经网络模型的卷积核中第2至4行元素,从第2至4行元素中提取第2至4列元素,从而得到窗口尺寸为3*3的卷积核,由此获得第一神经网络模型的权重。
当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,模型权重获取系统100对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵,由此获得第一神经网络模型的权重。例如,模型权重获取系统100可以将第二神经网络模型中一些卷积层的卷积核对应的参考矩阵进行复制,得到目标矩阵,将该目标矩阵作为第一神经网络模型中具有相同窗口尺寸卷积核的卷积层的权重。
第二种方式为基于模型的权重转换。具体地,模型权重获取系统100可以将所述参考权重输入权重转换模型进行转换,获得所述第一神经网络模型的权重。
具体地,在图像超分领域,卷积神经网络模型可以将低分辨率的图像转换为高分辨率的图像,如图像超分辨卷积神经网络(Image Super-Resolution Using Deep Convolutional Networks,SRCNN)模型和极深超分辨(very deep super resolution,VDSR)模型采用了卷积神经网络将低分辨率的图像转换为高分辨率的图像。模型权重获取系统100可以借鉴图像超分的处理方法,设计合适的卷积神经网络模型,并学习不同卷积核之间的关系,从而得到权重转换模型。
具体地,模型权重获取系统100可以采用监督学习的方式训练卷积神经网络模型,得 到权重转换模型。其中,卷积神经网络模型的输入可以是一个权重矩阵,卷积神经网络模型的输出是另一个权重矩阵。以该权重矩阵为卷积核对应的矩阵进行示例说明。卷积神经网络模型的输入和输出为卷积核,输入和输出的卷积核可以是不同形状的矩阵。不同形状的矩阵包括窗口尺寸不同的矩阵。
模型权重获取系统100可以获取卷积核的随机初始化值,然后获取该卷积核在迭代过程中的更新值,假设该卷积核经过了10000步迭代,且在8000步迭代后具有较好的效果,则从前2000步的更新值中提取部分元素,得到2000个第一卷积核,然后根据8000步之后的更新值获得2000个第二卷积核,以第二卷积核为第一卷积核的标签,形成训练样本。模型权重获取系统100可以将上述训练样本输入卷积神经网络模型,根据卷积神经网络模型输出的卷积核与第二卷积核计算损失值,基于该损失值,采用反向传播算法更新卷积神经网络模型的参数,从而实现对卷积神经网络模型的训练。当满足训练停止条件时,例如损失值趋于收敛,或者小于预设值时,则停止对卷积神经网络模型的训练,将训练好的卷积神经网络模型作为权重转换模型。
需要说明的是,模型权重获取系统100可以针对不同窗口尺寸的卷积核分别训练卷积神经网络模型。例如模型权重获取系统100可以训练一个将3×3的卷积核转换为5×5的卷积核的卷积神经网络模型,并训练一个将3×3的卷积核转换为7×7的卷积核的卷积神经网络模型。如此,可以通过满足不同的权重转换需求。
在一些可能的实现方式中,模型权重获取系统100也可以获取具有不同窗口尺寸的卷积核的随机初始化值和更新值,并针对每种窗口尺寸的卷积,采用相同方式提取卷积核对,该卷积核对包括第一卷积核和第二卷积核。如此,模型权重获取系统100可以获得不同窗口尺寸的卷积核对,例如,3×3的卷积核和5×5的卷积核形成的卷积核对,5×5的卷积核和7×7的卷积核形成的卷积核对,3×3的卷积核和7×7的卷积核形成的卷积核对。模型权重获取系统100可以根据上述卷积核对以及期望输出的卷积核的尺寸生成训练样本。模型权重获取系统100将上述训练样本输入卷积神经网络模型,卷积神经网络模型可以根据卷积核对中的第一卷积核和期望输出的卷积核的尺寸生成一个卷积核。卷积神经网络模型可以根据生成的卷积核以及作为标签的第二卷积核确定损失值,并基于该损失值通过反向传播算法更新卷积神经网络模型的参数,由此实现对卷积神经网络模型的训练。当满足训练停止条件时,可以停止训练,并将训练好的卷积神经网络模型作为权重转换模型。
该权重转换模型可以根据输入的卷积核以及期望输出的卷积核的尺寸,输出与期望输出的卷积核的尺寸一致的卷积核,具有较好的泛化性能。
参见图6所示的权重转换的示意图,模型权重获取系统100可以将参考权重输入上述权重转换模型,可以基于权重转换模型学习的不同权重之间的关系,对参考权重进行处理,使得处理后的权重符合第一神经网络模型加载要求。
图5、图6仅仅是权重转换的一些示例,在本申请实施例其他可能的实现方式中,模型权重获取系统100也可以通过其他规则或者其他模型对参考权重进行转换。
基于上述内容描述,本申请实施例提供了一种模型权重获取方法,在该方法中,即使待训练的第一神经网络模型与可获取的神经网络模型的结构不一致,也可以通过可获取的神经网络模型中与第一神经网络模型结构相似的第二神经网络模型的权重进行权重转换, 从而获得第一神经网络模型可使用的权重。如此实现了模型权重的重复利用,无需从头开始进行模型训练,提高了模型训练效率。而且,该方法通过重用其他训练任务训练得到的权重,可以减少大量的重复工作,避免资源浪费。
进一步地,当模型权重获取系统100的功能由训练平台实现时,训练平台还可以基于获取的第一神经网络模型的权重(具体是转换后的权重)对第一神经网络模型进行初始化,然后利用数据集对初始化后的第一神经网络模型进行训练。其中,训练平台可以采用微调方式,具体是采用较小的学习率更新权重,相较于从头开始训练,该方法可以有效提高训练效率。
在一些可能的实现方式中,当所述第一神经网络模型训练完成时,训练平台还可以将训练完成的所述第一神经网络模型的权重更新至所述权重库108。如此,可以丰富权重库108中的数据,为后续的模型权重获取提供帮助。
为了便于理解,下面结合一些具体场景,对本申请实施例的方法进行介绍。
在第一种场景中,参见图7所示的模型权重获取方法的流程示意图,用户输入待训练的第一神经网络模型,该第一神经网络模型为29层的残差神经网络模型,并且瓶颈(bottleneck)模块中conv2层的卷积核的窗口尺寸为5*5,基于此,第一神经网络模型可以表示为resnet29_5*5。训练平台首先基于上述第一神经网络模型的结构信息,从权重库108中进行搜索,获得参考权重。该参考权重具体是在ImageNet上训练的resnet50_super_3*3的权重(该模型的瓶颈模块中conv2层卷积核的窗口尺寸为3*3,且conv2的输入输出通道是普通resnet的4倍)。训练平台可以将参考权重输入权重转换模型进行权重转换,获得resnet29_5*5可用的权重。训练平台使用该权重对resnet29_5*5进行初始化,然后对初始化后的resnet29_5*5进行训练。与随机初始化相比,通过上述方法训练得到的模型精度提升了16个百分点,训练加速接近4倍。
在第二种场景中,参见图8所示的模型权重获取方法的流程示意图,用户可以输入待训练的第一神经网络模型,该第一神经网络模型为参数级别在100亿的大模型,训练平台首先基于上述第一神经网络模型的结构信息,从权重库108中进行搜索,获得参考权重。该参考权重具体是参数级别在10亿的大模型的权重,然后训练平台可以对表征参考权重的参考矩阵进行复制或拼接,得到目标矩阵,从而得到参数级别在100亿的大模型可以直接加载使用的权重。训练平台使用该权重对第一神经网络模型进行初始化,并对初始化后的第一神经网络模型进行训练,从而实现训练加速。其中,训练加速可以超过2倍。
上文结合图1至图8对本申请实施例提供的模型权重获取方法进行了详细介绍,下面将结合附图对本申请实施例提供的模型权重获取系统100进行介绍。
参见图1所示的模型权重获取系统的结构示意图,该系统100包括:
交互模块102,用于获取第一神经网络模型的结构信息;
搜索模块104,用于根据所述第一神经网络模型的结构信息搜索权重库108,获得参考权重,所述权重库108中存储有多组历史权重,所述参考权重为所述多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重;
转换模块106,用于对所述参考权重进行转换,获得所述第一神经网络模型的权重。
在一些可能的实现方式中,所述参考权重通过与所述第二神经网络模型的结构对应的参考矩阵表征,所述转换模块106具体用于:
对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,所述目标矩阵用于表征所述第一神经网络模型的权重;或者,
将所述参考矩阵输入权重转换模型进行转换,获得所述目标矩阵。
在一些可能的实现方式中,所述参考矩阵包括所述第二神经网络模型的卷积核对应的矩阵,所述转换模块106具体用于:
当所述第一神经网络模型的卷积核的窗口尺寸小于所述第二神经网络模型的卷积核的窗口尺寸,或所述第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,对所述参考矩阵进行裁剪,获得所述目标矩阵;
当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵。
在一些可能的实现方式中,所述系统100还包括:
训练模块,用于根据所述第一神经网络模型的权重对所述第一神经网络模型进行初始化,利用数据集对初始化后的所述第一神经网络模型进行训练。
在一些可能的实现方式中,所述系统100还包括:
更新模块,用于当所述第一神经网络模型训练完成时,将训练完成的所述第一神经网络模型的权重更新至所述权重库。
在一些可能的实现方式中,所述搜索模块104具体用于:
根据所述第一神经网络模型的结构信息以及所述权重库108中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度;
根据所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,获取所述第二神经网络网络模型的权重作为参考权重,所述第一神经网络模型的结构和所述第二神经网络模型的结构的相似度满足预设条件。
在一些可能的实现方式中,所述搜索模块104具体用于:
根据所述第一神经网络模型的结构信息,获得第一图结构,以及根据所述至少一组历史权重对应的神经网络模型的结构信息,获得至少一个第二图结构;
根据所述第一图结构和所述至少一个第二图结构,采用图神经网络确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度。
在一些可能的实现方式中,所述权重库108中存储有每组历史权重对应的标签,所述标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型,所述搜索模块104具体用于:
根据所述每组历史权重对应的标签,从权重库108中确定搜索集合,所述搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重;
根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。
在一些可能的实现方式中,所述搜索模块104具体用于:
根据所述第一神经网络模型的结构信息查询所述权重库108的历史搜索记录,所述历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重;
当所述第一神经网络模型的结构信息在历史搜索记录中命中时,获取搜索得到的历史权重作为参考权重。
根据本申请实施例的模型权重获取系统100可对应于执行本申请实施例中描述的方法,并且模型权重获取系统100的各个模块/单元的上述和其它操作和/或功能分别为了实现图1所示实施例中的各个方法的相应流程,为了简洁,在此不再赘述。
本申请实施例还提供一种计算设备集群。该计算设备集群包括至少一台计算设备,该至少一台计算设备中的任一台计算设备可以来自云环境或者边缘环境,也可以是终端设备。该计算设备集群具体用于实现如图1所示实施例中模型权重获取系统100的功能。
图9提供了一种计算设备集群的结构示意图,如图9所示,计算设备集群90包括多台计算设备900,计算设备900包括总线901、处理器902、通信接口903和存储器904。处理器902、存储器904和通信接口903之间通过总线901通信。
总线901可以是外设部件互连标准(peripheral component interconnect,PCI)总线或扩展工业标准结构(extended industry standard architecture,EISA)总线等。总线可以分为地址总线、数据总线、控制总线等。为便于表示,图9中仅用一条粗线表示,但并不表示仅有一根总线或一种类型的总线。
处理器902可以为中央处理器(central processing unit,CPU)、图形处理器(graphics processing unit,GPU)、微处理器(micro processor,MP)或者数字信号处理器(digital signal processor,DSP)等处理器中的任意一种或多种。
通信接口903用于与外部通信。例如,通信接口903用于获取第一神经网络模型的结构信息,或者是输出第一神经网络模型的权重等等。
存储器904可以包括易失性存储器(volatile memory),例如随机存取存储器(random access memory,RAM)。存储器904还可以包括非易失性存储器(non-volatile memory),例如只读存储器(read-only memory,ROM),快闪存储器,硬盘驱动器(hard disk drive,HDD)或固态驱动器(solid state drive,SSD)。
存储器904中存储有计算机可读指令,处理器902执行该计算机可读指令,以使得计算设备集群90执行前述模型权重获取方法(或实现前述模型权重获取系统100的功能)。
具体地,在实现图1所示系统的实施例的情况下,且图1中所描述的模型权重获取系统100的各模块如交互模块102、搜索模块104、转换模块106的功能为通过软件实现的情况下,执行图1中各模块的功能所需的软件或程序代码可以存储在计算设备集群90中的至少一个存储器904中。至少一个处理器902执行至少一个存储器904中存储的程序代码,以使得计算设备900或计算设备集群90执行前述模型权重获取方法。
本申请实施例还提供了一种计算机可读存储介质。所述计算机可读存储介质可以是计算设备能够存储的任何可用介质或者是包含一个或多个可用介质的数据中心等数据存储设备。所述可用介质可以是磁性介质,(例如,软盘、硬盘、磁带)、光介质(例如,DVD)、 或者半导体介质(例如固态硬盘)等。该计算机可读存储介质包括指令,所述指令指示计算设备或计算设备集群执行上述模型权重获取方法。
本申请实施例还提供了一种计算机程序产品。所述计算机程序产品包括一个或多个计算机可读指令。在计算设备上加载和执行所述计算机可读指令时,全部或部分地产生按照本申请实施例所述的流程或功能。所述计算机指令可以存储在计算机可读存储介质中,或者从一个计算机可读存储介质向另一计算机可读存储介质传输,例如,所述计算机指令可以从一个网站站点、计算设备或数据中心通过有线(例如同轴电缆、光纤、数字用户线(DSL))或无线(例如红外、无线、微波等)方式向另一个网站站点、计算设备或数据中心进行传输。所述计算机程序产品可以为一个软件安装包,在需要使用前述模型权重获取方法的任一方法的情况下,可以下载该计算机程序产品并在计算设备或计算设备集群上执行该计算机程序产品。
上述各个附图对应的流程或结构的描述各有侧重,某个流程或结构中没有详述的部分,可以参见其他流程或结构的相关描述。

Claims (21)

  1. 一种模型权重获取方法,其特征在于,所述方法包括:
    获取第一神经网络模型的结构信息;
    根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,所述权重库中存储有多组历史权重,所述参考权重为所述多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重;
    对所述参考权重进行转换,获得所述第一神经网络模型的权重。
  2. 根据权利要求1所述的方法,其特征在于,所述参考权重通过与所述第二神经网络模型的结构对应的参考矩阵表征,所述对所述参考权重进行转换,获得所述第一神经网络模型的权重,包括:
    对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,所述目标矩阵用于表征所述第一神经网络模型的权重;或者,
    将所述参考矩阵输入权重转换模型进行转换,获得所述目标矩阵。
  3. 根据权利要求2所述的方法,其特征在于,所述参考矩阵包括所述第二神经网络模型的卷积核对应的矩阵,所述对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,包括:
    当所述第一神经网络模型的卷积核的窗口尺寸小于所述第二神经网络模型的卷积核的窗口尺寸,或所述第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,对所述参考矩阵进行裁剪,获得所述目标矩阵;
    当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵。
  4. 根据权利要求1至3任一项所述的方法,其特征在于,所述方法还包括:
    根据所述第一神经网络模型的权重对所述第一神经网络模型进行初始化;
    利用数据集对初始化后的所述第一神经网络模型进行训练。
  5. 根据权利要求4所述的方法,其特征在于,所述方法还包括:
    当所述第一神经网络模型训练完成时,将训练完成的所述第一神经网络模型的权重更新至所述权重库。
  6. 根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,包括:
    根据所述第一神经网络模型的结构信息以及所述权重库中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度;
    根据所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,获取所述第二神经网络网络模型的权重作为参考权重,所述第一神经网络模型的结构和所述第二神经网络模型的结构的相似度满足预设条件。
  7. 根据权利要求6所述的方法,其特征在于,所述根据所述第一神经网络模型的结构信息以及所述权重库中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结 构的相似度,包括:
    根据所述第一神经网络模型的结构信息,获得第一图结构,以及根据所述至少一组历史权重对应的神经网络模型的结构信息,获得至少一个第二图结构;
    根据所述第一图结构和所述至少一个第二图结构,采用图神经网络确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度。
  8. 根据权利要求6或7所述的方法,其特征在于,所述权重库中存储有每组历史权重对应的标签,所述标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型,所述根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,包括:
    根据所述每组历史权重对应的标签,从所述权重库中确定搜索集合,所述搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重;
    根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。
  9. 根据权利要求1至5任一项所述的方法,其特征在于,所述根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,包括:
    根据所述第一神经网络模型的结构信息查询所述权重库的历史搜索记录,所述历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重;
    当所述第一神经网络模型的结构信息在历史搜索记录中命中时,获取搜索得到的历史权重作为参考权重。
  10. 一种模型权重获取系统,其特征在于,所述系统包括:
    交互模块,用于获取第一神经网络模型的结构信息;
    搜索模块,用于根据所述第一神经网络模型的结构信息搜索权重库,获得参考权重,所述权重库中存储有多组历史权重,所述参考权重为所述多组历史权重中与所述第一神经网络模型的结构相似的第二神经网络模型的权重;
    转换模块,用于对所述参考权重进行转换,获得所述第一神经网络模型的权重。
  11. 根据权利要求10所述的系统,其特征在于,所述参考权重通过与所述第二神经网络模型的结构对应的参考矩阵表征,所述转换模块具体用于:
    对所述参考矩阵进行裁剪、拼接和/或复制,获得与所述第一神经网络模型的结构对应的目标矩阵,所述目标矩阵用于表征所述第一神经网络模型的权重;或者,
    将所述参考矩阵输入权重转换模型进行转换,获得所述目标矩阵。
  12. 根据权利要求11所述的系统,其特征在于,所述参考矩阵包括所述第二神经网络模型的卷积核对应的矩阵,所述转换模块具体用于:
    当所述第一神经网络模型的卷积核的窗口尺寸小于所述第二神经网络模型的卷积核的窗口尺寸,或所述第一神经网络模型的卷积核的输入输出通道数小于所述第二神经网络模型的卷积核的输入输出通道数时,对所述参考矩阵进行裁剪,获得所述目标矩阵;
    当所述第一神经网络模型的卷积层的数量大于所述第二神经网络模型的卷积层的数量时,对所述参考矩阵进行复制和/或拼接,获得所述目标矩阵。
  13. 根据权利要求10至12任一项所述的系统,其特征在于,所述系统还包括:
    训练模块,用于根据所述第一神经网络模型的权重对所述第一神经网络模型进行初始化,利用数据集对初始化后的所述第一神经网络模型进行训练。
  14. 根据权利要求13所述的系统,其特征在于,所述系统还包括:
    更新模块,用于当所述第一神经网络模型训练完成时,将训练完成的所述第一神经网络模型的权重更新至所述权重库。
  15. 根据权利要求10至14任一项所述的系统,其特征在于,所述搜索模块具体用于:
    根据所述第一神经网络模型的结构信息以及所述权重库中的多组历史权重中至少一组历史权重对应的神经网络模型的结构信息,确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度;
    根据所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度,获取所述第二神经网络网络模型的权重作为参考权重,所述第一神经网络模型的结构和所述第二神经网络模型的结构的相似度满足预设条件。
  16. 根据权利要求15所述的系统,其特征在于,所述搜索模块具体用于:
    根据所述第一神经网络模型的结构信息,获得第一图结构,以及根据所述至少一组历史权重对应的神经网络模型的结构信息,获得至少一个第二图结构;
    根据所述第一图结构和所述至少一个第二图结构,采用图神经网络确定所述第一神经网络模型的结构与所述至少一组历史权重对应的神经网络模型的结构的相似度。
  17. 根据权利要求15或16所述的系统,其特征在于,所述权重库中存储有每组历史权重对应的标签,所述标签用于标识所述历史权重对应的神经网络模型的类型和/或所述历史权重适用的任务的类型,所述搜索模块具体用于:
    根据所述每组历史权重对应的标签,从所述权重库中确定搜索集合,所述搜索集合包括标签与所述第一神经网络模型的类型和/或所述第一神经网络模型适用的任务的类型匹配的至少一组历史权重;
    根据所述第一神经网络模型的结构信息,从所述搜索集合中确定参考权重。
  18. 根据权利要求10至14任一项所述的系统,其特征在于,所述搜索模块具体用于:
    根据所述第一神经网络模型的结构信息查询所述权重库的历史搜索记录,所述历史搜索记录包括历史搜索的神经网络模型的结构信息以及搜索得到的历史权重;
    当所述第一神经网络模型的结构信息在历史搜索记录中命中时,获取搜索得到的历史权重作为参考权重。
  19. 一种计算设备集群,其特征在于,所述计算设备集群包括至少一台计算设备,所述至少一台计算设备包括至少一个处理器和至少一个存储器,所述至少一个存储器中存储有计算机可读指令,所述至少一个处理器执行所述计算机可读指令,使得所述计算设备或所述计算设备集群执行如权利要求1至9任一项所述的方法。
  20. 一种计算机可读存储介质,其特征在于,存储有计算机可读指令,当所述计算机可读指令在计算设备或计算设备集群上运行时,所述计算设备或计算设备集群执行如权利要求1至9任一项所述的方法。
  21. 一种计算机程序产品,其特征在于,包括计算机可读指令,当所述计算机可读指令在计算设备或计算设备集群上运行时,所述计算设备或计算设备集群执行如权利要求1 至9任一项所述的方法。
PCT/CN2022/122500 2021-11-05 2022-09-29 一种模型权重获取方法以及相关系统 WO2023078009A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111307019.7 2021-11-05
CN202111307019.7A CN116090538A (zh) 2021-11-05 2021-11-05 一种模型权重获取方法以及相关系统

Publications (1)

Publication Number Publication Date
WO2023078009A1 true WO2023078009A1 (zh) 2023-05-11

Family

ID=86210691

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/122500 WO2023078009A1 (zh) 2021-11-05 2022-09-29 一种模型权重获取方法以及相关系统

Country Status (2)

Country Link
CN (1) CN116090538A (zh)
WO (1) WO2023078009A1 (zh)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977708A (zh) * 2023-06-14 2023-10-31 北京建筑大学 一种基于自适应聚合可视图的轴承智能诊断方法及系统

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
CN111126617A (zh) * 2019-12-02 2020-05-08 东软集团股份有限公司 一种选择融合模型权重参数的方法、装置及设备
WO2020160787A1 (en) * 2019-02-08 2020-08-13 Huawei Technologies Co., Ltd. Neural network quantization method using multiple refined quantized kernels for constrained hardware deployment
CN112949711A (zh) * 2021-02-26 2021-06-11 中国科学院软件研究所 面向软件定义卫星的神经网络模型可复用训练方法、装置
CN113128678A (zh) * 2020-01-15 2021-07-16 华为技术有限公司 神经网络的自适应搜索方法及装置

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109783713A (zh) * 2018-12-27 2019-05-21 北京奇安信科技有限公司 一种动态网站分类方法、系统、设备及介质
WO2020160787A1 (en) * 2019-02-08 2020-08-13 Huawei Technologies Co., Ltd. Neural network quantization method using multiple refined quantized kernels for constrained hardware deployment
CN111126617A (zh) * 2019-12-02 2020-05-08 东软集团股份有限公司 一种选择融合模型权重参数的方法、装置及设备
CN113128678A (zh) * 2020-01-15 2021-07-16 华为技术有限公司 神经网络的自适应搜索方法及装置
CN112949711A (zh) * 2021-02-26 2021-06-11 中国科学院软件研究所 面向软件定义卫星的神经网络模型可复用训练方法、装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116977708A (zh) * 2023-06-14 2023-10-31 北京建筑大学 一种基于自适应聚合可视图的轴承智能诊断方法及系统
CN116977708B (zh) * 2023-06-14 2024-04-12 北京建筑大学 一种基于自适应聚合可视图的轴承智能诊断方法及系统

Also Published As

Publication number Publication date
CN116090538A (zh) 2023-05-09

Similar Documents

Publication Publication Date Title
Xiao et al. Graph neural networks in node classification: survey and evaluation
Song et al. Unified binary generative adversarial network for image retrieval and compression
US10262272B2 (en) Active machine learning
JP7291183B2 (ja) モデルをトレーニングするための方法、装置、デバイス、媒体、およびプログラム製品
US20200167659A1 (en) Device and method for training neural network
CN116415654A (zh) 一种数据处理方法及相关设备
WO2016062044A1 (zh) 一种模型参数训练方法、装置及系统
CN111241851A (zh) 语义相似度确定方法、装置及处理设备
US11625614B2 (en) Small-world nets for fast neural network training and execution
CN110569359B (zh) 识别模型的训练及应用方法、装置、计算设备及存储介质
WO2024032096A1 (zh) 反应物分子的预测方法、训练方法、装置以及电子设备
US20190065899A1 (en) Distance Metric Learning Using Proxies
CN114329029B (zh) 对象检索方法、装置、设备及计算机存储介质
US20190228297A1 (en) Artificial Intelligence Modelling Engine
CN114358319B (zh) 基于机器学习框架的分类方法及相关装置
KR20200063041A (ko) 아키텍처 변이 기반 비지도 학습 및 선택적 오류 전파 기반 지도 학습을 이용한 신경망 학습 방법 및 장치
US9436912B1 (en) Symmetric schema instantiation method for use in a case-based reasoning system
KR20230094956A (ko) 문서 데이터의 주제어 분류를 수행하는 기법
WO2023078009A1 (zh) 一种模型权重获取方法以及相关系统
Ahmad 40 Algorithms Every Programmer Should Know: Hone your problem-solving skills by learning different algorithms and their implementation in Python
US20200167655A1 (en) Method and apparatus for re-configuring neural network
CN117634459A (zh) 目标内容生成及模型训练方法、装置、系统、设备及介质
CN114898184A (zh) 模型训练方法、数据处理方法、装置及电子设备
CN115413345A (zh) 提升和矩阵分解
CN111897832A (zh) 模型部署方法、设备及可读存储介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22889035

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2022889035

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2022889035

Country of ref document: EP

Effective date: 20240510