WO2024140455A1 - 一种生成物料清单文件的方法以及相关设备 - Google Patents

一种生成物料清单文件的方法以及相关设备 Download PDF

Info

Publication number
WO2024140455A1
WO2024140455A1 PCT/CN2023/140908 CN2023140908W WO2024140455A1 WO 2024140455 A1 WO2024140455 A1 WO 2024140455A1 CN 2023140908 W CN2023140908 W CN 2023140908W WO 2024140455 A1 WO2024140455 A1 WO 2024140455A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
model
training
authentication code
bill
Prior art date
Application number
PCT/CN2023/140908
Other languages
English (en)
French (fr)
Inventor
严敏瑞
唐文
秦钰昆
赵子俊
张宇
张瑞
Original Assignee
华为技术有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 华为技术有限公司 filed Critical 华为技术有限公司
Publication of WO2024140455A1 publication Critical patent/WO2024140455A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/0985Hyperparameter optimisation; Meta-learning; Learning-to-learn

Definitions

  • the embodiments of the present application relate to the field of artificial intelligence, and in particular to a method for generating a bill of materials file and related equipment.
  • AI models have the need for transparent auditing, risk management, and consistency verification during training, testing, deployment, and operation.
  • the first aspect of the present application provides a method for generating a bill of materials file:
  • the generation device obtains target information, which includes training dependency information, model composition information, and model metadata.
  • the training dependency information is information about training resources used to train the AI model
  • the model composition information is information about intermediate models in the process of training the AI model
  • the model metadata is attribute information of the AI model.
  • the generation device generates a bill of materials file for the AI model, and the bill of materials file includes target information.
  • the bill of materials file based on the AI model can realize the consistency verification of the AI model during the training, testing, deployment, and operation process, and avoid the AI model from being replaced.
  • the training dependency information indicates the information of the training resources for training the AI model
  • the model composition information indicates the information of the intermediate model in the process of training the AI model
  • the bill of materials file based on the AI model can also realize the transparent audit and risk management of the AI model.
  • the training dependency information also includes information of a pre-trained model for training the AI model, and/or information of initialization parameters for training the AI model, and/or information of a training script for training the AI model.
  • the training dependency information also includes information about the pre-trained model and/or information about the initialization parameters and/or information about the training script. Therefore, when a problem occurs in the AI model in actual application, if it is determined that the problem is caused by the pre-trained model, If it is caused by the model, initialization parameters or training script, it can be traced back based on the training dependency information to control the scope of risk impact.
  • the specific data included in the training dependency information is limited, which improves the feasibility of using training dependency information to support transparent auditing and risk management of AI models.
  • the information of the data subset includes one or more of the name of the data subset, the type of the data subset, the number of samples of the data subset, the storage location of the data subset, and the labeling information of the data subset.
  • the model metadata includes one or more of the identification information of the AI model, version information of the AI model, description information of the AI model, a save link of the bill of materials file of the AI model, licensing information of the AI model, information of the creator of the AI model, information of the computing power platform of the AI model, and an authentication code of the AI model.
  • model metadata the specific data included in the model metadata is limited, which improves the feasibility of model metadata supporting consistency verification of AI models during training, testing, deployment, and operation.
  • the bill of materials file of the AI model can further support the transparent audit and risk management of the AI model.
  • the specific data included in the training environment information is limited, which improves the feasibility of using the training environment information to support transparent auditing and risk management of AI models.
  • the system includes an acquisition unit for acquiring target information, the target information includes training dependency information, model composition information and model metadata, the training dependency information is information about training resources for training AI models, the model composition information is information about intermediate models in the process of training AI models, and the model metadata is attribute information of AI models.
  • the processing unit is used to generate a bill of materials file of the AI model, the bill of materials file includes target information.
  • the model composition information includes one or more of the identification information of the intermediate model, the file type of the intermediate model, the size of the intermediate model, the creation time of the intermediate model, the save path of the intermediate model, the authentication code of the intermediate model, the performance information of the intermediate model, and the authentication code of the performance information of the intermediate model.
  • the model metadata includes one or more of the identification information of the AI model, version information of the AI model, description information of the AI model, a save link of the bill of materials file of the AI model, licensing information of the AI model, information of the creator of the AI model, information of the computing power platform of the AI model, and an authentication code of the AI model.
  • the target information also includes training environment information, which is information about the software and hardware used to train the AI model.
  • the third aspect of the present application provides a generation device:
  • the fifth aspect of the present application provides a computer program product, including computer instructions or programs, which, when executed, enable the computer to execute the method in the first aspect.
  • FIG1 is a schematic diagram of a system architecture used in the method for generating a bill of materials file in the present application
  • FIG2 is a flow chart of a method for generating a bill of materials file in the present application
  • FIG3a is a schematic diagram of a method for generating a bill of materials file in the present application.
  • FIG3 b is another schematic diagram of the method for generating a bill of materials file in the present application.
  • FIG4 is a schematic diagram of an application scenario of the method for generating a bill of materials file in the present application
  • FIG5 is a schematic diagram of a structure of a generating device in the present application.
  • AI model An algorithm structure file used to describe the machine learning reasoning process, which usually contains information such as operators, connection relationships, and weight values. Machine learning inputs reasoning request data, executes the complex calculation process described by the model, and finally obtains the calculation results to realize the reasoning function.
  • Pre-trained Model A model that has been trained with a dataset, but its performance is not yet at the level for direct use.
  • Model Fine-tuning Fine-tune a given pre-trained model to turn it into a mature model that can be directly used in business applications. Compared with training from scratch, model fine-tuning will save a lot of time. Computing resources and computing time improve computing efficiency and even improve accuracy.
  • Machine Learning It is an important branch of artificial intelligence. It studies how computers can simulate or implement human learning behaviors to acquire new knowledge or skills and reorganize existing knowledge structures to continuously improve their performance. Deep learning is an important research direction in machine learning. AI models are one of the most important and valuable assets in machine learning.
  • Bill of Materials Also known as product structure, it is a list of all the materials needed to build, manufacture, or repair a product or service.
  • the bill of materials contains an extensive list of raw materials, subassemblies, intermediate assemblies, components, and parts involved in creating a product or service, along with the quantity of each part, the cost, and instructions on how to assemble them.
  • Package information common attribute information related to the entire software package
  • Code segment information partial information of a specific file
  • the present application can be applied to the scenario shown in Figure 1.
  • the generation of AI models mainly depends on model manufacturers and computing power platforms.
  • the computing power platform is responsible for providing and managing AI model training equipment, on which basic AI training or AI reasoning software stacks are installed, including AI processor acceleration libraries, training frameworks, AI application enabling development kits, etc.
  • the model manufacturer will upload the training resources required for training the AI model to the AI model training device, such as initialization parameters, training scripts, data sets, neural network structures, pre-trained models, and hyperparameters, etc., so as to perform model training iterations, and finally obtain the required AI model after iterating one or more intermediate models.
  • the information of the data subset includes, for example, one or more of the name of the data subset, the type of the data subset, the number of samples in the data subset, the storage location of the data subset, and the label information of the data subset.
  • the type of the data subset includes, for example, a data subset for training, verification, or testing.
  • the label information includes, for example, one or more of the file format of the label and the storage location of the label.
  • the file format of the label can be .jso, .xml, etc.
  • the label in the data subset used for image classification usually adopts the .json file format.
  • the model manufacturer uploads training resources to the AI model training device, and the AI model training device performs model training iterations based on the training resources.
  • the AI model training device does not obtain training dependency information, training environment information, and model composition information.
  • the model manufacturer obtains the training dependency information, training environment information, model composition information, model metadata, and training process information on its own, and signs each of the above information according to the private key of the model manufacturer, and inputs each of the above information into the AI model training device, so that the AI model training device generates a bill of materials file for the AI model, and uses the private key of the model manufacturer to sign the bill of materials file for the AI model.
  • the above training environment information and training process information are also optional.
  • the authenticity and integrity of the AI model's bill of materials file can be verified based on the model manufacturer's public key information in the model metadata and the authentication code of the AI model's bill of materials file.
  • the information of the intermediate model is obtained from the model composition information, and the information of the training resources used to train the AI model and its corresponding license information are obtained from the model dependency information.
  • the public key information of the computing power platform in the model metadata is used to verify the authenticity and integrity of the above information, thereby supporting compliance management and transparent auditing of the supply chain.
  • the acquisition unit 501 is used to acquire target information, which includes training dependency information, model composition information and model metadata.
  • the training dependency information is the information of training resources used to train the AI model
  • the model composition information is the information of the intermediate model in the process of training the AI model
  • the model metadata is the attribute information of the AI model.
  • the training dependency information includes information about a data set used to train the AI model.
  • the model metadata includes one or more of the identification information of the AI model, version information of the AI model, description information of the AI model, a save link of the bill of materials file of the AI model, licensing information of the AI model, information of the creator of the AI model, information of the computing power platform of the AI model, and an authentication code of the AI model.
  • FIG. 6 is a schematic diagram of the structure of a generating device provided in an embodiment of the present application.
  • the generating device 600 may include one or more central processing units (CPU) 601 and a memory 605.
  • the memory 605 stores one or more applications or data.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Artificial Intelligence (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computational Linguistics (AREA)
  • Software Systems (AREA)
  • Mathematical Physics (AREA)
  • Health & Medical Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computing Systems (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Document Processing Apparatus (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Stored Programmes (AREA)

Abstract

本申请实施例公开了一种生成物料清单文件的方法以及相关设备,包括:生成设备获取目标信息,目标信息包括训练依赖信息、模型组成信息以及模型元数据,训练依赖信息为用于训练AI模型的训练资源的信息,模型组成信息为训练AI模型的过程中的中间模型的信息,模型元数据为AI模型的属性信息。生成设备生成AI模型的物料清单文件,物料清单文件包括目标信息。

Description

一种生成物料清单文件的方法以及相关设备 技术领域
本申请实施例涉及人工智能领域,尤其涉及一种生成物料清单文件的方法以及相关设备。
背景技术
新一代基于深度神经网络的人工智能,是数据、算法以及算力的结合,需要汇聚大量数据,通过训练得到AI模型。在AI模型形成的过程中,所涉及的数据集、预训练模型、训练参数设置以及训练算法等涉及到不同的获取途径以及知识产权问题,并且无法确定安全性。另一方面,AI模型从训练到部署与运行的过程中涉及多方协作,极有可能因为人为操作导致AI模型偏离预期,影响业务运行。综上所述,AI模型存在透明审计、风险管理以及在训练、测试、部署与运行过程中的一致性校验的需求。
传统的应用软件可以基于软件物料清单(software bill of materials,SBOM)满足供应链管理以及风险管理需求,然而AI模型与应用软件存在较大差异,因此直接复用SBOM无法满足上述需求。
发明内容
本申请实施例提供了一种生成物料清单文件的方法以及相关设备,用于支持AI模型的透明审计、风险管理及在训练、测试、部署与运行过程中的一致性校验的需求。
本申请第一方面提供了一种生成物料清单文件的方法:
生成设备获取目标信息,目标信息包括训练依赖信息、模型组成信息以及模型元数据,训练依赖信息为用于训练AI模型的训练资源的信息,模型组成信息为训练AI模型的过程中的中间模型的信息,模型元数据为AI模型的属性信息。生成设备生成AI模型的物料清单文件,物料清单文件包括目标信息。
本申请中,由于模型元数据指示了AI模型的属性信息,因此基于AI模型的物料清单文件能够实现对AI模型在训练、测试、部署、运行的过程中的一致性校验,避免AI模型被替换。由于训练依赖信息指示了训练AI模型的训练资源的信息,模型组成信息指示了训练AI模型的过程中的中间模型的信息,因此基于AI模型的物料清单文件也能够实现AI模型的透明审计以及风险管理。
在一种可能的实现方式中,训练依赖信息包括用于训练AI模型的数据集的信息。
本申请中,训练依赖信息包括数据集的信息,因此当AI模型在实际的应用中出现问题时,若确定问题是由数据集所导致,则可以根据训练依赖信息进行追溯,从而控制风险影响范围。
在一种可能的实现方式中,训练依赖信息还包括用于训练AI模型的预训练模型的信息,和/或,用于训练AI模型的初始化参数的信息,和/或,用于训练AI模型的训练脚本的信息。
本申请中,训练依赖信息还包括预训练模型的信息和/或,初始化参数的信息,和/或,训练脚本的信息,因此当AI模型在实际的应用中出现问题时,若确定问题是由上述预训练 模型、初始化参数或训练脚本所导致,则可以根据训练依赖信息进行追溯,从而控制风险影响范围。
在一种可能的实现方式中,数据集的信息包括数据集的标识信息、数据集的获取途径、数据集的类型、数据集的用途、数据集的许可信息、数据集的大小、数据集的保存格式、数据集的保存位置、数据集的数据子集的信息、数据集的创建者的信息以及数据集的认证码中的一种或多种,预训练模型的信息包括预训练模型的标识信息、预训练模型的许可信息、预训练模型的创建者的信息以及预训练模型的认证码中的一种或多种,初始化参数的信息包括初始化参数的标识信息、初始化参数的大小、初始化参数的生成时间、初始化参数的保存链接以及初始化参数的认证码中的一种或多种,训练脚本的信息包括训练脚本的标识信息、训练脚本的文件类型、训练脚本的大小、训练脚本的保存路径、训练脚本的创建者的信息以及训练脚本的认证码中的一种或多种。
本申请中,限定了训练依赖信息所包括的具体数据,提高了训练依赖信息支持AI模型的透明审计以及风险管理的可行性。
在一种可能的实现方式中,数据子集的信息包括数据子集的名称、数据子集的类型、数据子集的样本的个数、数据子集的保存位置以及数据子集的标记的信息中的一种或多种。
在一种可能的实现方式中,模型组成信息包括中间模型的标识信息、中间模型的文件类型、中间模型的大小、中间模型的创建时间、中间模型的保存路径、中间模型的认证码、中间模型的性能信息以及中间模型的性能信息的认证码中的一种或多种。
本申请中,限定了模型组成信息所包括的具体数据,提高了模型组成信息支持AI模型的透明审计以及风险管理的可行性。
在一种可能的实现方式中,模型元数据包括AI模型的标识信息、AI模型的版本信息、AI模型的描述信息、AI模型的物料清单文件的保存链接、AI模型的许可信息、AI模型的创建者的信息、AI模型的算力平台的信息以及AI模型的认证码中的一种或多种。
本申请中,限定了模型元数据所包括的具体数据,提高了模型元数据支持AI模型在训练、测试、部署、运行的过程中的一致性校验的可行性。
在一种可能的实现方式中,目标信息还包括训练过程信息,训练过程信息为AI模型的训练过程中的处理步骤的信息。
本申请中,由于训练过程信息指示了AI模型的训练过程中的处理步骤的信息,因此AI模型的物料清单文件能够进一步支持AI模型的透明审计以及风险管理。
在一种可能的实现方式中,训练过程信息包括处理步骤的标识信息、处理步骤的类型、处理步骤的时间戳、处理步骤的参数以及经过处理步骤后得到的中间模型的性能信息的认证码中的一种或多种。
本申请中,限定了训练过程信息所包括的具体数据,提高了训练过程信息支持AI模型的透明审计以及风险管理的可行性。
在一种可能的实现方式中,目标信息还包括训练环境信息,训练环境信息为训练AI模型所使用的软件与硬件的信息。
本申请中,由于训练环境信息指示了训练AI模型所使用的软件与硬件的信息,因此AI模型的物料清单文件能够进一步支持AI模型的透明审计以及风险管理。
在一种可能的实现方式中,训练环境信息包括软件的标识信息、软件的版本信息、软件的类型、软件的用途以及软件的许可信息中的一种或多种与硬件的标识信息、硬件的型号以及硬件的类型中的一种或多种。
本申请中,限定了训练环境信息所包括的具体数据,提高了训练环境信息支持AI模型的透明审计以及风险管理的可行性。
本申请第二方面提供了一种生成设备:
包括获取单元,用于获取目标信息,目标信息包括训练依赖信息、模型组成信息以及模型元数据,训练依赖信息为用于训练AI模型的训练资源的信息,模型组成信息为训练AI模型的过程中的中间模型的信息,模型元数据为AI模型的属性信息。处理单元,用于生成AI模型的物料清单文件,物料清单文件包括目标信息。
在一种可能的实现方式中,训练依赖信息包括用于训练AI模型的数据集的信息。
在一种可能的实现方式中,训练依赖信息还包括用于训练AI模型的预训练模型的信息,和/或,用于训练AI模型的初始化参数的信息,和/或,用于训练AI模型的训练脚本的信息。
在一种可能的实现方式中,数据集的信息包括数据集的标识信息、数据集的获取途径、数据集的类型、数据集的用途、数据集的许可信息、数据集的大小、数据集的保存格式、数据集的保存位置、数据集的数据子集的信息、数据集的创建者的信息以及数据集的认证码中的一种或多种,预训练模型的信息包括预训练模型的标识信息、预训练模型的许可信息、预训练模型的创建者的信息以及预训练模型的认证码中的一种或多种,初始化参数的信息包括初始化参数的标识信息、初始化参数的大小、初始化参数的生成时间、初始化参数的保存链接以及初始化参数的认证码中的一种或多种,训练脚本的信息包括训练脚本的标识信息、训练脚本的文件类型、训练脚本的大小、训练脚本的保存路径、训练脚本的创建者的信息以及训练脚本的认证码中的一种或多种。
在一种可能的实现方式中,数据子集的信息包括数据子集的名称、数据子集的类型、数据子集的样本的个数、数据子集的保存位置以及数据子集的标记的信息中的一种或多种。
在一种可能的实现方式中,模型组成信息包括中间模型的标识信息、中间模型的文件类型、中间模型的大小、中间模型的创建时间、中间模型的保存路径、中间模型的认证码、中间模型的性能信息以及中间模型的性能信息的认证码中的一种或多种。
在一种可能的实现方式中,模型元数据包括AI模型的标识信息、AI模型的版本信息、AI模型的描述信息、AI模型的物料清单文件的保存链接、AI模型的许可信息、AI模型的创建者的信息、AI模型的算力平台的信息以及AI模型的认证码中的一种或多种。
在一种可能的实现方式中,目标信息还包括训练过程信息,训练过程信息为AI模型的训练过程中的处理步骤的信息。
在一种可能的实现方式中,训练过程信息包括处理步骤的标识信息、处理步骤的类型、处理步骤的时间戳、处理步骤的参数以及经过处理步骤后得到的中间模型的性能信息的认证码中的一种或多种。
在一种可能的实现方式中,目标信息还包括训练环境信息,训练环境信息为训练AI模型所使用的软件与硬件的信息。
在一种可能的实现方式中,训练环境信息包括软件的标识信息、软件的版本信息、软件的类型、软件的用途以及软件的许可信息中的一种或多种与硬件的标识信息、硬件的型号以及硬件的类型中的一种或多种。
本申请第三方面提供了一种生成设备:
包括存储器、收发器、处理器,其中,存储器用于存储程序。处理器用于执行存储器中的程序,处理器用于根据程序的代码中的指令,使得生成设备执行前述第一方面中的方法。
本申请第四方面提供了一种计算机可读存储介质,其上存储有计算机指令或程序,当计算机指令或程序被执行时,使得计算机执行如前述第一方面中的方法。
本申请第五方面提供了一种计算机程序产品,包括计算机指令或程序,当计算机指令或程序被执行时,使得计算机执行如前述第一方面中的方法。
附图说明
图1为本申请中的生成物料清单文件的方法所应用的系统架构的示意图;
图2为本申请中的生成物料清单文件的方法的一个流程示意图;
图3a为本申请中的生成物料清单文件的方法的一个示意图;
图3b为本申请中的生成物料清单文件的方法的另一示意图;
图4为本申请中的生成物料清单文件的方法的应用场景的示意图;
图5为本申请中的生成设备的一个结构示意图;
图6为本申请中的生成设备的另一结构示意图。
具体实施方式
下面结合附图,对本申请的实施例进行描述,显然,所描述的实施例仅仅是本申请一部分的实施例,而不是全部的实施例。本领域普通技术人员可知,随着技术发展和新场景的出现,本申请提供的技术方案对于类似的技术问题,同样适用。
本申请的说明书和权利要求书及上述附图中的术语“第一”、“第二”等是用于区别类似的对象,而不必用于描述特定的顺序或先后次序。应该理解这样使用的数据在适当情况下可以互换,以便这里描述的实施例能够以除了在这里图示或描述的内容以外的顺序实施。此外,术语“包括”和“具有”以及他们的任何变形,意图在于覆盖不排他的包含,例如,包含了一系列步骤或单元的过程、方法、系统、产品或设备不必限于清楚地列出的那些步骤或单元,而是可包括没有清楚地列出的或对于这些过程、方法、产品或设备固有的其它步骤或单元。
为了便于对本申请的理解,下面先对本申请涉及的概念进行介绍:
AI模型:用于描述机器学习推理过程的算法结构文件,通常包含算子、连接关系与权重值等信息。机器学习通过输入推理请求数据,执行模型描述的复杂计算过程,最终获得运算结果,实现推理功能。
预训练模型(Pre-trained Model):已经用数据集训练好的模型,但其性能等还未达到直接使用的程度。
模型微调(Model Fine-tuning):基于给定预训练模型进行微调(Fine Tune),将预训练模型变为可直接投入业务应用的成熟模型。相对于从头开始训练,模型微调将节省大量 计算资源和计算时间,提高了计算效率,甚至提高准确率。
机器学习(Machine Learning):是人工智能学科领域中的重要分支,研究计算机怎样模拟或实现人类的学习行为,以获取新的知识或技能,重新组织已有的知识结构使之不断改善自身的性能。深度学习则是机器学习中重要的研究方向。AI模型是机器学习中最重要也是最有价值的资产之一。
物料清单(Bill of Material):也称为产品结构,是构建、制造或维修产品或服务所需的所有物料的列表。物料清单包含创建产品或服务所涉及的原材料、子装配体、中间装配体、零部件和零件的广泛列表,以及每种零件的数量、成本和如何装配它们的说明。
AI模型形成的过程中,涉及一个或多个数据集、预训练模型、训练参数设置、训练算法等,其中所依赖的数据集、预训练模型及训练算法可能是私有、开源或外购的,涉及不同的知识产权问题,且数据集、预训练模型以及训练算法是否可能潜藏恶意样本、后门及漏洞等,都可能直接影响AI模型的安全性。另一方面,AI模型从训练到部署与运行的过程中,可能涉及数据提供方、数据加工方、预训练模型创建者、算力平台提供方、AI应用开发运行方等多个相关参与方以及AI模型训练方内部的开发、测试及应用等多个团队协作,并且AI模型训练过程涉及多伦迭代优化,会形成诸多的AI模型版本,有极大概率因为参与方的误操作或恶意注入后门等恶意样本导致最终部署应用的AI模型偏离预期,影响业务运行。
同时,产业也出现了非常强烈的AI模型透明可审计、可追溯、一致性校验相关需求。例如要求在算法设计、实现、应用等环节,提升透明性、可解释性、可理解性、可靠性、可控性,增强人工智能系统的韧性、自适应性和抗干扰能力,逐步实现可验证、可审核、可监督、可追溯、可预测、可信赖。或者要求训练数据应有完整签名或校验码、应记录部署的软硬件环境配置信息、对AI模型进行管理,提供对AI模型的可回溯方面功能、对AI模型的版本进行管理以及对版本可回溯等。在实际的AI模型从训练到部署使用过程中,涉及数据集构建团队、模型训练团队、模型测试团队、模型部署使用团队等多个开发团队协作,且最终AI模型还可能被部署到边缘环境使用,面临的风险较大,且与管理员之间弱交互,存在AI模型的训练、测试或部署使用过程中,AI模型被篡改、替换或人为误操作等部署了非预期的AI模型版本等风险,因此,存在强烈的AI模型一致性追溯需求。另一方面,在AI模型形成过程中涉及多个团队协作,可能存在内部恶意人员在数据集中插入了恶意样本等未被及时发现的情况,并且含有恶意样本的数据集可能在多个AI模型的训练过程中复用,那么如在后续的AI模型使用过程中发现AI模型出现问题,应能够追溯出导致问题的数据集,同时确定出该数据集还影响了哪些AI模型,及时更新所有受影响的AI模型,把对业务的影响降低到最低。除此之外,国际上也已经有诸多法规及标准提出类似要求,例如,欧盟AI regulation Article 12要求确保人工智能系统全生命周期运作可追溯,用途符合预期,监控高风险人工智能系统的运行。欧洲人工智能高级别专家组也要求应确保AI系统相关元素的可追溯性,包括数据、系统和商业模型。ETSI SAI GR010Traceability of AI Models要求AI模型的可追溯性包括数据的可追溯性、the processing pipeline可追溯性、模型输出、模型元数据和生命周期管理。
综上所述,AI模型存在透明审计、风险管理以及在训练、测试、部署与运行过程中的 一致性校验的需求。传统的应用软件能够基于SBOM满足供应链管理以及风险管理需求,诸多标准组织也定义了SBOM的组成规范,例如Linux Foundation制定了SPDX规范,旨在创建一种数据交换格式,以便以共同格式收集和共享有关软件包和相关内容的信息,以节省时间和提高数据准确性,使公司和组织能够共享人类可读和机器可处理的软件包元数据,以促进软件供应链管理。SPDX包括如下信息:
SPDX文档创建信息:用于将分析结果与SPDX文件的特定版本和许可证关联起来的元数据,并提供有关SPDX文件创建方式、时间和由谁创建的信息;
包信息:整个软件包相关的共性属性信息;
文件信息:软件包中可能包含的文件相关信息;
代码段信息:特定文件的部分信息;
其他license信息:捕获不在SPDX许可证列表中的相关license信息;
SPDX元素之间的关系:关于文档、包和文件如何相互关联的信息;
注释:有关SPDX文件审查的时间和由谁审查的信息。
然而AI模型与应用软件存在较大区别,直接复用SBOM无法满足上述需求。
本申请提供了一种生成物料清单文件的方法以及相关设备,用于支持AI模型的透明审计、风险管理及在训练、测试、部署与运行过程中的一致性校验的需求。
本申请可以应用于如图1所示的场景中,AI模型的产生主要依赖于模型厂商以及算力平台,算力平台负责提供并管理AI模型训练设备,上面安装了基本的AI训练或AI推理的软件栈,包括AI处理器加速库、训练框架、AI应用使能开发套件等,模型厂商会向AI模型训练设备上传训练AI模型所需要的训练资源,例如初始化参数、训练脚本、数据集、神经网络结构、预训练模型以及超参数等,从而进行模型的训练迭代,并经过一个或多个中间模型的迭代后最终得到所需的AI模型。
本申请中的生成设备为上述AI模型训练设备,请参阅图2,下面对本申请中的生成物料清单文件的方法的流程进行介绍:
201、生成设备获取目标信息,目标信息包括训练依赖信息、模型组成信息以及模型元数据,训练依赖信息为用于训练AI模型的训练资源的信息,模型组成信息为训练AI模型的过程中的中间模型的信息,模型元数据为AI模型的属性信息;
在训练开始之前,模型厂商会向AI模型训练设备上传用于训练AI模型的训练资源,请参阅图3a,AI模型训练设备根据训练资源自动抽取训练依赖信息,该训练依赖信息也即为训练资源的信息。示例性的,训练依赖信息包括用于训练AI模型的数据集的信息,可选的,训练依赖信息也可以进一步包括训练AI模型的预训练模型的信息,和/或,初始化参数的信息,和/或,训练脚本的信息。
示例性的,数据集的信息包括数据集的标识信息、数据集的获取途径、数据集的类型、数据集的用途、数据集的许可信息、数据集的大小、数据集的保存格式、数据集的保存位置、数据集中的数据子集的信息、数据集的创建者的信息以及数据集的认证码中的一种或多种。上述数据集的标识信息例如包括数据集的标识ID以及数据集的名称,数据集的获取途径例如为imagenet或者COCO,数据集的类型例如为图片、视频、语音或者文本,数据集的用途例如为用于图片分类或者用于目标检测,数据集的创建者的信息例如包括数据集 的创建时间以及创建者的公钥信息,数据集的认证码例如可以是数据集对应的散列码,或者也可以是用私钥对该散列码进行加密后的签名。
数据子集的信息例如包括数据子集的名称、数据子集的类型、数据子集中的样本的个数、数据子集的保存位置以及数据子集的标记的信息中的一种或多种,上述数据子集的类型例如包括用于训练、验证或测试的数据子集,标记的信息例如包括标记的文件格式、标记的保存位置中的一种或多种。上述标记的文件格式,可以是.jso、.xml等多种类型,例如,用于图像分类的数据子集中的标记通常采用.json的文件格式。
预训练模型的信息包括预训练模型的标识信息、预训练模型的许可信息、预训练模型的创建者的信息以及预训练模型的认证码中的一种或多种,预训练模型的创建者的信息例如包括预训练模型的创建时间以及创建者的公钥信息。初始化参数的信息包括初始化参数的标识信息、初始化参数的大小、初始化参数的生成时间、初始化参数的保存链接以及初始化参数的认证码中的一种或多种。训练脚本的信息包括训练脚本的标识信息、训练脚本的文件类型、训练脚本的大小、训练脚本的保存路径、训练脚本的创建者的信息以及训练脚本的认证码中的一种或多种。
可选的,AI模型训练设备还会自动抽取训练环境信息,训练环境信息为训练AI模型所使用的软件与硬件的信息。示例性的,训练环境信息包括软件的标识信息、软件的版本信息、软件的类型、软件的用途以及软件的许可信息中的一种或多种与硬件的标识信息、硬件的型号以及硬件的类型中的一种或多种。
在训练迭代的过程中,AI模型训练设备还会自动抽取模型组成信息,模型组成信息为训练AI模型的过程中的一个或多个中间模型的信息。示例性的,模型组成信息包括中间模型的标识信息、中间模型的文件类型、中间模型的大小、中间模型的创建时间、中间模型的保存路径、中间模型的认证码、中间模型的性能信息以及中间模型的性能信息的认证码中的一种或多种。上述性能信息可以是借助主流训练框架提供的性能记录文件,例如在Tensorflow训练框架内置了一个可视化工具开发的AI模型内部参数跟踪和可视化的调试工具Tensorboard,TensorBoard能够保存AI模型训练的性能数据,性能数据的文件格式为tfevents文件,PyTorch框架自1.2.0也开始支持TensorBoard。使用TensorBoard可以监控AI模型的各种指标的变化,如acc、loss的动态变化,可以将AI模型结构可视化,可以可视化词嵌入空间,可以分析模型性能,可以分析数据集的公平性等等。上述中间模型的文件类型,基于不同训练框架导出的模型文件类型存在差异,例如TensorFlow框架导出的模型文件包含模型参数.data文件,模型网络结构.meta文件以及映射信息.index文件,.index文件保存的是.data文件中数据和.meta文件中结构图之间的对应关系。而在pytorch框架中最常见的模型保存使用.pt或者是.pth作为模型文件扩展名。
此外,对于上述训练依赖信息、训练环境信息以及模型组成信息,AI模型训练设备均会获取其对应的认证码,该认证码可以是散列码,或者也可以是用算力平台的私钥对散列码进行加密所得到的签名,例如AI模型训练设备会获取训练依赖信息对应的散列码,或者进一步用算力平台的私钥对上述散列码进行加密从而得到签名。
模型厂商可以通过AI模型训练设备所提供的接口查看上述训练依赖信息、训练环境信息、模型组成信息以及上述每种信息对应的认证码,并进一步获通过该接口向AI模型训练 设备输入模型元数据,该模型元数据为AI模型的属性信息,示例性的,模型元数据包括AI模型的标识信息、AI模型的版本信息、AI模型的描述信息、物料清单文件的保存链接、AI模型的许可信息、AI模型的创建者的信息、训练AI模型的算力平台的信息以及AI模型的认证码中的一种或多种,上述训练AI模型的算力平台的信息包括该算力平台的公钥信息,由于AI模型的创建者为模型厂商,因此AI模型的创建者的信息包括AI模型的创建时间以及模型厂商的公钥信息。
可选的,模型厂商还会通过接口向AI模型训练设备输入训练过程信息,训练过程信息为AI模型的训练过程中的处理步骤的信息。示例性的,训练过程信息包括处理步骤的标识信息、经过一个处理步骤后得到的中间模型的性能信息的认证码、处理步骤的类型、处理步骤的时间戳以及处理步骤的参数中的一种或多种,上述处理步骤的类型例如包括数据采用或数据增强,处理步骤的参数例如包括epoch、batch、损失函数定义以及最大模型大小设置。
202、生成设备生成AI模型的物料清单文件,物料清单文件包括目标信息。
AI模型训练设备将获取到的训练依赖信息、训练环境信息、模型组成信息、模型元数据以及训练过程信息构建成为物料清单文件,该物料清单文件可以为XML格式或者JSON格式,此外AI模型训练设备还会使用模型厂商的私钥对该物料清单文件进行签名。
在一种情况中,前述预训练模型的信息中还可以包括预训练模型的物料清单文件的保存链接,预训练模型的物料清单文件与AI模型的物料清单文件所包含的信息类似,具体不再赘述。
又或者,请参阅图3b,在另外的一种实现方式中,模型厂商向AI模型训练设备上传训练资源,AI模型训练设备根据训练资源进行模型的训练迭代,然而AI模型训练设备不会获取训练依赖信息、训练环境信息以及模型组成信息,而是在AI模型训练完成之后,由模型厂商自行获取训练依赖信息、训练环境信息、模型组成信息、模型元数据以及训练过程信息,并根据模型厂商的私钥对上述每种信息进行签名,将上述每种信息输入到AI模型训练设备中,使得AI模型训练设备生成AI模型的物料清单文件,并使用模型厂商的私钥对AI模型的物料清单文件进行签名。当然,上述训练环境信息以及训练过程信息同样为可选的。
当然,在实现的实现当中,AI模型训练设备获取到训练依赖信息、训练环境信息、模型组成信息、模型元数据以及训练过程信息也可以通过其他方式实现,具体不再展开说明。
请参阅图4,在得到AI模型的物料清单文件后,能够应用于实现AI模型在训练、测试、部署、运行的一致性校验以及在AI模型的生命周期中实现透明审计以及风险管理的两大应用场景,下面分别进行介绍:
对于实现AI模型在训练、测试、部署、运行的过程中的一致性校验,例如首先根据模型元数据中的模型厂商的公钥信息以及AI模型的物料清单文件的认证码对AI模型的物料清单文件的真实性以及完整性进行校验,在AI模型发布、集成、部署、运行与维护过程中,获取模型元数据中的AI模型的认证码,从而对AI模型的完整性进行验证。也可以根据模型元数据确定AI模型是否为业务所预期部署的模型,例如对部署在端侧/边缘侧的AI模型,在加载运行之前,根据AI模型的标识信息以及版本信息校验AI模型是否正确,避免模型 被替换,必要时可进一步利用模型组成信息以及模型依赖信息对AI模型进行校验。
对于在AI模型的生命周期中实现透明审计以及风险管理,首先可以根据模型元数据中的模型厂商的公钥信息以及AI模型的物料清单文件的认证码对AI模型的物料清单文件的真实性以及完整性进行校验。其次在AI模型的集成阶段,从模型组成信息中获得中间模型的信息,从模型依赖信息中获得用于训练AI模型的训练资源的信息与其对应的许可信息,并利用模型元数据中的算力平台的公钥信息校验上述信息的真实性与完整性,从而支持供应链的合规管理及透明审计。在AI模型的部署、运行与维护阶段,基于模型依赖信息、模型组成信息、训练环境信息以及训练过程信息支持漏洞影响分析与风险管理,例如若AI模型在实际的应用过程中出现问题后,若是训练资源导致的问题,则可批量追溯出与上述训练资源存在关联的其他AI模型,从而控制影响范围,基于模型组成信息以及训练过程信息能够向模型使用方呈现模型的训练过程以及中间结果,提升模型训练过程透明性,支撑模型使用者在发现模型偏离预期时,能够基于上述信息回溯问题,发现一些人为或误操作的问题,例如,发现模型推理结果表现为过拟合,可回溯模型训练迭代次数,是否设置过大等。训练环境信息可支撑模型使用方了解和维护模型训练的软硬件环境信息,从而提升模型训练过程的可重复性,支撑其审计和发现模型训练过程及结果的准确性、分析模型偏离预期的原因等
本申请中,由于模型元数据指示了AI模型的属性信息,因此基于AI模型的物料清单文件能够实现对AI模型在训练、测试、部署、运行的过程中的一致性校验,避免AI模型被替换。由于训练依赖信息指示了训练AI模型的训练资源的信息,模型组成信息指示了训练AI模型的过程中的中间模型的信息,因此基于AI模型的物料清单文件也能够实现AI模型的透明审计以及风险管理。
上面对本申请中的生成物料清单文件的方法进行了介绍,下面对本申请中的生成设备进行介绍:
请参阅图5,本申请中的生成设备500包括获取单元501以及处理单元502。
获取单元501,用于获取目标信息,目标信息包括训练依赖信息、模型组成信息以及模型元数据,训练依赖信息为用于训练AI模型的训练资源的信息,模型组成信息为训练AI模型的过程中的中间模型的信息,模型元数据为AI模型的属性信息。
处理单元502,用于生成AI模型的物料清单文件,物料清单文件包括目标信息。
在一种可能的实现方式中,训练依赖信息包括用于训练AI模型的数据集的信息。
在一种可能的实现方式中,训练依赖信息还包括用于训练AI模型的预训练模型的信息,和/或,用于训练AI模型的初始化参数的信息,和/或,用于训练AI模型的训练脚本的信息。
在一种可能的实现方式中,数据集的信息包括数据集的标识信息、数据集的获取途径、数据集的类型、数据集的用途、数据集的许可信息、数据集的大小、数据集的保存格式、数据集的保存位置、数据集的数据子集的信息、数据集的创建者的信息以及数据集的认证码中的一种或多种,预训练模型的信息包括预训练模型的标识信息、预训练模型的许可信息、预训练模型的创建者的信息以及预训练模型的认证码中的一种或多种,初始化参数的信息包括初始化参数的标识信息、初始化参数的大小、初始化参数的生成时间、初始化参 数的保存链接以及初始化参数的认证码中的一种或多种,训练脚本的信息包括训练脚本的标识信息、训练脚本的文件类型、训练脚本的大小、训练脚本的保存路径、训练脚本的创建者的信息以及训练脚本的认证码中的一种或多种。
在一种可能的实现方式中,数据子集的信息包括数据子集的名称、数据子集的类型、数据子集的样本的个数、数据子集的保存位置、数据子集的标记的信息中的一种或多种。
在一种可能的实现方式中,模型组成信息包括中间模型的标识信息、中间模型的文件类型、中间模型的大小、中间模型的创建时间、中间模型的保存路径、中间模型的认证码、中间模型的性能信息以及中间模型的性能信息的认证码中的一种或多种。
在一种可能的实现方式中,模型元数据包括AI模型的标识信息、AI模型的版本信息、AI模型的描述信息、AI模型的物料清单文件的保存链接、AI模型的许可信息、AI模型的创建者的信息、AI模型的算力平台的信息以及AI模型的认证码中的一种或多种。
在一种可能的实现方式中,目标信息还包括训练过程信息,训练过程信息为AI模型的训练过程中的处理步骤的信息。
在一种可能的实现方式中,训练过程信息包括处理步骤的标识信息、处理步骤的类型、处理步骤的时间戳、处理步骤的参数以及经过处理步骤后得到的中间模型的性能信息的认证码中的一种或多种。
在一种可能的实现方式中,目标信息还包括训练环境信息,训练环境信息为训练AI模型所使用的软件与硬件的信息。
在一种可能的实现方式中,训练环境信息包括软件的标识信息、软件的版本信息、软件的类型、软件的用途以及软件的许可信息中的一种或多种与硬件的标识信息、硬件的型号以及硬件的类型中的一种或多种。
图6是本申请实施例提供的生成设备的结构示意图,该生成设备600可以包括一个或一个以上中央处理器(central processing units,CPU)601和存储器605,该存储器605中存储有一个或一个以上的应用程序或数据。
其中,存储器605可以是易失性存储或持久存储。存储在存储器605的程序可以包括一个或一个以上模块,每个模块可以包括一系列指令操作。更进一步地,中央处理器601可以设置为与存储器605通信,在生成设备600上执行存储器605中的一系列指令操作。
生成设备600还可以包括一个或一个以上电源602,一个或一个以上有线或无线网络接口603,一个或一个以上输入输出接口604,和/或,一个或一个以上操作系统。中央处理器601可以执行前述图2所示实施例中生成设备所执行的操作,具体此处不再赘述。
所属领域的技术人员可以清楚地了解到,为描述的方便和简洁,上述描述的系统,装置和单元的具体工作过程,可以参考前述方法实施例中的对应过程,在此不再赘述。
在本申请所提供的几个实施例中,应该理解到,所揭露的系统,装置和方法,可以通过其它的方式实现。例如,以上所描述的装置实施例仅仅是示意性的,例如,所述单元的划分,仅仅为一种逻辑功能划分,实际实现时可以有另外的划分方式,例如多个单元或组件可以结合或者可以集成到另一个系统,或一些特征可以忽略,或不执行。另一点,所显示或讨论的相互之间的耦合或直接耦合或通信连接可以是通过一些接口,装置或单元的间接耦合或通信连接,可以是电性,机械或其它的形式。
所述作为分离部件说明的单元可以是或者也可以不是物理上分开的,作为单元显示的部件可以是或者也可以不是物理单元,即可以位于一个地方,或者也可以分布到多个网络单元上。可以根据实际的需要选择其中的部分或者全部单元来实现本实施例方案的目的。
另外,在本申请各个实施例中的各功能单元可以集成在一个处理单元中,也可以是各个单元单独物理存在,也可以两个或两个以上单元集成在一个单元中。上述集成的单元既可以采用硬件的形式实现,也可以采用软件功能单元的形式实现。
所述集成的单元如果以软件功能单元的形式实现并作为独立的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干指令用以使得一台计算机设备(可以是个人计算机,服务器,或者网络设备等)执行本申请各个实施例所述方法的全部或部分步骤。而前述的存储介质包括:U盘、移动硬盘、只读存储器(ROM,read-only memory)、随机存取存储器(RAM,random access memory)、磁碟或者光盘等各种可以存储程序代码的介质。

Claims (25)

  1. 一种生成物料清单文件的方法,其特征在于,包括:
    生成设备获取目标信息,所述目标信息包括训练依赖信息、模型组成信息以及模型元数据,所述训练依赖信息为用于训练所述AI模型的训练资源的信息,所述模型组成信息为训练所述AI模型的过程中的中间模型的信息,所述模型元数据为所述AI模型的属性信息;
    所述生成设备生成所述AI模型的物料清单文件,所述物料清单文件包括所述目标信息。
  2. 根据权利要求1所述的方法,其特征在于,所述训练依赖信息包括用于训练所述AI模型的数据集的信息。
  3. 根据权利要求2所述的方法,其特征在于,所述训练依赖信息还包括用于训练所述AI模型的预训练模型的信息,和/或,用于训练所述AI模型的初始化参数的信息,和/或,用于训练所述AI模型的训练脚本的信息。
  4. 根据权利要求3所述的方法,其特征在于,所述数据集的信息包括所述数据集的标识信息、获取途径、类型、用途、许可信息、大小、保存格式、保存位置、数据子集的信息、创建者的信息以及认证码中的一种或多种,所述预训练模型的信息包括所述预训练模型的标识信息、许可信息、创建者的信息以及认证码中的一种或多种,所述初始化参数的信息包括所述初始化参数的标识信息、大小、生成时间、保存链接以及认证码中的一种或多种,所述训练脚本的信息包括所述训练脚本的标识信息、文件类型、大小、保存路径、创建者的信息以及认证码中的一种或多种。
  5. 根据权利要求4所述的方法,其特征在于,所述数据子集的信息包括所述数据子集的名称、类型、样本的个数、保存位置以及标记的信息中的一种或多种。
  6. 根据权利要求1至5中任一项所述的方法,其特征在于,所述模型组成信息包括所述中间模型的标识信息、文件类型、大小、创建时间、保存路径、认证码、性能信息以及所述性能信息的认证码中的一种或多种。
  7. 根据权利要求6所述的方法,其特征在于,所述模型元数据包括所述AI模型的标识信息、版本信息、描述信息、所述物料清单文件的保存链接、许可信息、创建者的信息、算力平台的信息以及认证码中的一种或多种。
  8. 根据权利要求7所述的方法,其特征在于,所述目标信息还包括训练过程信息,所述训练过程信息为所述AI模型的训练过程中的处理步骤的信息。
  9. 根据权利要求8所述的方法,其特征在于,所述训练过程信息包括所述处理步骤的标识信息、类型、时间戳、参数以及经过所述处理步骤后得到的所述中间模型的所述性能信息的认证码中的一种或多种。
  10. 根据权利要求9所述的方法,其特征在于,所述目标信息还包括训练环境信息,所述训练环境信息为训练所述AI模型所使用的软件与硬件的信息。
  11. 根据权利要求10所述的方法,其特征在于,所述训练环境信息包括所述软件的标识信息、版本信息、类型、用途以及许可信息中的一种或多种与所述硬件的标识信息、型号以及类型中的一种或多种。
  12. 一种生成设备,其特征在于,包括:
    获取单元,用于获取目标信息,所述目标信息包括训练依赖信息、模型组成信息以及模型元数据,所述训练依赖信息为用于训练所述AI模型的训练资源的信息,所述模型组成信息为训练所述AI模型的过程中的中间模型的信息,所述模型元数据为所述AI模型的属性信息;
    处理单元,用于生成所述AI模型的物料清单文件,所述物料清单文件包括所述目标信息。
  13. 根据权利要求12所述的生成设备,其特征在于,所述训练依赖信息包括用于训练所述AI模型的数据集的信息。
  14. 根据权利要求13所述的生成设备,其特征在于,所述训练依赖信息还包括用于训练所述AI模型的预训练模型的信息,和/或,用于训练所述AI模型的初始化参数的信息,和/或,用于训练所述AI模型的训练脚本的信息。
  15. 根据权利要求14所述的生成设备,其特征在于,所述数据集的信息包括所述数据集的标识信息、获取途径、类型、用途、许可信息、大小、保存格式、保存位置、数据子集的信息、创建者的信息以及认证码中的一种或多种,所述预训练模型的信息包括所述预训练模型的标识信息、许可信息、创建者的信息以及认证码中的一种或多种,所述初始化参数的信息包括所述初始化参数的标识信息、大小、生成时间、保存链接以及认证码中的一种或多种,所述训练脚本的信息包括所述训练脚本的标识信息、文件类型、大小、保存路径、创建者的信息以及认证码中的一种或多种。
  16. 根据权利要求15所述的生成设备,其特征在于,所述数据子集的信息包括所述数据子集的名称、类型、样本的个数、保存位置以及标记的信息中的一种或多种。
  17. 根据权利要求12至16中任一项所述的生成设备,其特征在于,所述模型组成信息包括所述中间模型的标识信息、文件类型、大小、创建时间、保存路径、认证码、性能信息以及所述性能信息的认证码中的一种或多种。
  18. 根据权利要求17所述的生成设备,其特征在于,所述模型元数据包括所述AI模型的标识信息、版本信息、描述信息、所述物料清单文件的保存链接、许可信息、创建者的信息、算力平台的信息以及认证码中的一种或多种。
  19. 根据权利要求18所述的生成设备,其特征在于,所述目标信息还包括训练过程信息,所述训练过程信息为所述AI模型的训练过程中的处理步骤的信息。
  20. 根据权利要求19所述的生成设备,其特征在于,所述训练过程信息包括所述处理步骤的标识信息、类型、时间戳、参数以及经过所述处理步骤后得到的所述中间模型的所述性能信息的认证码中的一种或多种。
  21. 根据权利要求20所述的生成设备,其特征在于,所述目标信息还包括训练环境信息,所述训练环境信息为训练所述AI模型所使用的软件与硬件的信息。
  22. 根据权利要求21所述的生成设备,其特征在于,所述训练环境信息包括所述软件的标识信息、版本信息、类型、用途以及许可信息中的一种或多种与所述硬件的标识信息、型号以及类型中的一种或多种。
  23. 一种生成设备,其特征在于,包括存储器、收发器、处理器;
    其中,所述存储器用于存储程序;
    所述处理器用于执行所述存储器中的程序,所述处理器用于根据所述程序的代码中的指令,使得所述生成设备执行权利要求1至11中任一项所述的方法。
  24. 一种计算机可读存储介质,其上存储有计算机指令或程序,其特征在于,所述计算机指令或程序被执行时,使得计算机执行如权利要求1至11中任一项所述的方法。
  25. 一种计算机程序产品,包括计算机指令或程序,其特征在于,所述计算机指令或程序被执行时,使得计算机执行如权利要求1至11中任一项所述的方法。
PCT/CN2023/140908 2022-12-31 2023-12-22 一种生成物料清单文件的方法以及相关设备 WO2024140455A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211737215.2 2022-12-31
CN202211737215.2A CN118277750A (zh) 2022-12-31 2022-12-31 一种生成物料清单文件的方法以及相关设备

Publications (1)

Publication Number Publication Date
WO2024140455A1 true WO2024140455A1 (zh) 2024-07-04

Family

ID=91643692

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/140908 WO2024140455A1 (zh) 2022-12-31 2023-12-22 一种生成物料清单文件的方法以及相关设备

Country Status (2)

Country Link
CN (1) CN118277750A (zh)
WO (1) WO2024140455A1 (zh)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150262124A1 (en) * 2014-03-14 2015-09-17 Airbus Operations (Sas) Artificial intelligence system and method for processing multilevel bills of materials
US20220253871A1 (en) * 2020-10-22 2022-08-11 Assent Inc Multi-dimensional product information analysis, management, and application systems and methods
US11436330B1 (en) * 2021-07-14 2022-09-06 Soos Llc System for automated malicious software detection
US20220318675A1 (en) * 2021-03-31 2022-10-06 aixplain, Inc. Secure environment for a machine learning model generation platform
CN115454496A (zh) * 2022-08-10 2022-12-09 深圳开源互联网安全技术有限公司 一种软件物料清单的生成方法和装置
CN115543406A (zh) * 2022-10-08 2022-12-30 鼎道智联(北京)科技有限公司 一种软件的物料清单生成方法、装置及电子设备

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150262124A1 (en) * 2014-03-14 2015-09-17 Airbus Operations (Sas) Artificial intelligence system and method for processing multilevel bills of materials
US20220253871A1 (en) * 2020-10-22 2022-08-11 Assent Inc Multi-dimensional product information analysis, management, and application systems and methods
US20220318675A1 (en) * 2021-03-31 2022-10-06 aixplain, Inc. Secure environment for a machine learning model generation platform
US11436330B1 (en) * 2021-07-14 2022-09-06 Soos Llc System for automated malicious software detection
CN115454496A (zh) * 2022-08-10 2022-12-09 深圳开源互联网安全技术有限公司 一种软件物料清单的生成方法和装置
CN115543406A (zh) * 2022-10-08 2022-12-30 鼎道智联(北京)科技有限公司 一种软件的物料清单生成方法、装置及电子设备

Also Published As

Publication number Publication date
CN118277750A (zh) 2024-07-02

Similar Documents

Publication Publication Date Title
US11539748B2 (en) Monitoring and reporting enterprise level cybersecurity remediation
US11121872B2 (en) Trusted verification of cybersecurity remediation
CN111783103B (zh) 基于Maven的依赖管理方法、装置、电子装置及存储介质
US20190303579A1 (en) Decentralized, immutable, tamper-evident, directed acyclic graphs documenting software supply-chains with cryptographically signed records of software-development life cycle state and cryptographic digests of executable code
US11106458B2 (en) System and method for distributed ledger-based software supply chain management
US20190305957A1 (en) Execution smart contracts configured to establish trustworthiness of code before execution
US20190303623A1 (en) Promotion smart contracts for software development processes
US20190306173A1 (en) Alert smart contracts configured to manage and respond to alerts related to code
US20190305959A1 (en) Announcement smart contracts to announce software release
US20190303541A1 (en) Auditing smart contracts configured to manage and document software audits
CN113892093A (zh) 受保护数据上的分布式隐私保护计算
CN111052120A (zh) 使用分布式账本的数字资产可追溯性和保证
CN103201747B (zh) 用于验证多个数据处理系统的方法和设备
Lombardi et al. From DevOps to DevSecOps is not enough. CyberDevOps: an extreme shifting-left architecture to bring cybersecurity within software security lifecycle pipeline
CN111352835B (zh) 一种智能合约的测试方法、装置、设备及存储介质
Davis et al. Reusing deep learning models: Challenges and directions in software engineering
CN111930346A (zh) 人工智能信息的处理方法、装置、电子设备和存储介质
Malik et al. Blockchain-based digital chain of custody multimedia evidence preservation framework for internet-of-things
WO2024140455A1 (zh) 一种生成物料清单文件的方法以及相关设备
Khoi Tran et al. Proml: A decentralised platform for provenance management of machine learning software systems
Di Ruscio et al. Simulating upgrades of complex systems: The case of Free and Open Source Software
Kannavara et al. A threat intelligence tool for the security development lifecycle
Garcia et al. Powerful authentication regime applicable to naval OFP integrated development (PARANOID): A vision for non-circumventable code signing and traceability for embedded avionics software
Huang et al. Highsimb: A Concrete Blockchain High Simulation with Contract Vulnerability Detection for Ethereum and Hyperledger Fabric
Du et al. A Four‐Tier Smart Contract Model with On‐Chain Upgrade

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23910381

Country of ref document: EP

Kind code of ref document: A1