WO2023108985A1 - 绿色资产的占比的识别方法及相关产品 - Google Patents

绿色资产的占比的识别方法及相关产品 Download PDF

Info

Publication number
WO2023108985A1
WO2023108985A1 PCT/CN2022/090023 CN2022090023W WO2023108985A1 WO 2023108985 A1 WO2023108985 A1 WO 2023108985A1 CN 2022090023 W CN2022090023 W CN 2022090023W WO 2023108985 A1 WO2023108985 A1 WO 2023108985A1
Authority
WO
WIPO (PCT)
Prior art keywords
text
digital asset
target
text segments
green
Prior art date
Application number
PCT/CN2022/090023
Other languages
English (en)
French (fr)
Inventor
诸世卓
邵熹
闻心远
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2023108985A1 publication Critical patent/WO2023108985A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/06Asset management; Financial planning or analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3344Query execution using natural language analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02PCLIMATE CHANGE MITIGATION TECHNOLOGIES IN THE PRODUCTION OR PROCESSING OF GOODS
    • Y02P90/00Enabling technologies with a potential contribution to greenhouse gas [GHG] emissions mitigation
    • Y02P90/30Computing systems specially adapted for manufacturing

Definitions

  • This application relates to the field of artificial intelligence technology, and specifically relates to a method for identifying the proportion of green assets and related products.
  • the embodiments of the present application provide a method for identifying the proportion of green assets and related products, which improve the identification accuracy of the proportion of green assets in digital assets.
  • the embodiment of the present application provides a method for identifying the proportion of green assets in digital assets based on similarity, the method includes:
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • the embodiment of the present application provides an identification device for the proportion of green assets, including: an acquisition unit and a processing unit;
  • the acquiring unit is configured to acquire multiple pieces of disclosure data of multiple digital assets, wherein the multiple digital assets correspond to the multiple pieces of disclosure data;
  • the processing unit is configured to determine a target digital asset among the plurality of digital assets based on the multiple pieces of disclosed data, wherein the target digital asset has a green attribute;
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • an embodiment of the present application provides an electronic device, which includes: a processor and a memory, the processor is connected to the memory, the memory is used to store computer programs, and the processor is used to execute the A computer program stored in memory, said computer program comprising instructions for performing the steps of:
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • an embodiment of the present application provides a computer-readable storage medium, wherein the computer-readable storage medium stores a computer program, and the computer program is executed by a processor so that the computer performs the following steps:
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • an embodiment of the present application provides a computer program product, the computer program product includes a non-transitory computer-readable storage medium storing a computer program, and the computer is operable to enable the computer to execute the computer program described in the first aspect.
  • the bonds with green attributes can be screened out from multiple bonds, that is, the target digital assets; then, based on the disclosure data of the target digital assets, through text segmentation And the similarity matching technology automatically identifies the proportion of green assets in the target digital assets, thus eliminating the need for manual statistics, reducing labor costs, avoiding the subjectivity of manual statistics, and increasing the proportion of green assets in digital assets recognition accuracy.
  • FIG. 1 is a schematic flowchart of a method for identifying the proportion of green assets in digital assets based on similarity provided by an embodiment of the present application;
  • FIG. 2 is a schematic flowchart of another method for identifying the proportion of green assets in digital assets based on similarity provided by the embodiment of the present application;
  • FIG. 3 is a block diagram of functional units of an identification device for the proportion of green assets provided by the embodiment of the present application;
  • FIG. 4 is a schematic structural diagram of an electronic device provided by an embodiment of the present application.
  • AI artificial intelligence
  • the embodiments of the present application may acquire and process relevant data based on artificial intelligence technology.
  • artificial intelligence is the theory, method, technology and application system that uses digital computers or machines controlled by digital computers to simulate, extend and expand human intelligence, perceive the environment, acquire knowledge and use knowledge to obtain the best results. .
  • Artificial intelligence basic technologies generally include technologies such as sensors, dedicated artificial intelligence chips, cloud computing, distributed storage, big data processing technology, operation/interaction systems, and mechatronics.
  • Artificial intelligence software technology mainly includes computer vision technology, robotics technology, biometrics technology, speech processing technology, natural language processing technology, and machine learning/deep learning.
  • the application scenario of this application is mainly to identify the proportion of green assets in bonds. Therefore, the embodiment of this application provides that the multiple digital assets involved are multiple bonds invested by investment institutions.
  • the digital assets mentioned later can all be understood as bonds.
  • the first digital asset mentioned later is a bond , no longer distinguished, the investment institution is any investment institution in the market.
  • the subsequent mention of target digital assets can be understood as bonds with green attributes.
  • the company that owns the digital asset is the company that issued the bond.
  • the disclosure data of each digital asset is the disclosure data of each bond.
  • the disclosure data of each bond generally includes the name of the bond, the company to which the bond belongs, the size of the bond, the funds of the bond, and the amount of each fund. use, etc.
  • FIG. 1 is a schematic flowchart of a method for identifying the proportion of green assets in digital assets based on similarity provided by an embodiment of the present application.
  • the method is applied to the identification device of the proportion of green assets.
  • the method includes the following steps:
  • the device for identifying the proportion of green assets can obtain multiple pieces of disclosure data of the multiple digital assets through crawler technology, wherein the multiple pieces of disclosure data are in one-to-one correspondence with the multiple digital assets.
  • 102 Based on the multiple pieces of disclosed data, determine a target digital asset among the multiple digital assets, where the target digital asset has a green attribute.
  • the number of the target digital assets can be one or more, that is to say, the multiple digital assets can be one or more digital assets with green attributes.
  • This application mainly takes one target digital asset as an example. illustrate.
  • the asset name of the first digital asset that is, the name of the bond, wherein the first digital asset is any one of the multiple digital assets; then, the first The asset name of the digital asset is identified by keyword to obtain the first keyword, wherein the number of the first keyword is one or more; finally, if the first keyword is a keyword in the preset keyword set, Then it is determined that the first digital asset is the target digital asset.
  • the preset keyword set is a set of keywords that have green attributes and are related to digital assets, that is, a set of keywords obtained by extracting keywords from the bond names of each green bond.
  • the preset Keyword sets may include: "green bonds", "carbon neutral”, "energy saving”, etc. That is, determine whether each bond has green attributes from the bond name, that is, determine whether each bond is a green bond.
  • the enterprise to which the first digital asset belongs determines the enterprise to which the first digital asset belongs, that is, identify the issuing enterprise of the bond from the disclosure data; then, determine the industry to which the enterprise belongs, for example, the The industry to which the main business product of the affiliated enterprise belongs shall be the industry to which the affiliated enterprise belongs. Finally, determine whether the industry to which it belongs is an industry in a preset industry set, and if so, determine that the first digital asset is a target digital asset, wherein the preset industry set is a set composed of industries with green attributes.
  • a preset document can be obtained, such as "Green Bond Support Project Catalogue", and then entity extraction can be performed on the preset document to obtain one or more green industries related to green, such as public transportation, sewage treatment, etc. ; Then, combine these green industries into a set to get the preset industry set. That is to determine whether the bond is a green bond from the industry to which the bond belongs.
  • the disclosed data of the first digital asset is: the type of the bond is "Guangzhou Metro Group Co., Ltd. 2020 Phase II Super-short-term Financing Bond", then it can be determined from the disclosed data that the issuing company of the bond is Guangzhou Metro Group Co., Ltd., and the industry of the issuing company is public transportation. Since public transportation is an industry in the preset industry set, the first digital asset is determined to be the target digital asset.
  • text recognition is performed on the disclosure data of the first digital asset, and a third text segment is identified from the disclosure data, wherein the third text segment is the first digital asset described in the disclosure data of the first digital asset.
  • a text paragraph with multiple uses of funds That is, find the text segment describing the various fund uses of the bond in the disclosed data through text positioning, and then extract the text segment of each fund use from the disclosed data to obtain the third text segment; further, the third text segment Perform semantic information extraction to obtain a fourth feature vector of the third text segment; then, predict the probability that the first digital asset has a green attribute according to the fourth feature vector; if the probability is greater than a second threshold, determine that the first Digital assets are target digital assets.
  • the above-mentioned method of determining whether the first digital asset has a green attribute can be realized through a trained model, which can be fasttext, textCNN, BERT model, etc., which is not limited in this application .
  • a trained model which can be fasttext, textCNN, BERT model, etc., which is not limited in this application .
  • the text used to describe the use of funds is extracted from the bond sample, and the extracted text is used as a sample, and a label is added to the sample, and the label is used to identify whether the bond sample has a green attribute.
  • bond samples with green attributes and non-green attributes should be selected respectively to ensure that the constructed samples contain positive samples and negative samples; then, based on the extracted samples and the labels of the samples Carry out model training to obtain a prediction model for predicting whether a bond has a green attribute; finally, use the prediction model to extract semantic information from the third text segment, obtain the fourth feature vector of the third text segment, and pass the prediction The model processes the fourth feature vector to predict the probability that the first digital asset has a green attribute.
  • the name of the bond or the industry to which the bond belongs can be given priority to determine whether the bond has green attributes. .
  • a machine reading comprehension (Machine Reading Comprehension, MRC) model is pre-trained, and then the disclosure data of the target digital asset is input into the MRC model for text segmentation to obtain multiple first text segments.
  • MRC Machine Reading Comprehension
  • first set the problem to be solved by MRC as "which texts are used to describe the use of funds", and the input article is the disclosure data of the target digital asset; then, encode the problem through the coding layer of the MRC model, and get The first vector; each text segment in the disclosed data is encoded by the encoding layer of the MRC model to obtain a second vector corresponding to each text segment; then, the first vector and the second vector of each text segment are input to the MRC model
  • the interaction layer interacts to obtain the similarity between the question and each text segment, and the text segment whose similarity is greater than a preset threshold is used as the plurality of first text segments.
  • the semantic information extraction model is pre-trained.
  • the training process of the semantic information extraction model is described below.
  • a training sample is constructed first. For example, extract text segments related to the use of funds from the disclosure data of multiple bonds, and label each text segment, where the label is used to identify the fact that the use of funds described in the text segment has a green attribute , where the use of the funds can be for green industries or non-green industries.
  • this initial model can be Bert model, and it comprises semantic information extraction model and multilayer perceptron (Multilayer Perceptron, MLP), wherein, the model parameter of this semantic information extraction model and multilayer perceptron are obtained by random initialization; then the training samples are input into the semantic information extraction model for semantic information extraction, and the third feature vector of the training sample is obtained; the third feature vector is input into the multi-layer perceptron, and the training sample belongs to The probability of the industry with green attributes; finally, according to the probability that the training sample belongs to the industry with green attributes and the label of the training sample, the initial model is trained, that is, the semantic information extraction model and the model parameters of the multi-layer perceptron Adjustment is made to obtain the target model, and the multi-layer perceptron in the target model is deleted to obtain the semantic information extraction model.
  • MLP Multilayer Perceptron
  • each first text segment may be input into a semantic information extraction model for semantic information extraction to obtain a first feature vector of each first text segment.
  • the target model may not be deleted, and the entire target model may be retained directly; then, each first text segment is input into the target model for probability prediction, and each first text segment
  • the probability that the described fund use belongs to the green industry if the probability is greater than the probability threshold, then determine the first text segment as the target first text segment, and the target first text segment can be directly determined without similarity calculation. Improve the identification efficiency of the proportion of green assets.
  • multiple industries with green attributes ie green industries
  • the entity is an industry
  • the multiple industries are regarded as the multiple primary industries
  • the user information is extracted from the PDF document.
  • the model performs semantic information extraction to obtain a second feature vector of each second text segment.
  • the similarity between the first feature vector of each first text segment and the second feature vector of each second text segment can be determined, for example, the similarity can be obtained by the Euclidean formula between the two feature vectors distance representation, and use the similarity between two feature vectors as the similarity between each first text segment and each second text segment.
  • each first text segment and each second text segment determine the maximum similarity corresponding to each first text segment from multiple second text segments, if the maximum similarity is greater than the threshold, the first text segment is used as the target text segment.
  • the maximum similarity is greater than the threshold, it means that the industry to which the use of funds described in the first text paragraph belongs is the first industry described in the second text paragraph corresponding to the maximum similarity, that is, the industry to which the use of funds is applied.
  • the industry is a green industry, therefore, it can be determined that the use of funds has green attributes.
  • the number of the first text segment of the target is one or more, that is to say, among the multiple fund uses of the target digital asset, the industries used by multiple fund uses have green attributes. Then, the ratio of the planned fund amount in the fund use described in the first text paragraph of each target to the total fund amount of the target digital assets can be used as the green ratio of the first text paragraph of each target; then, for each target The green proportion of a text segment is summed to obtain the proportion of green assets in the target digital assets.
  • the bonds with green attributes can be screened out from multiple bonds, that is, the target digital assets; then, based on the disclosure data of the target digital assets, through text segmentation And the similarity matching technology automatically identifies the proportion of green assets in the target digital assets (that is, the green ratio of bonds), thus eliminating the need for manual statistics, reducing labor costs, and the subjectivity of manual statistics, and improving the proportion of digital assets.
  • the recognition accuracy of the proportion of green assets is not limited to human resources, the bonds, the bonds with green attributes.
  • FIG. 2 is a schematic flowchart of another method for identifying the proportion of green assets in similarity digital assets provided by the embodiment of the present application. The same content in this embodiment as the embodiment shown in FIG. 1 will not be repeated here.
  • the method of the present embodiment comprises the following steps:
  • 201 Obtain multiple pieces of disclosure data of multiple digital assets invested by investment institutions at time t, wherein the multiple digital assets are in one-to-one correspondence with the multiple pieces of disclosure data, and time t is any time.
  • multiple pieces of disclosure data of multiple digital assets at time t are obtained based on crawler technology and time stamps.
  • the green scale can be expressed by formula (1):
  • s i is the proportion of the green assets of the target digital asset
  • V i is the net value of the target digital asset at the time t
  • R i is the target held by the investment institution at the time t. Share of digital assets.
  • the investment institution can be determined according to the method shown in Figure 2 above The green scale of holding target digital assets, and then summing the green scale of holding each target digital asset to obtain the green scale of multiple target digital assets held by the investment institution.
  • the green scale of investment institutions holding multiple target digital assets can be expressed by formula (2):
  • n is the number of multiple target digital assets
  • s i is the proportion of green assets of the i-th target digital asset among the n target digital assets
  • V i is the net value of the i-th target digital asset at time t
  • R i is the share of the i-th target digital asset held by the investment institution at the time t.
  • the bonds with green attributes can be screened out from multiple bonds, that is, the target digital assets; then, based on the disclosure data of the target digital assets, through text segmentation
  • the similarity matching technology automatically identifies the proportion of green assets in the target digital assets, thus eliminating the need for manual statistics, reducing labor costs and subjectivity of manual statistics, and improving the recognition accuracy of the proportion of green assets in digital assets . Since the calculated proportion of green assets is relatively accurate, the accuracy of the calculated scale of green bonds held by the investment institution is also relatively high, so it can accurately guide enterprises to develop in the direction of green industry and carbon neutrality. .
  • FIG. 3 is a block diagram of functional units of a device for identifying the proportion of green assets provided by the embodiment of the present application.
  • the device 300 for identifying the proportion of green assets includes: an acquisition unit 301 and a processing unit 302;
  • An acquisition unit 301 configured to acquire multiple pieces of disclosure data of multiple digital assets, wherein the multiple digital assets correspond to the multiple pieces of disclosure data;
  • a processing unit 302 configured to determine a target digital asset among the plurality of digital assets based on the multiple pieces of disclosed data, wherein the target digital asset has a green attribute;
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • each of the first text segments is respectively input into the semantic information extraction model for semantic information extraction, and before the first feature vector of each of the first text segments is obtained, the processing unit 302 is further used to :
  • the initial model is trained to obtain a target model
  • the multi-layer perceptron in the target model is deleted to obtain the semantic information extraction model.
  • the processing unit 302 in terms of determining a target first text segment among the plurality of first text segments according to the similarity between each of the first text segments and each of the second text segments, the processing unit 302, specifically for:
  • a first text segment whose corresponding maximum similarity degree is greater than a first threshold among the plurality of first text segments is used as the target first text segment.
  • the processing unit 302 is specifically configured to:
  • the first keyword belongs to the keywords in the preset keyword set, it is determined that the first digital asset is the target digital asset, wherein the preset keyword set is composed of each having a green attribute, and with A collection of keywords related to digital assets.
  • the processing unit 302 is specifically configured to:
  • data of the first digital asset determine the enterprise to which the first digital asset belongs, and the first digital asset is any one of the plurality of digital assets;
  • the industry to which the industry belongs belongs to an industry in a preset industry set, it is determined that the first digital asset is the target digital asset, wherein the preset industry set is a set composed of industries with green attributes.
  • the processing unit 302 is specifically configured to:
  • the first digital asset is used as the target digital asset.
  • the plurality of digital assets are digital assets invested by investment institutions at time t, where time t is any time; the acquiring unit 301 is also used to acquire the target at time t The net value of the digital asset; obtain the share of the target digital asset held by the investment institution at the time t;
  • the processing unit 302 is further configured to determine the green scale of the target digital asset held by the investment institution at the time t according to the net value, share, and proportion of green assets of the target digital asset;
  • the green scale satisfies the following formula:
  • s i is the proportion of green assets of the target digital asset
  • V i is the net value of the target digital asset at the time t
  • R i is the target digital asset held by the investment institution at the time t share.
  • FIG. 4 is a schematic structural diagram of an electronic device provided in an embodiment of the present application.
  • an electronic device 400 includes a transceiver 401 , a processor 402 and a memory 403 . They are connected through a bus 404 .
  • the memory 403 is used to store computer programs and data, and can transmit the data stored in the memory 403 to the processor 402 .
  • the processor 402 is used to read the computer program in the memory 403 to perform the following operations:
  • the ratio of the planned fund amount in the fund use described in the first text paragraph of the target to the total fund amount of the target digital asset is taken as the proportion of green assets in the target digital asset.
  • each of the first text segments is respectively input into the semantic information extraction model for semantic information extraction, and before the first feature vector of each of the first text segments is obtained, the processor 402 is further configured to execute Do the following:
  • the initial model is trained to obtain a target model
  • the multi-layer perceptron in the target model is deleted to obtain the semantic information extraction model.
  • the processor 402 is specifically used to do the following:
  • a first text segment whose corresponding maximum similarity degree is greater than a first threshold among the plurality of first text segments is used as the target first text segment.
  • the processor 402 is specifically configured to perform the following operations:
  • the first keyword belongs to the keywords in the preset keyword set, it is determined that the first digital asset is the target digital asset, wherein the preset keyword set is composed of each having a green attribute, and with A collection of keywords related to digital assets.
  • the processor 402 is specifically configured to perform the following operations:
  • data of the first digital asset determine the enterprise to which the first digital asset belongs, and the first digital asset is any one of the plurality of digital assets;
  • the industry to which the industry belongs belongs to an industry in a preset industry set, it is determined that the first digital asset is the target digital asset, wherein the preset industry set is a set composed of industries with green attributes.
  • the processor 402 is specifically configured to perform the following operations:
  • the first digital asset is used as the target digital asset.
  • the plurality of digital assets are digital assets invested by investment institutions at time t, where time t is any time; the processor 402 is also configured to perform the following operations:
  • the green scale satisfies the following formula:
  • s i is the proportion of green assets of the target digital asset
  • V i is the net value of the target digital asset at the time t
  • R i is the target digital asset held by the investment institution at the time t share.
  • the above-mentioned transceiver 401 can be the acquisition unit 301 of the identification device 300 of the proportion of green assets in the embodiment shown in FIG.
  • the processing unit 302 of the identification device 300 of the ratio can be the acquisition unit 301 of the identification device 300 of the proportion of green assets in the embodiment shown in FIG.
  • the electronic devices in this application may include smart phones (such as Android phones, iOS phones, Windows Phone phones, etc.), tablet computers, palmtop computers, notebook computers, mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • smart phones such as Android phones, iOS phones, Windows Phone phones, etc.
  • tablet computers palmtop computers
  • notebook computers mobile Internet devices MID (Mobile Internet Devices, referred to as: MID) or wearable devices, etc.
  • MID Mobile Internet Devices
  • wearable devices etc.
  • the above-mentioned electronic devices are only examples, not exhaustive, including but not limited to the above-mentioned electronic devices. In practical applications, the above-mentioned electronic devices may also include: smart vehicle-mounted terminals, computer equipment, and the like.
  • the embodiment of the present application also provides a computer-readable storage medium, the computer-readable storage medium stores a computer program, and the computer program is executed by a processor to implement any similarity-based Part or all of the steps in the identification method for the proportion of digital assets to green assets.
  • the computer-readable storage medium may be non-volatile or volatile.
  • the embodiment of the present application also provides a computer program product, the computer program product includes a non-transitory computer-readable storage medium storing a computer program, and the computer program is operable to enable the computer to execute the method described in the above method embodiments Part or all of the steps in any method for identifying the proportion of green assets in digital assets based on similarity.

Abstract

一种绿色资产的占比的识别方法及相关产品,涉及人工智能技术领域,该方法包括获取多个数字资产的多份披露数据;基于多份披露数据,确定目标数字资产;将目标数字资产的披露数据输入到机器阅读理解模型,得到多个第一文本段;将各第一文本段分别输入到语义信息提取模型,得到各第一文本段的第一特征向量;将多个第二文本段分别输入到语义信息提取模型,得到每个第二文本段的第二特征向量;根据各第一文本段的第一特征向量以及每个第二文本段的第二特征向量,确定目标第一文本段;将目标第一文本段所描述的资金金额与目标数字资产的总资金金额的比例,作为目标数字资产中的绿色资产的占比。

Description

绿色资产的占比的识别方法及相关产品
优先权申明
本申请要求于2021年12月15日提交中国专利局、申请号为202111538838.2,发明名称为“绿色资产的占比的识别方法及相关产品”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及人工智能技术领域,具体涉及一种绿色资产的占比的识别方法及相关产品。
背景技术
在全球气候变化合作的大背景下,各个管理部门需要厘清在自己管辖范围内的绿色和非绿色资产规模,以便更加科学的部署碳达峰和碳中和的实现路径。
投资机构在实现碳达峰和碳中和的过程中扮演着非常重要的角色,其投资标的的选择实际上将引导企业向绿色产业和碳中和达标的方向发展。
发明人意识到投资机构在统计其绿色投资比例时,由于监管和保密的需要,不能进行跨部门共享,都是由各个部门进行人工统计,主观性较强,精度低。
发明内容
本申请实施例提供了一种绿色资产的占比的识别方法及相关产品,提高数字资产中的绿色资产的占比的识别精度。
第一方面,本申请实施例提供一种基于相似度的数字资产中的绿色资产的占比的识别方法,该方法包括:
获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述多个第一产业,所述多个第一产业为具有绿色属性的产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
第二方面,本申请实施例提供一种绿色资产的占比的识别装置,包括:获取单元和处理单元;
所述获取单元,用于获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
所述处理单元,用于基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
第三方面,本申请实施例提供一种电子设备,其中,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序包括用于执行以下步骤的指令:
获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
第四方面,本申请实施例提供一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以使得计算机执行以下步骤的指令:
获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
第五方面,本申请实施例提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机可操作来使计算机执行如第一方面所述的方法。
实施本申请实施例,具有如下有益效果:
可以看出,在本申请实施例中,获取债券的披露数据,即可从多个债券中筛选出具有绿色属性的债券,即目标数字资产;然后,基于目标数字资产的披露数据,通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比,从而无需人工统计,减少了人力成本,以及避免了人工统计的主观性,提高了数字资产中的绿色资产的占比的识别精度。
附图说明
为了更清楚地说明本申请实施例中的技术方案,下面将对实施例描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据这些附图获得其他的附图。
图1为本申请实施例提供的一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图;
图2为本申请实施例提供的另一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图;
图3为本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图;
图4为本申请实施例提供的一种电子设备的结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
本申请实施例可以基于人工智能技术对相关的数据进行获取和处理。其中,人工智能(Artificial Intelligence,AI)是利用数字计算机或者数字计算机控制的机器模拟、延伸和扩展人的智能,感知环境、获取知识并使用知识获得最佳结果的理论、方法、技术及应用系统。
人工智能基础技术一般包括如传感器、专用人工智能芯片、云计算、分布式存储、大数据处理技术、操作/交互系统、机电一体化等技术。人工智能软件技术主要包括计算机视觉技术、机器人技术、生物识别技术、语音处理技术、自然语言处理技术以及机器学习/深度学习等几大方向。
首先说明,本申请的应用场景主要是识别出债券中的绿色资产的占比。因此,本申请实施例提供涉及的多个数字资产为投资机构所投资的多个债券,后续所提到的数字资产均可以理解为债券,比如,后续提到的第一数字资产,就是一个债券,不再区分,该投资机构为市场上的任意一个投资机构。另外,后续提到目标数字资产可以理解为具有绿色属性的债券。数字资产的所属企业,即是债券的发行企业。每个数字资产的披露数据,即为每个债券的披露数据,其中,每个债券的披露数据一般包含债券的名称、债券所属的企业、债券的规模、债券的各项资金以及各项资金的用途,等等。
参阅图1,图1为本申请实施例提供的一种基于相似度的数字资产中的绿色资产的占比的识别方法的流程示意图。该方法应用于绿色资产的占比的识别装置。该方法包括以下步骤内容:
101:获取多个数字资产的多份披露数据。
示例性的,绿色资产的占比的识别装置可通过爬虫技术获取该多个数字资产的多份披露数据,其中,该多份披露数据与该多个数字资产一一对应。
102:基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性。
首先说明,该目标数字资产的数量可以为一个或多个,也就是说,该多个数字资产具有绿色属性的数字资产可以为一个或多个,本申请中主要以一个目标数字资产为例进行说明。
示例性的,根据第一数字资产的披露数据,确定第一数字资产的资产名称,即债券名称, 其中,该第一数字资产为该多个数字资产中的任意一个;然后,对该第一数字资产的资产名称进行关键词识别,得到第一关键词,其中,该第一关键词的数量为一个或多个;最后,若该第一关键词为预设关键词集合中的关键词,则确定该第一数字资产为该目标数字资产。该预设关键词集合是由各个具有绿色属性且与数字资产相关的关键词构成的集合,即对各个绿色债券的债券名称进行关键词提取所得到的关键词构成的集合,比如,该预设关键词集合可以包括:“绿色债券”、“碳中和”,“节能”,等等。即从债券名称确定每个债券是否具有绿色属性,也就是确定每个债券是否为绿色债券。
示例性的,根据第一数字资产的披露数据,确定该第一数字资产的所属企业,即从披露数据中识别出该债券的发行企业;然后,确定该所属企业的所属行业,比如,可以将该所属企业的主营业务产品所属的行业,作为该所属企业的所属行业。最后,确定该所属行业是否为预设行业集合中的行业,若是,则确定该第一数字资产为目标数字资产,其中,该预设行业集合是由各个具有绿色属性的行业组成的集合。具体的,可获取预设文档,比如,《绿色债券支持项目目录》,然后对该预设文档进行实体提取,可得到一个或多个与绿色相关的绿色行业,例如,公共交通、污水处理等;然后,将这些绿色行业组成集合得到该预设行业集合。即从债券的所属行业确定出债券是否为绿色债券。
举例来说,若第一数字资产的披露数据为:债券的类型为“广州地铁集团有限公司2020年度第二期超短期融资券”,则从该披露数据中确定该债券的发行公司为广州地铁集团有限公司,且该发行公司的所属行业为公共交通。由于公共交通为预设行业集合中的行业,则确定该第一数字资产为目标数字资产。
示例性的,对第一数字资产的披露数据进行文本识别,从该披露数据中识别出第三文本段,其中,第三文本段为第一数字资产的披露数据中描述该第一数字资产的多项资金用途的文本段。即通过文本定位找到披露数据中描述该债券的各项资金用途的文本段,然后将各项资金用途的文本段从披露数据中提取出来,得到第三文本段;进一步的,对第三文本段进行语义信息提取,得到该第三文本段的第四特征向量;然后,根据该第四特征向量预测该第一数字资产具有绿色属性的概率;若该概率大于第二阈值,则确定该第一数字资产为目标数字资产。
在本申请的一个实施方式中,上述确定第一数字资产是否具有绿色属性的方式可以通过训练好的模型实现,该模型可以为fasttext,textCNN,BERT模型,等等,本申请对此不做限定。具体的,从债券样本中提取出用于描述资金用途的文本,将提取出的文本作为样本,并为该样本添加标签,该标签用于标识该债券样本是否具有绿色属性。应理解,在选择债券样 本时,应该分别选择具有绿色属性和非绿色属性的债券样本,以保证构造出的样本中包含有正样本和负样本;然后,基于提取出的样本以及该样本的标签进行模型训练,得到一个用于预测债券是否有绿色属性的预测模型;最后,通过该预测模型对第三文本段进行语义信息提取,得到该第三文本段的第四特征向量,并通过该预测模型对该第四特征向量进行处理,预测出该第一数字资产具有绿色属性的概率。
应说明,在实际应用中,可以优先选择债券名称或者债券的所属行业确定债券是否具有绿色属性,当这两种方式都无法确定时,则再通过模型预测的方式,去预测债券是否具有绿色属性。
103:将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途。
示例性的,预先训练好机器阅读理解(Machine Reading Comprehension,MRC)模型,然后将该目标数字资产的披露数据输入MRC模型中进行文本分割,得到多个第一文本段。
具体的,首先设定MRC所要解决的问题为“哪些文本是用来描述资金的用途的”,输入的文章为目标数字资产的披露数据;然后,通过MRC模型的编码层对问题进行编码,得到第一向量;通过MRC模型的编码层对披露数据中的各个文本段进行编码,得到与各个文本段对应的第二向量;然后,将第一向量和各个文本段的第二向量输入到MRC模型的交互层进行交互,得到问题和各个文本段之间的相似度,将相似度大于预设阈值的文本段作为该多个第一文本段。
举例来说,通过MRC模型对目标数字资产的披露数据进行文本分割,可得到如表1所示的多个第一文本段。
表1:
Figure PCTCN2022090023-appb-000001
Figure PCTCN2022090023-appb-000002
104:将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量。
其中,该语义信息提取模型是预先训练好的。下面描述对该语义信息提取模型得训练过程。
示例性的,首先构建训练样本。例如,从多个债券的披露数据中提取出与资金用途相关的文本段,并为每个文本段打上标签,其中,该标签用于标识该文本段所描述的资金用途具有绿色属性的实际情况,其中,该资金用途可以为用于绿色产业或者为非绿色产业。例如,表1中示出的资金用途:“用于雅砻江卡拉水电站项目建设”用于的产业项目为“雅砻江卡拉水电站项目建设”,则该资金用途具有绿色属性,即该资金用于用于绿色产业;然后,将打上有标签的各个文本段作为训练样本。进一步的,构建初始模型,其中,该初始模型可以为Bert模型,其包括语义信息提取模型和多层感知器(Multilayer Perceptron,MLP),其中,该语义信息提取模型和多层感知器的模型参数都是随机初始化得到;然后将训练样本输入到该语义信息提取模型进行语义信息提取,得到训练样本的第三特征向量;将该第三特征向量输入到多层感知器,得到该训练样本属于具有绿色属性的产业的概率;最后,根据该训练样本属于具有绿色属性的产业的概率,以及该训练样本的标签,对该初始模型进行训练,即对语义信息提取模型以及多层感知器的模型参数进行调整,得到目标模型,将该目标模型中的多层感知器删除,得到语义信息提取模型。
示例性的,可以将每个第一文本段输入到语义信息提取模型进行语义信息提取,得到每个第一文本段的第一特征向量。
在实际应用中,在得到目标模型之后,也可以不对目标模型进行删除,直接保留整个目标模型;然后,将每个第一文本段输入到目标模型中进行概率预测,得到每个第一文本段描述的资金用途属于绿色产业的概率,若该概率大于概率阈值,则确定该第一文本段为目标第一文本段,不需要进行相似度的计算,即可直接确定出目标第一文本段,提高绿色资产的占 比的识别效率。
105:将多个第二文本段分别输入到所述语义信息提取模型对进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业。
示例性的,获取多个具有绿色属性的产业,即绿色产业。具体的,对《绿色债券支持项目目录》PDF文档进行实体(该实体为产业)识别,得到多个产业,将该多个产业作为该多个第一产业,并从该PDF文档中提取出用于描述该多个第一产业的多个第二文本段,其中,多个第二文本段用于该多个第一产业;同样的,将每个第二文本段输入到上述的语义信息提取模型进行语义信息提取,得到每个第二文本段的第二特征向量。
106:根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度。
示例性的,可以确定每个第一文本段的第一特征向量与每个第二文本段的第二特征向量之间的相似度,比如,该相似度可以通过两个特征向量之间的欧式距离表征,并将两个特征向量之间的相似度作为每个第一文本段与每个第二文本段之间的相似度。
107:根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段。
示例性的,根据每个第一文本段与每个第二文本段的相似度,从多个第二文本段中确定出与每个第一文本段对应的最大相似度,若该最大相似度大于阈值,则将该第一文本段作为目标文本段。具体的,若该最大相似度大于阈值,则说明该第一文本段所描述的资金用途所属的产业为该最大相似度对应的第二文本段描述的第一产业,即该资金用途所应用的产业是一个绿色产业,因此,可以确定出该资金用途具有绿色属性。
108:将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
示例性的,获取该目标第一文本段所描述的资金用途中所规划的资金金额,并获取该目标数字资产的总资金金额,即获取该目标债券的总规模;然后,将该目标第一文本段所描述的资金用途中所规划的资金金额与总资金金额的比例,作为该目标数字资产中的绿色资产的占比。
应说明,该目标第一文本段的数量为一个或多个,也就是说,该目标数字资产的多个资金用途中有多项资金用途所应用的产业具有绿色属性。则可以对每个目标第一文本段所描述的资金用途中规划的资金金额与目标数字资产的总资金金额的比例,作为每个目标第一文本 段的绿色比例;然后,对每个目标第一文本段的绿色比例求和,得到目标数字资产中的绿色资产的占比。
可以看出,在本申请实施例中,获取债券的披露数据,即可从多个债券中筛选出具有绿色属性的债券,即目标数字资产;然后,基于目标数字资产的披露数据,通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比(即债券的绿色比例),从而无需人工统计,减少了人力成本,以及人工统计的主观性,提高了数字资产中的绿色资产的占比的识别精度。
参阅图2,图2为本申请实施例提供的另一种相似度的数字资产中的绿色资产的占比的识别方法的流程示意图。该实施例中与图1所示的实施例相同的内容,此处不再重复描述。本实施例的方法包括以下步骤:
201:获取t时刻下投资机构所投资的多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应,所述t时刻为任意时刻。
示例性的,基于爬虫技术以及时间戳,获取多个数字资产在t时刻下的多份披露数据。
202:基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性。
203:将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途。
204:将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量。
205:将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业。
206:根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度。
207:根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段。
208:将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
209:获取所述t时刻下所述目标数字资产的净值。
210:获取所述t时刻下所述投资机构持有所述目标数字资产的份额。
211:根据所述目标数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模。
示例性的,绿色规模可以通过公式(1)表示:
S i=s i*V i*R i     公式(1);
其中,s i为所述目标数字资产的绿色资产的占比,V i为所述t时刻下所述目标数字资产的净值,R i为所述t时刻下所述投资机构持有所述目标数字资产的份额。
可选的,当目标数字资产的数量为多个时,也就是说,该投资机构所投资的多个数字资产中有多个绿色数字资产时,可以按照上述图2示出的方法确定投资机构持有目标数字资产的绿色规模,然后对持有每个目标数字资产的绿色规模进行求和,得到该投资机构持有多个目标数字资产的绿色规模。
示例性的,投资机构持有多个目标数字资产的绿色规模可以通过公式(2)表示:
Figure PCTCN2022090023-appb-000003
其中,n为多个目标数字资产的数量,s i为n个目标数字资产中的第i个目标数字资产的绿色资产的占比,V i为t时刻下第i个目标数字资产的净值,R i为所述t时刻下所述投资机构持有第i个目标数字资产的份额。
可以看出,在本申请实施例中,获取债券的披露数据,即可从多个债券中筛选出具有绿色属性的债券,即目标数字资产;然后,基于目标数字资产的披露数据,通过文本分割和相似度匹配技术自动识别出该目标数字资产中的绿色资产的占比,从而无需人工统计,减少了人力成本,以及人工统计的主观性,提高了数字资产的绿色资产的占比的识别精度。由于统计出的绿色资产的占比比较精确,从而统计出的该投资机构所持有的绿色债券的规模的精度也比较高,因此可以精确的引导企业向绿色产业和碳中和达标的方向发展。
参阅图3,图3本申请实施例提供的一种绿色资产的占比的识别装置的功能单元组成框图。绿色资产的占比的识别装置300包括:获取单元301和处理单元302;
获取单元301,用于获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
处理单元302,用于基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一 文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
在一些可能的实施方式中,将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量之前,处理单元302,还用于:
构建初始模型,所述初始模型包括语义信息提取模型和多层感知器;
将训练样本输入到所述语义信息提取模型进行语义信息提取,得到所述训练样本的第三特征向量;
将所述第三特征向量输入到所述多层感知器,得到所述训练样本属于具有绿色属性的产业的概率;
根据所述训练样本属于具有绿色属性的产业的概率,以及所述训练样本的标签,对所述初始模型进行训练,得到目标模型;
将所述目标模型中的所述多层感知器删除,得到所述语义信息提取模型。
在一些可能的实施方式中,在根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段方面,处理单元302,具体用于:
根据各所述第一文本段与所述每个第二文本段的相似度,确定各所述第一文本段对应的最大相似度;
将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段,作为所述目标第一文本段。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理单元302,具体用于:
根据第一数字资产的披露数据,确定所述第一数字资产的资产名称,所述第一数字资产为所述多个数字资产中的任意一个;
对所述资产名称进行关键词提取,得到第一关键词;
若所述第一关键词属于预设关键词集合中的关键词,确定所述第一数字资产为所述目标数字资产,其中,所述预设关键词集合是由各个具有绿色属性,且与数字资产相关的关键词构成的集合。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理单元302,具体用于:
根据第一数字资产的披露数据,确定所述第一数字资产的所属企业,所述第一数字资产为所述多个数字资产中的任意一个;
确定所述所属企业的所属行业;
若所述所属行业为预设行业集合中的行业,则确定所述第一数字资产为所述目标数字资产,其中,所述预设行业集合是由各个具有绿色属性的行业组成的集合。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理单元302,具体用于:
对第一数字资产的披露数据进行文本识别,从所述披露数据中识别出第三文本段,其中,所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段;
对所述第三文本段进行语义信息提取,得到所述第三文本段的第四特征向量;
根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率;
若所述第一数字资产具有绿色属性的概率大于第二阈值,则将所述第一数字资产作为所述目标数字资产。
在一些可能的实施方式中,所述多个数字资产为t时刻下投资机构所投资的数字资产,所述t时刻为任意时刻;获取单元301,还用于获取所述t时刻下所述目标数字资产的净值;获取所述t时刻下所述投资机构持有所述目标数字资产的份额;
处理单元302,还用于根据所述目标数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模;
所述绿色规模满足以下公式:
S i=s i*V i*R i
s i为所述目标数字资产的绿色资产的占比,V i为所述t时刻下所述目标数字资产的净值, R i为所述t时刻下所述投资机构持有所述目标数字资产的份额。
参阅图4,图4为本申请实施例提供的一种电子设备的结构示意图。如图4所示,电子设备400包括收发器401、处理器402和存储器403。它们之间通过总线404连接。存储器403用于存储计算机程序和数据,并可以将存储器403存储的数据传输给处理器402。
处理器402用于读取存储器403中的计算机程序执行以下操作:
控制收发器401获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
在一些可能的实施方式中,将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量之前,处理器402还用于执行以下操作:
构建初始模型,所述初始模型包括语义信息提取模型和多层感知器;
将训练样本输入到所述语义信息提取模型进行语义信息提取,得到所述训练样本的第三特征向量;
将所述第三特征向量输入到所述多层感知器,得到所述训练样本属于具有绿色属性的产业的概率;
根据所述训练样本属于具有绿色属性的产业的概率,以及所述训练样本的标签,对所述初始模型进行训练,得到目标模型;
将所述目标模型中的所述多层感知器删除,得到所述语义信息提取模型。
在一些可能的实施方式中,在根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段方面,处理器402具体用于执行以下操作:
根据各所述第一文本段与所述每个第二文本段的相似度,确定各所述第一文本段对应的最大相似度;
将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段,作为所述目标第一文本段。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理器402具体用于执行以下操作:
根据第一数字资产的披露数据,确定所述第一数字资产的资产名称,所述第一数字资产为所述多个数字资产中的任意一个;
对所述资产名称进行关键词提取,得到第一关键词;
若所述第一关键词属于预设关键词集合中的关键词,确定所述第一数字资产为所述目标数字资产,其中,所述预设关键词集合是由各个具有绿色属性,且与数字资产相关的关键词构成的集合。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理器402具体用于执行以下操作:
根据第一数字资产的披露数据,确定所述第一数字资产的所属企业,所述第一数字资产为所述多个数字资产中的任意一个;
确定所述所属企业的所属行业;
若所述所属行业为预设行业集合中的行业,则确定所述第一数字资产为所述目标数字资产,其中,所述预设行业集合是由各个具有绿色属性的行业组成的集合。
在一些可能的实施方式中,在基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产方面,处理器402具体用于执行以下操作:
对第一数字资产的披露数据进行文本识别,从所述披露数据中识别出第三文本段,其中,所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段;
对所述第三文本段进行语义信息提取,得到所述第三文本段的第四特征向量;
根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率;
若所述第一数字资产具有绿色属性的概率大于第二阈值,则将所述第一数字资产作为所述目标数字资产。
在一些可能的实施方式中,所述多个数字资产为t时刻下投资机构所投资的数字资产,所述t时刻为任意时刻;处理器402还用于执行以下操作:
控制收发器401获取所述t时刻下所述目标数字资产的净值;获取所述t时刻下所述投资机构持有所述目标数字资产的份额;
根据所述目标数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模;
所述绿色规模满足以下公式:
S i=s i*V i*R i
s i为所述目标数字资产的绿色资产的占比,V i为所述t时刻下所述目标数字资产的净值,R i为所述t时刻下所述投资机构持有所述目标数字资产的份额。
具体地,上述收发器401可为图3所述的实施例的绿色资产的占比的识别装置300的获取单元301,上述处理器402可以为图4所述的实施例的绿色绿色资产的占比的识别装置300的处理单元302。
应理解,本申请中的电子设备可以包括智能手机(如Android手机、iOS手机、Windows Phone手机等)、平板电脑、掌上电脑、笔记本电脑、移动互联网设备MID(Mobile Internet Devices,简称:MID)或穿戴式设备等。上述电子设备仅是举例,而非穷举,包含但不限于上述电子设备。在实际应用中,上述电子设备还可以包括:智能车载终端、计算机设备等等。
本申请实施例还提供一种计算机可读存储介质,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以实现如上述方法实施例中记载的任何一种基于相似度的数字资产的绿色资产的占比的识别方法的部分或全部步骤。所述计算机可读存储介质可以是非易失性,也可以是易失性。
本申请实施例还提供一种计算机程序产品,所述计算机程序产品包括存储了计算机程序的非瞬时性计算机可读存储介质,所述计算机程序可操作来使计算机执行如上述方法实施例中记载的任何一种基于相似度的数字资产的绿色资产的占比的识别方法的部分或全部步骤。
以上对本申请实施例进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对 于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (20)

  1. 一种基于相似度的数字资产中的绿色资产的占比的识别方法,其中,包括:
    获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
    基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
    将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
    将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
    将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
    根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
    根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
    将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
  2. 根据权利要求1所述的方法,其中,将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量之前,所述方法还包括:
    构建初始模型,所述初始模型包括语义信息提取模型和多层感知器;
    将训练样本输入到所述语义信息提取模型进行语义信息提取,得到所述训练样本的第三特征向量;
    将所述第三特征向量输入到所述多层感知器,得到所述训练样本属于具有绿色属性的产业的概率;
    根据所述训练样本属于具有绿色属性的产业的概率,以及所述训练样本的标签,对所述初始模型进行训练,得到目标模型;
    将所述目标模型中的所述多层感知器删除,得到所述语义信息提取模型。
  3. 根据权利要求1或2所述的方法,其中,所述根据各所述第一文本段与所述每个第二 文本段的相似度,确定所述多个第一文本段中的目标第一文本段,包括:
    根据各所述第一文本段与所述每个第二文本段的相似度,确定各所述第一文本段对应的最大相似度;
    将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段,作为所述目标第一文本段。
  4. 根据权利要求1-3中任一项所述的方法,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的资产名称,所述第一数字资产为所述多个数字资产中的任意一个;
    对所述资产名称进行关键词提取,得到第一关键词;
    若所述第一关键词属于预设关键词集合中的关键词,确定所述第一数字资产为所述目标数字资产,其中,所述预设关键词集合是由各个具有绿色属性,且与数字资产相关的关键词构成的集合。
  5. 根据权利要求1-3中任一项所述的方法,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的所属企业,所述第一数字资产为所述多个数字资产中的任意一个;
    确定所述所属企业的所属行业;
    若所述所属行业为预设行业集合中的行业,则确定所述第一数字资产为所述目标数字资产,其中,所述预设行业集合是由各个具有绿色属性的行业组成的集合。
  6. 根据权利要求1-3中任一项所述的方法,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    对第一数字资产的披露数据进行文本识别,从所述披露数据中识别出第三文本段,其中,所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段;
    对所述第三文本段进行语义信息提取,得到所述第三文本段的第四特征向量;
    根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率;
    若所述第一数字资产具有绿色属性的概率大于第二阈值,则将所述第一数字资产作为所述目标数字资产。
  7. 根据权利要求1-6中任一项所述的方法,其中,所述多个数字资产为t时刻下投资机构 所投资的数字资产,所述t时刻为任意时刻;所述方法还包括:
    获取所述t时刻下所述目标数字资产的净值;
    获取所述t时刻下所述投资机构持有所述目标数字资产的份额;
    根据所述目标数字资产的净值、份额以及绿色资产的占比,确定所述t时刻下所述投资机构持有所述目标数字资产的绿色规模;
    所述绿色规模满足以下公式:
    S i=s i*V i*R i
    s i为所述目标数字资产的绿色资产的占比,V i为所述t时刻下所述目标数字资产的净值,R i为所述t时刻下所述投资机构持有所述目标数字资产的份额。
  8. 一种绿色资产的占比的识别装置,其中,包括:获取单元和处理单元;
    所述获取单元,用于获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
    所述处理单元,用于基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
    将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
    将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
    将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
    根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
    根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
    将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
  9. 一种电子设备,其中,包括:处理器和存储器,所述处理器与所述存储器相连,所述存储器用于存储计算机程序,所述处理器用于执行所述存储器中存储的计算机程序,所述计算机程序包括用于执行以下步骤的指令:
    获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一对应;
    基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
    将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
    将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
    将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
    根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
    根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
    将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
  10. 根据权利要求9所述的电子设备,其中,将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量之前,所述步骤还包括:
    构建初始模型,所述初始模型包括语义信息提取模型和多层感知器;
    将训练样本输入到所述语义信息提取模型进行语义信息提取,得到所述训练样本的第三特征向量;
    将所述第三特征向量输入到所述多层感知器,得到所述训练样本属于具有绿色属性的产业的概率;
    根据所述训练样本属于具有绿色属性的产业的概率,以及所述训练样本的标签,对所述初始模型进行训练,得到目标模型;
    将所述目标模型中的所述多层感知器删除,得到所述语义信息提取模型。
  11. 根据权利要求10所述的电子设备,其中,所述根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段,包括:
    根据各所述第一文本段与所述每个第二文本段的相似度,确定各所述第一文本段对应的 最大相似度;
    将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段,作为所述目标第一文本段。
  12. 根据权利要求11所述的电子设备,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的资产名称,所述第一数字资产为所述多个数字资产中的任意一个;
    对所述资产名称进行关键词提取,得到第一关键词;
    若所述第一关键词属于预设关键词集合中的关键词,确定所述第一数字资产为所述目标数字资产,其中,所述预设关键词集合是由各个具有绿色属性,且与数字资产相关的关键词构成的集合。
  13. 根据权利要求11所述的电子设备,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的所属企业,所述第一数字资产为所述多个数字资产中的任意一个;
    确定所述所属企业的所属行业;
    若所述所属行业为预设行业集合中的行业,则确定所述第一数字资产为所述目标数字资产,其中,所述预设行业集合是由各个具有绿色属性的行业组成的集合。
  14. 根据权利要求11所述的电子设备,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    对第一数字资产的披露数据进行文本识别,从所述披露数据中识别出第三文本段,其中,所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段;
    对所述第三文本段进行语义信息提取,得到所述第三文本段的第四特征向量;
    根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率;
    若所述第一数字资产具有绿色属性的概率大于第二阈值,则将所述第一数字资产作为所述目标数字资产。
  15. 一种计算机可读存储介质,其中,所述计算机可读存储介质存储有计算机程序,所述计算机程序被处理器执行以使得计算机执行以下步骤的指令:
    获取多个数字资产的多份披露数据,其中,所述多个数字资产与所述多份披露数据一一 对应;
    基于所述多份披露数据,确定所述多个数字资产中的目标数字资产,其中,所述目标数字资产具有绿色属性;
    将所述目标数字资产的披露数据输入到机器阅读理解模型进行文本分割,得到多个第一文本段,其中,所述多个第一文本段用于描述所述目标数字资产的多项资金用途;
    将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量;
    将多个第二文本段分别输入到所述语义信息提取模型进行语义信息提取,得到所述多个第二文本段中的每个第二文本段的第二特征向量,其中,所述多个第二文本段用于描述具有绿色属性的多个第一产业;
    根据各所述第一文本段的第一特征向量以及所述每个第二文本段的第二特征向量,确定各所述第一文本段与所述每个第二文本段的相似度;
    根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段;
    将所述目标第一文本段所描述的资金用途中规划的资金金额与所述目标数字资产的总资金金额的比例,作为所述目标数字资产中的绿色资产的占比。
  16. 根据权利要求15所述的计算机可读存储介质,其中,将各所述第一文本段分别输入到语义信息提取模型进行语义信息提取,得到各所述第一文本段的第一特征向量之前,所述步骤还包括:
    构建初始模型,所述初始模型包括语义信息提取模型和多层感知器;
    将训练样本输入到所述语义信息提取模型进行语义信息提取,得到所述训练样本的第三特征向量;
    将所述第三特征向量输入到所述多层感知器,得到所述训练样本属于具有绿色属性的产业的概率;
    根据所述训练样本属于具有绿色属性的产业的概率,以及所述训练样本的标签,对所述初始模型进行训练,得到目标模型;
    将所述目标模型中的所述多层感知器删除,得到所述语义信息提取模型。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述根据各所述第一文本段与所述每个第二文本段的相似度,确定所述多个第一文本段中的目标第一文本段,包括:
    根据各所述第一文本段与所述每个第二文本段的相似度,确定各所述第一文本段对应的 最大相似度;
    将所述多个第一文本段中所对应的最大相似度大于第一阈值的第一文本段,作为所述目标第一文本段。
  18. 根据权利要求17所述的计算机可读存储介质,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的资产名称,所述第一数字资产为所述多个数字资产中的任意一个;
    对所述资产名称进行关键词提取,得到第一关键词;
    若所述第一关键词属于预设关键词集合中的关键词,确定所述第一数字资产为所述目标数字资产,其中,所述预设关键词集合是由各个具有绿色属性,且与数字资产相关的关键词构成的集合。
  19. 根据权利要求17所述的计算机可读存储介质,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    根据第一数字资产的披露数据,确定所述第一数字资产的所属企业,所述第一数字资产为所述多个数字资产中的任意一个;
    确定所述所属企业的所属行业;
    若所述所属行业为预设行业集合中的行业,则确定所述第一数字资产为所述目标数字资产,其中,所述预设行业集合是由各个具有绿色属性的行业组成的集合。
  20. 根据权利要求17所述的计算机可读存储介质,其中,所述基于所述多个数字资产的披露数据,确定所述多个数字资产中的目标数字资产,包括:
    对第一数字资产的披露数据进行文本识别,从所述披露数据中识别出第三文本段,其中,所述第三文本段为所述第一数字资产的披露数据中描述所述第一数字资产的多项资金用途所组成的文本段;
    对所述第三文本段进行语义信息提取,得到所述第三文本段的第四特征向量;
    根据所述第四特征向量预测所述第一数字资产具有绿色属性的概率;
    若所述第一数字资产具有绿色属性的概率大于第二阈值,则将所述第一数字资产作为所述目标数字资产。
PCT/CN2022/090023 2021-12-15 2022-04-28 绿色资产的占比的识别方法及相关产品 WO2023108985A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202111538838.2 2021-12-15
CN202111538838.2A CN114240672B (zh) 2021-12-15 2021-12-15 绿色资产的占比的识别方法及相关产品

Publications (1)

Publication Number Publication Date
WO2023108985A1 true WO2023108985A1 (zh) 2023-06-22

Family

ID=80756615

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/090023 WO2023108985A1 (zh) 2021-12-15 2022-04-28 绿色资产的占比的识别方法及相关产品

Country Status (2)

Country Link
CN (1) CN114240672B (zh)
WO (1) WO2023108985A1 (zh)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN113902568A (zh) * 2021-10-30 2022-01-07 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品
CN114240672B (zh) * 2021-12-15 2023-08-18 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005020A1 (en) * 2017-06-30 2019-01-03 Elsevier, Inc. Systems and methods for extracting funder information from text
CN111427996A (zh) * 2020-03-02 2020-07-17 云知声智能科技股份有限公司 一种人机交互文本中抽取日期时间的方法和装置
CN112183989A (zh) * 2020-09-22 2021-01-05 中财绿指(北京)信息咨询有限公司 一种基于权重分配模型的企业绿色评级方法
CN113658007A (zh) * 2021-08-11 2021-11-16 上海浦东发展银行股份有限公司 一种投融资匹配方法、装置、电子设备及存储介质
CN113705192A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 文本处理方法、装置与存储介质
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120316916A1 (en) * 2009-12-01 2012-12-13 Andrews Sarah L Methods and systems for generating corporate green score using social media sourced data and sentiment analysis
US10331785B2 (en) * 2012-02-17 2019-06-25 Tivo Solutions Inc. Identifying multimedia asset similarity using blended semantic and latent feature analysis
CN107767273B (zh) * 2017-09-05 2021-08-31 平安科技(深圳)有限公司 基于社交数据的资产配置方法、电子装置及介质
CN108154440A (zh) * 2017-12-21 2018-06-12 平安科技(深圳)有限公司 FoF资产行业分析方法、终端和计算机可读存储介质
CN109741059A (zh) * 2018-12-29 2019-05-10 杭州趣链科技有限公司 一种基于区块链的绿色资产管理系统及方法
CN113421165A (zh) * 2021-05-19 2021-09-21 绿融(广州)信息科技有限公司 一种绿色金融产品评估与管理的方法及系统
CN113204603B (zh) * 2021-05-21 2024-02-02 中国光大银行股份有限公司 金融数据资产的类别标注方法及装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190005020A1 (en) * 2017-06-30 2019-01-03 Elsevier, Inc. Systems and methods for extracting funder information from text
CN111427996A (zh) * 2020-03-02 2020-07-17 云知声智能科技股份有限公司 一种人机交互文本中抽取日期时间的方法和装置
CN112183989A (zh) * 2020-09-22 2021-01-05 中财绿指(北京)信息咨询有限公司 一种基于权重分配模型的企业绿色评级方法
CN113658007A (zh) * 2021-08-11 2021-11-16 上海浦东发展银行股份有限公司 一种投融资匹配方法、装置、电子设备及存储介质
CN113705192A (zh) * 2021-08-31 2021-11-26 平安银行股份有限公司 文本处理方法、装置与存储介质
CN114240672A (zh) * 2021-12-15 2022-03-25 平安科技(深圳)有限公司 绿色资产的占比的识别方法及相关产品

Also Published As

Publication number Publication date
CN114240672B (zh) 2023-08-18
CN114240672A (zh) 2022-03-25

Similar Documents

Publication Publication Date Title
CN109582949B (zh) 事件元素抽取方法、装置、计算设备及存储介质
WO2023108985A1 (zh) 绿色资产的占比的识别方法及相关产品
CN109597994B (zh) 短文本问题语义匹配方法和系统
CN111241837A (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111191002B (zh) 一种基于分层嵌入的神经代码搜索方法及装置
CN110232123B (zh) 文本的情感分析方法及其装置、计算设备与可读介质
CN112434535B (zh) 基于多模型的要素抽取方法、装置、设备及存储介质
CN107679082A (zh) 问答搜索方法、装置以及电子设备
CN112328761B (zh) 一种意图标签设置方法、装置、计算机设备及存储介质
CN112800239B (zh) 意图识别模型训练方法、意图识别方法及装置
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN115357719B (zh) 基于改进bert模型的电力审计文本分类方法及装置
CN104951791A (zh) 数据分类方法和装置
CN111723870A (zh) 基于人工智能的数据集获取方法、装置、设备和介质
CN114357117A (zh) 事务信息查询方法、装置、计算机设备及存储介质
CN107491729A (zh) 基于余弦相似度激活的卷积神经网络的手写数字识别方法
CN111462752A (zh) 基于注意力机制、特征嵌入及bi-lstm的客户意图识别方法
CN113723077B (zh) 基于双向表征模型的句向量生成方法、装置及计算机设备
CN114117048A (zh) 一种文本分类的方法、装置、计算机设备及存储介质
CN105975456A (zh) 一种企业实体名称分析识别系统
CN110909578A (zh) 一种低分辨率图像识别方法、装置和存储介质
Zheng et al. Learning from the web: Webly supervised meta-learning for masked face recognition
WO2023071129A1 (zh) 绿色资产的占比的识别方法及相关产品
CN115510188A (zh) 文本关键词关联方法、装置、设备及存储介质
CN115982363A (zh) 基于提示学习的小样本关系分类方法、系统、介质及电子设备

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22905753

Country of ref document: EP

Kind code of ref document: A1