WO2019196210A1 - 数据分析方法、计算机可读存储介质、终端设备及装置 - Google Patents

数据分析方法、计算机可读存储介质、终端设备及装置 Download PDF

Info

Publication number
WO2019196210A1
WO2019196210A1 PCT/CN2018/093705 CN2018093705W WO2019196210A1 WO 2019196210 A1 WO2019196210 A1 WO 2019196210A1 CN 2018093705 W CN2018093705 W CN 2018093705W WO 2019196210 A1 WO2019196210 A1 WO 2019196210A1
Authority
WO
WIPO (PCT)
Prior art keywords
vector
similarity
output vector
indicator
neural network
Prior art date
Application number
PCT/CN2018/093705
Other languages
English (en)
French (fr)
Inventor
黄萍
汪伟
肖京
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2019196210A1 publication Critical patent/WO2019196210A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/12Accounting
    • G06Q40/125Finance or payroll
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the present application belongs to the field of computer technology, and in particular, to a data analysis method, a computer readable storage medium, a terminal device and a device.
  • the embodiment of the present application provides a data analysis method, a computer readable storage medium, a terminal device, and a device, so as to solve the problem that the existing financial data analysis must be completed by a professional financial analyst, and the analysis cost is extremely high. And it is easy to cause errors in the analysis results due to human factors.
  • a first aspect of the embodiments of the present application provides a data analysis method, which may include:
  • Any template index vector whose flag is the first value is randomly selected from the preset template database as a second index vector, and any template index vector in the template database represents a specified financial mode;
  • a second aspect of the embodiments of the present application provides a computer readable storage medium storing computer readable instructions, the steps of implementing the data analysis method when the computer readable instructions are executed by a processor .
  • a third aspect of embodiments of the present application provides a data analysis terminal device including a memory, a processor, and computer readable instructions stored in the memory and executable on the processor, the processor executing The steps of the above data analysis method are implemented when the computer readable instructions are described.
  • a fourth aspect of the embodiments of the present application provides a data analysis apparatus, which may include a module for implementing the steps of the above data analysis method.
  • the embodiment of the present application has the beneficial effects that the intelligent analysis of the neural network model replaces the traditional manual analysis, and the analysis cost is greatly reduced, and the analysis result error caused by human factors is reduced. .
  • FIG. 1 is a flow chart of an embodiment of a data analysis method in an embodiment of the present application.
  • FIG. 2 is a schematic diagram of processing a data of a neural network model in an embodiment of the present application
  • FIG. 3 is a structural diagram of an embodiment of a data analysis apparatus according to an embodiment of the present application.
  • FIG. 4 is a schematic block diagram of a data analysis terminal device according to an embodiment of the present application.
  • an embodiment of a data analysis method in an embodiment of the present application may include:
  • step S101 the financial data of the enterprise to be analyzed is crawled by the search engine.
  • the financial data is generated by a server of the enterprise to be analyzed.
  • the unified resource locator corresponding to the enterprise to be analyzed is determined according to a preset Uniform Resource Locator (URL) relationship table, and the unified resource locator relationship table records the enterprise and unified resource positioning. Corresponding relationship between the symbols; then, the search engine searches for the financial data of the enterprise to be analyzed from the webpage indicated by the uniform resource locator corresponding to the enterprise to be analyzed.
  • URL Uniform Resource Locator
  • financial data crawling may be performed on the official website of each major stock exchange or in the official website of the enterprise to be analyzed.
  • financial data of company A first query the uniform resource locator relationship table, in which a uniform resource locator corresponding to the enterprise "A company” can be found, which is indicated by these uniform resource locators.
  • the financial data is crawled into the web page with the keyword "A company” + "financial report".
  • the results can be manually audited by professionals to ensure the accuracy of the financial data.
  • Step S102 extracting a specified financial indicator from the financial data, and forming the financial indicator into a first indicator vector.
  • the financial indicators include, but are not limited to, asset-liability ratio, historical debt ratio trend, total interest-bearing liabilities as a percentage of total assets, proportion of recent liabilities to total liabilities, recent liabilities to cash ratios, current ratios, and interest expenses.
  • the first indicator vector can be expressed as:
  • u m is the mth financial indicator, 1 ⁇ m ⁇ M, and M is the number of dimensions of the first indicator vector.
  • Step S103 The first indicator vector is input into a preset first neural network model for processing, to obtain a first output vector.
  • the input layer node of the first neural network model receives the first indicator vector
  • the hidden layer node of the first neural network model receives the input layer node using a fuzzy Gaussian membership function
  • the data is processed to obtain hidden layer node data.
  • the hidden layer node data can be obtained by the following formula:
  • ⁇ j (x) is the hidden layer node data of the jth hidden layer node
  • G ij (x i ) is the i-th fuzzy Gaussian membership function of the j-th hidden layer node
  • x is the input layer node Data
  • xi is the input layer node data of the i-th input layer node
  • ⁇ ij is the mathematical expectation of the i-th fuzzy Gaussian membership function of the j-th hidden layer node
  • ⁇ ij is the j-th hidden layer The standard deviation of the i-th fuzzy Gaussian membership function of the node.
  • the hidden layer node data may also be normalized to reduce the difference of the hidden layer node data, and specifically, the maximum value and the minimum value in the hidden layer node data may be acquired. And then normalizing the hidden layer node data according to the maximum value and the minimum value to obtain normalized hidden layer node data.
  • the hidden layer node data can be normalized by the following formula:
  • ⁇ j (x) is the normalized hidden layer node data of the jth hidden layer node
  • ⁇ max (x) is the maximum value in ⁇ j (x)
  • ⁇ min (x) is ⁇ j The minimum value in (x).
  • the hidden layer node data is respectively weighted and summed using the preset weights at each output layer node to obtain respective output components, and the output component of the first output vector in the nth dimension is calculated.
  • a n is the output of the first vector component on the n-th dimension, ⁇ j, n j-th hidden layer node and hidden layer node data output components on the n-th dimension corresponding weight value.
  • the first output vector can be expressed as:
  • Y1 (a 1 ,a 2 ,....,a n ,..,a N )
  • N is the number of dimensions of the first output vector.
  • Step S104 arbitrarily selecting a template index vector whose flag bit is the first bit value from the preset template database as the second index vector.
  • Any template index vector in the template database represents a specified financial mode.
  • These template indicator vectors are based on the analysis logic of financial experts, and the indicator vectors obtained from the analysis of typical representative enterprises. For example, financial experts select five representative companies, which are five financial models with excellent financial status, good financial status, general financial status, poor financial status, and poor financial status.
  • asset-liability ratio threshold is preset.
  • the asset-liability ratio threshold can be set to 0.7, that is, when the enterprise If the asset-liability ratio is higher than 0.7, it is initially determined that it has financial risks.
  • the flag bit is used to indicate whether the template index vector has been subjected to similarity calculation.
  • it indicates that the template index vector has not been subjected to similarity calculation
  • the second bit value the description is The template indicator vector has been subjected to similarity calculation.
  • the first bit value may take 0 or 1.
  • the second bit value takes 1 and when it takes 1, the second bit value takes 0.
  • Step S105 the second indicator vector is input into a preset second neural network model for processing, to obtain a second output vector.
  • the second indicator vector can be expressed as:
  • v m is the mth financial indicator
  • M is the number of dimensions of the second indicator vector. The number of dimensions of the first indicator vector and the second indicator vector is the same.
  • the second output vector can be expressed as:
  • b n is a component of the second output vector in the nth dimension, 1 ⁇ n ⁇ N, where N is the number of dimensions of the second output vector.
  • N is the number of dimensions of the second output vector. The number of dimensions of the first output vector and the second output vector is the same.
  • the second neural network model and the first neural network model constitute a twin neural network model, that is, the two have the same network structure and parameters, and when the parameters are updated, the two are also synchronized, and the parameters are always maintained. Consistent. It should be noted that the data objects processed by the first neural network model and the second neural network model are different, and the first neural network model processes an indicator vector of an enterprise to be analyzed, and the first A neural network model processes the template index vectors in the template database.
  • Step S106 calculating a similarity between the first output vector and the second output vector, and adding it to a preset similarity array.
  • the similarity between the first output vector and the second output vector may be calculated according to the following formula:
  • the similarity between the first output vector and the second output vector may also be calculated according to the following formula:
  • Step S107 setting a flag bit of the template index vector to a second bit value.
  • the template index vector is marked as having been subjected to similarity calculation.
  • Step S108 determining whether there is a template index vector in which the flag bit is the first bit value in the template database.
  • step S109 is executed.
  • Step S109 determining a similarity with the largest value from the similarity array, and determining a financial mode represented by the template index vector corresponding to the similarity with the largest value as the financial mode of the enterprise to be analyzed.
  • the training process of the first neural network model and the second neural network may specifically include:
  • a preset number of indicator vector sample pairs are selected from the historical analysis records.
  • the indicator vector sample pair is composed of two indicator vector samples, and the indicator vector sample pair includes a positive sample pair whose analysis result is greater than a first threshold and a negative sample pair whose analysis result is less than a second threshold, the positive sample pair
  • the ratio of the number to the number of negative sample pairs is within a preset ratio range.
  • a positive sample pair is a sample pair consisting of two indicator vector samples with consistent or similar financial patterns
  • a negative sample pair is a sample pair composed of two indicator vector samples with large differences in financial models, in order to ensure training.
  • the selected indicator vector sample pair includes both a positive sample pair and a negative sample pair.
  • the ratio of the number of the two can be set to 1:1.
  • Two indicator vector samples of each of the indicator vector sample pairs are respectively input into the first neural network model and the second neural network for processing, and the similarity between the two output vectors is calculated.
  • E t is the training error of the t-th index vector sample pair
  • y′ t is the similarity of the t-th index vector sample pair
  • y t is the theoretical similarity of the t-th index vector sample pair
  • 1 ⁇ t ⁇ T T is the number of pairs of the indicator vector samples
  • E is the global error, that is, the sum of the training errors of the pairs of samples in the current training
  • the first neural network model and the second neural network obtained by training can be analyzed as data to be analyzed by the twin neural network model.
  • the intelligent analysis of the neural network model in the embodiment of the present application replaces the traditional manual analysis, the analysis cost is greatly reduced, and the analysis result error caused by human factors is reduced.
  • FIG. 3 is a structural diagram of an embodiment of a data analysis apparatus provided by an embodiment of the present application.
  • a data analysis apparatus may include:
  • a data crawling module 301 configured to crawl, by a search engine, financial data of an enterprise to be analyzed, where the financial data is generated by a server of the enterprise to be analyzed;
  • the indicator extraction module 302 is configured to extract a specified financial indicator from the financial data, and form the financial indicator into a first indicator vector;
  • the first processing module 303 is configured to input the first indicator vector into a preset first neural network model for processing, to obtain a first output vector;
  • the indicator vector selection module 304 is configured to arbitrarily select a template index vector with a flag bit as a first bit value as a second index vector from a preset template database, and any template index vector in the template database is characterized by a Specified financial model;
  • a second processing module 305 configured to input the second indicator vector into a preset second neural network model for processing, to obtain a second output vector, the second neural network model and the first neural network model Have the same network structure and parameters;
  • the similarity calculation module 306 is configured to calculate a similarity between the first output vector and the second output vector, and add it to a preset similarity array;
  • a flag setting module 307 configured to set a flag bit of the template indicator vector to a second bit value
  • the financial mode determining module 308 is configured to determine a similarity with the largest value from the similarity array, and determine a financial mode represented by a template index vector corresponding to the similarity with the largest value as the enterprise to be analyzed Financial model.
  • the data analysis terminal device may further include:
  • a sample pair selection module configured to select a preset number of indicator vector sample pairs from the historical analysis record, wherein the indicator vector sample pair is composed of two indicator vector samples, and the indicator vector sample pair includes the analysis result being greater than the first threshold a positive sample pair and a negative sample pair whose analysis result is less than a second threshold, the ratio of the number of positive sample pairs to the number of negative sample pairs being within a preset ratio range;
  • a sample similarity calculation module configured to input two index vector samples in each of the indicator vector sample pairs into the first neural network model and the second neural network for processing, and calculate two output vectors Similarity between
  • a global error calculation module for calculating a global error of the current training according to the following formula:
  • E t is the training error of the t-th index vector sample pair
  • y′ t is the similarity of the t-th index vector sample pair
  • y t is the theoretical similarity of the t-th index vector sample pair, 1 ⁇ t ⁇ T, T is the number of pairs of the indicator vector samples
  • a network adjustment module configured to adjust the first neural network model and the second neural network if the global error is greater than a preset error threshold
  • the similarity calculation module may include:
  • a first calculating unit configured to calculate a similarity between the first output vector and the second output vector according to the following formula:
  • a n is the output of the first vector component on the n-th dimension
  • b n to the second output vector component in the n-th dimension 1 ⁇ n ⁇ N
  • N is the first The number of dimensions of the output vector
  • y' is the similarity between the first output vector and the second output vector.
  • the similarity calculation module may include:
  • a second calculating unit configured to calculate a similarity between the first output vector and the second output vector according to the following formula:
  • a n is a component of the first output vector in the nth dimension
  • b n is a component of the second output vector in the nth dimension
  • 1 ⁇ n ⁇ N is the first output vector
  • y' is the similarity between the first output vector and the second output vector.
  • the data crawling module may include:
  • a uniform resource locator determining unit configured to determine, according to a preset uniform resource locator relationship table, a uniform resource locator corresponding to the enterprise to be analyzed, where the uniform resource locator relationship table records an enterprise and a uniform resource locator Correspondence between
  • a data crawling unit configured to: crawl, by the search engine, the financial data of the enterprise to be analyzed from the webpage indicated by the uniform resource locator corresponding to the enterprise to be analyzed.
  • FIG. 4 is a schematic block diagram of a data analysis terminal device provided by an embodiment of the present application.
  • the data analysis terminal device 4 may include a processor 40, a memory 41, and computer readable instructions 42 stored in the memory 41 and operable on the processor 40, such as a computer executing the data analysis method described above. Readable instructions.
  • the processor 40 executes the steps in the embodiments of the various data analysis methods described above when the computer readable instructions 42 are executed.
  • the functional units in the various embodiments of the present application if implemented in the form of software functional units and sold or used as separate products, may be stored in a computer readable storage medium. Based on such understanding, the technical solution of the present application, in essence or the contribution to the prior art, or all or part of the technical solution may be embodied in the form of a software product stored in a storage medium. A number of computer readable instructions are included to cause a computer device to perform all or part of the steps of the methods described in various embodiments of the present application.

Landscapes

  • Business, Economics & Management (AREA)
  • Accounting & Taxation (AREA)
  • Finance (AREA)
  • Engineering & Computer Science (AREA)
  • Development Economics (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Strategic Management (AREA)
  • Technology Law (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请属于计算机技术领域,尤其涉及一种数据分析方法、计算机可读存储介质、终端设备及装置。所述方法首先通过搜索引擎爬取待分析企业的财务数据,从所述财务数据中抽取指定的财务指标,并组成第一指标向量,然后将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量,将从预设的模板数据库中选取的第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,并计算两者之间的相似度,最后将与数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。通过本申请实施例,使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低。

Description

数据分析方法、计算机可读存储介质、终端设备及装置
本申请要求于2018年4月10日提交中国专利局、申请号为201810315729.6、发明名称为“一种数据分析方法、计算机可读存储介质及终端设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请属于计算机技术领域,尤其涉及一种数据分析方法、计算机可读存储介质、终端设备及装置。
背景技术
传统的财务数据分析的过程非常复杂,财务指标细碎繁多,必须依赖于专业的财务分析人员才可完成,分析成本极高,且容易因人为因素导致分析结果错误。
技术问题
有鉴于此,本申请实施例提供了一种数据分析方法、计算机可读存储介质、终端设备及装置,以解决现有财务数据分析必须依赖于专业的财务分析人员才可完成,分析成本极高,且容易因人为因素导致分析结果错误的问题。
技术解决方案
本申请实施例的第一方面提供了一种数据分析方法,可以包括:
通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
本申请实施例的第二方面提供了一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,所述计算机可读指令被处理器执行时实现上述数据分析方法的步骤。
本申请实施例的第三方面提供了一种数据分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,所述处理器执行所述计算机可读指令时实现上述数据分析方法的步骤。
本申请实施例的第四方面提供了一种数据分析装置,可以包括用于实现上述数据分析方法的步骤的模块。
有益效果
本申请实施例与现有技术相比存在的有益效果是:本申请实施例使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低,且减少了因人为因素导致的分析结果错误。
附图说明
图1为本申请实施例中一种数据分析方法的一个实施例流程图;
图2为本申请实施例中神经网络模型对数据的处理示意图;
图3为本申请实施例中一种数据分析装置的一个实施例结构图;
图4为本申请实施例中一种数据分析终端设备的示意框图。
本发明的实施方式
请参阅图1,本申请实施例中一种数据分析方法的一个实施例可以包括:
步骤S101,通过搜索引擎爬取待分析企业的财务数据。
所述财务数据由所述待分析企业的服务器生成。
具体地,首先根据预设的统一资源定位符(URL,Uniform Resource Locator)关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;然后通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
例如,可以在各大证券交易所的官方网站,或者在所述待分析企业的官网中进行财务数据爬取。以爬取A公司的财务数据为例,首先查询所述统一资源定位符关系表,在其中可以找到与“A公司”这一企业对应的统一资源定位符,在这些统一资源定位符所指示的网页中以关键字“A公司”+“财务报告”爬取到所述财务数据。为保证爬取结果的可靠性,在爬取数据之后,还可以由专业人员对结果进行人工审核,以保证财务数据的准确性。
步骤S102,从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一 指标向量。
所述财务指标包括但不限于:资产负债率、历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等具体指标。
所述第一指标向量可以表示为:
X1=(u 1,u 2,....,u m,..,u M)
其中,u m为第m个财务指标,1≤m≤M,M为所述第一指标向量的维度个数。
步骤S103,将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量。
具体地,所述第一神经网络模型的输入层节点接收所述第一指标向量,在所述第一神经网络模型的隐含层节点分别使用模糊高斯隶属度函数对所述输入层节点接收的数据进行处理,得到隐含层节点数据。所述隐含层节点数据可以通过以下计算公式得到:
Figure PCTCN2018093705-appb-000001
其中,i为输入层节点的标号,其取值范围为[1,M];j为隐含层节点的标号,其取值范围为[1,H],H为隐含层节点的个数;Φ j(x)为第j个隐含层节点的隐含层节点数据;G ij(x i)为第j个隐含层节点的第i个模糊高斯隶属度函数;x为输入层节点数据,xi为其中的第i个输入层节点的输入层节点数据;μ ij为第j个隐含层节点的第i个模糊高斯隶属度函数的数学期望;σ ij为第j个隐含层节点的第i个模糊高斯隶属度函数的标准差。
优选地,还可以对所述隐含层节点数据进行归一化处理,以缩小所述隐含层节点数据的差异,具体地,可以获取所述隐含层节点数据中的最大值和最小值,然后根据所述最大值和所述最小值对所述隐含层节点数据进行归一化处理,得到归一化的隐含层节点数据。
例如,可以通过以下公式对所述隐含层节点数据进行归一化处理:
Figure PCTCN2018093705-appb-000002
其中,Ψ j(x)为第j个隐含层节点的归一化的隐含层节点数据,Φ max(x)为Φ j(x)中的最大值,Φ min(x)为Φ j(x)中的最小值。
最后,在各个输出层节点使用预设的权值分别对所述隐含层节点数据进行加权求和,得到各个输出分量,所述第一输出向量在第n个维度上的输出分量的计算公式可以为:
Figure PCTCN2018093705-appb-000003
其中,a n为所述第一输出向量在第n个维度上的分量,ω j,n为第j个隐含层节点的隐含层节点数据与第n个维度上的输出分量对应的权值。
则所述第一输出向量可以表示为:
Y1=(a 1,a 2,....,a n,..,a N)
其中,1≤n≤N,N为所述第一输出向量的维度个数。
步骤S104,从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量。
所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式。这些模板指标向量是基于财务专家的分析逻辑,对典型的代表性企业进行分析得到的指标向量。例如,财务专家选择五家代表性的企业,分别为财务状况极好、财务状况较好、财务状况一般、财务状况较差、财务状况极差这五种财务模式。首先对资产负债率进行分析。根据实际情况预先设置一个资产负债率阈值,对企业来说,一般地,资产负债率的适宜水平是0.4~0.6,在本实施例中,可以将资产负债率阈值设置为0.7,也即当企业的资产负债率高于0.7,则初步判定其存在财务风险。还可以进一步地对历史负债率趋势、有息负债总额占总资产比例、近期负债占总负债比例、近期负债占货币现金比例、流动比率、利息支出等进行分析,其中,历史负债率趋势,即相比于近几年的数据,负债率是上升还是下降,若上升这说明财务风险在持续恶化,若下降则说明财务在持续改善。有息负债总额占总资产比例、近期负债占总负债比例、以及近期负债占货币现金比例,这三个比例越高,则财务风险也越高。还需要对企业的偿债能力进行分析,主要对流动比率,利息支出等数据进行分析,若存在较低的流动比率、上升的利息支出则预示该企业的偿债能力令人担忧。根据上述分析过程,对选取的所有典型的代表性企业均进行分析,将其中的分析数据作为模板指标向量一起存储入所述模板数据库中。
所述标志位用于表征该模板指标向量是否已进行过相似度计算,当其为第一位值时,说明该模板指标向量尚未进行过相似度计算,当其为第二位值时,说明该模板指标向量已进行过相似度计算。所述第一位值可以取0或1,当其取0时,则所述第二位值取1,当其取1时,则所述第二位值取0。
步骤S105,将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量。
所述第二指标向量可以表示为:
X2=(v 1,v 2,....,v m,..,v M)
其中,v m为第m个财务指标,1≤m≤M,M为所述第二指标向量的维度个数。所述第一指标向量和所述第二指标向量的维度个数是相同的。
所述第二输出向量可以表示为:
Y1=(b 1,b 2,....,b n,..,b N)
其中,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第二输出向量的维度个数。所述第一输出向量和所述第二输出向量的维度个数是相同的。
所述第二神经网络模型与所述第一神经网络模型构成了孪生神经网络模型,即两者具有相同的网络结构和参数,在进行参数更新时,两者也是同步的,始终保持着参数的一致。需要注意的是,所述第一神经网络模型和所述第二神经网络模型所处理的数据对象是不同的,所述第一神经网络模型处理的是待分析企业的指标向量,而所述第一神经网络模型处理的是模板数据库中的模板指标向量。
步骤S106,计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中。
可选地,可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure PCTCN2018093705-appb-000004
其中,y′为所述第一输出向量和所述第二输出向量之间的相似度。
可选地,还可以根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure PCTCN2018093705-appb-000005
其中,
Figure PCTCN2018093705-appb-000006
步骤S107,将所述模板指标向量的标志位设置为第二位值。
也即标记该模板指标向量为已进行过相似度计算。
步骤S108,判断所述模板数据库中是否存在标志位为第一位值的模板指标向量。
若存在,则返回执行步骤S104,若不存在,则执行步骤S109。
步骤S109,从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
优选地,所述第一神经网络模型和所述第二神经网络的训练过程具体可以包括:
首先,从历史分析记录中选取预设数目的指标向量样本对。
所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内。
正样本对即为由财务模式一致或相近的两个指标向量样本所组成的样本对,而负样本对即为由财务模式差别较大的两个指标向量样本所组成的样本对,为了保证训练效果的有效性,选取的指标向量样本对中既要包括正样本对,也要包括负样本对,优选地,可以设置两者数目之比为1:1。
将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度。
具体的计算过程可参照上述说明,此处不再赘述。
然后,根据下式计算本轮训练的全局误差:
Figure PCTCN2018093705-appb-000007
其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目,E为所述全局误差,也即本轮训练中各个样本对的训练误差的总和;
若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
若所述全局误差小于所述误差阈值,则结束训练。训练得到的所述第一神经网络模型和所述第二神经网络即可作为孪生神经网络模型对待分析的数据进行分析。
综上所述,本申请实施例使用神经网络模型的智能分析取代了传统的人工分析,分析成本大大降低,且减少了因人为因素导致的分析结果错误。
对应于上文实施例所述的一种数据分析方法,图3示出了本申请实施例提供的一种数据分析装置的一个实施例结构图。
本实施例中,一种数据分析装置可以包括:
数据爬取模块301,用于通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
指标提取模块302,用于从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
第一处理模块303,用于将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
指标向量选取模块304,用于从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
第二处理模块305,用于将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
相似度计算模块306,用于计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
标志位设置模块307,用于将所述模板指标向量的标志位设置为第二位值;
财务模式确定模块308,用于从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
进一步地,所述数据分析终端设备还可以包括:
样本对选取模块,用于从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
样本相似度计算模块,用于将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
全局误差计算模块,用于根据下式计算本轮训练的全局误差:
Figure PCTCN2018093705-appb-000008
其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
网络调整模块,用于若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整;
结束训练模块,用于若所述全局误差小于所述误差阈值,则结束训练。
可选地,所述相似度计算模块可以包括:
第一计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的 相似度:
Figure PCTCN2018093705-appb-000009
其中,a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
可选地,所述相似度计算模块可以包括:
第二计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
Figure PCTCN2018093705-appb-000010
其中,
Figure PCTCN2018093705-appb-000011
a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
进一步地,所述数据爬取模块可以包括:
统一资源定位符确定单元,用于根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
数据爬取单元,用于通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
图4示出了本申请实施例提供的一种数据分析终端设备的示意框图。
所述数据分析终端设备4可以包括:处理器40、存储器41以及存储在所述存储器41中并可在所述处理器40上运行的计算机可读指令42,例如执行上述的数据分析方法的计算机可读指令。所述处理器40执行所述计算机可读指令42时实现上述各个数据分析方法实施例中的步骤。
在本申请各个实施例中的各功能单元如果以软件功能单元的形式实现并作为独立 的产品销售或使用时,可以存储在一个计算机可读取存储介质中。基于这样的理解,本申请的技术方案本质上或者说对现有技术做出贡献的部分或者该技术方案的全部或部分可以以软件产品的形式体现出来,该计算机软件产品存储在一个存储介质中,包括若干计算机可读指令用以使得一台计算机设备执行本申请各个实施例所述方法的全部或部分步骤。

Claims (20)

  1. 一种数据分析方法,其特征在于,包括:
    通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
    从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
    将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
    从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
    将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
    计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
    将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
    从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
  2. 根据权利要求1所述的数据分析方法,其特征在于,所述第一神经网络模型和所述第二神经网络的训练过程包括:
    从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
    将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
    根据下式计算本轮训练的全局误差:
    Figure PCTCN2018093705-appb-100001
    其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
    若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神 经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
    若所述全局误差小于所述误差阈值,则结束训练。
  3. 根据权利要求1所述的数据分析方法,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100002
    其中,a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  4. 根据权利要求1所述的数据分析方法,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度还包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100003
    其中,
    Figure PCTCN2018093705-appb-100004
    a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  5. 根据权利要求1至4中任一项所述的数据分析方法,其特征在于,所述通过搜索引擎爬取待分析企业的财务数据包括:
    根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
    通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
  6. 一种计算机可读存储介质,所述计算机可读存储介质存储有计算机可读指令,其特征在于,所述计算机可读指令被处理器执行时实现如下步骤:
    通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
    从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
    将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
    从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
    将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
    计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
    将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
    从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
  7. 根据权利要求6所述的计算机可读存储介质,其特征在于,所述第一神经网络模型和所述第二神经网络的训练过程包括:
    从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
    将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
    根据下式计算本轮训练的全局误差:
    Figure PCTCN2018093705-appb-100005
    其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
    若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述 全局误差小于所述误差阈值为止;
    若所述全局误差小于所述误差阈值,则结束训练。
  8. 根据权利要求6所述的计算机可读存储介质,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100006
    其中,a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  9. 根据权利要求6所述的计算机可读存储介质,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度还包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100007
    其中,
    Figure PCTCN2018093705-appb-100008
    a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  10. 根据权利要求6至9中任一项所述的计算机可读存储介质,其特征在于,所述通过搜索引擎爬取待分析企业的财务数据包括:
    根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
    通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
  11. 一种数据分析终端设备,包括存储器、处理器以及存储在所述存储器中并可在所述处理器上运行的计算机可读指令,其特征在于,所述处理器执行所述计算机可读指令时实现如下步骤:
    通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服 务器生成;
    从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
    将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
    从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
    将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
    计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
    将所述模板指标向量的标志位设置为第二位值,返回执行所述从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量的步骤,直至所述模板数据库中不存在标志位为第一位值的模板指标向量为止;
    从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
  12. 根据权利要求11所述的数据分析终端设备,其特征在于,所述第一神经网络模型和所述第二神经网络的训练过程包括:
    从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
    将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
    根据下式计算本轮训练的全局误差:
    Figure PCTCN2018093705-appb-100009
    其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
    若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整,并返回执行所述将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理的步骤,直至所述全局误差小于所述误差阈值为止;
    若所述全局误差小于所述误差阈值,则结束训练。
  13. 根据权利要求11所述的数据分析终端设备,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100010
    其中,a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  14. 根据权利要求11所述的数据分析终端设备,其特征在于,所述计算所述第一输出向量和所述第二输出向量之间的相似度还包括:
    根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100011
    其中,
    Figure PCTCN2018093705-appb-100012
    a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  15. 根据权利要求11至14中任一项所述的数据分析终端设备,其特征在于,所述通过搜索引擎爬取待分析企业的财务数据包括:
    根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
    通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
  16. 一种数据分析装置,其特征在于,包括:
    数据爬取模块,用于通过搜索引擎爬取待分析企业的财务数据,所述财务数据由所述待分析企业的服务器生成;
    指标提取模块,用于从所述财务数据中抽取指定的财务指标,并将所述财务指标组成第一指标向量;
    第一处理模块,用于将所述第一指标向量输入到预设的第一神经网络模型中进行处理,得到第一输出向量;
    指标向量选取模块,用于从预设的模板数据库中任意选取一个标志位为第一位值的模板指标向量作为第二指标向量,所述模板数据库中的任意一种模板指标向量均表征一种指定的财务模式;
    第二处理模块,用于将所述第二指标向量输入到预设的第二神经网络模型中进行处理,得到第二输出向量,所述第二神经网络模型与所述第一神经网络模型具有相同的网络结构和参数;
    相似度计算模块,用于计算所述第一输出向量和所述第二输出向量之间的相似度,并将其添加入预设的相似度数组中;
    标志位设置模块,用于将所述模板指标向量的标志位设置为第二位值;
    财务模式确定模块,用于从所述相似度数组中确定出数值最大的相似度,并将与所述数值最大的相似度对应的模板指标向量所表征的财务模式确定为所述待分析企业的财务模式。
  17. 根据权利要求16所述的数据分析装置,其特征在于,还包括:
    样本对选取模块,用于从历史分析记录中选取预设数目的指标向量样本对,所述指标向量样本对由两个指标向量样本组成,且所述指标向量样本对包括分析结果大于第一阈值的正样本对和分析结果小于第二阈值的负样本对,所述正样本对的数目与所述负样本对的数目之比在预设的比值范围内;
    样本相似度计算模块,用于将各个所述指标向量样本对中的两个指标向量样本分别输入到所述第一神经网络模型和所述第二神经网络中进行处理,并计算两个输出向量之间的相似度;
    全局误差计算模块,用于根据下式计算本轮训练的全局误差:
    Figure PCTCN2018093705-appb-100013
    其中,E t为第t个指标向量样本对的训练误差,y′ t为第t个指标向量样本对的相似度,y t为第t个指标向量样本对的理论相似度,1≤t≤T,T为所述指标向量样本对的数目;
    网络调整模块,用于若所述全局误差大于预设的误差阈值,则对所述第一神经网络模型和所述第二神经网络进行调整;
    结束训练模块,用于若所述全局误差小于所述误差阈值,则结束训练。
  18. 根据权利要求16所述的数据分析装置,其特征在于,所述相似度计算模块包括:
    第一计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100014
    其中,a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  19. 根据权利要求16所述的数据分析装置,其特征在于,所述相似度计算模块包括:
    第二计算单元,用于根据下式计算所述第一输出向量和所述第二输出向量之间的相似度:
    Figure PCTCN2018093705-appb-100015
    其中,
    Figure PCTCN2018093705-appb-100016
    a n为所述第一输出向量在第n个维度上的分量,b n为所述第二输出向量在第n个维度上的分量,1≤n≤N,N为所述第一输出向量的维度个数,且为所述第二输出向量的维度个数,y′为所述第一输出向量和所述第二输出向量之间的相似度。
  20. 根据权利要求16至19中任一项所述的数据分析装置,其特征在于,所述数据爬取模块包括:
    统一资源定位符确定单元,用于根据预设的统一资源定位符关系表确定与所述待分析企业对应的统一资源定位符,所述统一资源定位符关系表记录了企业与统一资源定位符之间的对应关系;
    数据爬取单元,用于通过所述搜索引擎从与所述待分析企业对应的统一资源定位符所指示的网页中爬取所述待分析企业的财务数据。
PCT/CN2018/093705 2018-04-10 2018-06-29 数据分析方法、计算机可读存储介质、终端设备及装置 WO2019196210A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201810315729.6 2018-04-10
CN201810315729.6A CN108763277B (zh) 2018-04-10 2018-04-10 一种数据分析方法、计算机可读存储介质及终端设备

Publications (1)

Publication Number Publication Date
WO2019196210A1 true WO2019196210A1 (zh) 2019-10-17

Family

ID=63981640

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2018/093705 WO2019196210A1 (zh) 2018-04-10 2018-06-29 数据分析方法、计算机可读存储介质、终端设备及装置

Country Status (2)

Country Link
CN (1) CN108763277B (zh)
WO (1) WO2019196210A1 (zh)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184301A (zh) * 2020-09-25 2021-01-05 杭州安恒信息技术股份有限公司 一种数据预测方法、装置、设备及计算机可读存储介质
CN113420906A (zh) * 2021-05-25 2021-09-21 北京沃东天骏信息技术有限公司 流量预测方法、装置及存储介质
CN116542801A (zh) * 2023-07-07 2023-08-04 成都理工大学 一种财务数据分析方法及系统

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109785944B (zh) * 2018-12-13 2023-02-10 平安医疗健康管理股份有限公司 基于数据分析的医院评价方法及相关产品
CN109784171A (zh) * 2018-12-14 2019-05-21 平安科技(深圳)有限公司 车辆定损图像筛选方法、装置、可读存储介质及服务器
CN109801151B (zh) * 2019-01-07 2023-09-05 平安科技(深圳)有限公司 财务造假风险监控方法、装置、计算机设备和存储介质
CN109918992B (zh) * 2019-01-09 2023-11-03 平安科技(深圳)有限公司 一种基于人脸考勤场景的模型评估方法、装置和计算机设备
CN110070140B (zh) * 2019-04-28 2021-03-23 清华大学 基于多类别信息的用户相似性确定方法及装置
CN110866672B (zh) * 2019-10-10 2024-06-25 重庆金融资产交易所有限责任公司 数据处理方法、装置、终端及介质
CN111798123A (zh) * 2020-06-30 2020-10-20 平安国际智慧城市科技股份有限公司 基于人工智能的合规性评价方法、装置、设备及介质
CN112434862B (zh) * 2020-11-27 2024-03-12 中国人民大学 上市企业财务困境预测方法及装置

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置
CN107735833A (zh) * 2015-06-07 2018-02-23 苹果公司 自动口音检测

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106778684A (zh) * 2017-01-12 2017-05-31 易视腾科技股份有限公司 深度神经网络训练方法及人脸识别方法
CN106803204A (zh) * 2017-01-17 2017-06-06 上海聚赟大数据有限公司 一种基于机器学习的债券发行人违约分析方法
CN107273503B (zh) * 2017-06-19 2020-07-10 北京百度网讯科技有限公司 用于生成同语言平行文本的方法和装置

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20150294246A1 (en) * 2014-04-10 2015-10-15 International Business Machines Corporation Selecting optimal training data set for service contract prediction
CN107735833A (zh) * 2015-06-07 2018-02-23 苹果公司 自动口音检测
CN106649890A (zh) * 2017-02-07 2017-05-10 税云网络科技服务有限公司 数据存储方法和装置

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN112184301A (zh) * 2020-09-25 2021-01-05 杭州安恒信息技术股份有限公司 一种数据预测方法、装置、设备及计算机可读存储介质
CN113420906A (zh) * 2021-05-25 2021-09-21 北京沃东天骏信息技术有限公司 流量预测方法、装置及存储介质
CN116542801A (zh) * 2023-07-07 2023-08-04 成都理工大学 一种财务数据分析方法及系统
CN116542801B (zh) * 2023-07-07 2023-09-22 成都理工大学 一种财务数据分析方法及系统

Also Published As

Publication number Publication date
CN108763277A (zh) 2018-11-06
CN108763277B (zh) 2023-04-18

Similar Documents

Publication Publication Date Title
WO2019196210A1 (zh) 数据分析方法、计算机可读存储介质、终端设备及装置
WO2019223384A1 (zh) Gbdt模型的特征解释方法和装置
US20200302540A1 (en) Applying a trained model to predict a future value using contextualized sentiment data
CN111241837A (zh) 基于对抗迁移学习的盗窃案件法律文书命名实体识别方法
CN111444247A (zh) 一种基于kpi指标的根因定位方法、装置及存储介质
Singh et al. A study of moment based features on handwritten digit recognition
Erlan C4. 5 Algorithm Application for Prediction of Self Candidate New Students in Higher Education
US11537905B2 (en) Inference-based assignment of data type to data
Adeyemo et al. Effects of normalization techniques on logistic regression in data science
WO2023071120A1 (zh) 数字资产中的绿色资产的占比的识别方法及相关产品
CN111144453A (zh) 构建多模型融合计算模型的方法及设备、网站数据识别方法及设备
CN112836007B (zh) 一种基于语境化注意力网络的关系元学习方法
CN108268461A (zh) 一种基于混合分类器的文本分类装置
CN111143533B (zh) 一种基于用户行为数据的客服方法及系统
CN112115230A (zh) 一种基于层次类别信息的知识图谱构建方法
CN107402984B (zh) 一种基于主题的分类方法及装置
CN115329083A (zh) 文档分类方法、装置、计算机设备和存储介质
CN115455198A (zh) 模型训练方法、法律诉讼信息对齐融合方法及其终端设备
CN115269816A (zh) 基于信息处理方法的核心人员挖掘方法、装置和存储介质
CN113033170B (zh) 表格标准化处理方法、装置、设备及存储介质
Ling et al. Financial Crisis Prediction Based on Long‐Term and Short‐Term Memory Neural Network
Li et al. University Students' behavior characteristics analysis and prediction method based on combined data mining model
Thant et al. Evaluation of student academic performance using Naïve Bayes classifier
CN110837847A (zh) 用户分类方法及装置、存储介质、服务器
Tian et al. An optional splitting extraction based gain-AUPRC balanced strategy in federated XGBoost for mitigating imbalanced credit card fraud detection

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 01.02.2021).

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18914270

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 18914270

Country of ref document: EP

Kind code of ref document: A1