WO2024104153A1 - 一种数据增强方法、系统、设备及计算机可读存储介质 - Google Patents

一种数据增强方法、系统、设备及计算机可读存储介质 Download PDF

Info

Publication number
WO2024104153A1
WO2024104153A1 PCT/CN2023/128611 CN2023128611W WO2024104153A1 WO 2024104153 A1 WO2024104153 A1 WO 2024104153A1 CN 2023128611 W CN2023128611 W CN 2023128611W WO 2024104153 A1 WO2024104153 A1 WO 2024104153A1
Authority
WO
WIPO (PCT)
Prior art keywords
target
data
historical data
time series
time
Prior art date
Application number
PCT/CN2023/128611
Other languages
English (en)
French (fr)
Inventor
贾上坤
郭坤
Original Assignee
苏州元脑智能科技有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 苏州元脑智能科技有限公司 filed Critical 苏州元脑智能科技有限公司
Publication of WO2024104153A1 publication Critical patent/WO2024104153A1/zh

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/21Design, administration or maintenance of databases
    • G06F16/215Improving data quality; Data cleansing, e.g. de-duplication, removing invalid entries or correcting typographical errors
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2458Special types of queries, e.g. statistical queries, fuzzy queries or distributed queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9537Spatial or temporal dependent retrieval, e.g. spatiotemporal queries
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02DCLIMATE CHANGE MITIGATION TECHNOLOGIES IN INFORMATION AND COMMUNICATION TECHNOLOGIES [ICT], I.E. INFORMATION AND COMMUNICATION TECHNOLOGIES AIMING AT THE REDUCTION OF THEIR OWN ENERGY USE
    • Y02D10/00Energy efficient computing, e.g. low power processors, power management or thermal management

Definitions

  • the present application relates to the field of data processing technology, and more specifically, to a data enhancement method, system, device and computer-readable storage medium.
  • the security and reliability of disks have always been one of the most concerned issues for data operation and maintenance personnel.
  • the operation data of the disks can be collected, and the failure of the disks can be determined by analyzing the operation data and performing corresponding maintenance.
  • the collected data due to the influence of equipment and human factors, the collected data inevitably has abnormal values and missing values, which leads to data garbled and missing problems, affecting the accurate operation and maintenance of the disks.
  • This application is to provide a data enhancement method, which can solve the technical problem of how to enhance data and improve data quality to a certain extent.
  • This application also provides a data enhancement system, device and computer-readable storage medium.
  • a data enhancement method comprising:
  • the target historical data to be enhanced including the data values at the target number of historical moments
  • the data value of the autoregressive model at the target moment is predicted to obtain the target data at the target moment, so as to enhance the target historical data based on the target data.
  • determining an autoregressive model of a characteristic time series based on a time series analysis method includes:
  • the characteristic time series is not a stationary series, perform a difference operation on the characteristic time series, and return to perform a unit root stationarity test on the characteristic time series and subsequent steps;
  • the white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as the target time series;
  • the data value of the autoregressive model at the target time is predicted based on the Kalman filter method to obtain the target data at the target time, including:
  • the discrete state expression and observation expression are predicted and updated to obtain the target data at the target time.
  • determining the autoregressive model of the target time series based on the Akaike information criterion includes:
  • the autoregressive model of the target time series is determined based on the Akaike information criterion.
  • x(t) represents the data value at time t
  • represents the corresponding parameter of the data value in the autoregressive model
  • p represents the order of the autoregressive model
  • a t represents the random interference signal at time t.
  • the discrete state expression and observation expression of the autoregressive model are determined based on the Kalman filter method, including:
  • X(t+1) represents the state vector at time (t+1);
  • a represents the state transfer matrix;
  • represents the excitation transfer matrix;
  • x p (t) represents the data value of the pth group of data values in the target historical data at time t;
  • w(t+1) represents the process noise vector at time (t+1);
  • the discrete state expression and the observation expression are predicted and updated, including:
  • the discrete state expression and observation expression are predicted and updated to obtain the target data at the target time;
  • the prediction formula includes:
  • the update formula includes:
  • Kt represents the Kalman gain at time t
  • R represents the covariance matrix of the measurement noise vector
  • I represents the preset value
  • obtaining target historical data to be enhanced includes:
  • the original historical data is screened to obtain the target historical data that meets the preset processing conditions.
  • the method further includes:
  • the target historical data is enhanced based on the target data.
  • the target historical data is enhanced based on the target data, including:
  • the target historical data is enhanced based on the target data, including:
  • outlier repair is performed on target historical data based on target data, including:
  • the data value at the target time in the target historical data can be replaced by the target data.
  • the target moment is a future moment based on target historical data, and/or a historical moment before the target historical data.
  • the target historical data is enhanced based on the target data, including:
  • the target historical data is expanded based on the target data.
  • the method further includes:
  • the enhanced target historical data is processed to obtain a processing result.
  • obtaining target historical data to be enhanced includes:
  • the attribute with the highest correlation with disk failure in the original disk SMART data is used as the target historical data to be enhanced.
  • the original disk SMART data in the original disk SMART after the original disk SMART data in the original disk SMART, it also includes:
  • the target historical data is any of the following data:
  • Disk operation performance data server operation performance data, and collected server log data.
  • a data augmentation system comprising:
  • a first acquisition module is used to acquire target historical data to be enhanced, where the target historical data includes data values at target number of historical moments;
  • a first determination module is used to determine a target time for enhancing target historical data
  • the first sorting module is used to sort the target historical data in chronological order to obtain a feature time series
  • a second determination module is used to determine the autoregressive model of the characteristic time series based on the time series analysis method
  • the first enhancement module is used to predict the data value of the autoregressive model at the target moment based on the Kalman filtering method to obtain the target data at the target moment, so as to enhance the target historical data based on the target data.
  • a data enhancement device comprising:
  • a processor is used to implement the steps of any of the above data enhancement methods when executing a computer program.
  • a non-volatile computer-readable storage medium stores a computer program, and when the computer program is executed by a processor, the steps of any of the above data enhancement methods are implemented.
  • the present application provides a data enhancement method, which obtains the target historical data to be enhanced, and the target historical data includes the data values at the target number of historical moments; determines the target moment for enhancing the target historical data; sorts the target historical data in chronological order to obtain a characteristic time series; determines the autoregressive model of the characteristic time series based on the time series analysis method; predicts the data value of the autoregressive model at the target moment based on the Kalman filter method to obtain the target data at the target moment, so as to enhance the target historical data based on the target data.
  • the data values at the target number of historical moments can be sorted according to the time series to obtain the characteristic time series, and the autoregressive model of the characteristic time series can be determined based on the time series analysis method, and the data value of the autoregressive model at the target moment can be predicted based on the Kalman filter method to obtain the target data at the target moment, which is equivalent to realizing data enhancement of the target historical data based on the time series analysis method and the Kalman filter method, thereby improving the data quality.
  • the data enhancement system, device and computer-readable storage medium provided by the present application also solve the corresponding technical problems.
  • FIG1 is a first flow chart of a data enhancement method provided in an embodiment of the present application.
  • FIG2 is a second flow chart of a data enhancement method provided in an embodiment of the present application.
  • FIG3 is an overall schematic diagram of a data enhancement method provided in an embodiment of the present application.
  • FIG4 is a schematic diagram of determining an autoregressive model based on a time series analysis method
  • FIG5 is a schematic diagram of the structure of a data enhancement system provided in an embodiment of the present application.
  • FIG6 is a schematic diagram of the structure of a data enhancement device provided in an embodiment of the present application.
  • FIG. 7 is another schematic diagram of the structure of a data enhancement device provided in an embodiment of the present application.
  • the data enhancement scheme provided in this application can enhance the data and improve the data quality.
  • FIG. 1 is a first flow chart of a data enhancement method provided in an embodiment of the present application.
  • Step S101 Acquire target historical data to be enhanced, where the target historical data includes data values at a target number of historical moments.
  • the target historical data to be enhanced can be obtained first, and the obtained target historical data includes data values at a target number of historical moments.
  • the type and quantity of the target historical data can be determined according to actual needs.
  • the target historical data can be performance data of disk operation, performance data of server operation, collected server log data, etc.
  • the target number can be 100, 200, 300, etc., and this application does not make specific limitations here.
  • the data irrelevant to data processing can be filtered out, that is, the original historical data to be enhanced can be obtained; the original historical data can be screened to obtain the target historical data that meets the preset processing conditions, where the preset processing conditions can be determined according to actual needs.
  • the preset processing conditions can be fault analysis, then the target historical data related to the fault analysis can be screened, etc.
  • Step S102 Determine the target time for enhancing the target historical data.
  • the target moment for enhancing the target historical data can be determined.
  • the target moment can be a future moment or a previous historical moment, etc. This application does not make specific limitations here.
  • Step S103 sort the target historical data in chronological order to obtain a characteristic time series.
  • the target historical data after determining the target time for enhancing the target historical data, can be sorted in chronological order to obtain a feature time series, so that the target historical data can be subsequently enhanced based on the feature time series.
  • Step S104 Determine the autoregressive model of the characteristic time series based on the time series analysis method.
  • the autoregressive model of the characteristic time series can be determined based on the time series analysis method, so that the target historical data can be enhanced based on the autoregressive model later.
  • time series analysis method involved in this application is a widely used branch of probability statistics. It uses mathematical statistics methods to process a set of data arranged in chronological order, combines the properties of the data itself, and establishes a mathematical model through curve fitting and parameter estimation to predict the development of things.
  • the biggest advantage of time series analysis is that it does not require in-depth exploration of the background of the signal sequence. Its own temporal sequence and autocorrelation provide sufficient information for modeling. Only a limited sample sequence is needed to establish a prediction model. Therefore, this application can use the time series analysis method to quickly determine the autoregressive model of the characteristic time series.
  • Step S105 predicting the data value of the autoregressive model at the target time based on the Kalman filter method to obtain the target data at the target time, so as to enhance the target historical data based on the target data.
  • the data value of the autoregressive model at the target time can be predicted based on the Kalman filter method to obtain the target data at the target time, so as to enhance the target historical data based on the target data.
  • the Kalman filter involved in this application is a widely used linear quadratic estimation method for the fusion of model data and observation data, which uses the system state space equation to optimally estimate the state quantity of the system through the input data and observation data of the system.
  • the advantage of Kalman filtering is that it obtains higher accuracy by dynamically modifying weights and using recursive equations, but the disadvantage is that it is difficult to establish the system state space equation.
  • This application uses time series analysis to establish a low-order model that can reflect the law of time series, and derives the state space equation of the system based on this.
  • the signal is optimally estimated through the prediction update formula of Kalman filtering, which not only avoids the establishment of a high-order time series model, but also reduces the difficulty of constructing the Kalman filter state space equation, and can better enhance the data.
  • the process of enhancing the target historical data based on the target data can be as follows: when the target moment is a previous historical moment, if the data value at the target moment does not exist in the target historical data, the target historical data can be checked for omissions based on the target data, and the target data can be filled into the target historical data; when the target moment is a previous historical moment, if the data value at the target moment exists in the target historical data, the target historical data can be detected and repaired based on the target data.
  • the data value at the target moment in the target historical data can be replaced with the target data; when the target moment is a future moment, the target historical data can be expanded based on the target data, etc.
  • This application does not make specific restrictions here.
  • the enhanced target historical data can also be processed, etc. This application does not make specific restrictions here.
  • the present application provides a data enhancement method, which obtains target historical data to be enhanced, the target historical data includes data values at a target number of historical moments; determines the target moment for enhancing the target historical data; sorts the target historical data in chronological order to obtain a characteristic time series; determines the autoregressive model of the characteristic time series based on the time series analysis method; predicts the data value of the autoregressive model at the target moment based on the Kalman filter method to obtain the target data at the target moment.
  • the data values at the target number of historical moments can be sorted according to the time series to obtain the characteristic time series, and the autoregressive model of the characteristic time series can be determined based on the time series analysis method, and the data value of the autoregressive model at the target moment can be predicted based on the Kalman filter method to obtain the target data at the target moment, which is equivalent to realizing data enhancement of the target historical data based on the time series analysis method and the Kalman filter method, thereby improving the data quality.
  • Figure 2 is a second flow chart of a data enhancement method provided in an embodiment of the present application
  • Figure 3 is an overall schematic diagram of a data enhancement method provided in an embodiment of the present application.
  • Step S201 Acquire target historical data to be enhanced, where the target historical data includes data values at a target number of historical moments.
  • Step S202 Determine the target time for enhancing the target historical data.
  • Step S203 sort the target historical data in chronological order to obtain a characteristic time series.
  • Step S204 Perform a unit root stationarity test on the characteristic time series.
  • Step S205 If the characteristic time series is not a stationary series, a difference operation is performed on the characteristic time series, and the process returns to perform a unit root stationarity test on the characteristic time series and subsequent steps.
  • Step S206 If the characteristic time series is a stationary series, the white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as the target time series.
  • Step S207 Determine the autoregressive model of the target time series based on the Akaike information criterion.
  • the unit root stationarity test of the characteristic time series can be performed; if the characteristic time series is not a stationary sequence, the characteristic time series is differentially operated, and the unit root stationarity test of the characteristic time series and subsequent steps are returned; if the characteristic time series is a stationary sequence, the white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as the target time series; the autoregressive model of the target time series is determined based on the Akaike information criterion (AIC).
  • AIC Akaike information criterion
  • the autoregressive model of the target time series can be determined based on the Akaike information criterion.
  • the autoregressive model includes:
  • x represents the data value
  • x(t) represents the data value at time t
  • represents the corresponding parameter of the data value in the autoregressive model
  • p represents the order of the autoregressive model
  • a t represents the random interference signal at time t.
  • Step S208 Determine the discrete state expression and observation expression of the autoregressive model based on the Kalman filtering method.
  • Step S209 Based on the Kalman filter method, the discrete state expression and the observation expression are predicted and updated to obtain the target data at the target time, so as to enhance the target historical data based on the target data.
  • the discrete state expression and observation expression of the autoregressive model can be determined based on the Kalman filtering method; based on the Kalman filtering method, the discrete state expression and observation expression are predicted and updated to obtain the target data at the target time.
  • the discrete state expression and observation expression of the autoregressive model can be determined based on the Kalman filtering method
  • X(t+1) represents the state vector at time (t+1);
  • A represents the state transfer matrix;
  • represents the excitation transfer matrix;
  • x p (t) represents the data value of the pth group of data values in the target historical data at time t;
  • w(t+1) represents the process noise vector at time (t+1);
  • the prediction formula and the update formula can be used to predict and update the discrete state expressions and observation expressions based on the Kalman filter method to obtain the target data at the target time;
  • the prediction formula includes:
  • the update formula includes:
  • Kt represents the Kalman gain at time t
  • R represents the covariance matrix of the measurement noise vector
  • I represents the preset value
  • the original disk SMART (Self-Monitoring Analysis and Reporting Technology) data is collected once a day through the data collection tool, and the original historical data can be stored in text format according to the date; SMART is an automatic disk status detection and early warning system and specification. This technology monitors and records the hardware performance of the disk through detection instructions, such as the original data read rate, the number of reallocated sectors, the number of disk calibration retries, the multi-region error rate and other attributes, and detects the health status of the disk by comparing thresholds.
  • the unified format can be Backblaze data set, etc.
  • the attribute with the highest correlation with disk failure in the original disk SMART is used as the target disk SMART data, for example, SMART 5, 9, 187, 188, 193, 194, 197, 198, 241, 242 are used as the target disk SMART data, where the meanings of these 10 features are shown in Table 1;
  • the characteristic time series is not a stationary series, perform a difference operation on the characteristic time series, and return to perform a unit root stationarity test on the characteristic time series and subsequent steps;
  • the white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as the target time series;
  • the discrete state expression and observation expression are predicted and updated to obtain the target data at the target time;
  • the enhanced SMART data of the target disk is analyzed to determine the cause of the disk failure.
  • FIG. 5 is a schematic diagram of the structure of a data enhancement system provided in an embodiment of the present application.
  • the first acquisition module 101 is used to acquire target historical data to be enhanced, where the target historical data includes data values at target number of historical moments;
  • a first determination module 102 is used to determine a target time for enhancing target historical data
  • the first sorting module 103 is used to sort the target historical data in chronological order to obtain a characteristic time series
  • a second determination module 104 is used to determine the autoregressive model of the characteristic time series based on the time series analysis method
  • the first enhancement module 105 is used to predict the data value of the autoregressive model at the target time based on the Kalman filter method to obtain the target data at the target time, so as to enhance the target historical data based on the target data.
  • the second determination module may include:
  • the first test unit is used to perform a unit root stationarity test on the characteristic time series; if the characteristic time series is not a stationary series, a differential operation is performed on the characteristic time series, and the unit root stationarity test on the characteristic time series and subsequent steps are returned; if the characteristic time series is a stationary series, the white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as the target time series;
  • the first determining unit is used to determine the autoregressive model of the target time series based on the Akaike information criterion.
  • a first enhancement module may include:
  • a second determination unit is used to determine a discrete state expression and an observation expression of the autoregressive model based on a Kalman filter method
  • the first enhancement unit is used to predict and update the discrete state expression and the observation expression based on the Kalman filter method to obtain the target data at the target time.
  • the first determination unit may be specifically used to:
  • the autoregressive model of the target time series is determined based on the Akaike information criterion.
  • x(t) represents the data value at time t
  • represents the corresponding parameter of the data value in the autoregressive model
  • p represents the order of the autoregressive model
  • a t represents the random interference signal at time t.
  • the second determination unit may be specifically used for:
  • X(t+1) represents the state vector at time (t+1);
  • A represents the state transfer matrix;
  • represents the excitation transfer matrix;
  • x p (t) represents the data value of the pth group of data values in the target historical data at time t;
  • w(t+1) represents the process noise vector at time (t+1);
  • the first enhancement unit may be specifically used for:
  • the discrete state expression and observation expression are predicted and updated to obtain the target data at the target time;
  • the prediction formula includes:
  • the update formula includes:
  • Kt represents the Kalman gain at time t
  • R represents the covariance matrix of the measurement noise vector
  • I represents the preset value
  • a first acquisition module may include:
  • a first acquisition unit used to acquire original historical data to be enhanced
  • the first screening unit is used to screen the original historical data to obtain target historical data that meets preset processing conditions.
  • the first processing module is used for the first enhancement module to predict the data value of the autoregressive model at the target time based on the Kalman filter method, and after obtaining the target data at the target time, enhance the target historical data based on the target data.
  • the first processing module may include:
  • the first processing unit is used to check and fill in the gaps of the target historical data based on the target data.
  • the first processing module may include:
  • the second processing unit is used to repair outliers on the target historical data based on the target data.
  • the first processing module may include:
  • the third processing unit is used to expand the target historical data based on the target data.
  • the second processing module is used for processing the enhanced target historical data after the first enhancement module enhances the target historical data based on the target data to obtain a processing result.
  • the present application also provides a data enhancement device and a computer readable storage medium, both of which have the corresponding effects of a data enhancement method provided in an embodiment of the present application.
  • Figure 6 is a structural schematic diagram of a data enhancement device provided in an embodiment of the present application.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented:
  • the target historical data to be enhanced including the data values at the target number of historical moments
  • the data value of the autoregressive model at the target moment is predicted to obtain the target data at the target moment, so as to enhance the target historical data based on the target data.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • a computer program is stored in the memory 201.
  • the processor 202 executes the computer program, the following steps are implemented: a unit root stationarity test is performed on a characteristic time series; if the characteristic time series is not a stationary sequence, a difference operation is performed on the characteristic time series, and the unit root stationarity test on the characteristic time series and subsequent steps are returned to be executed; if the characteristic time series is a stationary sequence, white noise in the characteristic time series is filtered out, and the remaining data in the characteristic time series is used as a target time series; and an autoregressive model of the target time series is determined based on the Akaike information criterion.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • a computer program is stored in the memory 201.
  • the processor 202 executes the computer program, the following steps are implemented: based on the Kalman filtering method, the discrete state expression and the observation expression of the autoregressive model are determined; based on the Kalman filtering method, the discrete state expression and the observation expression are predicted and updated to obtain the target data at the target time.
  • a data enhancement device includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: an autoregressive model of a target time series is determined based on the Akaike information criterion.
  • x(t) represents the data value at time t
  • represents the corresponding parameter of the data value in the autoregressive model
  • p represents the order of the autoregressive model
  • a t represents the random interference signal at time t.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: determining a discrete state expression and an observation expression of an autoregressive model based on a Kalman filter method;
  • X(t+1) represents the state vector at time (t+1);
  • A represents the state transfer matrix;
  • represents the excitation transfer matrix;
  • x p (t) represents the data value of the pth group of data values in the target historical data at time t;
  • w(t+1) represents the process noise vector at time (t+1);
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: using a prediction formula and an update formula, based on a Kalman filter method, a discrete state expression and an observation expression are predicted and updated to obtain target data at a target time;
  • the prediction formula includes:
  • the update formula includes:
  • Kt represents the Kalman gain at time t
  • R represents the covariance matrix of the measurement noise vector
  • I represents the preset value
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: obtaining original historical data to be enhanced; screening the original historical data to obtain target historical data that meets preset processing conditions.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • a computer program is stored in the memory 201.
  • the processor 202 executes the computer program, the following steps are implemented: based on the Kalman filtering method, the data value of the autoregressive model at the target time is predicted, and after the target data at the target time is obtained, the target historical data is enhanced based on the target data.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: checking and filling in gaps in target historical data based on target data.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: repairing outliers on target historical data based on target data.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: expanding target historical data based on target data.
  • a data enhancement device provided in an embodiment of the present application includes a memory 201 and a processor 202.
  • the memory 201 stores a computer program.
  • the processor 202 executes the computer program, the following steps are implemented: after enhancing target historical data based on target data, the enhanced target historical data is processed to obtain a processing result.
  • Another data enhancement device may also include: an input port 203 connected to the processor 202, for transmitting commands inputted from the outside to the processor 202; a display unit 204 connected to the processor 202, for displaying the processing result of the processor 202 to the outside; and a communication module 205 connected to the processor 202, for realizing communication between the data enhancement device and the outside.
  • the display unit 204 may be a display panel, a laser scanning display, etc.; the communication mode adopted by the communication module 205 includes but is not limited to mobile high-definition link technology (HML), universal serial bus (USB), high-definition multimedia interface (HDMI), wireless connection: wireless fidelity technology (WiFi), Bluetooth communication technology, low-power Bluetooth communication technology, and communication technology based on IEEE802.11s.
  • HML mobile high-definition link technology
  • USB universal serial bus
  • HDMI high-definition multimedia interface
  • WiFi wireless fidelity technology
  • Bluetooth communication technology Bluetooth communication technology
  • low-power Bluetooth communication technology low-power Bluetooth communication technology
  • An embodiment of the present application provides a non-volatile computer-readable storage medium, in which a computer program is stored.
  • a computer program is stored.
  • the steps of the data enhancement method described in any of the above embodiments are implemented.
  • the non-volatile computer-readable storage medium involved in the present application includes random access memory (RAM), internal memory, read-only memory (ROM), electrically programmable ROM, electrically erasable programmable ROM, registers, hard disks, removable disks, CD-ROMs, or any other form of storage medium known in the technical field.
  • RAM random access memory
  • ROM read-only memory
  • electrically programmable ROM electrically erasable programmable ROM
  • registers hard disks, removable disks, CD-ROMs, or any other form of storage medium known in the technical field.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Quality & Reliability (AREA)
  • Fuzzy Systems (AREA)
  • Mathematical Physics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

提供了一种数据增强方法、系统、设备及计算机可读存储介质,获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;确定对目标历史数据进行增强的目标时刻;按照时间顺序对目标历史数据进行排序,得到特征时间序列;基于时间序列分析法确定特征时间序列的自回归模型;基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据。

Description

一种数据增强方法、系统、设备及计算机可读存储介质
相关申请的交叉引用
本申请要求于2022年11月14日提交中国专利局,申请号为202211417465.8,申请名称为“一种数据增强方法、系统、设备及计算机可读存储介质”的中国专利申请的优先权,其全部内容通过引用结合在本申请中
技术领域
本申请涉及数据处理技术领域,更具体地说,涉及一种数据增强方法、系统、设备及计算机可读存储介质。
背景技术
随着科技的飞速发展,人们已经进入了信息化、网络化的时代,数据量呈指数爆炸式增长,全世界的数据水平已经从TB跃升至PB、EB乃至ZB级别。此外,大数据、云存储技术的日新月异也对存储系统提出了更高的要求。
磁盘作为数据的存储仓库,其安全性和可靠性一直以来都是数据运维人员最为关注的问题之一。为了对磁盘进行运维,可以采集磁盘的运行数据,通过对运行数据进行分析来确定磁盘的故障并进行相应的维护等。然而,在此过程中,由于设备和人为因素的影响,采集的数据不可避免地出现异常值、缺失值等情况,从而引发数据乱码、缺漏的问题,影响对磁盘的准确运维。
综上所述,如何对数据进行增强,提高数据质量是目前本领域技术人员亟待解决的问题。
发明内容
本申请的目的是提供一种数据增强方法,其能在一定程度上解决如何对数据进行增强,提高数据质量的技术问题。本申请还提供了一种数据增强系统、设备及计算机可读存储介质。
为了实现上述目的,本申请提供如下技术方案:
一种数据增强方法,包括:
获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;
确定对目标历史数据进行增强的目标时刻;
按照时间顺序对目标历史数据进行排序,得到特征时间序列;
基于时间序列分析法确定特征时间序列的自回归模型;
基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
在本申请一些实施例中,基于时间序列分析法确定特征时间序列的自回归模型,包括:
对特征时间序列进行单位根平稳性检验;
若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤;
若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列;
基于赤池信息量准则确定目标时间序列的自回归模型。
在本申请一些实施例中,基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,包括:
基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据。
在本申请一些实施例中,基于赤池信息量准则确定目标时间序列的自回归模型,包括:
基于赤池信息量准则确定目标时间序列的自回归模型,自回归模型包括:
x(t)=φ1x(t-1)+φ2(t-2)+…+φpx(t-p)+at
其中,x(t)示在t时刻的数据值;φ表示数据值在自回归模型中的对应参数;p表示自回归模型的阶数;at表示在t时刻的随机干扰信号。
在本申请一些实施例中,基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式,包括:
基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
离散状态表达式包括:X(t+1)=A·X(t)+Γ·w(t+1);

其中,X(t+1)表示(t+1)时刻下的状态向量;a表示状态转移矩阵;Γ表示激励转移矩阵;xp(t)表示目标历史数据中第p组数据值在t时刻下的数据值;w(t+1)表示(t+1)时刻下的过程噪声向量;
观测表达式包括:Z(t+1)=H·X(t+1)+v(t+1);
H=[1 0 … 0 0];
其中,Z(t+1)表示(t+1)时刻下的观测向量;H表示观测状态矩阵;v(t+1)表示(t+1)时刻下的测量噪声向量。
在本申请一些实施例中,基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,包括:
通过预测公式及更新公式,基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据;
预测公式包括:
其中,表示系统状态在t时刻下的先验估计;表示系统状态在(t-1)时刻下的后验估计;表示预测的误差协方差矩阵在t时刻下的先验估计;Pt-1表示(t-1)时刻下的更新后的误差协方差矩阵;T表示矩阵的转置;Q表示过程噪声向量的协方差矩阵;
更新公式包括:

其中,Kt表示t时刻下的卡尔曼增益;R表示测量噪声向量的协方差矩阵;I表示预设值。
在本申请一些实施例中,获取待增强的目标历史数据,包括:
获取待增强的原始历史数据;
对原始历史数据进行筛选,得到满足预设处理条件的目标历史数据。
在本申请一些实施例中,基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据之后,还包括:
基于目标数据对目标历史数据进行增强。
在本申请一些实施例中,基于目标数据对目标历史数据进行增强,包括:
基于目标数据对目标历史数据进行查漏补缺。
在本申请一些实施例中,基于目标数据对目标历史数据进行增强,包括:
基于目标数据对目标历史数据进行异常值修复。
在本申请一些实施例中,基于目标数据对目标历史数据进行异常值修复,包括:
若检测到目标历史数据中目标时刻下的数据值与目标数据间的差值过大,则可以将目标历史数据中该目标时刻下的数据值替换为目标数据。
在本申请一些实施例中,目标时刻为基于目标历史数据的未来的时刻,和/或基于目标历史数据之前的历史时刻。
在本申请一些实施例中,基于目标数据对目标历史数据进行增强,包括:
基于目标数据对目标历史数据进行扩充。
在本申请一些实施例中,基于目标数据对目标历史数据进行增强之后,还包括:
对增强后的目标历史数据进行处理,得到处理结果。
在本申请一些实施例中,获取待增强的目标历史数据,包括:
获取原始磁盘SMART中的原始磁盘SMART数据;
将原始磁盘SMART数据中与磁盘故障相关性最高的属性作为待增强的目标历史数据。
在本申请一些实施例中,在原始磁盘SMART中的原始磁盘SMART数据之后,还包括:
将原始磁盘SMART数据转变为统一格式进行标准化存储。
在本申请一些实施例中,目标历史数据为以下任意数据:
磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据。
一种数据增强系统,包括:
第一获取模块,用于获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;
第一确定模块,用于确定对目标历史数据进行增强的目标时刻;
第一排序模块,用于按照时间顺序对目标历史数据进行排序,得到特征时间序列;
第二确定模块,用于基于时间序列分析法确定特征时间序列的自回归模型;
第一增强模块,用于基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
一种数据增强设备,包括:
存储器,用于存储计算机程序;
处理器,用于执行计算机程序时实现如上任一数据增强方法的步骤。
一种非易失性计算机可读存储介质,非易失性计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如上任一数据增强方法的步骤。
本申请提供的一种数据增强方法,获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;确定对目标历史数据进行增强的目标时刻;按照时间顺序对目标历史数据进行排序,得到特征时间序列;基于时间序列分析法确定特征时间序列的自回归模型;基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。本申请中,可以按照时间序列对目标数量个历史时刻下的数据值进行排序得到特征时间序列,且可以基于时间序列分析法确定特征时间序列的自回归模型,基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,相当于实现了基于时间序列分析法及卡尔曼滤波法对目标历史数据进行数据增强,提高了数据质量。本申请提供的一种数据增强系统、设备及计算机可读存储介质也解决了相应技术问题。
附图说明
为了更清楚地说明本申请实施例或现有技术中的技术方案,下面将对实施例或现有技术描述中所需要使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的实施例,对于本领域普通技术人员来讲,在不付出创造性劳动的前提下,还可以根据提供的附图获得其他的附图。
图1为本申请实施例提供的一种数据增强方法的第一流程图;
图2为本申请实施例提供的一种数据增强方法的第二流程图;
图3为本申请实施例提供的一种数据增强方法的整体示意图;
图4为基于时间序列分析法确定自回归模型的示意图;
图5为本申请实施例提供的一种数据增强系统的结构示意图;
图6为本申请实施例提供的一种数据增强设备的结构示意图;
图7为本申请实施例提供的一种数据增强设备的另一结构示意图。
具体实施方式
下面将结合本申请实施例中的附图,对本申请实施例中的技术方案进行清楚、完整地描述,显然,所描述的实施例仅仅是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有做出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
随着科技的飞速发展,人们已经进入了信息化、网络化的时代,数据量呈指数爆炸式增长,全世界的数据水平已经从TB跃升至PB、EB乃至ZB级别。此外,大数据、云存储技术的日新月异也对存储系统提出了更高的要求。磁盘作为数据的存储仓库,其安全性和可靠性一直以来都是数据运维人员最为关注的问题之一。为了对磁盘进行运维,可以采集磁盘的运行数据,通过对运行数据进行分析来确定磁盘的故障并进行相应的维护等。然而,在此过程中,由于设备和人为因素的影响,采集的数据不可避免地出现异常值、缺失值等情况,从而引发数据乱码、缺漏的问题,影响对磁盘的准确运维。而本申请提供的数据增强方案可以对数据进行增强,提高数据质量。
请参阅图1,图1为本申请实施例提供的一种数据增强方法的第一流程图。
本申请实施例提供的一种数据增强方法,可以包括以下步骤:
步骤S101:获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值。
实际应用中,可以先获取待增强的目标历史数据,且所获取的目标历史数据包括目标数量个历史时刻下的数据值,需要说明的是,目标历史数据的类型及数量等可以根据实际需要确定,比如目标历史数据可以为磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据等,目标数量可以为100、200、300等,本申请在此不做具体限定。
具体应用场景中,在获取待增强的目标历史数据的过程中,考虑到采集的数据一般会携带对数据处理无关的数据,此时对这类数据进行数据增强的话,会影响最终的数据处理效果,所以为了保证数据处理效果,可以过滤掉对数据处理无关的数据,也即可以获取待增强的原始历史数据;对原始历史数据进行筛选,得到满足预设处理条件的目标历史数据,其中预设处理条件可以根据实际需要确定,比如预设处理条件可以为故障分析,则可以筛选得到与故障分析相关的目标历史数据等。
步骤S102:确定对目标历史数据进行增强的目标时刻。
实际应用中,在获取待增强的目标历史数据之后,便可以确定对目标历史数据进行增强的目标时刻,该目标时刻可以为未来的某一时刻,也可以为之前的某一历史时刻等,本申请在此不做具体限定。
步骤S103:按照时间顺序对目标历史数据进行排序,得到特征时间序列。
实际应用中,在确定对目标历史数据进行增强的目标时刻之后,便可以按照时间顺序对目标历史数据进行排序,得到特征时间序列,以便后续基于特征时间序列对目标历史数据进行增强。
步骤S104:基于时间序列分析法确定特征时间序列的自回归模型。
实际应用中,在按照时间顺序对目标历史数据进行排序,得到特征时间序列之后,便可以基于时间序列分析法确定特征时间序列的自回归模型,以便后续基于自回归模型对目标历史数据进行增强。
需要说明的是,本申请中所涉及的时间序列分析法是概率统计学科中应用广泛的一个分支,其利用数理统计方法对按时间顺序排列的一组数据加以处理,结合数据本身的性质,通过曲线拟合和参数估计来建立数学模型,从而预测事物的发展,时间序列分析最大的优点在于不需要深入挖掘信号序列产生的背景,其本身所具有的时序性和自相关性,为建模提供了足够的信息,只需要有限的样本序列,就可以建立预测模型,所以本申请可以借助时间序列分析法快速确定特征时间序列的自回归模型。
步骤S105:基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
实际应用中,基于时间序列分析法确定特征时间序列的自回归模型之后,便可以基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
需要说明的是,本申请中所涉及的卡尔曼滤波是一种应用广泛的模型数据和观测数据融合的线性二次估计方法,利用系统状态空间方程,通过系统的输入数据和观测数据,对系统的状态量进行最优估计。卡尔曼滤波的优点是通过动态修改权值和利用递推方程来获得较高的精度,但是缺点是系统状态空间方程的建立较为困难。而本申请利用时间序列分析建立一个能够反映时间序列规律的低阶模型,据此推导出系统的状态空间方程,通过卡尔曼滤波的预测更新公式对信号进行最优化估计,不仅避免了建立高阶时间序列模型,而且降低了构建卡尔曼滤波状态空间方程的难度,可以更好的对数据进行增强处理。
需要说明的是,在得到目标时刻下的目标数据之后,基于目标数据对目标历史数据进行增强的过程可以如下:当目标时刻为之前的某一历史时刻时,若该目标历史数据中不存在该目标时刻下的数据值,则可以基于目标数据对目标历史数据进行查漏补缺,将目标数据填充至目标历史数据中等;当目标时刻为之前的某一历史时刻时,若该目标历史数据中存在该目标时刻下的数据值,则可以基于目标数据对目标历史数据进行异常值检测、修复,比如若检测到目标历史数据中该目标时刻下的数据值与目标数据间的差值过大,则可以将目标历史数据中该目标时刻下的数据值替换为目标数据等;当目标时刻为未来的某一时刻,则可以基于目标数据对目标历史数据进行扩充等;本申请在此不做具体限定。此外,还需说明的是,在基于目标数据对目标历史数据进行增强之后,还可以对增强后的目标历史数据进行处理等,本申请在此不做具体限定。
本申请提供的一种数据增强方法,获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;确定对目标历史数据进行增强的目标时刻;按照时间顺序对目标历史数据进行排序,得到特征时间序列;基于时间序列分析法确定特征时间序列的自回归模型;基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据。本申请中,可以按照时间序列对目标数量个历史时刻下的数据值进行排序得到特征时间序列,且可以基于时间序列分析法确定特征时间序列的自回归模型,基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,相当于实现了基于时间序列分析法及卡尔曼滤波法对目标历史数据进行数据增强,提高了数据质量。
请参阅图2和图3,图2为本申请实施例提供的一种数据增强方法的第二流程图,图3为本申请实施例提供的一种数据增强方法的整体示意图。
本申请实施例提供的一种数据增强方法,可以包括以下步骤:
步骤S201:获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值。
步骤S202:确定对目标历史数据进行增强的目标时刻。
步骤S203:按照时间顺序对目标历史数据进行排序,得到特征时间序列。
步骤S204:对特征时间序列进行单位根平稳性检验。
步骤S205:若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤。
步骤S206:若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列。
步骤S207:基于赤池信息量准则确定目标时间序列的自回归模型。
实际应用中,请参阅图4,在基于时间序列分析法确定特征时间序列的自回归模型的过程中,可以对特征时间序列进行单位根平稳性检验;若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤;若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列;基于赤池信息量准则(Akaike information criterion,AIC)确定目标时间序列的自回归模型。
具体应用场景中,在基于赤池信息量准则确定目标时间序列的自回归模型的过程中,可以基于赤池信息量准则确定目标时间序列的自回归模型,自回归模型包括:
其中,x表示数据值;x(t)表示在t时刻的数据值;φ表示数据值在自回归模型中的对应参数;p表示自回归模型的阶数;at表示在t时刻的随机干扰信号。
步骤S208:基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式。
步骤S209:基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
实际应用中,在基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据的过程中,可以基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据。
具体应用场景中,假设卡尔曼滤波的离散状态表达式和观测表达式如下:
X(t)=A·X(t-1)+Γ·w(t);Z(t)=H·X(t)+v(t);
将自回归模型变形为:
x(t+1)=φ1x(t)+φ2x(t-1)+…+φpx(t-p+1)+at+1
令x(t)=x1(t),x(t-1)=x2(t),…,x(t-p+1)=xp(t),则有:
x1(t+1)=φ1x(t)+φ2x2(t)+…+φpxp(t)+at+1
又因为x2(t+1)=x1(t),x3(t+1)=x2(t),…,xp(t+1)=xp-1(t),所以可得离散状态表达式为:
并且根据上述离散状态表达式,可以建立如下观测表达式:
换言之,在基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式的过程中,可以基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
离散状态表达式包括:X(t+1)=A·X(t)+Γ·w(t+1);

其中,X(t+1)表示(t+1)时刻下的状态向量;A表示状态转移矩阵;Γ表示激励转移矩阵;xp(t)表示目标历史数据中第p组数据值在t时刻下的数据值;w(t+1)表示(t+1)时刻下的过程噪声向量;
观测表达式包括:Z(t+1)=H·X(t+1)+v(t+1);
H=[1 0 … 0 0];
其中,Z(t+1)表示(t+1)时刻下的观测向量;H表示观测状态矩阵;v(t+1)表示(t+1)时刻下的测量噪声向量。
具体应用场景中,在基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新的过程中,可以通过预测公式及更新公式,基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据;
预测公式包括:
其中,表示系统状态在t时刻下的先验估计;表示系统状态在(t-1)时刻下的后验估计;表示预测的误差协方差矩阵在t时刻下的先验估计;Pt-1表示 (t-1)时刻下的更新后的误差协方差矩阵;T表示矩阵的转置;Q表示过程噪声向量的协方差矩阵;
更新公式包括:

其中,Kt表示t时刻下的卡尔曼增益;R表示测量噪声向量的协方差矩阵;I表示预设值。
为了便于理解本申请提供的数据增强方法,现结合对磁盘数据的故障分析过程来对其进行描述,其可以包括以下步骤:
通过数据采集工具每天采集一次原始磁盘SMART(Self-Monitoring Analysis and Reporting Technology,自我监控、分析和报告技术)数据,且可以按照日期以文本格式存储原始历史数据;其中,SMART是一种自动的磁盘状态检测与预警系统和规范,该技术通过检测指令监控、记录磁盘的硬件性能,如原始数据读取率、重新分配扇区数、磁盘校准重试次数、多区域错误率等属性,并通过比较阈值来检测磁盘的健康状态等;
将原始磁盘SMART数据转变为统一格式进行标准化存储,统一格式可以为Backblaze数据集等;
将原始磁盘SMART中与磁盘故障相关性最高的属性作为目标磁盘SMART数据,比如将SMART 5,9,187,188,193,194,197,198,241,242这10个特征作为目标磁盘SMART数据等,其中,这10个特征的含义如表1所示;
确定对目标磁盘SMART数据进行增强的目标时刻;
按照时间顺序对目标磁盘SMART数据进行排序,得到特征时间序列;
对特征时间序列进行单位根平稳性检验;
若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤;
若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列;
基于赤池信息量准则确定目标时间序列的自回归模型;
基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据;
基于目标数据对目标磁盘SMART数据进行增强;
基于机器学习方法,对增强后的目标磁盘SMART数据进行分析,确定磁盘的故障原因等。
表1 SMART候选特征说明

请参阅图5,图5为本申请实施例提供的一种数据增强系统的结构示意图。
本申请实施例提供的一种数据增强系统,可以包括:
第一获取模块101,用于获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;
第一确定模块102,用于确定对目标历史数据进行增强的目标时刻;
第一排序模块103,用于按照时间顺序对目标历史数据进行排序,得到特征时间序列;
第二确定模块104,用于基于时间序列分析法确定特征时间序列的自回归模型;
第一增强模块105,用于基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
本申请实施例提供的一种数据增强系统,第二确定模块可以包括:
第一检验单元,用于对特征时间序列进行单位根平稳性检验;若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤;若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列;
第一确定单元,用于基于赤池信息量准则确定目标时间序列的自回归模型。
本申请实施例提供的一种数据增强系统,第一增强模块可以包括:
第二确定单元,用于基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
第一增强单元,用于基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据。
本申请实施例提供的一种数据增强系统,第一确定单元可以具体用于:
基于赤池信息量准则确定目标时间序列的自回归模型,自回归模型包括:
x(t)=φ1x(t-1)+φ2x(t-2)+…+φpx(t-p)+at
其中,x(t)表示在t时刻的数据值;φ表示数据值在自回归模型中的对应参数;p表示自回归模型的阶数;at表示在t时刻的随机干扰信号。
本申请实施例提供的一种数据增强系统,第二确定单元可以具体用于:
基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
离散状态表达式包括:X(t+1)=A·X(t)+Γ·w(t+1);

其中,X(t+1)表示(t+1)时刻下的状态向量;A表示状态转移矩阵;Γ表示激励转移矩阵;xp(t)表示目标历史数据中第p组数据值在t时刻下的数据值;w(t+1)表示(t+1)时刻下的过程噪声向量;
观测表达式包括:Z(t+1)=H·X(t+1)+v(t+1);
H=[1 0 … 0 0];
其中,Z(t+1)表示(t+1)时刻下的观测向量;H表示观测状态矩阵;v(t+1)表示(t+1)时刻下的测量噪声向量。
本申请实施例提供的一种数据增强系统,第一增强单元可以具体用于:
通过预测公式及更新公式,基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据;
预测公式包括:
其中,表示系统状态在t时刻下的先验估计;表示系统状态在(t-1)时刻下的后验估计;表示预测的误差协方差矩阵在t时刻下的先验估计;Pt-1表示(t-1)时刻下的更新后的误差协方差矩阵;T表示矩阵的转置;Q表示过程噪声向量的协方差矩阵;
更新公式包括:

其中,Kt表示t时刻下的卡尔曼增益;R表示测量噪声向量的协方差矩阵;I表示预设值。
本申请实施例提供的一种数据增强系统,第一获取模块可以包括:
第一获取单元,用于获取待增强的原始历史数据;
第一筛选单元,用于对原始历史数据进行筛选,得到满足预设处理条件的目标历史数据。
本申请实施例提供的一种数据增强系统,还可以包括:
第一处理模块,用于第一增强模块基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据之后,基于目标数据对目标历史数据进行增强。
本申请实施例提供的一种数据增强系统,第一处理模块可以包括:
第一处理单元,用于基于目标数据对目标历史数据进行查漏补缺。
本申请实施例提供的一种数据增强系统,第一处理模块可以包括:
第二处理单元,用于基于目标数据对目标历史数据进行异常值修复。
本申请实施例提供的一种数据增强系统,第一处理模块可以包括:
第三处理单元,用于基于目标数据对目标历史数据进行扩充。
本申请实施例提供的一种数据增强系统,还可以包括:
第二处理模块,用于第一增强模块基于目标数据对目标历史数据进行增强之后,对增强后的目标历史数据进行处理,得到处理结果。
本申请还提供了一种数据增强设备及计算机可读存储介质,其均具有本申请实施例提供的一种数据增强方法具有的对应效果。请参阅图6,图6为本申请实施例提供的一种数据增强设备的结构示意图。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:
获取待增强的目标历史数据,目标历史数据包括目标数量个历史时刻下的数据值;
确定对目标历史数据进行增强的目标时刻;
按照时间顺序对目标历史数据进行排序,得到特征时间序列;
基于时间序列分析法确定特征时间序列的自回归模型;
基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据,以基于目标数据对目标历史数据进行增强。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:对特征时间序列进行单位根平稳性检验;若特征时间序列并非平稳性序列,则对特征时间序列进行差分运算,返回执行对特征时间序列进行单位根平稳性检验及之后的步骤;若特征时间序列为平稳性序列,则过滤掉特征时间序列中的白噪声,将特征时间序列中的剩余数据作为目标时间序列;基于赤池信息量准则确定目标时间序列的自回归模型。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于赤池信息量准则确定目标时间序列的自回归模型,自回归模型包括:
x(t)=φ1x(t-1)+φ2x(t-2)+…+φpx(t-p)+at
其中,x(t)表示在t时刻的数据值;φ表示数据值在自回归模型中的对应参数;p表示自回归模型的阶数;at表示在t时刻的随机干扰信号。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于卡尔曼滤波法确定自回归模型的离散状态表达式和观测表达式;
离散状态表达式包括:X(t+1)=A·X(t)+Γ·w(t+1);

其中,X(t+1)表示(t+1)时刻下的状态向量;A表示状态转移矩阵;Γ表示激励转移矩阵;xp(t)表示目标历史数据中第p组数据值在t时刻下的数据值;w(t+1)表示(t+1)时刻下的过程噪声向量;
观测表达式包括:Z(t+1)=H·X(t+1)+v(t+1);
H=[1 0 … 0 0];
其中,Z(t+1)表示(t+1)时刻下的观测向量;H表示观测状态矩阵;v(t+1)表示(t+1)时刻下的测量噪声向量。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:通过预测公式及更新公式,基于卡尔曼滤波法中,对离散状态表达式和观测表达式进行预测、更新,得到目标时刻下的目标数据;
预测公式包括:
其中,表示系统状态在t时刻下的先验估计;表示系统状态在(t-1)时刻下的后验估计;表示预测的误差协方差矩阵在t时刻下的先验估计;Pt-1表示 (t-1)时刻下的更新后的误差协方差矩阵;T表示矩阵的转置;Q表示过程噪声向量的协方差矩阵;
更新公式包括:

其中,Kt表示t时刻下的卡尔曼增益;R表示测量噪声向量的协方差矩阵;I表示预设值。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:获取待增强的原始历史数据;对原始历史数据进行筛选,得到满足预设处理条件的目标历史数据。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于卡尔曼滤波法对自回归模型在目标时刻下的数据值进行预测,得到目标时刻下的目标数据之后,基于目标数据对目标历史数据进行增强。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于目标数据对目标历史数据进行查漏补缺。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于目标数据对目标历史数据进行异常值修复。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于目标数据对目标历史数据进行扩充。
本申请实施例提供的一种数据增强设备,包括存储器201和处理器202,存储器201中存储有计算机程序,处理器202执行计算机程序时实现如下步骤:基于目标数据对目标历史数据进行增强之后,对增强后的目标历史数据进行处理,得到处理结果。
请参阅图7,本申请实施例提供的另一种数据增强设备中还可以包括:与处理器202连接的输入端口203,用于传输外界输入的命令至处理器202;与处理器202连接的显示单元204,用于显示处理器202的处理结果至外界;与处理器202连接的通信模块205,用于实现数据增强设备与外界的通信。显示单元204可以为显示面板、激光扫描使显示器等;通信模块205所采用的通信方式包括但不局限于移动高清链接技术(HML)、通用串行总线(USB)、高清多媒体接口(HDMI)、无线连接:无线保真技术(WiFi)、蓝牙通信技术、低功耗蓝牙通信技术、基于IEEE802.11s的通信技术。
本申请实施例提供的一种非易失性计算机可读存储介质,非易失性计算机可读存储介质中存储有计算机程序,计算机程序被处理器执行时实现如上任一实施例所描述数据增强方法的步骤。
本申请所涉及的非易失性计算机可读存储介质包括随机存储器(RAM)、内存、只读存储器(ROM)、电可编程ROM、电可擦除可编程ROM、寄存器、硬盘、可移动磁盘、CD-ROM、或技术领域内所公知的任意其它形式的存储介质。
本申请实施例提供的数据增强系统、设备及计算机可读存储介质中相关部分的说明请参见本申请实施例提供的数据增强方法中对应部分的详细说明,在此不再赘述。另外,本申请实施例提供的上述技术方案中与现有技术中对应技术方案实现原理一致的部分并未详细说明,以免过多赘述。
还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括要素的过程、方法、物品或者设备中还存在另外的相同要素。
对所公开的实施例的上述说明,使本领域技术人员能够实现或使用本申请。对这些实施例的多种修改对本领域技术人员来说将是显而易见的,本文中所定义的一般原理可以在不脱离本申请的精神或范围的情况下,在其它实施例中实现。因此,本申请将不会被限制于本文所示的这些实施例,而是要符合与本文所公开的原理和新颖特点相一致的最宽的范围。

Claims (20)

  1. 一种数据增强方法,其特征在于,包括:
    获取待增强的目标历史数据,所述目标历史数据包括目标数量个历史时刻下的数据值;
    确定对所述目标历史数据进行增强的目标时刻;
    按照时间顺序对所述目标历史数据进行排序,得到特征时间序列;
    基于时间序列分析法确定所述特征时间序列的自回归模型;
    基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测,得到所述目标时刻下的目标数据,以基于所述目标数据对所述目标历史数据进行增强。
  2. 根据权利要求1所述的方法,其特征在于,所述基于时间序列分析法确定所述特征时间序列的自回归模型,包括:
    对所述特征时间序列进行单位根平稳性检验;
    若所述特征时间序列并非平稳性序列,则对所述特征时间序列进行差分运算,返回执行所述对所述特征时间序列进行单位根平稳性检验及之后的步骤;
    若所述特征时间序列为平稳性序列,则过滤掉所述特征时间序列中的白噪声,将所述特征时间序列中的剩余数据作为目标时间序列;
    基于赤池信息量准则确定所述目标时间序列的所述自回归模型。
  3. 根据权利要求2所述的方法,其特征在于,所述基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测,得到所述目标时刻下的目标数据,包括:
    基于所述卡尔曼滤波法确定所述自回归模型的离散状态表达式和观测表达式;
    基于所述卡尔曼滤波法中,对所述离散状态表达式和所述观测表达式进行预测、更新,得到所述目标时刻下的所述目标数据。
  4. 根据权利要求3所述的方法,其特征在于,所述基于赤池信息量准则确定所述目标时间序列的所述自回归模型,包括:
    基于所述赤池信息量准则确定所述目标时间序列的所述自回归模型,所述自回归模型包括:
    x(t)=φ1x(t-1)+φ2x(t-2)+…+φpx(t-p)+at
    其中,x(t)表示在t时刻的数据值;φ表示所述数据值在所述自回归模型中的对应参数;p表示所述自回归模型的阶数;at表示在t时刻的随机干扰信号。
  5. 根据权利要求4所述的方法,其特征在于,所述基于所述卡尔曼滤波法确定所述自回归模型的离散状态表达式和观测表达式,包括:
    基于所述卡尔曼滤波法确定所述自回归模型的所述离散状态表达式和所述观测表达式;
    所述离散状态表达式包括:X(t+1)=A·X(t)+Γ·w(t+1);

    其中,X(t+1)表示(t+1)时刻下的状态向量;A表示状态转移矩阵;Γ表示激励转移矩阵;xp(t)表示所述目标历史数据中第p组数据值在t时刻下的数据值;w(t+1)表示(t+1)时刻下的过程噪声向量;
    所述观测表达式包括:Z(t+1)=H·X(t+1)+v(t+1);
    H=[1 0 … 0 0];
    其中,Z(t+1)表示(t+1)时刻下的观测向量;H表示观测状态矩阵;v(t+1)表示(t+1)时刻下的测量噪声向量。
  6. 根据权利要求5所述的方法,其特征在于,所述基于所述卡尔曼滤波法中,对所述离散状态表达式和所述观测表达式进行预测、更新,包括:
    通过预测公式及更新公式,基于所述卡尔曼滤波法中,对所述离散状态表达式和所述观测表达式进行预测、更新,得到所述目标时刻下的所述目标数据;
    所述预测公式包括:
    其中,表示系统状态在t时刻下的先验估计;表示系统状态在(t-1)时刻下的后验估计;表示预测的误差协方差矩阵在t时刻下的先验估计;Pt-1表示(t-1)时刻下的更新后的所述误差协方差矩阵;T表示矩阵的转置;Q表示所述过程噪声向量的协方差矩阵;
    所述更新公式包括:

    其中,Kt表示t时刻下的卡尔曼增益;R表示所述测量噪声向量的协方差矩阵;I表示预设值。
  7. 根据权利要求1至6任一项所述的方法,其特征在于,所述获取待增强的目标历史数据,包括:
    获取待增强的原始历史数据;
    对所述原始历史数据进行筛选,得到满足预设处理条件的所述目标历史数据。
  8. 根据权利要求7所述的方法,其特征在于,所述基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测,得到所述目标时刻下的目标数据之后,还包括:
    基于所述目标数据对所述目标历史数据进行增强。
  9. 根据权利要求8所述的方法,其特征在于,所述基于所述目标数据对所述目标历史数据进行增强,包括:
    基于所述目标数据对所述目标历史数据进行查漏补缺。
  10. 根据权利要求8所述的方法,其特征在于,所述基于所述目标数据对所述目标历史数据进行增强,包括:
    基于所述目标数据对所述目标历史数据进行异常值修复。
  11. 根据权利要求10所述的方法,其特征在于,所述基于所述目标数据对所述目标历史数据进行异常值修复,包括:
    若检测到所述目标历史数据中目标时刻下的数据值与所述目标数据间的差值过大,则可以将所述目标历史数据中该目标时刻下的数据值替换为所述目标数据。
  12. 根据权利要求1所述的方法,其特征在于,所述目标时刻为基于所述目标历史数据的未来的时刻,和/或基于所述目标历史数据之前的历史时刻。
  13. 根据权利要求8所述的方法,其特征在于,所述基于所述目标数据对所述目标历史数据进行增强,包括:
    基于所述目标数据对所述目标历史数据进行扩充。
  14. 根据权利要求8所述的方法,其特征在于,所述基于所述目标数据对所述目标历史数据进行增强之后,还包括:
    对增强后的所述目标历史数据进行处理,得到处理结果。
  15. 根据权利要求1所述的方法,其特征在于,所述获取待增强的目标历史数据,包括:
    获取原始磁盘SMART中的原始磁盘SMART数据;
    将所述原始磁盘SMART数据中与磁盘故障相关性最高的属性作为待增强的目标历史数据。
  16. 根据权利要求15所述的方法,其特征在于,在所述原始磁盘SMART中的原始磁盘SMART数据之后,还包括:
    将原始磁盘SMART数据转变为统一格式进行标准化存储。
  17. 根据权利要求1或15所述的方法,其特征在于,所述目标历史数据为以下任意数据:
    磁盘运行的性能数据、服务器运行的性能数据、采集的服务器的日志数据。
  18. 一种数据增强系统,其特征在于,包括:
    第一获取模块,用于获取待增强的目标历史数据,所述目标历史数据包括目标数量个历史时刻下的数据值;
    第一确定模块,用于确定对所述目标历史数据进行增强的目标时刻;
    第一排序模块,用于按照时间顺序对所述目标历史数据进行排序,得到特征时间序列;
    第二确定模块,用于基于时间序列分析法确定所述特征时间序列的自回归模型;
    第一增强模块,用于基于卡尔曼滤波法对所述自回归模型在所述目标时刻下的数据值进行预测,得到所述目标时刻下的目标数据,以基于所述目标数据对所述目标历史数据进行增强。
  19. 一种数据增强设备,其特征在于,包括:
    存储器,用于存储计算机程序;
    处理器,用于执行所述计算机程序时实现如权利要求1至17任一项所述数据增强方法的步骤。
  20. 一种非易失性计算机可读存储介质,其特征在于,所述非易失性计算机可读存储介质中存储有计算机程序,所述计算机程序被处理器执行时实现如权利要求1至17任一项所述数据增强方法的步骤。
PCT/CN2023/128611 2022-11-14 2023-10-31 一种数据增强方法、系统、设备及计算机可读存储介质 WO2024104153A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202211417465.8A CN115964361B (zh) 2022-11-14 2022-11-14 一种数据增强方法、系统、设备及计算机可读存储介质
CN202211417465.8 2022-11-14

Publications (1)

Publication Number Publication Date
WO2024104153A1 true WO2024104153A1 (zh) 2024-05-23

Family

ID=85903951

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2023/128611 WO2024104153A1 (zh) 2022-11-14 2023-10-31 一种数据增强方法、系统、设备及计算机可读存储介质

Country Status (2)

Country Link
CN (1) CN115964361B (zh)
WO (1) WO2024104153A1 (zh)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN115964361B (zh) * 2022-11-14 2023-07-14 苏州浪潮智能科技有限公司 一种数据增强方法、系统、设备及计算机可读存储介质
CN117976089B (zh) * 2024-01-30 2024-06-14 中国核电工程有限公司 一种长龄期矿物掺合料混凝土氯离子扩散系数预测方法及系统
CN117807055B (zh) * 2024-02-29 2024-06-07 济南浪潮数据技术有限公司 存储系统的关键性能指标预测、分析方法及相关装置

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236270A (ja) * 2007-03-19 2008-10-02 Tokyo Univ Of Science 雑音抑圧装置および雑音抑圧方法
JP2013061768A (ja) * 2011-09-13 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> 最適モデル推定装置、方法、及びプログラム
CN110880984A (zh) * 2019-10-18 2020-03-13 平安科技(深圳)有限公司 基于模型的流量异常监测方法、装置、设备及存储介质
CN111723340A (zh) * 2020-06-09 2020-09-29 武汉理工大学 光纤相位解调中偏振诱导衰落导致相位跳变修正方法
CN113095562A (zh) * 2021-04-07 2021-07-09 安徽天能清洁能源科技有限公司 基于卡尔曼滤波和lstm发电超短期预测方法及装置
CN114462686A (zh) * 2022-01-13 2022-05-10 中国工商银行股份有限公司 存款估计方法、装置、非易失性存储介质及电子设备
CN115964361A (zh) * 2022-11-14 2023-04-14 苏州浪潮智能科技有限公司 一种数据增强方法、系统、设备及计算机可读存储介质

Family Cites Families (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107832259A (zh) * 2017-11-02 2018-03-23 国网四川雅安电力(集团)股份有限公司 一种基于时间序列和卡尔曼滤波的负荷预测方法
CN110502806B (zh) * 2019-07-31 2022-03-15 电子科技大学 一种基于lstm网络的无线频谱占用度预测方法
CN111967688B (zh) * 2020-09-02 2024-02-23 沈阳工程学院 一种基于卡尔曼滤波器与卷积神经网络的电力负荷预测方法

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008236270A (ja) * 2007-03-19 2008-10-02 Tokyo Univ Of Science 雑音抑圧装置および雑音抑圧方法
JP2013061768A (ja) * 2011-09-13 2013-04-04 Nippon Telegr & Teleph Corp <Ntt> 最適モデル推定装置、方法、及びプログラム
CN110880984A (zh) * 2019-10-18 2020-03-13 平安科技(深圳)有限公司 基于模型的流量异常监测方法、装置、设备及存储介质
CN111723340A (zh) * 2020-06-09 2020-09-29 武汉理工大学 光纤相位解调中偏振诱导衰落导致相位跳变修正方法
CN113095562A (zh) * 2021-04-07 2021-07-09 安徽天能清洁能源科技有限公司 基于卡尔曼滤波和lstm发电超短期预测方法及装置
CN114462686A (zh) * 2022-01-13 2022-05-10 中国工商银行股份有限公司 存款估计方法、装置、非易失性存储介质及电子设备
CN115964361A (zh) * 2022-11-14 2023-04-14 苏州浪潮智能科技有限公司 一种数据增强方法、系统、设备及计算机可读存储介质

Also Published As

Publication number Publication date
CN115964361B (zh) 2023-07-14
CN115964361A (zh) 2023-04-14

Similar Documents

Publication Publication Date Title
WO2024104153A1 (zh) 一种数据增强方法、系统、设备及计算机可读存储介质
CN106127363B (zh) 一种用户信用评估方法和装置
US11842257B2 (en) System and method for predicting and scoring a data model
US10019681B2 (en) Multidimensional recursive learning process and system used to discover complex dyadic or multiple counterparty relationships
CN111177416A (zh) 事件根因分析模型构建方法、事件根因分析方法及装置
CN113837596B (zh) 一种故障确定方法、装置、电子设备及存储介质
CN110647447A (zh) 用于分布式系统的异常实例检测方法、装置、设备和介质
CN116414717A (zh) 基于流量回放的自动测试方法、装置、设备、介质及产品
CN113269359A (zh) 用户财务状况预测方法、设备、介质及计算机程序产品
CN115422028A (zh) 标签画像体系的可信度评估方法、装置、电子设备及介质
WO2023029065A1 (zh) 数据集质量评估方法、装置、计算机设备及存储介质
US11640558B2 (en) Unbalanced sample classification method and apparatus
CN117593115A (zh) 信贷风险评估模型的特征值确定方法、装置、设备和介质
CN113313304A (zh) 一种基于大数据决策树的电网事故异常分析方法及系统
CN117149565A (zh) 云平台关键性能指标的状态检测方法、装置、设备及介质
CN115994093A (zh) 测试用例推荐方法和装置
CN115150250A (zh) 基于因果学习的物联网异常根因定位方法以及装置
CN113836291B (zh) 数据处理方法、装置、设备和存储介质
CN116882724B (zh) 一种业务流程优化方案的生成方法、装置、设备及介质
CN117132093B (zh) 一种动态流程模型操作方法及系统
CN117194963B (zh) 工业fdc质量根因分析方法、设备及存储介质
CN116204441B (zh) 索引数据结构的性能测试方法、装置、设备及存储介质
CN117407513B (zh) 基于大语言模型的提问处理方法、装置、设备和存储介质
CN118779466A (zh) 一种知识图谱分析方法、装置、设备和存储介质
CN114004491A (zh) 一种零售风险暴露的分池方法、装置、计算机设备及介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23890589

Country of ref document: EP

Kind code of ref document: A1