WO2021259002A1 - 基于决策树的异常数据源输出方法、装置和计算机设备 - Google Patents

基于决策树的异常数据源输出方法、装置和计算机设备 Download PDF

Info

Publication number
WO2021259002A1
WO2021259002A1 PCT/CN2021/096979 CN2021096979W WO2021259002A1 WO 2021259002 A1 WO2021259002 A1 WO 2021259002A1 CN 2021096979 W CN2021096979 W CN 2021096979W WO 2021259002 A1 WO2021259002 A1 WO 2021259002A1
Authority
WO
WIPO (PCT)
Prior art keywords
data
node
knowledge
data stream
abnormal
Prior art date
Application number
PCT/CN2021/096979
Other languages
English (en)
French (fr)
Inventor
刘利
刘中原
赵世泉
Original Assignee
平安科技(深圳)有限公司
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 平安科技(深圳)有限公司 filed Critical 平安科技(深圳)有限公司
Publication of WO2021259002A1 publication Critical patent/WO2021259002A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/36Creation of semantic tools, e.g. ontology or thesauri
    • G06F16/367Ontology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers

Definitions

  • This application relates to the field of artificial intelligence data mining technology.
  • abnormal data or abnormal data sources In the process of data processing, the discovery of abnormal data or abnormal data sources is critical. If abnormal data or abnormal data sources can be found earlier and more accurately, it will be beneficial to computer optimization and failure analysis. Moreover, the inventor realizes that the traditional discovery of abnormal data can only directly analyze the input data, that is, whether the input data is abnormal, and it is difficult to judge whether the data associated with it is abnormal. Therefore, the traditional discovery of abnormal data has low efficiency and poor comprehensiveness.
  • the existing abnormal data discovery efficiency is low and the comprehensiveness is poor.
  • a method for outputting abnormal data sources based on a decision tree which includes:
  • an input data group including data to be analyzed and reference data; wherein the reference data is manually marked as a designated data type, and the designated data type is a normal data type or an abnormal data type;
  • the knowledge node fishing tool to perform knowledge node fishing processing using the first knowledge node and the second knowledge node as the fishing base points, so as to correspondingly obtain the first node set and the second node set; wherein the first knowledge node and the second knowledge node are The node set includes at least the first knowledge node, and the second node set includes at least the second knowledge node;
  • a preset data flow library obtain a first data flow set matching the first node set, and obtain a second data flow set matching the second node set ;
  • the first data stream set includes at least one data stream
  • the second data stream set includes at least one data stream;
  • Each member in the data category sequence is a normal data type or an abnormal data type
  • the data classification model is based on a decision tree model and is obtained by training using a pre-collected training set, and the training set does not include the reference data
  • the sources at both ends of the abnormal data stream are recorded as the abnormal data source, and the abnormal data source is output.
  • the second aspect of the present application provides an abnormal data source output device based on a decision tree, including:
  • the data group acquisition unit is used to acquire the input data group, the data group includes the data to be analyzed and the reference data; wherein the reference data is manually marked as a designated data type, and the designated data type is a normal data type or abnormal data type;
  • a knowledge graph retrieval unit configured to retrieve a preset knowledge graph, and respectively map the data to be analyzed and the reference data into the knowledge graph, so as to obtain a first knowledge node and a second knowledge node;
  • the fishing tool acquisition unit is configured to adopt a preset fishing tool generation rule to generate a knowledge node fishing tool according to the first knowledge point;
  • the node set acquisition unit is configured to use the knowledge node fishing tool to perform knowledge node fishing processing using the first knowledge node and the second knowledge node as the fishing base points, so as to correspondingly obtain the first node set and the second node Set; wherein the first node set includes at least the first knowledge node, and the second node set includes at least the second knowledge node;
  • the data stream set obtaining unit is configured to obtain a first data stream set matching the first node set in a preset data stream library according to a preset data stream matching method, and obtain the second node A set of matched second data streams; wherein the first data stream set includes at least one data stream, and the second data stream set includes at least one data stream;
  • the data category sequence acquiring unit is configured to simultaneously input the first data stream set and the second data stream set into a preset data classification model for processing, so as to obtain the first data category corresponding to the output of the data classification model A sequence and a second data category sequence; wherein each member in the data category sequence is a normal data type or an abnormal data type; the data classification model is based on a decision tree model and is trained using a pre-collected training set, and the training set Does not include the reference data;
  • a quantity threshold judging unit configured to count the number of members whose data type is the specified data type in the second data category sequence, and determine whether the number of members is greater than a preset quantity threshold
  • An abnormal data stream acquiring unit configured to, if the number of members is greater than a preset number threshold, acquire abnormal members whose data type is an abnormal data type in the first data category sequence, and collect and compare data according to the first data stream. The corresponding relationship of the first data category sequence, obtaining the abnormal data stream corresponding to the abnormal member in the first data stream set;
  • the abnormal data source output unit is used to record the sources at both ends of the abnormal data stream as the abnormal data source, and output the abnormal data source.
  • a third aspect of the present application provides a computer device, including a memory and a processor, the memory stores a computer program, and when the processor executes the computer program, a method for outputting abnormal data sources based on a decision tree is provided, Including: obtaining an input data group, the data group including data to be analyzed and reference data; wherein the reference data is manually marked as a designated data type, and the designated data type is a normal data type or an abnormal data type; Set up a knowledge graph, and map the data to be analyzed and the reference data into the knowledge graph respectively, so as to obtain the first knowledge node and the second knowledge node; the preset fishing tool generation rule is adopted according to the The first knowledge point generates a knowledge node fishing tool; using the knowledge node fishing tool, the first knowledge node and the second knowledge node are respectively used as the fishing base points to perform knowledge node fishing processing, thereby correspondingly obtaining the first node set And a second set of nodes; wherein the first set of nodes includes at least the first knowledge node,
  • a method for outputting an abnormal data source based on a decision tree including: obtaining input A data group, the data group includes data to be analyzed and reference data; wherein the reference data is manually labeled as a designated data type, and the designated data type is a normal data type or an abnormal data type; a preset knowledge map is retrieved, And map the to-be-analyzed data and the reference data into the knowledge graph respectively to obtain a first knowledge node and a second knowledge node; using preset fishing tool generation rules, according to the first knowledge point, Generate a knowledge node fishing tool; using the knowledge node fishing tool, take the first knowledge node and the second knowledge node as the fishing base points to perform knowledge node fishing processing, thereby correspondingly obtaining the first node set and the second node set Wherein the first node set includes at least the first knowledge node, and the second
  • This application is based on the decision tree-based abnormal data source output method, device, computer equipment, and storage medium to obtain the input data group, the data group including the data to be analyzed and the reference data; the preset knowledge graph is retrieved to obtain the first Knowledge nodes and second knowledge nodes; generate knowledge node fishing tools; use the knowledge node fishing tools to correspondingly obtain the first node set and the second node set; obtain the first data stream set, and obtain the second data stream set; The first data stream set and the second data stream set are simultaneously input into a preset data classification model to obtain a first data category sequence and a second data category sequence; the data types in the second data category sequence are counted as The number of members of the specified data type; if the number of members is greater than the preset number threshold, obtain abnormal members and obtain the abnormal data stream corresponding to the abnormal member; record the sources at both ends of the abnormal data stream as abnormal Data source, and output the abnormal data source. So as to realize the comprehensive and accurate abnormal data source discovery and output.
  • FIG. 1 is a schematic flowchart of an abnormal data source output method based on a decision tree according to an embodiment of this application;
  • FIG. 2 is a schematic block diagram of the structure of an abnormal data source output device based on a decision tree according to an embodiment of the application
  • FIG. 3 is a schematic block diagram of the structure of a computer device according to an embodiment of the application.
  • an embodiment of the present application provides a method for outputting an abnormal data source based on a decision tree, including:
  • a preset data stream library obtain a first data stream set matching the first node set, and obtain second data matching the second node set Stream set; wherein the first data stream set includes at least one data stream, and the second data stream set includes at least one data stream;
  • the data to be analyzed is communication data or communication control signal data, so that it can be analyzed which ports are abnormal data sources; or, to be analyzed
  • the data of is the communication data of the micro-server, and correspondingly, the data stream is the communication data between the micro-servers, so that it can be analyzed which micro-server is the abnormal data source), or applied to abnormal transaction analysis (
  • the data to be analyzed is, for example, a user's account, and the corresponding data stream is a transaction flow between accounts).
  • This application has actual technical characteristics, such as including data to be analyzed (for example, communication control signal data, communication data of micro-server, etc.); and uses natural laws (for example, the intrinsic difference between abnormal data and normal data, and knowledge map The characteristics of the relationship between each node in the near and far. These characteristics belong to the movement of objective things without human intervention, and their changes and development are inevitable related to their movement.
  • the control program is executed.
  • the execution process of the control program is not shifted by human will, and the execution result is to improve the internal performance of the computer, that is, obtain more output with less input, achieve comprehensive coverage, and improve the function of the computer.
  • Substantial improvement Overcoming the actual technical problems (existing anomalous data discovery and output schemes are inefficient and poor in comprehensiveness); With actual technical effects (no need for a large amount of input data, you can efficiently and comprehensively output abnormal data source).
  • the input data group is obtained, the data group includes the data to be analyzed and the reference data; wherein the reference data is manually marked as a designated data type, and the designated data type is a normal data type or abnormal data type.
  • the data to be analyzed in this application is, for example, communication data. In the computer communication process, there is inefficient or malicious communication data. If it cannot be found in time and accurately, it will cause additional consumption of computer computing power. Or, for example, account transaction data, there are abnormal data such as money laundering in the account transaction data, which also needs to be discovered in time and accurately.
  • the reference data is used to assist in verifying the accuracy of the data processing process, and will participate in the subsequent steps together with the data to be analyzed.
  • steps S2-S3 retrieve a preset knowledge graph, and map the data to be analyzed and the reference data into the knowledge graph respectively, so as to obtain the first knowledge node and the second knowledge node;
  • a preset fishing tool generation rule is used, and a knowledge node fishing tool is generated according to the first knowledge point.
  • the knowledge graph is a visual map, which is composed of the connection relationship (entity relationship) between the knowledge entity (knowledge node) and the knowledge entity.
  • This application uses the knowledge graph to find out the data stream associated with the data to be analyzed, thereby realizing the data amplification function.
  • a preset fishing tool generation rule is used to generate a knowledge node fishing tool based on the first knowledge point. What needs to be mentioned here is that the fishing tool used in this application is used to find the associated nodes in the knowledge graph.
  • step S4 use the knowledge node fishing tool to perform knowledge node fishing processing using the first knowledge node and the second knowledge node as the fishing base points, so as to obtain the first node set and the second node correspondingly Set; wherein the first node set includes at least the first knowledge node, and the second node set includes at least the second knowledge node.
  • the knowledge node salvage tools used in each salvage process are the same, so that the data to be analyzed is associated with the reference data to strengthen the verification of the reference data for the data processing Features.
  • the preset data stream matching method can be any feasible method, for example, directly searching the node name in the first node set and the node name in the second node set from the data stream library to find the first node respectively.
  • the first data stream set and the second data stream set are simultaneously input into a preset data classification model for processing, so as to obtain the first data category sequence corresponding to the output of the data classification model And a second data category sequence; wherein each member in the data category sequence is a normal data type or an abnormal data type; the data classification model is based on a decision tree model and is trained using a pre-collected training set, and the training set is not Include the reference data.
  • the decision tree model is a classification model that can accurately classify the input data.
  • This application adopts a data classification model based on a decision tree model to classify the first data stream set and the second data stream set.
  • the obtained data category sequence is, for example, (normal, normal, abnormal,..., normal) and so on.
  • steps S7-S9 count the number of members whose data type is the specified data type in the second data category sequence, and determine whether the number of members is greater than a preset number threshold; if the number of members is greater than A preset number threshold is obtained, the abnormal members whose data type is the abnormal data type in the first data category sequence are obtained, and the corresponding relationship between the first data stream set and the first data category sequence is obtained.
  • the abnormal data stream corresponding to the abnormal member in the first data stream set; the source at both ends of the abnormal data stream is recorded as the abnormal data source, and the abnormal data source is output.
  • Counting the number of members whose data type is the specified data type in the second data category sequence, and judging whether the number of members is greater than a preset number threshold, is actually using the reference data to verify the classification result. Since the type of the reference data is known (because the reference data is manually marked as a designated data type, the designated data type is a normal data type or an abnormal data type), so if the classification is correct, then the reference data should also be designated The data type, and most of the data related to it should also be a specified data type, that is, most of the second data category sequence should be a specified data type. Accordingly, if the number of members is greater than the preset number threshold, it indicates that the data classification is credible.
  • the abnormal members whose data type is the abnormal data type in the first data category sequence obtain the abnormal members in the first data stream set according to the corresponding relationship between the first data stream set and the first data category sequence
  • the abnormal data stream corresponding to the abnormal member Since the two ends of the abnormal data stream are the data receiving end and the data sending end, the data receiving end and the data sending end are the abnormal data sources, so the source at both ends of the abnormal data stream is recorded as the abnormal data source (for example, the fault data Source), and output the abnormal data source.
  • the method before the step S3 of generating a knowledge node fishing tool according to the first knowledge point by using a preset fishing tool generation rule, the method includes:
  • the knowledge graph construction tools used in this application are, for example, open source SPSS, VOSviewer, etc.
  • the structure of the knowledge graph is a triple structure of entity-entity relationship-entity, so the entity is the node in the knowledge graph, and the entity relationship is the connection relationship between the entity and the entity in the knowledge graph.
  • the process of the entity recognition operation is, for example, word segmentation processing, so as to obtain a word sequence composed of multiple words, and input the word sequence into a preset sentence structure model, so as to obtain a temporary entity in the word sequence.
  • the triples are composed of two entities and the relationship between the two entities. Therefore, a sufficient amount of triples is obtained, and the triples are presented in the form of a knowledge graph network structure, that is, the knowledge graph can be obtained.
  • the step S3 of generating a knowledge node fishing tool according to the first knowledge point by using a preset fishing tool generation rule includes:
  • Ai is the value of the i-th coordinate in the multi-dimensional coordinates (A1, A2,..., An)
  • Bi is the i-th coordinate in the multi-dimensional coordinates (B1, B2,..., Bn)
  • Ci is the value of the i-th coordinate in the multidimensional coordinates (C1, C2,..., Cn)
  • a is the preset equalization parameter, a is less than 1 and greater than 0;
  • the bounded multidimensional space is a symmetrical space, the center of the bounded multidimensional space is the salvage base point, and the center of the bounded multidimensional space is away from any boundary of the bounded multidimensional space
  • the distances of the points are equal to the fishing distance D;
  • the preset fishing tool generation rule is adopted, and the knowledge node fishing tool is generated according to the first knowledge point.
  • the common method of using knowledge graphs to obtain related data is only by judging whether there is a direct connection relationship, but this application adopts a special design, that is, using a fishing tool to obtain the knowledge node, wherein the knowledge node obtained by the fishing tool is It is equal to the union of the knowledge node in the bounded multidimensional space and the knowledge node directly connected to the salvage base point.
  • the setting of the bounded multi-dimensional space realizes the supplement of non-directly connected knowledge nodes (because knowledge nodes that are close to each other may not have a direct connection relationship, but their correlation degree is still high enough and should be used as a related data screening come out).
  • the bounded multidimensional space is a symmetrical space
  • the center of the bounded multidimensional space is the salvage base point
  • the distance between the center of the bounded multidimensional space and any boundary point of the bounded multidimensional space is equal to all State the fishing distance D
  • the value of the equalization parameter a is 0.8-0.9, preferably 0.9.
  • the step S5 of obtaining a first data stream set matching the first node set according to a preset data stream matching method includes:
  • S501 Acquire a set of short-range data streams corresponding to the first node set; wherein the short-range data stream refers to a data stream whose at least one end is a knowledge node in the first node set;
  • S502. Determine whether there is a pair of splicable data streams in the set of short-range data streams; wherein the pair of splicable data streams includes two short-range data streams, and one end of the two short-range data streams is the same, and the other One end is a knowledge node in the first node set;
  • S503 If there are splicable data stream pairs in the set of short-range data streams, perform splicing processing on all the splicable data stream pairs to obtain a set of long-range data streams;
  • the first data stream set matching the first node set is obtained according to the preset data stream matching method.
  • This application uses the union of the short-range data stream and the long-range data stream as the first data stream set, which not only realizes the expansion of data, but also avoids the defect of data omission.
  • the nodes in the first node set include Q and W, and there are Q-T1 and T1-W data streams in the data stream library. Therefore, Q-T1 and T1-W are short-range data streams.
  • this data extraction method focuses on the short-distance data stream, and in the overall data stream analysis process, the long-distance data stream is another aspect that needs to be paid attention to, so this application also If there are splicable data stream pairs in the set of short-range data streams, all the splicable data stream pairs are spliced to obtain a set of long-range data streams, so as to achieve data expansion, and Avoid the defect of missing data. Still based on the above examples, for the Q-T1 and T1-W data streams, this application will splice to obtain the Q-T1-W long-distance data stream to ensure the comprehensiveness of data acquisition.
  • the first data stream set and the second data stream set are simultaneously input into a preset data classification model for processing, so as to obtain the first data category corresponding to the output of the data classification model Before step S6 of the sequence and the second data category sequence, it includes:
  • the initial decision tree is recorded as the data classification model.
  • the training of decision trees requires pruning.
  • the traditional pruning techniques are pre-pruning technology and post-pruning technology, but do not involve real-time pruning technology.
  • This application uses real-time pruning technology to shorten the training speed and ensure that no excessive pruning occurs.
  • the pruning rule based on the real-time pruning process is: only when all subordinate nodes of a specified node are leaf nodes, can the specified node be judged whether the pruning operation should be performed, and when it is judged that the pruning operation should be performed After the branch operation, the pruning operation is performed on the designated node, so as to ensure that the real-time pruning process can be realized.
  • the training speed is improved. Then use the pre-collected verification data to verify the initial decision tree, and determine whether the verification result is verified; if the verification result is verified, the initial decision tree is recorded as the data classification model, which is accurate The data classification provides the possibility.
  • the decision tree-based abnormal data source output method of the present application obtains an input data group, the data group includes the data to be analyzed and reference data; the preset knowledge graph is retrieved to obtain the first knowledge node and the second knowledge node Generating a knowledge node fishing tool; using the knowledge node fishing tool to obtain the first node set and the second node set correspondingly; obtaining the first data stream set and obtaining the second data stream set; combining the first data stream set and The second data stream set is input into a preset data classification model at the same time, thereby obtaining a first data category sequence and a second data category sequence; statistics on the data types in the second data category sequence are members of the specified data type Quantity; if the number of members is greater than the preset number threshold, obtain abnormal members and obtain abnormal data streams corresponding to the abnormal members; record the sources at both ends of the abnormal data stream as abnormal data sources, and output the Abnormal data source. So as to realize the comprehensive and accurate abnormal data source discovery and output.
  • an embodiment of the present application provides an abnormal data source output device based on a decision tree, including:
  • the data group acquiring unit 10 is used to acquire an input data group, the data group including data to be analyzed and reference data; wherein the reference data is manually marked as a designated data type, and the designated data type is a normal data type or an abnormal data type type of data;
  • the knowledge graph retrieval unit 20 is configured to retrieve a preset knowledge graph, and respectively map the data to be analyzed and the reference data into the knowledge graph, so as to obtain a first knowledge node and a second knowledge node;
  • the fishing tool acquisition unit 30 is configured to adopt a preset fishing tool generation rule to generate a knowledge node fishing tool according to the first knowledge point;
  • the node set acquisition unit 40 is configured to use the knowledge node fishing tool to perform knowledge node fishing processing using the first knowledge node and the second knowledge node as the fishing base points, so as to correspondingly obtain the first node set and the second node set.
  • Node set wherein the first node set includes at least the first knowledge node, and the second node set includes at least the second knowledge node;
  • the data stream set obtaining unit 50 is configured to obtain a first data stream set matching the first node set according to a preset data stream matching method in a preset data stream library, and to obtain a data stream set matching the second node set. A second data stream set matched by the node set; wherein the first data stream set includes at least one data stream, and the second data stream set includes at least one data stream;
  • the data category sequence acquiring unit 60 is configured to simultaneously input the first data stream set and the second data stream set into a preset data classification model for processing, so as to obtain the first data corresponding to the output of the data classification model
  • the category sequence and the second data category sequence wherein each member in the data category sequence is a normal data type or an abnormal data type;
  • the data classification model is based on a decision tree model and is trained using a pre-collected training set, and the training The set does not include the reference data;
  • the quantity threshold judging unit 70 is configured to count the number of members whose data type is the specified data type in the second data category sequence, and determine whether the number of members is greater than a preset quantity threshold;
  • the abnormal data flow obtaining unit 80 is configured to obtain abnormal members whose data type is abnormal data type in the first data category sequence if the number of members is greater than a preset number threshold, and set according to the first data flow Correspondence with the first data category sequence, acquiring the abnormal data stream corresponding to the abnormal member in the first data stream set;
  • the abnormal data source output unit 90 is configured to record the sources at both ends of the abnormal data stream as the abnormal data source, and output the abnormal data source.
  • the device includes:
  • the temporary entity acquisition unit is used to perform entity recognition operations on pre-collected data using a preset knowledge graph construction tool to obtain multiple temporary entities;
  • the synonymous entity judging unit is configured to compare the multiple temporary entities to judge whether there are multiple synonymous entities belonging to the same synonym group among the multiple temporary entities;
  • the synonym replacement unit is used to perform a synonym replacement operation to obtain multiple final entities if there are multiple synonymous entities belonging to the same synonym group in the multiple temporary entities, wherein the synonym replacement operation refers to Replace multiple synonymous entities with one word in the synonym group;
  • the knowledge graph construction unit is used to obtain the entity relationship between the multiple final entities in the pre-collected data to form a final entity-entity relationship-final entity structure triplet, and according to the triplet Constructed into a knowledge graph.
  • the fishing tool acquisition unit includes:
  • the multi-dimensional coordinate system establishment subunit is used to establish a multi-dimensional coordinate system in the knowledge graph and obtain the multi-dimensional coordinates (A1, A2,..., An) of the first knowledge node in the multi-dimensional coordinate system, wherein
  • the multi-dimensional coordinate system is an n-dimensional coordinate system;
  • the associated node obtaining subunit is used to obtain all first associated nodes directly connected to the first knowledge node in the knowledge graph, and select from all the first associated nodes that are closest to the first knowledge node The near node of and the farthest node from the first knowledge node;
  • the salvage distance calculation subunit is used to obtain the multi-dimensional coordinates (B1, B2,..., Bn) of the near node and the multi-dimensional coordinates (C1, C2,..., Cn) of the distant node, and According to the formula:
  • Ai is the value of the i-th coordinate in the multi-dimensional coordinates (A1, A2,..., An)
  • Bi is the i-th coordinate in the multi-dimensional coordinates (B1, B2,..., Bn)
  • Ci is the value of the i-th coordinate in the multidimensional coordinates (C1, C2,..., Cn)
  • a is the preset equalization parameter, a is less than 1 and greater than 0;
  • the bounded multi-dimensional space generating subunit is used to generate a bounded multi-dimensional space, the bounded multi-dimensional space is a symmetric space, the center of the bounded multi-dimensional space is the salvage base point, and the center of the bounded multi-dimensional space is away from the The distance of any boundary point in the bounded multidimensional space is equal to the fishing distance D;
  • the fishing tool generating subunit is used to generate the fishing tool; wherein the knowledge node obtained by the fishing tool is equal to the union of the knowledge node in the bounded multidimensional space and the knowledge node directly connected to the fishing base point.
  • the data stream set acquiring unit includes:
  • the short-range data stream acquisition subunit is configured to acquire a set of short-range data streams corresponding to the first set of nodes; wherein, the short-range data stream refers to those whose at least one end is a knowledge node in the first node set data flow;
  • the splicable data stream pair judging subunit is used to determine whether there is a splicable data stream pair in the set of short-range data streams; wherein, the splicable data stream pair includes two short-range data streams, the two One end of the short-range data stream is the same, and the other end is the knowledge node in the first node set;
  • a splicing processing subunit configured to perform splicing processing on all the splicable data stream pairs if there are splicable data stream pairs in the set of short-distance data streams, so as to obtain a set of long-distance data streams;
  • the first data stream set marking subunit is configured to use the union of the short-range data stream and the long-range data stream as a first data stream set matching the first node set.
  • the device includes:
  • the training data acquisition unit is configured to acquire pre-collected training data, and input the training data into a preset decision tree model for real-time expansion processing, so as to obtain a real-time expanded decision tree;
  • the real-time pruning processing unit is configured to perform real-time pruning processing on the real-time expanded decision tree while performing the real-time expansion processing; wherein the pruning rule based on the real-time pruning processing is: only when one When all the subordinate nodes of the designated node are leaf nodes, the designated node should be judged whether the pruning operation should be carried out, and the pruning operation should be carried out on the designated node after judging that the pruning operation should be carried out;
  • the initial decision tree acquisition unit is used to continuously perform real-time expansion processing and real-time pruning processing until the decision branches are fully expanded and pruned, thereby obtaining the initial decision tree;
  • the verification result judging unit is configured to verify the initial decision tree by using the pre-collected verification data, and determine whether the verification result is a verification pass;
  • the initial decision tree marking unit is configured to record the initial decision tree as the data classification model if the verification result is passed.
  • the abnormal data source output device based on the decision tree of the present application obtains an input data group, the data group includes the data to be analyzed and reference data; and retrieves a preset knowledge graph to obtain the first knowledge node and the second knowledge node Generating a knowledge node fishing tool; using the knowledge node fishing tool to obtain the first node set and the second node set correspondingly; obtaining the first data stream set and obtaining the second data stream set; combining the first data stream set and The second data stream set is input into a preset data classification model at the same time, thereby obtaining a first data category sequence and a second data category sequence; statistics on the data types in the second data category sequence are members of the specified data type Quantity; if the number of members is greater than the preset number threshold, obtain abnormal members and obtain abnormal data streams corresponding to the abnormal members; record the sources at both ends of the abnormal data stream as abnormal data sources, and output the Abnormal data source. So as to realize the comprehensive and accurate abnormal data source discovery and output.
  • an embodiment of the present invention also provides a computer device.
  • the computer device may be a server, and its internal structure may be as shown in the figure.
  • the computer equipment includes a processor, a memory, a network interface, and a database connected through a system bus. Among them, the processor designed by the computer is used to provide calculation and control capabilities.
  • the memory of the computer device includes a non-volatile storage medium and an internal memory.
  • the non-volatile storage medium stores an operating system, a computer program, and a database.
  • the memory provides an environment for the operation of the operating system and computer programs in the non-volatile storage medium.
  • the database of the computer equipment is used to store the data used in the output method of the abnormal data source based on the decision tree.
  • the network interface of the computer device is used to communicate with an external terminal through a network connection.
  • the aforementioned processor executes the aforementioned decision tree-based abnormal data source output method, wherein the steps included in the method respectively correspond to the steps of executing the aforementioned embodiment of the decision tree-based abnormal data source output method, and will not be repeated here.
  • the computer device of the present application obtains an input data group, the data group includes the data to be analyzed and reference data; retrieves a preset knowledge graph to obtain the first knowledge node and the second knowledge node; generates a knowledge node fishing tool; Use the knowledge node fishing tool to correspondingly obtain the first node set and the second node set; obtain the first data stream set and obtain the second data stream set; combine the first data stream set and the second data stream set Simultaneously input into the preset data classification model to obtain the first data category sequence and the second data category sequence; count the number of members in the second data category sequence whose data type is the specified data type; if the number of members If the number is greater than the preset threshold value, the abnormal member is obtained, and the abnormal data stream corresponding to the abnormal member is obtained; the sources at both ends of the abnormal data stream are recorded as the abnormal data source, and the abnormal data source is output. So as to realize comprehensive and accurate abnormal data source discovery and output.
  • An embodiment of the present application also provides a computer-readable storage medium on which a computer program is stored.
  • a decision tree-based abnormal data source output method is implemented, wherein the steps included in the method are respectively the same as the execution
  • the steps of the abnormal data source output method based on the decision tree in the foregoing embodiment correspond one to one, and will not be repeated here.
  • the computer-readable storage medium of the present application acquires an input data group, the data group includes the data to be analyzed and reference data; retrieves a preset knowledge graph, thereby obtaining the first knowledge node and the second knowledge node; and generates the knowledge node Salvage tool; use the knowledge node salvage tool to obtain the first node set and the second node set correspondingly; obtain the first data stream set, obtain the second data stream set; combine the first data stream set and the second data stream set
  • the data stream set is simultaneously input into the preset data classification model to obtain the first data category sequence and the second data category sequence; count the number of members in the second data category sequence whose data type is the specified data type; If the number of members is greater than a preset number threshold, then abnormal members are obtained, and abnormal data streams corresponding to the abnormal members are obtained; the sources at both ends of the abnormal data stream are recorded as abnormal data sources, and the abnormal data sources are output. So as to realize comprehensive and accurate abnormal data source discovery and output.
  • the computer-readable storage medium may be non-volatile or volatile; it may mainly include a storage program area and a storage data area, wherein the storage program area can store an operating system , Application programs required for at least one function, etc.; the storage data area can store data created based on the use of blockchain nodes, etc.
  • the blockchain referred to in the present invention is a new application mode of computer technology such as distributed data storage, point-to-point transmission, consensus mechanism, and encryption algorithm.
  • Blockchain is essentially a decentralized database. It is a series of data blocks associated with cryptographic methods. Each data block contains a batch of network transaction information for verification. The validity of the information (anti-counterfeiting) and the generation of the next block.
  • the blockchain can include the underlying platform of the blockchain, the platform product service layer, and the application service layer.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Evolutionary Biology (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Artificial Intelligence (AREA)
  • Animal Behavior & Ethology (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本申请涉及人工智能的数据挖掘技术领域,揭示了一种基于决策树的异常数据源输出方法、装置、计算机设备和存储介质,包括:获取输入的数据组;调取预设的知识图谱;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取数据流集合;得到第一数据类别序列和第二数据类别序列;统计所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。此外,本申请还涉及区块链技术,所述决策树可存储于区块链中。

Description

基于决策树的异常数据源输出方法、装置和计算机设备
本申请要求于2020年6月23日提交中国专利局、申请号为202010582615.5,发明名称为“基于决策树的异常数据源输出方法、装置和计算机设备”的中国专利申请的优先权,其全部内容通过引用结合在本申请中。
技术领域
本申请涉及到人工智能的数据挖掘技术领域。
背景技术
在数据处理过程中,异常数据或异常数据源的发现是很关键的,若能更早、更准确地找出异常数据或异常数据源,有利于计算机优化、故障分析等。并且发明人意识到,传统的异常数据的发现,只能对输入的数据进行直接分析,即分析该输入的数据是否异常,而难以对与其相关联的数据是否异常作出判断。因此,传统的异常数据的发现效率低、全面性差。
技术问题
现有的异常数据的发现效率低、全面性差的技术问题。
技术解决方案
本申请的第一方面,提出一种基于决策树的异常数据源输出方法,包括:
获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据 流;
将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
本申请的第二方面,提供一种基于决策树的异常数据源输出装置,包括:
数据组获取单元,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
知识图谱调取单元,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
打捞工具获取单元,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
节点集合获取单元,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
数据流集合获取单元,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
数据类别序列获取单元,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
数量阈值判断单元,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
异常数据流获取单元,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
异常数据源输出单元,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
本申请的第三方面提供了一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,所述处理器执行所述计算机程序时实现一种基于决策树的异常数据源输出方法,包括:获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据 流集合包括至少一个数据流;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
本申请的第四方面,提供一种计算机可读存储介质,其上存储有计算机程序,所述计算机程序被处理器执行时实现一种基于决策树的异常数据源输出方法,包括:获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
有益效果
本申请基于决策树的异常数据源输出方法、装置、计算机设备和存储介质,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据 流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
附图说明
图1为本申请一实施例的基于决策树的异常数据源输出方法的流程示意图;
图2为本申请一实施例的基于决策树的异常数据源输出装置的结构示意框图;图3为本申请一实施例的计算机设备的结构示意框图。
本发明的实施方式
为了使本申请的目的、技术方案及优点更加清楚明白,以下结合附图及实施例,对本申请进行进一步详细说明。
参照图1,本申请实施例提供一种基于决策树的异常数据源输出方法,包括:
S1、获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
S2、调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
S3、采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
S4、使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
S5、在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
S6、将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
S7、统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
S8、若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
S9、将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
本申请可适用于任意可行场景,例如应用于故障分析(相应地,所述待分析数据为通信数据,或者为通信控制信号数据,从而能够分析出是哪些端口为异常数据源;或者,待分析的数据为微服务端的通信数据,相对应地,所述数据流则为微服务端之间的通信数据,从而能够分析出是哪些微服务端为异常数据源),或者应用于异常交易分析(相应地,所述待分析数据例如为某用户的帐号,对应 的数据流则为帐号间的交易流)。
本申请中具有实际的技术特征,例如包括待分析数据(例如可为通信控制信号数据、微服务端的通信数据等);并利用了自然规律(例如异常数据与正常数据的本征区别、知识图谱中的各节点的关联关系远近特性,这些特性不经人为干预、属于客观事物的自身运动,其变化和发展与自身运动存在必然联系,具体地,本申请的执行中,执行的是控制程序,控制程序的执行过程不以人的意志为转移,且执行结果是给计算机的内部性能带来改进,即以较少的输入获取更多的输出,实现了全面性地覆盖,给计算机的功能上有实质性的提升);克服了实际的技术问题(现有的异常数据的发现与输出方案效率低、全面性差);具有实际的技术效果(无需大量输入数据,即可高效全面地输出异常数据源)。
如上述步骤S1所述,获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型。本申请的待分析数据例如为通信数据。在计算机的通信过程中,存在低效或者恶意通信数据,若不能及时准确地发现,将造成计算机算力的额外耗费。或者,例如为帐户交易数据,在帐户交易数据中存在洗钱等异常数据,也需要及时准确地发现。其中,所述参考数据用于辅助核实数据处理过程的准确性,将与所述待分析数据共同参与后续步骤。
如上述步骤S2-S3所述,调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。知识图谱是一种可视化的地图,其由知识实体(知识节点)与知识实体之间的连接关系(实体关系)构成。本申请利用知识图谱来找出与待分析数据关联的数据流,从而实现了数据放大功能。再采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。在此需要提及的是,本申请采用的打捞工具,用以在知识图谱中找出关联的节点。
如上述步骤S4所述,使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点。需要注意的是,本申请中进行了两次打捞处理,但是每次打捞处理采用的知识节点打捞工具是相同的,从而使得待分析数据与参考数据产生关联,以强化参考数据对于数据处理的核实功能。
如上述步骤S5所述,在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流。其中,所述预设的数据流匹配方法可为任意可行方法,例如从数据流库中直接搜索第一节点集合中的节点名称和第二节点集合中的节点名称,以找到分别包含第一节点集合中的节点名称和第二节点集合中的节点名称的数据流,从而对应得到与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合。
如上述步骤S6所述,将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据。决策树模型是一种分类模 型,能够将输入的数据进行准确分类。本申请采用基于决策树模型的数据分类模型,以将所述第一数据流集合和所述第二数据流集合进行分类。得到的数据类别序列例如为(正常,正常,异常,...,正常)等。
如上述步骤S7-S9所述,统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值,实际上就是利用所述参考数据对分类结果进行核实处理。由于参考数据的类型是已知的(因为所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型),因此若分类无误,那么参考数据应也为指定数据类型,并且与其相关的数据也应大部分为指定数据类型,即所述第二数据类别序列中的大部分应为指定数据类型。据此,若所述成员数量大于预设的数量阈值,表明数据分类可信。再获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流。由于异常数据流的两端分别为数据接收端和数据发送端,因此数据接收端和数据发送端为异常数据源,因此将所述异常数据流两端的源头记为异常数据源(例如为故障数据源),并输出所述异常数据源。
在一个实施方式中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤S3之前,包括:
S21、采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
S22、比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
S23、若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
S24、获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
如上所述,实现了构建成知识图谱。本申请采用的知识图谱构建工具例如为开源的SPSS、VOSviewer等。知识图谱的结构是实体-实体关系-实体的三元组结构,因此实体即是知识图谱中的节点,实体关系在知识图谱中为实体与实体的连接关系。所述实体识别操作的过程例如为:行分词处理,从而获得由多个词构成的词序列,将所述词序列输入预设的语句结构模型,从而在所述词序列中获取暂时实体。再获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。其中三元组由两个实体以及两个实体之间的关系构成,因此获取了足够量的三元组,并将三元组以知识图谱网络结构的方式呈现,即能得到所述知识图谱。
在一个实施方式中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤S3,包括:
S301、在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
S302、在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
S303、获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure PCTCN2021096979-appb-000001
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
S304、生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
S305、生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
如上所述,实现了采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具。普通的利用知识图谱获取关联数据的方法,仅是通过判断是否存在直接连接关系来获取,而本申请采用了特别的设计,即以打捞工具来获取,其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。所述有界多维空间的设置,实现了非直连知识节点的补充(因为相离较近的知识节点,虽然可能没有直连关系,但其相关程度仍是足够高的,应当作为关联数据筛选出来)。其中,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D,并且
Figure PCTCN2021096979-appb-000002
以保证有界多维空间的打捞准确度。进一步地,所述均衡参数a的取值为0.8-0.9,优选0.9。
在一个实施方式中,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤S5,包括:
S501、获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
S502、判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
S503、若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
S504、将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
如上所述,实现了根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合。本申请采用短距数据流与长距数据流的并集作为第一数据 流集合,不仅实现了数据的扩充,还避免了数据遗漏的缺陷。在此举例以便说明:第一节点集合中的节点例如包括Q、W,数据流库中存在Q-T1、T1-W的数据流,因此Q-T1、T1-W是短距数据流,这明显属于第一数据流集合;但是这种数据提取方式注重的是短距离的数据流,而在整体的数据流分析过程中,长距离的数据流是另外一个需要注重的方面,因此本申请还采用若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合,以实现了数据的扩充,还避免了数据遗漏的缺陷。仍以上述举例为基础来说明,对于Q-T1、T1-W的数据流,本申请将进行拼接,以得到Q-T1-W的长距离数据流,以保证数据获取的全面性。
在一个实施方式中,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤S6之前,包括:
S51、获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
S52、在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
S53、持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
S54、利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
S55、若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
如上所述,实现了将所述初始决策树记为所述数据分类模型。决策树的训练需要进行剪枝处理,传统的剪枝技术为预剪枝技术与后剪枝技术,但不涉及实时剪枝技术。本申请采用实时剪枝技术以缩短训练速度,并确保不会发生过度修剪。其中,实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作,从而保证实时剪枝处理得以实现。由于本申请的剪枝与决策树的展开是同时进行的,因此训练速度得到了提升。再利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型,从而为准确的数据分类提供了可能。
本申请的基于决策树的异常数据源输出方法,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
参照图2,本申请实施例提供一种基于决策树的异常数据源输出装置,包括:
数据组获取单元10,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
知识图谱调取单元20,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
打捞工具获取单元30,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
节点集合获取单元40,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
数据流集合获取单元50,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
数据类别序列获取单元60,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
数量阈值判断单元70,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
异常数据流获取单元80,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
异常数据源输出单元90,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
同义实体判断单元,用于比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
同义词替换单元,用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
知识图谱构建单元,用于获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述打捞工具获取单元,包括:
多维坐标系建立子单元,用于在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
关联节点获取子单元,用于在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
打捞距离计算子单元,用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
Figure PCTCN2021096979-appb-000003
计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
打捞工具生成子单元,用于生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述数据流集合获取单元,包括:
短距数据流获取子单元,用于获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
可拼接数据流对判断子单元,用于判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
拼接处理子单元,用于若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
第一数据流集合标记子单元,用于将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
在一个实施方式中,所述装置,包括:
训练数据获取单元,用于获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
实时剪枝处理单元,用于在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
初始决策树获取单元,用于持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
验证结果判断单元,用于利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
初始决策树标记单元,用于若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
其中上述单元或子单元分别用于执行的操作与前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
本申请的基于决策树的异常数据源输出装置,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
参照图3,本发明实施例中还提供一种计算机设备,该计算机设备可以是服务器,其内部结构可以如图所示。该计算机设备包括通过系统总线连接的处理器、存储器、网络接口和数据库。其中,该计算机设计的处理器用于提供计算和控制能力。该计算机设备的存储器包括非易失性存储介质、内存储器。该非易失性存储介质存储有操作系统、计算机程序和数据库。该内存器为非易失性存储介质中的操作系统和计算机程序的运行提供环境。该计算机设备的数据库用于存储基于决策树的异常数据源输出方法所用数据。该计算机设备的网络接口用于与外部的终端通过网络连接通信。该计算机程序被处理器执行时以实现一种基于决策树的异常数据源输出方法。
上述处理器执行上述基于决策树的异常数据源输出方法,其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的步骤一一对应,在此不再赘述。
本领域技术人员可以理解,图中示出的结构,仅仅是与本申请方案相关的部分结构的框图,并不构成对本申请方案所应用于其上的计算机设备的限定。
本申请的计算机设备,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
本申请一实施例还提供一种计算机可读存储介质,其上存储有计算机程序,计算机程序被处理器执行时实现基于决策树的异常数据源输出方法,其中所述方法包括的步骤分别与执行前述实施方式的基于决策树的异常数据源输出方法的 步骤一一对应,在此不再赘述。
本申请的计算机可读存储介质,获取输入的数据组,所述数据组包括待分析数据与参考数据;调取预设的知识图谱,从而得到第一知识节点和第二知识节点;生成知识节点打捞工具;使用所述知识节点打捞工具,对应得到第一节点集合和第二节点集合;获取第一数据流集合,获取第二数据流集合;将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中,从而得到第一数据类别序列和第二数据类别序列;统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量;若所述成员数量大于预设的数量阈值,则获取异常成员,并获取所述异常成员对应的异常数据流;将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。从而实现了全面且准确的异常数据源发现与输出。
进一步地,所述计算机可读存储介质所述计算机可读存储介质可以是非易失性,也可以是易失性;可主要包括存储程序区和存储数据区,其中,存储程序区可存储操作系统、至少一个功能所需的应用程序等;存储数据区可存储根据区块链节点的使用所创建的数据等。
本发明所指区块链是分布式数据存储、点对点传输、共识机制、加密算法等计算机技术的新型应用模式。区块链(Blockchain),本质上是一个去中心化的数据库,是一串使用密码学方法相关联产生的数据块,每一个数据块中包含了一批次网络交易的信息,用于验证其信息的有效性(防伪)和生成下一个区块。区块链可以包括区块链底层平台、平台产品服务层以及应用服务层等。

Claims (20)

  1. 一种基于决策树的异常数据源输出方法,其中,包括:
    获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
    调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
    采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
    使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
    在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
    将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
    统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
    若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
    将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
  2. 根据权利要求1所述的基于决策树的异常数据源输出方法,其中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤之前,包括:
    采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
    比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
    若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
    获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
  3. 根据权利要求1所述的基于决策树的异常数据源输出方法,其中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的 步骤,包括:
    在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
    在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
    获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
    Figure PCTCN2021096979-appb-100001
    计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
    生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
    生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
  4. 根据权利要求1所述的基于决策树的异常数据源输出方法,其中,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤,包括:
    获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
    判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
    若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
    将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
  5. 根据权利要求1所述的基于决策树的异常数据源输出方法,其中,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前,包括:
    获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
    在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
    持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
    利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
    若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
  6. 一种基于决策树的异常数据源输出装置,其中,包括:
    数据组获取单元,用于获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
    知识图谱调取单元,用于调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
    打捞工具获取单元,用于采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
    节点集合获取单元,用于使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
    数据流集合获取单元,用于在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
    数据类别序列获取单元,用于将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
    数量阈值判断单元,用于统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
    异常数据流获取单元,用于若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
    异常数据源输出单元,用于将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
  7. 根据权利要求6所述的基于决策树的异常数据源输出装置,其中,所述装置,包括:
    暂时实体获取单元,用于采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
    同义实体判断单元,用于比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
    同义词替换单元,用于若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
    知识图谱构建单元,用于获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
  8. 根据权利要求6所述的基于决策树的异常数据源输出装置,其中,所述打捞工具获取单元,包括:
    多维坐标系建立子单元,用于在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
    关联节点获取子单元,用于在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
    打捞距离计算子单元,用于获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
    Figure PCTCN2021096979-appb-100002
    计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
    有界多维空间生成子单元,用于生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
    打捞工具生成子单元,用于生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
  9. 根据权利要求6所述的基于决策树的异常数据源输出装置,其中,所述数据流集合获取单元,包括:
    短距数据流获取子单元,用于获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
    可拼接数据流对判断子单元,用于判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
    拼接处理子单元,用于若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
    第一数据流集合标记子单元,用于将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
  10. 根据权利要求6所述的基于决策树的异常数据源输出装置,其中,所述装置包括:
    训练数据获取单元,用于获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
    实时剪枝处理单元,用于在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
    初始决策树获取单元,用于持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
    验证结果判断单元,用于利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
    初始决策树标记单元,用于若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
  11. 一种计算机设备,包括存储器和处理器,所述存储器存储有计算机程序,其中,所述处理器执行所述计算机程序时实现一种基于决策树的异常数据源输出方法,包括:
    获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
    调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
    采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
    使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
    在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
    将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
    统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
    若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
    将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
  12. 根据权利要求11所述的计算机设备,其中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤之前,包括:
    采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
    比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
    若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
    获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
  13. 根据权利要求11所述的计算机设备,其中,所述采用预设的打捞工具 生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤,包括:
    在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
    在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
    获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
    Figure PCTCN2021096979-appb-100003
    计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
    生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
    生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
  14. 根据权利要求11所述的计算机设备,其中,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤,包括:
    获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
    判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
    若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
    将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
  15. 根据权利要求11所述的计算机设备,其中,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前,包括:
    获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
    在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
    持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
    利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
    若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
  16. 一种计算机可读存储介质,其上存储有计算机程序,其中,所述计算机程序被处理器执行时实现一种基于决策树的异常数据源输出方法,包括:
    获取输入的数据组,所述数据组包括待分析数据与参考数据;其中所述参考数据被人工标注为指定数据类型,所述指定数据类型为正常数据类型或者异常数据类型;
    调取预设的知识图谱,并将所述待分析数据与所述参考数据分别映射入所述知识图谱中,从而得到第一知识节点和第二知识节点;
    采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具;
    使用所述知识节点打捞工具,分别以所述第一知识节点和所述第二知识节点为打捞基点进行知识节点打捞处理,从而对应得到第一节点集合和第二节点集合;其中所述第一节点集合至少包括所述第一知识节点,所述第二节点集合至少包括所述第二知识节点;
    在预设的数据流库中,根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合,以及获取与所述第二节点集合匹配的第二数据流集合;其中所述第一数据流集合包括至少一个数据流,所述第二数据流集合包括至少一个数据流;
    将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列;其中数据类别序列中的每个成员为正常数据类型或者异常数据类型;所述数据分类模型基于决策树模型并采用预先收集的训练集训练得到,并且所述训练集不包括所述参考数据;
    统计所述第二数据类别序列中数据类型为所述指定数据类型的成员数量,并判断所述成员数量是否大于预设的数量阈值;
    若所述成员数量大于预设的数量阈值,则获取所述第一数据类别序列中数据类型为异常数据类型的异常成员,并根据所述第一数据流集合与所述第一数据类别序列的对应关系,获取所述第一数据流集合中与所述异常成员对应的异常数据流;
    将所述异常数据流两端的源头记为异常数据源,并输出所述异常数据源。
  17. 根据权利要求16所述的计算机可读存储介质,其中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤之前,包括:
    采用预设的知识图谱构建工具对预先收集的数据进行实体识别操作,从而得到多个暂时实体;
    比对所述多个暂时实体,以判断所述多个暂时实体中是否存在属于同一个同义词组的多个同义实体;
    若所述多个暂时实体中存在属于同一个同义词组的多个同义实体,则进行同义词替换操作,以得到多个最终实体,其中所述同义词替换操作指将所述多个同义实体替换为所述同义词组中的一个词语;
    获取所述预先收集的数据中所述多个最终实体之间的实体关系,以形成最终实体-实体关系-最终实体结构的三元组,并依据所述三元组构建成知识图谱。
  18. 根据权利要求16所述的计算机可读存储介质,其中,所述采用预设的打捞工具生成规则,根据所述第一知识点,生成知识节点打捞工具的步骤,包括:
    在所述知识图谱中建立多维坐标系,并得到所述第一知识节点在所述多维坐 标系的多维坐标(A1,A2,...,An),其中所述多维坐标系为n维坐标系;
    在所述知识图谱中,获取与所述第一知识节点直接连接的全部第一关联节点,并从全部第一关联节点中选出与所述第一知识节点最近的近处节点和与所述第一知识节点最远的远处节点;
    获取所述近处节点的多维坐标(B1,B2,...,Bn)和所述远处节点的多维坐标(C1,C2,...,Cn),并根据公式:
    Figure PCTCN2021096979-appb-100004
    计算出打捞距离D,其中Ai为多维坐标(A1,A2,...,An)中的第i维坐标的数值,Bi为多维坐标(B1,B2,...,Bn)中的第i维坐标的数值,Ci为多维坐标(C1,C2,...,Cn)中的第i维坐标的数值,a为预设的均衡参数,a小于1且大于0;
    生成有界多维空间,所述有界多维空间为对称空间,所述有界多维空间的中心为打捞基点,并所述有界多维空间的中心离所述有界多维空间的任一边界点的距离均等于所述打捞距离D;
    生成打捞工具;其中所述打捞工具打捞得到的知识节点,等于在所述有界多维空间中的知识节点和与打捞基点直接连接的知识节点的并集。
  19. 根据权利要求16所述的计算机可读存储介质,其中,所述根据预设的数据流匹配方法,获取与所述第一节点集合匹配的第一数据流集合的步骤,包括:
    获取与所述第一节点集合对应的短距数据流的集合;其中,所述短距数据流指至少一端为所述第一节点集合中的知识节点的数据流;
    判断所述短距数据流的集合中是否存在可拼接数据流对;其中,所述可拼接数据流对包括两个短距数据流,所述两个短距数据流的一端相同,另一端为所述第一节点集合中的知识节点;
    若所述短距数据流的集合中存在可拼接数据流对,则对所有的所述可拼接数据流对进行拼接处理,从而得到长距数据流的集合;
    将所述短距数据流和所述长距数据流的并集,作为与所述第一节点集合匹配的第一数据流集合。
  20. 根据权利要求16所述的计算机可读存储介质,其中,所述将所述第一数据流集合和所述第二数据流集合同时输入预设的数据分类模型中进行处理,从而得到所述数据分类模型对应输出的第一数据类别序列和第二数据类别序列的步骤之前,包括:
    获取预先收集的训练数据,并将所述训练数据输入预设的决策树模型中进行实时展开处理,从而得到实时展开的决策树;
    在进行所述实时展开处理的同时,对所述实时展开的决策树进行实时剪枝处理;其中,所述实时剪枝处理依据的剪枝规则为:只有当一个指定节点的所有从属节点都是叶节点时,才对所述指定节点进行判断是否应进行剪枝操作,并在判断出应进行剪枝操作后,才对所述指定节点进行剪枝操作;
    持续进行实时展开处理与实时剪枝处理,直至决策枝完全展开并剪枝完毕,从而得到初始决策树;
    利用预先收集的验证数据对所述初始决策树进行验证,并判断验证结果是否为验证通过;
    若验证结果为验证通过,则将所述初始决策树记为所述数据分类模型。
PCT/CN2021/096979 2020-06-23 2021-05-28 基于决策树的异常数据源输出方法、装置和计算机设备 WO2021259002A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202010582615.5 2020-06-23
CN202010582615.5A CN111737493B (zh) 2020-06-23 2020-06-23 基于决策树的异常数据源输出方法、装置和计算机设备

Publications (1)

Publication Number Publication Date
WO2021259002A1 true WO2021259002A1 (zh) 2021-12-30

Family

ID=72650783

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2021/096979 WO2021259002A1 (zh) 2020-06-23 2021-05-28 基于决策树的异常数据源输出方法、装置和计算机设备

Country Status (2)

Country Link
CN (1) CN111737493B (zh)
WO (1) WO2021259002A1 (zh)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415975A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 针对知识图谱进行划分分区的方法及装置
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN117149498A (zh) * 2023-10-27 2023-12-01 华能信息技术有限公司 一种电厂故障诊断方法及系统
CN117932482A (zh) * 2024-03-21 2024-04-26 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法
WO2024093960A1 (zh) * 2022-11-01 2024-05-10 马上消费金融股份有限公司 异常交易应对策略的验证方法和验证装置

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111737493B (zh) * 2020-06-23 2023-05-02 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备
CN112506976B (zh) * 2020-12-14 2023-05-12 杭州趣链科技有限公司 数据流向的展示方法、装置、电子设备及存储介质
CN113435517B (zh) * 2021-06-29 2023-06-02 平安科技(深圳)有限公司 异常数据点输出方法、装置、计算机设备和存储介质
CN113821546A (zh) * 2021-07-29 2021-12-21 北京金玖银玖数字科技有限公司 基于多元数据分层的实时预警方法及装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107609094A (zh) * 2017-09-08 2018-01-19 北京百度网讯科技有限公司 数据消歧方法、装置及计算机设备
WO2018034836A1 (en) * 2016-08-16 2018-02-22 Lexisnexis Risk Solutions Inc. Systems and methods for improving kba identity authentication questions
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN111737493A (zh) * 2020-06-23 2020-10-02 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108664010A (zh) * 2018-05-07 2018-10-16 广东省电信规划设计院有限公司 发电机组故障数据预测方法、装置和计算机设备
CN109784370B (zh) * 2018-12-14 2024-05-10 中国平安财产保险股份有限公司 基于决策树的数据地图生成方法、装置和计算机设备
CN110474871B (zh) * 2019-07-05 2023-10-13 中国平安财产保险股份有限公司 一种异常账号检测方法、装置、计算机设备及存储介质
CN110491106B (zh) * 2019-07-22 2022-03-18 深圳壹账通智能科技有限公司 基于知识图谱的数据预警方法、装置和计算机设备

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2018034836A1 (en) * 2016-08-16 2018-02-22 Lexisnexis Risk Solutions Inc. Systems and methods for improving kba identity authentication questions
CN107609094A (zh) * 2017-09-08 2018-01-19 北京百度网讯科技有限公司 数据消歧方法、装置及计算机设备
CN108595708A (zh) * 2018-05-10 2018-09-28 北京航空航天大学 一种基于知识图谱的异常信息文本分类方法
CN111737493A (zh) * 2020-06-23 2020-10-02 平安科技(深圳)有限公司 基于决策树的异常数据源输出方法、装置和计算机设备

Cited By (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114415975A (zh) * 2022-03-28 2022-04-29 支付宝(杭州)信息技术有限公司 针对知识图谱进行划分分区的方法及装置
CN114978877A (zh) * 2022-05-13 2022-08-30 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
CN114978877B (zh) * 2022-05-13 2024-04-05 京东科技信息技术有限公司 一种异常处理方法、装置、电子设备及计算机可读介质
WO2024093960A1 (zh) * 2022-11-01 2024-05-10 马上消费金融股份有限公司 异常交易应对策略的验证方法和验证装置
CN117149498A (zh) * 2023-10-27 2023-12-01 华能信息技术有限公司 一种电厂故障诊断方法及系统
CN117149498B (zh) * 2023-10-27 2024-03-01 华能信息技术有限公司 一种电厂故障诊断方法及系统
CN117932482A (zh) * 2024-03-21 2024-04-26 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法
CN117932482B (zh) * 2024-03-21 2024-06-11 泰安北航科技园信息科技有限公司 一种用于围巾加热的碳纳米加热方法

Also Published As

Publication number Publication date
CN111737493B (zh) 2023-05-02
CN111737493A (zh) 2020-10-02

Similar Documents

Publication Publication Date Title
WO2021259002A1 (zh) 基于决策树的异常数据源输出方法、装置和计算机设备
WO2019238109A1 (zh) 一种故障根因分析的方法及装置
CN111506599B (zh) 基于规则匹配和深度学习的工控设备识别方法及系统
US20200125442A1 (en) Expert system and data analysis tool utilizing data as a concept
CN106716352A (zh) 管理参数集
CN111552509B (zh) 一种接口间依赖关系的确定方法及装置
US10169208B1 (en) Similarity scoring of programs
CN103226554A (zh) 基于新闻数据的股票自动匹配分类方法和系统
TW202042088A (zh) 藉由從封包追蹤到擴展有限狀態機的逆向工程的自動協議測試方法
CN114153980A (zh) 知识图谱构建方法和装置、检查方法、存储介质
US20230056760A1 (en) Method and apparatus for processing graph data, device, storage medium, and program product
CN114841789B (zh) 基于区块链的审计审价故障数据在线编辑方法及系统
CN112235254B (zh) 一种高速主干网中Tor网桥的快速识别方法
Zhao et al. Block cipher identification scheme based on Hamming weight distribution
WO2023178767A1 (zh) 基于企业征信大数据知识图谱的企业风险检测方法和装置
CN115982374A (zh) 大坝应急响应知识库联动的多视角学习实体对齐方法和系统
CN112948469B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN115146022A (zh) 用于知识图中的关键词搜索的计算机实现方法
CN105701118A (zh) 用于归一化文件的非数值特征的方法和装置
CN111917861A (zh) 基于区块链和知识图谱的知识存储方法、系统及其应用
Jiang et al. Two-sample and change-point inference for non-Euclidean valued time series
CN117527446B (zh) 一种网络异常流量精细化检测方法
TWM568442U (zh) Golden flow grouping system
CN116610820B (zh) 一种知识图谱实体对齐方法、装置、设备及存储介质
WO2024103436A1 (zh) 设备缺陷数据规则库构建方法及设备缺陷关联性分析方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21830214

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21830214

Country of ref document: EP

Kind code of ref document: A1