WO2023168659A1 - 一种横跨图数据与关系数据的实体对识别方法及装置 - Google Patents

一种横跨图数据与关系数据的实体对识别方法及装置 Download PDF

Info

Publication number
WO2023168659A1
WO2023168659A1 PCT/CN2022/080180 CN2022080180W WO2023168659A1 WO 2023168659 A1 WO2023168659 A1 WO 2023168659A1 CN 2022080180 W CN2022080180 W CN 2022080180W WO 2023168659 A1 WO2023168659 A1 WO 2023168659A1
Authority
WO
WIPO (PCT)
Prior art keywords
node
graph data
target
data
matching
Prior art date
Application number
PCT/CN2022/080180
Other languages
English (en)
French (fr)
Inventor
樊文飞
靳若春
陆平
于文渊
Original Assignee
深圳计算科学研究院
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 深圳计算科学研究院 filed Critical 深圳计算科学研究院
Publication of WO2023168659A1 publication Critical patent/WO2023168659A1/zh

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/279Recognition of textual entities
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2237Vectors, bitmaps or matrices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/30Semantic analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/049Temporal neural networks, e.g. delay elements, oscillating neurons or pulsed inputs

Definitions

  • the present invention relates to the technical field of graph data management, and specifically relates to an entity pair identification method and device across graph data and relational data.
  • a relational database is a database built on the basis of the relational database model. It uses concepts and methods such as set algebra to process data in the database. It is also a set of formally descriptive tables organized into a set. The essence of this form of tables is A special collection of data items that can be accessed or recalled in many different ways without reorganizing the database table.
  • a relational database definition results in a table of metadata or a formal description of tables, columns, ranges, and constraints. Each table (sometimes called a relationship) contains one or more data types represented by columns. Each row contains a unique data entity of the type defined by the column.
  • Relational data entity recognition methods rely on schema information and are not suitable for schema-independent graphs.
  • this application is proposed to provide an entity pair identification method and device across graph data and relational data that overcomes the problems or at least partially solves the problems, including:
  • An entity pair identification method spanning graph data and relational data. The method is used to identify entity pairs that match a target node in the target first graph data and a target tuple in the target relational data, including:
  • the target relationship data and the target first graph data to be extracted; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least one first node;
  • a matching entity pair in the first graph data corresponding to the target and the target relationship data is determined according to the first node and the second node.
  • the step of determining the matching entity pair corresponding to the target first graph data and the target relationship data based on the first node and the second node includes:
  • the matching entity pairs in the target first graph data and the relationship data are output.
  • the step of generating a single node entity pair matching based on the first node in the target first graph data and the second node in the second graph data includes:
  • the single node entity pair is matched between the successfully matched second node of the second graph data and the first node set in the target first graph data.
  • the step of generating multiple node-entity pair matching based on the first node in the target first graph data and the second node in the second graph data includes:
  • the plurality of node entity pairs are generated by matching the successfully matched second node of the second graph data and the first node set in the target first graph data.
  • the step of generating matching pairs of all node entities based on the first node in the target first graph data and the second node in the second graph data includes:
  • the step of outputting matching entity pairs in the target first graph data and relationship data based on matching a single node entity pair or matching multiple node entity pairs, or assuming that all node entity pairs match includes:
  • the step of sequentially summing the correlations of the second node in the second graph data and the first node in the target first graph data includes:
  • the application also includes an entity pair identification device across graph data and relational data.
  • the device is used to identify entities that match the target node in the target first graph data and the target tuple in the target relational data. Yes, including:
  • Data acquisition module used to obtain the target relationship data and the target first graph data to be extracted; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least one first node;
  • a second graph data generation module configured to generate corresponding second graph data based on the target relationship data; wherein the second graph data includes at least one second node;
  • Entity pair matching module configured to determine, based on the first node and the second node, the matching entity pair corresponding to the target first graph data and the target relationship data.
  • the application also includes an electronic device, including a processor, a memory, and a computer program stored on the memory and capable of running on the processor.
  • the computer program When the computer program is executed by the processor, the computer program implements the following steps: The steps of the method for identifying entity pairs across graph data and relational data are described.
  • the application also includes a computer-readable storage medium.
  • a computer program is stored on the computer-readable storage medium.
  • the computer program is executed by a processor, the entity pairing across graph data and relational data is implemented as described. Identify the steps of the method.
  • the target relationship data includes at least one tuple
  • the target first graph data includes at least one first node
  • the second graph data includes at least one second node
  • the first tuple corresponds to the second node
  • the first The node and the second node determine a matching entity pair in the first graph data corresponding to the target and the target relationship data.
  • Study entity recognition across relational and graph data rather than just on relational data; and evaluate semantic proximity between entities “globally” by recursively inspecting attributes, whereas previous work only considered a single entity local attributes or characteristics. Matches found by parametric simulations are explainable as to why two vertices match based on matching vertex pairs and cumulative scores.
  • Figure 1 is a step flow chart of an entity pair identification method across graph data and relational data provided by an embodiment of the present application
  • Figure 2 is a step flow chart of a specific embodiment of an entity pair identification method across graph data and relational data provided by an embodiment of the present application;
  • Figure 3 is a schematic diagram of the SPair working mode algorithm of an entity pair identification method across graph data and relational data provided by an embodiment of the present application;
  • Figure 4 is a schematic diagram of the VPair working mode algorithm of an entity pair identification method across graph data and relational data provided by an embodiment of the present application;
  • Figure 5 is a structural block diagram of an entity pair identification device across graph data and relational data provided by an embodiment of the present application
  • FIG. 6 is a schematic structural diagram of a computer device provided by an embodiment of the present invention.
  • FIG. 1 there is shown a flow chart of a method for identifying entity pairs across graph data and relational data provided by an embodiment of the present application, which specifically includes the following steps:
  • the target relationship data includes at least one tuple
  • the target first graph data includes at least one first node
  • the second graph data includes at least one second node
  • the first tuple corresponds to the second node
  • the first The node and the second node determine a matching entity pair in the first graph data corresponding to the target and the target relationship data.
  • Study entity recognition across relational and graph data rather than just on relational data; and evaluate semantic proximity between entities “globally” by recursively inspecting attributes, whereas previous work only considered a single entity local attributes or characteristics. Matches found by parametric simulations are explainable as to why two vertices match based on matching vertex pairs and cumulative scores.
  • the target relationship data and the target first graph data to be extracted are obtained; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least one first node.
  • the step S110 of "obtaining the target relationship data to be extracted and the target first graph data" can be further explained in conjunction with the following description; wherein, the target relationship data includes at least one tuple, and the target first graph data
  • the specific process of "a graph data includes at least one first node”.
  • R is a set of tuples with attributes A_i(i ⁇ [1,k]) of R.
  • the database D of R is (D_1,..,D_n), where D_i is the relationship of R_i when i ⁇ [1,n].
  • Graph data encodes attributes as edges, just like in RDF (Resource Description Framework, Resource Description Framework) data. Intuitively, edge labels of ⁇ represent predicates, while vertex labels of ⁇ represent values.
  • corresponding second graph data is generated according to the target relationship data; wherein the second graph data includes at least one second node; the first tuple is related to the second node. correspond.
  • the step S120 of "generating corresponding second graph data based on the target relationship data" can be further explained in conjunction with the following description; wherein, the second graph data includes at least one second node; The first tuple corresponds to the second node;” the specific process.
  • RDB2RDF is a method of converting RDB (Relational Database) into RDF graph data.
  • RDB Relational Database
  • W3C World Wide Web Consortium, World Wide Web Consortium
  • RDB2RDF method for the database schema R, we define the canonical mapping f_D.
  • each tuple t of the relational schema R maps to a unique vertex u_t in G_D labeled R; (2) in t Each attribute A is mapped to a unique vertex u_t.A, such that L(u_t.A) is the value of t.A, and there is an edge (u_t, u_t.A) labeled A in GD; (3) For reference to another For each attribute A of the foreign key in the tuple t of a tuple t', there is an edge (u_t, u_t') with a pair of (A, ⁇ ) labels, where different ⁇ represents the foreign key.
  • this application first uses the RDB2RDF method to convert the target relational data into graph data (G_D), that is, the second graph data.
  • the matching entity pair corresponding to the target first graph data and the target relationship data is determined based on the first node and the second node.
  • step S130 of "determining the matching first graph data corresponding to the target and the target relationship data based on the first node and the second node" can be further explained in conjunction with the following description.
  • the first node and the second node in the second graph data generate multiple node entity pairs for matching; or; based on the first node in the target first graph data and the second node in the second graph data Generate matching of all node-entity pairs; output matching entity pairs in the target first graph data and relational data based on matching of a single node-entity pair or matching of multiple node-entity pairs, or assuming that all node-entity pairs match.
  • the two nodes are converted into tuples of the relational data, and matching entity pairs in the target first graph data and the relational data are output.
  • the system performs entity recognition based on the user's selection of one of the modes.
  • a single node entity pair matching is generated based on the first node in the target first graph data and the second node in the second graph data, and the matching based on the single node entity pair will be matched with the target first graph data.
  • the step of converting the second node in the second graph data matched by the first node into a tuple of the relational data and outputting the matching entity pair in the target first graph data and the relational data is equivalent to SPair (Single Pair , single node matching), SPair working mode determines whether a certain node v in the graph and a certain tuple t in the relational data are the same entity;
  • multiple node-entity pair matching is generated based on the first node in the target first graph data and the second node in the second graph data; based on the multiple node-entity pair matching, The second node in the second graph data that matches the first node in the target first graph data is converted into a tuple of the relational data, and the matching entity pair in the target first graph data and the relational data is output.
  • Equivalent to VPair (Vertex Pair, vertex matching), VPair working mode finds all matching entity nodes in the graph for a certain tuple t in the relational data.
  • all node-entity pairs are generated based on the first node in the target first graph data and the second node in the second graph data; matching based on all node-entity pairs will match all node-entity pairs.
  • the step of "generating a single node entity pair matching based on the first node in the target first graph data and the second node in the second graph data" can be further explained in conjunction with the following description, Convert the second node in the second graph data that matches the first node in the target first graph data into a tuple of the relational data according to a single node entity pair matching, and output the target first graph data and The specific process of matching entity pairs in relational data.
  • sort the second nodes in the second graph data in order; sequentially sort the second nodes in the second graph data and the first nodes in the target first graph data.
  • the correlations are summed; if the summed value reaches the preset value, it is a matching entity pair; the successfully matched second node of the second graph data and the first node in the target first graph data are The set generates a match for the single node entity. If the summed value does not reach the preset value, the entity pair is not matched, or the entity pair is returned and matched again.
  • the SPair (Single Pair, single node entity pair) working mode calls the algorithm ParaMatch (quasi-match) to recursively determine the first graph data and the second graph data.
  • the algorithm ParaMatch quadsi-match
  • the first node and the second node represent the same entity: Given a pair of (u, v) vertices, it finds the lineage set S(u, v) of the top-k descendants of u and v, and recursively checks the descendant pairs. For a matching (u′,v′) ⁇ S(u,v), it sums the correlations between (u,v) and (u′,v′) and checks whether the total score reaches ⁇ .
  • ParaMatch is recursive. Given a pair of (u,v) vertices, it finds the lineage set S(u,v) of the top-k descendants of u and v, and recursively checks the descendant pairs. For a matching (u′,v′) ⁇ S(u,v), it sums the correlations between (u,v) and (u′,v′) and checks whether the total score reaches ⁇ . If so, returns "true”. Otherwise, it backtracks and checks other lineage sets. If no pedigree can confirm that the (u,v) node pair is a match, return "False".
  • this application adopts the following strategies for algorithm optimization:
  • ecache (a variable name, corresponding to the algorithm), records V ⁇ k_u, the first k descendants selected for each vertex u, and avoids repeated descendant selection.
  • cache[u,v] is a pair [ ⁇ ,W], which is or [true,W], where W is a set of candidate matches and ⁇ is a Boolean value indicating whether (u,v) is invalid (false) or valid (true) if all candidates in W are valid .
  • Figure 3 shows the algorithm ParaMatch. It returns true if u_t matches v_g where vertex u_t ⁇ G_D and v_g ⁇ G, otherwise it returns false. Its workflow is divided into the following three steps.
  • vertex v' in l_u' it first checks whether (u', v') is verified. If so, the previous result is used directly. Otherwise, it checks (u',v') by recursively calling ParaMatch (lines 17-19 in Figure 3). If (u',v') is valid, it accumulates the association with (u,v) in the variable sum and adds (u',v') to the set W (line 21 in Figure 3). Then check whether the value of sum reaches ⁇ . If so, the algorithm marks (u, v) as [true, W] and returns true (lines 22-23 in Figure 3). Otherwise, it checks if we can find a match for u' among the remaining vertices of l_u' such that the maximum score can reach ⁇ (lines 25-27 in Figure 3).
  • h_v is the point similarity function
  • h_ ⁇ is the graph path similarity function. That is, given two points u and v in the graph, h_v(u,v) returns the semantic similarity of the two nodes (a real number from 0 to 1); given two paths ⁇ _1 and ⁇ _2 in the graph, h_ ⁇ ( ⁇ _1, ⁇ _2) Returns the semantic similarity of two paths (a real number from 0 to 1).
  • the similarity function can be specified by rules or learned by a machine learning model.
  • the function h_r Given a vertex v and a boundary k, the function h_r returns the first k descendants of v and the path of each such descendant, thereby representing the important attributes of v. It proceeds in two steps: first, use the language model M_r to select a set containing m paths from v, where m is the number of successor nodes of v; then use the path resource allocation (PRA) algorithm to sort the m paths and return top-k items.
  • PRA path resource allocation
  • h_r selects an edge e_2 with the highest probability in E_p1, connects v_1 to v_2, and appends v_2 to the path ⁇ _1.
  • e2 is input to M_r to obtain the prediction list E_p2. The iteration continues until one of the following three conditions is met: (a) M_r returns a "stop signal", that is, the end-of-sentence tag " ⁇ eos>"; (b) there is no outgoing edge to choose from; or (c) the path Form a closed cycle (cycle) (this case will be discarded).
  • LSTM Long Short-Term Memory, Long Short-Term Memory Network
  • ch(v_i) represents the set of child nodes of v_i.
  • PRA assumes that resources "flow" from the starting vertex of the path and are divided equally at every vertex in between. After propagation, PRA quantifies the semantic association strength of ⁇ based on the amount of resources reaching v_l from v_0 via ⁇ . The function h_r will select the path ⁇ with strong semantic association.
  • the step of "generating multiple node entity pairs based on the first node in the target first graph data and the second node in the second graph data can be further explained in conjunction with the following description. , convert the second node in the second graph data that matches the first node in the target first graph data into a tuple of the relationship data based on multiple node entity pair matching, and output the target first graph The specific process of matching entity pairs in data and relational data.
  • the second node in the data is converted into a tuple of the relational data, and the matching entity pair in the target first graph data and the relational data is output.
  • the VPair working mode entity matching algorithm is used for multiple node entity matching pairs.
  • the VPair working mode of the system uses the algorithm VParaMatch to calculate all matches (u_t, v_g) of a given tuple t in database D, where u_t is the vertex representing t in the canonical graph G_D of D, and v_g is the vertex G in the graph.
  • the VParaMatch algorithm takes functions (h_v, h_ ⁇ , h_r) and boundaries ( ⁇ , ⁇ , k) as parameters, and tuples t ⁇ D as input.
  • vertex v_g is not used as input to VParaMatch.
  • VParaMatch simulates and calculates the set ⁇ (u_t) of (u_t, v_g) based on the parameters of vg in G, which is defined as:
  • VParaMatch first selects all vertices v_g in G where h_v(u_t,v_g) ⁇ , and initializes a set C(u_t) with these candidates (u_t,v_g) (as shown in Figure 4 lines 2-3). Then the pairs in C(u_t) are sorted in increasing order of the vertex degrees in C(u_t) (line 4 in Figure 4). Intuitively, starting from vertices with smaller degrees, VParaMatch can determine whether more candidate matches are valid or invalid earlier and reduce running time.
  • VParaMatch iteratively checks each (u, v) according to its order in C(u_t) (lines 6-11 in Figure 4). More specifically, it first checks whether (u,v) has been confirmed to be valid (lines 7-8); if so, it adds it to ⁇ (u_t). Otherwise, it calls ParaMatch on (u, v) to verify its validity (line 9-11 in Figure 4). VParaMatch builds an inverted index on key information as a grouping strategy for entity recognition: for example, papers of the same year are in the same group, and then it is determined whether the entities match in the same group.
  • the VPair working mode and APair working mode encapsulate the entity determination process of a single node pair, and search in parallel for all matching entity nodes of a certain tuple t in the graph, and all matching entity nodes of all tuples in the graph. entity node.
  • the step of "generating multiple node entity pairs based on the first node in the target first graph data and the second node in the second graph data can be further explained in conjunction with the following description.
  • all node entity pairs are generated based on the first node in the target first graph data and the second node in the second graph data; matching based on all node entity pairs will be matched with the target No.
  • the second node in the second graph data that matches the first node in the first graph data is converted into a tuple of the relational data, and the matching entity pair in the target first graph data and the relational data is output.
  • all node entity pairs match the APair working mode entity matching algorithm.
  • the AllParaMatch algorithm in APair working mode calculates the set ⁇ of all matching tuples and vertices in database D and graph G:
  • u_t is a vertex in G_D
  • v_g is a vertex in G.
  • AParaMatch accepts u_t and v_g as input.
  • the algorithm AParaMatch extends VParaMatch.
  • AParaMatch first initializes a set of C candidate matches (u_t, v_g), for all u_t ⁇ V_D and v_g ⁇ V, such that hv(ut,vg) ⁇ . After this, its remaining steps are exactly the same as the algorithm VParaMatch.
  • the description is relatively simple. For relevant details, please refer to the partial description of the method embodiment.
  • an entity pair identification device spanning graph data and relational data provided by an embodiment of the present application is shown, specifically including the following modules:
  • Data acquisition module 510 used to acquire target relationship data and target first graph data to be extracted; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least one first node;
  • the second graph data generation module 520 is configured to generate corresponding second graph data according to the target relationship data; wherein the second graph data includes at least one second node;
  • Entity pair matching module 530 configured to determine a matching entity pair corresponding to the target first graph data and the target relationship data according to the first node and the second node.
  • the entity pair matching module 530 further includes:
  • Entity pair matching submodule used to generate a single node entity pair matching based on the first node in the target first graph data and the second node in the second graph data; or; based on the target first graph data
  • the first node in the target first graph data and the second node in the second graph data generate multiple node entity pairs for matching; or; based on the first node in the target first graph data and the third node in the second graph data
  • Two nodes generate matching pairs of all node entities;
  • Matching entity pair sub-module used to output matching entity pairs in the target first graph data and relationship data based on matching of a single node entity pair or matching of multiple node entity pairs, or assuming that all node entity pairs match.
  • the entity pair matching submodule includes:
  • Sorting submodule used to sort the second nodes in the second graph data in order
  • Summing submodule used to sum the correlations between the second node in the second graph data and the first node in the target first graph data in sequence;
  • Default value submodule used to match entity pairs if the summed value reaches the preset value
  • Single node entity pair sub-module used to match the successfully matched second node of the second graph data with the first node set in the target first graph data to generate the single node entity pair.
  • Unmatched sub-module used if the summed value does not reach the preset value, it will be an unmatched entity pair.
  • Multiple node matching submodules used to match each second node in the second graph data with all first nodes in the target first graph data respectively;
  • Multiple node-entity pairs sub-module used to match the second node of the successfully matched second graph data with the first node set in the target first graph data to generate the multiple node-entity pairs.
  • All matching submodules used to match all second nodes in the second graph data with all first nodes in the target first graph data;
  • All node-entity pairs submodule used to generate the all-node-entity pairs by matching the successfully matched second node of the second graph data with the first node set in the target first graph data.
  • the matching entity pair sub-module includes:
  • Single node submodule used to convert the second node in the second graph data that matches the first node in the target first graph data into a tuple of the relationship data based on a single node entity pair matching, and output the Describe the matching entity pairs in the first graph data and relational data of the target;
  • Multi-node submodule used to convert the second node in the second graph data that matches the first node in the target first graph data into a tuple of the relationship data based on multiple node entity pair matching, and output Matching entity pairs in the target first graph data and relational data;
  • All node submodule used to convert the second node in the second graph data that matches the first node in the target first graph data into a tuple of the relationship data based on all node entity pair matching, and output the Describe the matching entity pairs in the first graph data of the target and the relational data.
  • the description is relatively simple. For relevant details, please refer to the partial description of the method embodiment.
  • FIG. 6 a computer device for an entity pair identification method across graph data and relational data of the present application is shown, which may specifically include the following:
  • the computer device 12 described above is in the form of a general computing device.
  • the components of the computer device 12 may include but are not limited to: one or more processors or processing units 16, memory 28, connected to different system components (including the memory 28 and the processing unit 16). bus 18.
  • Bus 18 represents one or more of several types of bus structures, including a memory bus or memory controller, a peripheral bus, a graphics accelerated port, a processor, or a local bus using any of a variety of bus structures.
  • these architectures include, but are not limited to, the Industry Standard Architecture (ISA) bus, the Micro Channel Architecture (MAC) bus, the Enhanced ISA bus, the Video Electronics Standards Association (VESA) local bus, and the Peripheral Component Interconnect (PCI) bus.
  • ISA Industry Standard Architecture
  • MAC Micro Channel Architecture
  • VESA Video Electronics Standards Association
  • PCI Peripheral Component Interconnect
  • Computer device 12 typically includes a variety of computer system readable media. These media can be any available media that can be accessed by computer device 12, including volatile and nonvolatile media, removable and non-removable media.
  • Memory 28 may include computer system readable media in the form of volatile memory, such as random access memory 30 and/or cache memory 32 .
  • Computer device 12 may further include other removable/non-removable, volatile/non-volatile computer system storage media.
  • storage system 34 may be used to read and write to non-removable, non-volatile magnetic media (commonly referred to as "hard drives").
  • a disk drive may be provided for reading and writing to a removable non-volatile disk (such as a "floppy disk”), and a removable non-volatile optical disk (such as a CD-ROM,
  • each drive may be connected to bus 18 through one or more data media interfaces.
  • the memory may include at least one program product having a set (e.g., at least one) program module 42 configured to perform the functions of various embodiments of the present application.
  • a program/utility 40 having a set of (at least one) program modules 42, which may be stored, for example, in memory.
  • Such program modules 42 include, but are not limited to, an operating system, one or more application programs, other program modules. 42 As well as program data, each of these examples or some combination may include an implementation of a network environment.
  • Program modules 42 generally perform functions and/or methods in the embodiments described herein.
  • Computer device 12 may also communicate with one or more external devices 14 (e.g., keyboard, pointing device, display 24, camera, etc.) and with one or more devices that enable an operator to interact with computer device 12, and /or communicate with any device (eg, network card, modem, etc.) that enables the computer device 12 to communicate with one or more other computing devices. This communication may occur via I/O interface 22. Also, computer device 12 may communicate with one or more networks (eg, local area network (LAN)), wide area network (WAN), and/or public network (eg, the Internet) through network adapter 20. As shown in FIG. 6 , network adapter 20 communicates with other modules of computer device 12 via bus 18 .
  • LAN local area network
  • WAN wide area network
  • public network eg, the Internet
  • the processing unit 16 executes various functional applications and data processing by running programs stored in the memory 28 , for example, implementing an entity pair identification method across graph data and relational data provided by the embodiment of the present application.
  • the above-mentioned processing unit 16 executes the above-mentioned program, it achieves: obtaining the target relationship data and the target first graph data to be extracted; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least one The first node; generate corresponding second graph data according to the target relationship data; wherein the second graph data includes at least one second node; the first tuple corresponds to the second node; according to The first node and the second node determine a matching entity pair corresponding to the target first graph data and the target relationship data.
  • the present application also provides a computer-readable storage medium on which a computer program is stored.
  • a cross-graph data and relationship is implemented as provided in all embodiments of the present application. Entity pair identification method for data.
  • the program when executed by the processor, it is achieved: obtaining the target relationship data and the target first graph data to be extracted; wherein the target relationship data includes at least one tuple, and the target first graph data includes at least a first tuple.
  • a node generate corresponding second graph data according to the target relationship data; wherein the second graph data includes at least one second node; the first tuple corresponds to the second node; according to the The first node and the second node determine a matching entity pair corresponding to the target first graph data and the target relationship data.
  • the computer-readable medium may be a computer-readable signal medium or a computer-readable storage medium.
  • the computer-readable storage medium may be, for example, but not limited to, an electrical, magnetic, optical, electromagnetic, infrared or semiconductor system, apparatus or device, or any combination thereof. More specific examples (non-exhaustive list) of computer readable storage media include: electrical connections having one or more conductors, portable computer disks, hard drives, random access memory (RAM), read only memory (ROM), Erasable programmable read-only memory (EPROM or flash memory), optical fiber, portable compact disk read-only memory (CD-ROM), optical storage device, magnetic storage device, or any suitable combination of the above.
  • a computer-readable storage medium may be any tangible medium that contains or stores a program for use by or in connection with an instruction execution system, apparatus, or device.
  • a computer-readable signal medium may include a data signal propagated in baseband or as part of a carrier wave carrying computer-readable program code therein. Such propagated data signals may take a variety of forms, including - but not limited to - electromagnetic signals, optical signals, or any suitable combination of the above.
  • a computer-readable signal medium may also be any computer-readable medium other than a computer-readable storage medium that can send, propagate, or transmit a program for use by or in connection with an instruction execution system, apparatus, or device .
  • Computer program code for performing the operations of the present application may be written in one or more programming languages, including object-oriented programming languages such as Java, Smalltalk, C++, and conventional Procedural programming language - such as "C" or similar programming language.
  • the program code may execute entirely on the operator's computer, partly on the operator's computer, as a stand-alone software package, partly on the operator's computer and partly on a remote computer or entirely on the remote computer or server .
  • the remote computer can be connected to the operator computer through any kind of network, including a local area network (LAN) or a wide area network (WAN), or it can be connected to an external computer (e.g., using an Internet service provider). to connect via the Internet).
  • LAN local area network
  • WAN wide area network
  • Internet service provider e.g., using an Internet service provider

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

本发明实施例提供了一种横跨图数据与关系数据的实体对识别方法及装置,通过获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别,而不仅仅是在关系数据上开展实体识别;参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对和累积分数。

Description

一种横跨图数据与关系数据的实体对识别方法及装置 技术领域
本发明涉及图数据管理技术领域,具体涉及一种横跨图数据与关系数据的实体对识别方法及装置。
背景技术
传统实体识别主要针对模式指定的关系数据进行研究。关系数据库,是建立在关系数据库模型基础上的数据库,借助于集合代数等概念和方法来处理数据库中的数据,同时也是一个被组织成一组拥有正式描述性的表格,该形式的表格作用的实质是装载着数据项的特殊收集体,这些表格中的数据能以许多不同的方式被存取或重新召集而不需要重新组织数据库表格。关系数据库的定义造成元数据的一张表格或造成表格、列、范围和约束的正式描述。每个表格(有时被称为一个关系)包含用列表示的一个或更多的数据种类。每行包含一个唯一的数据实体,这些数据是被列定义的种类。当创造一个关系数据库的时候,你能定义数据列的可能值的范围和可能应用于那个数据值的进一步约束。
现有的关系数据实体识别系统采用机器学习模型为实体识别训练图嵌入,和直接基于机器学习模型的实体识别架构;迁移和主动学习,学习可迁移到新任务的实体识别模型。通过主动学习来学习实体识别规则,采用主动学习来自适应地处理实体识别工作负载。
但现有的方法都不适用于在关系数据和图数据中开展实体识别。关系数据实体识别方法依赖于模式信息,不适用于与模式无关的图。
发明内容
鉴于所述问题,提出了本申请以便提供克服所述问题或者至少部分地解决所述问题的一种横跨图数据与关系数据的实体对识别方法及装置,包括:
一种横跨图数据与关系数据的实体对识别方法,所述方法用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对, 包括:
获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
优选地,所述依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对的步骤,包括:
依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;
依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配的步骤,包括:
将所述第二图数据中的第二节点按照顺序进行排序;
依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和;
若求和的数值达到预设数值,则为匹配实体对;
将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配的步骤,包括:
将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有第一节点分别进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配。
优选地,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配的步骤,包括:
将所述第二图数据中的所有第二节点和所述目标第一图数据中的所有第一节点进行匹配;
将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述所有节点实体对匹配。
优选地,所述依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对的步骤,包括:
依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或;
依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或;
依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
优选地,所述依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和的步骤,包括:
若求和的数值没有达到预设数值,则为不匹配实体对。
为实现本申请还包括一种横跨图数据与关系数据的实体对识别装置,所述装置用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对,包括:
数据获取模块:用于获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
第二图数据生成模块:用于依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;
实体对匹配模块:用于依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
为实现本申请还包括一种电子设备,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如所述的横跨图数据与关系数据的实体对识别方法的步骤。
为实现本申请还包括一种计算机可读存储介质,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如所述的横跨图数据与关系数据的实体对识别方法的步骤。
本申请具有以下优点:
在本申请的实施例中,通过获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别,而不仅仅是在关系数据上开展实体识别;且通过递归检查属性来“全局”评估实体之间的语义接近度,而之前的工作仅考虑单个实体的局部属性或特征。参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对和累积分数。
附图说明
为了更清楚地说明本申请的技术方案,下面将对本申请的描述中所需要 使用的附图作简单地介绍,显而易见地,下面描述中的附图仅仅是本申请的一些实施例,对于本领域普通技术人员来讲,在不付出创造性劳动性的前提下,还可以根据这些附图获得其他的附图。
图1是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别方法的步骤流程图;
图2是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别方法的具体实施例的步骤流程图;
图3是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别方法的SPair工作模式算法示意图;
图4是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别方法的VPair工作模式算法示意图;
图5是本申请一实施例提供的一种横跨图数据与关系数据的实体对识别装置的结构框图;
图6是本发明一实施例提供的一种计算机设备的结构示意图。
具体实施方式
为使本申请的所述目的、特征和优点能够更加明显易懂,下面结合附图和具体实施方式对本申请作进一步详细的说明。显然,所描述的实施例是本申请一部分实施例,而不是全部的实施例。基于本申请中的实施例,本领域普通技术人员在没有作出创造性劳动前提下所获得的所有其他实施例,都属于本申请保护的范围。
参照图1,示出了本申请一实施例提供的一种横跨图数据与关系数据的实体对识别方法的步骤流程图,具体包括如下步骤:
S110、获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
S120、依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
S130、依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本申请的实施例中,通过获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。通过横跨关系数据和图数据研究实体识别,而不仅仅是在关系数据上开展实体识别;且通过递归检查属性来“全局”评估实体之间的语义接近度,而之前的工作仅考虑单个实体的局部属性或特征。参数模拟找到的匹配是可解释的,说明为什么两个顶点匹配基于匹配顶点对和累积分数。
下面,将对本示例性实施例中的横跨图数据与关系数据的实体对识别方法作进一步地说明。
如上述步骤S110所述,获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤S110所述“获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点”的具体过程。
需要说明的是,假设三个无限字母集合Υ、θ和Φ,分别用于关系属性、图顶点标签和边标签。在本申请中的关系数据为关系数据库,是考虑一个数据库模式R=(R_1,..,R_n),其中R_i是一个关系模式(A_1,..,A_k),而A_i∈Υ是一个属性。模式R的关系是一组具有R的属性A_i(i∈[1,k])的元组。R的数据库D是(D_1,..,D_n),其中D_i是i∈[1,n]时R_i的关系。
需要说明的是,图数据(Graph):本申请考虑有向标记图G=(V,E,L),其中(a)V是顶点的有限集合,(b)
Figure PCTCN2022080180-appb-000001
是边的集合,并且(c)对于每个顶点v∈V,L(v)是θ中的标签。对于每个边e∈E,L(e)是Φ中的标签。图数据将属性编码为边,就像在RDF(Resource Description Framework,资 源描述框架)数据中一样。直观上,Φ的边标签代表谓词,而θ的顶点标签代表值。
如上述步骤S120所述,依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应。
在本发明一实施例中,可以结合下列描述进一步说明步骤S120所述“依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;”的具体过程。
需要说明的是,RDB2RDF是一种将RDB(Relational Database,关系数据库)转为RDF图数据的方法。为简单起见,这里我们采用W3C(World Wide Web Consortium,万维网联盟)标准的RDB2RDF方法:对于数据库模式R,我们定义了规范映射f_D。给定R的数据库D,它返回一个规范图G_D=f_D(D),其中(1)关系模式R的每个元组t映射到G_D中标记为R的唯一顶点u_t;(2)t中的每个属性A都映射到一个唯一的顶点u_t.A,使得L(u_t.A)是t.A的值,并且GD中存在标签为A的边(u_t,u_t.A);(3)对于引用另一个元组t'的元组t中的外键的每个属性A,存在带有一对(A,γ)标签的边(u_t,u_t'),其中不同的γ表示外键。
在一具体实施例中,本申请首先利用RDB2RDF方法将目标关系数据转化为图数据(G_D),即第二图数据。
如上述步骤S130所述,依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本发明一实施例中,可以结合下列描述进一步说明步骤S130所述“依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对”的具体过程。
如下列步骤所述,依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生 成所有节点实体对匹配;依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对。依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;或;依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;或:依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
在本申请一具体实施例中,如图2所示,系统根据用户选择其中的一种模式,进行实体识别。其中,依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配,依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对的步骤,相当于SPair(Single Pair,单节点匹配),SPair工作模式判别图中的某一节点v和关系数据中的某一元组t是否为同一实体;
在本申请一具体实施例中,依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;相当于VPair(Vertex Pair,顶点匹配),VPair工作模式找出关系数据中的某一元组t在图中所有匹配的实体节点。
在本申请一具体实施例中,依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对;相当于APair(All Pair,所有节点匹配),APair工作模式找 出关系数据中所有元组在图中的所有匹配的实体节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配,依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,将所述第二图数据中的第二节点按照顺序进行排序;依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和;若求和的数值达到预设数值,则为匹配实体对;将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。若求和的数值没有达到预设数值,则为不匹配实体对,或返回重新进行匹配。
在本申请一具体实施例中,如图3所示,SPair(Single Pair,单个节点实体对)工作模式调用算法ParaMatch(准匹配),递归地判定第一图数据和第二图数据中的第一节点和第二节点是否表示同一实体:给定一对(u,v)顶点,它找到u和v的top-k个后代的谱系集S(u,v),并递归检查后代对。对于匹配的(u′,v′)∈S(u,v),它对(u,v)和(u′,v′)之间的关联进行求和,并检查总分是否达到δ。如果是,则返回“真”,两个点表示同一实体。否则,它会回溯并检查其他谱系集。如果没有谱系可以证实(u,v)节点对为匹配,则返回“假”,即点u和v不表示同一实体。算法ParaMatch以函数(h_v,h_ρ,h_r)和边界(σ,δ,k)作为参数。给定元组t∈D和G中的顶点v_g,它检查(u_t,v_g)是否匹配(表示同一实体),其中G_D是D的规范图,u_t是在G_D中的顶点,其通过映射f_D表示t。该算法支持SPair工作模式的运行。
在本申请一具体实施例中,ParaMatch是递归的。给定一对(u,v)顶点,它找到u和v的top-k个后代的谱系集S(u,v),并递归检查后代对。对于匹配的(u′,v′)∈S(u,v),它对(u,v)和(u′,v′)之间的关联进行求和, 并检查总分是否达到δ。如果是,则返回“真”。否则,它会回溯并检查其他谱系集。如果没有谱系可以证实(u,v)节点对为匹配,则返回“假”。
其中,本申请采用了以下策略进行算法优化:
(1)ecache(一个变量名,与算法对应),记录V^k_u,为每个顶点u选择的前k个后代,并避免重复后代选择。
(2)cache(缓存),记录候选匹配的当前状态和候选之间的依赖关系。对于每个候选匹配(u,v),cache[u,v]是一对[φ,W],它是
Figure PCTCN2022080180-appb-000002
或[true,W],其中W是一组候选匹配,而φ是一个布尔值,指示在W中的所有候选都有效的情况下,(u,v)是无效(false)还是有效(true)。请注意:(a)如果(u,v)和(u',v')相互依赖,则(u,v)和(u',v')在缓存中分别标记为[true,W_1]和[true,W_2],如果(u',v')∈W_1且(u,v)∈W_2,那么(u,v)和(u',v')都符合参数模拟的定义。(b)我们只需要在cache[u,v]中存储V^k_u顶点的匹配,即|W|≤k;此外,相互依赖可以从这样的W推导出来。
(3)对于u的每个top-k后代u',我们按照(u',v')和(u,v)之间关联的降序对V^k_v中的顶点v'进行排序。当我们为u'搜索候选匹配v'时,我们遵循V^k_v中的顺序。直观地说,这有助于我们更早地决定我们是否可能无法获得总分达到δ的谱系集并安全地返回false,因为按降序回溯总是会产生较小的分数。
(4)当候选匹配(u,v)无效时,我们首先确定直接依赖于(u,v)的候选(u′,v′),即(u,v)∈cache[u′,v′].W.(这里表示cache数组[u′,v′]位置下属的W变量)然后我们调用ParaMatch重新检查(u′,v′)是否仍然有效。请注意,这足以处理相互依赖的候选匹配;实际上,如果(u',v')也无效,则在递归ParaMatch回溯时重新检查间接依赖于(u',v')的候选对象。
在本申请一具体实施例中,算法流程说明:在图3中展示了算法ParaMatch。如果u_t匹配v_g,它返回true(真),其中顶点u_t∈G_D且v_g∈G,否则返回false(假)。它的工作流程分为以下三步。
(1)初始阶段,如图3中的第1-11行。ParaMatch从两个步骤开始。(a)它首先通过检查(u,v)的标签(如图3中的第1-2行)以及u是否是叶子节点(第3-4行)来检查(u,v)是否可以匹配。(b)然后算法为u的每个后代构造一组候选匹配项(第6-11行)。如果u或v的前k个后代存储在ecache中,它只需分别用ecache[u]和ecache[v]初始化V^k_u和V^k_v。否则它会调用函数h_r来挑选u和v的前k个后代(如图3中的第6-10行)。在此之后,它为u的每个后代u'构建候选匹配集l_u'(即,如果v'∈V^k_v且h_v(u',v')≥σ,则v'∈l_u'),并按关联的降序排列对l_u'进行排序(如图3中的第11行)。
(2)匹配阶段(如图3中的第12-27行)。在这个阶段,ParaMatch归纳地检查u的前k个后代。首先,它采用提前终止策略,检查(u,v)的所有可能谱系集合S(u,v)中的最大分数是否可以达到δ;如果不是,则确认(u,v)无效并返回false(如图3中的第12-14行);这里v′_{j,1}是在u′_j的所有匹配项中具有最大h_ρ分数的顶点。否则,对于每个选定的后代u',它通过按照l_u'的降序检查V^k_v来找到u'的候选者(如图3中的第16行)。对于l_u'中的顶点v',它首先检查(u',v')是否已验证。如果是,则直接使用之前的结果。否则,它通过递归调用ParaMatch(如图3中的第17-19行)来检查(u',v')。如果(u',v')有效,它会在变量sum中累积与(u,v)的关联,并将(u',v')添加到集合W(如图3中的第21行)。然后检查sum的值是否达到δ。如果是,算法将(u,v)标记为[true,W]并返回true(如图3中的第22-23行)。否则,它会检查我们是否可以在l_u'的剩余顶点中找到u'的匹配项,使得最大分数可以达到δ(如图3中的第25-27行)。
(3)清理阶段(如图3中的第28-32行)。ParaMatch在(u,v)确认无效后对缓存中的条目执行必要的清理。它首先将cache[u,v]设置为
Figure PCTCN2022080180-appb-000003
Figure PCTCN2022080180-appb-000004
(如图3中的第28行),然后重新运行ParaMatch以更新直接依赖于(u,v)的陈旧缓存条目(如图3中的第29-31行)。最后,它返回false(如图3中的第32行)。
在本申请一具体实施例中,关于函数h_v,h_ρ,h_r的说明:其中,h_v为点相似度函数,h_ρ为图路径相似度函数。即给定图中两点u和v,h_v(u,v)返回两节点的语义相似度(0到1的实数);给定图中的两条路径ρ_1和ρ_2,h_ρ(ρ_1,ρ_2)返回两条路径的语义相似度(0到1的实数)。相似度函数可以由规则指定,或由机器学习模型学习得到。
在本申请一具体实施例中,给定顶点v和边界k,函数h_r返回v的前k个后代以及每个此类后代的路径,以此表示v的重要属性。它分两步进行:先使用语言模型M_r从v中选择包含m条路径的集合,其中m是v的后继节点的数量;后使用路径资源分配(PRA)算法对m条路径进行排序,并返回top-k条。以下详细解释这两个步骤:
(1)对于v的每条出边e_i,函数h_r在语言模型M_r的引导下从v中选择一条路径ρ_i,并将ρ_i加到集合P中。例如,从v到v_1的边e_1处,h_r初始化ρ_1=(v,v1),将e_1呈现给M_r,而后从M_r获得v_1邻接的所有边的列表E_p1,以及它们跟随边e_1的可能性。然后从v_1的所有出边中,h_r选择一条在E_p1中可能性最高的边e_2,将v_1到v_2相连,并将v_2附加到路径ρ_1中。而后将e2输入到M_r以获得预测列表E_p2。依此迭代继续进行,直到满足下列三个条件之一:(a)M_r返回“停止信号”,即句尾标签“<eos>”;(b)没有出边可供选择;或(c)路径形成一个闭环(cycle)(该情况将被舍弃)。这里我们使用LSTM(Long Short-Term Memory,长短期记忆网络)网络作为M_r,因为它可以对知识图中路径上标签的语义进行建模:给定一个边标签作为输入,LSTM可以生成一条跟随此边标签的具有合理语义意义的路径。
(2)函数h_r对P中的路径进行如下排序。给定路径ρ=(v_0,v_1,..,v_l),我们扩展资源分配并提出PRA来衡量ρ是否是有意义的连接,公式如下所示:
Figure PCTCN2022080180-appb-000005
其中,ch(v_i)表示v_i的孩子节点的集合。直观地说,PRA假设资源从路径的起始顶点“流出”,并在中间的每个顶点处均分。传播后,PRA根据从v_0经由ρ到达v_l的资源量来量化ρ的语义关联强弱。函数h_r会选出语义关联强的路径ρ。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配,依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有第一节点分别进行匹配;将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配;依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对。
在本申请一具体实施例中,多个节点实体匹配对采用VPair工作模式实体匹配算法,系统的VPair工作模式利用算法VParaMatch来计算数据库D中给定元组t的所有匹配(u_t,v_g),其中u_t是D的规范图G_D中表示t的顶点,v_g是图中的顶点G。VParaMatch算法以函数(h_v,h_ρ,h_r)和边界(σ,δ,k)作为参数,并以元组t∈D作为输入。与ParaMatch不同,顶点v_g不作为VParaMatch的输入。VParaMatch基于G中vg的参数模拟计算(u_t,v_g)的集合Π(u_t),定义为:
II(u t)={(u t,v g)|v g∈G,II(u t,v g)≠θ
算法VParaMatch的具体步骤:如图4所示,VParaMatch首先选择G中h_v(u_t,v_g)≥σ的所有顶点v_g,并用这些候选(u_t,v_g)初始化一个集合C(u_t)(如图4中第2-3行)。然后按照C(u_t)中顶点度数的递增顺序对C(u_t)中的对进行排序(如图4中第4行)。直观地,从度数较小的顶点 开始,VParaMatch可以更早地判定更多的候选匹配有效或无效,并减少运行时间。之后VParaMatch按照其在C(u_t)中的顺序迭代检查每个(u,v)(如图4中第6-11行)。更具体地说,它首先检查(u,v)是否已被确认有效(第7-8行);如果是,则将其添加到Π(u_t)。否则,它会在(u,v)上调用ParaMatch以验证其有效性(如图4中第9-11行)。VParaMatch在关键信息上构建倒排索引作为实体识别的分组策略:例如,同年的论文在同一个分组中,而后再在同一分组中判定实体是否匹配。
作为一种示例,VPair工作模式和APair工作模式将单个节点对的实体判定过程进行封装,并行地查找某一元组t在图中所有匹配的实体节点,以及所有元组在图中的所有匹配的实体节点。
在本发明一实施例中,可以结合下列描述进一步说明步骤所述“依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配,依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对”的具体过程。
如下列步骤所述,依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
在本申请一具体实施例中,所有节点实体对匹配APair工作模式实体匹配算法。
在APair工作模式下的AllParaMatch算法计算数据库D和图G中所有匹配的元组与顶点的集合Π:
Figure PCTCN2022080180-appb-000006
其中,u_t是G_D中的一个顶点,v_g是G中的一个顶点。与ParaMatch和VParaMatch不同,AParaMatch均不接收u_t和v_g作为输入。
算法AParaMatch扩展VParaMatch,AParaMatch首先初始化一组C的候选匹配(u_t,v_g),对于所有u_t∈V_D和v_g∈V,使得hv(ut,vg)≥σ。在此之后,它的剩余步骤与算法VParaMatch完全一致。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图5,示出了本申请一实施例提供的一种横跨图数据与关系数据的实体对识别装置,具体包括如下模块,
数据获取模块510:用于获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
第二图数据生成模块520:用于依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;
实体对匹配模块530:用于依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本发明一实施例中,所述实体对匹配模块530还包括:
实体对匹配子模块:用于依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;
匹配的实体对子模块:用于依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对。
在本发明一实施例中,所述实体对匹配子模块,包括:
排序子模块:用于将所述第二图数据中的第二节点按照顺序进行排序;
求和子模块:用于依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和;
预设数值子模块:用于若求和的数值达到预设数值,则为匹配实体对;
单个节点实体对子模块:用于将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。
不匹配子模块:用于若求和的数值没有达到预设数值,则为不匹配实体对。
多个节点匹配子模块:用于将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有第一节点分别进行匹配;
多个节点实体对子模块:用于将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配。
所有匹配子模块:用于将所述第二图数据中的所有第二节点和所述目标第一图数据中的所有第一节点进行匹配;
所有节点实体对子模块:用于将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述所有节点实体对匹配。
在本发明一实施例中,所述匹配的实体对子模块,包括:
单节点子模块:用于依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或;
多节点子模块:用于依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
或:
所有节点子模块:用于依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
需要说明的是,对于方法实施例,为了简单描述,故将其都表述为一系列的动作组合,但是本领域技术人员应该知悉,本发明实施例并不受所描述的动作顺序的限制,因为依据本发明实施例,某些步骤可以采用其他顺序或 者同时进行。其次,本领域技术人员也应该知悉,说明书中所描述的实施例均属于优选实施例,所涉及的动作并不一定是本发明实施例所必须的。
在本具体实施例与上述具体实施例中有重复的操作步骤,本具体实施例仅做简单描述,其余方案参考上述具体实施例描述即可。
对于装置实施例而言,由于其与方法实施例基本相似,所以描述的比较简单,相关之处参见方法实施例的部分说明即可。
参照图6,示出了本申请的一种横跨图数据与关系数据的实体对识别方法的计算机设备,具体可以包括如下:
上述计算机设备12以通用计算设备的形式表现,计算机设备12的组件可以包括但不限于:一个或者多个处理器或者处理单元16,内存28,连接不同系统组件(包括内存28和处理单元16)的总线18。
总线18表示几类总线结构中的一种或多种,包括存储器总线或者存储器控制器,外围总线,图形加速端口,处理器或者使用多种总线结构中的任意总线结构的局域总线。举例来说,这些体系结构包括但不限于工业标准体系结构(ISA)总线,微通道体系结构(MAC)总线,增强型ISA总线、音视频电子标准协会(VESA)局域总线以及外围组件互连(PCI)总线。
计算机设备12典型地包括多种计算机系统可读介质。这些介质可以是任何能够被计算机设备12访问的可用介质,包括易失性和非易失性介质,可移动的和不可移动的介质。
内存28可以包括易失性存储器形式的计算机系统可读介质,例如随机存取存储器30和/或高速缓存存储器32。计算机设备12可以进一步包括其他移动/不可移动的、易失性/非易失性计算机体统存储介质。仅作为举例,存储系统34可以用于读写不可移动的、非易失性磁介质(通常称为“硬盘驱动器”)。尽管图6中未示出,可以提供用于对可移动非易失性磁盘(如“软盘”)读写的磁盘驱动器,以及对可移动非易失性光盘(例如CD-ROM,
DVD-ROM或者其他光介质)读写的光盘驱动器。在这些情况下,每个驱动器可以通过一个或者多个数据介质界面与总线18相连。存储器可以包括至少一个程序产品,该程序产品具有一组(例如至少一个)程序模块42,这些 程序模块42被配置以执行本申请各实施例的功能。
具有一组(至少一个)程序模块42的程序/实用工具40,可以存储在例如存储器中,这样的程序模块42包括——但不限于——操作系统、一个或者多个应用程序、其他程序模块42以及程序数据,这些示例中的每一个或某种组合中可能包括网络环境的实现。程序模块42通常执行本申请所描述的实施例中的功能和/或方法。
计算机设备12也可以与一个或多个外部设备14(例如键盘、指向设备、显示器24、摄像头等)通信,还可与一个或者多个使得操作人员能与该计算机设备12交互的设备通信,和/或与使得该计算机设备12能与一个或多个其他计算设备进行通信的任何设备(例如网卡,调制解调器等等)通信。这种通信可以通过I/O接口22进行。并且,计算机设备12还可以通过网络适配器20与一个或者多个网络(例如局域网(LAN)),广域网(WAN)和/或公共网络(例如因特网)通信。如图6所示,网络适配器20通过总线18与计算机设备12的其他模块通信。应当明白,尽管图6中未示出,可以结合计算机设备12使用其他硬件和/或软件模块,包括但不限于:微代码、设备驱动器、冗余处理单元16、外部磁盘驱动阵列、RAID系统、磁带驱动器以及数据备份存储系统34等。
处理单元16通过运行存储在内存28中的程序,从而执行各种功能应用以及数据处理,例如实现本申请实施例所提供的一种横跨图数据与关系数据的实体对识别方法。
也即,上述处理单元16执行上述程序时实现:获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
在本申请实施例中,本申请还提供一种计算机可读存储介质,其上存储有计算机程序,该程序被处理器执行时实现如本申请所有实施例提供的一种 横跨图数据与关系数据的实体对识别方法。
也即,给程序被处理器执行时实现:获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
可以采用一个或多个计算机可读的介质的任意组合。计算机可读介质可以是计算机可读信号介质或者计算机可读存储介质。计算机可读存储介质例如可以是——但不限于——电、磁、光、电磁、红外线或半导体的系统、装置或器件,或者任意以上的组合。计算机可读存储介质的更具体的例子(非穷举的列表)包括:具有一个或多个导线的电连接、便携式计算机磁盘、硬盘、随机存取存储器(RAM)、只读存储器(ROM)、可擦可编程只读存储器(EPROM或闪存)、光纤、便携式紧凑磁盘只读存储器(CD-ROM)、光存储器件、磁存储器件或者上述的任意合适的组合。在本文件中,计算机可读存储介质可以是任何包含或存储程序的有形介质,该程序可以被指令执行系统、装置或者器件使用或者与其结合使用。
计算机可读的信号介质可以包括在基带中或者作为载波一部分传播的数据信号,其中承载了计算机可读的程序代码。这种传播的数据信号可以采用多种形式,包括——但不限于——电磁信号、光信号或上述的任意合适的组合。计算机可读的信号介质还可以是计算机可读存储介质以外的任何计算机可读介质,该计算机可读介质可以发送、传播或者传输用于由指令执行系统、装置或者器件使用或者与其结合使用的程序。
可以以一种或多种程序设计语言或其组合来编写用于执行本申请操作的计算机程序代码,上述程序设计语言包括面向对象的程序设计语言——诸如Java、Smalltalk、C++,还包括常规的过程式程序设计语言——诸如“C”语言或类似的程序设计语言。程序代码可以完全地在操作人员计算机上执行、部分地在操作人员计算机上执行、作为一个独立的软件包执行、部分在操作 人员计算机上部分在远程计算机上执行或者完全在远程计算机或者服务器上执行。在涉及远程计算机的情形中,远程计算机可以通过任意种类的网络——包括局域网(LAN)或广域网(WAN)——连接到操作人员计算机,或者,可以连接到外部计算机(例如利用因特网服务提供商来通过因特网连接)。本说明书中的各个实施例均采用递进的方式描述,每个实施例重点说明的都是与其他实施例的不同之处,各个实施例之间相同相似的部分互相参见即可。
尽管已描述了本申请实施例的优选实施例,但本领域内的技术人员一旦得知了基本创造性概念,则可对这些实施例做出另外的变更和修改。所以,所附权利要求意欲解释为包括优选实施例以及落入本申请实施例范围的所有变更和修改。
最后,还需要说明的是,在本文中,诸如第一和第二等之类的关系术语仅仅用来将一个实体或者操作与另一个实体或操作区分开来,而不一定要求或者暗示这些实体或操作之间存在任何这种实际的关系或者顺序。而且,术语“包括”、“包含”或者其任何其他变体意在涵盖非排他性的包含,从而使得包括一系列要素的过程、方法、物品或者终端设备不仅包括那些要素,而且还包括没有明确列出的其他要素,或者是还包括为这种过程、方法、物品或者终端设备所固有的要素。在没有更多限制的情况下,由语句“包括一个……”限定的要素,并不排除在包括所述要素的过程、方法、物品或者终端设备中还存在另外的相同要素。
以上对本申请所提供的一种横跨图数据与关系数据的实体对识别方法及装置,进行了详细介绍,本文中应用了具体个例对本申请的原理及实施方式进行了阐述,以上实施例的说明只是用于帮助理解本申请的方法及其核心思想;同时,对于本领域的一般技术人员,依据本申请的思想,在具体实施方式及应用范围上均会有改变之处,综上所述,本说明书内容不应理解为对本申请的限制。

Claims (10)

  1. 一种横跨图数据与关系数据的实体对识别方法,所述方法用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对,其特征在于,包括:
    获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
    依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;所述第一元组与所述第二节点相对应;
    依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
  2. 根据权利要求1所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对的步骤,包括:
    依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配;或;依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配;
    依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对。
  3. 根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成单个节点实体对匹配的步骤,包括:
    将所述第二图数据中的第二节点按照顺序进行排序;
    依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和;
    若求和的数值达到预设数值,则为匹配实体对;
    将匹配成功的所述第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述单个节点实体对匹配。
  4. 根据权利要求3所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成多个节点实体对匹配的步骤,包括:
    将所述第二图数据中的每个第二节点和所述目标第一图数据中的所有第一节点分别进行匹配;
    将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述多个节点实体对匹配。
  5. 根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据所述目标第一图数据中的第一节点和所述第二图数据中的第二节点生成所有节点实体对匹配的步骤,包括:
    将所述第二图数据中的所有第二节点和所述目标第一图数据中的所有第一节点进行匹配;
    将匹配成功的第二图数据的第二节点和所述目标第一图数据中的第一节点集合生成所述所有节点实体对匹配。
  6. 根据权利要求2所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依据单个节点实体对匹配或多个节点实体对匹配或设所有节点实体对匹配输出所述目标第一图数据和关系数据中匹配的实体对的步骤,包括:
    依据单个节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
    或;
    依据多个节点实体对匹配将与所述目标第一图数据中的第一节点匹配 的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据和关系数据中匹配的实体对;
    或;
    依据全部节点实体对匹配将与所述目标第一图数据中的第一节点匹配的第二图数据中的第二节点转换为所述关系数据的元组,输出所述目标第一图数据中和关系数据中匹配的实体对。
  7. 根据权利要求4所述的横跨图数据与关系数据的实体对识别方法,其特征在于,所述依次分别将所述第二图数据中的第二节点和所述目标第一图数据中的第一节点的关联性进行求和的步骤,包括:
    若求和的数值没有达到预设数值,则为不匹配实体对。
  8. 一种横跨图数据与关系数据的实体对识别装置,所述装置用于识别出目标第一图数据中的目标节点和目标关系数据中的目标元组相匹配的实体对,其特征在于,包括:
    数据获取模块:用于获取待提取的目标关系数据和目标第一图数据;其中,所述目标关系数据包括至少一个元组,所述目标第一图数据包括至少一个第一节点;
    第二图数据生成模块:用于依据所述目标关系数据生成相对应的第二图数据;其中,所述第二图数据包括至少一个第二节点;
    实体对匹配模块:用于依据所述第一节点和所述第二节点确定对应于所述目标第一图数据和所述目标关系数据中匹配的实体对。
  9. 一种电子设备,其特征在于,包括处理器、存储器及存储在所述存储器上并能够在所述处理器上运行的计算机程序,所述计算机程序被所述处理器执行时实现如权利要求1至7中任一项所述的横跨图数据与关系数据的实体对识别方法的步骤。
  10. 一种计算机可读存储介质,其特征在于,所述计算机可读存储介质上存储计算机程序,所述计算机程序被处理器执行时实现如权利要求1至7中任一项所述的横跨图数据与关系数据的实体对识别方法的步骤。
PCT/CN2022/080180 2022-03-08 2022-03-10 一种横跨图数据与关系数据的实体对识别方法及装置 WO2023168659A1 (zh)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN202210227078.1A CN114580390A (zh) 2022-03-08 2022-03-08 一种横跨图数据与关系数据的实体对识别方法及装置
CN202210227078.1 2022-03-08

Publications (1)

Publication Number Publication Date
WO2023168659A1 true WO2023168659A1 (zh) 2023-09-14

Family

ID=81773601

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/CN2022/080180 WO2023168659A1 (zh) 2022-03-08 2022-03-10 一种横跨图数据与关系数据的实体对识别方法及装置

Country Status (2)

Country Link
CN (1) CN114580390A (zh)
WO (1) WO2023168659A1 (zh)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268735B1 (en) * 2015-12-29 2019-04-23 Palantir Technologies Inc. Graph based resolution of matching items in data sources
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN112632226A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112988877A (zh) * 2021-03-30 2021-06-18 北京明略昭辉科技有限公司 一种数据检索与可视化方法、装置、设备和存储介质
CN114048329A (zh) * 2021-11-25 2022-02-15 工银科技有限公司 知识图谱的构建与展示方法、装置、电子设备和介质

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10268735B1 (en) * 2015-12-29 2019-04-23 Palantir Technologies Inc. Graph based resolution of matching items in data sources
CN111209409A (zh) * 2019-12-27 2020-05-29 南京医康科技有限公司 数据匹配方法及装置、存储介质及电子终端
CN112632226A (zh) * 2020-12-29 2021-04-09 天津汇智星源信息技术有限公司 基于法律知识图谱的语义搜索方法、装置和电子设备
CN112988877A (zh) * 2021-03-30 2021-06-18 北京明略昭辉科技有限公司 一种数据检索与可视化方法、装置、设备和存储介质
CN114048329A (zh) * 2021-11-25 2022-02-15 工银科技有限公司 知识图谱的构建与展示方法、装置、电子设备和介质

Also Published As

Publication number Publication date
CN114580390A (zh) 2022-06-03

Similar Documents

Publication Publication Date Title
US11500818B2 (en) Method and system for large scale data curation
CN111353310B (zh) 基于人工智能的命名实体识别方法、装置及电子设备
US20190354878A1 (en) Concept Analysis Operations Utilizing Accelerators
US9361386B2 (en) Clarification of submitted questions in a question and answer system
US9971967B2 (en) Generating a superset of question/answer action paths based on dynamically generated type sets
KR20200098378A (ko) 설명 정보 확정 방법, 장치, 전자 기기 및 컴퓨터 저장 매체
US11170306B2 (en) Rich entities for knowledge bases
CN111858649B (zh) 一种基于本体映射的异构数据融合方法
TWI643076B (zh) 金融非結構化文本分析系統及其方法
CN111859969B (zh) 数据分析方法及装置、电子设备、存储介质
US8037057B2 (en) Multi-column statistics usage within index selection tools
US11487943B2 (en) Automatic synonyms using word embedding and word similarity models
CN111274267A (zh) 一种数据库查询方法、装置及计算机可读取存储介质
US8650180B2 (en) Efficient optimization over uncertain data
CN111984745A (zh) 数据库字段动态扩展方法、装置、设备及存储介质
CN116561264A (zh) 一种基于知识图谱的智能问答系统的构建方法
CN114064606A (zh) 数据库迁移方法、装置、设备、存储介质和系统
CN117633194A (zh) 大模型提示数据处理方法、装置、电子设备及存储介质
CN113610626A (zh) 银行信贷风险识别知识图谱构建方法、装置、计算机设备及计算机可读存储介质
WO2023168659A1 (zh) 一种横跨图数据与关系数据的实体对识别方法及装置
Horiuchi et al. JupySim: Jupyter Notebook Similarity Search System.
CN114595334A (zh) 一种基于双图谱融合的语言解析方法、系统及终端设备
JP7443649B2 (ja) モデル更新方法、装置、電子デバイス及び記憶媒体
Flores et al. Incremental schema integration for data wrangling via knowledge graphs
CN116755683B (zh) 一种数据处理方法和相关装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22930298

Country of ref document: EP

Kind code of ref document: A1