WO2017069548A1 - 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법 - Google Patents

복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법 Download PDF

Info

Publication number
WO2017069548A1
WO2017069548A1 PCT/KR2016/011868 KR2016011868W WO2017069548A1 WO 2017069548 A1 WO2017069548 A1 WO 2017069548A1 KR 2016011868 W KR2016011868 W KR 2016011868W WO 2017069548 A1 WO2017069548 A1 WO 2017069548A1
Authority
WO
WIPO (PCT)
Prior art keywords
nodes
node
data
network graph
image
Prior art date
Application number
PCT/KR2016/011868
Other languages
English (en)
French (fr)
Inventor
이경원
임홍준
박흥석
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Publication of WO2017069548A1 publication Critical patent/WO2017069548A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Definitions

  • the present invention relates to a display device and a method for visualizing and displaying a result of data analysis so that a user can understand and use the data more easily.
  • the present invention corresponds to a basic research project carried out with the support of the Korea Research Foundation as funded by the Ministry of Science, ICT and Future Planning in 2015 (No. 2015R1A5A7037630). This work was supported by the National Research Foundation of Korea (NRF) Grant funded by the Korean Government (MSIP) (No. 2015R1A5A7037630).
  • the data can be analyzed as a relationship between sets with defined inclusion relationships and with each set and an element.
  • the data in which the set relation is analyzed may be conceptualized and graphed in various ways for the user's understanding. Conventional methods such as venn diagrams and euler diagrams exist to express aggregate relations that analyze such data.
  • OnSet or UpSet methods exist that express detailed set relationships in a hierarchical manner using matrix visualization methods.
  • this method has a disadvantage in that it is difficult to recognize the overall appearance of the data.
  • the present invention has been made in an effort to provide a data display apparatus and a method thereof, by which the overall context of data can be understood, and at the same time, a set relation and an element relation can be grasped selectively from the data.
  • a data analysis result display apparatus receives a data set including elements having at least one item information, and each item information of the elements included in the data set.
  • a network generator configured to set a node as a node and generate information indicating a connection relationship between the nodes;
  • a network graph image generation unit configured to generate a network graph image representing a network graph connecting the nodes to edges according to the information indicating the connection relationship between the nodes;
  • a data display image generation unit configured to generate a data display image displaying data about the element shared between the nodes.
  • the data analysis result display apparatus may further include an integrated image generation unit configured to generate an image in which the network graph image and the data display image are integrated.
  • the network generation unit represents the connection relationship between the item information as the connection relationship between the nodes, and the information indicating the connection relationship between the nodes based on the number of elements corresponding to the connection relationship between the item information included in the data set. It may include a node connection data generator to generate.
  • the node connection data generation unit performs an association rule analysis on the data set to calculate at least one or more of the degree of support, reliability, or improvement of the connection between the nodes, and the calculated degree of support, reliability, or improvement.
  • An association rule analysis unit may be configured to generate a diagram as information representing a connection relationship between the nodes.
  • the node connection data generation unit may further include a filtering unit that selects the connection between the nodes based on at least one of support or reliability of the connection between the nodes calculated by the association rule analyzer.
  • the network generator may include a centrality calculator for calculating the centrality of the node to be applied to the network graph.
  • the network graph image generating unit may select at least one of the shape, thickness, or color of the edge corresponding to the connection between the nodes according to the weight value set according to the support degree, the reliability, or the degree of improvement of the connection between the nodes. It may include an edge setting unit to set.
  • the network graph image generating unit may include a node setting unit configured to set at least one of a shape, a size, and a color of the node to be displayed on the network graph image according to the centrality value of the node.
  • the network graph image generating unit may include an element display image generating unit generating an image displaying the elements shared by the plurality of nodes selected according to a user selection input.
  • the element display image generation unit may include: a node position setting unit configured to set a distance between the nodes according to the number of elements shared by the nodes, and to set the position of the node to a position spaced apart from a reference point by the set distance; And an element for setting the position of the element so as to be closer to the node having a larger magnitude of the relation based on the magnitude of the relation between the element and the node in setting the position of the element in the space between the nodes. It may include a position setting unit.
  • the network graph image generating unit generates the network graph image highlighting a portion of the node and the edge included in the network graph image, and generates the network graph image highlighting the node corresponding to a selected attribute according to a user input. It may include an emphasis graph image generating unit.
  • the network graph image generating unit generates the network graph image highlighting a part of the node and the edge included in the network graph image, and highlights the node selected according to a node inclusion condition set according to a user input. It may include an emphasis graph image generator for generating an image.
  • the data display image generation unit may include an intersection display unit configured to generate a first data display image indicating an intersection relationship between the nodes having the elements shared among the nodes selected according to a user input.
  • the intersection display may classify the intersection into at least one class according to the number of nodes that generate the intersection, and display the intersection relationship on the first data display image for each class.
  • the data display image generation unit may include an intersection element information display unit configured to generate a second data display image that displays information about the number of elements included in the intersection or the attributes of the elements.
  • the data display image generation unit may generate the data display image in which information corresponding to the intersection between the selected nodes is highlighted when some of the nodes are selected from the network graph image according to the user input.
  • the network graph image generating unit may generate the network graph image in which the node corresponding to the selected intersection is highlighted when at least one of the intersections is selected from the data display image according to the user input.
  • a data analysis result display method receives a data set including elements having at least one item information, each of the items of the elements contained in the data set A network generation step of setting information as a node and generating information indicating a connection relationship between the nodes; A network graph image generation step of generating a network graph image representing a network graph connecting the nodes to each other at an edge according to the information indicating the connection relationship between the nodes; And a data display image generation step of generating a data display image displaying data about the element shared between the nodes.
  • the association rule analysis is performed on the data set to calculate at least one or more of the degree of support, reliability, or improvement of the connection between the nodes, and the calculated support or reliability or the improvement.
  • the node connection data generation step of generating a diagram as information representing a connection relationship between the nodes; And calculating a centrality of the node to be applied to the network graph.
  • the generating of the network graph image may include at least one of the shape, thickness, or color of the edge corresponding to the connection between the nodes, according to a weight value set according to the support, the reliability, or the improvement of the connection between the nodes.
  • the generating of the data display image may include an intersection display step of generating a first data display image indicating an intersection relationship between the nodes in which the elements share with each other among the nodes selected according to a user input; And an intersection element information display step of generating a second data display image displaying information about the number of elements included in the intersection or an attribute of the element.
  • the data display image may generate the data display image in which information corresponding to the intersection between the selected nodes is highlighted.
  • the network graph image when at least one of the intersections is selected from the data display image according to the user input, the network graph image may be generated in which the node corresponding to the selected intersection is highlighted.
  • the overall context of the data can be understood, and at the same time, the aggregate relation and the element relation can be grasped selectively from the data.
  • FIG. 1 is a block diagram of a data analysis result display apparatus according to an exemplary embodiment.
  • FIG. 2 is a detailed block diagram of the network generator 100 according to an exemplary embodiment.
  • FIG. 3 is a detailed block diagram of the node connection data generator 110.
  • FIG. 4 is a reference diagram illustrating an example of transaction data.
  • 5 is a reference diagram showing a table of connections between nodes that have been filtered.
  • FIG. 6 is a detailed block diagram of the network graph image generator 200 according to an exemplary embodiment.
  • FIG. 7 is a reference diagram illustrating a network graph generated by the network graph image generator 200.
  • FIG. 8 is a reference diagram illustrating a network graph generated by the network graph image generator 200.
  • 9 is a detailed block diagram of the element display image generator 230.
  • 10 is a reference diagram illustrating a network graph.
  • 11 is a reference diagram illustrating a network graph image.
  • 12 is a detailed block diagram of the emphasis graph image generator 240.
  • 13 is a reference diagram illustrating a network graph image.
  • FIG. 14 is a reference diagram illustrating an operation of the node inclusion condition setting unit 242.
  • 15 is a detailed block diagram of the data display image generator 300.
  • 16 is a reference diagram illustrating a first data display image DM1.
  • 17A and 17B are reference diagrams illustrating a network graph image and a data display image.
  • FIG. 18 is a flowchart illustrating a data analysis result display method according to another exemplary embodiment of the present invention.
  • FIG. 19 is a detailed flowchart of an embodiment of the network creation step S100.
  • S200 is a detailed flowchart of an embodiment of the network graph image generation step (S200).
  • 21 is a detailed flowchart of an embodiment of a data display image generation step S300.
  • OnSet is efficient for showing aggregate relationships for binary data.
  • each data is represented with a unique location. Users can combine the matrix layouts by dragging and dropping to visually express the result of a set operation such as intersection, union.
  • UpSet can handle all general set data and solves the scalability problem by using divide and conquer method. You can see all the set calculation results for the set you select on the matrix, and you can analyze the set relationship from various aspects through various aggregation of sort, Set, Degree, Deviation, and overlap according to the set's attributes.
  • an aspect of the present invention is to provide a data analysis result display apparatus and method thereof for identifying and analyzing a set relationship between a large amount of data.
  • the data analysis result display apparatus and method provided by the present invention basically combine two visualization techniques having different functions of two sides, thereby intuitively grasping the overview and selectively selecting specific aggregate data in the overview.
  • the goal is to be able to select quantitatively for analysis.
  • the data analysis result display apparatus and method thereof according to the present invention may first establish a connection network between aggregated data by using association rule mining, which is considered as a conventional method in the field of data mining, in order to express the relationship of the entire data.
  • association rule mining which is considered as a conventional method in the field of data mining
  • the present invention may provide a separate image indicating more specific content of the data together with the network graph, thereby enabling selective and quantitative analysis of the data.
  • the data analysis result display apparatus and method thereof according to the present invention not only display the network graph image and the data display image on one screen, but also complement the disadvantages of each image by synchronizing the two images systematically.
  • the data analysis result display apparatus and method thereof according to the present invention can construct a network of aggregated data and combine it with a matrix layout utilizing an existing UpSet visualization technique.
  • FIG. 1 is a block diagram of a data analysis result display apparatus according to an exemplary embodiment.
  • the data analysis result display apparatus may include a network generator 100, a network graph image generator 200, and a data display image generator 300, and may include an integrated image generator 400. ) May be further included.
  • the network generator 100 receives a data set including elements having at least one item information, sets each item information of the elements included in the data set as a node, and indicates a connection relationship between the nodes. Generate information.
  • the network graph image generating unit 200 generates a network graph image representing a network graph connecting the nodes to the edges according to the information indicating the connection relationship between the nodes.
  • the data display image generating unit 300 generates a data display image displaying data about the element shared between the nodes.
  • the integrated image generator 400 generates an image in which the network graph image and the data display image are integrated.
  • the network generator 100 receives a data set including elements having at least one item information, sets each item information of the elements included in the data set as a node, and indicates a connection relationship between the nodes. Generate information.
  • the data set may include a plurality of elements, and each element may have at least one item information.
  • a data set may have a plurality of lecture contents as each element, and the lecture contents corresponding to each element may have a plurality of item information according to the contents or related information.
  • one lecture content C1 may have 'art', 'me' and 'China' as item information
  • another lecture content C2 may have 'me' and 'dance' as item information. Can be.
  • the item information may refer to information indicating a predetermined item that each element may have.
  • Each item information may be configured as a node.
  • 'art', 'me', 'china', and 'dance' may be set to one node.
  • the content of deriving a connection relationship between nodes will be described in more detail in the node connection data generation unit 110 below.
  • each item information may include elements having the item information. That is, each node may be a set including elements having item information corresponding to the node.
  • the node corresponding to the 'art' item information may include lecture content C1 as an element
  • the node corresponding to the 'me' item information may include lecture content C1 and C2 as elements.
  • the data set having item information for each element may be expressed in the form of transaction data as shown in Table 1 below.
  • a transaction ID is assigned to each element, and each element may be represented by the ID, and a value may be set to 0 or 1 according to item information of each element.
  • the element T 1 has 'art', 'me' and 'China' as the item information, so the value may be set to 1.
  • various flag values may be used as necessary, such as TRUE / FALSE instead of 0/1.
  • a flag value of the corresponding item information may be set.
  • FIG. 4 shows transaction data in which a title of each lecture of a plurality of lecture contents is a transaction ID (Talk ID) and a flag (TRUE or FALSE) is set for each item information (activisim, adventure, ). See also an example.
  • the item information may be defined as an item capable of expressing the characteristics of each element, and the item information of each element included in the data set may be preset.
  • T means Topic
  • V means Video.
  • the network generator 100 may generate transaction data as described above according to item information of an element included in the data set.
  • the network generation unit 100 may generate information indicating a connection relationship between nodes by analyzing the transaction data generated as described above.
  • FIG. 2 is a detailed block diagram of the network generator 100 according to an exemplary embodiment.
  • the network generator 100 may include a node connection data generator 110, and may further include a community detector 120 or a centrality calculator 130 as necessary.
  • the node connection data generation unit 110 represents the connection relationship between the item information as the connection relationship between the nodes, and the connection relationship between the nodes based on the number of elements corresponding to the connection relationship between the item information included in the data set. Generates information representing. As described above, the connection relationship between the nodes representing the item information may be determined according to the item information of the elements included in the data set and the number of elements corresponding to the item information. The note connection data generation unit 110 derives the connection relationship between the nodes based on the number of elements corresponding to the connection relationship between the item information.
  • the note connection data generation unit 110 may include an association rule analyzer 111, and may further include a filtering unit 112 as necessary.
  • FIG. 3 is a detailed block diagram of the node connection data generator 110.
  • the association rule analysis unit 111 performs an association rule analysis on the data set to calculate at least one or more of the degree of support, reliability, or improvement of the connection between the nodes, and the calculated degree of support, the reliability, or the The degree of improvement may be generated as information indicating a connection relationship between the nodes.
  • association rule analyzer 110 may perform an association rule analysis, which is an algorithm that analyzes association rules between nodes and grasps information regarding connection relationships between nodes.
  • association rule analysis is an algorithm that analyzes association rules between nodes and grasps information regarding connection relationships between nodes.
  • a known method may be used as a method of separating association rules, for example, “Agrawal, R .; Imielimlski, T .; Swami, A. (1993).” Mining association rules between sets of items in large databases. ". Proceedings of the 1993 ACM SIGMOD international conference on Management of data-SIGMOD '93. P. 207.” Or Sunju Oh and Heon Y. Yeom. "A social network extraction based on relation analysis”. Proceedings of ICUIMC '12), Article No. 44, 2012.
  • the association rule analyzer 111 may determine the connection relationship between nodes by calculating values of support, confidence, and lift of the connection between nodes.
  • a rule indicating association between nodes may be defined as in Equation 1 below.
  • X and Y represent a set including at least one node, and may include only one node.
  • the support of X may be calculated as a ratio of the number of elements including all the nodes included in X to the number of elements included in the data set.
  • the support of X may be calculated as shown in Equation 2 below.
  • T is the number of elements in the data set
  • n (X) is the number of elements that contains all the nodes in X.
  • support may be a ratio of the number of elements included in the total data set and the number of elements included in X, that is, the frequency, as shown in Equation 2 above.
  • S (X) is the number of purchases of X out of the total goods
  • Support can be calculated with the number of guns. Therefore, when the edge representing the relationship between each node is represented as the support, it is possible to grasp the distribution in the entire data through the edge in the network graph image representing the entire data.
  • the degree of improvement is a value derived by dividing the reliability by the support as shown in Equation 4 above.
  • the degree of improvement is a value indicating the degree of correlation between X and Y, compared to the confidence indicating the degree of influence on Y.
  • Support and Confidence represent the concept of probability, it can have a value from 0 to 1 (the closer to 1, the stronger the association rule can be).
  • the strength of the association rule may vary in terms of the degree of improvement depending on the degree of support.
  • the lift is derived based on the support and the confidence, it can be used as an efficient measure for determining the relationship between X and Y by reflecting both of the above factors.
  • the network graph image may express how strong or weak the relationship between nodes is in the same way as the reliability.
  • the filtering unit 112 may select the connection between the nodes based on at least one of support or reliability of the connection between the nodes calculated by the association rule analyzer 111. In addition, the selected connection between the nodes may be displayed on the network graph image by the network graph image generator 200.
  • the filtering unit 112 may select only the support having a value greater than or equal to a predetermined threshold among the connections between the nodes, or select only the reliability having a value greater than or equal to a predetermined threshold. Alternatively, if necessary, only the connections between nodes whose support and reliability are equal to or greater than a predetermined threshold may be selected. As described above, the filtering unit 112 performs filtering based on the degree of support or reliability, thereby removing the outliers and reducing the number of data to be displayed as an image.
  • FIG. 5 is a reference diagram showing a connection between nodes that have been filtered in this manner.
  • R represents a rule that is the result of a Rule.
  • the community detector 120 may detect the community corresponding to the node according to the item information of the node among a plurality of communities to be included in the network graph.
  • the community detector 120 may calculate modularity using a Louvain's method and determine the community of each node based on this.
  • modularity is a concept used when evaluating the result of a community detection algorithm.
  • the modularity of a community may have a value between -1 and +1 as a scalar value.
  • the value represents a ratio of link density between communities and link density between different communities.
  • there are many connections within the community and the connection between the communities may be a measure indicating a small degree.
  • the Louvain method is an algorithm that initially assigns different community ids to all nodes, constructs a new community or maintains the initial state according to the change of modularity values while visiting adjacent nodes, and repeats until the modularity value does not increase. If the community performs the higher-order algorithm on the undetermined network data (node-link data), the community ID of each node may be given through the first and second processes.
  • the centrality calculator 130 may calculate a centrality of the node to be applied to the network graph.
  • the centrality is an index indicating the importance of the nodes in the network graph represented by the connection between the nodes.
  • the centrality calculating unit 130 may calculate the centrality between each node and use it as the centrality.
  • the size of the centrality the larger the centrality, the more important nodes can be determined.
  • the centrality (or social centrality) may be calculated as the number passing through a specific node among the shortest paths generated from all nodes in the graph.
  • the shortest path is a concept used in graph theory.
  • the shortest path is a path connecting the two nodes in the graph with the minimum weight of the edge.
  • ⁇ st is the number of all shortest paths from node s to node t
  • ⁇ st (v) is the number of paths past node v.
  • the centrality is a value indicating the degree of mediation of a particular node connecting one node and another node constituting the network. Therefore, a high centrality figure means that a node is centered on a network, and thus such a node is an important node connecting different communities.
  • the network graph image generating unit 200 generates a network graph image representing a network graph connecting the nodes to the edges according to the information indicating the connection relationship between the nodes.
  • each node may be represented by a shape having a predetermined size (for example, a circular dot) corresponding to the node, and the connection between the nodes may be represented by an edge which is a line connecting the shapes representing each node as described above. .
  • the network graph image generating unit 200 may generate the network graph image based on the information representing the connection relationship between the nodes by using a force directed algorithm.
  • the network graph image generating unit 200 is' T. M. J. Fruchterman and E. M. Reingold, "Graph drawing by force-directed placement," Softw: Pract. Exper., Vol. 21, no. 11, pp. 1129-1164, Nov.
  • the network graph can be generated using the Force Directed algorithm according to the method introduced in 1991.
  • the network graph image generating unit 200 is a 'Jacomy M, Venturini T, Heymann S, Bastian M (2014) ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software.' Or 'M. Bastian, S. Heymann, and M. Jacomy, "Gephi: an open source software for exploring and manipulating networks," in International AAAI Conference on Weblogs and Social Media.
  • the network graph may be generated using a graph generation method introduced in Association for the Advancement of Artificial Intelligence, 2009.
  • the network graph image generating unit 200 may generate a network graph connecting the nodes to the edges according to the information indicating the connection relationship between the nodes generated by the network generating unit 100 using various other methods. .
  • FIG. 6 is a detailed block diagram of the network graph image generator 200 according to an exemplary embodiment.
  • the network graph image generating unit 200 includes at least one of an edge setting unit 210, a node setting unit 220, an element display image generating unit 230, and an emphasis graph image generating unit 240 as necessary. can do.
  • the edge setting unit 210 may select at least one of the shape, thickness, or color of the edge corresponding to the connection between the nodes according to the weight value set according to the support degree, the reliability, or the improvement of the connection between the nodes. Can be set.
  • the edge setting unit 210 may set weights according to values of support, reliability, or improvement of the connection between nodes, and may set edges according to the set weight value.
  • the edge may be understood to represent the degree of frequent occurrence in the network graph.
  • a weight is set as an improvement of the connection between the nodes, it can be understood that an edge represents an important degree of the connection between the nodes.
  • the edge setting unit 210 may set the shape, thickness or color of the edge as necessary according to the set weight value. According to an embodiment, the edge setting unit 210 may set the thickness of the edge according to the weight. For example, the edge setting unit 210 may set the edge so that the thickness of the edge increases as the weight value increases.
  • FIG. 7 is a reference diagram illustrating a network graph generated by the network graph image generator 200. Referring to FIG. 7, it can be seen that an edge is displayed such that edge edge3 between node N1 and node N3 has a different thickness from edge edge1 between node N1 and node N2.
  • the edge setting unit 210 has a difference in thickness between edges as shown in FIG. 7 according to the magnitude of the weight. You can mark the edges as you like.
  • the network graph image generating unit 200 may include a node setting unit 220.
  • the node setting unit 220 may set at least one of a shape, a size, or a color of the node to be displayed on the network graph image according to the centrality value of the node.
  • the centrality is an index indicating the importance of the node. According to an embodiment, the centrality may be used.
  • the node setting unit 220 may set the size of the node according to the centrality value. For example, you can set the diameter of a node based on its centrality value.
  • 7 is a reference diagram for explaining the operation of the node setting unit 220 as described above. In FIG. 7, nodes N1, N2, and N3 have different sizes / diameters.
  • the node setting unit 220 may set the diameter of the node as shown in FIG. 7 so that the diameter of the node becomes larger according to the size of the centrality value of each node.
  • C means Cluster.
  • Each cluster has its own color.
  • the edge setting unit 210 and the node setting unit 220 may set the thickness of the edge and the size of each node according to the information indicating the connection between the nodes and the centrality value of the node.
  • the network graph image generator 200 may include an element display image generator 230.
  • the element display image generator 230 may generate an image displaying the elements shared by the plurality of nodes selected according to a user selection input.
  • the user may select a plurality of nodes through the input interface in the network graph image, and the element display image generator 230 receives the user selection input as described above and displays the elements shared among the selected nodes in the network graph image. can do.
  • the network graph image may be represented by a node and an edge.
  • the network graph may be generated to further represent elements included in the node.
  • an icon representing each element may be displayed on the network graph image.
  • the element display image generator 230 may include at least one of the node position setter 231 and the element position setter 232.
  • 9 is a detailed block diagram of the element display image generator 230.
  • the node position setting unit 231 may set the distance between the nodes according to the number of the elements shared by the nodes, and set the position of the node to a position spaced apart from the reference point by the set distance.
  • the node position setting unit 231 may set the coordinate of the reference point according to the coordinate value in the network graph image of the nodes included in the network graph.
  • the reference point may be set as an average coordinate of coordinates of the nodes.
  • the node position setting unit 231 may set the distance between the nodes according to the number of the elements shared by the nodes. Here, it is preferable to set the distance such that the greater the number of shared elements between nodes, the greater the distance between nodes.
  • the distance between the nodes may be calculated according to Equations 5 and 6 below.
  • Xi is the number of elements included in the i-th node
  • Xmin is the number of elements of the node having the smallest number of elements among the selected nodes
  • Xmax is the number of elements of the node having the largest number of elements among the selected nodes.
  • Xni is the normalized value of Xi.
  • l is a variable representing the size of the network graph image
  • k is the number of nodes included in the network graph
  • D is a distance from which the node is located from the reference point.
  • the 10 is a reference diagram illustrating a network graph in which each node is spaced apart by the calculated distance from the reference point by the node position setting unit 231.
  • the node position setting unit 231 sets the coordinates of the reference point c, sets the distance d between the nodes as shown in FIG. 10, and then positions each of the nodes at positions spaced apart from the reference point c by the distance d.
  • the node position can be set such that the nodes N1 and N2 are located.
  • the distance between nodes may be defined as a value representing a distance between nodes N1 and N2, or may be defined as a value representing a distance of a node from a reference point by having a value of 1/2 of the value.
  • the element position setting unit 232 may set the position of the element in the space between the nodes so as to be closer to the node having a larger magnitude of the relation based on the magnitude of the relation between the element and the node. You can set the position of an element. Referring to FIG. 10, the element position setting unit 232 may set the position of the element e1 so that the element e1 is closer to the node N1 when the size of the relationship with the node N1 is greater than the size of the relationship with the node N2. have. On the contrary, the element position setting unit 232 may set the position of the element e2 to be closer to the node N2 when the element e2 is smaller in size than the relationship with the node N1.
  • the element position setting unit 232 may use the TF-IDF value as a relation value between the element and the node.
  • the TF-IDF value is a value used to measure the similarity between the document and the words included in the document, and in the present invention, the TF-IDF value may be used to measure the relation between the node and the element included in each node.
  • the TF-IDF value which is the relation between the element and the node, may be calculated as in Equations 7 to 9 below.
  • tf is the word frequency
  • e is the element node
  • s is the aggregation node
  • the unit frequency tf may be calculated as follows.
  • Boolean frequency may be used as a method of calculating word frequency. This way, if t appears once in d , it will evaluate to 1, or 0. In the present invention, such a concept of word frequency is used to correspond words to set nodes and documents to element nodes.
  • tf can be calculated as 1 if s is included in e, or 0 otherwise.
  • the lecture may be an element node e, the subject song set node s, where f (s, e) is the total frequency of the set (topic) s within the lecture e. It may mean.
  • a word frequency may be calculated as 1 or 0 as a boolean frequency.
  • N is the total number of elements e contained in node s
  • is the size of the aggregation node
  • the network graph image generating unit 200 displays the node at the position set by the node position setting unit 231 and displays the element at the position set by the element position setting unit 232 as described above. Can be generated.
  • N means a set node and E means an element. Elements are placed inside the intersection node. Intersection area means the area where E included between N1 and N2 is located.
  • the network graph image generator 200 may include an emphasis graph image generator 240.
  • the emphasis graph image generator 240 generates a network graph image highlighting a portion of the node and the edge included in the network graph image, and generates a network graph image highlighting the node corresponding to a selected attribute according to a user input. can do.
  • the emphasis graph image generating unit 240 may generate a network graph image highlighting nodes corresponding to attributes selected according to a user's input in order to highlight nodes corresponding to a specific attribute in a network graph.
  • the node corresponding to the selected attribute may be overlaid by using a variety of techniques for overlaying a separate color, overlaying a shape having a predetermined transparency to cover the node, or highlighting in other images.
  • the highlighted graph image generator 240 may display a network graph image representing an effect of highlighting the selected node in the entire network graph image.
  • FIG. 13 is a reference diagram illustrating a network graph image highlighting nodes corresponding to a 'fun' property, for example.
  • the highlighted part means that the activated intersection (right matrix screen part) and the N1 and N2 included in the intersection are also synchronized in the network image part.
  • the emphasis graph image generator 240 may include an attribute setting unit 241.
  • the property setting unit 241 may receive an input of a user and select an attribute of a plurality of properties according to the input.
  • 12 is a detailed block diagram of the emphasis graph image generator 240.
  • the emphasis graph image generating unit 240 generates a network graph image highlighting a part of the node and the edge included in the network graph image, and highlights the node selected according to a node inclusion condition set according to a user input.
  • a graph image can be generated.
  • the node inclusion condition is a condition value that can be set for each node.
  • the node inclusion condition may be a condition such as 'must include', 'do not include' or 'not include'.
  • the emphasis graph image generating unit 240 may include the node inclusion condition setting unit 242.
  • the node inclusion condition setting unit 242 may receive an input of a user and perform an operation of setting a node inclusion condition according to the input to the node.
  • the node inclusion condition setting unit 242 may receive a user's input through an option check item displayed on the network graph image, or may receive a user input through an option check item displayed on the data display image.
  • N denotes a set node that is performed in a query option, and a dotted line indicates that the screen is activated.
  • the dotted line at the top of the right matrix layout shows the current situation.
  • the interface to select each query operation is displayed on the left of N1, Ni in the network video unit.
  • the emphasis graph image generating unit 240 specifies a part of the network graph so as to include or not include a specific node according to the set condition, and emphasizes the specific part or only the part.
  • a network graph image may be generated.
  • the network graph image generator 200 may display the nodes included in the community in the network graph image in different colors or shapes for each community.
  • the data display image generating unit 300 generates a data display image displaying data about the element shared between the nodes.
  • 15 is a detailed block diagram of the data display image generator 300.
  • the data display image generating unit 300 may include at least one of the intersection display unit 310 and the intersection element information display unit 320.
  • the intersection display unit 310 generates a first data display image that displays an intersection relationship between the nodes in which the elements share with each other among the nodes selected according to the user input.
  • the intersection display unit 310 may classify the intersection into at least one class according to the number of nodes that generate the intersection, and display the intersection relationship on the first data display image for each class. For example, if the intersection of two nodes is defined as Degree 2, the intersection of three nodes is defined as Degree 3, and the set representing one node is defined as Degree 1, the intersection display 310 is the user's
  • the intersection relations generated by the selected nodes according to the input may be displayed on the first data display image. For example, if the selected nodes are A, B, and C, the intersection display 310 displays the intersections corresponding to 'A ⁇ B', 'A ⁇ C', and 'B ⁇ C' in the Degree 2 category, respectively.
  • the display image may be displayed, and an intersection corresponding to 'A ⁇ B ⁇ C' may be displayed on the first data display image in the Degree 3 class.
  • FIG. 16 is a reference diagram illustrating the first data display image DM1 generated as described above.
  • N is a set node and Degree means a criterion divided according to the number of intersections.
  • the first bar chart (Cardinality) is the number of sets of columns in the matrix
  • the second bar chart (Attirubte1 ⁇ j) shows the average of the attribute values of the elements of the intersection.
  • the sort option check box at the top right is an indication of the options that can be sorted according to the value of each attribute and number of elements.
  • the intersection element information display unit 320 may generate a second data display image displaying information about the number of elements included in the intersection or an attribute of the element. Each intersection contains an element included in the intersection, that is, an element shared by the nodes forming the intersection.
  • the intersection element information display unit 320 may generate a second data display image that displays information of elements included in the intersection.
  • the information of the element to be displayed may include the number of elements included in the intersection, and may include information about the attributes of the elements included in the intersection.
  • intersection element information display unit 320 may generate a second data display image DM2 to display the number of elements (Card) and attribute (Att) information of elements included in each intersection as described above. have.
  • the data display image generating unit 300 may generate the data display image by integrating the first data display image and the second data display image generated as described above.
  • the data display image generator 300 may include 'Alexande Lex, Nils Gehlenborg, Hedrik Strobelt, Romain Vuillemot, and Hanspeter Pfister. "Upset: Visualization of Intersecting Sets.” IEEE Transactions on Visualization and Computer Graphics (Proceedings of InfoVis '14), vol 20, pp. Using the Upset method introduced in 1983-1992, 2014. ', it is possible to generate a data display image displaying the connection relation between nodes and information of elements included in the nodes in a matrix form.
  • the data display image generator 300 and the network graph image generator 200 may interact with each other according to a user input.
  • the data display image generation unit 300 may generate the data display image in which information corresponding to the intersection between the selected nodes is highlighted. have.
  • the network graph image generator 200 may generate the network graph image in which the node corresponding to the selected intersection is highlighted. .
  • the integrated image generator 400 generates an image in which the network graph image and the data display image are integrated. That is, as shown in FIG. 13 or FIG. 14, the integrated image generating unit 400 displays the integrated image such that the network graph image is displayed in the first region of the integrated image and the data display image is displayed in another second region of the integrated image. Can be generated. The generated integrated image may be displayed to the user through the screen display unit.
  • the data analysis result display apparatus generates an integrated image integrating the network graph image and the data display image as described above and provides it to the user, thereby allowing the user to understand the overall context of the data and simultaneously Approaches have the effect of selectively identifying aggregate and elemental relationships.
  • the user may select some of the objects displayed on the data display image or the network graph image, and check the information corresponding to the selected object.
  • the data set for generating the network graph image and generating the data display image may be variously set according to the analysis target data.
  • the data set may be information representing the constituent protein elements of the drug.
  • the element may be each drug
  • the item information set as the node may be a protein included in each drug.
  • the network generator 100 of the present invention may generate information indicating a connection relationship between nodes according to the data set
  • the network graph image generator 200 may generate the information according to the information indicating the connection relationship between the nodes.
  • a network graph image connecting nodes to edges may be generated.
  • Elements representing each drug in the network graph may be distinguished by different colors.
  • the relationship between the protein contained in the drug may be generated and displayed as a data display image according to the data display image generation unit 300 according to the present invention.
  • the data set may be information representing patients with a disease.
  • the element may be each disease
  • the item information set as the node may be a patient having each disease.
  • the network generator 100 of the present invention may generate information indicating a connection relationship between nodes according to the data set
  • the network graph image generator 200 may generate the information according to the information indicating the connection relationship between the nodes.
  • a network graph image connecting nodes to edges may be generated.
  • Elements representing each patient in the network graph can be distinguished by different colors.
  • the relationship between the patient and the disease may be generated and displayed as a data display image according to the data display image generator 300 according to the present invention.
  • the data analysis result display apparatus and method thereof may generate and provide a network graph image and a data display image to a user for various data sets.
  • 17A and 17B are reference diagrams showing a network graph image and a data display image in the above embodiments.
  • 17A shows an overview of the overall system.
  • 17B shows an image of hovering interaction with N3 in the entire system.
  • the right panel displays the names and information of N3 and the nodes connected to it. Similarly, only the nodes connected to N3 and N3 are displayed in the network image unit.
  • FIG. 18 is a flowchart illustrating a data analysis result display method according to another exemplary embodiment of the present invention.
  • the data analysis result display method may include a network generation step S100, a network graph image generation step S200, and a data display image generation step S300.
  • the data analysis result display method according to an exemplary embodiment of the present invention may operate in the same manner as the data analysis result display apparatus according to the present invention described in detail with reference to FIGS. 1 to 16. Therefore, the overlapping parts are omitted and the main operations will be described.
  • the network generation step (S100) receives a data set including elements having at least one item information, sets each item information of the elements included in the data set as a node, and indicates a connection relationship between the nodes. Generate information.
  • Network graph image generation step (S200) generates a network graph image representing a network graph connecting the nodes to the edge in accordance with the information indicating the connection relationship between the nodes.
  • the data display image generating step (S300) generates a data display image displaying data about the element shared between the nodes.
  • the network graph image generation step S200 or the data display image generation step S300 may be performed again.
  • the data display image generating step 300 may generate the data display image in which information corresponding to the intersection between the selected nodes is highlighted when some of the nodes are selected in the network graph image according to a user input. have.
  • the network graph image generating step 200 may generate the network graph image in which the node corresponding to the selected intersection is highlighted when at least one of the intersections is selected from the data display image according to the user input. .
  • the user input may be continuously received (S400) and the operations (S200 and S300) may be performed accordingly.
  • FIG. 19 is a detailed flowchart of an embodiment of the network creation step S100.
  • the network generation step may include at least one of node connection data generation step S110, community detection step S120, and centrality calculation step 130.
  • the node connection data generation step (S110) represents a connection relationship between the item information as the connection relationship between the nodes, and the connection relationship between the nodes based on the number of elements corresponding to the connection relationship between the item information included in the data set. Information indicating the can be generated.
  • the node connection data generation step (S110) may perform at least one or more of support, reliability, or improvement of the connection between the nodes by performing association rule analysis on the data set, and calculating the support or the reliability.
  • the improvement level may be generated as information representing a connection relationship between the nodes.
  • the community detecting step S120 may detect the community corresponding to the node according to the item information of the node among a plurality of communities to be included in the network graph.
  • Centrality calculation step (S130) may calculate the centrality of the node to be applied to the network graph.
  • S200 is a detailed flowchart of an embodiment of the network graph image generation step (S200).
  • the network graph image generating step S200 may include at least one of an edge setting step S210, a node setting step S220, an element display image generating step S230, and an emphasis graph image generating step S240. .
  • Edge setting step (S210) is at least one of the shape, thickness or color of the edge corresponding to the connection between the nodes, according to the weight value set according to the support or the reliability or the degree of improvement of the connection between the nodes. Can be set.
  • the node setting step S220 may set at least one of the shape, size, or color of the node to be displayed on the network graph image according to the centrality value of the node.
  • an image displaying the element shared by the plurality of nodes selected according to a user selection input may be generated.
  • the network graph image may be generated by highlighting a portion of the node and the edge included in the network graph image.
  • 21 is a detailed flowchart of an embodiment of a data display image generation step S300.
  • the data display image generation step S300 may include at least one of an intersection display step S310 and an intersection element information display step S320.
  • An intersection display step (S310) may generate a first data display image that displays an intersection relationship between nodes in which the elements share each other among the nodes selected according to a user input.
  • the display of the intersection element information (S320) may generate a second data display image displaying information about the number of elements included in the intersection or the attributes of the elements.
  • the data analysis result display apparatus and the method according to the present invention by combining the visualization having different advantages and disadvantages, it is possible to solve the spatial problem on the network, which is a chronic problem in analyzing the data in the aggregate form. There is. In addition, we could grasp the background of the entire data on the visualization of the matrix form. In addition, by synchronizing the two visualizations systematically, not only do they compensate for the disadvantages of each visualization, but also provide a more quantitative and qualitatively improved user experience in searching and analyzing information spaces.
  • each or some of the components of the components are selectively combined to perform some or all of the functions combined in one or a plurality of hardware It may be implemented as a computer program having a.
  • a computer program is stored in a computer readable medium such as a USB memory, a CD disk, a flash memory, and the like, and is read and executed by a computer, thereby implementing embodiments of the present invention.
  • the recording medium of the computer program may include a magnetic recording medium, an optical recording medium, a carrier wave medium, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 데이터 분석 결과를 사용자가 보다 쉽게 이해하고 이용할 수 있도록, 시각화하여 표시하는 표시 장치 및 그 방법에 관한 것이다. 본 발명에 따른 데이터 분석 결과 표시 장치는, 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성하는 네트워크 생성부; 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성하는 네트워크 그래프 영상 생성부; 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성하는 데이터 표시 영상 생성부; 및 상기 네트워크 그래프 영상과 상기 데이터 표시 영상을 통합한 영상을 생성하는 통합 영상 생성부를 포함할 수 있다.

Description

복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
본 발명은 데이터 분석 결과를 사용자가 보다 쉽게 이해하고 이용할 수 있도록, 시각화하여 표시하는 표시 장치 및 그 방법에 관한 것이다. 본 발명은 2015년도 정부(미래창조과학부)의 재원으로 한국연구재단의 지원을 받아 수행된 기초연구사업에 해당한다(No. 2015R1A5A7037630). This work was supported by the National Research Foundation of Korea(NRF) Grant funded by the Korean Government(MSIP)(No.2015R1A5A7037630).
데이터는 서로 포함 관계가 정의된 집합 간의 관계와 각 집합과 원소와의 관계로 분석될 수 있다. 그리고 이와 같이 집합 관계가 분석된 데이터는 사용자의 이해 편의를 위하여 다양한 방식으로 개념화 및 그래프화 하여 표현될 수 있다. 기존에 이와 같은 데이터를 분석한 집합 관계를 표현하는 방법으로는 벤 다이어그램, 오일러 다이어그램 등 전통적인 방법이 존재하여 왔다.
그러나 데이터의 양이 방대할 경우 이와 같은 전통적인 방법으로는 데이터 간의 다중화된 집합 관계를 표현하는데 어려움이 있고, 이에 보다 직관적으로 이해하기 쉽게 데이터 분석 결과를 표시하는 방법들이 제안되어 왔고, 예를 들면, 매트릭스 형태의 시각화 방법을 이용하여 세부적인 집합 관계를 다계층적으로 표현하는 OnSet 또는 UpSet 방법 등이 존재하고 있다. 그러나 상기 방법은 데이터의 전체적인 모습을 인지하기 어려운 단점이 있다.
본 발명이 해결하고자 하는 과제는, 데이터의 전체적인 맥락을 이해할 수 있으면서도, 동시에 데이터에서 선별적으로 집합 관계와 원소 관계를 파악할 수 있도록 하는 데이터 표시 장치와 그에 관한 방법을 제공하는 것이다.
상기 과제를 해결하기 위해, 본 발명의 일 유형에 따른 데이터 분석 결과 표시 장치는 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성하는 네트워크 생성부; 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성하는 네트워크 그래프 영상 생성부; 및 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성하는 데이터 표시 영상 생성부를 포함할 수 있다.
여기서 상기 데이터 분석 결과 표시 장치는 상기 네트워크 그래프 영상과 상기 데이터 표시 영상을 통합한 영상을 생성하는 통합 영상 생성부를 더 포함할 수 있다.
여기서 상기 네트워크 생성부는 상기 항목 정보 간 연결 관계를 상기 노드 간 연결 관계로 나타내고, 상기 데이터 집합에 포함된 상기 항목 정보 간 연결 관계에 대응하는 원소들의 수를 기초로 상기 노드 간의 연결 관계를 나타내는 정보를 생성하는 노드 연결 데이터 생성부를 포함할 수 있다.
여기서 상기 노드 연결 데이터 생성부는 상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성하는 연관 규칙 분석부를 포함할 수 있다.
여기서 상기 노드 연결 데이터 생성부는 상기 연관 규칙 분석부에서 산출한 상기 노드 간 연결의 지지도 또는 신뢰도 중 적어도 어느 하나 이상을 기준으로, 상기 노드 간 연결을 선별하는 필터링부를 더 포함할 수 있다.
여기서 상기 네트워크 생성부는 상기 네트워크 그래프에 적용할 상기 노드의 중심성을 산출하는 중심성 산출부를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정하는 에지 설정부를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 상기 노드의 상기 중심성 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정하는 노드 설정부를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 사용자 선택 입력에 따라 선택된 복수개의 상기 노드가 공유하는 상기 원소를 표시하는 영상을 생성하는 원소 표시 영상 생성부를 포함할 수 있다.
여기서 상기 원소 표시 영상 생성부는, 상기 노드들이 공유하는 상기 원소의 수에 따라 상기 노드 간의 거리를 설정하고, 상기 노드의 위치를 기준점으로부터 상기 설정한 거리만큼 이격된 위치로 설정하는 노드 위치 설정부; 및 상기 노드들 간의 공간에 상기 원소의 위치를 설정함에 있어서, 상기 원소와 상기 노드 간의 관련성의 크기를 기준으로, 상기 관련성의 크기가 더 큰 상기 노드와 더 가깝도록 상기 원소의 위치를 설정하는 원소 위치 설정부를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 상기 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 선택된 속성에 대응하는 상기 노드를 강조한 상기 네트워크 그래프 영상을 생성하는 강조 그래프 영상 생성부를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 상기 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 설정된 노드 포함 조건에 따라 선별되는 상기 노드를 강조한 상기 네트워크 그래프 영상을 생성하는 강조 그래프 영상 생성부를 포함할 수 있다.
여기서 상기 데이터 표시 영상 생성부는 사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성하는 교집합 표시부를 포함할 수 있다.
여기서 상기 교집합 표시부는 상기 교집합을 생성하는 상기 노드의 수에 따라 상기 교집합을 적어도 하나 이상의 부류로 분류하고, 상기 부류 별로 상기 교집합 관계를 상기 제1 데이터 표시 영상에 표시하는 것을 특징으로 할 수 있다.
여기서 상기 데이터 표시 영상 생성부는 상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성하는 교집합 원소 정보 표시부를 포함할 수 있다.
여기서 상기 데이터 표시 영상 생성부는 상기 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성할 수 있다.
여기서 상기 네트워크 그래프 영상 생성부는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성할 수 있다.
상기 과제를 해결하기 위해, 본 발명의 또 다른 유형에 따른 데이터 분석 결과 표시 방법은 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성하는 네트워크 생성 단계; 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성하는 네트워크 그래프 영상 생성 단계; 및 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성하는 데이터 표시 영상 생성 단계를 포함할 수 있다.
여기서 상기 네트워크 생성 단계는, 상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성하는 상기 노드 연결 데이터 생성 단계; 및 상기 네트워크 그래프에 적용할 상기 노드의 중심성을 산출하는 중심성 산출 단계를 포함할 수 있다.
여기서 상기 네트워크 그래프 영상 생성 단계는, 상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정하는 에지 설정 단계; 및 상기 노드의 상기 중심성 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정하는 노드 설정 단계를 포함할 수 있다.
여기서 상기 데이터 표시 영상 생성 단계는 사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성하는 교집합 표시 단계; 및 상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성하는 교집합 원소 정보 표시 단계를 포함할 수 있다.
여기서 상기 데이터 표시 영상 생성 단계는 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성할 수 있다.
여기서 상기 네트워크 그래프 영상 생성 단계는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성할 수 있다.
본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법에 의하면, 데이터의 전체적인 맥락을 이해할 수 있으면서도, 동시에 데이터에서 선별적으로 집합관계와 원소관계를 파악할 수 있는 효과가 있다.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 결과 표시 장치의 블록도이다.
도 2는 네트워크 생성부(100)의 일 실시예에 따른 세부 블록도이다.
도 3은 노드 연결 데이터 생성부(110)의 세부 블록도이다.
도 4는 트랜잭션 데이터를 나타내는 일 예를 보여주는 참고도이다.
도 5는 필터링을 수행한 노드 간 연결을 표로 나타낸 참고도이다.
도 6은 네트워크 그래프 영상 생성부(200)의 일 실시예에 따른 세부 블록도이다.
도 7은 네트워크 그래프 영상 생성부(200)에 의하여 생성되는 네트워크 그래프를 나타내는 참고도이다.
도 8은 네트워크 그래프 영상 생성부(200)에 의하여 생성되는 네트워크 그래프를 나타내는 참고도이다.
도 9는 원소 표시 영상 생성부(230)의 세부 블록도이다.
도 10은 네트워크 그래프를 나타내는 참고도이다.
도 11은 네트워크 그래프 영상을 나타내는 참고도이다.
도 12는 강조 그래프 영상 생성부(240)의 세부 블록도이다.
도 13은 네트워크 그래프 영상을 나타내는 참고도이다.
도 14는 노드 포함 조건 설정부(242)의 동작을 나타내는 참고도이다.
도 15는 데이터 표시 영상 생성부(300)의 세부 블록도이다.
도 16는 제1 데이터 표시 영상(DM1)을 나타내는 참고도이다.
도 17A 및 도17B는 네트워크 그래프 영상 및 데이터 표시 영상을 나타내는 참고도이다.
도 18은 본 발명의 또 다른 실시예에 따른 데이터 분석 결과 표시 방법의 흐름도이다.
도 19는 네트워크 생성 단계(S100)의 일 실시예의 세부 흐름도이다.
도 20은 네트워크 그래프 영상 생성 단계(S200)의 일 실시예의 세부 흐름도이다.
도 21은 데이터 표시 영상 생성 단계(S300)의 일 실시예의 세부 흐름도이다.
이하, 본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 우선 각 도면의 구성요소들에 참조 부호를 부가함에 있어서, 동일한 구성요소들에 대해서는 비록 다른 도면상에 표시되더라도 가능한 동일한 부호를 가지도록 하고 있음에 유의해야 한다. 또한, 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다. 또한, 이하에서 본 발명의 바람직한 실시예를 설명할 것이나, 본 발명의 기술적 사상은 이에 한정하거나 제한되지 않고 당업자에 의해 변형되어 다양하게 실시될 수 있음은 물론이다.
집합과 집합 사이의 관계, 집합과 원소와의 관계에 대한 분석은 데이터 분석 혹은 논리학에 있어서 가장 기초적, 기본적인 분석으로 다루어지고 있다. 집합관계를 표현하기 위한 기본적인 방법으로는 벤 다이어그램, 오일러 다이어그램과 같은 방법이 전통적으로 사용되어 왔다. 하지만 이 방식은 겹치는 집합이 특정 수 이상으로 많아지면 관계가 많아지고 복잡해지면서 더 이상 관계를 인지하기 힘들어진다. 즉, 데이터가 많아짐에 따라 선별적으로 집합데이터를 선택하고, 많은 양의 관계를 시각적으로 분석하는 것이 문제점으로 남아있다.
이러한 데이터의 scalability 문제를 해결하고자 최근 연구들 중에는 매트릭스형태의 시각화를 통해 집합관계를 표현하는 방식을 소개하고 있다. 대표적인 시각화 방식으로는 OnSet과 UpSet이 있다. OnSet은 바이너리 데이터에 대한 집합관계를 보여주는데 효율적이다. 매트릭스 레이아웃에서 각각 데이터는 유일한 위치를 가지고 표현된다. 사용자가 각 매트릭스 레이아웃을 Drag and Drop으로 합칠 수 있게 하여 교집합, 합집합 등 집합연산 결과를 시각적으로 표현되도록 한다. 또한 UpSet은 일반적인 모든 집합데이터를 다룰 수 있으며, divide and conquer 방식으로 scalability 문제를 해결하였다. 사용자가 선택한 집합에 대한 모든 집합연산 결과를 매트릭스 위에서 볼 수 있으며, 집합의 속성에 따른 sort와 Set, Degree, Deviation, overlap의 다양한 aggregation을 통해 집합관계를 다양한 측면에서 분석 할 수 있다.
하지만 이러한 매트릭스 형태의 집합 시각화는 데이터의 전체적인 모습을 인지하기 힘든 단점이 있다. 따라서 종래의 기술을 종합적으로 살펴봤을 때, 집합관계를 분석함에 있어 전체적인 데이터의 맥락을 이해함과 동시에 세부적인 집합관계를 파악하는데 효율적인 시각화 기술이 필요하다.
따라서, 본 발명은 많은 양의 데이터 사이에 집합관계를 파악하고, 분석하기 위한 데이터 분석 결과 표시 장치 및 그에 관한 방법을 제공하고자 한다.
본 발명이 제공하는 데이터 분석 결과 표시 장치 및 그 방법은 기본적으로 서로 다른 양면의 기능을 가진 두 가지 시각화 기법을 결합함으로써, 직관적으로 Overview를 파악함과 동시에, Overview내에서의 특정한 집합 데이터를 선별적으로 선택하여 정량적으로 분석할 수 있도록 하는 것을 목표로 한다. 본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법은 첫 번째로 전체 데이터의 관계를 표현하기 위해 data mining 분야에서 전통적인 방법으로 여겨지는 association rule mining을 이용하여 집합 데이터들 간의 연결망을 구축할 수 있다. 이때 Graph형태(Node-link)의 네트워크 시각화를 이용하면, 데이터의 전체적인 맥락을 파악할 수 있지만, 네트워크 시각화의 복잡성과 공간적 문제 때문에 선별적인, 혹은 여러 데이터의 관계 분석에 있어서는 한계점을 가지고 있다. 이러한 점들을 보완하기 위해 본 발명은 네트워크 그래프와 함께 데이터의 보다 구체적인 내용을 표시하는 별도의 영상을 제공하여, 데이터의 선별적 및 양적인 분석을 가능하게 할 수 있다. 여기서 본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법은 단순히 네트워크 그래프 영상과 데이터 표시 영상을 한 화면에 표시함을 넘어서, 두 영상을 시스템적으로 동기화함으로써, 각 영상이 가지는 단점을 보완할 뿐만 아니라, 사용자에게 보다 양적, 질적으로 향상된 정보 탐색을 제공할 수 있다. 이를 위하여 본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법은 집합 데이터의 네트워크를 구축하고 이를 기존의 UpSet 시각화 기법을 활용한 매트릭스 레이아웃과 결합할 수 있다. 이상과 같은 구성을 통하여 두 시각화 방식을 상호 보완 할 수 있을 뿐만 아니라 정보 공간(information space)에서 사용자가 데이터를 접근하여 분석할 수 있는 효과가 있다.
이하에서는 본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법에 대하여 보다 상세히 설명한다.
도 1은 본 발명의 일 실시예에 따른 데이터 분석 결과 표시 장치의 블록도이다.
본 발명의 일 실시예에 따른 데이터 분석 결과 표시 장치는 네트워크 생성부(100), 네트워크 그래프 영상 생성부(200), 데이터 표시 영상 생성부(300)를 포함할 수 있고, 통합 영상 생성부(400)를 더 포함할 수 있다.
네트워크 생성부(100)는 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성한다.
네트워크 그래프 영상 생성부(200)는 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성한다.
데이터 표시 영상 생성부(300)는 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성한다.
통합 영상 생성부(400)는 상기 네트워크 그래프 영상과 상기 데이터 표시 영상을 통합한 영상을 생성한다.
이하에서는 네트워크 생성부(100)의 동작에 대하여 보다 상세히 설명한다.
네트워크 생성부(100)는 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성한다.
여기서 데이터 집합은 복수개의 원소(Element)들을 포함할 수 있고, 각 원소들은 적어도 하나 이상의 항목(Item) 정보를 가질 수 있다. 예를 들면 데이터 집합은 복수개의 강의 컨텐츠를 각 원소로 할 수 있고, 각 원소에 해당하는 강의 컨텐츠는 그 내용이나 관련된 정보에 따라 복수개의 항목 정보를 가질 수 있다. 예를 들면 어느 한 강의 컨텐츠(C1)는 항목 정보로 '예술', '미', '중국'을 가질 수 있고, 또 다른 강의 컨텐츠(C2)는 '미', '춤'을 항목 정보로 가질 수 있다.
여기서 항목 정보는 각 원소들이 가질 수 있는 미리 정해진 항목(item)을 나타내는 정보를 지칭할 수 있다. 그리고 각 항목 정보는 노드(Node)로 설정될 수 있다. 예를 들면 위의 예에서 '예술', '미', '중국', '춤'이 각각 하나의 노드로 설정될 수 있다. 이때 각 원소들이 어떠한 항목 정보를 가지고 있는지, 특정 항목 정보를 공통으로 가지고 있는 원소들이 데이터 집합 내에서 얼마나 많이 존재하고 있는지 여부 등에 따라, 항목 정보를 나타내는 각 노드들 간에 존재하는 연결 관계를 도출해낼 수 있다. 노드 간의 연결 관계를 도출하는 내용에 관하여는 아래의 노드 연결 데이터 생성부(110)에서 보다 상세히 설명한다.
또한 여기서 각 항목 정보에 대응하는 노드는 해당 항목 정보를 가지는 원소들을 포함할 수 있다. 즉 각 노드는 노드에 대응하는 항목 정보를 가지는 원소들을 포함하는 집합이 될 수 있다. 위 예를 참고하면, '예술' 항목 정보에 대응하는 노드는 강의 컨텐츠 C1을 원소로 포함할 수 있고, '미' 항목 정보에 대응하는 노드는 강의 컨텐츠 C1, C2를 원소로 포함할 수 있다.
여기서 각 원소 별 항목 정보를 가지는 데이터 집합은 아래 표 1과 같이 트랜잭션 데이터(Transaction Data)의 형태로 표현될 수 있다.
트랜잭션 ID 예술 중국 DNA
T 1 1 1 1 0 0
T 2 0 1 0 1 0
T 3 0 0 0 0 1
T 4 1 1 0 1 0
T 5 1 0 0 1 0
상기 표 1에서 각 원소 마다 트랜잭션 ID가 부여되어, 각 원소는 위 ID로 표현될 수 있고, 각 원소가 가지는 항목 정보에 따라 값이 0 또는 1로 설정될 수 있다. 예를 들면 T 1 원소는 항목 정보로 '예술', '미', '중국'을 가지므로 해당 값이 1로 설정될 수 있다. 여기서 0/1 대신 TRUE/FALSE 등 필요에 따라 다양한 플래그 값이 이용될 수 있음은 물론이다. 여기서 특정 원소가 특정 항목 정보를 가질 경우 해당 항목 정보의 플래그 값이 셋 될 수 있다.
도 4는 복수개의 강의 컨텐츠의 각 강의의 제목을 트랜잭션 ID(Talk ID)로 하고, 각 항목 정보(activisim, adventure, ...)에 대한 플래그(TRUE or FALSE)를 세팅한 트랜잭션 데이터를 나타내는 일 예를 보여주는 참고도이다. 도 4의 예와 같이 항목 정보는 각 원소의 특성을 나타낼 수 있는 항목으로 정의될 수 있고, 데이터 집합에 포함되어 있는 각 원소 별로 가지고 있는 항목 정보가 미리 설정될 수 있다. 예컨대, T는 Topic(주제)를 의미하고, V는 Video(강의)를 의미한다.
네트워크 생성부(100)는 데이터 집합에 포함된 원소의 항목 정보에 따라 위와 같은 트랜잭션 데이터를 생성할 수 있다. 그리고 네트워크 생성부(100)는 위와 같이 생성한 트랜잭션 데이터를 분석하여 노드 간 연결 관계를 나타내는 정보를 생성할 수 있다.
도 2는 네트워크 생성부(100)의 일 실시예에 따른 세부 블록도이다.
네트워크 생성부(100)는 노드 연결 데이터 생성부(110)를 포함할 수 있고, 필요에 따라 커뮤니티 검출부(120) 또는 중심성 산출부(130)를 더 포함할 수 있다.
노드 연결 데이터 생성부(110)는 상기 항목 정보 간 연결 관계를 상기 노드 간 연결 관계로 나타내고, 상기 데이터 집합에 포함된 상기 항목 정보 간 연결 관계에 대응하는 원소들의 수를 기초로 상기 노드 간의 연결 관계를 나타내는 정보를 생성한다. 상술한 바와 같이 항목 정보를 나타내는 노드 간의 연결 관계는 데이터 집합에 포함된 원소들이 가지는 항목 정보와 각 항목 정보에 대응하는 원소들의 수에 따라 결정될 수 있다. 이에 노트 연결 데이터 생성부(110)는 항목 정보 간 연결 관계에 대응하는 원소들의 수를 기초로 노드 간 연결 관계를 도출한다.
이를 위하여 노트 연결 데이터 생성부(110)는 연관 규칙 분석부(111)를 포함할 수 있고, 필요에 따라 필터링부(112)를 더 포함할 수 있다.
도 3은 노드 연결 데이터 생성부(110)의 세부 블록도이다.
연관 규칙 분석부(111)는 상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성할 수 있다.
여기서 연관 규칙 분석부(110)는 노드 간의 연관 규칙을 분석하여 노드 간 연결 관계에 관한 정보를 파악하는 알고리즘인 연관 규칙 분석(Association Rule Analysis)을 할 수 있다. 여기서 연관 규칙 분성 방법으로는 공지된 방법을 이용할 수 있고, 예를 들면 "Agrawal, R.; Imieli㎖ski, T.; Swami, A. (1993). "Mining association rules between sets of items in large databases". Proceedings of the 1993 ACM SIGMOD international conference on Management of data - SIGMOD '93. p. 207." 또는 "Sunju Oh and Heon Y. Yeom. "A social network extraction based on relation analysis". Proceedings of ICUIMC '12), Article No. 44, 2012."에서 소개하고 있는 방법을 이용할 수 있다.
연관 규칙 분석부(111)는 노드 간 연결 관계를 노드 간 연결의 지지도(Support), 신뢰도(Confidence), 향상도(Lift) 값을 산출함으로써 파악할 수 있다. 연관 규칙 분석에서 노드 간 연관성을 나타내는 규칙은 하기 수학식 1과 같이 정의될 수 있다.
Figure PCTKR2016011868-appb-M000001
여기서 X, Y는 적어도 하나 이상의 노드를 포함하는 집합을 나타내고, 하나의 노드만을 포함할 수도 있다.
여기서 {X} => {Y}로 표현되는 연관 규칙은 규칙의 의미에 따라 여러 가지 척도(measurement)로 측정될 수 있다. 일 실시예에 있어서 지지도(Support), 신뢰도(Confidence), 향상도(Lift)를 이용하여 연관분석 알고리즘을 통해 추출된 연관 규칙 {X}=>{Y}의 연결을 나타낼 수 있다.
여기서 X의 지지도(Support)는 X에 포함된 노드들을 모두 포함하는 원소의 수와 데이터 집합에 포함된 원소들의 수의 비율로 산출할 수 있다. 여기서 X의 지지도(Support)는 하기 수학식 2와 같이 산출될 수 있다.
Figure PCTKR2016011868-appb-M000002
여기서 S는 지지도이고, T는 데이터 집합에 포함된 원소들의 수이고, n(X)는 X에 포함된 노드들을 모두 포함하는 원소의 수이다.
또한 {X} => {Y}의 노드 간 연결의 지지도(Support)는 상기 노드 간 연결을 구성하는 노드가 모두 포함된 원소의 수와 데이터 집합에 포함된 원소들의 수의 비율로 산출할 수 있다. 예를 들면 S(X => Y)는 n({X∪Y})/T와 같이 산출될 수 있다.
지지도에 대하여 보다 상세하게 설명하면, 여기서 지지도(Support)는 상기 수학식 2와 같이 총 데이터 집합에 포함된 원소들의 수와 X에 포함된 원소의 수의 비로, 즉 빈도수를 의미할 수 있다. 일 예를 들면, 총 상품 중에서 X를 구매한 건의 수를 S(X)라고 할 때 연관 규칙 {X} => {Y}를 지지도의 개념에 대입한다면, 총 상품 중에서, X, Y가 포함된 건의 수로 지지도가 산출될 수 있다. 따라서 각 노드들 간의 관계를 나타내는 에지를 지지도로 나타내면, 전체 데이터를 표시하는 네트워크 그래프 영상에서 에지를 통해 전체 데이터 내의 분포도를 파악할 수 있는 효과가 있다.
여기서 노드 간 연결의 신뢰도(Confidence), 향상도(Lift)는 각각 하기 수학식 3 및 수학식 4와 같이 산출될 수 있다.
Figure PCTKR2016011868-appb-M000003
여기서 Conf는 상기 신뢰도이다.
Figure PCTKR2016011868-appb-M000004
여기서 Lift는 상기 향상도이다.
여기서 신뢰도(Confidence)에 대하여 보다 상세히 설명한다. 신뢰도 Conf(X=>Y)는 ( X, Y 노드가 동시에 존재하는 수 / X가 존재하는 수 ) 로 표현할 수 있다. 다시 말하면 조건부 확률에 해당하는 확률식으로, X가 존재할 때 Y가 얼마나 같이 존재하는가를 나타내는 값으로 해석이 될 수 있다. 일 예를 들면, {Technology, Science} => {Design}과 같은 연관 규칙이 있다고 가정 했을 때, Confidence(X=>Y) = Confidence(Technology, Science => Design) = 0.5 로 산출되었다면, 신뢰도(Confidence)를 통해서 'Technology, Science 노드가 등장했을 때 50%확률로 Design 노드가 같이 등장한다' 라는 의미가 도출될 수 있다. 따라서 네트워크 그래프 영상에서 신뢰도(Confidence)로 노드 간의 관계를 표현할 경우, X측의 노드가 Y측의 노드에 어느 정도의 영향력을 미치는 가와 같은 연관 관계의 강한 정도를 파악할 수 있는 효과가 있다.
다음으로 향상도(Lift)에 대하여 보다 상세히 설명한다. 여기서 향상도는 상기 수학식 4와 같이 신뢰도(Confidence)를 지지도(Support)를 나눔으로써 도출되는 값이다. {X}=>{Y}라는 연관규칙에서, 상술한 바와 같이 X가 Y에게 영향을 주는 정도를 나타내는 신뢰도(confidence)에 비해, 향상도는 X와 Y 간에 상호 관련된 정도를 나타내는 값이다. 또한 지지도(Support)와 신뢰도(Confidence)는 확률의 개념을 나타내므로 0~1까지의 값을 가질 수 있는 반면(여기서 1에 가까울수록 강한 연관 규칙으로 판단될 수 있다), 향상도(Lift)는 스케일의 제한이 없고, 신뢰도가 높은 경우에도 지지도에 따라 향상도의 관점에서 연관 규칙의 강도가 변동될 수 있다. 다만 향상도(Lift)는 지지도(Support)와 신뢰도(Confidence)에 따라 도출되기 때문에, 위 두 요인을 모두 반영하여 X와 Y의 관계를 판단하는 효율적인 척도로 이용될 수 있다. 본 발명에서 향상도(Lift)를 이용하여 각 노드간의 관계를 나타낼 경우, 신뢰도(Confidence)와 마찬가지로 각 노드들의 관계의 정도가 얼마나 강한지, 약한지를 네트워크 그래프 영상에서 표현할 수 있는 효과가 있다.
예를 들어 상기 표 1의 예에 있어서, {예술, 미} => {중국}에 해당하는 노드 간 연결의 지지도는 0.2(= 1/5), 신뢰도는 0.5(=0.2/0.4), 향상도는 2.5(=0.2/(0.4 x 0.2))와 같이 산출될 수 있다.
필터링부(112)는 연관 규칙 분석부(111)에서 산출한 상기 노드 간 연결의 지지도 또는 신뢰도 중 적어도 어느 하나 이상을 기준으로, 상기 노드 간 연결을 선별할 수 있다. 그리고 상기 선별한 노드 간 연결을 이하 네트워크 그래프 영상 생성부(200)에서 네트워크 그래프 영상에 표시할 수 있다.
예를 들면 필터링부(112)는 상기 노드 간 연결 중 지지도가 소정의 임계치 이상의 값을 가지는 것만을 선별할 수 있고, 또는 신뢰도가 소정의 임계치 이상의 값을 가지는 것만을 선별할 수도 있다. 또는 필요에 따라 지지도 및 신뢰도가 모두 각각 설정된 임계치 이상인 노드 간 연결만을 선별할 수도 있다. 이와 같이 필터링부(112)가 지지도 또는 신뢰도를 기준으로 필터링을 수행함으로써, 아웃라이어를 제거하고, 영상으로 표시할 데이터의 수를 감소시킬 수 있는 효과가 있다.
도 5는 이와 같이 필터링을 수행한 노드 간 연결을 표로 나타낸 참고도이다. 예컨대, R은 Rule(연관분석)의 결과인 규칙을 나타낸다.
커뮤니티 검출부(120)는 상기 네트워크 그래프에 포함될 복수개의 커뮤니티들 중에서, 상기 노드의 상기 항목 정보에 따라 상기 노드가 해당하는 상기 커뮤니티를 검출할 수 있다.
여기서 각 노드들의 커뮤니티는 "Santo Fortunato, Community Detection in Graphs, Physics Reports 486, 75-174 (2010)." 또는 "Vincent D. Blondel, Jean-Loup Guillaume, Renaud Lambiotte and Etienne Lefebvre, Fast Unfolding of Communities in Large Networks, Journal of Statistical Mechanics Volume 2008 October (2008)."에서 소개하는 방법에 따라 검출 또는 결정할 수 있다. 일 실시예에 따르면 커뮤니티 검출부(120)는 Louvain's method를 이용하여 modularity를 산출하고 이를 기준으로 각 노드의 커뮤니티를 결정할 수 있다.
상기 Louvain's method를 이용하여 modularity를 산출하고 이를 기준으로 각 노드의 커뮤니티를 결정하는 동작을 보다 상세히 설명하면 다음과 같다. 여기서 네트워크에서의 커뮤니티를 검출하기 위하여, sub network의 modularity를 최대화하는 방식의 알고리즘을 이용할 수 있다. 여기서 Modularity는 community detection algorithm의 결과값을 평가할 때 사용되는 개념으로, 커뮤니티의 modularity는 scalar 값으로 -1 ~ +1 사이의 값을 가질 수 있다. 이때 상기 값은 커뮤니티 내부에서의 link density와 서로 다른 커뮤니티 사이에서의 link density의 비를 나타낸다. 즉 커뮤니티 내부의 연결이 많고, 커뮤니티 간의 연결은 적은 정도를 나타내는 척도가 될 수 있다. 본 발명에서는 상술한 커뮤니티 검출 알고리즘으로 maximum modularity를 목표 값으로 내는 Louvain's algorithm을 이용하여 네트워크의 커뮤니티를 결정 및 검출할 수 있다. Louvain method은 초기에 모든 노드에 다른 커뮤니티 id를 부여하고, 인접한 노드들을 방문하면서 modularity값의 변화량에 따라 새로운 커뮤니티를 구성하거나 처음 상태를 유지하며, modularity값이 증가하지 않을 때까지 반복하는 알고리즘이다. 커뮤니티가 결정되지 않은 네트워크 데이터(노드-링크 데이터)에 상위 알고리즘을 수행시키면, Phase 1, 2과정을 거쳐 각 노드들의 커뮤니티 아이디가 부여될 수 있다.
중심성 산출부(130)는 상기 네트워크 그래프에 적용할 상기 노드의 중심성(Centrality)을 산출할 수 있다. 여기서 중심성은 노드 간의 연결로 표시되는 네트워크 그래프에 있어서, 노드의 중요성을 나타내는 지표이다. 일 실시예로써 중심성 산출부(130)는 각 노드의 사이 중심성(Between Centrality)을 산출하여 이를 상기 중심성으로 이용할 수 있다. 여기서 중심성의 크기에 따라 중심성이 클수록 중요한 노드로 판단할 수 있다.
여기서 사이 중심성(또는 사회 중심성)이란 그래프에서 모든 노드로부터 생기는 shortest path 중에 특정 노드를 지나는 수로 산출될 수 있다. 여기서 shortest path란 그래프 이론에서 사용되는 개념으로 그래프에서 두 개의 노드를 연결하는 path중에 이를 구성하는 에지의 weight가 최소가 되는 path를 의미한다.
여기서 노드 v의 사이 중심성은
Figure PCTKR2016011868-appb-I000001
로 산출될 수 있다.
여기서 σst는 노드 s에서 노드 t까지의 모든 shortest path의 수이고, σst(v) 는 이러한 path들 중에 노드 v를 지나는 수이다.
이와 같이 사이 중심성은 네트워크를 구성하는 한 노드와 다른 한 노드를 연결시키는 특정 노드의 매개 정도를 나타내는 값이다. 따라서 높은 사이 중심성 수치를 노드는 네트워크 상에서 중심에 위치하게 되고, 따라서 이와 같은 노드가 서로 다른 커뮤니티를 연결해주는 중요 노드라고 볼 수 있다.
다음으로는 네트워크 그래프 영상 생성부(200)의 동작에 대하여 보다 상세히 설명한다.
네트워크 그래프 영상 생성부(200)는 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성한다. 여기서 네트워크 그래프 영상에서, 각 노드는 노드에 대응하는 일정한 크기를 가지는 형상(예를 들면 원형의 점)으로, 노드 간의 연결은 위와 같은 각 노드를 나타내는 형상 간을 연결하는 선인 에지로 표현될 수 있다.
여기서 네트워크 그래프 영상 생성부(200)는 Force Directed 알고리즘을 이용하여 상기 노드 간 연결 관계를 나타내는 정보에 기초하여 상기 네트워크 그래프 영상을 생성할 수 있다. 여기서 네트워크 그래프 영상 생성부(200)는 'T. M. J. Fruchterman and E. M. Reingold, "Graph drawing by force-directed placement," Softw: Pract. Exper., vol. 21, no. 11, pp. 1129-1164, Nov. 1991.'에서 소개하는 방법에 따라 상기 Force Directed 알고리즘을 이용하여 상기 네트워크 그래프를 생성할 수 있다.
또한 일 실시예에서 네트워크 그래프 영상 생성부(200)는 'Jacomy M, Venturini T, Heymann S, Bastian M (2014) ForceAtlas2, a Continuous Graph Layout Algorithm for Handy Network Visualization Designed for the Gephi Software.' 또는 'M. Bastian, S. Heymann, and M. Jacomy, "Gephi: an open source software for exploring and manipulating networks," in International AAAI Conference on Weblogs and Social Media. Association for the Advancement of Artificial Intelligence, 2009.'에서 소개하는 그래프 생성 방법을 이용하여 상기 네트워크 그래프를 생성할 수도 있다.
여기서 네트워크 그래프 영상 생성부(200)는 기타 다양한 방법을 이용하여 네트워크 생성부(100)에서 생성한 노드 간 연결 관계를 나타내는 정보에 따라 노드를 에지로 연결하는 네트워크 그래프를 생성할 수 있음은 물론이다.
도 6은 네트워크 그래프 영상 생성부(200)의 일 실시예에 따른 세부 블록도이다.
네트워크 그래프 영상 생성부(200)는 필요에 따라 에지 설정부(210), 노드 설정부(220), 원소 표시 영상 생성부(230), 강조 그래프 영상 생성부(240) 중 적어도 어느 하나 이상을 포함할 수 있다.
에지 설정부(210)는 상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정할 수 있다.
여기서 에지 설정부(210)는 노드 간 연결의 지지도나 신뢰도나 향상도의 값에 따라 가중치를 설정하고, 상기 설정한 가중치 값에 따라 에지를 설정할 수 있다. 여기서 가중치를 상기 노드 간 연결의 지지도로 설정하는 경우, 에지는 네트워크 그래프에서의 빈발 정도를 나타내는 것으로 이해될 수 있다. 또한 가중치를 상기 노드 간 연결의 향상도로 설정하는 경우, 에지는 상기 노드 간 연결의 중요한 정도를 나타내는 것으로 이해될 수 있다.
또한 에지 설정부(210)는 상기 설정한 가중치의 값에 따라 에지의 모양이나 두께 또는 색상을 필요에 따라 설정할 수 있다. 일 실시예에 의하면 에지 설정부(210)는 가중치에 따라 에지의 두께를 설정할 수 있다. 예를 들면 에지 설정부(210)는 가중치 값이 클수록 에지의 두께가 크도록 에지를 설정할 수 있다.
도 7은 네트워크 그래프 영상 생성부(200)에 의하여 생성되는 네트워크 그래프를 나타내는 참고도이다. 도 7을 참조하면, 노드 N1와 노드 N3 간의 에지 edge3이 노드 N1와 노드 N2 간의 에지 edge1과 다른 두께를 가지도록 에지가 표시되고 있음을 확인할 수 있다. 에지 설정부(210)는 노드 N1와 노드 N3 간의 연결에 대하여 설정된 가중치가 노드 N1와 노드 N2 간의 연결에 대하여 설정된 가중치 보다 큰 경우, 그 가중치의 크기에 따라 도 7과 같이 에지 간의 두께가 차이가 나도록 에지를 표시할 수 있다.
또한 네트워크 그래프 영상 생성부(200)는 노드 설정부(220)를 포함할 수 있다.
노드 설정부(220)는 상기 노드의 상기 중심성(Centrality) 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정할 수 있다. 상술한 바와 같이 중심성(Centrality)는 노드의 중요성을 나타내는 지표로써, 일 실시예에 따르면 사이 중심성(Between Centrality)을 이용할 수 있다.
일 실시예에 의하면 노드 설정부(220)는 중심성 값에 따라 노드의 크기를 설정할 수 있다. 예를 들면 노드의 중심성 값에 따라 노드의 지름을 설정할 수 있다. 도 7은 이와 같은 노드 설정부(220)의 동작을 설명하는 참고도이다. 도 7에서 노드 N1, N2, N3은 서로 다른 크기/지름을 가지고 있다. 노드 설정부(220)는 각 노드의 중심성 값의 크기에 따라 중심성 값이 클수록 노드의 지름이 크도록 도 7과 같이 노드의 지름을 설정할 수 있다.
도 8은 네트워크 그래프 영상 생성부(200)에 의하여 생성되는 네트워크 그래프를 나타내는 참고도이다. 예컨대, C는 Cluster(군집)를 의미한다. 각각의 클러스터는 고유의 색을 갖는다.
상술한 에지 설정부(210) 및 노드 설정부(220)에 의하여 도 8과 같이 에지의 두께 및 각 노드의 크기가 노드 간 연결을 나타내는 정보와 노드의 중심성 값에 따르도록 설정될 수 있다.
또한 네트워크 그래프 영상 생성부(200)는 원소 표시 영상 생성부(230)를 포함할 수 있다.
원소 표시 영상 생성부(230)는 사용자 선택 입력에 따라 선택된 복수개의 상기 노드가 공유하는 상기 원소를 표시하는 영상을 생성할 수 있다. 여기서 사용자는 네트워크 그래프 영상에서 입력 인터페이스를 통하여 복수개의 노드를 선택할 수 있고, 원소 표시 영상 생성부(230)는 위와 같은 사용자 선택 입력을 수신하여 선택된 복수개의 노드 간에 공유하는 원소를 네트워크 그래프 영상에 표시할 수 있다.
도 7 또는 도 8과 같이 네트워크 그래프 영상은 노드와 에지로 표현될 수 있는데, 여기서 노드가 포함하는 원소를 더 나타내도록 네트워크 그래프가 생성될 수 있다. 이를 위하여 각 원소를 나타내는 아이콘이 네트워크 그래프 영상에 표시될 수 있다. 이때 노드 간에 공유하는 원소의 수가 많으면, 네트워크 그래프 영상에서 노드 간 공간이 좁을 경우, 원소를 표시하는데 어려움이 있다. 따라서 원소를 추가로 네트워크 그래프 영상에 표시함에 있어서, 노드 간에 공유하는 원소의 수에 따라 노드 간의 거리를 재설정하고, 공유하는 원소들을 표시하는 것이 사용자가 원소를 네트워크 그래프 영상에서 파악하고 접근함에 있어서 더 유리하다고 할 수 있다.
이를 위하여 원소 표시 영상 생성부(230)는 노드 위치 설정부(231) 또는 원소 위치 설정부(232) 중 적어도 어느 하나 이상을 포함할 수 있다.
도 9는 원소 표시 영상 생성부(230)의 세부 블록도이다.
노드 위치 설정부(231)는 상기 노드들이 공유하는 상기 원소의 수에 따라 상기 노드 간의 거리를 설정하고, 상기 노드의 위치를 기준점으로부터 상기 설정한 거리만큼 이격된 위치로 설정할 수 있다.
여기서 노드 위치 설정부(231)는 상기 네트워크 그래프에 포함된 노드들의 상기 네트워크 그래프 영상에서 좌표 값에 따라, 상기 기준점의 좌표를 설정할 수 있다. 일 실시예에 의하면 상기 기준점을 상기 노드들의 좌표의 평균 좌표로 설정할 수 있다.
또한 노드 위치 설정부(231)는 상기 노드들이 공유하는 상기 원소의 수에 따라 상기 노드 간의 거리를 설정할 수 있다. 여기서 노드 간에 공유 원소의 수가 많을수록 노드 간의 거리가 크도록 거리를 설정하는 것이 바람직하다.
바람직하게는 상기 노드 간의 거리는 하기 수학식 5 및 수학식 6에 따라 산출될 수 있다.
Figure PCTKR2016011868-appb-M000005
여기서 Xi는 i 번째 노드에 포함된 원소의 수이고, Xmin은 선택된 노드들 중에서 가장 작은 원소의 수를 가지는 노드의 원소의 수이고, Xmax는 선택된 노드들 중에서 가장 큰 원소의 수를 가지는 노드의 원소의 수이고, Xni은 Xi의 정규화된 값이다.
Figure PCTKR2016011868-appb-M000006
여기서 l은 네트워크 그래프 영상의 크기를 나타내는 변수이고, k는 네트워크 그래프에 포함된 노드의 수이고, D는 상기 기준점으로부터 상기 노드가 위치할 거리이다.
도 10은 노드 위치 설정부(231)에 의하여 기준점으로부터 상기 산출된 거리만큼 이격되어 각 노드가 표시된 네트워크 그래프를 나타내는 참고도이다. 노드 위치 설정부(231)는 도 10과 같이 기준점(c)의 좌표를 설정하고, 노드 간 거리(d)를 설정한 다음, 상기 기준점(c)로부터 상기 거리(d)만큼 이격된 위치에 각 노드(N1, N2)가 위치하도록 노드 위치를 설정할 수 있다. 여기 상기 노드 간 거리는 노드 N1, N2 간의 거리를 나타내는 값으로 정의될 수 있고, 또는 상기 값의 1/2의 값을 가져 기준점으로부터의 노드의 거리를 나타내는 값으로 정의될 수도 있다.
원소 위치 설정부(232)는 상기 노드들 간의 공간에 상기 원소의 위치를 설정함에 있어서, 상기 원소와 상기 노드 간의 관련성의 크기를 기준으로, 상기 관련성의 크기가 더 큰 상기 노드와 더 가깝도록 상기 원소의 위치를 설정할 수 있다. 도 10을 참고하면, 원소 위치 설정부(232)는 e1 원소가 N1 노드와의 관련성의 크기가 N2 노드와의 관련성의 크기 보다 더 큰 경우, N1 노드와 더 가깝도록 e1 원소의 위치를 설정할 수 있다. 반대로 원소 위치 설정부(232)는 e2 원소가 N1 노드와의 관련성의 크기가 N2 노드와의 관련성의 크기 보다 더 작은 경우, N2 노드와 더 가깝도록 e2 원소의 위치를 설정할 수 있다.
일 실시예에 있어서 원소 위치 설정부(232)는 TF-IDF 값을 상기 원소와 상기 노드 간의 관련성 값으로 이용할 수 있다. TF-IDF 값은 문서와 문서에 포함된 단어 간의 유사도를 측정하기 위하여 이용되는 값으로, 본 발명에서는 이를 노드와 각 노드가 포함하는 원소 간의 관련성을 측정하기 위하여 이용할 수 있다.
여기서 상기 원소와 노드 간의 관련성인 TF-IDF 값은 하기 수학식 7 내지 9와 같이 산출될 수 있다.
Figure PCTKR2016011868-appb-M000007
Figure PCTKR2016011868-appb-M000008
여기서 tf는 단어 빈도(term frequency)이고, e는 원소 노드이고, s는 집합 노드이다.
일 실시예에 있어서 단이 빈도 tf는 다음과 같이 산출될 수 있다. 단어 빈도 tf(t, d)는 문서 내에 나타나는 해당 단어의 총 빈도수가 될 수 있고, 문서 내에서 단어의 총 빈도를 f(t, d)라 할 경우, 단어 빈도는 tf(t, d) = f(t, d)와 같이 산출될 수 있다. 여기서 단어 빈도를 산출하는 방식으로는 불린(Boolean) 빈도를 사용할 수 있다. 이는 t d 에 한 번이라도 나타나면 1, 아니면 0 라고 계산하는 방식이다. 본 발명에서는 이와 같은 단어 빈도에 대한 개념을 단어를 집합 노드로, 문서를 원소 노드로 각각 대응시켜 이용한다. 다시 말하면 tf는 s가 e에 한번이라도 포함되면 1, 아니면 0인 것으로 하여 산출될 수 있다. 일 예로 어떤 주제를 가지는 복수개의 강연 데이터를 가정할 때, 강연이 원소 노드 e, 주제가 집합 노드 s가 될 수 있고, 이때 f(s, e)는 강연 e 내에서 집합(주제) s의 총 빈도를 의미할 수 있다. 이때 한 강연에 둘 이상의 중복되는 집합(주제)이 존재하지 않는다고 가정하면, 불린 빈도로써 1, 아니면 0으로 단어 빈도가 산출될 수 있다.
Figure PCTKR2016011868-appb-M000009
여기서 idf는 inverse document frequency이고, N은 노드 s에 포함된 원소 e의 총 수이고, |N|은 집합 노드의 크기이고, |{e ∈ E : s ∈ e}|는 집합 노드 s가 포함된 원소 노드 e의 수이다.
네트워크 그래프 영상 생성부(200)는 상술한 바와 같이 노드 위치 설정부(231)가 설정한 위치에 노드를 표시하고, 원소 위치 설정부(232)가 설정한 위치에 원소를 표시하도록 네트워크 그래프 영상을 생성할 수 있다.
도 11은 상술한 방법에 의하여 원소를 표시한 네트워크 그래프 영상을 나타내는 참고도이다. 예컨대, N은 집합노드을, E는 원소를 의미한다. 원소들이 집합노드 안쪽(Intersection area)에 위치한다. Intersection area은 N1과 N2 사이에 포함된 E들이 위치하는 영역을 의미한다.
또한 네트워크 그래프 영상 생성부(200)는 강조 그래프 영상 생성부(240)를 포함할 수 있다.
강조 그래프 영상 생성부(240)는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 선택된 속성에 대응하는 상기 노드를 강조한 네트워크 그래프 영상을 생성할 수 있다.
데이터 집합에 포함된 원소들은 상술한 항목 정보 이외에 별도의 속성 정보들을 포함할 수 있다. 강조 그래프 영상 생성부(240)는 특정 속성에 대응하는 노드들을 보다 강조하여 네트워크 그래프에서 표시하기 위하여, 사용자의 입력에 따라 선택된 속성에 대응하는 노드를 강조한 네트워크 그래프 영상을 생성할 수 있다. 여기서 선택된 속성에 대응하는 노드는 별도의 색상이 오버레이 되거나 노드를 덮도록 소정의 투명도를 가지는 형상이 오버레이 되거나, 기타 영상에서 강조 표시를 위하여 이용하는 다양한 기법을 이용하여 강조될 수 있다. 이에 강조 그래프 영상 생성부(240)는 전체 네트워크 그래프 영상에서 상기 선택된 노드를 강조하는 효과를 나타내는 네트워크 그래프 영상을 표시할 수 있다.
도 13은 예를 들어 속성 중 '재미' 속성을 선택한 경우, 이에 대응하는 노드들을 강조하는 네트워크 그래프 영상을 나타내는 참고도이다. 도 13을 참조하면, highlighted라고 적힌 부분은 활성화된 intersection(우측 매트릭스 화면부)과 intersection에 포함되는 N1, N2가 네트워크 영상부에서도 동기화되었다는 표현을 의미한다.
이를 위하여 강조 그래프 영상 생성부(240)는 속성 설정부(241)를 포함할 수 있다. 속성 설정부(241)는 사용자의 입력을 수신하고, 복수개의 속성 중 상기 입력에 따라 일부 속성을 선택하는 동작을 수행할 수 있다.
도 12는 강조 그래프 영상 생성부(240)의 세부 블록도이다.
여기서 강조 그래프 영상 생성부(240)는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 설정된 노드 포함 조건에 따라 선별되는 상기 노드를 강조한 네트워크 그래프 영상을 생성할 수 있다.
여기서 노드 포함 조건은 각 노드에 대하여 설정될 수 있는 조건 값으로, 예를 들면 '반드시 포함' '포함하지 않음' '포함할 수도 안할 수도 있음' 과 같은 조건이 될 수 있다. 이상과 같은 노드 포함 조건을 설정하기 위하여, 강조 그래프 영상 생성부(240)는 노드 포함 조건 설정부(242)를 포함할 수 있다. 노드 포함 조건 설정부(242)는 사용자의 입력을 수신하고, 노드에 대하여 상기 입력에 따라 노드 포함 조건을 설정하는 동작을 수행할 수 있다. 여기서 노드 포함 조건 설정부(242)는 사용자의 입력을 네트워크 그래프 영상에서 표시되는 옵션 체크 항목을 통하여 수신할 수 있고, 또는 데이터 표시 영상에서 표시되는 옵션 체크 항목을 통하여 수신할 수도 있다.
도 14는 노드 포함 조건 설정부(242)의 동작을 나타내는 참고도이다. 도 14를 참조하면, N은 query option에 수행되는 집합노드를 뜻하며, 점선은 화면부에 활성화됨을 의미한다. 오른쪽 매트릭스 레이아웃 상단에 점선으로 표시된 부분을 통해 현재 상황을 알 수 있다. 네트워크 영상부에서 N1,~ Ni의 좌측에 각각의 query operation을 선택할 수 있는 Interface가 표시된다.
이와 같이 노드 포함 조건이 설정되면, 강조 그래프 영상 생성부(240)는 설정된 조건에 따라 특정 노드를 반드시 포함하거나, 또는 포함하지 않도록 네트워크 그래프 중 일부를 특정하여, 상기 특정한 일부를 강조하거나 상기 일부만을 선별하여 나타내는 네트워크 그래프 영상을 생성할 수 있다.
여기서 네트워크 그래프 영상 생성부(200)는 각 상기 커뮤니티 별로 서로 다른 색상 또는 모양으로 상기 커뮤니티에 포함된 상기 노드를 상기 네트워크 그래프 영상에 표시할 수 있다.
다음으로 데이터 표시 영상 생성부(300)의 동작에 대하여 보다 상세히 설명한다.
데이터 표시 영상 생성부(300)는 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성한다.
도 15는 데이터 표시 영상 생성부(300)의 세부 블록도이다.
데이터 표시 영상 생성부(300)는 교집합 표시부(310), 교집합 원소 정보 표시부(320) 중 적어도 어느 하나 이상을 포함할 수 있다.
교집합 표시부(310)는 사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성한다.
여기서 교집합 표시부(310)는 상기 교집합을 생성하는 상기 노드의 수에 따라 상기 교집합을 적어도 하나 이상의 부류로 분류하고, 상기 부류 별로 상기 교집합 관계를 상기 제1 데이터 표시 영상에 표시할 수 있다. 예를 들면 두 개 노드의 교집합은 Degree 2, 세 개 노드의 교집합은 Degree 3과 같이 부류를 정의할 수 있고, 하나의 노드를 나타내는 집합은 Degree 1으로 정의한다면, 교집합 표시부(310)는 사용자의 입력에 따라 선택된 노드들이 생성할 수 있는 교집합 관계를 각각 제1 데이터 표시 영상에 표시할 수 있다. 예를 들어 선택된 노드가 A, B, C라고 하면, 교집합 표시부(310)는 Degree 2 부류에서 'A ∩ B', 'A ∩ C', 'B ∩ C'에 해당하는 교집합을 각각 제1 데이터 표시 영상에 표시할 수 있고, 또한 Degree 3 부류에서 'A ∩ B ∩ C'에 해당하는 교집합을 제1 데이터 표시 영상에 표시할 수 있다.
도 16는 이와 같이 생성한 제1 데이터 표시 영상(DM1)을 나타내는 참고도이다. 도 16을 참조하면, N은 집합노드이며 Degree는 교집합의 개수에 따라 나눠지는 기준을 의미한다. 왼쪽부터 첫번째 bar chart(Cardinality)는 매트릭스에서 해당하는 열의 집합의 개수를 뜻하며, 2번째 bar chart(Attirubte1~j)는 해당 교집합의 원소들의 속성값에 대한 평균치를 보여준다. 우측상단에 sort option check box는 각각의 속성, 원소 수의 값에 따라 정렬할 수 있는 옵션의 표시이다.
교집합 원소 정보 표시부(320)는 상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성할 수 있다. 각 교집합은 교집합에 포함된 원소를, 즉 교집합을 이루는 노드들이 공유하는 원소를 포함하고 있다. 교집합 원소 정보 표시부(320)는 이와 같은 교집합에 포함된 원소들의 정보를 표시하는 제2 데이터 표시 영상을 생성할 수 있다. 여기서 상기 표시될 원소의 정보로는 상기 교집합에 포함된 원소의 수가 포함될 수 있고, 상기 교집합에 포함된 원소의 속성에 관한 정보가 포함될 수도 있다.
도 16을 참고하면, 교집합 원소 정보 표시부(320)는 위와 같이 각 교집합 별로 포함된 원소의 수(Card)와 원소의 속성(Att) 정보를 표시하도록 제2 데이터 표시 영상(DM2)을 생성할 수 있다.
데이터 표시 영상 생성부(300)는 위와 같이 생성된 제1 데이터 표시 영상과 제2 데이터 표시 영상을 통합하여 상기 데이터 표시 영상을 생성할 수 있다.
일 실시예에 있어서 데이터 표시 영상 생성부(300)는 'Alexande Lex, Nils Gehlenborg, Hedrik Strobelt, Romain Vuillemot, and Hanspeter Pfister. "Upset: Visualization of Intersecting Sets." IEEE Transactions on Visualization and Computer Graphics (Proceedings of InfoVis '14), vol 20, pp. 1983-1992, 2014.'에서 소개하고 있는 Upset 방식을 이용하여 노드 간 연결 관계 및 노드에 포함되는 원소들의 정보를 메트릭스 형태로 표시하는 데이터 표시 영상을 생성할 수 있다.
여기서 데이터 표시 영상 생성부(300)와 네트워크 그래프 영상 생성부(200)는 사용자 입력에 따라 상호 작용할 수 있다.
데이터 표시 영상 생성부(300)는 상기 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성할 수 있다.
또한 네트워크 그래프 영상 생성부(200)는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성할 수 있다.
통합 영상 생성부(400)는 상기 네트워크 그래프 영상과 상기 데이터 표시 영상을 통합한 영상을 생성한다. 즉 도 13 또는 도 14와 같이 통합 영상 생성부(400)는 상기 네트워크 그래프 영상이 통합 영상의 제1 영역에 표시되고, 상기 데이터 표시 영상이 통합 영상의 또 다른 제2 영역에 표시되도록 통합 영상을 생성할 수 있다. 그리고 이와 같이 생성된 통합 영상은 화면 표시부를 통하여 사용자에게 표시될 수 있다.
본 발명에 따른 데이터 분석 결과 표시 장치는 위와 같이 네트워크 그래프 영상과 데이터 표시 영상을 함께 통합한 통합 영상을 생성하고 사용자에게 제공함으로써, 사용자가 데이터의 전체적인 맥락을 이해할 수 있도록 하면서, 동시에 데이터 분석 결과에 접근하여 선별적으로 집합 관계와 원소 관계를 파악할 수 있도록 하는 효과가 있다. 또한 사용자의 편의에 따라 사용자가 데이터 표시 영상 또는 네트워크 그래프 영상에 표시된 객체 중 일부를 선택하고, 선택한 객체에 대응하는 정보를 확인할 수 있는 효과가 있다.
여기서 네트워크 그래프 영상을 생성하고, 데이터 표시 영상을 생성하는 대상이 되는 데이터 집합은 분석 대상 데이터에 따라 다양하게 설정될 수 있다.
일 실시예에 있어서 데이터 집합은 약물의 구성 단백질 요소를 나타내는 정보가 될 수 있다. 여기서 원소는 각 약물이 될 수 있고, 노드로 설정되는 항목 정보는 각 약물에 포함되는 단백질이 될 수 있다. 이때 본 발명의 네트워크 생성부(100)는 이와 같은 데이터 집합에 따라 노드 간 연결 관계를 나타내는 정보를 생성할 수 있고, 네트워크 그래프 영상 생성부(200)는 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프 영상을 생성할 수 있다. 네트워크 그래프에서 각 약물을 나타내는 원소들은 서로 다른 색상으로 구별될 수 있다. 또한 약물에 포함되는 단백질의 관계는 본 발명에 따른 데이터 표시 영상 생성부(300)에 따라 데이터 표시 영상으로 생성되어 표시될 수 있다.
또 다른 실시예에 있어서 데이터 집합은 질병을 가지는 환자들을 나타내는 정보가 될 수 있다. 여기서 원소는 각 질병이 될 수 있고, 노드로 설정되는 항목 정보는 각 질병을 가지는 환자가 될 수 있다. 이때 본 발명의 네트워크 생성부(100)는 이와 같은 데이터 집합에 따라 노드 간 연결 관계를 나타내는 정보를 생성할 수 있고, 네트워크 그래프 영상 생성부(200)는 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프 영상을 생성할 수 있다. 네트워크 그래프에서 각 환자를 나타내는 원소들은 서로 다른 색상으로 구별될 수 있다. 또한 환자와 질병간의 관계는 본 발명에 따른 데이터 표시 영상 생성부(300)에 따라 데이터 표시 영상으로 생성되어 표시될 수 있다.
이 외에도 본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법은 다양한 데이터 집합에 대하여, 네트워크 그래프 영상 및 데이터 표시 영상을 생성하여 사용자에게 제공할 수 있음은 물론이다.
도 17A 및 도17B는 상기 각 실시예의 경우 네트워크 그래프 영상 및 데이터 표시 영상을 나타내는 참고도이다. 도 17A는 전체 시스템의 개괄적 모습(Overview)을 나타낸다. 도 17B는 전체 시스템에서 N3에 hovering interaction 했을 경우의 영상을 나타낸다. 우측 판넬에서는 N3과 N3과 연결된 노드들의 이름과 정보를 표시된다. 마찬가지로, 네트워크 영상부에서도 N3와 N3과 연결된 노드들만 표시된다.
도 18은 본 발명의 또 다른 실시예에 따른 데이터 분석 결과 표시 방법의 흐름도이다.
본 발명의 일 실시예에 따른 데이터 분석 결과 표시 방법은 네트워크 생성 단계(S100), 네트워크 그래프 영상 생성 단계(S200), 데이터 표시 영상 생성 단계(S300)를 포함할 수 있다. 여기서 상기 본 발명의 일 실시예에 따른 데이터 분석 결과 표시 방법은 도 1 내지 도 16을 참조하면서 상세히 설명한 본 발명에 따른 데이터 분석 결과 표시 장치가 동작하는 방식과 동일하게 동작할 수 있다. 따라서 중복되는 부분은 생략하고 주요 동작을 위주로 설명한다.
네트워크 생성 단계(S100)는 적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성한다.
네트워크 그래프 영상 생성 단계(S200)는 상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성한다.
데이터 표시 영상 생성 단계(S300)는 상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성한다.
여기서 사용자의 입력이 수신되는지 여부에 따라(S400) 사용자의 입력이 수신되는 경우 네트워크 그래프 영상 생성 단계(S200) 또는 데이터 표시 영상 생성 단계(S300)가 다시 수행될 수 있다. 여기서 데이터 표시 영상 생성 단계(300)는 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성할 수 있다. 또한 네트워크 그래프 영상 생성 단계(200)는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성할 수 있다.
다음으로 데이터 분석 결과 표시 프로세스가 종료되는 것으로 결정되지 않은 상태이면(S500), 계속적으로 사용자의 입력을 수신하여(S400) 그에 따른 상기 동작(S200, S300)을 수행할 수 있다.
도 19는 네트워크 생성 단계(S100)의 일 실시예의 세부 흐름도이다.
네트워크 생성 단계는 노드 연결 데이터 생성 단계(S110), 커뮤니티 검출 단계(S120), 중심성 산출 단계(130) 중 적어도 어느 하나 이상을 포함할 수 있다.
노드 연결 데이터 생성 단계(S110)는 상기 항목 정보 간 연결 관계를 상기 노드 간 연결 관계로 나타내고, 상기 데이터 집합에 포함된 상기 항목 정보 간 연결 관계에 대응하는 원소들의 수를 기초로 상기 노드 간의 연결 관계를 나타내는 정보를 생성할 수 있다.
여기서 노드 연결 데이터 생성 단계(S110)는 상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성할 수 있다.
커뮤니티 검출 단계(S120)는 상기 네트워크 그래프에 포함될 복수개의 커뮤니티들 중에서, 상기 노드의 상기 항목 정보에 따라 상기 노드가 해당하는 상기 커뮤니티를 검출할 수 있다.
중심성 산출 단계(S130)는 상기 네트워크 그래프에 적용할 상기 노드의 중심성을 산출할 수 있다.
도 20은 네트워크 그래프 영상 생성 단계(S200)의 일 실시예의 세부 흐름도이다.
네트워크 그래프 영상 생성 단계(S200)는 에지 설정 단계(S210), 노드 설정 단계(S220), 원소 표시 영상 생성 단계(S230), 강조 그래프 영상 생성 단계(S240) 중 적어도 어느 하나 이상을 포함할 수 있다.
에지 설정 단계(S210)는 상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정할 수 있다.
노드 설정 단계(S220)는 상기 노드의 상기 중심성 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정할 수 있다.
원소 표시 영상 생성 단계(S230)는 사용자 선택 입력에 따라 선택된 복수개의 상기 노드가 공유하는 상기 원소를 표시하는 영상을 생성할 수 있다.
강조 그래프 영상 생성 단계(S240)는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 네트워크 그래프 영상을 생성할 수 있다.
도 21은 데이터 표시 영상 생성 단계(S300)의 일 실시예의 세부 흐름도이다.
데이터 표시 영상 생성 단계(S300)는 교집합 표시 단계(S310), 교집합 원소 정보 표시 단계(S320) 중 적어도 어느 하나 이상을 포함할 수 있다.
교집합 표시 단계(S310)는 사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성할 수 있다.
교집합 원소 정보 표시 단계(S320)는 상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성할 수 있다.
본 발명에 따른 데이터 분석 결과 표시 장치 및 그 방법에 의하면, 서로 다른 장, 단점을 가진 시각화를 결합함으로써, 집합 형태의 데이터를 분석하는 데에 있어 고질적인 문제인 네트워크 위에서의 공간적 문제를 해결할 수 있는 효과가 있다. 또한 매트릭스 형태의 시각화 위에서도 전체 데이터의 배경을 파악할 수 있었다. 또한 두 시각화를 시스템적으로 동기화함으로써, 각 시각화들이 가지는 단점을 보완할 뿐만 아니라, 정보공간에서의 탐색, 분석에 있어 사용자에게 보다 양적, 질적으로 향상된 경험을 제공할 수 있다.
이상에서 설명한 본 발명의 실시예를 구성하는 모든 구성요소들이 하나로 결합하거나 결합하여 동작하는 것으로 기재되어 있다고 해서, 본 발명이 반드시 이러한 실시예에 한정되는 것은 아니다. 즉, 본 발명의 목적 범위 안에서라면, 그 모든 구성요소들이 하나 이상으로 선택적으로 결합하여 동작할 수도 있다.
또한, 그 모든 구성요소들이 각각 하나의 독립적인 하드웨어로 구현될 수 있지만, 각 구성요소들의 그 일부 또는 전부가 선택적으로 조합되어 하나 또는 복수개의 하드웨어에서 조합된 일부 또는 전부의 기능을 수행하는 프로그램 모듈을 갖는 컴퓨터 프로그램으로서 구현될 수도 있다. 또한, 이와 같은 컴퓨터 프로그램은 USB 메모리, CD 디스크, 플래쉬 메모리 등과 같은 컴퓨터가 읽을 수 있는 기록매체(Computer Readable Media)에 저장되어 컴퓨터에 의하여 읽혀지고 실행됨으로써, 본 발명의 실시예를 구현할 수 있다. 컴퓨터 프로그램의 기록매체로서는 자기 기록매체, 광 기록매체, 캐리어 웨이브 매체 등이 포함될 수 있다.
또한, 기술적이거나 과학적인 용어를 포함한 모든 용어들은, 상세한 설명에서 다르게 정의되지 않는 한, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 갖는다. 사전에 정의된 용어와 같이 일반적으로 사용되는 용어들은 관련 기술의 문맥상의 의미와 일치하는 것으로 해석되어야 하며, 본 발명에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
이상의 설명은 본 발명의 기술 사상을 예시적으로 설명한 것에 불과한 것으로서, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자라면 본 발명의 본질적인 특성에서 벗어나지 않는 범위 내에서 다양한 수정, 변경 및 치환이 가능할 것이다. 따라서, 본 발명에 개시된 실시예 및 첨부된 도면들은 본 발명의 기술 사상을 한정하기 위한 것이 아니라 설명하기 위한 것이고, 이러한 실시예 및 첨부된 도면에 의하여 본 발명의 기술 사상의 범위가 한정되는 것은 아니다. 본 발명의 보호 범위는 아래의 청구 범위에 의하여 해석되어야 하며, 그와 동등한 범위 내에 있는 모든 기술 사상은 본 발명의 권리 범위에 포함되는 것으로 해석되어야 할 것이다.
< 부호의 설명 >
100 : 네트워크 생성부
200 : 네트워크 그래프 영상 생성부
300 : 데이터 표시 영상 생성부
400 : 통합 영상 생성부
110 : 노드 연결 데이터 생성부
120 : 커뮤니티 검출부
130 : 중심성 산출부
210 : 에지 설정부
220 : 노드 설정부
230 : 원소 표시 영상 생성부
240 : 강조 그래프 영상 생성부
310 : 교집합 표시부
320 : 교집합 원소 정보 표시부
S100 : 네트워크 생성 단계
S200 : 네트워크 그래프 영상 생성 단계
S300 : 데이터 표시 영상 생성 단계

Claims (20)

  1. 데이터 분석 결과 표시 장치에 있어서,
    적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성하는 네트워크 생성부;
    상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성하는 네트워크 그래프 영상 생성부; 및
    상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성하는 데이터 표시 영상 생성부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  2. 제1항에 있어서,
    상기 네트워크 그래프 영상과 상기 데이터 표시 영상을 통합한 영상을 생성하는 통합 영상 생성부를 더 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  3. 제1항에 있어서,
    상기 네트워크 생성부는 상기 항목 정보 간 연결 관계를 상기 노드 간 연결 관계로 나타내고, 상기 데이터 집합에 포함된 상기 항목 정보 간 연결 관계에 대응하는 원소들의 수를 기초로 상기 노드 간의 연결 관계를 나타내는 정보를 생성하는 노드 연결 데이터 생성부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  4. 제3항에 있어서,
    상기 노드 연결 데이터 생성부는 상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성하는 연관 규칙 분석부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  5. 제4항에 있어서,
    상기 노드 연결 데이터 생성부는 상기 연관 규칙 분석부에서 산출한 상기 노드 간 연결의 지지도 또는 신뢰도 중 적어도 어느 하나 이상을 기준으로, 상기 노드 간 연결을 선별하는 필터링부를 더 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  6. 제4항에 있어서,
    상기 네트워크 그래프 영상 생성부는 상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정하는 에지 설정부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  7. 제1항에 있어서,
    상기 네트워크 생성부는 상기 네트워크 그래프에 적용할 상기 노드의 중심성을 산출하는 중심성 산출부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  8. 제7항에 있어서,
    상기 네트워크 그래프 영상 생성부는 상기 노드의 상기 중심성 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정하는 노드 설정부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  9. 제1항에 있어서,
    상기 네트워크 그래프 영상 생성부는 사용자 선택 입력에 따라 선택된 복수개의 상기 노드가 공유하는 상기 원소를 표시하는 영상을 생성하는 원소 표시 영상 생성부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  10. 제9항에 있어서, 상기 원소 표시 영상 생성부는,
    상기 노드들이 공유하는 상기 원소의 수에 따라 상기 노드 간의 거리를 설정하고, 상기 노드의 위치를 기준점으로부터 상기 설정한 거리만큼 이격된 위치로 설정하는 노드 위치 설정부; 및
    상기 노드들 간의 공간에 상기 원소의 위치를 설정함에 있어서, 상기 원소와 상기 노드 간의 관련성의 크기를 기준으로, 상기 관련성의 크기가 더 큰 상기 노드와 더 가깝도록 상기 원소의 위치를 설정하는 원소 위치 설정부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  11. 제1항에 있어서,
    상기 네트워크 그래프 영상 생성부는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 상기 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 선택된 속성에 대응하는 상기 노드를 강조한 상기 네트워크 그래프 영상을 생성하는 강조 그래프 영상 생성부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  12. 제1항에 있어서,
    상기 네트워크 그래프 영상 생성부는 상기 네트워크 그래프 영상에 포함된 상기 노드와 상기 에지 중 일부를 강조한 상기 네트워크 그래프 영상을 생성하되, 사용자 입력에 따라 설정된 노드 포함 조건에 따라 선별되는 상기 노드를 강조한 상기 네트워크 그래프 영상을 생성하는 강조 그래프 영상 생성부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  13. 제1항에 있어서,
    상기 데이터 표시 영상 생성부는 사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성하는 교집합 표시부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  14. 제13항에 있어서,
    상기 교집합 표시부는 상기 교집합을 생성하는 상기 노드의 수에 따라 상기 교집합을 적어도 하나 이상의 부류로 분류하고, 상기 부류 별로 상기 교집합 관계를 상기 제1 데이터 표시 영상에 표시하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  15. 제13항에 있어서,
    상기 데이터 표시 영상 생성부는 상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성하는 교집합 원소 정보 표시부를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  16. 제13항에 있어서,
    상기 데이터 표시 영상 생성부는 상기 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성하고,
    상기 네트워크 그래프 영상 생성부는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성하는 것을 특징으로 하는 데이터 분석 결과 표시 장치.
  17. 데이터 분석 결과 표시 방법에 있어서,
    적어도 하나 이상의 항목 정보를 가지는 원소들을 포함하는 데이터 집합을 입력받고, 상기 데이터 집합에 포함된 상기 원소들의 각 상기 항목 정보를 노드로 설정하고, 상기 노드 간 연결 관계를 나타내는 정보를 생성하는 네트워크 생성 단계;
    상기 노드 간 연결 관계를 나타내는 정보에 따라 상기 노드들을 에지로 서로 연결하는 네트워크 그래프를 나타내는 네트워크 그래프 영상을 생성하는 네트워크 그래프 영상 생성 단계; 및
    상기 노드 간 공유하는 상기 원소에 관한 데이터를 표시하는 데이터 표시 영상을 생성하는 데이터 표시 영상 생성 단계를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 방법.
  18. 제17항에 있어서,
    상기 네트워크 생성 단계는,
    상기 데이터 집합에 대하여 연관 규칙 분석을 수행하여, 상기 노드 간 연결의 지지도 또는 신뢰도 또는 향상도 중 적어도 어느 하나 이상을 산출하고, 상기 산출한 상기 지지도 또는 상기 신뢰도 또는 상기 향상도를 상기 노드 간의 연결 관계를 나타내는 정보로 생성하는 노드 연결 데이터 생성 단계; 및
    상기 네트워크 그래프에 적용할 상기 노드의 중심성을 산출하는 중심성 산출 단계를 포함하고,
    상기 네트워크 그래프 영상 생성 단계는,
    상기 노드 간 연결의 상기 지지도 또는 상기 신뢰도 또는 상기 향상도에 따라 설정되는 가중치 값에 따라, 상기 노드 간 연결에 대응하는 상기 에지의 모양 또는 두께 또는 색상 중 적어도 어느 하나를 설정하는 에지 설정 단계; 및
    상기 노드의 상기 중심성 값에 따라 상기 네트워크 그래프 영상에 표시될 상기 노드의 모양 또는 크기 또는 색상 중 적어도 어느 하나를 설정하는 노드 설정 단계를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 방법.
  19. 제17항에 있어서, 상기 데이터 표시 영상 생성 단계는
    사용자 입력에 따라 선택된 상기 노드 중에서 서로 공유하는 상기 원소가 존재하는 상기 노드들 간의 교집합 관계를 표시하는 제1 데이터 표시 영상을 생성하는 교집합 표시 단계; 및
    상기 교집합에 포함된 상기 원소의 수 또는 상기 원소의 속성에 관한 정보를 표시하는 제2 데이터 표시 영상을 생성하는 교집합 원소 정보 표시 단계를 포함하는 것을 특징으로 하는 데이터 분석 결과 표시 방법.
  20. 제19항에 있어서,
    상기 데이터 표시 영상 생성 단계는 사용자 입력에 따라 상기 네트워크 그래프 영상에서 상기 노드들 중 일부가 선택되면, 상기 선택된 노드들 간의 상기 교집합에 대응하는 정보가 강조되는 상기 데이터 표시 영상을 생성하고,
    상기 네트워크 그래프 영상 생성 단계는 상기 사용자 입력에 따라 상기 데이터 표시 영상에서 상기 교집합 중 적어도 어느 하나가 선택되면, 상기 선택된 교집합에 대응하는 상기 노드가 강조되는 상기 네트워크 그래프 영상을 생성하는 것을 특징으로 하는 데이터 분석 결과 표시 방법.
PCT/KR2016/011868 2015-10-23 2016-10-21 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법 WO2017069548A1 (ko)

Applications Claiming Priority (6)

Application Number Priority Date Filing Date Title
KR10-2015-0148286 2015-10-23
KR10-2015-0148287 2015-10-23
KR20150148286 2015-10-23
KR20150148287 2015-10-23
KR1020150181632A KR101710606B1 (ko) 2015-10-23 2015-12-18 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
KR10-2015-0181632 2015-12-18

Publications (1)

Publication Number Publication Date
WO2017069548A1 true WO2017069548A1 (ko) 2017-04-27

Family

ID=58404462

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2016/011868 WO2017069548A1 (ko) 2015-10-23 2016-10-21 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법

Country Status (2)

Country Link
KR (1) KR101710606B1 (ko)
WO (1) WO2017069548A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及系统

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107248054A (zh) * 2017-06-02 2017-10-13 河北斯博思创新科技有限公司 一种基于易制毒行业的复杂关系网络数据可视化分析方法
KR102409160B1 (ko) * 2019-11-14 2022-06-14 한양대학교 산학협력단 복수개의 커뮤니티를 포함하는 네트워크에서 커뮤니티 재구성 방법 및 이를 위한 전자 장치
CN111986314B (zh) * 2020-08-21 2022-08-16 浙江商汤科技开发有限公司 三维重建中的图像分组方法及装置、电子设备和存储介质

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348555A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2009199356A (ja) * 2008-02-21 2009-09-03 Osaka Univ ファイルイベント相関生成装置、管理装置、及びコンピュータプログラム
JP2013045326A (ja) * 2011-08-25 2013-03-04 Kyoto Univ 関係性グラフデータベースシステム
KR20150007928A (ko) * 2013-07-12 2015-01-21 경희대학교 산학협력단 온라인 분석 처리를 위한 그래프 큐브의 생성 방법
KR20150079374A (ko) * 2013-12-27 2015-07-08 경희대학교 산학협력단 대용량 그래프 데이터베이스에서 하한 경계값에 기초하여 메디안 노드를 검색하는 방법

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008152739A (ja) * 2006-12-13 2008-07-03 Tokyo Institute Of Technology 文献情報からの研究分野間知識管理装置、方法、プログラム及び記録媒体
JP2011248534A (ja) * 2010-05-25 2011-12-08 Nippon Telegr & Teleph Corp <Ntt> グラフパターンを用いたネットワーク分析装置、ネットワーク分析方法、およびネットワーク分析用プログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004348555A (ja) * 2003-05-23 2004-12-09 Nippon Telegr & Teleph Corp <Ntt> 文書分析方法及び装置及び文書分析プログラム及び文書分析プログラムを格納した記憶媒体
JP2009199356A (ja) * 2008-02-21 2009-09-03 Osaka Univ ファイルイベント相関生成装置、管理装置、及びコンピュータプログラム
JP2013045326A (ja) * 2011-08-25 2013-03-04 Kyoto Univ 関係性グラフデータベースシステム
KR20150007928A (ko) * 2013-07-12 2015-01-21 경희대학교 산학협력단 온라인 분석 처리를 위한 그래프 큐브의 생성 방법
KR20150079374A (ko) * 2013-12-27 2015-07-08 경희대학교 산학협력단 대용량 그래프 데이터베이스에서 하한 경계값에 기초하여 메디안 노드를 검색하는 방법

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117891857A (zh) * 2024-03-13 2024-04-16 广东工业大学 基于大数据的数据挖掘方法及系统
CN117891857B (zh) * 2024-03-13 2024-05-24 广东工业大学 基于大数据的数据挖掘方法及系统

Also Published As

Publication number Publication date
KR101710606B1 (ko) 2017-03-08

Similar Documents

Publication Publication Date Title
WO2017069548A1 (ko) 복잡계 네트워크에서의 집합 관계 분석 시각화 장치 및 그 방법
WO2010087566A1 (en) Document analysis system
WO2020159232A1 (en) Method, apparatus, electronic device and computer readable storage medium for image searching
WO2012134180A2 (ko) 문장에 내재한 감정 분석을 위한 감정 분류 방법 및 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법
WO2019027259A1 (en) APPARATUS AND METHOD FOR PROVIDING SUMMARY INFORMATION USING ARTIFICIAL INTELLIGENCE MODEL
EP3602334A1 (en) Apparatus and method for providing summarized information using an artificial intelligence model
WO2016111584A1 (en) User terminal for displaying image and image display method thereof
WO2010036013A2 (ko) 웹 문서에서의 의견 추출 및 분석 장치 및 그 방법
EP1003111A1 (en) A method of searching documents and a service for searching documents
WO2012165709A1 (ko) 인스턴스 경로 탐색 및 시각화 방법 및 장치
WO2011065630A1 (ko) 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
WO2019135631A1 (ko) 데이터를 난독화 및 복호화 하는 전자 장치 및 그의 제어 방법
EP4000016A1 (en) Method and apparatus for providing content based on knowledge graph
EP2898465A1 (en) User terminal device and network server apparatus for providing evaluation information and methods thereof
WO2020032564A1 (en) Electronic device and method for providing one or more items in response to user speech
WO2017116215A1 (ko) 평가지표 자율제안에 의한 연구개발과제 선정 시스템 및 방법
WO2015178716A1 (en) Search method and device
WO2013081381A1 (ko) 사용자 고유의 필적 생성 시스템 및 그 방법
WO2021194089A1 (ko) 회로 블록의 그래픽 사용자 인터페이스를 변경하는 방법 및 회로 블록의 그래픽 사용자 인터페이스 변경하는 방법에 따른 각각의 단계를 수행하는 명령어를 포함하는 프로그램이 기록된 컴퓨터 판독 가능 저장 매체
WO2013032198A1 (ko) 높은 연관성을 가지는 아이템을 추천하는 아이템 기반의 추천 엔진
CN104345896A (zh) 拼音文字词组输入方法及系统
WO2017191877A1 (ko) 프로버넌스 관리를 위한 압축 장치 및 방법
WO2016072772A1 (ko) 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
WO2020141706A1 (en) Method and apparatus for generating annotated natural language phrases
WO2021075760A1 (en) Method and electronic device for creating toggled application icon

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 16857806

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 16857806

Country of ref document: EP

Kind code of ref document: A1

122 Ep: pct application non-entry in european phase

Ref document number: 16857806

Country of ref document: EP

Kind code of ref document: A1