WO2016072772A1 - 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템 - Google Patents

레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템 Download PDF

Info

Publication number
WO2016072772A1
WO2016072772A1 PCT/KR2015/011865 KR2015011865W WO2016072772A1 WO 2016072772 A1 WO2016072772 A1 WO 2016072772A1 KR 2015011865 W KR2015011865 W KR 2015011865W WO 2016072772 A1 WO2016072772 A1 WO 2016072772A1
Authority
WO
WIPO (PCT)
Prior art keywords
attribute value
attribute values
extracted
attribute
objects
Prior art date
Application number
PCT/KR2015/011865
Other languages
English (en)
French (fr)
Inventor
이경원
김기남
하효지
최한민
황원주
강한성
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Publication of WO2016072772A1 publication Critical patent/WO2016072772A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/50Information retrieval; Database structures therefor; File system structures therefor of still image data
    • G06F16/58Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/583Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/5854Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using shape and object relationship
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/289Object oriented databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/73Querying
    • G06F16/732Query formulation
    • G06F16/7335Graphical querying, e.g. query-by-region, query-by-sketch, query-by-trajectory, GUIs for designating a person/face/object as a query predicate
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/74Browsing; Visualisation therefor
    • G06F16/748Hypervideo
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/70Information retrieval; Database structures therefor; File system structures therefor of video data
    • G06F16/78Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually
    • G06F16/783Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content
    • G06F16/7837Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content
    • G06F16/784Retrieval characterised by using metadata, e.g. metadata not derived from the content or metadata generated manually using metadata automatically derived from the content using objects detected or recognised in the video content the detected or recognised objects being people
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/50Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems
    • G06F21/52Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow
    • G06F21/54Monitoring users, programs or devices to maintain the integrity of platforms, e.g. of processors, firmware or operating systems during program execution, e.g. stack integrity ; Preventing unwanted data erasure; Buffer overflow by adding security routines or objects to programs

Definitions

  • the present invention relates to a data visualization method and system for visualizing attribute values of an object. More specifically, the attribute value of an object is visualized using a reference semantic map, and the semantic map of the object using a reference semantic map. It relates to a technique for determining the position of the image.
  • the present invention is derived from a study conducted as part of the Humanities and Social Foundations research project of the Ministry of Education and the Korea Research Foundation. [Task Management Number: S-2013-A0403-00010, Title: Movie Recommendation Using Situational Vocabulary Distribution Map Visualization of the system].
  • users who consume content such as movies, music, literary works, etc., or use the goods or services comment on reviews or emotions that use the content, goods, or services (hereinafter referred to as "objects").
  • objects users who have not used the object or want to get information about the object get information by referring to comments left by users who have used the object in advance.
  • the user wants to obtain information about the object. Since the comment data about the object is configured based on text, there is a problem that it takes a long time for the user to obtain information about the object by referring to the comment data. In particular, when the amount of comment data for an object is enormous, a large number of users leave a comment, or when the comment data accumulates for a long time, a considerable effort is required only by the user reading the contents of the comment data.
  • the prior art is a search method that collects comments on various contents on the Internet to create a search database (hereinafter referred to as a DB) and shows an objective and reliable ranking results for emotional queries using the search DB. And to provide a system.
  • a search database hereinafter referred to as a DB
  • it is a technique to adjust the recommendation priority of an object by reflecting the frequency of the emotional words appearing in the comments for the query containing the emotional words.
  • the conventional network graph visualizing nodes representing a plurality of objects examines the relationship of each node through the connection between the nodes representing the objects (having attribute values), and based on the clusters of similar nodes. Used to analyze relationships or phenomena.
  • FIG. 1 illustrates a network of characters appearing in the movie Les Miserables through a Force-Directed Algorithm, which is a typical network graph generation algorithm.
  • the left graph and the right graph have different shapes although they are graphs using the same data. This is because the network graph determines the final location through the connection between nodes, so each node and cluster will appear in a different location each time the graph is created. As a result, when the data is added or modified, the position of the node changes a lot, thus making it difficult to analyze the network.
  • the prior art is to provide a graph visualization display device and method and program for visualizing the graph data consisting of a plurality of nodes and the edge between the nodes.
  • the present invention is derived to solve the above problems of the prior art, the data is added or changed in combination with the network graph and the two-dimensional semantic map of the attribute values appearing for one object (content goods or service) Even if a new graph is generated, a node having a corresponding property value having an attribute value is displayed at a position similar to an existing position, so that an intuitive network analysis can be performed.
  • the present invention can analyze the feelings or opinions that the user uses and expresses the object as well as the objective information such as the production company, the price provided by the existing object information can be used as a reference for object selection to the user who wants to use the object newly
  • the purpose is to provide information.
  • the present invention provides a method and system for intuitively visualizing the overall distribution of emotions or opinions expressed on an object by visualizing a plurality of elements expressing emotions or opinions on an object based on a semantic distance.
  • the purpose is to provide.
  • An object of the present invention is to provide a means for intuitively recognizing a relative distance and distribution between a plurality of expression elements expressed with respect to an object by visualizing a plurality of expression elements based on relative semantic distances. .
  • the present invention is not limited to the text, it is an object of the present invention to provide a means for visualizing the distribution based on the meaning distance by reflecting all the various non-verbal elements that can express emotions or opinions, such as emoticons and icons.
  • it can also provide a means to visualize in one frame covering opinions or feelings expressed in various foreign languages.
  • an object of the present invention is to combine the network graph and the reference semantic map for the objects having the same attribute value to determine and visualize the position of the object based on the position and semantic distance of the attribute value compared to the reference semantic map.
  • the data visualization method is the step of extracting at least one or more attribute values for the object and the extracted attribute value, the semantic distance between the extracted attribute values Based on the preset reference map.
  • the reference map may be formed based on a semantic distance between a plurality of preset attribute values.
  • each of the one or more attribute values extracted from the object correspond to one node, and a node corresponding to each of the one or more attribute values extracted from the object is connected to an arc to visualize a network graph. It may further comprise a step.
  • a method for determining and visualizing a position of an object may include extracting at least one or more attribute values with respect to an object, and arranging each of the extracted one or more attribute values based on a predetermined reference map. And determining the position of the object by reflecting a distance based on a weight with each of the arranged one or more attribute values.
  • the reference map may be formed based on a semantic distance between a plurality of preset attribute values, and may be formed using multi-dimensional scaling analysis (MDS).
  • MDS multi-dimensional scaling analysis
  • the method may further include extracting the at least one attribute value for each of a plurality of objects, arranging each of the extracted one or more attribute values, and determining a position of the object. And visualizing a network graph by connecting each of the objects of the node to one node, and connecting the nodes corresponding to the objects of which the reference attribute values are commonly extracted among the plurality of objects with arcs. Can be.
  • the determining of the position of the object may include counting a frequency at which the at least one attribute value is extracted for the object, and determining a weight with each attribute value by reflecting the counted frequency. do.
  • the extracting of the attribute value may include collecting comment data on the object and extracting the at least one attribute value from the collected comment data.
  • the attribute value may be extracted in a unigram or bigram method.
  • an attribute value extractor extracting at least one attribute value with respect to an object and the extracted attribute value are previously based on a semantic distance between the extracted attribute values.
  • An attribute value arranging unit arranged based on the set reference map, and corresponding to each of the one or more attribute values extracted from the object, and corresponding to each of the one or more attribute values extracted from the object
  • a network graph generator for visualizing the network graph by connecting the nodes to arcs.
  • the apparatus may further include a comment data collecting unit collecting comment data about the object.
  • a system for determining and visualizing a position of an object may include: an attribute value extractor extracting at least one or more attribute values of an object based on a predetermined reference map based on each of the extracted one or more attribute values An attribute value arranging unit for arranging and a position determining unit for determining a position of the object by reflecting a distance based on a weight with respect to each of the one or more arranging attribute values, and mapping each of the plurality of objects to a node; And a network graph generation unit configured to visualize a network graph by connecting nodes corresponding to objects from which the reference attribute values are commonly extracted among the plurality of objects with arcs.
  • the positioning unit may include a frequency counting unit for counting a frequency at which the at least one attribute value is extracted for the object, and a weight determination unit for determining a weight with each of the attribute values by reflecting the counted frequency.
  • the attribute value constituting the network graph is changed or added by rearranging the network graph on the basis of the reference semantic map, there is an effect that the network graph is less likely to be intuitively understood.
  • the present invention can be provided through a web page on the browser without installing a separate program, the user can be provided with the analysis result in real time without a new data management or distribution procedure every time the property value is updated.
  • the present invention may intuitively confirm the response of the public opinion to the policy when a government or a public agency announces a policy or a plan and people express their intention through the Internet.
  • an overall distribution of the emotions or opinions expressed on the objects may be intuitively provided to the user.
  • the plurality of expression elements may be visualized based on relative semantic distance, thereby intuitively indicating the relative distance and distribution between the plurality of expression elements expressed with respect to the object. Can be recognized.
  • 1 is a diagram illustrating a conventional network graph.
  • FIG. 2 is a diagram illustrating an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
  • FIG. 3 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 2.
  • FIG. 4 is a diagram illustrating 36 emotional words that are finally selected from the emotional words shown in FIG. 2.
  • FIG. 5 is a diagram illustrating an emotional vocabulary distribution map (meaning map) according to an embodiment of the present invention.
  • 6 to 7 are diagrams showing a plurality of movies according to an embodiment of the present invention in the form of a network graph.
  • FIG. 8 is a diagram illustrating a coupling relationship between a reference semantic map and a network graph according to an embodiment of the present invention.
  • FIG. 9 through 10 illustrate nodes of a network graph combined with a reference semantic map according to an embodiment of the present invention.
  • 11 is a flowchart illustrating a method of visualizing data on attribute values of an object according to an embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating a method of determining and visualizing a position of an object according to an embodiment of the present invention.
  • FIG. 13 is a diagram illustrating in detail the step of determining the position of an object by reflecting a distance based on a weight of each attribute value according to an embodiment of the present invention.
  • FIG. 14 is a flowchart illustrating in more detail a step of extracting an attribute value according to an embodiment of the present invention.
  • FIG. 15 illustrates a system for visualizing data according to an embodiment of the present invention.
  • 16 is a view showing in detail the positioning unit according to an embodiment of the present invention.
  • the data visualization method is the step of extracting at least one or more attribute values for the object and the extracted attribute value, the semantic distance between the extracted attribute values Based on the preset reference map.
  • the reference map may be formed based on a semantic distance between a plurality of preset attribute values.
  • each of the one or more attribute values extracted from the object correspond to one node, and a node corresponding to each of the one or more attribute values extracted from the object is connected to an arc to visualize a network graph. It may further comprise a step.
  • a method for determining and visualizing a position of an object may include extracting at least one or more attribute values with respect to an object, and arranging each of the extracted one or more attribute values based on a predetermined reference map. And determining the position of the object by reflecting a distance based on a weight with each of the arranged one or more attribute values.
  • the reference map may be formed based on a semantic distance between a plurality of preset attribute values, and may be formed using multi-dimensional scaling analysis (MDS).
  • MDS multi-dimensional scaling analysis
  • the method may further include extracting the at least one attribute value for each of a plurality of objects, arranging each of the extracted one or more attribute values, and determining a position of the object. And visualizing a network graph by connecting each of the objects of the node to one node, and connecting the nodes corresponding to the objects of which the reference attribute values are commonly extracted among the plurality of objects with arcs. Can be.
  • the determining of the position of the object may include counting a frequency at which the at least one attribute value is extracted for the object, and determining a weight with each attribute value by reflecting the counted frequency. do.
  • the extracting of the attribute value may include collecting comment data on the object and extracting the at least one attribute value from the collected comment data.
  • the attribute value may be extracted in a unigram or bigram method.
  • an attribute value extractor extracting at least one attribute value with respect to an object and the extracted attribute value are previously based on a semantic distance between the extracted attribute values.
  • An attribute value arranging unit arranged based on the set reference map, and corresponding to each of the one or more attribute values extracted from the object, and corresponding to each of the one or more attribute values extracted from the object
  • a network graph generator for visualizing the network graph by connecting the nodes to arcs.
  • the apparatus may further include a comment data collecting unit collecting comment data about the object.
  • a system for determining and visualizing a position of an object may include: an attribute value extractor extracting at least one or more attribute values of an object based on a predetermined reference map based on each of the extracted one or more attribute values An attribute value arranging unit for arranging and a position determining unit for determining a position of the object by reflecting a distance based on a weight with respect to each of the one or more arranging attribute values, and mapping each of the plurality of objects to a node; And a network graph generation unit configured to visualize a network graph by connecting nodes corresponding to objects from which the reference attribute values are commonly extracted among the plurality of objects with arcs.
  • the positioning unit may include a frequency counting unit for counting a frequency at which the at least one attribute value is extracted for the object, and a weight determination unit for determining a weight with each of the attribute values by reflecting the counted frequency.
  • FIG. 2 is a diagram illustrating an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
  • the present invention relates to a visualization method and system for generating a network graph by using attribute values collected from comment data of an object, and rearranging the generated network graph corresponding to a reference semantic map.
  • the object may be described as a network graph visualization method and system using attribute values for the movie, limited to movies.
  • the comment data of the movie may use data collected through a web service constructed according to a user, or the comment data accumulated in a large portal and a fellowship bulletin board may be individually collected using a program.
  • a web crawler that can collect data to automate the collection of emotion vocabulary containing user's emotions from comment data about a movie
  • the crawler may be a large portal (Naver, Daum, etc.).
  • the emotional vocabulary collected through the crawler may be connected to the situation in which the movie is viewed to recommend a movie that meets the user's motivation for use.
  • FIG. 2 is a view showing 68 emotional vocabulary suitable for the movie recommendation thus selected.
  • FIG. 3 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 2.
  • TF frequency
  • DF document frequency
  • FIG. 4 is a diagram illustrating 36 emotion words that are finally selected among the emotional words shown in FIG. 3.
  • Figure 3 is a diagram showing the 36 selected emotional vocabulary finally removed the emotional vocabulary of the TF-IDF score is less than 10%.
  • FIG. 5 is a diagram illustrating an emotional vocabulary distribution map (meaning map) according to an embodiment of the present invention.
  • MDS Multi-Dimensional Scaling
  • multidimensional scale analysis is a technique associated with statistics representing relative distances between objects by calculating relative distances between objects, and is a background technique for measuring similarity and dissimilarity in data visualization.
  • a survey of 36 emotional words was conducted semantically, with a total of 20 subjects including 11 male students and 9 female students in 20 universities in Gyeonggi-do and Seoul.
  • the survey creates a questionnaire with 36 emotional words on the horizontal axis and vertical axis (68x68), and checks using a Likert scale that gives 3 points if the distance between the emotional words is the closest and -3 points if the distance between them is the longest. It consisted of.
  • UCINET program Based on the data recorded by 20 people, we used UCINET program that can utilize various network analysis methods, and accordingly, Metric MDS based on 68 emotional vocabularies selected in the semantic distance between 36 emotional vocabulary words is shown in FIG. 5.
  • the emotional vocabulary related to the representative words “Happy” and “Surprise” were distributed in the positive direction of the X axis, and the representative words “Anger” and “Disgust” in the negative direction of the X axis. Related emotional words were distributed. Emotional vocabulary related to the representative words “Fear” and “Surprise” were distributed in the positive direction of the Y axis, and emotions related to the keywords “Sad” and “Boring” in the negative direction of the Y axis. Vocabulary is distributed.
  • positive emotional vocabularies are distributed in the positive (+) direction on the X axis and negative emotional vocabularies are distributed in the negative (-) direction on the X axis in the nature of the emotional vocabulary.
  • the positive (+) direction of the Y-axis is dynamic (which can take a relatively large gesture when feeling), and the negative (-) direction of the Y-axis is positive (positive when feeling). It can be seen that emotional vocabularies (which can take small gestures) are distributed.
  • each word is clearly clustered.
  • 'Surprise' It can be seen that it is divided into 'Happy' representative cluster and 'Fear' representative cluster. This can be interpreted as dominant when users watch a movie, 'when the emotions are overwhelmed by overwhelming joy' and 'when the emotions are overwhelmed by sudden fears'.
  • 6 to 7 are diagrams showing a plurality of movies according to an embodiment of the present invention in the form of a network graph.
  • FIG. 6 illustrates a network graph to be connected to the meaning map described with reference to FIGS. 2 to 5.
  • the frequency of the emotional vocabulary appearing in the comment data of each movie was counted for 300 movies, and a movie with the same emotional vocabulary was assumed to be similar.
  • FIG. 7 illustrates a network graph when the number of movies shown in FIG. 6 is increased to 400.
  • FIG. 8 is a diagram illustrating a coupling relationship between a reference semantic map and a network graph according to an embodiment of the present invention.
  • FIG. 8 illustrates a form in which the semantic map described with reference to FIGS. 2 to 5 and the network graph described with reference to FIGS. 7 to 8 are connected.
  • a network map associated with a movie may be connected based on a reference semantic map, and the connected network map may insert an image corresponding to an emotional vocabulary distributed in the semantic map.
  • a network graph when a network graph is rearranged based on a two-dimensional semantic map, when the number of nodes of the network graph is placed in a positive and dynamic part of the semantic map, the image has a positive and dynamic image.
  • Metaphors such as, photos, and constellations can be inserted and visualized instead of network graphs.
  • the detailed network graph can be displayed, or the inserted image corresponding to the detailed network graph can be displayed. It can also be shown to the user.
  • an inserted image such as a picture, a photo, and a constellation illustrated in FIG. 8 may function as a kind of index corresponding to a group of objects having similar meanings.
  • an object does not need to correspond to only one metaphor, and if it is semantically related, it may belong to two or more metaphors at the same time.
  • the metaphor is a group containing a plurality of objects, and may be represented as a group of network graphs of a plurality of nodes in the visualization process.
  • the metaphor is selected to convey an intuitive feeling about the meaning of the corresponding network graph group, and a picture, a character, a well-known figure, a scene of a well-known movie, and the like may be adopted.
  • Metaphors may be set hierarchically according to the meaning of expression elements (emotional vocabulary, vocabulary reflecting opinions, etc.). That is, there may exist metaphors reflecting the concept of the parent and metaphors reflecting the concept of the child below. In this case, the user searches the metaphors of the parent concept and selects the metaphor that reflects the concept of the child in detail. Can be used to selectively reduce the number of objects.
  • FIG. 8 a process of displaying a limited number of objects to a user through metaphors is illustrated, but the inventive concept is not limited thereto.
  • a technique for limiting the range of nodes displayed based on a user's search results is possible.
  • FIG. 9 through 10 illustrate nodes of a network graph combined with a reference semantic map according to an embodiment of the present invention.
  • FIG. 9 illustrates a form of a final network graph that appears when a network graph and a reference semantic map that appear for 300 movies shown in FIG. 6 are connected.
  • FIG. 10 illustrates a form of a final network graph that appears when the network graphs for the 400 movies shown in FIG. 7 and the reference semantic map are connected.
  • the network graph may become complicated, but the analysis of the graph may be made more convenient because nodes having the same attributes that can be distinguished by color are always located at similar points in the emotional vocabulary.
  • 11 is a flowchart illustrating a method of visualizing data on attribute values of an object according to an embodiment of the present invention.
  • the method of visualizing the property values of one object by combining with a reference semantic map (S1110) extracts at least one property value of the object (S1110), and extracts the extracted property value from the semantic property values. On the basis of the distance, it is arranged based on the preset reference map (S1120).
  • the reference map is formed by using multi-dimensional scaling analysis (MDS), and may be formed based on a semantic distance between a plurality of preset attribute values, and the semantic distance may be formed for each attribute value as described in FIG. 5. It is decided according to the characteristics of.
  • MDS multi-dimensional scaling analysis
  • an object means an object to present an evaluation and an opinion
  • an attribute value includes letters, characters, and emoticons, such as words, paragraphs, and sentences, which express human emotions such as expression elements, emotional vocabulary, expression vocabulary, evaluation vocabulary, and value opinions Includes all images such as.
  • each of the one or more attribute values extracted from the object corresponds to one node, and the node corresponding to each of the one or more attribute values extracted from the object is connected with an arc to visualize the network graph (S1130). . That is, the network graph connects attribute values extracted from one object.
  • the network graph may be visualized by inserting an image according to the frequency of shape or attribute values arranged based on the semantic distance of the reference map.
  • the user inserts an image (metaphor) such as a character, natural environment, and constellation that has a positive and dynamic image. It can also be provided to.
  • an image such as a character, natural environment, and constellation that has a positive and dynamic image. It can also be provided to.
  • the user may acquire information about the object using only the provided image.
  • the user may obtain detailed hierarchical network graph and information on attribute values corresponding to each node. It may be provided, or the user may be provided with a detailed image layered in the overall image. For example, when a user selects a positive and dynamic image, the user may provide a positive layered positive image and a dynamic image (metaphor), respectively.
  • FIG. 12 is a flowchart illustrating a method of determining and visualizing a position of an object according to an embodiment of the present invention.
  • the method of visualizing by determining the position of an object based on the position of the attribute value and the semantic distance with respect to the 2D semantic map (reference map) extracts at least one or more attribute values of the object (S1210), Is arranged based on the predetermined reference map (S1220). Thereafter, the position of the object is determined by reflecting the distance based on the weight with each of the one or more arranged attribute values (S1230).
  • each of the plurality of objects corresponds to one node, and a network graph is visualized by connecting the nodes corresponding to the objects from which the reference attribute values are commonly extracted among the plurality of objects with an arc (S1240). .
  • the network graph connects objects with the same property value.
  • the network graph may be visualized by inserting an image according to the frequency of shape or attribute values arranged based on the semantic distance of the reference map.
  • the user may obtain information on the object using only the provided image.
  • the user may be provided with detailed network graphs and information on attribute values corresponding to each node. Or you can provide the user with a detailed image within the overall image.
  • the positive and dynamic image may be provided to the user in detail.
  • the reference map may be formed using multi-dimensional scaling analysis (MDS), and may be formed based on a semantic distance between a plurality of preset attribute values, and the semantic distance may be formed for each attribute value. It is decided according to the characteristics of.
  • MDS multi-dimensional scaling analysis
  • FIG. 13 is a diagram illustrating in detail the step of determining the position of an object by reflecting a distance based on a weight of each attribute value according to an embodiment of the present invention.
  • the position of the object when generating a network graph based on the semantic distance in the reference map, the position of the object may be determined according to the frequency of the attribute values. For example, if the frequency of the attribute values for the object has a high frequency of the positive portion in the reference map, the position of the object may be determined as the positive portion.
  • FIG. 14 is a flowchart illustrating in more detail a step of extracting an attribute value according to an embodiment of the present invention.
  • the attribute value may be extracted by a unigram having one syllable / morpheme / word of the comment data or a bigram method having two syllables / morpheme / word.
  • three syllables / morphemes / words may be extracted. It can also be extracted by a trigram method.
  • the natural language processing algorithm may be used to extract the attribute value from the comment data.
  • the object refers to an object including a human emotion such as a movie, a product, a novel, a game, or a travel selected by the user, and a comment or a review of the object including the human emotion is referred to as comment data.
  • a human emotion such as a movie, a product, a novel, a game, or a travel selected by the user
  • comment data a comment or a review of the object including the human emotion
  • the comment data may use data collected through a web service constructed according to a user, or may separately collect comment data accumulated in a large portal and a fellowship bulletin board using a program.
  • a web crawler may be used to collect data to automate the collection of emotion vocabulary including user's emotions from comment data on an object (movie), and the crawler may be a large portal (naver). , Daum, etc.) You can collect comments and comments of specific movies in the form of unrefined data from the movie homepage, process the collected data into data that can be used for research, and extract the emotional vocabulary by analyzing the purified data. have. Accordingly, the emotional vocabulary collected through the crawler may be connected to the situation in which the movie is viewed to recommend a movie that meets the user's motivation for use.
  • FIG. 15 illustrates a system for visualizing data according to an embodiment of the present invention.
  • the data visualization system 1500 may visualize combining the attribute values of one object with a reference semantic map, and may determine and visualize the position of an object based on the position and semantic distance of the attribute value relative to the reference semantic map.
  • the data visualization system 1500 includes a comment data collector 1510, an attribute value extractor 1520, an attribute value arranger 1530, a position determiner 1540, and a network graph generator 1550.
  • the comment collector 1510 collects comment data about the object, and the attribute value extractor 1520 extracts at least one attribute value from the collected comment data.
  • the attribute value may be extracted by a unigram having one syllable of the comment data or by a bigram method having two syllables, or may be extracted by a trigram method having three syllables.
  • the object refers to an object including a human emotion such as a movie, a product, a novel, a game, or a travel selected by the user, and a comment or a review of the object including the human emotion is referred to as comment data.
  • a human emotion such as a movie, a product, a novel, a game, or a travel selected by the user
  • comment data a comment or a review of the object including the human emotion
  • the comment data may use data collected through a web service constructed according to a user, or may separately collect comment data accumulated in a large portal and a fellowship bulletin board using a program.
  • a web crawler may be used to collect data to automate the collection of emotion vocabulary including user's emotions from comment data on an object (movie), and the crawler may be a large portal (naver). , Daum, etc.) You can collect comments and comments of specific movies in the form of unrefined data from the movie homepage, process the collected data into data that can be used for research, and extract the emotional vocabulary by analyzing the purified data. have. Accordingly, the emotional vocabulary collected through the crawler may be connected to the situation in which the movie is viewed to recommend a movie that meets the user's motivation for use.
  • the attribute value extractor 1520 extracts at least one attribute value with respect to the object.
  • the value arranging unit 1530 arranges the extracted attribute values on the basis of a preset reference map based on the semantic distance between the extracted attribute values.
  • the network graph generator 1550 corresponds to one node each of one or more attribute values extracted from the object, and connects a node corresponding to each of the one or more attribute values extracted from the object with an arc. Visualize the network graph. That is, the network graph connects attribute values extracted from one object.
  • the data visualization system 1500 determines and visualizes an object based on the position of the attribute value and the semantic distance with respect to the reference semantic map (reference map),
  • the attribute value extractor 1520 extracts at least one or more attribute values for the object, and the attribute value disposition unit 1530 arranges each of the extracted one or more attribute values based on a predetermined reference map. Thereafter, the position determiner 1540 determines the position of the object by reflecting a distance based on a weight with respect to each of the one or more arranged attribute values.
  • the network graph generator 1550 corresponds to each of the plurality of objects to one node, and connects the nodes corresponding to the objects from which the reference attribute values are commonly extracted among the plurality of objects with an arc.
  • the network graph connects objects with the same property value.
  • the reference map is formed by using multi-dimensional scaling analysis (MDS), and may be formed based on a semantic distance between a plurality of preset attribute values, and the semantic distance may be formed for each attribute value as described in FIG. 5. It is decided according to the characteristics of.
  • MDS multi-dimensional scaling analysis
  • an object means an object to present an evaluation and an opinion
  • an attribute value includes letters and characters, such as words, paragraphs, sentences, etc., which express human emotions such as expression elements, emotional vocabulary, expression vocabulary, evaluation vocabulary, and value opinions, Includes all images such as emoticons.
  • the network graph may be visualized by inserting an image according to the frequency of shape or attribute values arranged based on the semantic distance of the reference map.
  • an image of a character, a natural environment, a constellation, etc., having a positive and dynamic image may be inserted and provided to the user. have.
  • the user may obtain information on the object using only the provided image.
  • the user may be provided with detailed network graphs and information on attribute values corresponding to each node. Or you can provide the user with a detailed image within the overall image.
  • the positive and dynamic image may be provided to the user in detail.
  • 16 is a view showing in detail the positioning unit according to an embodiment of the present invention.
  • the position determiner 1540 includes a frequency counter 1541 and a weight determiner 1542.
  • the frequency counting unit 1541 counts the frequency at which at least one attribute value is extracted for the object, and the weight determination unit 1542 determines the weight with each attribute value by reflecting the counted frequency.
  • the position of the object when generating a network graph based on the semantic distance in the reference map, the position of the object may be determined according to the frequency of the attribute values. For example, if the frequency of the attribute values for the object has a high frequency of the positive portion in the reference map, the position of the object may be determined as the 'positive portion'.
  • the metaphor corresponding to one representative expression element and each of the objects corresponding to the metaphor are located on the semantic map based on the semantic distance.
  • This visualized semantic map reflects not only the similarity between each object but also the subtle differences between each object, allowing the user to recognize it intuitively.
  • the user may specify a desired range of objects by using a metaphor or search menu of a higher level of concept and narrow down the range of objects visualized by using a metaphor or a search menu of a hierarchical lower level of concept.
  • the expression elements corresponding to one node (object) may be visualized in detail.
  • the expression elements corresponding to one node may be expression elements included in one node (content) or may be expression elements included in a user review of the node (content).
  • the representation elements corresponding to the selected nodes may be visualized in detail, and if the representation elements corresponding to the selected node are regarded as one set, a set operation (intersection, Expressions derived through union, difference) may be visualized.
  • the position of each object may be readjusted to reflect this, and may be re-draw even when a new expression element is added.
  • Such a change may be reflected in real time, may be periodically reflected, may be reflected according to a condition preset by a user, or may be interactively reflected when a user's command is input.
  • a change over time may be managed in a time series version (layer), in which case, the change over time may be compared and visualized, and recently introduced or recently intensively referred to. It may be visualized by reflecting an object that has been added or an expression element that has recently increased intensively or newly appeared. In this case, a menu may be provided that visualizes the positional movement on the semantic map of the node of interest in time series.
  • the user may additionally provide a menu that allows the user to select a secondary action, that is, purchase or viewing of an advertisement, through selection of a specific object.
  • a secondary action that is, purchase or viewing of an advertisement
  • a VOD service menu may be additionally provided, or in the case of a product, a purchase button or a window connecting to a purchase site may be displayed. That is, due to the selection of a specific object, a menu may be provided to connect to an advertisement link or to directly select a purchase.
  • Data visualization method is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • the present invention relates to a method and system for visualizing a combination of attribute values (nodes) for an object with a reference semantic map. More particularly, the present invention relates to a network graph of attribute values for an object and a pre-stored reference semantic map. In addition, the present invention relates to a technique for determining and visualizing the position of an object based on the position and semantic distance of attribute values constituting a network.
  • An object of the present invention is to combine a network graph and two-dimensional semantic map of objects having the same attribute value and to determine and visualize the position of the object based on the position and semantic distance of the attribute value relative to the reference semantic map.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Multimedia (AREA)
  • Library & Information Science (AREA)
  • Software Systems (AREA)
  • Computer Security & Cryptography (AREA)
  • Mathematical Physics (AREA)
  • Human Computer Interaction (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Computational Linguistics (AREA)
  • Computer Hardware Design (AREA)

Abstract

본 발명은 객체에 대한 속성값(노드)들을 레퍼런스 의미지도와 결합하여 시각화하는 방법 및 시스템에 관한 기술로, 보다 상세하게는 객체에 대한 속성값에 대한 네트워크 그래프와 미리 저장된 레퍼런스 의미지도를 결합하여, 네트워크를 이루는 속성값의 위치 및 의미 거리 기반으로 객체의 위치를 결정하여 시각화하는 기술에 관한 것이다. 본 발명은 동일한 속성값을 가지고 있는 객체들에 대한 네트워크 그래프와 2차원 의미지도를 결합하여 레퍼런스 의미지도 대비 속성값의 위치 및 의미 거리 기반으로 객체들의 위치를 결정하여 시각화 하는 것을 목적으로 한다.

Description

레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
본 발명은 객체에 대한 속성값을 시각화하는 데이터 시각화 방법 및 시스템에 관한 기술로, 보다 상세하게는 객체에 대한 속성값을 레퍼런스 의미 지도를 이용하여 시각화하고, 레퍼런스 의미 지도를 이용하여 객체의 의미 지도 상의 위치를 결정하는 기술에 관한 것이다.
본 발명은 교육부 및 한국연구재단의 인문사회기초연구사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: S-2013-A0403-00010, 과제명: 상황별 감정어휘 분포맵을 이용한 영화추천 시스템의 시각화].
일반적으로, 영화, 음악, 문학 작품, 등 콘텐츠를 소비하거나, 상품, 또는 서비스를 이용한 사용자들은 콘텐츠, 상품, 또는 서비스(이하 "객체"라 함)를 이용한 감정 또는 의견을 코멘트(리뷰)형식으로 표현하게 되고, 아직 객체를 이용하지 못한 사용자들이나 객체에 대한 정보를 얻고자 하는 사용자들은 객체를 미리 이용해본 사용자들이 남긴 코멘트(리뷰)를 참고하여 정보를 얻게 된다.
사용자는 객체에 대한 정보를 얻고자 하는데, 객체에 대한 코멘트 데이터는 텍스트에 기반하여 구성되어 있으므로, 사용자가 코멘트 데이터를 참고하여 객체에 대한 정보를 얻는 데 걸리는 시간이 상당히 길게 소요되는 문제점이 있었다. 특히, 객체에 대한 코멘트 데이터의 양이 방대하거나, 다수의 사용자가 코멘트를 남겼거나, 오랜 시간 동안 코멘트 데이터가 누적된 경우에는 사용자가 코멘트 데이터의 내용을 읽는 것만으로도 상당한 노력이 필요하였다.
따라서 이러한 문제점에 대응하고자 코멘트 데이터 상의 어휘를 기반으로 하여 코멘트 또는 객체를 검색하고, 사용자로 하여금 코멘트 및 객체에 대한 탐색 시간을 단축하도록 할 수 있는 기술에 대한 연구가 진행되었다.
이러한 콘텐츠에 대한 코멘트 정보를 이용하여 콘텐츠를 검색하는 방법의 일 예가 한국등록특허 제10-0917784호 "콘텐츠에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템"에 기술되어 있다.
상기 선행기술은 인터넷 상의 각종 콘텐트에 달린 코멘트를 수집하여 검색용 데이터베이스(이하 DB라고 한다)를 작성하고 이 검색용DB를 이용하여 감성적인 질의에 대해 객관적이고 신뢰할 수 있는 순위 결과를 보여 주는 검색 방법 및 시스템을 제공하는데 그 목적이 있다. 특히 감성적인 단어가 포함된 질의에 대하여 감성적인 단어가 코멘트 상에 나타나는 빈도를 반영하여 객체의 추천 우선 순위를 조정하는 기술이다.
그러나 위의 선행기술은 객체에 대한 코멘트로부터 감성 단어를 검색해 내는 기술에 대해서는 언급하고 있지만, 객체에 대하여 사용자에게 기대되는 전반적인 감정 또는 의견이 효과적으로 도시되는 것은 아니고, 다수의 코멘트가 존재하는 객체가 우선적으로 추천되는 등의 한계가 있다.
이는 위의 선행기술이 텍스트 기반의 감정단어 검색을 채택하였기 때문에 생기는 한계로서, 하나의 객체(콘텐츠, 상품 또는 서비스)에 대하여 기대되는 전반적인 감정 또는 의견을 효과적으로 보여줄 수 있는 기술의 개발이 요구된다.
한편, 복수의 객체들을 대표하는 노드들을 시각화하는 종래의 네트워크 그래프는 객체를 대표하는 노드(속성값을 가짐)끼리의 연결을 통해 각 노드의 관계를 살펴보고, 유사한 노드끼리 이루는 군집을 바탕으로 사회관계나 현상을 분석하는데 사용된다.
도 1은 대표적인 네트워크 그래프 생성 알고리즘인 포스-디렉티드 알고리즘(Force-Directed Algorithm)을 통해 영화 '레미제라블'에 등장하는 등장인물간의 관계를 네트워크로 나타낸 것이다.
도 1에 도시된 것처럼 좌측 그래프와 우측 그래프는 동일한 데이터를 이용하여 나타낸 그래프임에도 불구하고 서로 다른 형태를 나타내고 있다. 이는 네트워크 그래프가 각 노드간의 연결을 통해 최종 위치가 결정되기 때문에 각 노드와 군집은 그래프가 생성 될 때마다 다른 위치에 나타나게 된다. 이에 따라 데이터가 추가 되거나 수정 될 때에 노드의 위치 변화가 많기 때문에 네트워크를 분석함에 있어서 어려움이 발생하게 된다.
따라서 이러한 문제점에 대응하고자 도출된 기술이 같은 노드의 종류가 겹치지 않고 관련성이 있는 것은 근방에 배치하여 네트워크 그래프를 시각화하는 방법이다.
이러한 네트워크 그래프를 시각화하는 방법의 일 예가 일본공개특허 제2014-142900호 "그래프 시각화 표시 장치 및 방법 및 프로그램"에 기술되어 있다.
상기 선행기술은 복수 노드와 노드 사이를 잇는 에지로 구성되는 그래프 데이터를 가시화하기 위한 그래프 시각화 표시장치 및 방법 및 프로그램을 제공하는데 그 목적이 있다.
그러나 위의 선행기술에서도 데이터가 추가되거나 수정될 때에 노드의 위치 변화에 따른 기준이 없어서 노드들의 위치가 기존의 위치에서 많이 벗어나기 때문에 네트워크 그래프를 분석함에 있어서 문제점이 있다.
따라서, 객체에 대한 데이터가 추가되거나 수정되어도 서로 연관성이 있는 특성을 가지는 노드는 기존의 위치와 비슷한 위치에 나타나도록 하여 직관적으로 파악이 가능한 네트워크 그래프를 시각화하는 기술의 개발이 필요하다.
본 발명은 상기와 같은 종래 기술의 문제점을 해결하고자 도출된 것으로서, 하나의 객체(콘텐츠 상품 또는 서비스)에 대하여 나타나는 속성값들에 대한 네트워크 그래프와 2차원 의미지도와 결합하여 데이터가 추가되거나 변경되어 새로운 그래프를 생성하여도 연관성이 있는 특성을 가지는, 해당 속성값을 가지는 노드는 기존의 위치와 비슷한 위치에 나타나도록 하여 직관적인 네트워크 분석이 이루어지도록 하는 것을 목적으로 한다.
또한 본 발명은 기존의 객체 정보가 제공하는 제작회사, 가격 등 객관적인 정보뿐만 아니라 사용자가 객체를 이용하고 표현하는 감정 또는 의견을 분석하여 객체를 새로이 이용하려는 사용자에게 객체 선택의 기준으로 삼을 수 있는 정보를 제공하는 것을 목적으로 한다.
본 발명은 하나의 객체에 대하여 감정 또는 의견이 표현된 복수의 요소들을 의미 거리(semantic distance) 기반으로 시각화함으로써, 객체에 대하여 표현된 감정 또는 의견의 전체적인 분포를 직관적으로 시각화할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.
본 발명은 복수의 표현 요소(expression element)들을 상대적인 의미 거리 기반으로 시각화함으로써, 객체에 대하여 표현된 복수의 표현 요소들 간의 상대적인 거리 및 분포를 직관적으로 인식할 수 있는 수단을 제공하는 것을 목적으로 한다.
또한 본 발명은 텍스트에 한정하지 않고, 이모티콘이나 아이콘 등 감정 또는 의견을 표현할 수 있는 다양한 비언어적 요소를 모두 반영하여 의미 거리 기반의 분포를 시각화할 수 있는 수단을 제공하는 것을 목적으로 한다. 또한, 텍스트라는 제약에서 벗어나 자유로울 수 있기 때문에, 다양한 외국어로 표현된 의견 또는 감정까지도 망라하여 하나의 프레임 안에서 시각화할 수 있는 수단을 제공할 수도 있다.
또한 본 발명은 동일한 속성값을 가지고 있는 객체들에 대한 네트워크 그래프와 레퍼런스 의미지도를 결합하여 레퍼런스 의미지도 대비 속성값의 위치 및 의미 거리 기반으로 객체들의 위치를 결정하여 시각화하는 것을 목적으로 한다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 데이터 시각화 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계 및 상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 단계를 포함한다.
이때, 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 한다.
또한, 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화하는 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계 상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 단계 및 상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 단계를 포함한다.
이때, 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하며, 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되는 것을 특징으로 한다.
또한, 복수의 객체들 각각에 대하여 상기 적어도 하나 이상의 속성값을 추출하는 단계, 상기 추출된 하나 이상의 속성값 각각을 배치하는 단계, 및 상기 상기 객체의 위치를 결정하는 단계를 실행한 후, 상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계를 더 포함할 수 있다.
또한, 상기 객체의 위치를 결정하는 단계는 상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 단계 및 상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 단계를 포함한다.
또한, 상기 속성값을 추출하는 단계는 상기 객체에 대한 코멘트 데이터를 수집하는 단계 및 상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계는 상기 속성값을 유니그램 또는 바이그램 방식으로 추출하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 데이터를 시각화 하는 시스템은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부 및 상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부를 포함하고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부를 포함한다. 또한, 객체에 대한 코멘트 데이터를 수집하는 코멘트 데이터 수집부를 더 포함한다.
본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화 하는 시스템은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부 상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부 및 상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 위치 결정부를 포함하고, 상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부를 포함한다.
또한, 위치 결정부는 상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 빈도수 계수부 및 상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 가중치 결정부를 포함한다.
본 발명에 따르면 레퍼런스 의미지도를 기준으로 네트워크 그래프를 재배치하여 네트워크 그래프를 구성하는 속성값이 변화하거나 추가되는 경우 네트워크 그래프의 변화가 적어 직관적으로 파악이 가능한 효과가 있다.
또한, 본 발명은 별도의 프로그램 설치 없이 브라우저상의 웹 페이지를 통해 제공할 수 있으므로 속성값이 갱신될 때마다 개발자가 새로운 데이터 관리나 배포의 절차 없이 실시간으로 분석 결과를 사용자는 제공 받을 수 있다.
또한, 본 발명은 정부 또는 공공기관이 어떠한 정책이나 계획을 발표하여 사람들이 이에 대하여 인터넷을 통해 의사를 표현하는 경우, 정책에 대한 여론의 반응을 직관적으로 확인할 수도 있다.
또한, 인터넷에서 발생한 기업에서 발생하는 각종 사고 또는 외부에서 발생하는 기업에 대한 여론을 수집하고 이를 분석한 여론 반응의 변화를 실시간으로 파악할 수도 있으며, 기업은 이러한 정보를 이용하여 사내 위기관리 프로토콜을 통해 대응할 수도 있다.
또한, 다수의 객체들에 대하여 감정 또는 의견이 표현된 복수의 요소들을 의미 거리(semantic distance) 기반으로 시각화함으로써, 객체에 대하여 표현된 감정 또는 의견의 전체적인 분포를 직관적으로 사용자에게 제공할 수 있다.
또한, 하나의 객체에 대하여 대표적으로 표현된 감정 또는 의견을 시각화할 수도 있지만, 복수의 표현 요소들을 상대적인 의미 거리 기반으로 시각화함으로써, 객체에 대하여 표현된 복수의 표현 요소들 간의 상대적인 거리 및 분포를 직관적으로 인식할 수 있다.
또한, 텍스트에 한정하지 않고, 이모티콘이나 아이콘 등 감정 또는 의견을 표현할 수 있는 다양한 비언어적 요소를 모두 반영하여 의미 거리 기반의 분포를 시각화할 수 있으며, 텍스트라는 제약에서 벗어나 자유로울 수 있기 때문에, 다양한 외국어로 표현된 의견 또는 감정까지도 망라하여 하나의 프레임 안에서 시각화할 수도 있다.
도 1은 종래의 네트워크 그래프를 나타낸 도면이다.
도 2는 본 발명의 일 실시예에 따른 감정어휘 분포맵 제작을 위해 선정된 감정어휘를 나타낸 도면이다.
도 3은 도 2에 도시된 각 감정어휘의 TF-IDF 스코어의 최대치를 나타낸 도면이다.
도 4는 도 2에 도시된 각 감정어휘들 중 최종 선정된 36개의 감정어휘를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 감정어휘 분포맵(의미지도)을 나타낸 도면이다.
도 6 내지 도 7은 본 발명의 일 실시예에 따른 복수의 영화를 네트워크 그래프의 형태로 나타낸 도면이다.
도 8은 본 발명의 일 실시예에 따른 레퍼런스 의미지도와 네트워크 그래프의 결합관계를 나타낸 도면이다.
도 9 내지 도 10은 본 발명의 일 실시예에 따른 레퍼런스 의미지도와 결합된 네트워크 그래프의 노드들을 나타낸 도면이다.
도 11은 본 발명의 일 실시예에 따른 객체에 대한 속성값들에 대한 데이터를 시각화 하는 방법을 나타낸 순서도이다.
도 12는 본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화 하는 방법을 나타낸 순서도이다.
도 13은 본 발명의 일 실시예에 따른 객체의 위치를 속성값 각각의 가중치에 기반한 거리를 반영하여 결정하는 단계를 보다 상세하게 나타낸 도면이다.
도 14는 본 발명의 일 실시예에 따른 속성값을 추출하는 단계를 보다 상세하게 나타낸 순서도이다.
도 15는 본 발명의 일 실시예에 따른 데이터를 시각화 하는 시스템을 나타내는 도면이다.
도 16은 본 발명의 일 실시예에 따른 위치 결정부를 보다 상세하게 나타낸 도면이다.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 데이터 시각화 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계 및 상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 단계를 포함한다.
이때, 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 한다.
또한, 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계를 더 포함할 수 있다.
본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화하는 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계 상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 단계 및 상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 단계를 포함한다.
이때, 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하며, 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되는 것을 특징으로 한다.
또한, 복수의 객체들 각각에 대하여 상기 적어도 하나 이상의 속성값을 추출하는 단계, 상기 추출된 하나 이상의 속성값 각각을 배치하는 단계, 및 상기 상기 객체의 위치를 결정하는 단계를 실행한 후, 상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계를 더 포함할 수 있다.
또한, 상기 객체의 위치를 결정하는 단계는 상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 단계 및 상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 단계를 포함한다.
또한, 상기 속성값을 추출하는 단계는 상기 객체에 대한 코멘트 데이터를 수집하는 단계 및 상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계를 포함하는 것을 특징으로 한다.
이때, 상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계는 상기 속성값을 유니그램 또는 바이그램 방식으로 추출하는 것을 특징으로 한다.
본 발명의 일 실시예에 따른 데이터를 시각화 하는 시스템은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부 및 상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부를 포함하고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부를 포함한다. 또한, 객체에 대한 코멘트 데이터를 수집하는 코멘트 데이터 수집부를 더 포함한다.
본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화 하는 시스템은 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부 상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부 및 상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 위치 결정부를 포함하고, 상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부를 포함한다.
또한, 위치 결정부는 상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 빈도수 계수부 및 상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 가중치 결정부를 포함한다.
상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.
본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.
그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
도 2는 본 발명의 일 실시예에 따른 감정어휘 분포맵 제작을 위해 선정된 감정어휘를 나타낸 도면이다.
본 발명은 객체의 코멘트 데이터에서 수집된 속성값을 이용하여 네트워크 그래프를 생성하고, 생성된 네트워크 그래프를 레퍼런스 의미지도에 대응하여 재배치하는 시각화 방법 및 시스템에 관한 것으로서, 객체는 사용자가 선택한 영화, 상품, 소설, 게임, 여행 등 사람의 감정이 포함되는 객체를 의미하며, 사람의 감정이 포함되는 객체에 대한 코멘트 또는 리뷰로부터 나타나는 감정을 네트워크 그래프를 통하여 시각화 할 수 있다.
본 발명의 일 실시예로서, 객체는 영화로 한정하여 영화에 대한 속성값을 이용한 네트워크 그래프 시각화 방법 및 시스템으로도 설명할 수 있다.
영화의 코멘트 데이터는 사용자에 따라서 구축된 웹 서비스 통해 수집된 데이터를 이용할 수 있으며, 또는 대형 포털 및 동호회 게시판에 축적되는 코멘트 데이터를 프로그램을 이용하여 개별적으로 수집할 수도 있다.
본 발명의 일 실시예로서, 영화에 대한 코멘트 데이터로부터 사용자의 감정을 포함하고 있는 감정어휘 수집을 자동화하기 위하여 데이터를 수집할 수 있는 웹 크롤러를 이용할 수 있으며, 크롤러는 대형 포털(네이버, 다음 등) 영화 홈페이지에서 특정 영화의 댓글과 코멘트들을 정제되지 않은 데이터 형태로 수집하고, 수집된 데이터를 연구에 사용 가능한 데이터로 가공할 수 있으며, 정제된 데이터를 분석하여 감정어휘를 추출할 수 있다. 이에 따라 크롤러를 통하여 수집되는 감정어휘는 영화를 보는 상황과 연결시켜 추후에 사용자의 이용 동기에 맞는 영화를 추천할 수도 있다.
영화에 나타난 감정어휘의 빈도를 시각화하기 위해서는 2차원 평면상에 각 감정어의 위치를 지정해야 한다. 이를 위해 감정어간의 상관관계를 이용하여 2차원 상의 위치 좌표를 도출할 수 있다. 감정어휘의 분포맵을 제작하기 위하여 한덕웅, 강혜자(2000)의 한국어 정서 용어들의 적절성과 경험 빈도에 대한 연구를 참고하여 834개의 정서용어 중에서 영화를 봤을 때 느낄 수 있는 감정어휘만을 분류하였다. 이때, 아주대학교의 국어국문학과박사 전문가 1명과 본 발명의 발명자 2명이 함께 서로 의견취합이 가능한 감정어휘만을 골라 최종 100개의 감정어휘를 선별하였다.
또한, 전문가 분석을 통한 감정어휘 선별작업 이외에도 영화를 시청하였을 때, 사용자들이 가장 많이 느끼는 감정어휘를 선별하기 위해 선정된 100개의 감정어휘를 토대로 최종감정어휘 선정을 위한 서베이를 실시하였다. 서베이는 아주대학교의 미디어학과 학생 30명을 대상으로 영화를 봤을 때 느낄 수 있는 감정에 대한 간단한 개념 설명을 거친 뒤에, 전문가 분석을 통해 얻어진 100개의 감정어휘에 대해서 영화를 보는 상황일 때 해당 감정어휘를 느낄 수 있는 정도가 어떻게 되는지를 조사하였다. 실제 설문에서는 ‘여러분이 지금까지 보신 여러 장르의 영화 스토리를 생각하신 뒤 해당 영화를 봤을 때 다음에 제시된 감정어휘들을 느끼는 정도가 어떠한 지 답하시기 바랍니다.’와 같이 시작하였으며, 각 감정어휘에 대해서 리커트 7점 척도(Likert-type scale)로 응답하게 하여 1점은 ‘전혀 관련 없다.’를 의미하고 7점은 ‘매우 관련 있다.’를 의미하도록 질문하였다.
본 연구에서는 사용자의 이용 동기를 이용해 영화를 추천한다는 취지에 부합하고자 영화를 봤을 때 가장 잘 느낄 수 있는 감정어휘를 수집하기 위해 전문가 분석 및 사용자 서베이를 실시하였으며, 사용자들이 설문한 리커트 7점 척도 정보를 토대로 관련성이 높은 감정어휘를 선별하기 위해 평균분석을 통해서 평균이 상대적으로 낮은 감정어휘(4.00 ‘보통이다.’를 뜻하는 수치 이하) 32개를 추가적으로 제거하여 영화 추천에 적합한 68개의 감정어휘를 선별하였다.
도 2는 이렇게 선별된 영화 추천에 적합한 68개의 감정어휘를 나타낸 도면이다.
도 3은 도 2에 도시된 각 감정어휘의 TF-IDF 스코어의 최대치를 나타낸 도면이다.
도 3은 도 2에 설명된 68개의 감정어휘에 실제 영화데이터를 비교하여 영향력이 미미한 감정어휘를 추가로 제거하기 위하여, 영화의 코멘트 또는 리뷰에 나타나는 각 감정어휘의 TF-IDF 스코어를 도출하고, 각 감정어휘에 나타날 수 있는 TF-IDF 스코어의 최대치를 나타낸 도면이다.
이때, TF(단어 빈도수, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지 나타내는 값을 의미하며, DF(Document Frequency)는 특정 단어가 나타난 문서의 수를 의미하며, 이 값의 역수를 IDF(inverse document frequency)라고 한다.
도 4는 도 3에 도시된 각 감정어휘들 중 최종 선정된 36개의 감정어휘를 나타낸 도면이다.
도 3에 도시된 도면은 TF-IDF 스코어가 도출된 각 감정어휘들 중에서 '경악하다'의 경우 모든 영화에서 TF-IDF 스코어의 비율이 0.8% 이하로 나타났으며, 반면에 '달콤하다'의 경우에는 적어도 한 개의 영화에서는 TF-IDF 스코어의 비율이 42%에 달하는 것을 의미한다.
이때, 도 3은 TF-IDF 스코어의 비율이 10% 미만인 감정어휘를 제거하고 최종적으로 선택된 36개의 감정어휘를 나타낸 도면이다.
도 5는 본 발명의 일 실시예에 따른 감정어휘 분포맵(의미지도)을 나타낸 도면이다.
도 4에 도시한 최종 군집화된 36개의 감정어휘를 2차원 평면에 각 감정어휘 간의 의미 거리를 도출하기 위하여 36개의 감정어휘를 바탕으로 유사하거나 상이한 감정어휘 간의 거리도를 측정하여 상관관계를 분석한 다음 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용할 수 있다.
이때, 다차원척도 분석이란 개체들 간의 상대적인 거리를 계산하여 사람이 인지 할 수 있는 평면상에 상대적인 거리로 나타내는 통계와 연관된 기술로 정보 시각화에서는 데이터 내의 유사성 및 비유사성을 측정하기 위한 배경기술이다.
다차원척도법의 장점은 상대적인 거리만을 알고 있는 개체들의 의미 지도를 작성할 수 있으며 물리적인 거리뿐만 아니라 심리적인 거리에 근거하여서도 의미지도를 작성할 수 있다.
본 발명의 일 실시예에 따른 다차원척도 분석을 위해 경기도 및 서울 소재 대학교 20대 남학생 11명, 여학생 9명으로 총 20명을 실험 대상자로 하여 36개의 감정어휘에 대해 의미상 거리 서베이를 실시하였으며, 서베이는 가로축 세로축 36개의 감정어휘를 배치한 설문지를 만들고(68x68), 감정어휘간의 거리가 가장 가깝다고 느껴지면 3점, 가장 멀다고 느껴지면 -3점을 주는 방식의 리커트 척도를 이용하여 체크하는 형식으로 구성하였다. 20명이 기록한 데이터를 바탕으로 다양한 네트워크 분석기법이 활용 가능한 UCINET 프로그램을 사용 하였고, 이에 따라 영화 36개 감정 어휘 간의 의미상의 거리에 선정된 68개의 감정어휘를 기반한 Metric MDS를 도 5에 나타내었다.
그 결과, X축의 양(+)의 방향으로는 대표어 “Happy”, “Surprise”와 관련된 감정어휘가 분포되었으며, X축의 음(-)의 방향으로는 대표어 “Anger”, “Disgust”와 관련된 감정어휘가 분포되었다. 그리고 Y축의 양(+)의 방향으로는 대표어 “Fear”, “Surprise”와 관련된 감정어휘가 분포되었으며, Y축의 음(-)의 방향으로는 대표어 “Sad”, “Boring”과 관련된 감정어휘가 분포되었다.
이에 따라, 감정어휘의 성격 상 X축의 양(+)의 방향은 긍정적인 감정어휘들이 분포되었고, X축의 음(-)의 방향으로는 부정적인 감정어휘들이 분포됨을 알 수 있다.
또한, Y축의 양(+)의 방향은 동적인(감정을 느낄 때 비교적 큰 제스처를 취할 수 있는) 감정어휘들이 분포되었고, Y축의 음(-)의 방향으로는 정적인(감정을 느낄 때 비교적 작은 제스처를 취할 수 있는) 감정어휘들이 분포됨을 알 수 있다.
그리고 ‘Happy’, ‘Sad’, ‘Anger’, ‘Fear’, ‘Disgust’, ‘Boring’ 대표어와 관련된 어휘들은 각각의 단어가 뚜렷하게 군집이 되는 것을 볼 수 있는데, 대표어 ‘Surprise’에 대해서는 ‘Happy’ 대표어 군집과 ‘Fear’ 대표어 군집에 나뉘어서 분포한다는 것을 알 수 있다. 이는 사용자들이 영화를 봤을 때 ‘벅찬 기쁨으로 인해 놀라운 감정이 생기는 경우’와 ‘갑작스럽게 등장하는 공포로 인해서 놀라운 감정이 생기는 경우’가 지배적이기 때문인 것으로 해석할 수 있다.
도 6 내지 도 7은 본 발명의 일 실시예에 따른 복수의 영화를 네트워크 그래프의 형태로 나타낸 도면이다.
도 6은 도 2 내지 도 5에서 설명한 의미지도와 연결될 네트워크 그래프를 나타내었다. 도 6에 도시된 네트워크 그래프를 구성하기 위하여 300개의 영화를 대상으로 각 영화의 코멘트 데이터에 나타나는 감정어휘의 빈도수를 계수하였으며, 같은 감정어휘를 가진 영화를 유사한 영화라 가정하였다.
도 7은 도 6에 도시된 영화의 수를 400개로 증가 하였을 때 나타나는 네트워크 그래프를 나타낸 것이다.
도 6과 도 7을 비교해보면 데이터(영화)가 증가함에 다라 클러스터의 위치가 변화하는 것을 볼 수 있다.
도 8은 본 발명의 일 실시예에 따른 레퍼런스 의미지도와 네트워크 그래프의 결합관계를 나타낸 도면이다.
도 8은 도 2 내지 도 5에서 설명한 의미지도와 도 7 내지 도 8에서 설명한 네트워크 그래프를 연결한 형태를 나타내고 있다.
레퍼런스 의미지도를 기준으로 영화와 관련된 네트워크 지도를 연결할 수 있으며, 연결된 네트워크 지도는 의미지도에 분포된 감정어휘에 대응하여 이미지를 삽입할 수도 있다.
예를 들어, 2차원 의미지도를 기준으로 네트워크 그래프를 재배치 하였을 때, 의미지도상 긍정적이고, 동적인 부분에 네트워크 그래프의 노드들이 배치되는 빈도수가 많을 때, 긍정적이고, 동적인 이미지를 가지고 있는 그림, 사진, 별자리 등의 메타포어를 네트워크 그래프 대신 삽입하여 시각화할 수 있다.
또한, 그림, 사진, 별자리 등의 삽입된 이미지 속에 세부적으로 이미지를 추가 삽입할 수 있으며, 사용자가 이미지를 선택하면 세부적인 네트워크 그래프를 보여줄 수도 있고, 또는 세부적인 네트워크 그래프에 대응하는 삽입된 이미지를 사용자에게 보여줄 수도 있다.
이 때 도 8에 도시된 그림, 사진, 별자리 등의 삽입된 이미지(메타포어, metaphor)는 유사한 의미를 가지는 객체들의 군에 대응하는 일종의 인덱스로서 기능할 수도 있다. 즉, 지나치게 많은 수의 객체들(콘텐츠들)이 동시에 디스플레이되는 경우, 가시성이 떨어질 우려가 있으므로 이들 객체들을 어떤 메타포어에 대응하도록 그룹핑하고, 메타포어를 선택하면 그 메타포어 내의 객체들만이 선별적으로 디스플레이될 수 있다. 이 때 하나의 객체는 하나의 메타포어에만 대응할 필요는 없고, 의미 상 연관성이 있으면 둘 이상의 메타포어에 동시에 속할 수도 있다.
메타포어는 다수 객체를 포함하는 그룹인데, 시각화 과정에서는 다수 노드의 네트워크 그래프에 대한 그룹으로 표현될 수도 있다. 이 때, 메타포어는 해당 네트워크 그래프 그룹의 의미에 대한 직관적인 느낌을 전달하기 위하여 선택되는 것으로, 그림, 캐릭터, 널리 알려진 도형, 널리 알려진 영화의 장면 등이 채용될 수 있다.
메타포어는 표현요소(감정어휘, 의견을 반영하는 어휘 등)의 의미에 따라서 계층적으로 설정할 수도 있다. 즉, 상위의 개념을 반영하는 메타포어와 그보다 하위의 개념을 반영하는 메타포어가 존재할 수 있으며, 이 때 사용자는 상위 개념의 메타포어를 탐색한 뒤 세부적으로 하위의 개념을 반영하는 메타포어를 선택하여 객체의 수를 선별적으로 줄여나갈 수 있다.
도 8에서는 메타포어를 통하여 사용자에게 객체의 수를 제한하여 디스플레이하는 과정이 도시되었지만, 본 발명의 사상은 여기에 국한되지 않는다. 예를 들어, 메타포어 대신에 사용자의 검색 결과에 따라서 디스플레이되는 노드의 범위를 제한하는 기법도 가능하다.
도 9 내지 도 10은 본 발명의 일 실시예에 따른 레퍼런스 의미지도와 결합된 네트워크 그래프의 노드들을 나타낸 도면이다.
도 9는 도 6에 도시된 300개의 영화를 대상으로 나타나는 네트워크 그래프와 레퍼런스 의미지도를 연결하였을 때 나타나는 최종 네트워크 그래프의 형태를 나타낸 것이다.
도 10은 도 7에 도시된 400개의 영화를 대상으로 나타나는 네트워크 그래프와 레퍼런스 의미지도를 연결하였을 때 나타나는 최종 네트워크 그래프의 형태를 나타낸 것이다.
이와 같이 대상 데이터(영화)가 증가함에 따라 네트워크 그래프는 복잡해질 수 있지만 색상으로 구분이 가능한 같은 속성을 가진 노드가 항상 감정어휘상 비슷한 지점에 위치하게 됨으로써 그래프의 분석이 더욱 편리해질 수 있다.
도 11은 본 발명의 일 실시예에 따른 객체에 대한 속성값들에 대한 데이터를 시각화 하는 방법을 나타낸 순서도이다.
하나의 객체에 대한 속성값들을 레퍼런스 의미지도(Semantic Map)와 결합하여 시각화 하는 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하고(S1110), 추출된 속성값을, 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 레퍼런스 맵을 기준으로 하여 배치한다(S1120).
이때, 레퍼런스 맵은 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되며, 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성될 수 있으며, 의미 거리는 도 5에서 설명한 것처럼 속성값마다의 특성에 따라 정해지게 된다.
또한, 객체는 평가 및 의견을 제시할 대상을 의미하며, 속성값은 표현요소, 감정어휘, 표현어휘, 평가어휘, 가치의견 등 사람의 감정을 나타내는 단어, 문단, 문장 등과 같은 글씨와 캐릭터, 이모티콘 등의 이미지를 모두 포함한다.
이후, 객체로부터 추출된 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 객체로부터 추출된 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화 한다(S1130). 즉, 네트워크 그래프는 하나의 객체에서 추출된 속성값들을 연결하게 된다.
이때, 네트워크 그래프는 래퍼런스 맵의 의미 거리에 기반하여 배치된 모양 또는 속성값들의 빈도수에 따라 이미지를 삽입하여 시각화할 수도 있다.
예를 들어, 속성값들의 분포가 래퍼런스 맵에서 긍정적이고 동적인 의미를 가지는 위치에 집중되어 있는 경우, 긍정적이고 동적인 이미지를 가지는 캐릭터, 자연환경, 별자리 등의 이미지(메타포어)를 삽입하여 사용자에게 제공할 수도 있다.
이에 따라, 사용자는 제공받은 이미지만으로도 객체에 대한 정보를 획득할 수도 있으며, 사용자가 이미지를 선택하는 경우, 세부적인 계층화된(hierarchical) 네트워크 그래프 및 각각 하나의 노드에 대응되는 속성값에 대한 정보를 제공받을 수도 있으며, 또는 전체적인 이미지 안에 계층화된 세부적인 이미지를 사용자에게 제공할 수도 있다. 예를 들어, 긍정적이고 동적인 이미지를 사용자가 선택하는 경우, 세부적으로 계층화된 긍정적인 이미지와 동적인 이미지(메타포어)를 각각 사용자에게 제공할 수도 있다.
도 12는 본 발명의 일 실시예에 따른 객체의 위치를 결정하여 시각화 하는 방법을 나타낸 순서도이다.
2차원 의미지도(레퍼런스 맵) 대비 속성값의 위치 및 의미 거리 기반으로 객체의 위치를 결정하여 시각화 하는 방법은 객체에 대하여 적어도 하나 이상의 속성값을 추출하고(S1210), 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치한다(S1220). 이후, 객체의 위치를 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정한다(S1230).
이후, 복수의 객체들 각각을 하나의 노드에 대응시키고, 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화한다(S1240). 즉, 네트워크 그래프는 동일한 속성값을 가지고 있는 객체들을 연결하게 된다.
이때, 네트워크 그래프는 래퍼런스 맵의 의미 거리에 기반하여 배치된 모양 또는 속성값들의 빈도수에 따라 이미지를 삽입하여 시각화할 수도 있다.
이에 따라, 사용자는 제공받은 이미지만으로도 객체에 대한 정보를 획득할 수도 있으며, 사용자가 이미지를 선택하는 경우, 세부적인 네트워크 그래프 및 각각 하나의 노드에 대응되는 속성값에 대한 정보를 제공받을 수도 있으며, 또는 전체적인 이미지 안에 세부적인 이미지를 사용자에게 제공할 수도 있다. 예를 들어, 긍정적이고 동적인 이미지를 사용자가 선택하는 경우, 세부적으로 긍정적인 이미지와 동적인 이미지를 각각 사용자에게 제공할 수도 있다.
또한, 레퍼런스 맵은 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되며, 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성될 수 있으며, 의미 거리는 도 5에서 설명한 것처럼 속성값마다의 특성에 따라 정해지게 된다.
도 13은 본 발명의 일 실시예에 따른 객체의 위치를 속성값 각각의 가중치에 기반한 거리를 반영하여 결정하는 단계를 보다 상세하게 나타낸 도면이다.
객체의 위치를 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정할 때(S1230), 객체에 대하여 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하고(S1231), 계수된 빈도수를 반영하여 속성값 각각과의 가중치를 결정한다(S1232).
이에 따라, 래퍼런스 맵에서 의미거리를 기반으로 네트워크 그래프를 생성할 때, 속성값들의 빈도수에 따라 객체의 위치를 결정할 수 있다. 예를 들어, 객체에 대한 속성값들의 빈도수가 레퍼런스 맵에서 긍정적인 부분의 빈도수가 높으면, 객체의 위치는 긍정적인 부분으로 결정할 수 있다.
도 14는 본 발명의 일 실시예에 따른 속성값을 추출하는 단계를 보다 상세하게 나타낸 순서도이다.
객체에 대하여 적어도 하나 이상의 속성값을 추출할 때(S1110, S1210), 객체에 대한 코멘트 데이터를 수집하고(S1410), 수집된 코멘트 데이터에서 적어도 하나 이상의 속성값을 추출한다(S1420).
이때, 속성값을 코멘트 데이터의 음절/형태소/단어가 하나인 유니그램(Unigram) 또는 음절/형태소/단어가 2개인 바이그램(Bigram) 방식으로 추출할 수도 있으며, 마찬가지로 음절/형태소/단어가 3개인 트라이그램(Trigram) 방식으로 추출할 수도 있다. 이처럼 속성값을 코멘트 데이터로부터 추출하는 과정에서는 자연어 처리 알고리즘을 활용할 수도 있다.
이때, 객체는 사용자가 선택한 영화, 상품, 소설, 게임, 여행 등 사람의 감정이 포함되는 객체를 의미하며, 사람의 감정이 포함되는 객체에 대한 코멘트 또는 리뷰를 코멘트 데이터라고 한다.
코멘트 데이터는 사용자에 따라서 구축된 웹 서비스 통해 수집된 데이터를 이용할 수 있으며, 또는 대형 포털 및 동호회 게시판에 축적되는 코멘트 데이터를 프로그램을 이용하여 개별적으로 수집할 수도 있다.
본 발명의 일 실시예로서, 객체(영화)에 대한 코멘트 데이터로부터 사용자의 감정을 포함하고 있는 감정어휘 수집을 자동화하기 위하여 데이터를 수집할 수 있는 웹 크롤러를 이용할 수 있으며, 크롤러는 대형 포털(네이버, 다음 등) 영화 홈페이지에서 특정 영화의 댓글과 코멘트들을 정제되지 않은 데이터 형태로 수집하고, 수집된 데이터를 연구에 사용 가능한 데이터로 가공할 수 있으며, 정제된 데이터를 분석하여 감정어휘를 추출할 수 있다. 이에 따라 크롤러를 통하여 수집되는 감정어휘는 영화를 보는 상황과 연결시켜 추후에 사용자의 이용 동기에 맞는 영화를 추천할 수도 있다.
도 15는 본 발명의 일 실시예에 따른 데이터를 시각화 하는 시스템을 나타내는 도면이다.
데이터 시각화 시스템(1500)은 하나의 객체에 대한 속성값들을 레퍼런스 의미지도와 결합하여 시각화 할 수도 있으며, 레퍼런스 의미지도 대비 속성값의 위치 및 의미 거리 기반으로 객체의 위치를 결정하여 시각화 할 수도 있다.
이러한 데이터 시각화 시스템(1500)은 코멘트 데이터 수집부(1510), 속성값 추출부(1520), 속성값 배치부(1530), 위치 결정부(1540), 네트워크 그래프 생성부(1550)를 포함한다.
코멘트 수집부(1510)는 객체에 대한 코멘트 데이터를 수집하고, 속성값 추출부(1520)는 수집된 코멘트 데이터에서 적어도 하나 이상의 속성값을 추출한다.
이때, 속성값을 코멘트 데이터의 음절이 하나인 유니그램(Unigram) 또는 음절이 2개인 바이그램(Bigram) 방식으로 추출할 수도 있으며, 음절이 3개인 트라이그램(Trigram) 방식으로 추출할 수도 있다.
이때, 객체는 사용자가 선택한 영화, 상품, 소설, 게임, 여행 등 사람의 감정이 포함되는 객체를 의미하며, 사람의 감정이 포함되는 객체에 대한 코멘트 또는 리뷰를 코멘트 데이터라고 한다.
코멘트 데이터는 사용자에 따라서 구축된 웹 서비스 통해 수집된 데이터를 이용할 수 있으며, 또는 대형 포털 및 동호회 게시판에 축적되는 코멘트 데이터를 프로그램을 이용하여 개별적으로 수집할 수도 있다.
본 발명의 일 실시예로서, 객체(영화)에 대한 코멘트 데이터로부터 사용자의 감정을 포함하고 있는 감정어휘 수집을 자동화하기 위하여 데이터를 수집할 수 있는 웹 크롤러를 이용할 수 있으며, 크롤러는 대형 포털(네이버, 다음 등) 영화 홈페이지에서 특정 영화의 댓글과 코멘트들을 정제되지 않은 데이터 형태로 수집하고, 수집된 데이터를 연구에 사용 가능한 데이터로 가공할 수 있으며, 정제된 데이터를 분석하여 감정어휘를 추출할 수 있다. 이에 따라 크롤러를 통하여 수집되는 감정어휘는 영화를 보는 상황과 연결시켜 추후에 사용자의 이용 동기에 맞는 영화를 추천할 수도 있다.
데이터 시각화 시스템(1500)이 하나의 객체에 대한 속성값들을 레퍼런스 의미지도(Semantic Map)와 결합하여 시각화 하는 경우, 속성값 추출부(1520)는 객체에 대하여 적어도 하나 이상의 속성값을 추출하고, 속성값 배치부(1530)는 추출된 속성값을, 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 레퍼런스 맵을 기준으로 하여 배치한다.
이후, 네트워크 그래프 생성부(1550)는 객체로부터 추출된 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 객체로부터 추출된 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화 한다. 즉, 네트워크 그래프는 하나의 객체에서 추출된 속성값들을 연결하게 된다.
데이터 시각화 시스템(1500)이 레퍼런스 의미지도(레퍼런스 맵) 대비 속성값의 위치 및 의미 거리 기반으로 객체의 위치를 결정하여 시각화 하는 경우,
속성값 추출부(1520)는 객체에 대하여 적어도 하나 이상의 속성값을 추출하고, 속성값 배치부(1530)는 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치한다. 이후, 위치 결정부(1540)는 객체의 위치를 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정한다.
이후, 네트워크 그래프 생성부(1550)는 복수의 객체들 각각을 하나의 노드에 대응시키고, 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화한다(S1240). 즉, 네트워크 그래프는 동일한 속성값을 가지고 있는 객체들을 연결하게 된다.
이때, 레퍼런스 맵은 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되며, 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성될 수 있으며, 의미 거리는 도 5에서 설명한 것처럼 속성값마다의 특성에 따라 정해지게 된다.
또한, 객체는 평가 및 의견을 제시할 대상을 의미하며, 속성값은 표현요소, 감정어휘, 표현어휘, 평가어휘, 가치의견 등 사람의 감정을 나타내는 단어, 문단, 문장등과 같은 글씨와 캐릭터, 이모티콘 등의 이미지를 모두 포함한다.
이때, 네트워크 그래프는 래퍼런스 맵의 의미 거리에 기반하여 배치된 모양 또는 속성값들의 빈도수에 따라 이미지를 삽입하여 시각화할 수도 있다.
예를 들어, 속성값들의 분포가 래퍼런스 맵에서 긍정적이고 동적인 의미를 가지는 위치에 집중되어 있는 경우, 긍정적이고 동적인 이미지를 가지는 캐릭터, 자연환경, 별자리 등의 이미지를 삽입하여 사용자에게 제공할 수도 있다.
이에 따라, 사용자는 제공받은 이미지만으로도 객체에 대한 정보를 획득할 수도 있으며, 사용자가 이미지를 선택하는 경우, 세부적인 네트워크 그래프 및 각각 하나의 노드에 대응되는 속성값에 대한 정보를 제공받을 수도 있으며, 또는 전체적인 이미지 안에 세부적인 이미지를 사용자에게 제공할 수도 있다. 예를 들어, 긍정적이고 동적인 이미지를 사용자가 선택하는 경우, 세부적으로 긍정적인 이미지와 동적인 이미지를 각각 사용자에게 제공할 수도 있다.
도 16은 본 발명의 일 실시예에 따른 위치 결정부를 보다 상세하게 나타낸 도면이다.
위치 결정부(1540)는 빈도수 계수부(1541)와 가중치 결정부(1542)를 포함한다. 빈도수 계수부(1541)는 객체에 대하여 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하고, 가중치 결정부(1542)는 계수된 빈도수를 반영하여 속성값 각각과의 가중치를 결정한다.
이에 따라, 래퍼런스 맵에서 의미거리를 기반으로 네트워크 그래프를 생성할 때, 속성값들의 빈도수에 따라 객체의 위치를 결정할 수 있다. 예를 들어, 객체에 대한 속성값들의 빈도수가 레퍼런스 맵에서 긍정적인 부분의 빈도수가 높으면, 객체의 위치는 '긍정적인 부분'으로 결정할 수 있다.
본 발명의 상술한 실시예에 따르면, 하나의 대표적인 표현요소에 대응하는 메타포어, 그리고 그 메타포어에 대응하는 객체들 각각이 의미지도 상에서 의미 거리에 기반하여 위치된다. 이렇게 시각화된 의미지도는 각 객체들 간의 유사성 뿐만 아니라 각 객체들 간의 미묘한 차이점도 반영하여, 사용자가 직관적으로 인식할 수 있도록 한다. 이 때 사용자는 상위 개념의 메타포어 또는 검색 메뉴를 이용하여 원하는 객체 범위를 특정하고, 계층화된(hierarchical) 하위 개념의 메타포어 또는 검색 메뉴를 이용하여 시각화되는 객체의 범위를 좁혀 나갈 수 있다. 이 때, 사용자가 하나의 노드를 선택하는 경우 하나의 노드(객체)에 대응하는 표현요소들이 상세하게 시각화될 수도 있다. 이 때 하나의 노드에 대응하는 표현요소라 함은, 하나의 노드(콘텐츠) 내에 포함되는 표현요소들일 수도 있고, 노드(콘텐츠)에 대한 사용자 리뷰 내에 포함되는 표현요소들일 수도 있다. 또한, 복수의 노드들을 선택하여, 각 선택된 노드들에 대응하는 표현요소들이 상세하게 시각화될 수도 있으며, 선택된 노드에 대응하는 표현요소들을 하나의 집합으로 간주한다면, 선택된 노드들 간의 집합 연산(교집합, 합집합, 차집합)을 통하여 도출된 표현요소들이 시각화될 수도 있다.
또한 객체에 대응하는 표현요소의 분포가 변화하는 경우, 이를 반영하여 각 객체의 위치가 재조정될 수 있으며, 신규한 표현요소가 추가되는 경우에도 re-draw될 수 있다. 이 같은 변화는 실시간적으로 반영될 수도 있으며, 주기적으로 반영될 수도 있고, 사용자가 미리 설정한 조건에 따라 반영될 수도 있고, 사용자의 명령이 입력되었을 때에 인터랙티브하게 반영될 수도 있다.
또한 본 발명의 또 다른 실시예에서는 시간에 따른 변화를 시계열적인 버전(레이어)으로 관리할 수도 있으며, 이 경우에는 시간에 따른 변화가 비교되어 시각화될 수도 있고, 최근 신규하게 등장하였거나 최근 집중적으로 참조된 객체 또는 최근 집중적으로 증가하였거나 신규하게 등장한 표현요소를 반영하여 시각화될 수도 있다. 이 때 시계열적으로 관심 노드의 의미 지도 상의 위치 이동을 시각화하는 메뉴가 제공될 수도 있다.
한편 본 발명의 또 다른 실시예에서는, 이처럼 시각화된 이후에 사용자가 특정 객체에 대한 선택을 통하여 이차적인 액션, 즉, 구매 또는 광고의 관람을 선택할 수 있는 메뉴를 추가적으로 제공할 수 있다. 예를 들어, 특정 영화를 선택한 경우에는 VOD 서비스 메뉴가 추가적으로 제공되거나, 상품의 경우에는 구매 버튼 또는 구매 사이트로 연결되는 윈도우가 디스플레이될 수 있다. 즉, 특정 객체의 선택으로 인하여 광고 링크로 연결되거나, 직접 구매를 선택할 수 있는 메뉴가 제공될 수 있다.
본 발명의 일 실시 예에 따른 데이터 시각화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.
본 발명은 객체에 대한 속성값(노드)들을 레퍼런스 의미지도와 결합하여 시각화하는 방법 및 시스템에 관한 기술로, 보다 상세하게는 객체에 대한 속성값에 대한 네트워크 그래프와 미리 저장된 레퍼런스 의미지도를 결합하여, 네트워크를 이루는 속성값의 위치 및 의미 거리 기반으로 객체의 위치를 결정하여 시각화하는 기술에 관한 것이다.
본 발명은 동일한 속성값을 가지고 있는 객체들에 대한 네트워크 그래프와 2차원 의미지도를 결합하여 레퍼런스 의미지도 대비 속성값의 위치 및 의미 거리 기반으로 객체들의 위치를 결정하여 시각화 하는 것을 목적으로 한다.

Claims (16)

  1. 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계; 및
    상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 단계;
    를 포함하고,
    상기 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하는 데이터 시각화 방법.
  2. 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 단계;
    상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 단계; 및
    상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 단계
    를 포함하고,
    상기 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하는 데이터 시각화 방법.
  3. 제1항에 있어서,
    상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계
    를 더 포함하는 데이터 시각화 방법.
  4. 제2항에 있어서,
    복수의 객체들 각각에 대하여 상기 적어도 하나 이상의 속성값을 추출하는 단계, 상기 추출된 하나 이상의 속성값 각각을 배치하는 단계, 및 상기 상기 객체의 위치를 결정하는 단계를 실행한 후,
    상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 단계
    를 더 포함하는 데이터 시각화 방법.
  5. 제2항에 있어서,
    상기 객체의 위치를 결정하는 단계는
    상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 단계; 및
    상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 단계
    를 포함하는 데이터 시각화 방법.
  6. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 속성값을 추출하는 단계는
    상기 객체에 대한 코멘트 데이터를 수집하는 단계; 및
    상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계;
    를 포함하는 것을 특징으로 하는 데이터 시각화 방법.
  7. 제6항에 있어서,
    상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 단계는
    상기 속성값을 유니그램 또는 바이그램 방식으로 추출하는 것을 특징으로 하는 데이터 시각화 방법.
  8. 제1항 또는 제2항 중 어느 한 항에 있어서,
    상기 레퍼런스 맵은 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되는 것을 특징으로 하는 데이터 시각화 방법.
  9. 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부; 및
    상기 추출된 속성값을, 상기 추출된 속성값들 간의 의미 거리 기반으로, 미리 설정된 래퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부;
    를 포함하고,
    상기 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하는 데이터 시각화 시스템.
  10. 객체에 대하여 적어도 하나 이상의 속성값을 추출하는 속성값 추출부;
    상기 추출된 하나 이상의 속성값 각각을 미리 결정된 레퍼런스 맵을 기준으로 하여 배치하는 속성값 배치부; 및
    상기 객체의 위치를 상기 배치된 하나 이상의 속성값 각각과의 가중치에 기반한 거리를 반영하여 결정하는 위치 결정부;
    를 포함하고,
    상기 래퍼런스 맵은 미리 설정된 복수의 속성값들 간의 의미 거리에 기반하여 형성된 것을 특징으로 하는 데이터 시각화 시스템.
  11. 제9항에 있어서,
    상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각을 하나의 노드에 대응시키고, 상기 객체로부터 추출된 상기 하나 이상의 속성값들 각각에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부;
    를 더 포함하는 데이터 시각화 시스템.
  12. 제10항에 있어서,
    상기 복수의 객체들 각각을 하나의 노드에 대응시키고, 상기 복수의 객체들 중 기준 속성값이 공통적으로 추출된 객체들에 대응하는 노드를 아크(arc)로 연결하여 네트워크 그래프를 시각화하는 네트워크 그래프 생성부;
    를 더 포함하는 데이터 시각화 시스템.
  13. 제10항에 있어서,
    상기 위치 결정부는,
    상기 객체에 대하여 상기 적어도 하나 이상의 속성값이 추출되는 빈도수를 계수하는 빈도수 계수부; 및
    상기 계수된 빈도수를 반영하여 상기 속성값 각각과의 가중치를 결정하는 가중치 결정부
    를 포함하는 데이터 시각화 시스템.
  14. 제9항 또는 제10항 중 어느 한 항에 있어서,
    상기 객체에 대한 코멘트 데이터를 수집하는 코멘트 데이터 수집부;
    를 더 포함하고,
    상기 속성값 추출부는
    상기 수집된 코멘트 데이터에서 상기 적어도 하나 이상의 속성값을 추출하는 것을 특징으로 하는 데이터 시각화 방법.
  15. 제14항에 있어서,
    상기 속성값 추출부는,
    상기 속성값을 유니그램 또는 바이그램 방식으로 추출하는 것을 특징으로 하는 데이터 시각화 시스템.
  16. 제9항 또는 제10항 중 어느 한 항에 있어서,
    상기 레퍼런스 맵은 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용하여 형성되는 것을 특징으로 하는 데이터 시각화 시스템.
PCT/KR2015/011865 2014-11-06 2015-11-05 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템 WO2016072772A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140153744A KR101794137B1 (ko) 2014-11-06 2014-11-06 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
KR10-2014-0153744 2014-11-06

Publications (1)

Publication Number Publication Date
WO2016072772A1 true WO2016072772A1 (ko) 2016-05-12

Family

ID=55909414

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/011865 WO2016072772A1 (ko) 2014-11-06 2015-11-05 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템

Country Status (2)

Country Link
KR (1) KR101794137B1 (ko)
WO (1) WO2016072772A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189193A (zh) * 2023-04-25 2023-05-30 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101853594B1 (ko) * 2016-11-11 2018-06-14 이정화 음가 조합 기반의 외국어 학습 시스템
CN108255897B (zh) * 2017-02-17 2020-07-21 平安科技(深圳)有限公司 可视化图表数据转换处理方法和装置

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043342A (ko) * 2004-03-02 2006-05-15 마이크로소프트 코포레이션 그래프-기반 랭킹을 사용하여 텍스트의 단어와 개념을 랭킹하는 방법 및 시스템
JP2007157126A (ja) * 2005-11-08 2007-06-21 Kao Corp 快適感評価システム
KR20090068803A (ko) * 2007-12-24 2009-06-29 한성주 콘텐트에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20060043342A (ko) * 2004-03-02 2006-05-15 마이크로소프트 코포레이션 그래프-기반 랭킹을 사용하여 텍스트의 단어와 개념을 랭킹하는 방법 및 시스템
JP2007157126A (ja) * 2005-11-08 2007-06-21 Kao Corp 快適感評価システム
KR20090068803A (ko) * 2007-12-24 2009-06-29 한성주 콘텐트에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템
KR20130103249A (ko) * 2012-03-09 2013-09-23 가톨릭대학교 산학협력단 컨텍스트 정보를 이용한 다중 문장으로부터의 감정 분류 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
LEE, GYEONG WON: "Visualization of movie recommender systems using emotion vocabulary distribution map according to situations", 2012 RESULT REPORT OF BASIC STUDY SUPPORT BUSINESS FOR HUMANITIES AND SOCIAL SCIENCES (SINGLE SUBJECT RESEARCH, April 2014 (2014-04-01) *

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116189193A (zh) * 2023-04-25 2023-05-30 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置
CN116189193B (zh) * 2023-04-25 2023-11-10 杭州镭湖科技有限公司 一种基于样本信息的数据存储可视化方法和装置

Also Published As

Publication number Publication date
KR20160054309A (ko) 2016-05-16
KR101794137B1 (ko) 2017-11-06

Similar Documents

Publication Publication Date Title
US10409903B2 (en) Unknown word predictor and content-integrated translator
US9514216B2 (en) Automatic classification of segmented portions of web pages
US8972440B2 (en) Method and process for semantic or faceted search over unstructured and annotated data
US9594730B2 (en) Annotating HTML segments with functional labels
WO2012070840A2 (ko) 컨센서스 검색 장치 및 방법
Müller-Budack et al. Multimodal analytics for real-world news using measures of cross-modal entity consistency
KR20100047221A (ko) 사전 단어 및 어구 판정
JP2009048441A (ja) 情報検索システム及び方法及びプログラム並びに情報検索サービス提供方法
WO2011065630A1 (ko) 연구자의 연구정보 분석 장치 및 그 방법 그리고 방법에 관한 컴퓨터가 실행할 수 있는 프로그램을 기록한 컴퓨터로 읽을 수 있는 기록매체
US20110231448A1 (en) Device and method for generating opinion pairs having sentiment orientation based impact relations
WO2016072772A1 (ko) 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
Kisilevich et al. “Beautiful picture of an ugly place”. Exploring photo collections using opinion and sentiment analysis of user comments
WO2015080371A1 (en) Image search system and method
Paroubek et al. Annotations for Opinion Mining Evaluation in the Industrial Context of the DOXA project.
Stoffel et al. Interactive ambiguity resolution of named entities in fictional literature
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2016072769A2 (ko) 객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
CN114722174A (zh) 提词方法和装置、电子设备及存储介质
JPH08235198A (ja) マルチメディア情報管理システム
KR20160145132A (ko) 카툰 검색 방법 및 장치
KR100844949B1 (ko) 동영상 검색 시스템
JP2005352817A (ja) 情報処理システム及び情報処理方法、並びにコンピュータ・プログラム
WO2019103220A1 (ko) 시각화 내비게이션 방식의 법률 정보 서비스 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15856975

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15856975

Country of ref document: EP

Kind code of ref document: A1