WO2016072769A2 - Method and system for visualizing data using comment data of object - Google Patents

Method and system for visualizing data using comment data of object Download PDF

Info

Publication number
WO2016072769A2
WO2016072769A2 PCT/KR2015/011861 KR2015011861W WO2016072769A2 WO 2016072769 A2 WO2016072769 A2 WO 2016072769A2 KR 2015011861 W KR2015011861 W KR 2015011861W WO 2016072769 A2 WO2016072769 A2 WO 2016072769A2
Authority
WO
WIPO (PCT)
Prior art keywords
extracted
frequency
expression
expression element
elements
Prior art date
Application number
PCT/KR2015/011861
Other languages
French (fr)
Korean (ko)
Other versions
WO2016072769A3 (en
Inventor
이경원
김기남
하효지
Original Assignee
아주대학교산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 아주대학교산학협력단 filed Critical 아주대학교산학협력단
Publication of WO2016072769A2 publication Critical patent/WO2016072769A2/en
Publication of WO2016072769A3 publication Critical patent/WO2016072769A3/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/14Digital output to display device ; Cooperation and interconnection of the display device with other functional units
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions

Definitions

  • the present invention relates to a data visualization method and system using comment data of an object, and more particularly, to a technology for visualizing elements expressing emotions or opinions of a user or a consumer.
  • the present invention is derived from a study conducted as part of the Humanities and Social Foundations research project of the Ministry of Education and the Korea Research Foundation. [Task Management Number: S-2013-A0403-00010, Title: Movie Recommendation Using Situational Vocabulary Distribution Map Visualization of the system].
  • users who consume content such as movies, music, literary works, etc., or use the goods or services comment on reviews or emotions that use the content, goods, or services (hereinafter referred to as "objects").
  • objects users who have not used the object or want to get information about the object get information by referring to comments left by users who have used the object in advance.
  • the user wants to obtain information about the object. Since the comment data about the object is configured based on text, there is a problem that it takes a long time for the user to obtain information about the object by referring to the comment data. In particular, when the amount of comment data for an object is enormous, a large number of users leave a comment, or when the comment data accumulates for a long time, a considerable effort is required only by the user reading the contents of the comment data.
  • the prior art is a search method that collects comments on various contents on the Internet to create a search database (hereinafter referred to as a DB) and shows an objective and reliable ranking results for emotional queries using the search DB. And to provide a system.
  • a search database hereinafter referred to as a DB
  • it is a technique to adjust the recommendation priority of an object by reflecting the frequency of the emotional words appearing in the comments for the query containing the emotional words.
  • the present invention is derived to solve the problems of the prior art as described above, the existing object information by visualizing elements expressing the user's feelings or opinions appearing in the existing user comments on the object (content, goods or services) It aims to provide information that can be used as a basis for object selection to users who want to newly use the object by analyzing the emotions or opinions that the user uses and expresses the object, as well as objective information such as the production company and price provided by the company. .
  • the present invention provides a method and system for intuitively visualizing the overall distribution of emotions or opinions expressed on an object by visualizing a plurality of elements expressing emotions or opinions on an object based on a semantic distance.
  • the purpose is to provide.
  • the present invention may visualize the emotions or opinions that are representatively expressed for one object, but by visualizing the plurality of expression elements based on relative semantic distance, the relative between the plurality of expression elements expressed for the object It is an object to provide a means for intuitively recognizing distances and distributions.
  • the present invention is not limited to the text, it is an object of the present invention to provide a means for visualizing the distribution based on the meaning distance by reflecting all the various non-verbal elements that can express emotions or opinions, such as emoticons and icons.
  • it can also provide a means to visualize in one frame covering opinions or feelings expressed in various foreign languages.
  • the present invention calculates the frequency of the expression elements expressing each emotion or opinion in the comment data that can be obtained through various paths, for example, collected on the website, so that the results can be easily understood. It is intended to provide a graph.
  • a method of visualizing an expression element comprises the steps of extracting a plurality of expression elements from the collected comment data for the object selected by the user and the extraction And visualizing the extracted plurality of presentation elements based on a distribution based on a semantic distance between the plurality of presentation elements.
  • the method may further include measuring a frequency extracted in the comment data of the extracted expression elements, and visualizing the expression elements may visualize the extracted expression elements according to the frequency of the measured expression elements. It is characterized by.
  • comparing the extracted expression elements with previously extracted expression elements and confirming whether a new expression element among the extracted expression elements is added may further include.
  • the visualizing of the expression elements when a new expression element of the extracted expression elements is added, one or more adjacent expressions having a meaning distance from the new expression element among the previously extracted expression elements within a predetermined criterion. Determining an element and determining a semantically position of the new representation element based on the determined semantic distance from the one or more adjacent representation elements.
  • the method may further include, after the extracting the expression elements, measuring the extracted frequency in the comment data of the extracted expression elements, and determining the validity of the extracted expression elements. The step of determining may reflect the measured frequency of the extracted expression element to determine the validity of the extracted expression element.
  • the method may further include determining whether the object is extracted at a predetermined frequency or more from a predetermined number or more.
  • the method may further include measuring a frequency at which the expression elements are extracted and measuring the extracted frequency. And adjusting the measured frequency by weighting the frequency of the measured expression element according to the method, and visualizing the expression elements may include visualizing the expression elements by reflecting the adjusted frequency. It can be characterized.
  • the extracting of the expression elements may include searching for whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance, and if the extracted expression element is not stored in the database, Identifying a standardized representation element in the database that is closest to the representation element as a representative representation element of the extracted representation element, wherein measuring the frequency includes extracting the representation element from the comment data. Summing the frequency extracted from the sum to the frequency extracted by the identified representative expression element in the comment data, and visualizing the expression elements may visualize the representative expression element by reflecting the summed frequency. Can be.
  • the visualizing of the presentation elements may include visualizing the presentation elements against a background of a multi-dimensional scaling map (MDS map) including the presentation elements.
  • MDS map multi-dimensional scaling map
  • a system for visualizing an expression element may include a storage device configured to store comment data on an object selected by a user, and an expression element extractor configured to extract a plurality of expression elements from the stored comment data. And a visualization unit for visualizing the extracted plurality of expression elements based on a distribution based on the semantic distance between the expression elements.
  • the present invention it is possible to intuitively analyze the expression elements felt by users before using the object by confirming the expression elements felt by those who have already used the object using the object through a visualization graph. From the point of view of the user, what kind of feelings people have about the object or the user who selects the object can easily select an object.
  • the present invention can be provided through a web page on the browser without installing a separate program, so that whenever the comment data is updated, the user can be provided with the analysis result in real time without a new data management or distribution procedure.
  • the present invention may intuitively confirm the response of the public opinion to the policy when a government or a public agency announces a policy or a plan and people express their intention through the Internet.
  • an overall distribution of the emotion or opinion expressed with respect to the object may be intuitively provided to the user.
  • the plurality of expression elements may be visualized based on relative semantic distance, thereby intuitively indicating the relative distance and distribution between the plurality of expression elements expressed with respect to the object. Can be recognized.
  • FIG. 1 is a diagram showing an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
  • FIG. 2 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 1.
  • FIG. 3 is a diagram illustrating 36 emotion words that are finally selected from each of the emotion words shown in FIG. 1.
  • FIG. 4 is a diagram illustrating an emotional vocabulary distribution map according to an embodiment of the present invention.
  • 5 to 8 are diagrams illustrating a representation element extracted from comment data of an object in a heat map form according to an embodiment of the present invention.
  • FIG. 9 is a flowchart illustrating a method of visualizing an expression element according to an embodiment of the present invention.
  • FIG. 10 is a flowchart illustrating a method of visualizing a measured element measured according to the frequency of the expressed elements according to an embodiment of the present invention.
  • 11 is a flowchart illustrating whether new vocabulary has been added according to an embodiment of the present invention.
  • FIG. 12 is a flowchart illustrating a case where a new expression element is added according to an embodiment of the present invention.
  • FIG. 13 is a view showing a process of determining the validity of the expression element according to an embodiment of the present invention.
  • FIG. 14 is a view showing a process of determining the criterion of the frequency of the expression element of the validity of the expression element according to an embodiment of the present invention.
  • 15 is a flowchart illustrating a process of determining the validity of expression elements according to an embodiment of the present invention.
  • 16 is a flowchart illustrating a method of controlling the influence of an expression element when a specific expression element is concentrated according to an embodiment of the present invention.
  • FIG. 17 is a flowchart illustrating a method for assigning a weight when a frequency of a specific expression element actually appears in a specific object according to an embodiment of the present invention.
  • FIG. 18 is a flowchart illustrating a method of mapping an expression element to a representation element of a pre-stored standard type and measuring a frequency according to an embodiment of the present invention.
  • FIG. 19 is a diagram illustrating a system for visualizing an expression element according to an embodiment of the present invention.
  • FIG. 20 is a diagram illustrating a system for visualizing a presentation element by identifying a new presentation element according to an embodiment of the present invention.
  • 21 is a diagram illustrating a system for visualizing an expression element by measuring and adjusting a frequency of the expression element according to an embodiment of the present invention.
  • 22 is a view showing in detail the expression element extraction unit according to an embodiment of the present invention.
  • 23 to 27 are views showing different visualization methods according to an embodiment of the present invention.
  • FIG. 28 is a diagram illustrating a three-dimensional application of a heat map visualization method according to an embodiment of the present invention.
  • 29 is a diagram illustrating a representation element visualization method according to an embodiment of the present invention with a contour line.
  • FIG. 30 is a view showing the contour map shown in FIG. 29 in three dimensions.
  • 31 to 33 are diagrams illustrating a utilization method based on a semantic map according to an embodiment of the present invention.
  • a method of visualizing an expression element comprises the steps of extracting a plurality of expression elements from the collected comment data for the object selected by the user and the extraction And visualizing the extracted plurality of presentation elements based on a distribution based on a semantic distance between the plurality of presentation elements.
  • the method may further include measuring a frequency extracted in the comment data of the extracted expression elements, and visualizing the expression elements may visualize the extracted expression elements according to the frequency of the measured expression elements. It is characterized by.
  • comparing the extracted expression elements with previously extracted expression elements and confirming whether a new expression element among the extracted expression elements is added may further include.
  • the visualizing of the expression elements when a new expression element of the extracted expression elements is added, one or more adjacent expressions having a meaning distance from the new expression element among the previously extracted expression elements within a predetermined criterion. Determining an element and determining a semantically position of the new representation element based on the determined semantic distance from the one or more adjacent representation elements.
  • the method may further include, after the extracting the expression elements, measuring the extracted frequency in the comment data of the extracted expression elements, and determining the validity of the extracted expression elements. The step of determining may reflect the measured frequency of the extracted expression element to determine the validity of the extracted expression element.
  • the method may further include determining whether the object is extracted at a predetermined frequency or more from a predetermined number or more.
  • the method may further include measuring a frequency at which the expression elements are extracted and measuring the extracted frequency. And adjusting the measured frequency by weighting the frequency of the measured expression element according to the method, and visualizing the expression elements may include visualizing the expression elements by reflecting the adjusted frequency. It can be characterized.
  • the extracting of the expression elements may include searching for whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance, and if the extracted expression element is not stored in the database, Identifying a standardized representation element in the database that is closest to the representation element as a representative representation element of the extracted representation element, wherein measuring the frequency includes extracting the representation element from the comment data. Summing the frequency extracted from the sum to the frequency extracted by the identified representative expression element in the comment data, and visualizing the expression elements may visualize the representative expression element by reflecting the summed frequency. Can be.
  • the visualizing of the presentation elements may include visualizing the presentation elements against a background of a multi-dimensional scaling map (MDS map) including the presentation elements.
  • MDS map multi-dimensional scaling map
  • a system for visualizing an expression element may include a storage device configured to store comment data on an object selected by a user, and an expression element extractor configured to extract a plurality of expression elements from the stored comment data. And a visualization unit for visualizing the extracted plurality of expression elements based on a distribution based on the semantic distance between the expression elements.
  • FIG. 1 is a diagram showing an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
  • the present invention relates to a visualization method and system using an expression element collected from comment data of an object, and the object refers to an object including emotions of a person, such as a movie, a product, a novel, a game, or a travel, selected by a user.
  • the user can visualize the emotions that appear from comments or reviews of objects that contain human emotions.
  • the object may be described as a visualization method and system using comment data about the movie, limited to the movie.
  • the comment data of the movie may use data collected through a web service constructed according to a user, or the comment data accumulated in a large portal and a fellowship bulletin board may be individually collected using a program.
  • a web crawler that can collect data to automate the collection of emotion vocabulary containing user's emotions from comment data about a movie
  • the crawler may be a large portal (Naver, Daum, etc.).
  • the emotional vocabulary collected through the crawler may be connected to the situation in which the movie is viewed to recommend a movie that meets the user's motivation for use.
  • 1 is a view showing 68 emotional vocabulary suitable for the movie recommendation thus selected.
  • FIG. 2 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 1.
  • FIG. 2 derives the TF-IDF score of each emotional vocabulary appearing in a comment or review of the movie, in order to further remove the emotional vocabulary by comparing the actual movie data with the 68 emotional vocabulary described in FIG. The maximum value of the TF-IDF score which can appear in each emotional vocabulary is shown.
  • TF frequency
  • DF document frequency
  • FIG. 3 is a diagram illustrating 36 emotion words that are finally selected from each of the emotion words shown in FIG. 1.
  • the figure shown in FIG. 2 shows that the ratio of the TF-IDF score is 0.8% or less in all movies in the case of 'Amazement' among the emotional words from which the TF-IDF score is derived. In this case, it means that the ratio of TF-IDF score reaches 42% in at least one film.
  • Figure 3 is a diagram showing the 36 selected emotional vocabulary finally removed the emotional vocabulary of the TF-IDF score is less than 10%.
  • FIG. 4 is a diagram illustrating an emotional vocabulary distribution map according to an embodiment of the present invention.
  • MDS Multi-Dimensional Scaling
  • multidimensional scale analysis is a technique associated with statistics representing relative distances between objects by calculating relative distances between objects, and is a background technique for measuring similarity and dissimilarity in data visualization.
  • the advantage of multidimensional scaling is that it is possible to construct a semantic map of entities that only know relative distances, and to build a semantic map based on psychological distance as well as physical distance.
  • a survey of 36 emotional words was conducted semantically, with a total of 20 subjects including 11 male students and 9 female students in 20 universities in Gyeonggi-do and Seoul.
  • the survey creates a questionnaire with 36 emotional words on the horizontal axis and vertical axis (68x68), and checks using a Likert scale that gives 3 points if the distance between the emotional words is the closest and -3 points if the distance between them is the longest. It consisted of.
  • UCINET program Based on the data recorded by 20 people, we used UCINET program that can utilize various network analysis methods, and accordingly, Metric MDS based on 68 emotional vocabularies selected in the semantic distance between 36 emotional vocabulary words is shown in FIG.
  • the emotional vocabulary related to the representative words “Happy” and “Surprise” were distributed in the positive direction of the X axis, and the representative words “Anger” and “Disgust” in the negative direction of the X axis. Related emotional words were distributed. Emotional vocabulary related to the representative words “Fear” and “Surprise” were distributed in the positive direction of the Y axis, and emotions related to the keywords “Sad” and “Boring” in the negative direction of the Y axis. Vocabulary is distributed.
  • positive emotional vocabularies are distributed in the positive (+) direction on the X axis and negative emotional vocabularies are distributed in the negative (-) direction on the X axis in the nature of the emotional vocabulary.
  • the positive (+) direction of the Y-axis is dynamic (which can take a relatively large gesture when feeling), and the negative (-) direction of the Y-axis is positive (positive when feeling). It can be seen that emotional vocabularies (which can take small gestures) are distributed.
  • each word is clearly clustered.
  • 'Surprise' It can be seen that it is divided into 'Happy' representative cluster and 'Fear' representative cluster. This can be interpreted as dominant when users watch a movie, 'when the emotions are overwhelmed by overwhelming joy' and 'when the emotions are overwhelmed by sudden fears'.
  • 5 to 8 are diagrams illustrating a representation element extracted from comment data of an object in a heat map form according to an embodiment of the present invention.
  • the frequency of the emotional vocabulary constituting the MDS Map is required.
  • the emotional vocabulary frequency in each movie is measured by comparing the comment data and the emotional vocabulary which are selected through the advanced process.
  • the TF-IDF score is calculated and adjusted to lower the weight of certain vocabulary words that appear frequently regardless of the nature of the film. Finally, the TF-IDF score of each selected emotional vocabulary can be visualized.
  • the final visualization graph is based on the MDS Map of the emotional vocabulary and can be represented as a heat-map composed of small square cells.
  • all cells are initialized to a value of 0, and the number of cells increases according to the TF-IDF score of the emotional vocabulary located in the corresponding cell.
  • the color changes to a different color, so that the high and low scores of the corresponding emotional vocabulary TF-IDF score can be confirmed.
  • the cell with the higher value affects the value of surrounding cells, so that the graph becomes a topographical map.
  • FIG. 5 is a graph visualizing the distribution of the emotional vocabulary appearing in the viewers' comment data for the movie 'Sulguk Train'. As shown in FIG. 5, the audience in the movie 'Sulguk Train' shows a fun and great response, and the feeling of being sad and boring also shows a high frequency. In fact, if you look at the comments on the movie about 'Seolguk Train', you can see many reviews from audiences who are disappointed with the movie.
  • FIG. 6 is a diagram visualizing the movie 'Planetary Murder Case' in the form of a heat map, and the highest emotional vocabulary among the emotions of the viewers shown in the horror film 'Planetary Murder Case' is 'surprise'. It can be seen that the frequency of emotional vocabulary related to fear is high.
  • FIG. 7 is a diagram visualizing the movie 'Don Krai Mami' in the form of a heat map, and the distribution of the spectators' emotional vocabulary for 'Don Krai Mami' produced with the actual crime incident is' anger '. It can be seen that the frequency is shown in many ways.
  • FIG. 8 is a view visualizing the movie 'WangNang Sori' in the form of a heat map, and in the case of 'WangNang Sori', the emotions of the audiences are shown to be high in 'Sad' and 'Emotional'.
  • the comment data collected from the comments created after watching a movie corresponds to the genre and story characteristics of the movie, resulting in an emotional vocabulary pattern.
  • the object to which the present invention may be applied includes human emotions, emotions, desires, and attitudes in the emotional part, and includes thoughts, intentions, evaluations, opinions, arguments, and rebuttals in the cognitive part.
  • relations include cultural contents, human relations (communication, conflict), social relations (multiculturalism, etc.), and relations with technology (cultural delays, etc.).
  • FIG. 9 is a flowchart illustrating a method of visualizing an expression element according to an embodiment of the present invention.
  • the method of visualizing an expression element may include extracting a plurality of expression elements from the comment data collected for the object selected by the user (S910), and extracting the plurality of expressions based on a distribution based on the semantic distance between the extracted plurality of expression elements. Visualize the elements (S920).
  • the comment data on the object refers to all comment data including emotions of people, such as reviews on movies, product reviews, novel reviews, game reviews, travel reviews, and services.
  • the expression elements include words, paragraphs, emoticons, and the like that represent the emotions of people extracted from the comment data.
  • a method of visualizing based on a distribution based on a semantic distance between a plurality of presentation elements may be based on a heat map based on a multi-dimensional scaling map (MDS map) described with reference to FIGS. 1 to 4. map) or contour.
  • MDS map multi-dimensional scaling map
  • FIG. 10 is a flowchart illustrating a method of visualizing a measured element measured according to the frequency of the expressed elements according to an embodiment of the present invention.
  • the method of visualizing an expression element may include extracting a plurality of expression elements from the comment data collected for the object selected by the user (S910), and measuring the extracted frequency in the comment data of the extracted expression elements (S930).
  • the plurality of extracted expression elements may be visualized based on a distribution based on a semantic distance between the plurality of expression elements.
  • the shape of a heat map, contours, etc. is extracted based on a multi-dimensional scaling map (MDS map) including the expression elements according to the frequency of the measured expression elements. Can be visualized.
  • MDS map multi-dimensional scaling map
  • the expression elements are extracted and the frequency of the expression elements is measured, if the standardized expression element is not a standard type, the expression elements are mapped to the expression elements of the standard type stored in the dictionary, and each of the expression elements is expressed based on the expression elements of the standard type on the mapped dictionary. You can measure the frequency in the comment data of an object.
  • 11 is a flowchart illustrating whether new vocabulary has been added according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the extracted expression elements are compared with the existing expression elements (S1110). ). Thereafter, whether a new expression element is added among the extracted expression elements is checked (S1120), and the extracted plurality of expression elements are visualized based on a distribution based on a semantic distance between the extracted plurality of expression elements (S920). can do. At this time, the process of finding the meaning of the new expression element may be performed through a technique such as context-based analysis.
  • FIG. 12 is a flowchart illustrating a case where a new expression element is added according to an embodiment of the present invention.
  • the predetermined criterion may be based on the N nearest to the new expression elements among the existing expression elements, or the meaning distance between the new expression elements and the existing expression elements is within r. It may be based on cases.
  • the semantic position of the new expression element is determined based on the determined semantic distances from one or more adjacent expression elements (S923), and the new expression element having the determined position is visualized (S924).
  • the positions may be determined by assigning weights such that the meaning distance between the new expression elements and the adjacent expression elements becomes closer. That is, when the first neighboring expression element is similar to the meaning of a new expression element than the second neighboring expression element, the distance between the new expression element and the first neighboring expression element is the distance between the new expression element and the second neighboring expression element.
  • the position of the new presentation element can be determined to be shorter.
  • the semantic similarity between the expression elements may be obtained through context-based analysis, or may be obtained using various methods such as a questionnaire survey for a large number of people.
  • FIG. 13 is a view showing a process of determining the validity of the expression element according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the validity of the extracted expression element is determined (S1310). In this case, when the extracted expression element is not valid for the object selected by the user, the invalid expression element is removed (S1320).
  • a plurality of expression elements from which invalid expression elements are removed from among the plurality of extracted expression elements may be visualized (S920).
  • the meaning of the expression element is significantly different from other expression elements
  • the frequency of the expression element is markedly less than the reference value, or the expression element expresses specific content. This may include a case where a plurality of contents appear at a constant rate without discrimination (in this case, they may be mechanically repeated promotions or announcements rather than true reviews).
  • FIG. 14 is a view showing a process of determining the criterion of the frequency of the expression element of the validity of the expression element according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency extracted in the comment data of the extracted expression elements is measured ( S1410).
  • the validity of the extracted expression element is determined using the frequency of the expression element (S1310).
  • the invalid expression element is removed (S1320).
  • 15 is a flowchart illustrating a process of determining the validity of expression elements according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the extracted expression element is extracted from an object other than the object selected by the user. Identify (S1510). Then, it is determined whether the extracted expression element is extracted more than a certain frequency from a certain number of objects other than the object selected by the user (S1520), and for the expression element extracted more than a certain frequency from a certain number of objects. The weight is adjusted (S1530). Thereafter, the plurality of extracted expression elements are visualized based on the distribution based on the semantic distance between the extracted expression elements (S920).
  • the presentation elements appear equally without discriminating with respect to all objects (contents), they can be regarded as invalid.
  • 16 is a flowchart illustrating a method of controlling the influence of an expression element when a specific expression element is concentrated according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the expression element is extracted is measured (S1610). Thereafter, the weighted frequency is weighted according to the measured frequency, and the measured frequency is adjusted (S1620). In this case, the expression elements may be visualized by reflecting the adjusted frequency (S920).
  • the influence of the specific expression element may be adjusted by adjusting the weight. That is, when a certain expression element is excessively concentrated, the influence of other expression elements may be excessively underestimated, thereby adjusting the influence of the specific expression element.
  • FIG. 17 is a flowchart illustrating a method for assigning a weight when a frequency of a specific expression element actually appears in a specific object according to an embodiment of the present invention.
  • a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the expression element is extracted from the comment data is measured (S1710). Then, by comparing the frequency in which the expression element appears in the object selected by the user and the measured frequency (S1720), the expression element is extracted according to a result of comparing the frequency of occurrence of the expression element in the object selected by the user with the measured frequency. The measured frequency is adjusted by weighting the frequency (S1730).
  • FIG. 18 is a flowchart illustrating a method of mapping an expression element to a representation element of a pre-stored standard type and measuring a frequency according to an embodiment of the present invention.
  • the frequency represented by the extracted expression element is extracted in the comment data, summed up to the frequency that the identified representative expression element is extracted in the comment data.
  • the representative expression elements are visualized by reflecting the summed frequency.
  • the expression element when it is not a standard type, it is mapped to the expression element of the standard type stored in the emotional vocabulary dictionary (in a pre-stored database), and the comment data of each object is based on the expression element of the standard type in the mapped emotional vocabulary dictionary. Frequency can be measured.
  • FIG. 19 is a diagram illustrating a system for visualizing an expression element according to an embodiment of the present invention.
  • the system 1900 for visualizing an expression element may be, for example, a computing system and includes a storage device 1910 and a processor 1920.
  • the processor 1920 may include an expression element extractor 1930, a frequency measurer 1940, a validity determiner 1950, and a visualization unit 1960.
  • the storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
  • the visualization unit 1960 may visualize the extracted expression elements according to the frequency of the measured expression elements
  • the validity determination unit 1950 may determine the validity of the extracted expression element, and if the extracted expression element is not valid for the object selected by the user, the invalid expression element may be removed.
  • the frequency measuring unit 1940 may identify a frequency at which the expression element extracted by the expression element extractor 1930 is extracted from an object other than the object selected by the user, so that the extracted expression element is different from the object selected by the user. It may be determined whether the object is extracted with a predetermined frequency or more from a predetermined number or more of objects.
  • the comment data on the object refers to all comment data including emotions of people, such as reviews on movies, product reviews, novel reviews, game reviews, travel reviews, and services.
  • the expression elements include words, paragraphs, emoticons, etc., which represent the emotions of people extracted from the comment data, and the multi-dimensional scale analysis described with reference to FIGS. 1 to 4 based on a distribution based on the semantic distance between the plurality of expression elements.
  • MDS map multi-dimensional scaling map
  • FIG. 20 is a diagram illustrating a system for visualizing a presentation element by identifying a new presentation element according to an embodiment of the present invention.
  • the system 1900 for identifying new representations and visualizing the representations includes a storage device 1910 and a processor 1920.
  • the processor 1920 includes an expression element extraction unit 1930, an expression element comparison unit 1970, a new expression element checking unit 1980, and a visualization unit 1960.
  • the storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
  • the expression element comparator 1970 compares the expression elements extracted by the expression element extraction unit 1930 with the existing expression elements, and the new expression element checking unit 1980 is new among the extracted expression elements. Checks whether a presentation element has been added.
  • 21 is a diagram illustrating a system for visualizing an expression element by measuring and adjusting a frequency of the expression element according to an embodiment of the present invention.
  • the system 1900 for visualizing a representation includes a storage device 1910 and a processor 1920.
  • the processor 1920 includes an expression element extraction unit 1930, an expression element comparison unit 1970, a new expression element checking unit 1980, and a visualization unit 1960.
  • the storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
  • the frequency measurer 1940 identifies a frequency at which the expression element extracted by the expression element extractor 1930 is extracted from an object other than the object selected by the user, and the extracted expression element is selected from objects other than the object selected by the user. It may be determined whether or not the object is extracted more than a certain frequency from a certain number of objects.
  • the frequency adjusting unit 1990 may adjust the frequency of the expression element by assigning a weight to the frequency of the expression element according to the frequency of the expression element according to the measured frequency of the expression element.
  • the visualization unit 1960 may visualize the expression elements by reflecting the frequency adjusted by the frequency adjustment unit 1990.
  • the weight may be lowered to control the influence of the expression element.
  • the frequency measuring unit 1940 may measure the frequency at which the expression element is extracted from the stored comment data, and compare the frequency with which the expression element appears in the object selected by the user and the identified frequency.
  • the frequency adjusting unit 1990 According to a result of comparing the frequency of occurrence of the expression element and the identified frequency in the object selected by the user, the frequency of extracting the expression element may be adjusted by weighting the frequency from which the expression element is extracted.
  • 22 is a view showing in detail the expression element extraction unit according to an embodiment of the present invention.
  • the expression element extractor 1930 illustrated in FIGS. 19 to 21 includes an expression element search unit 1931 and an expression element identification unit 1932.
  • the expression element searching unit 1931 searches whether the extracted expression element is stored in the database in which the standardized expression element is stored in advance, and the expression element identification unit 1932 determines whether the extracted expression element is not stored in the database.
  • the standardized presentation elements in the database that are closest to the extracted presentation elements are identified as representative presentation elements of the extracted presentation elements.
  • the frequency measuring unit 1940 adds the extracted frequency of the extracted expression elements in the comment data to the frequency in which the identified representative expression elements are extracted in the comment data, and the visualization unit 1960 adds up the representative expression elements. Visualize the reflected frequency.
  • the expression element when it is not a standard type, it is mapped to the expression element of the standard type stored in the emotional vocabulary dictionary (in a pre-stored database), and in the comment data of each object based on the expression element of the standard type in the mapped emotional vocabulary dictionary.
  • the frequency of can be measured.
  • 23 to 27 are views showing different visualization methods according to an embodiment of the present invention.
  • FIG. 23 is a visualization graph in addition to a heat map form according to an embodiment of the present invention, which is a graph showing the present invention in the form of a scatter plot. In this case, as the frequency increases, the color becomes more red according to the frequency of the expression. Can be. 24 is a graph in the form of Small Multiples.
  • FIG. 25 is a diagram illustrating the present invention in the form of contour lines. In this case, the higher the frequency according to the frequency of the expression vocabulary, the higher the value.
  • FIG. 26 is a diagram of Choropleth Maps. In this case, the present invention may be embodied in a natural topography or a natural shape such as a part of a map, not necessarily in a rectangular form.
  • FIG. 27 is a diagram illustrating the present invention with statistical maps.
  • the expression vocabulary with high frequency is presented to the user.
  • the high frequency expression vocabulary selected by the user may be displayed on the map.
  • FIG. 28 is a diagram illustrating a three-dimensional application of a heat map visualization method according to an embodiment of the present invention.
  • Heat-map visualization described in the present invention is shown on a two-dimensional plane, but can be transformed into a three-dimensional form such as three-dimensional while maintaining the same properties.
  • FIG. 28 is a diagram illustrating a heat-map form described in the present invention in a three-dimensional form.
  • 29 is a diagram illustrating a representation element visualization method according to an embodiment of the present invention with a contour line.
  • 29 is a diagram illustrating two-dimensional contour lines according to the frequency of the expression vocabulary, and the color and size of the contour line may be adjusted according to the frequency of the expression vocabulary.
  • FIG. 30 is a view showing the contour map shown in FIG. 29 in three dimensions.
  • FIG. 30 is a diagram illustrating the two-dimensional contour map illustrated in FIG. 29 as three-dimensional contour lines according to the frequency of the expression vocabulary.
  • the color, height, and size of the contour line may be adjusted according to the frequency of the expression vocabulary.
  • 31 to 33 are diagrams illustrating a utilization method based on a semantic map according to an embodiment of the present invention.
  • FIG. 31 illustrates an embodiment utilizing positioning of a multi-dimensional scaling map (MDS map) used in the present invention, and MDS map positioning is based on conventional positioning using four axes. In comparison, multi-dimensional positioning is possible based on various properties displayed on the MDS map.
  • MDS map multi-dimensional scaling map
  • Audi is located in the same quadrant as BMW, but closer to the future-oriented image.
  • the SM is closer to the relaxed image than the KIA.
  • Positioning using the MDS Map can be used for image positioning of goods, people and characters as shown in Figs.
  • an edit menu by a user or a menu providing a comparative analysis function of two or more objects may be provided.
  • the user may select the first object and the second object to compare the presentation elements in the review for the first object with the presentation elements in the review for the second object.
  • the comparison menu may perform a set operation (set, intersection, difference) between the expression elements in the review for the first object and the expression elements in the review for the second object, and compare the two sets.
  • a re-draw menu may be provided to re-visualize the union or subset.
  • visualization data there may be visualization versions according to two or more time versions (or time layers) according to time series versioning, and the position and properties of nodes change over time. You can also track.
  • the attributes of each node (expression element) according to time may be represented by area, color, etc., and may reflect frequency, concentration, and the like.
  • a heat map may be an example of the same as described above.
  • Expression element visualization method is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium.
  • the computer readable medium may include program instructions, data files, data structures, etc. alone or in combination.
  • Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts.
  • Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks.
  • Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like.
  • the hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
  • the present invention relates to a visualization method and system using expression elements collected from object data. For example, if an object is one piece of content, the consumer who consumes the content is in a comment expressing feelings or opinions about the object. It relates to a technique for visualizing the presentation elements that appear.
  • the present invention is to visually implement the expression element expressing the user's emotion or opinion expressed in the user's comments on the object, as well as the objective information such as the manufacturer, price, etc. provided by the existing object information, as well as the emotion that the user feels by using the object.
  • the expression elements expressing, or opinions information that can be used as a basis for object selection can be provided to a user who wants to use the object newly.

Abstract

The present invention is a technique relating to a method and a system for visualization using expression components which are collected from comment data of an object, and relates to, for example, if the object is a content item, a technique for visualizing expression components which appear in comments, by which consumers consuming the content item express emotion or opinion about the object. The present invention visualizes expression components expressing emotions or opinions of users which appear in user comments on an object, and analyzes not only object information, such as production companies and prices, provided by existing object information, but also expression components which express emotions or opinions which a user has when using the object, whereby the present invention can provide information which can serve as selection criteria to a user who intends to newly use the object.

Description

객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템Data visualization method and system using comment data of object
본 발명은 객체의 코멘트 데이터를 이용한 데이터 시각화 방법 및 시스템에 관한 기술로, 보다 상세하게는 사용자 또는 소비자의 감정 또는 의견이 표현된 요소를 시각화하는 기술에 관한 것이다.The present invention relates to a data visualization method and system using comment data of an object, and more particularly, to a technology for visualizing elements expressing emotions or opinions of a user or a consumer.
본 발명은 교육부 및 한국연구재단의 인문사회기초연구사업의 일환으로 수행한 연구로부터 도출된 것이다[과제관리번호: S-2013-A0403-00010, 과제명: 상황별 감정어휘 분포맵을 이용한 영화추천 시스템의 시각화].The present invention is derived from a study conducted as part of the Humanities and Social Foundations research project of the Ministry of Education and the Korea Research Foundation. [Task Management Number: S-2013-A0403-00010, Title: Movie Recommendation Using Situational Vocabulary Distribution Map Visualization of the system].
일반적으로, 영화, 음악, 문학 작품, 등 콘텐츠를 소비하거나, 상품, 또는 서비스를 이용한 사용자들은 콘텐츠, 상품, 또는 서비스(이하 "객체"라 함)를 이용한 감정 또는 의견을 코멘트(리뷰)형식으로 표현하게 되고, 아직 객체를 이용하지 못한 사용자들이나 객체에 대한 정보를 얻고자 하는 사용자들은 객체를 미리 이용해본 사용자들이 남긴 코멘트(리뷰)를 참고하여 정보를 얻게 된다.In general, users who consume content such as movies, music, literary works, etc., or use the goods or services, comment on reviews or emotions that use the content, goods, or services (hereinafter referred to as "objects"). Users who have not used the object or want to get information about the object get information by referring to comments left by users who have used the object in advance.
사용자는 객체에 대한 정보를 얻고자 하는데, 객체에 대한 코멘트 데이터는 텍스트에 기반하여 구성되어 있으므로, 사용자가 코멘트 데이터를 참고하여 객체에 대한 정보를 얻는 데 걸리는 시간이 상당히 길게 소요되는 문제점이 있었다. 특히, 객체에 대한 코멘트 데이터의 양이 방대하거나, 다수의 사용자가 코멘트를 남겼거나, 오랜 시간 동안 코멘트 데이터가 누적된 경우에는 사용자가 코멘트 데이터의 내용을 읽는 것만으로도 상당한 노력이 필요하였다.The user wants to obtain information about the object. Since the comment data about the object is configured based on text, there is a problem that it takes a long time for the user to obtain information about the object by referring to the comment data. In particular, when the amount of comment data for an object is enormous, a large number of users leave a comment, or when the comment data accumulates for a long time, a considerable effort is required only by the user reading the contents of the comment data.
따라서 이러한 문제점에 대응하고자 코멘트 데이터 상의 어휘를 기반으로 하여 코멘트 또는 객체를 검색하고, 사용자로 하여금 코멘트 및 객체에 대한 탐색 시간을 단축하도록 할 수 있는 기술에 대한 연구가 진행되었다. Therefore, in order to cope with such a problem, a research has been conducted on a technology capable of searching for a comment or an object based on the vocabulary in the comment data, and allowing a user to shorten a search time for the comment and the object.
이러한 콘텐츠에 대한 코멘트 정보를 이용하여 콘텐츠를 검색하는 방법의 일 예가 한국등록특허 제10-0917784호 "콘텐츠에 대한 코멘트를 기반으로 한 집단 감성 정보 검색방법 및 시스템"에 기술되어 있다.An example of a method of searching for content using comment information on such content is described in Korean Patent Registration No. 10-0917784, "Method and System for Retrieving Group Emotion Information Based on Comment on Content".
상기 선행기술은 인터넷 상의 각종 콘텐트에 달린 코멘트를 수집하여 검색용 데이터베이스(이하 DB라고 한다)를 작성하고 이 검색용DB를 이용하여 감성적인 질의에 대해 객관적이고 신뢰할 수 있는 순위 결과를 보여 주는 검색 방법 및 시스템을 제공하는데 그 목적이 있다. 특히 감성적인 단어가 포함된 질의에 대하여 감성적인 단어가 코멘트 상에 나타나는 빈도를 반영하여 객체의 추천 우선 순위를 조정하는 기술이다.The prior art is a search method that collects comments on various contents on the Internet to create a search database (hereinafter referred to as a DB) and shows an objective and reliable ranking results for emotional queries using the search DB. And to provide a system. In particular, it is a technique to adjust the recommendation priority of an object by reflecting the frequency of the emotional words appearing in the comments for the query containing the emotional words.
그러나 위의 선행기술은 객체에 대한 코멘트로부터 감성 단어를 검색해 내는 기술에 대해서는 언급하고 있지만, 객체에 대하여 사용자에게 기대되는 전반적인 감정 또는 의견이 효과적으로 도시되는 것은 아니고, 다수의 코멘트가 존재하는 객체가 우선적으로 추천되는 등의 한계가 있다.However, while the above prior art refers to a technique for retrieving emotional words from comments on an object, the overall emotion or opinion expected by the user about the object is not effectively illustrated, and an object having a plurality of comments has priority. It is recommended as a limit.
이는 위의 선행기술이 텍스트 기반의 감정단어 검색을 채택하였기 때문에 생기는 한계로서, 하나의 객체(콘텐츠, 상품 또는 서비스)에 대하여 기대되는 전반적인 감정 또는 의견을 효과적으로 보여줄 수 있는 기술의 개발이 요구된다.This is a limitation caused by the prior art adopting text-based emotional word retrieval, and it is required to develop a technology that can effectively show the overall emotion or opinion expected for one object (content, product or service).
본 발명은 상기와 같은 종래 기술의 문제점을 해결하고자 도출된 것으로서, 객체(콘텐츠, 상품 또는 서비스)에 대하여 기존의 사용자 코멘트에서 나타나는 사용자의 감정 또는 의견이 표현된 요소들을 시각화하는 것으로 기존의 객체 정보가 제공하는 제작회사, 가격 등 객관적인 정보뿐만 아니라 사용자가 객체를 이용하고 표현하는 감정 또는 의견을 분석하여 객체를 새로이 이용하려는 사용자에게 객체 선택의 기준으로 삼을 수 있는 정보를 제공하는 것을 목적으로 한다.The present invention is derived to solve the problems of the prior art as described above, the existing object information by visualizing elements expressing the user's feelings or opinions appearing in the existing user comments on the object (content, goods or services) It aims to provide information that can be used as a basis for object selection to users who want to newly use the object by analyzing the emotions or opinions that the user uses and expresses the object, as well as objective information such as the production company and price provided by the company. .
본 발명은 하나의 객체에 대하여 감정 또는 의견이 표현된 복수의 요소들을 의미 거리(semantic distance) 기반으로 시각화함으로써, 객체에 대하여 표현된 감정 또는 의견의 전체적인 분포를 직관적으로 시각화할 수 있는 방법 및 시스템을 제공하는 것을 목적으로 한다.The present invention provides a method and system for intuitively visualizing the overall distribution of emotions or opinions expressed on an object by visualizing a plurality of elements expressing emotions or opinions on an object based on a semantic distance. The purpose is to provide.
본 발명은 하나의 객체에 대하여 대표적으로 표현된 감정 또는 의견을 시각화할 수도 있지만, 복수의 표현 요소(expression element)들을 상대적인 의미 거리 기반으로 시각화함으로써, 객체에 대하여 표현된 복수의 표현 요소들 간의 상대적인 거리 및 분포를 직관적으로 인식할 수 있는 수단을 제공하는 것을 목적으로 한다.The present invention may visualize the emotions or opinions that are representatively expressed for one object, but by visualizing the plurality of expression elements based on relative semantic distance, the relative between the plurality of expression elements expressed for the object It is an object to provide a means for intuitively recognizing distances and distributions.
또한 본 발명은 텍스트에 한정하지 않고, 이모티콘이나 아이콘 등 감정 또는 의견을 표현할 수 있는 다양한 비언어적 요소를 모두 반영하여 의미 거리 기반의 분포를 시각화할 수 있는 수단을 제공하는 것을 목적으로 한다. 또한, 텍스트라는 제약에서 벗어나 자유로울 수 있기 때문에, 다양한 외국어로 표현된 의견 또는 감정까지도 망라하여 하나의 프레임 안에서 시각화할 수 있는 수단을 제공할 수도 있다.In addition, the present invention is not limited to the text, it is an object of the present invention to provide a means for visualizing the distribution based on the meaning distance by reflecting all the various non-verbal elements that can express emotions or opinions, such as emoticons and icons. In addition, since it can be free from the constraint of text, it can also provide a means to visualize in one frame covering opinions or feelings expressed in various foreign languages.
또한 본 발명은 다양한 경로를 통하여 얻어질 수 있는, 예를 들어, 웹사이트에서 수집할 수 있는 코멘트 데이터에서 각 감정 또는 의견이 표현된 표현요소의 빈도를 계산하여 그 결과를 쉽게 이해할 수 있도록 시각적인 그래프로 제공하는 것을 목적으로 한다.In addition, the present invention calculates the frequency of the expression elements expressing each emotion or opinion in the comment data that can be obtained through various paths, for example, collected on the website, so that the results can be easily understood. It is intended to provide a graph.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 표현요소(expression element)를 시각화 하는 방법은 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하는 단계 및 상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 단계를 포함한다.In order to achieve the above object, a method of visualizing an expression element according to an embodiment of the present invention comprises the steps of extracting a plurality of expression elements from the collected comment data for the object selected by the user and the extraction And visualizing the extracted plurality of presentation elements based on a distribution based on a semantic distance between the plurality of presentation elements.
이때, 상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계를 더 포함하고, 상기 표현요소들을 시각화하는 단계는 상기 추출된 표현요소들을 상기 측정된 표현요소들의 빈도수에 따라 시각화 하는 것을 특징으로 한다.In this case, the method may further include measuring a frequency extracted in the comment data of the extracted expression elements, and visualizing the expression elements may visualize the extracted expression elements according to the frequency of the measured expression elements. It is characterized by.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소들과 기존에 추출된 표현요소들을 비교하는 단계 및 상기 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인하는 단계를 더 포함할 수 있다.Further, after the extracting of the expression elements, comparing the extracted expression elements with previously extracted expression elements and confirming whether a new expression element among the extracted expression elements is added. It may further include.
상기 표현요소들을 시각화하는 단계는 상기 추출된 표현요소들 중 신규한 표현요소가 추가된 경우, 상기 기존에 추출된 표현요소들 중 상기 신규한 표현요소와 의미 거리가 일정 기준 이내인 하나 이상의 인접 표현요소를 결정하는 단계 및 상기 결정된 하나 이상의 인접 표현요소들로부터의 의미 거리에 기반하여 상기 신규한 표현요소의 의미상 위치를 결정하는 단계를 포함한다.In the visualizing of the expression elements, when a new expression element of the extracted expression elements is added, one or more adjacent expressions having a meaning distance from the new expression element among the previously extracted expression elements within a predetermined criterion. Determining an element and determining a semantically position of the new representation element based on the determined semantic distance from the one or more adjacent representation elements.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소의 유효성을 판단하는 단계 및 상기 사용자가 선택한 객체에 대하여 상기 추출된 표현요소가 유효하지 않은 경우, 상기 유효하지 않은 표현요소를 제거하는 단계를 포함할 수 있으며, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계를 더 포함하고, 상기 추출된 표현요소의 유효성을 판단하는 단계는 상기 추출된 표현요소의 측정된 빈도수를 반영하여 상기 추출된 표현요소의 유효성을 판단할 수 있다.In addition, after extracting the expression elements, determining the validity of the extracted expression elements, and if the extracted expression elements are invalid for the object selected by the user, the invalid expression elements are removed. The method may further include, after the extracting the expression elements, measuring the extracted frequency in the comment data of the extracted expression elements, and determining the validity of the extracted expression elements. The step of determining may reflect the measured frequency of the extracted expression element to determine the validity of the extracted expression element.
상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하는 단계, 상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정하는 단계를 더 포함할 수 있으며, 상기 표현요소들을 추출하는 단계 이후에, 상기 표현요소가 추출된 빈도수를 측정하는 단계 및 상기 측정추출 된 빈도수에 따라 상기 측정된 표현 요소의 빈도수에 가중치를 부여하여, 상기 측정된 빈도수를 조정하는 단계를 더 포함하고, 상기 표현요소들을 시각화하는 단계는 상기 조정된 빈도수를 반영하여 상기 표현요소들을 시각화하는 것을 특징으로 할 수 있다.After extracting the expression elements, identifying the frequency with which the extracted expression elements are extracted from an object other than the object selected by the user, wherein the extracted expression elements are among objects other than the object selected by the user The method may further include determining whether the object is extracted at a predetermined frequency or more from a predetermined number or more. After extracting the expression elements, the method may further include measuring a frequency at which the expression elements are extracted and measuring the extracted frequency. And adjusting the measured frequency by weighting the frequency of the measured expression element according to the method, and visualizing the expression elements may include visualizing the expression elements by reflecting the adjusted frequency. It can be characterized.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 코멘트 데이터에서 상기 표현요소가 추출된 빈도수를 측정하는 단계, 상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수를 비교하는 단계 및 상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수의 비교 결과에 따라, 상기 표현요소가 추출된 빈도수에 가중치를 부여하여 상기 측정된 빈도수를 조정하는 단계를 더 포함할 수 있다.Also, after extracting the expression elements, measuring the frequency at which the expression element is extracted from the comment data, comparing the frequency of occurrence of the expression element in the object selected by the user with the measured frequency And adjusting the measured frequency by weighting a frequency from which the expression element is extracted according to a result of comparing the frequency of appearance of the expression element in the object selected by the user with the measured frequency. have.
상기 표현요소들을 추출하는 단계는 표준화된 표현요소가 미리 저장된 데이터베이스 내에, 상기 추출된 표현요소가 저장되어 있는지 여부를 탐색하는 단계 및 상기 추출된 표현요소가 상기 데이터베이스 내에 저장되어 있지 않으면, 상기 추출된 표현요소와 가장 의미 거리가 가까운 상기 데이터베이스 상의 표준화된 표현요소를 상기 추출된 표현요소의 대표 표현요소로 식별하는 단계를 포함하고, 상기 빈도수를 측정하는 단계는 상기 추출된 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수를 상기 식별된 대표 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수에 합산하고, 상기 표현요소들을 시각화하는 단계는 상기 대표 표현요소를 상기 합산된 빈도수를 반영하여 시각화하는 것을 특징으로 할 수 있다.The extracting of the expression elements may include searching for whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance, and if the extracted expression element is not stored in the database, Identifying a standardized representation element in the database that is closest to the representation element as a representative representation element of the extracted representation element, wherein measuring the frequency includes extracting the representation element from the comment data. Summing the frequency extracted from the sum to the frequency extracted by the identified representative expression element in the comment data, and visualizing the expression elements may visualize the representative expression element by reflecting the summed frequency. Can be.
또한, 상기 표현요소들을 시각화하는 단계는, 상기 표현요소들을 포함하는 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)를 배경으로 하여 상기 표현요소들을 시각화하는 것을 특징으로 한다.The visualizing of the presentation elements may include visualizing the presentation elements against a background of a multi-dimensional scaling map (MDS map) including the presentation elements.
본 발명의 일 실시예에 따른 표현요소를 시각화 하는 시스템은 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하는 스토리지 장치 상기 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하는 표현요소 추출부 및 상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 시각화부를 포함한다.According to an embodiment of the present invention, a system for visualizing an expression element may include a storage device configured to store comment data on an object selected by a user, and an expression element extractor configured to extract a plurality of expression elements from the stored comment data. And a visualization unit for visualizing the extracted plurality of expression elements based on a distribution based on the semantic distance between the expression elements.
본 발명에 따르면 객체를 이미 사용해본 사람들이 객체를 사용하고 느낀 표현요소(expression element)들을 시각화 그래프를 통해 확인함으로써 해당 객체를 사용하기 전 사용자들이 느끼는 표현요소들을 직관적으로 분석이 가능하여, 객체를 사용하는 사람의 입장에서는 해당 객체에 대해 사람들이 어떠한 감정을 가지는지, 또는 객체를 선택하는 사용자가 원하는 객체를 손쉽게 선택할 수 있는 효과가 있다.According to the present invention, it is possible to intuitively analyze the expression elements felt by users before using the object by confirming the expression elements felt by those who have already used the object using the object through a visualization graph. From the point of view of the user, what kind of feelings people have about the object or the user who selects the object can easily select an object.
또한, 본 발명을 통하여 생성된 시각화 그래프를 스크립트 프로그램으로 웹 사이트상으로 제공됨으로써 많은 사용자들을 대상으로 동시에 제공될 수 있다.In addition, by providing a visualization graph generated through the present invention on a web site as a script program can be provided simultaneously to a large number of users.
또한, 본 발명은 별도의 프로그램 설치 없이 브라우저상의 웹 페이지를 통해 제공할 수 있으므로 코멘트 데이터가 갱신될 때마다 개발자가 새로운 데이터 관리나 배포의 절차 없이 실시간으로 분석 결과를 사용자는 제공 받을 수 있다.In addition, the present invention can be provided through a web page on the browser without installing a separate program, so that whenever the comment data is updated, the user can be provided with the analysis result in real time without a new data management or distribution procedure.
또한, 본 발명은 정부 또는 공공기관이 어떠한 정책이나 계획을 발표하여 사람들이 이에 대하여 인터넷을 통해 의사를 표현하는 경우, 정책에 대한 여론의 반응을 직관적으로 확인할 수도 있다.In addition, the present invention may intuitively confirm the response of the public opinion to the policy when a government or a public agency announces a policy or a plan and people express their intention through the Internet.
또한, 인터넷에서 발생한 기업에서 발생하는 각종 사고 또는 외부에서 발생하는 기업에 대한 여론을 수집하고 이를 분석한 여론 반응의 변화를 실시간으로 파악할 수도 있으며, 기업은 이러한 정보를 이용하여 사내 위기관리 프로토콜을 통해 대응할 수도 있다.In addition, it is possible to collect public opinion on various accidents occurring in the Internet or companies occurring outside the Internet and to analyze the changes in public opinion responses analyzed by the companies in real time. It may correspond.
또한, 하나의 객체에 대하여 감정 또는 의견이 표현된 복수의 요소들을 의미 거리(semantic distance) 기반으로 시각화함으로써, 객체에 대하여 표현된 감정 또는 의견의 전체적인 분포를 직관적으로 사용자에게 제공할 수 있다.In addition, by visualizing a plurality of elements on which an emotion or opinion is expressed with respect to an object based on a semantic distance, an overall distribution of the emotion or opinion expressed with respect to the object may be intuitively provided to the user.
또한, 하나의 객체에 대하여 대표적으로 표현된 감정 또는 의견을 시각화할 수도 있지만, 복수의 표현 요소들을 상대적인 의미 거리 기반으로 시각화함으로써, 객체에 대하여 표현된 복수의 표현 요소들 간의 상대적인 거리 및 분포를 직관적으로 인식할 수 있다.In addition, although the emotions or opinions that are representatively expressed with respect to one object may be visualized, the plurality of expression elements may be visualized based on relative semantic distance, thereby intuitively indicating the relative distance and distribution between the plurality of expression elements expressed with respect to the object. Can be recognized.
또한, 텍스트에 한정하지 않고, 이모티콘이나 아이콘 등 감정 또는 의견을 표현할 수 있는 다양한 비언어적 요소를 모두 반영하여 의미 거리 기반의 분포를 시각화할 수 있으며, 텍스트라는 제약에서 벗어나 자유로울 수 있기 때문에, 다양한 외국어로 표현된 의견 또는 감정까지도 망라하여 하나의 프레임 안에서 시각화할 수도 있다.In addition, it is possible to visualize the distribution based on the semantic distance by reflecting not only text but also various non-verbal elements that can express emotions or opinions such as emoticons and icons, and can be free from the limitations of text. Even expressed opinions or emotions can be visualized within a frame.
도 1은 본 발명의 일 실시예에 따른 감정어휘 분포맵 제작을 위해 선정된 감정어휘를 나타낸 도면이다.1 is a diagram showing an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
도 2는 도 1에 도시된 각 감정어휘의 TF-IDF 스코어의 최대치를 나타낸 도면이다.FIG. 2 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 1.
도 3은 도 1에 도시된 각 감정어휘들 중 최종 선정된 36개의 감정어휘를 나타낸 도면이다.FIG. 3 is a diagram illustrating 36 emotion words that are finally selected from each of the emotion words shown in FIG. 1.
도 4는 본 발명의 일 실시예에 따른 감정어휘 분포맵을 나타낸 도면이다.4 is a diagram illustrating an emotional vocabulary distribution map according to an embodiment of the present invention.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 객체의 코멘트 데이터에서 추출한 표현요소를 히트맵(Heat-map)형태로 나타낸 도면이다.5 to 8 are diagrams illustrating a representation element extracted from comment data of an object in a heat map form according to an embodiment of the present invention.
도 9는 본 발명의 일 실시예에 따른 표현요소를 시각화 하는 방법에 대한 순서도를 나타낸 도면이다.9 is a flowchart illustrating a method of visualizing an expression element according to an embodiment of the present invention.
도 10은 본 발명의 일 실시예에 따른 표현요소들의 빈도수에 따라 측정된 표현요소를 시각화 하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 10 is a flowchart illustrating a method of visualizing a measured element measured according to the frequency of the expressed elements according to an embodiment of the present invention.
도 11은 본 발명의 일 실시예에 따른 신규 어휘가 추가되었는지를 확인하는 순서도를 나타낸 도면이다.11 is a flowchart illustrating whether new vocabulary has been added according to an embodiment of the present invention.
도 12는 본 발명의 일 실시예에 따른 신규한 표현요소가 추가되는 경우에 따른 순서도를 나타낸 도면이다.12 is a flowchart illustrating a case where a new expression element is added according to an embodiment of the present invention.
도 13은 본 발명의 일 실시예에 따른 표현요소의 유효성을 판단하는 과정을 나타낸 도면이다.13 is a view showing a process of determining the validity of the expression element according to an embodiment of the present invention.
도 14는 본 발명의 일 실시예에 따른 표현요소의 유효성을 표현요소의 빈도수를 기준을 판단하는 과정을 나타낸 도면이다.14 is a view showing a process of determining the criterion of the frequency of the expression element of the validity of the expression element according to an embodiment of the present invention.
도 15는 본 발명의 일 실시예에 따른 표현요소의 유효성을 판단하는 과정을 구체화하여 나타낸 순서도이다.15 is a flowchart illustrating a process of determining the validity of expression elements according to an embodiment of the present invention.
도 16은 본 발명의 일 실시예에 따른 특정 표현요소가 집중되어 있는 경우 표현요소의 영향력을 조절하는 방법에 대한 순서도를 나타낸 도면이다.16 is a flowchart illustrating a method of controlling the influence of an expression element when a specific expression element is concentrated according to an embodiment of the present invention.
도 17은 본 발명의 일 실시예에 따른 특정 표현요소가 특정 객체에서 실제로 나타나는 빈도수가 낮은 경우 가중치를 부여하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 17 is a flowchart illustrating a method for assigning a weight when a frequency of a specific expression element actually appears in a specific object according to an embodiment of the present invention.
도 18은 본 발명의 일 실시예에 따른 표현요소를 미리 저장된 표준형의 표현요소로 매핑하고 빈도수를 측정하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 18 is a flowchart illustrating a method of mapping an expression element to a representation element of a pre-stored standard type and measuring a frequency according to an embodiment of the present invention.
도 19는 본 발명의 일 실시예에 따른 표현요소를 시각화 하는 시스템을 나타낸 도면이다.19 is a diagram illustrating a system for visualizing an expression element according to an embodiment of the present invention.
도 20은 본 발명의 일 실시예에 따른 신규 표현요소를 확인하여 표현요소를 시각화 하는 시스템을 나타낸 도면이다.20 is a diagram illustrating a system for visualizing a presentation element by identifying a new presentation element according to an embodiment of the present invention.
도 21은 본 발명의 일 실시예에 따른 표현요소의 빈도수를 측정 및 조정하여 표현요소를 시각화 하는 시스템을 나타낸 도면이다.21 is a diagram illustrating a system for visualizing an expression element by measuring and adjusting a frequency of the expression element according to an embodiment of the present invention.
도 22는 본 발명의 일 실시예에 따른 표현요소 추출부를 상세히 나타낸 도면이다.22 is a view showing in detail the expression element extraction unit according to an embodiment of the present invention.
도 23 내지 도 27는 본 발명의 일 실시예에 따라 각기 다른 시각화 방법을 나타낸 도면이다.23 to 27 are views showing different visualization methods according to an embodiment of the present invention.
도 28는 본 발명의 일 실시예에 따른 히트맵(Heat-map) 시각화 방법을 3차원으로 응용하여 나타낸 도면이다.FIG. 28 is a diagram illustrating a three-dimensional application of a heat map visualization method according to an embodiment of the present invention.
도 29는 본 발명의 일 실시예에 따른 표현요소 시각화 방법을 등고선으로 나타낸 도면이다.29 is a diagram illustrating a representation element visualization method according to an embodiment of the present invention with a contour line.
도 30은 도 29에 도시한 등고선 맵을 3차원으로 나타낸 도면이다.FIG. 30 is a view showing the contour map shown in FIG. 29 in three dimensions.
도 31 내지 도 33은 본 발명의 일 실시예에 따른 의미지도를 기반으로 한 활용 방법을 나타낸 도면이다.31 to 33 are diagrams illustrating a utilization method based on a semantic map according to an embodiment of the present invention.
상기와 같은 목적을 달성하기 위하여, 본 발명의 일 실시예에 따른 표현요소(expression element)를 시각화 하는 방법은 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하는 단계 및 상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 단계를 포함한다.In order to achieve the above object, a method of visualizing an expression element according to an embodiment of the present invention comprises the steps of extracting a plurality of expression elements from the collected comment data for the object selected by the user and the extraction And visualizing the extracted plurality of presentation elements based on a distribution based on a semantic distance between the plurality of presentation elements.
이때, 상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계를 더 포함하고, 상기 표현요소들을 시각화하는 단계는 상기 추출된 표현요소들을 상기 측정된 표현요소들의 빈도수에 따라 시각화 하는 것을 특징으로 한다.In this case, the method may further include measuring a frequency extracted in the comment data of the extracted expression elements, and visualizing the expression elements may visualize the extracted expression elements according to the frequency of the measured expression elements. It is characterized by.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소들과 기존에 추출된 표현요소들을 비교하는 단계 및 상기 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인하는 단계를 더 포함할 수 있다.Further, after the extracting of the expression elements, comparing the extracted expression elements with previously extracted expression elements and confirming whether a new expression element among the extracted expression elements is added. It may further include.
상기 표현요소들을 시각화하는 단계는 상기 추출된 표현요소들 중 신규한 표현요소가 추가된 경우, 상기 기존에 추출된 표현요소들 중 상기 신규한 표현요소와 의미 거리가 일정 기준 이내인 하나 이상의 인접 표현요소를 결정하는 단계 및 상기 결정된 하나 이상의 인접 표현요소들로부터의 의미 거리에 기반하여 상기 신규한 표현요소의 의미상 위치를 결정하는 단계를 포함한다.In the visualizing of the expression elements, when a new expression element of the extracted expression elements is added, one or more adjacent expressions having a meaning distance from the new expression element among the previously extracted expression elements within a predetermined criterion. Determining an element and determining a semantically position of the new representation element based on the determined semantic distance from the one or more adjacent representation elements.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소의 유효성을 판단하는 단계 및 상기 사용자가 선택한 객체에 대하여 상기 추출된 표현요소가 유효하지 않은 경우, 상기 유효하지 않은 표현요소를 제거하는 단계를 포함할 수 있으며, 상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계를 더 포함하고, 상기 추출된 표현요소의 유효성을 판단하는 단계는 상기 추출된 표현요소의 측정된 빈도수를 반영하여 상기 추출된 표현요소의 유효성을 판단할 수 있다.In addition, after extracting the expression elements, determining the validity of the extracted expression elements, and if the extracted expression elements are invalid for the object selected by the user, the invalid expression elements are removed. The method may further include, after the extracting the expression elements, measuring the extracted frequency in the comment data of the extracted expression elements, and determining the validity of the extracted expression elements. The step of determining may reflect the measured frequency of the extracted expression element to determine the validity of the extracted expression element.
상기 표현요소들을 추출하는 단계 이후에, 상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하는 단계, 상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정하는 단계를 더 포함할 수 있으며, 상기 표현요소들을 추출하는 단계 이후에, 상기 표현요소가 추출된 빈도수를 측정하는 단계 및 상기 측정추출 된 빈도수에 따라 상기 측정된 표현 요소의 빈도수에 가중치를 부여하여, 상기 측정된 빈도수를 조정하는 단계를 더 포함하고, 상기 표현요소들을 시각화하는 단계는 상기 조정된 빈도수를 반영하여 상기 표현요소들을 시각화하는 것을 특징으로 할 수 있다.After extracting the expression elements, identifying the frequency with which the extracted expression elements are extracted from an object other than the object selected by the user, wherein the extracted expression elements are among objects other than the object selected by the user The method may further include determining whether the object is extracted at a predetermined frequency or more from a predetermined number or more. After extracting the expression elements, the method may further include measuring a frequency at which the expression elements are extracted and measuring the extracted frequency. And adjusting the measured frequency by weighting the frequency of the measured expression element according to the method, and visualizing the expression elements may include visualizing the expression elements by reflecting the adjusted frequency. It can be characterized.
또한, 상기 표현요소들을 추출하는 단계 이후에, 상기 코멘트 데이터에서 상기 표현요소가 추출된 빈도수를 측정하는 단계, 상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수를 비교하는 단계 및 상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수의 비교 결과에 따라, 상기 표현요소가 추출된 빈도수에 가중치를 부여하여 상기 측정된 빈도수를 조정하는 단계를 더 포함할 수 있다.Also, after extracting the expression elements, measuring the frequency at which the expression element is extracted from the comment data, comparing the frequency of occurrence of the expression element in the object selected by the user with the measured frequency And adjusting the measured frequency by weighting a frequency from which the expression element is extracted according to a result of comparing the frequency of appearance of the expression element in the object selected by the user with the measured frequency. have.
상기 표현요소들을 추출하는 단계는 표준화된 표현요소가 미리 저장된 데이터베이스 내에, 상기 추출된 표현요소가 저장되어 있는지 여부를 탐색하는 단계 및 상기 추출된 표현요소가 상기 데이터베이스 내에 저장되어 있지 않으면, 상기 추출된 표현요소와 가장 의미 거리가 가까운 상기 데이터베이스 상의 표준화된 표현요소를 상기 추출된 표현요소의 대표 표현요소로 식별하는 단계를 포함하고, 상기 빈도수를 측정하는 단계는 상기 추출된 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수를 상기 식별된 대표 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수에 합산하고, 상기 표현요소들을 시각화하는 단계는 상기 대표 표현요소를 상기 합산된 빈도수를 반영하여 시각화하는 것을 특징으로 할 수 있다.The extracting of the expression elements may include searching for whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance, and if the extracted expression element is not stored in the database, Identifying a standardized representation element in the database that is closest to the representation element as a representative representation element of the extracted representation element, wherein measuring the frequency includes extracting the representation element from the comment data. Summing the frequency extracted from the sum to the frequency extracted by the identified representative expression element in the comment data, and visualizing the expression elements may visualize the representative expression element by reflecting the summed frequency. Can be.
또한, 상기 표현요소들을 시각화하는 단계는, 상기 표현요소들을 포함하는 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)를 배경으로 하여 상기 표현요소들을 시각화하는 것을 특징으로 한다.The visualizing of the presentation elements may include visualizing the presentation elements against a background of a multi-dimensional scaling map (MDS map) including the presentation elements.
본 발명의 일 실시예에 따른 표현요소를 시각화 하는 시스템은 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하는 스토리지 장치 상기 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하는 표현요소 추출부 및 상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 시각화부를 포함한다.According to an embodiment of the present invention, a system for visualizing an expression element may include a storage device configured to store comment data on an object selected by a user, and an expression element extractor configured to extract a plurality of expression elements from the stored comment data. And a visualization unit for visualizing the extracted plurality of expression elements based on a distribution based on the semantic distance between the expression elements.
상기 목적 외에 본 발명의 다른 목적 및 특징들은 첨부 도면을 참조한 실시 예에 대한 설명을 통하여 명백히 드러나게 될 것이다.Other objects and features of the present invention in addition to the above object will be apparent from the description of the embodiments with reference to the accompanying drawings.
본 발명의 바람직한 실시예를 첨부된 도면들을 참조하여 상세히 설명한다. 본 발명을 설명함에 있어, 관련된 공지 구성 또는 기능에 대한 구체적인 설명이 본 발명의 요지를 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명은 생략한다.Preferred embodiments of the present invention will be described in detail with reference to the accompanying drawings. In describing the present invention, when it is determined that the detailed description of the related well-known configuration or function may obscure the gist of the present invention, the detailed description thereof will be omitted.
그러나, 본 발명이 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.However, the present invention is not limited or limited by the embodiments. Like reference numerals in the drawings denote like elements.
도 1은 본 발명의 일 실시예에 따른 감정어휘 분포맵 제작을 위해 선정된 감정어휘를 나타낸 도면이다.1 is a diagram showing an emotional vocabulary selected for producing an emotional vocabulary distribution map according to an embodiment of the present invention.
본 발명은 객체의 코멘트 데이터에서 수집된 표현요소(expression element)를 이용한 시각화 방법 및 시스템에 관한 것으로서, 객체는 사용자가 선택한 영화, 상품, 소설, 게임, 여행 등 사람의 감정이 포함되는 객체를 의미하며, 사람의 감정이 포함되는 객체에 대한 코멘트 또는 리뷰로부터 나타나는 감정을 시각화 할 수 있다.The present invention relates to a visualization method and system using an expression element collected from comment data of an object, and the object refers to an object including emotions of a person, such as a movie, a product, a novel, a game, or a travel, selected by a user. The user can visualize the emotions that appear from comments or reviews of objects that contain human emotions.
본 발명의 일 실시예로서, 객체는 영화로 한정하여 영화에 대한 코멘트 데이터를 이용한 시각화 방법 및 시스템으로도 설명할 수 있다.As an embodiment of the present invention, the object may be described as a visualization method and system using comment data about the movie, limited to the movie.
영화의 코멘트 데이터는 사용자에 따라서 구축된 웹 서비스 통해 수집된 데이터를 이용할 수 있으며, 또는 대형 포털 및 동호회 게시판에 축적되는 코멘트 데이터를 프로그램을 이용하여 개별적으로 수집할 수도 있다. The comment data of the movie may use data collected through a web service constructed according to a user, or the comment data accumulated in a large portal and a fellowship bulletin board may be individually collected using a program.
본 발명의 일 실시예로서, 영화에 대한 코멘트 데이터로부터 사용자의 감정을 포함하고 있는 감정어휘 수집을 자동화하기 위하여 데이터를 수집할 수 있는 웹 크롤러를 이용할 수 있으며, 크롤러는 대형 포털(네이버, 다음 등) 영화 홈페이지에서 특정 영화의 댓글과 코멘트들을 정제되지 않은 데이터 형태로 수집하고, 수집된 데이터를 연구에 사용 가능한 데이터로 가공할 수 있으며, 정제된 데이터를 분석하여 감정어휘를 추출할 수 있다. 이에 따라 크롤러를 통하여 수집되는 감정어휘는 영화를 보는 상황과 연결시켜 추후에 사용자의 이용 동기에 맞는 영화를 추천할 수도 있다.As an embodiment of the present invention, a web crawler that can collect data to automate the collection of emotion vocabulary containing user's emotions from comment data about a movie may be used, and the crawler may be a large portal (Naver, Daum, etc.). ) You can collect comments and comments of specific movies in the form of unrefined data on the movie homepage, process the collected data into data that can be used for research, and extract the emotional vocabulary by analyzing the purified data. Accordingly, the emotional vocabulary collected through the crawler may be connected to the situation in which the movie is viewed to recommend a movie that meets the user's motivation for use.
영화에 나타난 감정어휘의 빈도를 시각화하기 위해서는 2차원 평면상에 각 감정어의 위치를 지정해야 한다. 이를 위해 감정어간의 상관관계를 이용하여 2차원 상의 위치 좌표를 도출할 수 있다. 감정어휘의 분포맵을 제작하기 위하여 한덕웅, 강혜자(2000)의 한국어 정서 용어들의 적절성과 경험 빈도에 대한 연구를 참고하여 834개의 정서용어 중에서 영화를 봤을 때 느낄 수 있는 감정어휘만을 분류하였다. 이때, 아주대학교의 국어국문학과박사 전문가 1명과 본 발명의 발명자 2명이 함께 서로 의견취합이 가능한 감정어휘만을 골라 최종 100개의 감정어휘를 선별하였다.In order to visualize the frequency of emotional vocabulary shown in the movie, the location of each emotional word must be specified on a two-dimensional plane. To this end, position coordinates on a two-dimensional surface may be derived using correlations between the emotional words. In order to produce a distribution map of emotional vocabulary, only the emotional vocabulary that can be felt when watching a movie was classified among the 834 emotional terms by referring to the study on the adequacy and the frequency of experience of Korean emotional terms by Han Duk-woong and Kang Hye-ja (2000). At this time, one expert in the Korean language and literature department of Ajou University and two inventors of the present invention selected only the emotional vocabulary capable of gathering opinions together, and finally selected the final 100 emotional vocabulary.
또한, 전문가 분석을 통한 감정어휘 선별작업 이외에도 영화를 시청하였을 때, 사용자들이 가장 많이 느끼는 감정어휘를 선별하기 위해 선정된 100개의 감정어휘를 토대로 최종감정어휘 선정을 위한 서베이(survey)를 실시하였다. 서베이는 아주대학교의 미디어학과 학생 30명을 대상으로 영화를 봤을 때 느낄 수 있는 감정에 대한 간단한 개념 설명을 거친 뒤에, 전문가 분석을 통해 얻어진 100개의 감정어휘에 대해서 영화를 보는 상황일 때 해당 감정어휘를 느낄 수 있는 정도가 어떻게 되는지를 조사 하였다. 실제 설문에서는 ‘여러분이 지금까지 보신 여러 장르의 영화 스토리를 생각하신 뒤 해당 영화를 봤을 때 다음에 제시된 감정어휘들을 느끼는 정도가 어떠한 지 답하시기 바랍니다.’와 같이 시작하였으며, 각 감정어휘에 대해서 리커트 7점 척도(Likert-type scale)로 응답하게 하여 1점은 ‘전혀 관련 없다.’를 의미하고 7점은 ‘매우 관련 있다.’를 의미하도록 질문하였다.In addition to selecting the emotional vocabulary through expert analysis, a survey was conducted to select the final emotional vocabulary based on 100 emotional vocabularies selected to select the emotional vocabulary that users felt most when watching a movie. The survey was conducted with 30 students from the Department of Media at Ajou University. The survey gave a brief conceptual description of the emotions that can be felt when watching a movie. I investigated how much I can feel. The actual questionnaire began with 'Please think about the different kinds of movie stories you have seen so far, and then, how do you feel about the feelings presented next time you watch the movie?' The answer was asked on a Likert-type scale, with one point meaning 'nothing at all' and seven points meaning 'very relevant'.
본 연구에서는 사용자의 이용 동기를 이용해 영화를 추천한다는 취지에 부합하고자 영화를 봤을 때 가장 잘 느낄 수 있는 감정어휘를 수집하기 위해 전문가 분석 및 사용자 서베이를 실시하였으며, 사용자들이 설문한 리커트 7점 척도 정보를 토대로 관련성이 높은 감정어휘를 선별하기 위해 평균분석을 통해서 평균이 상대적으로 낮은 감정어휘(4.00 ‘보통이다.’를 뜻하는 수치 이하) 32개를 추가적으로 제거하여 영화 추천에 적합한 68개의 감정어휘를 선별하였다.In this study, we conducted expert analysis and user survey to collect the emotional vocabulary that can be felt best when watching a movie in order to meet the recommendation of a movie using the user's motive for using the user. To select highly relevant emotional vocabulary based on the information, 68 emotional vocabularies suitable for movie recommendation were removed by additionally removing 32 additional emotional vocabularies (less than 4.00 'normal') from the average analysis. Were screened.
도 1은 이렇게 선별된 영화 추천에 적합한 68개의 감정어휘를 나타낸 도면이다.1 is a view showing 68 emotional vocabulary suitable for the movie recommendation thus selected.
도 2는 도 1에 도시된 각 감정어휘의 TF-IDF 스코어의 최대치를 나타낸 도면이다.FIG. 2 is a diagram showing the maximum value of the TF-IDF score of each emotional vocabulary shown in FIG. 1.
도 2는 도 1에 설명된 68개의 감정어휘에 실제 영화데이터를 비교하여 영향력이 미미한 감정어휘를 추가로 제거하기 위하여, 영화의 코멘트 또는 리뷰에 나타나는 각 감정어휘의 TF-IDF 스코어를 도출하고, 각 감정어휘에 나타날 수 있는 TF-IDF 스코어의 최대치를 나타낸 도면이다.FIG. 2 derives the TF-IDF score of each emotional vocabulary appearing in a comment or review of the movie, in order to further remove the emotional vocabulary by comparing the actual movie data with the 68 emotional vocabulary described in FIG. The maximum value of the TF-IDF score which can appear in each emotional vocabulary is shown.
이때, TF(단어 빈도수, term frequency)는 특정한 단어가 문서 내에 얼마나 자주 등장하는지 나타내는 값을 의미하며, DF(Document Frequency)는 특정 단어가 나타난 문서의 수를 의미하며, 이 값의 역수를 IDF(inverse document frequency)라고 한다.In this case, the term frequency (TF) refers to a value indicating how often a specific word appears in a document, and the document frequency (DF) refers to the number of documents in which a specific word appears. inverse document frequency).
도 3은 도 1에 도시된 각 감정어휘들 중 최종 선정된 36개의 감정어휘를 나타낸 도면이다.FIG. 3 is a diagram illustrating 36 emotion words that are finally selected from each of the emotion words shown in FIG. 1.
도 2에 도시된 도면은 TF-IDF 스코어가 도출된 각 감정어휘들 중에서 '경악하다'의 경우 모든 영화에서 TF-IDF 스코어의 비율이 0.8% 이하로 나타났으며, 반면에 '달콤하다'의 경우에는 적어도 한 개의 영화에서는 TF-IDF 스코어의 비율이 42%에 달하는 것을 의미한다. The figure shown in FIG. 2 shows that the ratio of the TF-IDF score is 0.8% or less in all movies in the case of 'Amazement' among the emotional words from which the TF-IDF score is derived. In this case, it means that the ratio of TF-IDF score reaches 42% in at least one film.
이때, 도 3은 TF-IDF 스코어의 비율이 10% 미만인 감정어휘를 제거하고 최종적으로 선택된 36개의 감정어휘를 나타낸 도면이다.In this case, Figure 3 is a diagram showing the 36 selected emotional vocabulary finally removed the emotional vocabulary of the TF-IDF score is less than 10%.
도 4는 본 발명의 일 실시예에 따른 감정어휘 분포맵을 나타낸 도면이다.4 is a diagram illustrating an emotional vocabulary distribution map according to an embodiment of the present invention.
도 3에 도시한 최종 군집화된 36개의 감정어휘를 2차원 평면에 각 감정어휘 간의 의미 거리를 도출하기 위하여 36개의 감정어휘를 바탕으로 유사하거나 상이한 감정어휘 간의 거리를 측정하여 상관관계를 분석한 다음 다차원척도 분석(Multi-Dimensional Scaling: MDS)을 이용할 수 있다. In order to derive the semantic distance between each emotional vocabulary in the final clustered 36 emotional vocabularies shown in FIG. 3, the correlation was analyzed by measuring the distance between similar or different emotional vocabularies based on the 36 emotional vocabularies. Multi-Dimensional Scaling (MDS) can be used.
이때, 다차원척도 분석이란 개체들 간의 상대적인 거리를 계산하여 사람이 인지 할 수 있는 평면상에 상대적인 거리로 나타내는 통계와 연관된 기술로 정보 시각화에서는 데이터 내의 유사성 및 비유사성을 측정하기 위한 배경기술이다.In this case, multidimensional scale analysis is a technique associated with statistics representing relative distances between objects by calculating relative distances between objects, and is a background technique for measuring similarity and dissimilarity in data visualization.
다차원척도법의 장점은 상대적인 거리만을 알고 있는 개체들의 의미 지도를 작성할 수 있으며 물리적인 거리뿐만 아니라 심리적인 거리에 근거하여서도 의미 지도를 작성할 수 있다. The advantage of multidimensional scaling is that it is possible to construct a semantic map of entities that only know relative distances, and to build a semantic map based on psychological distance as well as physical distance.
본 발명의 일 실시예에 따른 다차원척도 분석을 위해 경기도 및 서울 소재 대학교 20대 남학생 11명, 여학생 9명으로 총 20명을 실험 대상자로 하여 36개의 감정어휘에 대해 의미상 거리 서베이를 실시하였으며, 서베이는 가로축 세로축 36개의 감정어휘를 배치한 설문지를 만들고(68x68), 감정어휘간의 거리가 가장 가깝다고 느껴지면 3점, 가장 멀다고 느껴지면 -3점을 주는 방식의 리커트 척도를 이용하여 체크하는 형식으로 구성하였다. 20명이 기록한 데이터를 바탕으로 다양한 네트워크 분석기법이 활용 가능한 UCINET 프로그램을 사용 하였고, 이에 따라 영화 36개 감정 어휘 간의 의미상의 거리에 선정된 68개의 감정어휘를 기반한 Metric MDS를 도 4에 나타내었다.In order to analyze the multi-dimensional scale according to an embodiment of the present invention, a survey of 36 emotional words was conducted semantically, with a total of 20 subjects including 11 male students and 9 female students in 20 universities in Gyeonggi-do and Seoul. The survey creates a questionnaire with 36 emotional words on the horizontal axis and vertical axis (68x68), and checks using a Likert scale that gives 3 points if the distance between the emotional words is the closest and -3 points if the distance between them is the longest. It consisted of. Based on the data recorded by 20 people, we used UCINET program that can utilize various network analysis methods, and accordingly, Metric MDS based on 68 emotional vocabularies selected in the semantic distance between 36 emotional vocabulary words is shown in FIG.
그 결과, X축의 양(+)의 방향으로는 대표어 “Happy”, “Surprise”와 관련된 감정어휘가 분포되었으며, X축의 음(-)의 방향으로는 대표어 “Anger”, “Disgust”와 관련된 감정어휘가 분포되었다. 그리고 Y축의 양(+)의 방향으로는 대표어 “Fear”, “Surprise”와 관련된 감정어휘가 분포되었으며, Y축의 음(-)의 방향으로는 대표어 “Sad”, “Boring”과 관련된 감정어휘가 분포되었다. As a result, the emotional vocabulary related to the representative words “Happy” and “Surprise” were distributed in the positive direction of the X axis, and the representative words “Anger” and “Disgust” in the negative direction of the X axis. Related emotional words were distributed. Emotional vocabulary related to the representative words “Fear” and “Surprise” were distributed in the positive direction of the Y axis, and emotions related to the keywords “Sad” and “Boring” in the negative direction of the Y axis. Vocabulary is distributed.
이에 따라, 감정어휘의 성격 상 X축의 양(+)의 방향은 긍정적인 감정어휘들이 분포되었고, X축의 음(-)의 방향으로는 부정적인 감정어휘들이 분포됨을 알 수 있다. Accordingly, it can be seen that positive emotional vocabularies are distributed in the positive (+) direction on the X axis and negative emotional vocabularies are distributed in the negative (-) direction on the X axis in the nature of the emotional vocabulary.
또한, Y축의 양(+)의 방향은 동적인(감정을 느낄 때 비교적 큰 제스처를 취할 수 있는) 감정어휘들이 분포되었고, Y축의 음(-)의 방향으로는 정적인(감정을 느낄 때 비교적 작은 제스처를 취할 수 있는) 감정어휘들이 분포됨을 알 수 있다.Also, the positive (+) direction of the Y-axis is dynamic (which can take a relatively large gesture when feeling), and the negative (-) direction of the Y-axis is positive (positive when feeling). It can be seen that emotional vocabularies (which can take small gestures) are distributed.
그리고 ‘Happy’, ‘Sad’, ‘Anger’, ‘Fear’, ‘Disgust’, ‘Boring’ 대표어와 관련된 어휘들은 각각의 단어가 뚜렷하게 군집이 되는 것을 볼 수 있는데, 대표어 ‘Surprise’에 대해서는 ‘Happy’ 대표어 군집과 ‘Fear’ 대표어 군집에 나뉘어서 분포한다는 것을 알 수 있다. 이는 사용자들이 영화를 봤을 때 ‘벅찬 기쁨으로 인해 놀라운 감정이 생기는 경우’와 ‘갑작스럽게 등장하는 공포로 인해서 놀라운 감정이 생기는 경우’가 지배적이기 때문인 것으로 해석할 수 있다. And the words related to 'Happy', 'Sad', 'Anger', 'Fear', 'Disgust' and 'Boring' can be seen that each word is clearly clustered. For the representative word 'Surprise' It can be seen that it is divided into 'Happy' representative cluster and 'Fear' representative cluster. This can be interpreted as dominant when users watch a movie, 'when the emotions are overwhelmed by overwhelming joy' and 'when the emotions are overwhelmed by sudden fears'.
도 5 내지 도 8은 본 발명의 일 실시예에 따른 객체의 코멘트 데이터에서 추출한 표현요소를 히트맵(Heat-map)형태로 나타낸 도면이다.5 to 8 are diagrams illustrating a representation element extracted from comment data of an object in a heat map form according to an embodiment of the present invention.
도 1 내지 도 4에서 설명한 영화에 대한 코멘트 데이터로부터 추출된 감정어휘를 시각화하기 위해서는 MDS Map을 구성하고 있는 감정어휘의 빈도수가 필요하다. 상위 과정을 통해 선별된 코멘트 데이터와 감정어휘사전을 비교하여 각 영화에서의 감정어휘 빈도수를 측정한다. In order to visualize the emotional vocabulary extracted from the comment data for the movie described with reference to FIGS. 1 to 4, the frequency of the emotional vocabulary constituting the MDS Map is required. The emotional vocabulary frequency in each movie is measured by comparing the comment data and the emotional vocabulary which are selected through the advanced process.
또한, 영화의 성격과 관계없이 자주 등장하는 특정 어휘의 가중치를 낮추기 위해 TF-IDF 스코어를 계산하여 수치를 조정한다. 최종적으로 선별된 각 감정어휘의 TF-IDF 스코어를 이용하여 시각화 할 수 있다.In addition, the TF-IDF score is calculated and adjusted to lower the weight of certain vocabulary words that appear frequently regardless of the nature of the film. Finally, the TF-IDF score of each selected emotional vocabulary can be visualized.
최종 시각화 그래프는 감정어휘의 MDS Map을 배경으로 하고, 사각형의 작은 셀로 구성된 히트맵(Heat-map)으로 나타낼 수 있다. 이때, 모든 셀은 0의 수치로 초기화 되어 있으며, 해당 셀에 위치한 감정어휘의 TF-IDF스코어에 따라 셀의 수치가 증가한다. 셀이 가진 수치가 높아질수록 다른 색으로 변함으로써 해당 감정어휘 TF-IDF스코어의 높고 낮음을 확인 할 수 있다. 또한 수치가 올라간 셀은 주위 셀의 수치에 영향을 미침으로써 그래프의 모습은 지형도의 모습을 띄게 된다. The final visualization graph is based on the MDS Map of the emotional vocabulary and can be represented as a heat-map composed of small square cells. At this time, all cells are initialized to a value of 0, and the number of cells increases according to the TF-IDF score of the emotional vocabulary located in the corresponding cell. As the value of the cell increases, the color changes to a different color, so that the high and low scores of the corresponding emotional vocabulary TF-IDF score can be confirmed. In addition, the cell with the higher value affects the value of surrounding cells, so that the graph becomes a topographical map.
도 5는 영화 '설국열차'에 대한 관람객들의 코멘트 데이터에 나타나는 감정어휘의 분포를 시각화한 그래프이다. 도 5에 도시된 것처럼 영화 '설국열차'에서 관객들은 재미있고 대단하다는 반응을 보이고 있으며, 안타깝고 지루하다는 감정 또한 높은 빈도를 보이고 있다. 실제로 '설국열차'에 대한 영화 코멘트를 살펴보면 영화에 대해 실망한 관객들의 리뷰가 많은 것을 볼 수 있다.5 is a graph visualizing the distribution of the emotional vocabulary appearing in the viewers' comment data for the movie 'Sulguk Train'. As shown in FIG. 5, the audience in the movie 'Sulguk Train' shows a fun and great response, and the feeling of being sad and boring also shows a high frequency. In fact, if you look at the comments on the movie about 'Seolguk Train', you can see many reviews from audiences who are disappointed with the movie.
도 6은 영화 '극락도 살인사건'을 히트맵(Heat-map) 형태로 시각화한 도면이며, 공포영화인 '극락도 살인사건'에서 나타난 관람객들의 감정 중 가장 높은 감정어휘가 '놀라다'이며, 그 밖에 공포와 관련된 감정어휘의 빈도가 높게 나타난 것을 확인할 수 있다. FIG. 6 is a diagram visualizing the movie 'Planetary Murder Case' in the form of a heat map, and the highest emotional vocabulary among the emotions of the viewers shown in the horror film 'Planetary Murder Case' is 'surprise'. It can be seen that the frequency of emotional vocabulary related to fear is high.
도 7은 영화 '돈 크라이 마미'를 히트맵(Heat-map) 형태로 시각화한 도면이며, 실제 범죄사건을 모티브로 제작된 '돈 크라이 마미'에 대한 관람객의 감정어휘의 분포는 '분노하다'와 '격분하다'에 많은 빈도수를 나타내는 것을 확인할 수 있다.FIG. 7 is a diagram visualizing the movie 'Don Krai Mami' in the form of a heat map, and the distribution of the spectators' emotional vocabulary for 'Don Krai Mami' produced with the actual crime incident is' anger '. It can be seen that the frequency is shown in many ways.
도 8은 영화 '워낭소리'를 히트맵 형태로 시각화한 도면이며, '워낭소리'의 경우 관객들의 감정은 '슬프다'와 '감동적이다'에 높은 빈도를 보이는 것으로 나타났다. FIG. 8 is a view visualizing the movie 'WangNang Sori' in the form of a heat map, and in the case of 'WangNang Sori', the emotions of the audiences are shown to be high in 'Sad' and 'Emotional'.
위와 같은 예시를 통하여 영화를 시청한 후 작성된 코멘트에서 수집된 코멘트 데이터가 영화의 장르 및 스토리 특성에 부합하여 감정어휘 패턴이 나타남을 알 수 있다.Through the above example, it can be seen that the comment data collected from the comments created after watching a movie corresponds to the genre and story characteristics of the movie, resulting in an emotional vocabulary pattern.
본 발명의 일 실시예로서, 영화에 대한 코멘트 데이터를 이용하여 감정어휘를 추출하고 이를 시각화 하는 방법에 대하여 기술하였으나, 영화 뿐만 아니라 인간관계와 사회관계에서 사람들이 갖거나 드러내는 사고, 의도, 평가, 의견, 논증, 반박 같은 인지활동과 감정, 정서, 욕망, 태도 등의 감성적 반응을 대상으로 할 수도 있다.As an embodiment of the present invention, a method of extracting and visualizing an emotional vocabulary using comment data on a movie has been described, but thinking, intention, evaluation, Cognitive activities, such as opinions, arguments, and rebuttals, and emotional responses such as emotions, emotions, desires, and attitudes may be targeted.
또한, 본 발명이 적용될 수 잇는 대상은 감성적인 부분에선 인간의 감정, 정서, 욕망, 태도 등을 포함하며, 인지 부분에선 사고, 의도, 평가, 의견, 논증, 반박 등을 포함한다. 또한, 관계 부분에선 문화콘텐츠, 인간관계(소통, 갈등), 사회관계(다문화 Homo hundred 등), 테크놀로지와의 관계(문화지체 등)을 포함한다.In addition, the object to which the present invention may be applied includes human emotions, emotions, desires, and attitudes in the emotional part, and includes thoughts, intentions, evaluations, opinions, arguments, and rebuttals in the cognitive part. In addition, relations include cultural contents, human relations (communication, conflict), social relations (multiculturalism, etc.), and relations with technology (cultural delays, etc.).
도 9는 본 발명의 일 실시예에 따른 표현요소를 시각화 하는 방법에 대한 순서도를 나타낸 도면이다.9 is a flowchart illustrating a method of visualizing an expression element according to an embodiment of the present invention.
표현요소를 시각화 하는 방법은 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화(S920)한다.The method of visualizing an expression element may include extracting a plurality of expression elements from the comment data collected for the object selected by the user (S910), and extracting the plurality of expressions based on a distribution based on the semantic distance between the extracted plurality of expression elements. Visualize the elements (S920).
이때, 객체에 대한 코멘트 데이터는 영화에 대한 리뷰, 상품에 대한 상품평, 소설 리뷰, 게임 리뷰, 여행 리뷰, 서비스에 대한 평가 등 사람들의 감정이 포함되는 모든 코멘트 데이터를 의미한다.In this case, the comment data on the object refers to all comment data including emotions of people, such as reviews on movies, product reviews, novel reviews, game reviews, travel reviews, and services.
또한, 표현요소는 코멘트 데이터에서 추출되는 사람들의 감정을 나타내는 단어, 문단, 이모티콘 등을 포함한다.In addition, the expression elements include words, paragraphs, emoticons, and the like that represent the emotions of people extracted from the comment data.
또한, 복수의 표현요소들간의 의미 거리에 기반한 분포에 기초하여 시각화 하는 방법은 도 1 내지 도 4에서 설명된 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)을 기반으로 히트맵(Heat-map) 형태 또는 등고선 등의 모양으로 나타낼 수 있다.In addition, a method of visualizing based on a distribution based on a semantic distance between a plurality of presentation elements may be based on a heat map based on a multi-dimensional scaling map (MDS map) described with reference to FIGS. 1 to 4. map) or contour.
도 10은 본 발명의 일 실시예에 따른 표현요소들의 빈도수에 따라 측정된 표현요소를 시각화 하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 10 is a flowchart illustrating a method of visualizing a measured element measured according to the frequency of the expressed elements according to an embodiment of the present invention.
표현요소를 시각화 하는 방법은 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 추출된 표현요소들의 코멘트 데이터 내에서 추출된 빈도수를 측정하여(S930), 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화(S920)할 수 있다. 이때, 추출된 표현요소들을 측정된 표현요소들의 빈도수에 따라 표현요소들을 포함하는 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)를 배경으로 하여 히트맵(Heat-map), 등고선 등의 모양으로 시각화할 수 있다.The method of visualizing an expression element may include extracting a plurality of expression elements from the comment data collected for the object selected by the user (S910), and measuring the extracted frequency in the comment data of the extracted expression elements (S930). In operation S920, the plurality of extracted expression elements may be visualized based on a distribution based on a semantic distance between the plurality of expression elements. At this time, the shape of a heat map, contours, etc. is extracted based on a multi-dimensional scaling map (MDS map) including the expression elements according to the frequency of the measured expression elements. Can be visualized.
또한, 표현요소들을 추출하여, 표현요소들의 빈도수를 측정할 때 표준화된 표현요소가 표준형이 아닌 경우, 사전 상에 저장된 표준형의 표현요소로 매핑하고, 그 매핑된 사전 상의 표준형의 표현요소 기준으로 각 객체의 코멘트 데이터에서의 빈도수를 측정할 수 있다.Also, when the expression elements are extracted and the frequency of the expression elements is measured, if the standardized expression element is not a standard type, the expression elements are mapped to the expression elements of the standard type stored in the dictionary, and each of the expression elements is expressed based on the expression elements of the standard type on the mapped dictionary. You can measure the frequency in the comment data of an object.
도 11은 본 발명의 일 실시예에 따른 신규 어휘가 추가되었는지를 확인하는 순서도를 나타낸 도면이다.11 is a flowchart illustrating whether new vocabulary has been added according to an embodiment of the present invention.
도 9에 도시된 표현요소를 시각화 하는 방법은 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910) 추출된 표현요소들과 기존에 추출된 표현요소들을 비교한다(S1110). 이후, 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인하여(S1120), 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화(S920)할 수 있다. 이 때 신규한 표현요소의 의미를 찾는 과정은 문맥 기반 분석(context-based analysis) 등의 기법을 통하여 실행될 수 있다.In the method for visualizing the expression elements illustrated in FIG. 9, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the extracted expression elements are compared with the existing expression elements (S1110). ). Thereafter, whether a new expression element is added among the extracted expression elements is checked (S1120), and the extracted plurality of expression elements are visualized based on a distribution based on a semantic distance between the extracted plurality of expression elements (S920). can do. At this time, the process of finding the meaning of the new expression element may be performed through a technique such as context-based analysis.
도 12는 본 발명의 일 실시예에 따른 신규한 표현요소가 추가되는 경우에 따른 순서도를 나타낸 도면이다.12 is a flowchart illustrating a case where a new expression element is added according to an embodiment of the present invention.
도 11에서 신규한 표현요소가 추가되었는지 확인(S921)하고, 신규한 표현요소가 추가되었을 경우, 기존에 추출된 표현요소들 중 신규한 표현요소와 의미 거리가 일정 기준 이내인 하나 이상의 인접 표현요소를 결정한다(S922).In FIG. 11, it is determined whether a new expression element is added (S921), and when a new expression element is added, one or more adjacent expression elements having a meaning distance and a new expression element among existing expression elements within a predetermined criterion. Determine (S922).
이때 일정 기준이라 함은, 기존에 추출한 표현요소들 중 신규한 표현요소와 가장 가까운 N개를 기준으로 삼을 수도 있고, 또는 기존에 추출한 표현요소들 중 신규한 표현요소와 의미 거리가 r 이내인 경우를 기준으로 삼을 수도 있다.In this case, the predetermined criterion may be based on the N nearest to the new expression elements among the existing expression elements, or the meaning distance between the new expression elements and the existing expression elements is within r. It may be based on cases.
이후, 결정된 하나 이상의 인접 표현요소들로부터의 의미 거리에 기반하여 신규한 표현요소의 의미상 위치를 결정하여(S923), 위치가 결정된 신규한 표현요소를 시각화 한다(S924).Subsequently, the semantic position of the new expression element is determined based on the determined semantic distances from one or more adjacent expression elements (S923), and the new expression element having the determined position is visualized (S924).
이때, 신규한 표현요소와 인접 표현요소의 의미가 유사할수록 신규한 표현요소와 인접 표현요소 간의 의미 거리가 가까워지도록 가중치를 부여하여 위치를 결정할 수도 있다. 즉, 제1 인접 표현요소가 제2 인접 표현요소보다 신규한 표현요소의 의미와 유사한 경우에는, 신규한 표현요소와 제1 인접 표현요소 간의 거리가 신규한 표현요소와 제2 인접 표현요소 간의 거리보다 더 짧게 되도록 신규한 표현요소의 위치가 결정될 수 있다. 이 때, 표현요소 간의 의미 유사성은 문맥 기반 분석을 통하여 얻어질 수도 있고, 또는 다수 인원에 대한 설문 조사 등의 다양한 방법을 이용하여 얻어질 수도 있다.In this case, as the meanings of the new expression elements and the adjacent expression elements are similar, the positions may be determined by assigning weights such that the meaning distance between the new expression elements and the adjacent expression elements becomes closer. That is, when the first neighboring expression element is similar to the meaning of a new expression element than the second neighboring expression element, the distance between the new expression element and the first neighboring expression element is the distance between the new expression element and the second neighboring expression element. The position of the new presentation element can be determined to be shorter. In this case, the semantic similarity between the expression elements may be obtained through context-based analysis, or may be obtained using various methods such as a questionnaire survey for a large number of people.
도 13은 본 발명의 일 실시예에 따른 표현요소의 유효성을 판단하는 과정을 나타낸 도면이다.13 is a view showing a process of determining the validity of the expression element according to an embodiment of the present invention.
도 9에 도시된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 추출된 표현요소의 유효성을 판단한다(S1310). 이때, 사용자가 선택한 객체에 대하여 추출된 표현요소가 유효하지 않은 경우, 유효하지 않은 표현요소를 제거한다(S1320). In the method of visualizing the expression element illustrated in FIG. 9, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the validity of the extracted expression element is determined (S1310). In this case, when the extracted expression element is not valid for the object selected by the user, the invalid expression element is removed (S1320).
이후, 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들 중 유효하지 않은 표현요소가 제거된 복수의 표현요소들을 시각화(S920)할 수 있다. 특정 표현요소의 유효하지 않은 것으로 판단하는 기준으로는 특정 표현요소의 의미가 다른 표현요소들과 현저히 다르거나, 특정 표현요소의 빈도가 기준값 미만으로 현저하게 적게 나타나거나, 또는 특정 표현요소가 특정 콘텐츠만이 아닌 다수의 콘텐츠에 변별력 없이 일정한 비율로 나타나는 경우(이 경우에는 진정한 리뷰라기보다는 기계적으로 반복되는 홍보, 또는 공지 사항 등일 수가 있음) 등을 들 수 있다.Thereafter, based on the distribution based on the semantic distance between the extracted plurality of expression elements, a plurality of expression elements from which invalid expression elements are removed from among the plurality of extracted expression elements may be visualized (S920). As a criterion for determining that an expression element is not valid, the meaning of the expression element is significantly different from other expression elements, the frequency of the expression element is markedly less than the reference value, or the expression element expresses specific content. This may include a case where a plurality of contents appear at a constant rate without discrimination (in this case, they may be mechanically repeated promotions or announcements rather than true reviews).
도 14는 본 발명의 일 실시예에 따른 표현요소의 유효성을 표현요소의 빈도수를 기준을 판단하는 과정을 나타낸 도면이다.14 is a view showing a process of determining the criterion of the frequency of the expression element of the validity of the expression element according to an embodiment of the present invention.
도 13에서 설명된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 추출된 표현요소들의 코멘트 데이터 내에서 추출된 빈도수를 측정한다(S1410).In the method of visualizing the expression element described in FIG. 13, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency extracted in the comment data of the extracted expression elements is measured ( S1410).
이후, 표현요소의 빈도수를 이용하여 추출된 표현요소의 유효성을 판단한다(S1310). 이때, 사용자가 선택한 객체에 대하여 추출된 표현요소가 유효하지 않은 경우, 유효하지 않은 표현요소를 제거한다(S1320).Thereafter, the validity of the extracted expression element is determined using the frequency of the expression element (S1310). In this case, when the extracted expression element is not valid for the object selected by the user, the invalid expression element is removed (S1320).
도 15는 본 발명의 일 실시예에 따른 표현요소의 유효성을 판단하는 과정을 구체화하여 나타낸 순서도이다.15 is a flowchart illustrating a process of determining the validity of expression elements according to an embodiment of the present invention.
도 9에 도시된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 추출된 표현요소가 사용자가 선택한 객체 외의 다른 객체에서 추출되는 빈도수를 식별한다(S1510). 이후, 추출된 표현요소가 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정하고(S1520), 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출된 표현요소에 대하여 가중치를 조정한다(S1530). 이후, 추출된 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화(S920)한다.In the method of visualizing the expression element illustrated in FIG. 9, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the extracted expression element is extracted from an object other than the object selected by the user. Identify (S1510). Then, it is determined whether the extracted expression element is extracted more than a certain frequency from a certain number of objects other than the object selected by the user (S1520), and for the expression element extracted more than a certain frequency from a certain number of objects. The weight is adjusted (S1530). Thereafter, the plurality of extracted expression elements are visualized based on the distribution based on the semantic distance between the extracted expression elements (S920).
이에 따라 표현요소가 모든 객체(콘텐츠)에 대하여 변별력 없이 동등하게 나타나는 경우, 유효하지 않는 것으로 간주할 수 있다.Accordingly, if the presentation elements appear equally without discriminating with respect to all objects (contents), they can be regarded as invalid.
도 16은 본 발명의 일 실시예에 따른 특정 표현요소가 집중되어 있는 경우 표현요소의 영향력을 조절하는 방법에 대한 순서도를 나타낸 도면이다.16 is a flowchart illustrating a method of controlling the influence of an expression element when a specific expression element is concentrated according to an embodiment of the present invention.
도 9에 도시된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 표현요소가 추출된 빈도수를 측정한다(S1610). 이후, 측정된 빈도수에 따라 측정된 빈도수에 가중치를 부여하여, 측정된 빈도수를 조정한다(S1620). 이때, 조정된 빈도수를 반영하여 표현요소들을 시각화할 수 있다(S920).In the method of visualizing the expression element illustrated in FIG. 9, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the expression element is extracted is measured (S1610). Thereafter, the weighted frequency is weighted according to the measured frequency, and the measured frequency is adjusted (S1620). In this case, the expression elements may be visualized by reflecting the adjusted frequency (S920).
이에 따라, 특정 표현요소가 특정 콘텐츠에 과다 집중되어 나타나는 경우에 가중치를 조정하여 특정 표현요소의 영향력을 조절할 수 있다. 즉, 특정 표현요소가 과도하게 집중되어 나타나는 경우, 그로 인하여 다른 표현요소들의 영향력이 지나치게 과소평가될 우려가 있기 때문에 특정 표현요소의 영향력을 조절하는 경우이다.Accordingly, when a specific expression element is excessively concentrated in a specific content, the influence of the specific expression element may be adjusted by adjusting the weight. That is, when a certain expression element is excessively concentrated, the influence of other expression elements may be excessively underestimated, thereby adjusting the influence of the specific expression element.
도 17은 본 발명의 일 실시예에 따른 특정 표현요소가 특정 객체에서 실제로 나타나는 빈도수가 낮은 경우 가중치를 부여하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 17 is a flowchart illustrating a method for assigning a weight when a frequency of a specific expression element actually appears in a specific object according to an embodiment of the present invention.
도 9에 도시된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하고(S910), 코멘트 데이터에서 표현요소가 추출된 빈도수를 측정한다(S1710). 이후, 사용자가 선택한 객체에서 표현요소가 출현하는 빈도수와 측정된 빈도수를 비교하여(S1720), 사용자가 선택한 객체에서 표현요소가 출현하는 빈도수와 측정된 빈도수의 비교 결과에 따라, 표현요소가 추출된 빈도수에 가중치를 부여하여 측정된 빈도수를 조정한다(S1730).In the method of visualizing the expression element illustrated in FIG. 9, a plurality of expression elements are extracted from the comment data collected for the object selected by the user (S910), and the frequency at which the expression element is extracted from the comment data is measured (S1710). Then, by comparing the frequency in which the expression element appears in the object selected by the user and the measured frequency (S1720), the expression element is extracted according to a result of comparing the frequency of occurrence of the expression element in the object selected by the user with the measured frequency. The measured frequency is adjusted by weighting the frequency (S1730).
이에 따라, 특정 표현요소가 특정 객체(콘텐츠/영화)에서 실제로 나타나는 빈도수와 코멘트 데이터에서 나타나는 빈도수를 비교하여 코멘트 데이터에서 나타나는 빈도수가 낮은 경우에는 낮은 가중치를 부여할 수 있다.Accordingly, when the frequency of appearance of the comment data is low by comparing the frequency of appearance of the expression data with the frequency of appearance of the specific object (content / movie) and the comment data, a low weight may be given.
도 18은 본 발명의 일 실시예에 따른 표현요소를 미리 저장된 표준형의 표현요소로 매핑하고 빈도수를 측정하는 방법에 대한 순서도를 나타낸 도면이다.FIG. 18 is a flowchart illustrating a method of mapping an expression element to a representation element of a pre-stored standard type and measuring a frequency according to an embodiment of the present invention.
도 10에 도시된 표현요소를 시각화 하는 방법에서 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출(S910)할 때, 표준화된 표현요소가 미리 저장된 데이터베이스 내에 추출된 표현요소가 저장되어 있는지 여부를 탐색하고(S911), 추출된 표현요소가 데이터베이스 내에 저장되어 있지 않으면, 추출된 표현요소와 가장 의미 거리가 가까운 상기 데이터베이스 상의 표준화된 표현요소를 추출된 표현요소의 대표 표현요소로 식별한다(S912).When extracting a plurality of expression elements from the comment data collected for the object selected by the user in the method of visualizing the expression element shown in FIG. If the extracted expression element is not stored in the database, the standardized expression element on the database closest to the extracted expression element is identified as the representative expression element of the extracted expression element. (S912).
이후, 추출된 표현요소들의 코멘트 데이터 내에서 추출된 빈도수를 측정할 때(S930), 추출된 표현요소가 코멘트 데이터 내에서 추출된 빈도수를 식별된 대표 표현요소가 코멘트 데이터 내에서 추출된 빈도수에 합산하고, 추출된 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화할 때(S920), 대표 표현요소를 합산된 빈도수를 반영하여 시각화 한다.Then, when measuring the frequency extracted in the comment data of the extracted expression elements (S930), the frequency represented by the extracted expression element is extracted in the comment data, summed up to the frequency that the identified representative expression element is extracted in the comment data Then, when visualizing the plurality of extracted expression elements based on the distribution based on the semantic distance between the extracted expression elements (S920), the representative expression elements are visualized by reflecting the summed frequency.
이에 따라, 표현요소가 표준형이 아닌 경우, 감정어휘사전 상에 저장된(미리 저장된 데이터베이스 내에) 표준형의 표현요소로 매핑하고, 매핑된 감정어휘사전 상의 표준형의 표현요소 기준으로 각 객체의 코멘트 데이터에서의 빈도수를 측정할 수 있다.Accordingly, when the expression element is not a standard type, it is mapped to the expression element of the standard type stored in the emotional vocabulary dictionary (in a pre-stored database), and the comment data of each object is based on the expression element of the standard type in the mapped emotional vocabulary dictionary. Frequency can be measured.
도 19는 본 발명의 일 실시예에 따른 표현요소를 시각화 하는 시스템을 나타낸 도면이다.19 is a diagram illustrating a system for visualizing an expression element according to an embodiment of the present invention.
표현요소를 시각화 하는 시스템(1900)은, 예를 들어 컴퓨팅 시스템일 수 있으며, 스토리지 장치(1910) 및 프로세서(1920)를 포함한다. 이때, 프로세서(1920)는 표현요소 추출부(1930), 빈도수 측정부(1940), 유효성 판단부(1950), 시각화부(1960)를 포함한다.The system 1900 for visualizing an expression element may be, for example, a computing system and includes a storage device 1910 and a processor 1920. In this case, the processor 1920 may include an expression element extractor 1930, a frequency measurer 1940, a validity determiner 1950, and a visualization unit 1960.
스토리지 장치는(1910)는 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하고, 표현요소 추출부(1930)는 스토리지 장치(1910)에 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하여 시각화부(1960)에서 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화 한다.The storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
또한, 빈도수 측정부(1940)에서 추출된 표현요소들의 코멘트 데이터 내에서 추출된 빈도수를 측정하는 경우 시각화부(1960)는 추출된 표현요소들을 측정된 표현요소들의 빈도수에 따라 시각화 할 수도 있으며, 이때, 유효성 판단부(1950)가 추출된 표현요소의 유효성을 판단하고, 사용자가 선택한 객체에 대하여 추출된 표현요소가 유효하지 않은 경우, 유효하지 않은 표현요소를 제거할 수도 있다.In addition, when measuring the frequency extracted in the comment data of the expression elements extracted by the frequency measuring unit 1940, the visualization unit 1960 may visualize the extracted expression elements according to the frequency of the measured expression elements, The validity determination unit 1950 may determine the validity of the extracted expression element, and if the extracted expression element is not valid for the object selected by the user, the invalid expression element may be removed.
또한, 빈도수 측정부(1940)는 표현요소 추출부(1930)에서 추출된 표현요소가 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하여, 추출된 표현요소가 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정할 수 있다.In addition, the frequency measuring unit 1940 may identify a frequency at which the expression element extracted by the expression element extractor 1930 is extracted from an object other than the object selected by the user, so that the extracted expression element is different from the object selected by the user. It may be determined whether the object is extracted with a predetermined frequency or more from a predetermined number or more of objects.
이때, 객체에 대한 코멘트 데이터는 영화에 대한 리뷰, 상품에 대한 상품평, 소설 리뷰, 게임 리뷰, 여행 리뷰, 서비스에 대한 평가 등 사람들의 감정이 포함되는 모든 코멘트 데이터를 의미한다.In this case, the comment data on the object refers to all comment data including emotions of people, such as reviews on movies, product reviews, novel reviews, game reviews, travel reviews, and services.
또한, 표현요소는 코멘트 데이터에서 추출되는 사람들의 감정을 나타내는 단어, 문단, 이모티콘 등을 포함하고, 복수의 표현요소들간의 의미 거리에 기반한 분포에 기초하여 도 1 내지 도 4에서 설명된 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)을 기반으로 히트맵(Heat-map) 형태 또는 등고선 등의 모양으로 시각화할 수 있다.In addition, the expression elements include words, paragraphs, emoticons, etc., which represent the emotions of people extracted from the comment data, and the multi-dimensional scale analysis described with reference to FIGS. 1 to 4 based on a distribution based on the semantic distance between the plurality of expression elements. Based on a multi-dimensional scaling map (MDS map), it can be visualized in the form of a heat map or a contour.
도 20은 본 발명의 일 실시예에 따른 신규 표현요소를 확인하여 표현요소를 시각화 하는 시스템을 나타낸 도면이다.20 is a diagram illustrating a system for visualizing a presentation element by identifying a new presentation element according to an embodiment of the present invention.
신규 표현요소를 확인하여 표현요소를 시각화 하는 시스템(1900)은 스토리지 장치(1910) 및 프로세서(1920)를 포함한다. 이때, 프로세서(1920)는 표현요소 추출부(1930), 표현요소 비교부(1970), 신규 표현요소 확인부(1980), 시각화부(1960)를 포함한다.The system 1900 for identifying new representations and visualizing the representations includes a storage device 1910 and a processor 1920. In this case, the processor 1920 includes an expression element extraction unit 1930, an expression element comparison unit 1970, a new expression element checking unit 1980, and a visualization unit 1960.
스토리지 장치는(1910)는 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하고, 표현요소 추출부(1930)는 스토리지 장치(1910)에 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하여 시각화부(1960)에서 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화 한다.The storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
이때, 표현요소 비교부(1970)는 표현요소 추출부(1930)에서 추출된 표현요소들과 기존에 추출된 표현요소들을 비교하고, 신규 표현요소 확인부(1980)는 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인한다.In this case, the expression element comparator 1970 compares the expression elements extracted by the expression element extraction unit 1930 with the existing expression elements, and the new expression element checking unit 1980 is new among the extracted expression elements. Checks whether a presentation element has been added.
도 21은 본 발명의 일 실시예에 따른 표현요소의 빈도수를 측정 및 조정하여 표현요소를 시각화 하는 시스템을 나타낸 도면이다.21 is a diagram illustrating a system for visualizing an expression element by measuring and adjusting a frequency of the expression element according to an embodiment of the present invention.
표현요소를 시각화 하는 시스템(1900)은 스토리지 장치(1910) 및 프로세서(1920)를 포함한다. 이때, 프로세서(1920)는 표현요소 추출부(1930), 표현요소 비교부(1970), 신규 표현요소 확인부(1980), 시각화부(1960)를 포함한다.The system 1900 for visualizing a representation includes a storage device 1910 and a processor 1920. In this case, the processor 1920 includes an expression element extraction unit 1930, an expression element comparison unit 1970, a new expression element checking unit 1980, and a visualization unit 1960.
스토리지 장치는(1910)는 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하고, 표현요소 추출부(1930)는 스토리지 장치(1910)에 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하여 시각화부(1960)에서 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 추출된 복수의 표현요소들을 시각화 한다.The storage device 1910 stores comment data on the object selected by the user, and the expression element extractor 1930 extracts a plurality of expression elements from the comment data stored in the storage device 1910 to the visualization unit 1960. Visualize the plurality of extracted presentation elements based on the distribution based on the semantic distance between the extracted plurality of presentation elements.
빈도수 측정부(1940)는 표현요소 추출부(1930)에서 추출된 표현요소가 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하여, 추출된 표현요소가 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정할 수 있다.The frequency measurer 1940 identifies a frequency at which the expression element extracted by the expression element extractor 1930 is extracted from an object other than the object selected by the user, and the extracted expression element is selected from objects other than the object selected by the user. It may be determined whether or not the object is extracted more than a certain frequency from a certain number of objects.
이때, 빈도수 조정부(1990)는 측정된 표현요소의 빈도수에 따라 표현요소의 빈도수에 따라 표현요소의 빈도수에 가중치를 부여하여, 표현요소의 빈도수를 조정할 수 있다.In this case, the frequency adjusting unit 1990 may adjust the frequency of the expression element by assigning a weight to the frequency of the expression element according to the frequency of the expression element according to the measured frequency of the expression element.
이때, 시각화부(1960)는 빈도수 조정부(1990)에서 조정된 빈도수를 반영하여 표현요소들을 시각화할 수 있다.In this case, the visualization unit 1960 may visualize the expression elements by reflecting the frequency adjusted by the frequency adjustment unit 1990.
이에 따라, 특정 표현요소가 특정 콘텐츠에 과하게 집중되어 나타나는 경우에도 가중치를 낮추어 그 표현요소의 영향력을 조절할 수 있다.Accordingly, even when a particular expression element appears excessively concentrated in a specific content, the weight may be lowered to control the influence of the expression element.
또한, 빈도수 측정부(1940)는 저장된 코멘트 데이터에서 표현요소가 추출된 빈도수를 측정하고, 사용자가 선택한 객체에서 표현요소가 출현하는 빈도수와 식별된 빈도수를 비교할 수 있으며, 이때, 빈도수 조정부(1990)는 사용자가 선택한 객체에서 표현요소가 출현하는 빈도수와 식별된 빈도수의 비교 결과에 따라, 표현요소가 추출된 빈도수에 가중치를 부여하여 표현요소가 추출된 빈도수를 조정할 수 있다.In addition, the frequency measuring unit 1940 may measure the frequency at which the expression element is extracted from the stored comment data, and compare the frequency with which the expression element appears in the object selected by the user and the identified frequency. In this case, the frequency adjusting unit 1990 According to a result of comparing the frequency of occurrence of the expression element and the identified frequency in the object selected by the user, the frequency of extracting the expression element may be adjusted by weighting the frequency from which the expression element is extracted.
이에 따라, 특정 표현요소가 특정 객체(콘텐츠/영화)에서 실제로 나타나는 빈도수와 코멘트 데이터에서 나타나는 빈도수를 비교하여 코멘트 데이터에서 나타나는 빈도수가 낮은 경우에는 낮은 가중치를 부여할 수 있다.Accordingly, when the frequency of appearance of the comment data is low by comparing the frequency of appearance of the expression data with the frequency of appearance of the specific object (content / movie) and the comment data, a low weight may be given.
도 22는 본 발명의 일 실시예에 따른 표현요소 추출부를 상세히 나타낸 도면이다.22 is a view showing in detail the expression element extraction unit according to an embodiment of the present invention.
도 19 내지 도 21에 기재된 표현요소 추출부(1930)는 표현요소 탐색부(1931)와 표현요소 식별부(1932)를 포함한다.The expression element extractor 1930 illustrated in FIGS. 19 to 21 includes an expression element search unit 1931 and an expression element identification unit 1932.
표현요소 탐색부(1931)는 표준화된 표현요소가 미리 저장된 데이터베이스 내에, 추출된 표현요소가 저장되어 있는지 여부를 탐색하고, 표현요소 식별부(1932)는 추출된 표현요소가 데이터베이스 내에 저장되어 있지 않으면, 추출된 표현요소와 가장 의미 거리가 가까운 데이터베이스 상의 표준화된 표현요소를 추출된 표현요소의 대표 표현요소로 식별한다.The expression element searching unit 1931 searches whether the extracted expression element is stored in the database in which the standardized expression element is stored in advance, and the expression element identification unit 1932 determines whether the extracted expression element is not stored in the database. In this case, the standardized presentation elements in the database that are closest to the extracted presentation elements are identified as representative presentation elements of the extracted presentation elements.
이때, 빈도수 측정부(1940)는 추출된 표현요소가 코멘트 데이터 내에서 추출된 빈도수를 식별된 대표 표현요소가 코멘트 데이터 내에서 추출된 빈도수에 합산하고, 시각화부(1960)는 대표 표현요소를 합산된 빈도수에 반영하여 시각화한다.In this case, the frequency measuring unit 1940 adds the extracted frequency of the extracted expression elements in the comment data to the frequency in which the identified representative expression elements are extracted in the comment data, and the visualization unit 1960 adds up the representative expression elements. Visualize the reflected frequency.
이에 따라, 표현요소가 표준형이 아닌 경우, 감정어휘사전 상에 저장된(미리 저장된 데이터베이스 내에) 표준형의 표현요소로 매핑하고, 그 매핑된 감정어휘사전 상의 표준형의 표현요소 기준으로 각 객체의 코멘트 데이터에서의 빈도수를 측정할 수 있다.Accordingly, when the expression element is not a standard type, it is mapped to the expression element of the standard type stored in the emotional vocabulary dictionary (in a pre-stored database), and in the comment data of each object based on the expression element of the standard type in the mapped emotional vocabulary dictionary. The frequency of can be measured.
도 23 내지 도 27는 본 발명의 일 실시예에 따라 각기 다른 시각화 방법을 나타낸 도면이다.23 to 27 are views showing different visualization methods according to an embodiment of the present invention.
도 23은 본 발명의 일 실시예에 따라 히트맵 형태 외에 시각화 그래프로서, 본 발명을 산점도(Scatter plot) 형태로 나타낸 그래프이며, 이 경우에는 표현어휘의 빈도수에 따라 빈도수가 많을수록 색상이 붉게 표현될 수 있다. 도 24는 Small Multiples 형태로 나타낸 그래프이다.23 is a visualization graph in addition to a heat map form according to an embodiment of the present invention, which is a graph showing the present invention in the form of a scatter plot. In this case, as the frequency increases, the color becomes more red according to the frequency of the expression. Can be. 24 is a graph in the form of Small Multiples.
도 25는 본 발명을 등고선(Contour Lines) 형태로 나타낸 도면이며, 이 경우에는 표현어휘의 빈도수에 따라 빈도수가 많을수록 상대적으로 높은 값을 가지게 되어 높이가 높게 표현될 수 있다. 도 26는 코로플레스 맵(Choropleth Maps)으로 나타낸 도면이다. 이 경우에는 본 발명이 반드시 직사각형의 정형화된 형태에서 벗어나 지도의 일부분 등 자연지형 또는 자연물의 형상에서도 구현될 수 있다. FIG. 25 is a diagram illustrating the present invention in the form of contour lines. In this case, the higher the frequency according to the frequency of the expression vocabulary, the higher the value. FIG. 26 is a diagram of Choropleth Maps. In this case, the present invention may be embodied in a natural topography or a natural shape such as a part of a map, not necessarily in a rectangular form.
도 27은 통계지도(Cartograms)로 본 발명을 나타낸 도면이며, 이 경우에는 사용자가 선택한 코멘트 데이터 또는 의견에 따라서 시·도·군에 따라 각각의 표현어휘가 나오는 경우 높은 빈도의 표현어휘를 사용자에게 제공하여 사용자가 선택한 높은 빈도의 표현어휘가 지도상에 표시되도록 표현할 수도 있다.FIG. 27 is a diagram illustrating the present invention with statistical maps. In this case, when each expression vocabulary is generated according to the city, province, or group according to the comment data or the opinion selected by the user, the expression vocabulary with high frequency is presented to the user. In addition, the high frequency expression vocabulary selected by the user may be displayed on the map.
도 28는 본 발명의 일 실시예에 따른 히트맵(Heat-map) 시각화 방법을 3차원으로 응용하여 나타낸 도면이다.FIG. 28 is a diagram illustrating a three-dimensional application of a heat map visualization method according to an embodiment of the present invention.
본 발명에서 기재된 히트맵(Heat-map) 형태의 시각화는 2차원 평면상에 나타내고 있지만 같은 성질을 유지하면서 3차원과 같은 입체적인 형태로도 변형이 가능하다.Heat-map visualization described in the present invention is shown on a two-dimensional plane, but can be transformed into a three-dimensional form such as three-dimensional while maintaining the same properties.
표현요소의 빈도수에 따라 차원의 변형, 각도, 픽셀의 크기, 색상을 조절할 수 있으며, 도 28은 본 발명에서 기재된 히트맵(Heat-map) 형태를 3차원 형태로 나타낸 도면이다.The deformation of the dimension, the angle, the size of the pixel, and the color may be adjusted according to the frequency of the expression elements, and FIG. 28 is a diagram illustrating a heat-map form described in the present invention in a three-dimensional form.
도 29는 본 발명의 일 실시예에 따른 표현요소 시각화 방법을 등고선으로 나타낸 도면이다.29 is a diagram illustrating a representation element visualization method according to an embodiment of the present invention with a contour line.
도 29는 표현어휘의 빈도수에 따라 2차원 등고선으로 나타낸 도면으로, 표현어휘의 빈도수에 따라 등고선의 색상 및 크기를 조절할 수 있다.29 is a diagram illustrating two-dimensional contour lines according to the frequency of the expression vocabulary, and the color and size of the contour line may be adjusted according to the frequency of the expression vocabulary.
도 30은 도 29에 도시한 등고선 맵을 3차원으로 나타낸 도면이다. FIG. 30 is a view showing the contour map shown in FIG. 29 in three dimensions.
도 30는 도 29에 도시된 2차원 등고선 맵을 표현어휘의 빈도수에 따라 3차원 등고선으로 나타낸 도면으로, 표현어휘의 빈도수에 따라 등고선의 색상, 높낮이 및 크기를 조절할 수 있다.FIG. 30 is a diagram illustrating the two-dimensional contour map illustrated in FIG. 29 as three-dimensional contour lines according to the frequency of the expression vocabulary. The color, height, and size of the contour line may be adjusted according to the frequency of the expression vocabulary.
도 31 내지 도 33은 본 발명의 일 실시예에 따른 의미지도를 기반으로 한 활용 방법을 나타낸 도면이다.31 to 33 are diagrams illustrating a utilization method based on a semantic map according to an embodiment of the present invention.
도 31은 본 발명에서 사용되는 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)를 포지셔닝을 활용하는 일 실시예를 나타내며, MDS맵 포지셔닝은 2개의 축을 사용하여 4가지 속성을 나타내는 기존의 포지셔닝에 비하여 MDS맵 상에 나타난 다양한 속성을 기준으로 다차원의 포지셔닝이 가능하다. FIG. 31 illustrates an embodiment utilizing positioning of a multi-dimensional scaling map (MDS map) used in the present invention, and MDS map positioning is based on conventional positioning using four axes. In comparison, multi-dimensional positioning is possible based on various properties displayed on the MDS map.
자동차 기업을 예로 들면, 2사분면에 위치한 Audi의 경우 BMW와 같은 사분면에 위치하여 있지만 좀더 미래 지향적인(Future-oriented)의 이미지에 가깝게 위치해 있는 것을 알 수 있다. 마찬가지로 4사분면에 위치한 SM의 경우 KIA에 비해 편안한(Relaxed) 이미지에 좀더 가까운 것을 알 수 있다. For example, in the second quadrant, Audi is located in the same quadrant as BMW, but closer to the future-oriented image. Similarly, in the quadrant 4, the SM is closer to the relaxed image than the KIA.
이러한 MDS Map을 활용한 포지셔닝은 기업 이미지뿐만 아니라 MDS상에 나타나는 특징에 따라 도 32 및 도33과 같이 상품, 인물 및 캐릭터의 이미지 포지셔닝에도 활용이 가능하다.Positioning using the MDS Map can be used for image positioning of goods, people and characters as shown in Figs.
상술한 본 발명의 실시예들은 하나의 객체(콘텐츠)에 대한 코멘트(리뷰) 데이터로부터 추출된 표현요소(어휘, 이모티콘, 감정, 평가, 의견을 포함하는 요소)를 중심으로 기술되었다. 그러나 본 발명의 사상은 하나의 객체에 대한 코멘트 데이터의 표현요소를 하나의 감정지도 안에서 직관적으로 표현하는 경우에 한정되는 것은 아니다.The above-described embodiments of the present invention have been described based on expression elements (elements including vocabulary, emoticons, emotions, evaluations, and opinions) extracted from comment (review) data for one object (content). However, the spirit of the present invention is not limited to the case in which the expression element of the comment data for one object is intuitively expressed in one emotion map.
즉, 본 발명의 또 다른 실시예에 따르면 사용자에 의한 편집 메뉴 또는 둘 이상의 객체에 대한 비교 분석 기능을 제공하는 메뉴가 제공될 수 있다. 이 때 사용자는 제1 객체와 제2 객체를 선택하여 제1 객체에 대한 리뷰 내의 표현요소들과 제2 객체에 대한 리뷰 내의 표현요소들을 비교할 수 있다. 이 때 비교 메뉴로는 제1 객체에 대한 리뷰 내의 표현요소들과 제2 객체에 대한 리뷰 내의 표현요소들 간의 집합 연산(합집합, 교집합, 차집합) 등을 수행하여 양 집합을 비교할 수 있으며, 교집합, 합집합 또는 차집합에 대하여 다시 시각화를 실행할 수 있는 re-draw 메뉴도 제공될 수 있다.That is, according to another embodiment of the present invention, an edit menu by a user or a menu providing a comparative analysis function of two or more objects may be provided. In this case, the user may select the first object and the second object to compare the presentation elements in the review for the first object with the presentation elements in the review for the second object. In this case, the comparison menu may perform a set operation (set, intersection, difference) between the expression elements in the review for the first object and the expression elements in the review for the second object, and compare the two sets. In addition, a re-draw menu may be provided to re-visualize the union or subset.
또한 동일한 객체에 대해서도 하나의 시각화 데이터만이 존재하는 것이 아니고, 시계열적인 버전 관리에 따라 둘 이상의 시간 버전(또는 시간 레이어)에 따른 시각화 버전이 존재할 수도 있으며, 시간에 따른 노드의 위치와 속성의 변화를 추적할 수도 있다. 이 때 시간에 따른 각 노드(표현요소)의 속성은 면적, 색상 등으로 나타내어질 수 있으며, 빈도, 집중도 등을 반영할 수 있다. 이를 테면 히트맵(Heat-Map)이 그 하나의 예가 될 수 있음은 앞에서 설명한 바와 같다.In addition, only one visualization data exists for the same object, and there may be visualization versions according to two or more time versions (or time layers) according to time series versioning, and the position and properties of nodes change over time. You can also track. At this time, the attributes of each node (expression element) according to time may be represented by area, color, etc., and may reflect frequency, concentration, and the like. For example, a heat map may be an example of the same as described above.
본 발명의 일 실시 예에 따른 표현요소 시각화 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 본 발명의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.Expression element visualization method according to an embodiment of the present invention is implemented in the form of program instructions that can be executed by various computer means may be recorded on a computer readable medium. The computer readable medium may include program instructions, data files, data structures, etc. alone or in combination. Program instructions recorded on the media may be those specially designed and constructed for the purposes of the present invention, or they may be of the kind well-known and available to those having skill in the computer software arts. Examples of computer-readable recording media include magnetic media such as hard disks, floppy disks, and magnetic tape, optical media such as CD-ROMs, DVDs, and magnetic disks, such as floppy disks. Magneto-optical media, and hardware devices specifically configured to store and execute program instructions, such as ROM, RAM, flash memory, and the like. Examples of program instructions include not only machine code generated by a compiler, but also high-level language code that can be executed by a computer using an interpreter or the like. The hardware device described above may be configured to operate as one or more software modules to perform the operations of the present invention, and vice versa.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.In the present invention as described above has been described by the specific embodiments, such as specific components and limited embodiments and drawings, but this is provided to help a more general understanding of the present invention, the present invention is not limited to the above embodiments. For those skilled in the art, various modifications and variations are possible from these descriptions.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니 되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.Therefore, the spirit of the present invention should not be limited to the described embodiments, and all of the equivalents and equivalents of the claims, as well as the following claims, will fall within the scope of the present invention. .
본 발명은 객체의 코멘트 데이터에서 수집된 표현요소를 이용한 시각화 방법 및 시스템에 관한 기술로, 예를 들어, 객체가 하나의 콘텐츠라면, 콘텐츠를 소비하는 소비자가 객체에 대하여 감정 또는 의견을 표현한 코멘트에 나타나는 표현요소를 시각화하는 기술에 관한 것이다.The present invention relates to a visualization method and system using expression elements collected from object data. For example, if an object is one piece of content, the consumer who consumes the content is in a comment expressing feelings or opinions about the object. It relates to a technique for visualizing the presentation elements that appear.
본 발명은 객체에 대하여 사용자 코멘트에서 나타나는 사용자의 감정 또는 의견이 표현된 표현요소를 시각적으로 구현하는 것으로 기존의 객체 정보가 제공하는 제작회사, 가격 등 객관적인 정보 뿐만 아니라 사용자가 객체를 이용함으로써 느끼는 감정, 또는 의견을 표현한 표현요소를 분석하여 객체를 새로이 이용하려는 사용자에게 객체 선택의 기준으로 삼을 수 있는 정보를 제공할 수 있다.The present invention is to visually implement the expression element expressing the user's emotion or opinion expressed in the user's comments on the object, as well as the objective information such as the manufacturer, price, etc. provided by the existing object information, as well as the emotion that the user feels by using the object. By analyzing the expression elements expressing, or opinions, information that can be used as a basis for object selection can be provided to a user who wants to use the object newly.

Claims (21)

  1. 사용자가 선택한 객체에 대하여 수집된 코멘트 데이터에서 복수의 표현요소들을 추출하는 단계; 및Extracting a plurality of presentation elements from the comment data collected for the object selected by the user; And
    상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 단계;Visualizing the extracted plurality of presentation elements based on a distribution based on a semantic distance between the extracted plurality of presentation elements;
    를 포함하는 데이터 시각화 방법.Data visualization method comprising a.
  2. 제1항에 있어서,The method of claim 1,
    상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계;Measuring a frequency extracted in the comment data of the extracted expression elements;
    를 더 포함하고,More,
    상기 표현요소들을 시각화하는 단계는Visualizing the presentation elements
    상기 추출된 표현요소들을 상기 측정된 표현요소들의 빈도수에 따라 시각화 하는 것을 특징으로 하는 데이터 시각화 방법.And visualize the extracted expression elements according to the frequency of the measured expression elements.
  3. 제1항에 있어서,The method of claim 1,
    상기 표현요소들을 추출하는 단계 이후에,After extracting the presentation elements,
    상기 추출된 표현요소들과 기존에 추출된 표현요소들을 비교하는 단계; 및Comparing the extracted expression elements with previously extracted expression elements; And
    상기 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인하는 단계Checking whether a new expression element of the extracted expression elements is added;
    를 더 포함하는 데이터 시각화 방법.Data visualization method further comprising.
  4. 제3항에 있어서,The method of claim 3,
    상기 표현요소들을 시각화하는 단계는Visualizing the presentation elements
    상기 추출된 표현요소들 중 신규한 표현요소가 추가된 경우, 상기 기존에 추출된 표현요소들 중 상기 신규한 표현요소와 의미 거리가 일정 기준 이내인 하나 이상의 인접 표현요소를 결정하는 단계;When a new expression element of the extracted expression elements is added, determining one or more adjacent expression elements whose semantic distance from the existing expression elements is within a predetermined criterion;
    상기 결정된 하나 이상의 인접 표현요소들로부터의 의미 거리에 기반하여 상기 신규한 표현요소의 의미상 위치를 결정하는 단계; Determining a semantically position of the new representation element based on the determined semantic distance from the one or more adjacent representation elements;
    를 포함하는 데이터 시각화 방법.Data visualization method comprising a.
  5. 제1항에 있어서,The method of claim 1,
    상기 표현요소들을 추출하는 단계 이후에, After extracting the presentation elements,
    상기 추출된 표현요소의 유효성을 판단하는 단계; 및Determining the validity of the extracted expression element; And
    상기 사용자가 선택한 객체에 대하여 상기 추출된 표현요소가 유효하지 않은 경우, 상기 유효하지 않은 표현요소를 제거하는 단계;If the extracted expression element is invalid for the object selected by the user, removing the invalid expression element;
    를 더 포함하는 데이터 시각화 방법.Data visualization method further comprising.
  6. 제5항에 있어서,The method of claim 5,
    상기 표현요소들을 추출하는 단계 이후에, After extracting the presentation elements,
    상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 단계;Measuring a frequency extracted in the comment data of the extracted expression elements;
    를 더 포함하고,More,
    상기 추출된 표현요소의 유효성을 판단하는 단계는Determining the validity of the extracted expression element is
    상기 추출된 표현요소의 측정된 빈도수를 반영하여 상기 추출된 표현요소의 유효성을 판단하는 것을 특징으로 하는 데이터 시각화 방법.And determining the validity of the extracted expression element by reflecting the measured frequency of the extracted expression element.
  7. 제1항에 있어서,The method of claim 1,
    상기 표현요소들을 추출하는 단계 이후에,After extracting the presentation elements,
    상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하는 단계; 및Identifying a frequency with which the extracted expression element is extracted from an object other than the object selected by the user; And
    상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정하는 단계; Determining whether the extracted expression element is extracted at a predetermined frequency or more from a predetermined number or more of objects other than the object selected by the user;
    를 더 포함하는 데이터 시각화 방법.Data visualization method further comprising.
  8. 제1항에 있어서,The method of claim 1,
    상기 표현요소들을 추출하는 단계 이후에,After extracting the presentation elements,
    상기 표현요소가 추출된 빈도수를 측정하는 단계; 및Measuring a frequency at which the expression element is extracted; And
    상기 측정된 빈도수에 따라 상기 측정된 빈도수에 가중치를 부여하여, 상기 측정된 빈도수를 조정하는 단계;Adjusting the measured frequency by weighting the measured frequency according to the measured frequency;
    를 더 포함하고,More,
    상기 표현요소들을 시각화하는 단계는Visualizing the presentation elements
    상기 조정된 빈도수를 반영하여 상기 표현요소들을 시각화하는 것을 특징으로 하는 데이터 시각화 방법.And visualizing the expression elements by reflecting the adjusted frequency.
  9. 제1항에 있어서,The method of claim 1,
    상기 표현요소들을 추출하는 단계 이후에,After extracting the presentation elements,
    상기 코멘트 데이터에서 상기 표현요소가 추출된 빈도수를 측정하는 단계; Measuring a frequency at which the expression element is extracted from the comment data;
    상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수를 비교하는 단계; 및Comparing the frequency of occurrence of the expression element in the object selected by the user with the measured frequency; And
    상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 측정된 빈도수의 비교 결과에 따라, 상기 표현요소가 추출된 빈도수에 가중치를 부여하여 상기 측정된 빈도수를 조정하는 단계Adjusting the measured frequency by weighting a frequency from which the expression element is extracted according to a result of comparing the frequency of appearance of the expression element with the measured frequency in the object selected by the user;
    를 더 포함하는 데이터 시각화 방법.Data visualization method further comprising.
  10. 제2항에 있어서,The method of claim 2,
    상기 표현요소들을 추출하는 단계는Extracting the expression elements is
    표준화된 표현요소가 미리 저장된 데이터베이스 내에, 상기 추출된 표현요소가 저장되어 있는지 여부를 탐색하는 단계; 및Searching whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance; And
    상기 추출된 표현요소가 상기 데이터베이스 내에 저장되어 있지 않으면, 상기 추출된 표현요소와 가장 의미 거리가 가까운 상기 데이터베이스 상의 표준화된 표현요소를 상기 추출된 표현요소의 대표 표현요소로 식별하는 단계;If the extracted expression element is not stored in the database, identifying a standardized expression element on the database closest to the extracted expression element as a representative expression element of the extracted expression element;
    를 포함하고,Including,
    상기 빈도수를 측정하는 단계는Measuring the frequency is
    상기 추출된 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수를 상기 식별된 대표 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수에 합산하고,The frequency with which the extracted expression element is extracted in the comment data is added to the frequency with which the identified representative expression element is extracted in the comment data,
    상기 표현요소들을 시각화하는 단계는Visualizing the presentation elements
    상기 대표 표현요소를 상기 합산된 빈도수를 반영하여 시각화하는 것을 특징으로 하는 데이터 시각화 방법.And visualize the representative expression element by reflecting the summed frequency.
  11. 제2항에 있어서,The method of claim 2,
    상기 표현요소들을 시각화하는 단계는,Visualizing the presentation elements,
    상기 표현요소들을 포함하는 다차원척도 분석 지도(Multi-Dimensional Scaling map: MDS map)를 배경으로 하여 상기 표현요소들을 시각화하는 것을 특징으로 하는 데이터 시각화 방법. And visualizing the presentation elements against a background of a multi-dimensional scaling map (MDS map) including the presentation elements.
  12. 제1항 내지 제11항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록되어 있는 것을 특징으로 하는 컴퓨터에서 판독 가능한 기록 매체.A computer-readable recording medium in which a program for executing the method of any one of claims 1 to 11 is recorded.
  13. 사용자가 선택한 객체에 대한 코멘트 데이터를 저장하는 스토리지 장치;A storage device storing comment data on an object selected by a user;
    상기 저장된 코멘트 데이터에서 복수의 표현요소들을 추출하는 표현요소 추출부; 및An expression element extracting unit extracting a plurality of expression elements from the stored comment data; And
    상기 추출된 복수의 표현요소들 간의 의미 거리에 기반한 분포에 기초하여 상기 추출된 복수의 표현요소들을 시각화하는 시각화부;A visualization unit for visualizing the extracted plurality of expression elements based on a distribution based on a semantic distance between the extracted plurality of expression elements;
    를 포함하는 데이터 시각화 시스템.Data visualization system comprising a.
  14. 제13항에 있어서,The method of claim 13,
    상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 빈도수 측정부;A frequency measuring unit measuring a frequency extracted in the comment data of the extracted expression elements;
    를 더 포함하고,More,
    상기 시각화부는The visualization unit
    상기 추출된 표현요소들을 상기 측정된 표현요소들의 빈도수에 따라 시각화 하는 것을 특징으로 하는 데이터 시각화 시스템.And visualize the extracted expression elements according to the frequency of the measured expression elements.
  15. 제13항에 있어서,The method of claim 13,
    상기 추출된 표현요소들과 기존에 추출된 표현요소들을 비교하는 표현요소 비교부; 및An expression element comparison unit comparing the extracted expression elements with previously extracted expression elements; And
    상기 추출된 표현요소들 중 신규한 표현요소가 추가되었는지 여부를 확인하는 신규 표현요소 확인부;A new expression element checking unit for checking whether a new expression element is added among the extracted expression elements;
    를 더 포함하는 데이터 시각화 시스템.Data visualization system comprising more.
  16. 제13항에 있어서,The method of claim 13,
    상기 추출된 표현요소의 유효성을 판단하고, 상기 사용자가 선택한 객체에 대하여 상기 추출된 표현요소가 유효하지 않은 경우, 상기 유효하지 않은 표현요소를 제거하는 유효성 판단부;A validity determination unit that determines the validity of the extracted expression element and removes the invalid expression element when the extracted expression element is invalid for the object selected by the user;
    를 더 포함하는 데이터 시각화 시스템.Data visualization system comprising more.
  17. 제16항에 있어서,The method of claim 16,
    상기 추출된 표현요소들의 상기 코멘트 데이터 내에서 추출된 빈도수를 측정하는 빈도수 측정부;A frequency measuring unit measuring a frequency extracted in the comment data of the extracted expression elements;
    를 더 포함하고,More,
    상기 유효성 판단부는The validity determination unit
    상기 추출된 표현요소의 측정된 빈도수를 반영하여 상기 추출된 표현요소의 유효성을 판단하는 것을 특징으로 하는 데이터 시각화 시스템.And determining the validity of the extracted expression element by reflecting the measured frequency of the extracted expression element.
  18. 제13항에 있어서,The method of claim 13,
    상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체에서 추출되는 빈도수를 식별하여, 상기 추출된 표현요소가 상기 사용자가 선택한 객체 이외의 다른 객체 중 일정 수 이상의 객체에서 일정 빈도수 이상으로 추출되었는지 여부를 판정하는 빈도수 측정부; By identifying the frequency of the extracted expression element is extracted from an object other than the object selected by the user, whether the extracted expression element is extracted more than a certain frequency from a certain number of objects other than the object selected by the user A frequency measuring unit determining whether or not;
    를 더 포함하는 데이터 시각화 시스템.Data visualization system comprising more.
  19. 제13항에 있어서,The method of claim 13,
    상기 표현요소가 추출된 빈도수를 측정하고, 상기 측정된 빈도수에 따라 상기 표현요소의 빈도수에 가중치를 부여하여, 상기 표현요소의 빈도수를 조정하는 빈도수 조정부;A frequency adjusting unit for measuring a frequency of extracting the expression elements, and assigning a weight to the frequency of the expression elements according to the measured frequency to adjust the frequency of the expression elements;
    를 더 포함하고,More,
    상기 시각화부는The visualization unit
    상기 조정된 빈도수를 반영하여 상기 표현요소들을 시각화하는 것을 특징으로 하는 데이터 시각화 시스템.And visualize the presentation elements by reflecting the adjusted frequency.
  20. 제13항에 있어서,The method of claim 13,
    상기 저장된 코멘트 데이터에서 상기 표현요소가 추출된 빈도수를 측정하고, 상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 식별된 빈도수를 비교하는 빈도수 측정부; 및A frequency measuring unit measuring a frequency at which the expression element is extracted from the stored comment data and comparing the frequency of occurrence of the expression element in the object selected by the user with the identified frequency; And
    상기 사용자가 선택한 객체에서 상기 표현요소가 출현하는 빈도수와 상기 식별된 빈도수의 비교 결과에 따라, 상기 표현요소가 추출된 빈도수에 가중치를 부여하여 상기 표현요소가 추출된 빈도수를 조정하는 빈도수 조정부A frequency adjustment unit for adjusting the frequency at which the expression element is extracted by weighting the frequency at which the expression element is extracted according to a comparison result of the frequency of appearance of the expression element in the object selected by the user and the identified frequency;
    를 더 포함하는 데이터 시각화 시스템.Data visualization system comprising more.
  21. 제14항에 있어서,The method of claim 14,
    상기 표현요소 추출부는The expression element extraction unit
    표준화된 표현요소가 미리 저장된 데이터베이스 내에, 상기 추출된 표현요소가 저장되어 있는지 여부를 탐색하는 표현요소 탐색부; 및An expression element searching unit for searching whether the extracted expression element is stored in a database in which a standardized expression element is stored in advance; And
    상기 추출된 표현요소가 상기 데이터베이스 내에 저장되어 있지 않으면, 상기 추출된 표현요소와 가장 의미 거리가 가까운 상기 데이터베이스 상의 표준화된 표현요소를 상기 추출된 표현요소의 대표 표현요소로 식별하는 대표 표현요소 식별부;If the extracted expression element is not stored in the database, the representative expression element identification unit for identifying a standardized expression element on the database closest to the extracted expression element as a representative expression element of the extracted expression element ;
    를 포함하고,Including,
    상기 빈도수 측정부는The frequency measuring unit
    상기 추출된 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수를 상기 식별된 대표 표현요소가 상기 코멘트 데이터 내에서 추출된 빈도수에 합산하고,The frequency with which the extracted expression element is extracted in the comment data is added to the frequency with which the identified representative expression element is extracted in the comment data,
    상기 시각화부는The visualization unit
    상기 대표 표현요소를 상기 합산된 빈도수를 반영하여 시각화하는 것을 특징으로 하는 데이터 시각화 시스템.And visualize the representative expression element by reflecting the summed frequency.
PCT/KR2015/011861 2014-11-07 2015-11-05 Method and system for visualizing data using comment data of object WO2016072769A2 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020140154168A KR101602898B1 (en) 2014-11-07 2014-11-07 Data visualization method and system using comment data for objects
KR10-2014-0154168 2014-11-07

Publications (2)

Publication Number Publication Date
WO2016072769A2 true WO2016072769A2 (en) 2016-05-12
WO2016072769A3 WO2016072769A3 (en) 2016-06-30

Family

ID=55583104

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2015/011861 WO2016072769A2 (en) 2014-11-07 2015-11-05 Method and system for visualizing data using comment data of object

Country Status (2)

Country Link
KR (1) KR101602898B1 (en)
WO (1) WO2016072769A2 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101918208B1 (en) * 2018-02-12 2018-11-14 김춘호 Analysis server for analyzing crawl data in real time and method of the analysis server works

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100917784B1 (en) 2007-12-24 2009-09-21 한성주 Method and system for retrieving information of collective emotion based on comments about content
JP2010135925A (en) * 2008-12-02 2010-06-17 Nippon Hoso Kyokai <Nhk> Comment visualization device, and comment visualization program
KR20120108095A (en) * 2011-03-23 2012-10-05 김병훈 System for analyzing social data collected by communication network
WO2012134180A2 (en) * 2011-03-28 2012-10-04 가톨릭대학교 산학협력단 Emotion classification method for analyzing inherent emotions in a sentence, and emotion classification method for multiple sentences using context information
KR101476972B1 (en) * 2012-06-29 2015-01-02 김광일 Method and Apparatus for providing emotion expressing service using emotional expression identifier
KR101448228B1 (en) * 2013-02-12 2014-10-10 이주양 Apparatus and Method for social data analysis

Also Published As

Publication number Publication date
KR101602898B1 (en) 2016-03-11
WO2016072769A3 (en) 2016-06-30

Similar Documents

Publication Publication Date Title
US10409903B2 (en) Unknown word predictor and content-integrated translator
WO2012070840A2 (en) Apparatus and method for consensus search
WO2016167424A1 (en) Answer recommendation device, and automatic sentence completion system and method
WO2015167074A1 (en) Method and server for extracting topic and evaluating suitability of extracted topic
KR101723862B1 (en) Apparatus and method for classifying and analyzing documents including text
Müller-Budack et al. Multimodal analytics for real-world news using measures of cross-modal entity consistency
WO2012134180A2 (en) Emotion classification method for analyzing inherent emotions in a sentence, and emotion classification method for multiple sentences using context information
WO2010119996A1 (en) Method and apparatus for providing moving image advertisements
US9805120B2 (en) Query selection and results merging
JP2009048441A (en) Information retrieval system and method and program, and information retrieval service provision method
WO2011065630A1 (en) Apparatus and method for analyzing research information about a researcher, and computer-readable storage medium for storing computer-executable program for the method
WO2020256204A1 (en) System and method for recommending answer on basis of contents and emotion analysis of text
WO2016093630A1 (en) Semantic enrichment of trajectory data
WO2016072772A1 (en) Data visualizing method and system using reference meaning map
WO2021246642A1 (en) Font recommendation method and device for implementing same
WO2015080371A1 (en) Image search system and method
WO2022035074A1 (en) Method for extracting relation between disease-related factors from document data, and system constructed using same
WO2016072769A2 (en) Method and system for visualizing data using comment data of object
WO2018143490A1 (en) System for predicting mood of user by using web content, and method therefor
WO2017179778A1 (en) Search method and apparatus using big data
Kolli et al. A Novel Nlp and Machine Learning Based Text Extraction Approach from Online News Feed
KR101847041B1 (en) Method and apparatus for searching cartoon
Kiritoshi et al. Named entity oriented difference analysis of news articles and its application
KR102281266B1 (en) System and Method for Extracting Keyword and Ranking in Video Subtitle
WO2019103220A1 (en) Visual navigation type legal information service system and method

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 15857067

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase in:

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 15857067

Country of ref document: EP

Kind code of ref document: A2