WO2014065630A1 - 감상 기반 질의 처리 시스템 및 방법 - Google Patents

감상 기반 질의 처리 시스템 및 방법 Download PDF

Info

Publication number
WO2014065630A1
WO2014065630A1 PCT/KR2013/009582 KR2013009582W WO2014065630A1 WO 2014065630 A1 WO2014065630 A1 WO 2014065630A1 KR 2013009582 W KR2013009582 W KR 2013009582W WO 2014065630 A1 WO2014065630 A1 WO 2014065630A1
Authority
WO
WIPO (PCT)
Prior art keywords
query
segment
appreciation
attribute
score
Prior art date
Application number
PCT/KR2013/009582
Other languages
English (en)
French (fr)
Inventor
강재우
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of WO2014065630A1 publication Critical patent/WO2014065630A1/ko
Priority to US14/693,188 priority Critical patent/US20150227528A1/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/237Lexical tools
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • G06F16/2272Management thereof
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/24Querying
    • G06F16/245Query processing
    • G06F16/2457Query processing with adaptation to user needs
    • G06F16/24578Query processing with adaptation to user needs using ranking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to a system and method for listening based query processing.
  • Technology for processing user queries is one of the areas that are receiving the most attention recently.
  • a lot of research has been conducted to handle not only the objective aspect of the query object but also the sentiment of the attribute.
  • the script is interesting not only about the objective attributes such as the movie's production, screenplay, and who is the lead actor.
  • the prior art has a problem in that the accuracy of search results returned when inquiring about subjective opinions or sentiments is inferior. For example, a document may be searched for a query that says, "Smoke is good” and comments that "The script was good but the actors were not good.” As a result, the user must search for a search result that is less relevant to the query, and must experience inconvenience such as filtering the result by himself or retrying with a new query.
  • Korean Patent Publication No. 10-2009-0048997 discloses a configuration for collecting opinion data based on keywords.
  • Korean Patent Laid-Open No. 10-2011-0038247 (“Keyword Extraction Apparatus and Method") discloses a configuration for extracting keywords from posts and expanded similar documents.
  • the present invention has been made to solve the above-described appreciation-based query processing problem, and an object thereof is to provide a appreciation-based query processing system and method capable of processing a query for subjective appreciation and returning an accurate search result.
  • the appreciation-based query processing system by dividing one or more documents into one or more segments, the object of the opinion described in the segment An attribute keyword representing an attribute and an impression keyword representing the sentiment of the document author for the attribute are extracted from the segment to generate an attribute-view pair, the contents of the segment and the attribute-view An index construction unit for constructing an index including a pair; An index storage unit in which the index is stored; And a query processing unit processing a query based on an index stored in the index storage unit, and searching for and returning a document describing an opinion related to the query or a target described by the opinion related to the query. It is characterized by.
  • a method of processing a sentiment-based query according to the second aspect of the present invention.
  • Dividing into segments (b) extracting from the segment an attribute keyword representing an attribute of an object described in the segment and an impression keyword representing the sentiment of the document author for the attribute.
  • Creating a listening pair (c) building an index comprising the content of the segment and the attribute-appreciation pair; (d) parsing the received query to calculate a polarity code of the query based on the keyword indicating appreciation in the query, and removing a keyword representing only the appreciation polarity among the keywords representing the appreciation ; (e) calculating a segment score for each segment included in the index based on the content of the segment and the relation with the query based on the attribute-appreciation pair; And (f) summing the segment scores calculated by the segment reviewer to examine the relevance to the query for the document or the subject.
  • the present invention has the effect of returning accurate search results in a sentiment based query processing system and method.
  • the present invention is simple and effective query processing. For example, a keyword indicating only the polarity of the sentiment included in the query is not expanded into synonyms and synonyms, and only the polarity code of the sentiment is taken into consideration, so that the query processing speed is fast and the feedback related to the query can be retrieved without missing an opinion related to the query. .
  • FIG. 1 illustrates a structure of an appreciation-based query processing system according to an embodiment of the present invention.
  • FIG 3 illustrates a document in which an opinion is expressed according to an embodiment of the present invention.
  • FIG. 4 illustrates segment content and attribute-feel pairs that the segment of FIG. 3 includes.
  • FIG. 5 illustrates a parsed query in accordance with an embodiment of the present invention.
  • FIG. 6 illustrates a parsed query according to another embodiment of the present invention.
  • FIG. 7 illustrates a parsed query according to another embodiment of the present invention.
  • FIG. 8 illustrates an embodiment for examining the segment of FIG. 4 for the query of FIG.
  • FIG. 9 illustrates an embodiment for examining the segment of FIG. 4 for the query of FIG.
  • FIG. 10 illustrates an embodiment for examining the segment of FIG. 4 for the query of FIG.
  • FIG. 11 is a flowchart illustrating an index building method according to an embodiment of the present invention.
  • FIG. 12 illustrates a flow of a query parsing method according to an embodiment of the present invention.
  • FIG. 13 is a flowchart illustrating a segment screening method according to an embodiment of the present invention.
  • FIG. 1 is a block diagram illustrating a listening-based query processing system 10 according to an embodiment of the present invention.
  • the listening-based query processing system 10 includes a listening score dictionary 200, an index storage unit 100, an index construction unit 300, and a query processing unit 400.
  • the index building unit 300 constructs an index to be used for query processing based on one or more documents in which an opinion is described, and stores the index in the index storage unit 100
  • the query processing unit 400 stores the index storage unit ( The query is processed based on the index of 100) and the polarity weight score of the appreciation defined in the appreciation score dictionary 200.
  • An index may divide a document into segments based on semantic units, but may include attribute-appreciation pairs together with segment contents.
  • Attributes are a feature of query objects. For example, the title, the author, the field, and the price are attributes of the query object. If it is a translation, it will have additional properties such as translator.
  • the user can use the attributes in the query to find the desired target. For example, a user may search for a book that includes "Homes" in the title or a book whose author is "Conan Doyle.” Where "Homes” and “Conan Doyle” are objective values of the attribute. Searching using objective values of these attributes can also be performed by conventional query processing techniques.
  • this objective query requires the user to have clear information. For example, the user must have information that the author is Conan Doyle. However, the user may want to use the extremely subjective query of "a mystery writer who created the most attractive hero.” This query can be used when the user does not have clear information or wants to know the opinions of other users.
  • This query includes the subjective sentiment of "most attractive” in the query for the property of the author, as in the example above.
  • the present invention uses an attribute-appreciation pair generated by extracting an attribute and a document author's appreciation for the attribute from the document in which the comment is described.
  • the prior art often returns inaccurate search results for queries involving subjective sentiment, as can be seen in this example.
  • the present invention returns an accurate search result even for a subjective sentiment-based query using an attribute-appreciation pair. Therefore, as described above, the present invention improves the user's search convenience.
  • the above document may be returned as a search result because it contains "smoke” and "good". To prevent this, I looked at the above article "I went to see my girlfriend last weekend,” “The script was good,” “The actors wasn't good.”, “But I think it's a good movie overall.” By dividing by the smallest semantic unit of a sentence, such as. ", Each segment may be indexed. Then no segment is matched for the query, so this document is not returned in the search results.
  • this approach helps to improve accuracy, but the problem is that the unit of the segment is too small. For example, for a query that is "a good movie to watch with a girlfriend", this document is not returned as a search result despite being related to the query. Although the first segment contains "girlfriend” and “better” and matches, the content of this segment does not include appreciation, so it cannot be judged whether this is good or bad. To process this kind of query, it would be desirable to process the comments in one segment.
  • the present invention divides the segment into topic units to include a plurality of minimum semantic units. There is no limit to how you divide by topic. It is possible to use conventional techniques known through natural language processing studies, or simply break them into a few sentence units. For example, if the predetermined unit is 5, the document may be cut and divided into five sentences.
  • the present invention builds an index to include attribute-watch pairs together with segment content, as described above, in order to prevent such inaccurate search results from being returned as in the above example while increasing the unit of the segment.
  • the index building unit 300 divides one or more documents into one or more segments, and attribute keyword and attribute document indicating the attributes of the object of the opinion described in the segment.
  • the attribute keyword is extracted from the segment to generate an attribute-appreciation pair, and an index including the content of the segment and the attribute-appreciation pair is constructed and stored in the index storage unit 100.
  • the query processing unit 400 processes the query based on the index stored in the index storage unit 100, so that the opinion related to the document or the query describing the opinion related to the query is received. Find and return the object described.
  • the listening-based query processing system 10 may build an index for each domain.
  • the query may be performed based on an index built on a document in which the opinion is a movie, that is, a document describing a comment on the movie.
  • the query may be performed based on an index built on a document in which the opinion is a book, that is, a document describing a comment on the book.
  • the query speed may be improved because fewer indexes need to be searched.
  • the query processing unit 400 may return a document describing an opinion related to the query. For example, a document might be returned that says "I'm formed to stare at the main actor's screen in the last scene for a movie with good acting. He's a great actor.” There is no limit to how the document is returned. The entire contents of the document or the contents of the corresponding part of the document may be returned, or the URL of the document may be returned. In particular, if the document is an online review, it would be desirable to return the contents of the part along with the URL of the document. Alternatively, the query processing unit 400 may return the object itself in which the opinion related to the query is described. For example, if the object of comment described in the above document is the movie "Memories of Murder", information about the memories of Murder may be returned.
  • the query processing unit 400 examines the relationship with the query based on the query parsing unit 410 which performs parsing of the query, and the segment content and attribute-appreciation pair of each segment included in the index. It includes a segment examination unit 420 for calculating a score. Each segment score calculated by the segment examining unit 420 is summed and used to examine the relationship between each document in which the segment is included or the query of the object described by the segment.
  • the query parsing unit 410 may perform preprocessing, such as removing a stopword, but the detailed description is omitted since it is a conventional technology.
  • the query parsing unit 410 parses the query and extracts a keyword representing an attribute, a keyword representing appreciation, and a keyword representing a field. As described above, in one embodiment, a keyword indicating a field may be removed.
  • the query parsing unit 410 divides the query into one or more semantic units based on the keyword representing the attribute, and the segment examining unit 420 segments each of the divided semantic units. Calculate the score. For example, the query "Good smoke, good screenplay” is divided into two semantic units, “Good smoke” and “Good screenplay", each processed, and then a segment or By summing up the document or object scores, one may calculate a segment or document or object score for the entire query.
  • the query parsing unit 410 calculates the polarity code of the query based on the keyword representing the appreciation, and then removes the keyword representing only the appreciation polarity. To explain this, first, referring to FIG. 2.
  • the polarity and weight of the impression are expressed on a vertical line. Positive appreciation of the object has positive polarity, negative appreciation has polarity. In addition, positive or negative intensity may be expressed by weight. For example, in this embodiment, “good” and “bad” are “+2" and “-2", respectively, and the stronger “fantasy” and “bad” are “+4" and “-”, respectively. Defined as 4 ". Since expressions representing positive and negative sentiments vary widely, those skilled in the art will readily appreciate that the present embodiment is merely given some examples for convenience of explanation.
  • the polarity weight score of the appreciation may be defined in advance in the appreciation score as described above, and is referred to by the query processor 400.
  • the query parser 410 calculates a polarity code of the query based on the query parser 410
  • the segment examiner 420 calculates a listening score of the attribute-view pair based on the query parser 410.
  • the query parsing unit 410 calculates the polarity code of the query based on the keyword representing the appreciation, and then removes the keyword representing only the polarity of the appreciation. Or because the expressions of negation are too diverse.
  • a query contains a keyword that expresses a positive impression of "good”, such as "movies with good smoke,” a statement that says “like smoke is good” or “smoke is fantastic.” It would be desirable to also be able to search. For this purpose, we may consider extending the query to "good” synonyms, synonyms, etc., but because there are too many "good” synonyms and synonyms that can be expanded, it is very inefficient to extend the query to include them all. . In addition, since the query cannot be extended to include all synonyms and synonyms, documents describing the comments including the corresponding expansion keyword may not be searched.
  • the present invention solves this problem by considering only the polar sign indicated by the keyword instead of removing the keyword indicating only the polarity of viewing. For example, for positive sentiment keywords such as "good”, “okay”, or “fantastic”, add + sign, +1, to negative sentiment keywords such as "bad”, “not good”, or "bad”. For a-sign, i.e., -1.
  • “fun” and “fun” include not only the polarity of listening but also additional listening information, so that the polarity code is calculated but not removed.
  • “good” and “Fujida” only represent the polarity of the appreciation, so the polarity sign is calculated and removed, and “exciting”, “inspiring”, “exciting”, etc. Since the information is included, it is not removed after the polarity code has been calculated.
  • Query parsing unit 410 can prevent this by leaving the impression keyword in the query "excited”.
  • the query is searched based on whether the document containing the comment includes positive or negative sentiment. Therefore, the search keyword, synonyms, and synonyms are not compared with the index. All synonyms and synonyms can be processed regardless of the specific expression of. In other words, the query processing speed is fast, and the query-related opinion can be retrieved without missing a comment related to the query. Therefore, this method is very efficient and improves the accuracy of the search results.
  • the calculated polarity code may be used to reverse the ranking of the segment retrieved by the segment examination unit 420. It will be readily apparent to one skilled in the art that multiplying the scores of each calculated segment will easily reverse the order of the results.
  • the polarity of sentiment keywords included in the query will be positive. For example, a user who wants to consult someone else's opinion to choose what movies to watch will typically search for "smoke movies" rather than "smoky movies". Thus, in one embodiment, the default value of the polarity code is set to +1, and a document containing positive sentiment may be searched. If a user is searching for "bad movies", multiplying the search results for positive viewing by -1 can easily reverse the ranking.
  • the segment judging unit 420 asks the query "good smoke” Search for segments that describe positive sentiment as you did. For example, if the scores of Segment 1, Segment 2, and Segment 3 are +0.2, +2, and -1, respectively, the result of multiplying each score by -1, which is the polar sign, is -0.2, -2, +1. Segment 3 is returned as the segment describing the most relevant opinion on the query "bad smoke”. It will be readily understood by those skilled in the art that this would be as accurate as segment 2 would be returned as the most relevant search result for a "smoked movie”.
  • the segment reviewer 420 searches for the segment including the keyword included in the parsed query, and finds the attribute-watched pair corresponding to the attribute keyword included in the query parsed from the searched segment.
  • the appraisal scores of the attribute-appreciation pairs are summed, averaged, or some other operation to produce the attribute-appreciation pair scores of the retrieved segments.
  • the attribute-appreciation pair score is calculated by adding, averaging, or performing other appraisal scores of all the attribute-appreciation pairs included in the searched segment.
  • the appreciation score of the attribute-appreciation pair may be calculated by searching the appreciation score dictionary for the polarity weight score of the appreciation included in the appraisal-appreciation pair. As described above, multiplying the calculated attribute-appreciation pair score by the polarity code yields the final segment score of the corresponding segment.
  • FIG. 3 illustrates a document in which opinions are expressed according to an embodiment of the present invention
  • FIG. 4 illustrates segment contents and attribute-appreciation pairs included in the segment of FIG. 3.
  • Segment 1 contains a field keyword (D) called "movie".
  • a keyword indicating a field may be treated in the same manner as a keyword indicating an attribute according to an embodiment.
  • "Screenplay” and “smoke” are attribute keywords A
  • "good”, “not good”, “okay” and “fun” are appreciation keywords (S).
  • the keyword S indicating the appreciation is expressed in the basic form because the index construction unit 300 performs the necessary preprocessing as the query parsing unit 410 performs the preprocessing.
  • the subject keyword (D) may be excluded when building an index. In another embodiment, it may be treated as an attribute keyword (A).
  • the embodiment of FIG. 4 shows an example of an index in which the field keyword D of "movie" is removed.
  • An attribute-appreciation pair consisting of the appreciation keyword S corresponding to each attribute keyword A extracted from the segment 1 is generated and included in the index along with the segment contents.
  • the index construction method is not limited.
  • the index may include only information for accessing the segment, such as a segment ID, and may be configured to refer to the content of segment 1 by accessing a document including segment 1 using the information if necessary. There is no limit to how the attribute-appreciation pair is constructed.
  • information about a description object described by the corresponding segment may also be stored in the index.
  • the description object can be immediately identified in the index during query processing.
  • the information eg, a URL
  • the information about the description object may be stored without storing the information about the description object.
  • the viewing keyword S corresponding to the attribute keyword A is correctly paired and stored.
  • the appreciation keyword S of "good” should correspond to the attribute keyword A of "screenplay", not the attribute keyword A of "smoke”.
  • 5 through 7 illustrate three embodiments of a parsed query in accordance with one embodiment of the present invention.
  • FIG. 5 is a query including a positive appreciation keyword (S)
  • FIG. 6 is a query including a negative appreciation keyword (S)
  • FIG. 7 is a query including a positive appreciation keyword (S) but not including a specific attribute keyword (A).
  • the query parsing unit 410 performs preprocessing, extracts keywords, calculates a polarity code based on the appreciation keyword S, and expresses only the field keyword D and the appreciation keyword S having polarity. Remove it.
  • the polarity code + that is, +1 is extracted by "good”, and the parsed query is "smoke” as a result of removing the field keyword (D) and the viewing keyword (S).
  • the polarity code + that is, +1 is extracted by "good”, and the parsed query is "girlfriend,” as a result of removing the field keyword (D) and the viewing keyword (S).
  • 8 to 10 illustrate an embodiment of examining the segment of FIG. 4 for the three queries of FIGS. 5 to 7.
  • the segment review unit 420 extracts a segment including a keyword included in the parsed query. That is, for the query of FIG. 5, the segment includes "deferred” in the content of the segment, the segment for which the "script” is included in the content of the segment for the query of FIG. 6, and the segment for the query of FIG. 7. Search for segments that contain "Girlfriend, See” in the content. In all three cases, segment 1 of FIG. 4 is searched.
  • the segment review unit 420 finds an attribute-appreciation pair corresponding to the attribute keyword A included in the parsed query. For the query of FIG. 5, "smoke-by-star” was searched for in the attribute-appreciation pair corresponding to the attribute keyword A of "smoke", and for the query of FIG. 6, corresponding to the attribute keyword A of "screenplay". There is no "script-good” search for an attribute-listening pair, and there is no attribute-listening pair found since there is no attribute keyword A included in the query for the query of FIG.
  • the segment examination unit 420 calculates the attribute-appreciation pair score based on the found score of the attribute-appreciation pair.
  • the calculation method is not limited, and for example, a summation, an average, or some other operation may be used. For example, since only one attribute-appreciation pair was retrieved for the query of FIG. 5, the appraisal score of this attribute-appreciation pair would be calculated as the attribute-appreciation pair score, but two or more attribute-appraisal pairs were If found, the sum or average of the appreciation scores of each attribute-appreciation pair may be calculated as the attribute-appreciation pair score.
  • the appreciation score of each attribute-appreciation pair may be calculated based on the polarity and the weight defined in the appreciation score dictionary 200.
  • An appreciation score calculated by the polarity and weight searched by the appreciation score dictionary 200 for the "bye” included in the "smoke-bye” searched for the query of FIG. 5 is -1, and is searched by the query of FIG.
  • An appreciation score calculated by the polarity and weight searched by the appreciation score dictionary 200 for "good” included in "screen-good” is +2.
  • the query of FIG. 7 has no retrieved attribute-appreciation pairs.
  • the attribute-appreciation pair score may be calculated based on the appreciation scores of all the attribute-appreciation pairs included in the searched segment.
  • the calculation method is not limited, and for example, a summation, an average, or some other operation may be used. Therefore, the embodiment shown in FIG. 10 used an average, and as a result, +1.25 was calculated as the sum of the attribute-appreciation pair scores.
  • the query includes an attribute keyword (A).
  • the attribute-appreciation pair score may be calculated based on the appreciation scores of all the attribute-appreciation pairs included in the searched segment. That is, the attribute-listening pair score is calculated based on the viewing scores of all the viewing keywords S included in the segment.
  • summing or averaging or other operations may be used.
  • the segment examination unit 420 calculates the final segment score by multiplying the sum of the attribute-sensing pair scores thus calculated by the polarity code calculated by the query parsing unit 410.
  • the sum of the attribute-appreciation pair scores calculated in FIG. 8 is -1 and the polarity sign is +1, so that the segment score is -1, and the attribute calculated in FIG. 9 for the query of FIG. 6. Since the sum of the sentiment pair scores is +2 and the polarity sign is -1, the segment score is -2, and for the query of FIG. 7, the sum of the attribute-monitored pair scores calculated in FIG. 10 is +1.25 and the polarity sign Since is +1, the segment score is +1.25.
  • segment 1 since the final segment score has negative polarity, segment 1 will not be returned as a search result for the query of FIGS. 5 and 6, respectively.
  • segment 1 since a segment score having a positive polarity is calculated, segment 1 may or may not be returned as a search result according to a result of comparing with the scores of other segments. For example, if the score of segment 2 is +3, then segment 2 will be returned prior to segment 1 because segment 2 is more relevant to query than segment 1.
  • segment 1 is described as being returned as a search result
  • the query processing unit 400 determines that the document or segment containing the segment is based on the segment score calculated by the segment examining unit 420. Examine the relevance to the query of the subject being described. For example, if document 1 is divided into segment 1 and segment 2, and the score of segment 1 is +1.25 and the score of segment 2 is +3, the score of document 1 may be +2.125 averaging the two scores. Or it could be +4.25, which is the sum of the two points. Alternatively, a value obtained by performing another operation may be calculated. The score of the final document 1 is compared with the scores of other documents, and the document having the highest score or the object described by the document is returned as a search result.
  • the method of returning the object related to the query as a search result includes grouping the segment scores by document as described above and returning the object described by the document.
  • Segment 1 of Document 1 describes a comment on Movie 1
  • Segment 3 of Document 2 describes a comment on Movie 1, so that the segment scores calculated as a result of the segment review are +1 and +2, respectively. If so, the score for Movie 1 could be +1.5, which is the average of the two scores. In this case as well, sum, average, or other operations can be used for the aggregation operation.
  • the appreciation-based query processing system 10 provides a query including a positive appreciation keyword S with respect to the attribute keyword A, and a negative appreciation keyword with respect to the attribute keyword A. It can be seen that it is possible to efficiently and accurately handle various cases of a query including S) and a query not including a specific attribute keyword (A).
  • a query including two or more attribute keywords (A) it is possible to efficiently process a query including two or more attribute keywords (A).
  • FIG. 11 illustrates a flow of an index construction method according to an embodiment of the present invention.
  • One or more documents in which opinions about a specific object, such as an online review, are described are divided into segments of a topic unit (S1110).
  • the method of dividing into segments is not limited as described above. For example, a technique derived from the field of natural language processing may be used, or the document may be simply divided into a predetermined number of sentence units.
  • the attribute-appreciation pair for each segment is extracted (S1120).
  • the opinion author's appreciation of the attribute possessed by the object is extracted so that the attribute keyword A and the appreciation keyword S are paired.
  • the correspondence relationship between the attribute keyword A and the viewing keyword S should be accurate.
  • the index construction unit 300 parses each segment as described above, and performs necessary preprocessing before that. For example, the expression "good” is extracted as a basic listening keyword S of "good".
  • An index including the segment content and the attribute-appreciation pair is constructed and stored in the index storage unit 100 (S1130).
  • FIG. 12 illustrates a flow of a query parsing method according to an embodiment of the present invention.
  • the query parsing unit 410 parses the query and performs necessary preprocessing before that. For example, the expression "good” is extracted as a basic listening keyword S of "good".
  • the query is divided into semantic units based on the attribute keyword (S1220). For example, a movie with good screenplay and good smoke has two meanings: “good screenplay” and “good smoke”, so you can separate each one and process the results afterwards. something to do.
  • the field keyword D is removed (S1230). This is when, as mentioned above, the index is built only for objects of a particular field. For example, if the index is built only on documents that describe comments on the movie, the keyword “movie” is not needed, so it is omitted from the query. However, when the index is built for various fields such as movies, books and TV programs, the keyword "movie” is regarded as an attribute keyword A and processed.
  • the appreciation keyword S indicating only the polarity is removed (S1240).
  • Considering only the polarity sign for the viewing keyword S and removing the viewing keyword S showing only the polarity from the query is to enable the processing of all synonyms and synonyms without expanding the synonyms and synonyms as described above. .
  • only the polarity codes are considered, thereby greatly simplifying the query processing process and eliminating documents that are not related to the query, thereby increasing the accuracy of the search results.
  • the appreciation keyword S indicating additional appreciation information other than the polarity is not removed from the query, and it is preferable to expand the synonym and the synonym for the keyword. For example, "good” is removed because it represents only polarity, but "fun” is not removed because it includes additional sentiment information other than polarity, and may be expanded to "interesting" or the like.
  • Steps S1230 and S1240 are repeated until each semantic unit has been processed (S1250), and when completed, the process goes to the segment examination step.
  • FIG. 13 illustrates a flow of a segment screening method according to an embodiment of the present invention.
  • the segment including the parsed query keyword is searched for (S1310). Search the index to extract the segments that contain the keywords in the segment content.
  • the listening scores of the corresponding attribute-listening pairs are summed (S1330), otherwise, by averaging the listening scores of all the attribute-listening pairs (S1340), the attribute of the searched segment Calculate the score of the listening pair.
  • other operations other than the sum or average may be used in the steps S1330 and S1340.
  • the appreciation score of the attribute-appreciation pair may be calculated by searching the polarity weight of the appreciation keyword S in the appreciation score dictionary 200 using the appreciation keyword S included in the appraisal-appreciation pair.
  • the score of the corresponding segment is calculated by multiplying the polarity code (S1350).
  • the appreciation-based query processing method according to an embodiment of the present invention easily detects the opinions having a positive appreciation, and easily generates a negative appreciation. You can use it to search the opinions you have.
  • steps S1320 to S1350 are repeated until all the searched segments are processed (S1360).
  • steps S1310 to S1360 are repeated until all semantic units of each query are processed (S1370).
  • the segment score calculated in this way is utilized to calculate the document score or the target score.
  • the scores of the segments matching the document or query with the high document scores are summed by the objects described by the segments, and a description object having a high score is returned as a search result.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
  • Hardware system 800 may include a processor 810, cache 815, memory 815, and one or more software applications and drivers related to the functions described above.
  • hardware system 800 includes a high performance input / output (I / O) bus 840 and a standard I / O bus 870.
  • the host bridge 820 couples the processor 810 to the high performance I / O bus 840, and the I / O bus bridge 850 couples the two buses 840 and 870 with each other.
  • System memory 860 and network / communication interface 830 are coupled to high performance I / O bus 840.
  • the hardware system 800 may further include a video memory (not shown) and a display device coupled to the video memory.
  • Mass storage 830 and I / O port 890 are coupled to standard I / O bus 870.
  • Hardware system 800 may optionally include a keyboard and pointing device, and a display device (not shown) coupled to standard I / O bus 870.
  • network interface 830 provides communication between a hardware system and any wide range of networks, such as an Ethernet (eg, IEEE 802.3) network or the like.
  • the network interface 830 connects between the hardware system 800 and the network so that the hardware system 800 manages their databases.
  • Mass storage 830 provides permanent storage for data and programming instructions to perform the above-described functions implemented in one embodiment of the present invention
  • system memory 860 e.g., DRAM
  • I / O port 890 is one or more serial and / or parallel communication ports that provide communication between additional peripheral devices that may be coupled to hardware system 800.
  • Hardware system 800 may include various types of system architectures, and various components of hardware system 800 may be rearranged.
  • the cache 815 may be embedded in the processor 810.
  • cache 815 and processor 810 may be bundled together as a "processor module", where processor 810 may be referred to as a "processor core.”
  • processor 810 may be referred to as a "processor core.”
  • certain embodiments of the invention may not require or include all of the foregoing components.
  • peripherals shown as being coupled to the standard I / O bus 870 may couple to the high performance I / O bus 840.
  • there may be only one bus and components of hardware system 800 may be coupled to that one bus.
  • hardware system 800 may include additional components such as additional processors, storage devices, or memory.
  • the operation of one embodiment of the present invention may be implemented as a series of software routines driven by hardware system 800.
  • Such software routines include a plurality or series of instructions that may be executed by a processor in a hardware system such as processor 810.
  • a series of instructions are stored in a storage device such as mass storage device 830.
  • the sequence of instructions may be stored on any suitable storage medium, such as diskette, CD-ROM, ROM, EEPROM, or the like.
  • the series of commands need not be stored locally, and can be received from a remote storage device such as a server on the network via the network / communication interface 830.
  • the instructions are copied from a storage device such as mass storage device 830 to system memory 860 and accessed and executed by processor 810.
  • the operating system manages and controls the operation of the hardware system 800, including data input / output with software applications (not shown).
  • the operating system provides an interface between the software applications running on the system and the hardware components of the system.
  • the operating system may be Microsoft's Windows 95/98 / NT / XP / VISTA operating system.
  • the present invention can also be used in other suitable operating systems, such as Apple Computer's Apple Macintosh operating system, UNIX operating system, Linux operating system, and the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 하나 이상의 문서를 하나 이상의 세그먼트(segment)로 분할하고, 상기 세그먼트에 기술된 의견의 대상(object)이 갖는 속성(aspect)을 나타내는 속성 키워드 및 상기 속성에 대한 문서 작성자의 감상(sentiment)을 나타내는 감상 키워드를 상기 세그먼트에서 추출하여 속성-감상 쌍(pair)을 생성하고, 상기 세그먼트의 내용 및 상기 속성-감상 쌍을 포함하는 인덱스(index)를 구축하는 인덱스 구축부; 상기 인덱스가 저장되는 인덱스 저장부; 및 상기 인덱스 저장부에 저장되어 있는 인덱스를 기초로 질의를 처리하여, 상기 질의와 관련된 의견을 기술하고 있는 문서 또는 상기 질의와 관련된 의견이 기술하고 있는 대상을 검색하여 반환하는 질의 처리부;를 포함하는 감상 기반 질의 처리 시스템을 제공한다.

Description

감상 기반 질의 처리 시스템 및 방법
본 발명은 감상 기반 질의 처리 시스템 및 방법에 관한 것이다.
사용자의 질의를 처리하는 기술은 최근 가장 많은 주목을 받고 있는 분야 중 하나이다. 특히, 질의 대상(object)의 객관적인 속성(aspect) 뿐 아니라 해당 속성에 대한 감상(sentiment)까지 처리할 수 있도록 하기 위한 연구가 많이 이루어지고 있다.
예를 들어, 질의 대상이 영화일 때, 즉, 사용자가 영화를 검색하려고 할 때, 영화의 연출, 각본, 주연이 누구인가 등의 객관적인 속성에 대한 질의 뿐 아니라, 연출이 좋았는지, 각본은 흥미진진했는지 등 해당 속성에 대한 주관적인 감상에 대한 질의까지 처리할 수 있도록 하려는 것이다.
종래 기술은 주관적인 의견이나 감상에 대해 질의하였을 때 반환하는 검색 결과의 정확도가 떨어지는 문제가 있다. 예를 들어, "연기가 좋은 영화"라는 질의에 대해 "각본은 좋았는데 배우들의 연기는 별로였다"라는 의견이 기술된 문서가 검색될 수 있다. 이에 따라 사용자는 질의와의 연관성이 낮은 검색 결과를 탐색하며 스스로 결과를 걸러내거나 새로운 질의를 가지고 재시도하는 등의 불편을 겪어야 한다.
따라서, 이러한 주관적인 감상 및 의견을 반영하여 질의를 처리하고 정확한 검색 결과를 반환할 수 있는 감상 기반 질의 처리 시스템 및 방법이 필요하다. 주관적인 감상이 포함된, 질의 범위가 비교적 모호한 질의에 대해서도 질의와의 관련성이 높은 결과만이 반환되므로, 사용자의 검색 편의성이 크게 향상될 것이다.
질의 처리와 관련하여 한국공개특허 제10-2009-0048997호("키워드를 통한 여론 자료 수집 방법 및 시스템과 이를 위한 기록 매체")에는 키워드를 기반으로 여론 자료를 수집하는 구성이 개시되어 있다.
또한, 한국공개특허 제10-2011-0038247호("키워드 추출 장치 및 방법")는 게시물 및 확장된 유사 문서로부터 키워드를 추출하는 구성이 개시되어 있다.
본 발명은 전술한 감상 기반 질의 처리 문제를 해결하기 위한 것으로서, 그 목적은 주관적인 감상에 대한 질의를 처리하여 정확한 검색 결과를 반환할 수 있는 감상 기반 질의 처리 시스템 및 방법을 제공하는 것이다.
상기와 같은 목적을 달성하기 위한 본 발명의 제 1 측면에 따른 감상 기반 질의 처리 시스템은, 하나 이상의 문서를 하나 이상의 세그먼트(segment)로 분할하고, 상기 세그먼트에 기술된 의견의 대상(object)이 갖는 속성(aspect)을 나타내는 속성 키워드 및 상기 속성에 대한 문서 작성자의 감상(sentiment)을 나타내는 감상 키워드를 상기 세그먼트에서 추출하여 속성-감상 쌍(pair)을 생성하고, 상기 세그먼트의 내용 및 상기 속성-감상 쌍을 포함하는 인덱스(index)를 구축하는 인덱스 구축부; 상기 인덱스가 저장되는 인덱스 저장부; 및 상기 인덱스 저장부에 저장되어 있는 인덱스를 기초로 질의를 처리하여, 상기 질의와 관련된 의견을 기술하고 있는 문서 또는 상기 질의와 관련된 의견이 기술하고 있는 대상을 검색하여 반환하는 질의 처리부;를 포함하는 것을 특징으로 한다.
상기와 같은 목적을 달성하기 위한 본 발명의 제 2 측면에 따른 감상 기반 질의 처리 방법은 (a) 하나 이상의 문서를 동일한 의미적 관계를 갖는 최소의 구, 절, 또는 문장을 하나 이상 포함하는 하나 이상의 세그먼트(segment)로 분할하는 단계; (b) 상기 세그먼트에 기술된 의견의 대상(object)이 갖는 하나의 속성(aspect)을 나타내는 속성 키워드 및 상기 속성에 대한 문서 작성자의 감상(sentiment)을 나타내는 감상 키워드를 상기 세그먼트에서 추출하여 속성-감상 쌍(pair)을 생성하는 단계; (c) 상기 세그먼트의 내용 및 상기 속성-감상 쌍을 포함하는 인덱스(index)를 구축하는 단계; (d) 수신한 질의에 대한 파싱(parsing)을 수행하여, 상기 질의에서 감상을 나타내는 키워드에 기초하여 질의의 극성 부호를 산출하고, 상기 감상을 나타내는 키워드 중 감상의 극성만을 나타내는 키워드를 제거하는 단계; (e) 상기 인덱스에 포함되어 있는 각 세그먼트에 대해 상기 세그먼트의 내용 및 상기 속성-감상 쌍에 기초하여 상기 질의와의 관련성을 심사하여 세그먼트 점수를 산출하는 단계; 및 (f) 상기 세그먼트 심사부가 산출한 세그먼트 점수를 합산하여 상기 문서 또는 상기 대상에 대해 상기 질의에 대한 관련성을 심사하는 단계;를 포함하는 것을 특징으로 한다.
본 발명은 감상 기반 질의 처리 시스템 및 방법에 있어, 정확한 검색 결과를 반환할 수 있다는 효과를 얻는다.
주관적인 감상이 포함된, 질의 범위가 비교적 모호한 질의에 대해서도 질의와의 관련성이 높은 결과만이 반환되므로, 사용자의 검색 편의성이 크게 향상된다. 예를 들어, 사용자는 질의와의 연관성이 낮은 검색 결과를 탐색하며 스스로 결과를 걸러낼 필요가 없다. 더욱 중요하게는, 사용자는 자신이 원하는 결과를 얻기 위하여 질의 키워드와 표현을 신중하게 선택할 필요가 없다. 질의 키워드를 객관적인 속성에 대한 명확한 범위의 값만으로 한정시키지 않아도 되므로, 사용자는 검색하기 원하는 모호한 개념을 명확한 질의어로 정제하는 과정을 거치지 않고 그대로 사용하여도 된다.
따라서, 사용자의 의사 결정을 돕는 도구로 사용될 수 있다. 사용자는 다른 사람들의 의견을 효과적으로 검색할 수 있으므로, 자신의 의사 결정에 다른 많은 사람들의 경험 및 의견을 참조할 수 있다.
또한, 본 발명은 질의 처리 과정이 단순하고 효과적이다. 예를 들어, 질의에 포함된 감상의 극성만을 나타내는 키워드를 동의어 및 유의어로 확장하지 않고, 감상의 극성 부호만을 고려하므로, 질의 처리 속도가 빠르면서도, 질의와 유관한 의견을 빠뜨리지 않고 검색해낼 수 있다.
도 1은 본 발명의 일실시예에 따른 감상 기반 질의 처리 시스템의 구조를 도시함.
도 2는 본 발명의 일실시예에 따른 감상의 극성 가중치 점수를 도시함.
도 3은 본 발명의 일실시예에 따른 의견이 표현된 문서를 도시함.
도 4는 도 3의 세그먼트가 포함하는 세그먼트 내용 및 속성-감상 쌍을 도시함.
도 5는 본 발명의 일실시예에 따른 파싱된 질의를 도시함.
도 6은 본 발명의 또다른 실시예에 따른 파싱된 질의를 도시함.
도 7은 본 발명의 또다른 실시예에 따른 파싱된 질의를 도시함.
도 8은 도 5의 질의에 대해 도 4의 세그먼트를 심사하는 실시예를 도시함.
도 9는 도 6의 질의에 대해 도 4의 세그먼트를 심사하는 실시예를 도시함.
도 10은 도 7의 질의에 대해 도 4의 세그먼트를 심사하는 실시예를 도시함.
도 11은 본 발명의 일실시예에 따른 인덱스 구축 방법의 흐름을 도시함.
도 12는 본 발명의 일실시예에 따른 질의 파싱 방법의 흐름을 도시함.
도 13은 본 발명의 일실시예에 따른 세그먼트 심사 방법의 흐름을 도시함.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일실시예에 따른 감상 기반 질의 처리 시스템(10)을 나타낸 블록도이다.
먼저 도 1을 참조하면, 본 발명에 따른 감상 기반 질의 처리 시스템(10)은 감상 점수 사전(200), 인덱스 저장부(100), 인덱스 구축부(300), 질의 처리부(400)를 포함한다. 간략하게 설명하자면, 인덱스 구축부(300)가 의견이 기술된 하나 이상의 문서를 기초로 질의 처리에 사용할 인덱스를 구축하여 인덱스 저장부(100)에 저장하면, 질의 처리부(400)가 인덱스 저장부(100)에 있는 인덱스 및 감상 점수 사전(200)에 정의되어 있는 감상의 극성 가중치 점수를 기초로 질의를 처리한다. 본 발명의 일실시예에 따른 인덱스는 의미 단위를 기초로 문서를 세그먼트로 분할하되, 속성-감상 쌍을 세그먼트 내용과 함께 포함할 수 있다.
이에 대해 자세히 기술하기 전에 속성(aspect)와 감상(sentiment)이 무엇인지를 먼저 설명한다.
속성은 질의 대상(object)이 갖는 여러 가지 특징이다. 책을 예로 들어 설명하자면, 제목, 작가, 분야, 가격 등이 책이라는 질의 대상이 갖는 속성이다. 번역서라면 번역가 등의 속성을 추가적으로 더 가질 것이다. 사용자는 질의에 속성을 사용하여 원하는 대상을 검색할 수 있다. 예를 들어, 사용자는 제목에 "홈즈"가 포함되어 있는 책을 검색하거나, 작가가 "코난 도일"인 책을 검색할 수 있다. 여기에서 "홈즈", "코난 도일"은 속성이 가지는 객관적인 값이다. 이러한 속성의 객관적인 값을 이용하여 검색하는 것은 종래의 질의 처리 기술로도 수행할 수 있다.
그러나 이러한 객관적인 질의는 사용자가 명확한 정보를 가지고 있어야 한다. 예를 들어, 사용자는 작가가 코난 도일이라는 정보를 가지고 있어야 한다. 하지만 사용자는 "가장 매력적인 주인공을 창조한 추리 소설 작가"라는 지극히 주관적인 질의를 사용하고 싶어할 수도 있다. 이러한 질의는 사용자가 명확한 정보를 가지고 있지 않거나, 다른 사용자들의 의견(opinion)을 알고 싶을 때 사용할 수 있다.
이러한 질의는 상술한 예와 같이, 작가라는 속성에 대한 질의에 "가장 매력적인"이라는 주관적인 감상이 포함된다. 본 발명은 이러한 감상 기반의 주관적인 질의를 처리하기 위해, 의견이 기술된 문서에서 속성과 해당 속성에 대한 문서 작성자의 감상을 추출하여 생성한 속성-감상 쌍을 사용한다.
상기한 질의에 대한 결과로 "애거서 크리스티의 추리 소설은 흥미진진하고 매력적이지만, 주인공인 포와로는 그다지 매력적이지 않은 것 같다. 애거서 크리스티라는 작가는 조금 우스꽝스러운 주인공을 창조해냈다."라는 의견이 포함되어 있는 문서가 반환되었다면, 이 결과는 질의와의 관련성이 낮은 의견이므로 부정확한 결과이다. 소설 자체는 매력적이지만, 주인공인 포와로는 매력적이지 않다는 의견을 기술하고 있는데도, "매력적이다"와 "주인공"이 포함되어 있기 때문에 반환되었다.
종래 기술은 이 예에서 볼 수 있는 바와 같이, 주관적인 감상이 포함된 질의에 대해 정확하지 않은 검색 결과를 반환하는 경우가 많다. 반면, 본 발명은 속성-감상 쌍을 사용하여 주관적인 감상 기반의 질의에 대해서도 정확한 검색 결과를 반환한다. 따라서, 본 발명은 전술한 바와 같이, 사용자의 검색 편의성을 향상시킨다.
감상 기반 질의에 대해 정확한 검색 결과를 반환하기 위해, 문서를 동일한 의미적 관계를 갖는 최소의 구, 절, 또는 문장 단위로 분할하고, 분할된 각 세그먼트(segment)를 각각 인덱싱하는 방법도 생각해볼 수 있다.
예를 들어, 질의 대상이 영화일 때, "지난 주말에 여자 친구와 보러 갔었다. 각본은 좋았는데 배우들의 연기는 별로였다. 그러나 전체적으로는 괜찮은 영화라고 생각한다. 재미있게 봤다."라는 영화에 대한 의견이 기술된 문서를 고려해보자.
"연기가 좋은 영화"라는 질의에 대해, 앞서 기술한 예와 마찬가지로, 위 문서는 "연기"와 "좋다"를 포함하기 때문에 검색 결과로 반환될 수 있다. 이를 막기 위해 위 문서를 "지난 주말에 여자 친구와 보러 갔었다.", "각본은 좋았는데", "배우들의 연기는 별로였다.", "그러나 전체적으로는 괜찮은 영화라고 생각한다.", "재미있게 봤다."와 같이 문장의 최소 의미 단위로 분할하여 분할된 각 세그먼트를 각각 인덱싱할 수 있다. 그러면 질의에 대해 어느 세그먼트도 매칭되지 않으므로, 이 문서는 검색 결과로 반환되지 않는다.
그러나 이러한 접근 방법은 정확도를 높이는 데에는 도움이 되지만, 세그먼트의 단위가 너무 작아서 생기는 문제를 갖고 있다. 예를 들어, "여자 친구와 보기 좋은 영화"라는 질의에 대해, 이 문서는 질의와 유관함에도 불구하고 검색 결과로 반환되지 못한다. 첫번째 세그먼트가 "여자 친구"와 "보다"를 포함하고 있어 매칭이 되기는 하지만, 이 세그먼트의 내용은 감상을 포함하고 있지 않으므로 이것만으로는 좋았는지 나빴는지를 판단할 수 없다. 이러한 종류의 질의를 처리하기 위해서는, 의견을 하나의 세그먼트로 처리하는 것이 바람직할 것이다.
따라서, 본 발명은 세그먼트를 복수개의 최소 의미 단위를 포함하도록 토픽(topic) 단위로 분할한다. 토픽 단위로 나누는 방법에는 제한이 없다. 자연어 처리 연구를 통해 알려진 종래의 기술들을 사용할 수도 있고, 단순히 몇 개의 문장 단위로 쪼개는 것도 가능하다. 예를 들어, 기지정된 단위가 5라면, 문서를 5개의 문장씩 잘라 분할할 수 있다.
본 발명은 이렇게 세그먼트의 단위를 크게 하면서도 전술한 예에서와 같은 부정확한 검색 결과가 반환되는 것을 방지하기 위해, 전술한 바와 같이 세그먼트 내용과 함께 속성-감상 쌍을 함께 포함하도록 인덱스를 구축한다.
따라서, 본 발명의 일실시예에 따른 인덱스 구축부(300)는 하나 이상의 문서를 하나 이상의 세그먼트로 분할하고, 세그먼트에 기술된 의견의 대상이 갖는 속성을 나타내는 속성 키워드 및 속성에 대한 문서 작성자의 감상을 나타내는 감상 키워드를 세그먼트에서 추출하여 속성-감상 쌍을 생성하고, 세그먼트의 내용 및 속성-감상 쌍을 포함하는 인덱스를 구축하여 인덱스 저장부(100)에 저장한다. 또한, 본 발명의 일 실시예에 따른 질의 처리부(400)는 인덱스 저장부(100)에 저장되어 있는 인덱스를 기초로 질의를 처리하여, 질의와 관련된 의견을 기술하고 있는 문서 또는 질의와 관련된 의견이 기술하고 있는 대상을 검색하여 반환한다.
일실시예에서, 본 발명에 따른 감상 기반 질의 처리 시스템(10)은 분야(domain)별로 인덱스를 구축할 수 있다. 예를 들어, 질의의 대상이 영화라면, 의견의 대상이 영화인 문서, 즉, 영화에 대한 의견을 기술한 문서에 대해 구축된 인덱스를 기초로 질의를 수행할 수 있다. 또다른 예로, 질의의 대상이 책이라면, 의견의 대상이 책인 문서, 즉, 책에 대한 의견을 기술한 문서에 대해 구축된 인덱스를 기초로 질의를 수행할 수 있다. 이러한 실시예에서는 질의에서 분야를 나타내는 키워드를 제거하고 질의를 수행할 수 있으므로, 검색해야 할 인덱스가 적어 질의 속도가 향상될 수 있다. 그러나 분야를 단지 속성의 하나로 취급하여 인덱싱하고 질의하는 것도 가능하다. 자세한 내용은 도 5 내지 도 7을 통해 후술한다.
전술한 바와 같이, 일실시예에서, 질의 처리부(400)는 질의와 관련된 의견을 기술하고 있는 문서를 반환할 수 있다. 예를 들어, "연기가 좋은 영화"에 대해 "마지막 장면에서 주연 배우의 화면을 응시하는 연기에 전율을 느꼈다. 그는 정말 훌륭한 배우이다."라고 기술되어 있는 문서가 반환될 수 있다. 이때 문서가 반환되는 방법에는 제한이 없다. 문서의 전체 내용 또는 문서의 해당 부분의 내용이 반환될 수도 있고, 문서의 URL이 반환될 수도 있다. 특히 문서가 온라인 리뷰라면 해당 부분의 내용과 문서의 URL이 함께 반환되는 것이 바람직할 것이다. 또는 질의 처리부(400)는 질의와 관련된 의견이 기술하고 있는 대상 자체를 반환할 수도 있다. 예를 들어, 상기한 문서가 기술하고 있는 의견의 대상이 영화 "살인의 추억"이라면, 살인의 추억에 대한 정보가 반환될 수 있을 것이다.
질의 처리부(400)는 질의에 대한 파싱(parsing)을 수행하는 질의 파싱부(410), 및 인덱스에 포함되어 있는 각 세그먼트의 세그먼트 내용 및 속성-감상 쌍에 기초하여 질의와의 관련성을 심사하여 세그먼트 점수를 산출하는 세그먼트 심사부(420)를 포함한다. 세그먼트 심사부(420)가 산출한 각 세그먼트 점수는 합산되어, 해당 세그먼트가 포함되어 있는 각 문서 또는 해당 세그먼트가 기술하고 있는 대상의 질의와의 관련성을 심사하는 데 사용된다.
질의 파싱부(410)는 불용어 제거 등의 전처리를 수행할 수 있으나, 이는 종래 기술이므로 자세한 설명을 생략한다. 질의 파싱부(410)는 질의를 파싱하여 속성을 나타내는 키워드, 감상을 나타내는 키워드, 및 분야를 나타내는 키워드를 추출한다. 전술한 바와 같이 일실시예에서 분야를 나타내는 키워드를 제거할 수 있다.
속성을 나타내는 키워드가 두개 이상 포함되어 있을 경우, 질의 파싱부(410)는 질의를 속성을 나타내는 키워드를 기준으로 하나 이상의 의미 단위로 분할하며, 세그먼트 심사부(420)는 분할된 의미 단위 각각에 대해 세그먼트 점수를 산출한다. 예를 들어, "연기가 좋고, 각본이 좋은 영화"라는 질의는 "연기가 좋다"와 "각본이 좋다"라는 두개의 의미 단위로 분할되어 각각 처리한 후, 각 의미 단위에 대해 산출된 세그먼트 또는 문서 또는 대상 점수를 합산함으로써, 전체 질의에 대한 세그먼트 또는 문서 또는 대상 점수를 산출할 수 있을 것이다.
질의 파싱부(410)는 감상을 나타내는 키워드에 기초하여 질의의 극성 부호를 산출한 후, 그 중에서 감상의 극성만을 나타내는 키워드를 제거한다. 이에 대해 설명하기 위해 먼저 도 2를 참조한다.
도 2는 본 발명의 일실시예에 따른 감상의 극성 가중치 점수를 도시하고 있다.
도면은 설명의 편의를 위해 감상의 극성 및 가중치를 수직선 상에 표현하였다. 대상에 대한 긍정적인 감상은 + 극성을, 부정적인 감상은 - 극성을 가진다. 또한, 긍정적 또는 부정적인 강도는 가중치로 표현할 수 있다. 예를 들어, 본실시예에서 "좋다"와 "나쁘다"는 각각 "+2"와 "-2"로, 그보다 강도가 센 "환상적이다"와 "형편없다"는 각각 "+4"와 "-4"로 정의되었다. 긍정적인 감상 및 부정적인 감상을 나타내는 표현은 매우 다양하므로, 당업자는 본 실시예가 단지 설명의 편의를 위해 몇가지의 예를 들고 있을 뿐임을 쉽게 이해할 수 있을 것이다.
이러한 감상의 극성 가중치 점수는 전술한 바와 같이 감상 점수 사전에 기정의될 수 있으며, 질의 처리부(400)에 의해 참조된다. 예를 들어, 질의 파싱부(410)는 이를 기초로 질의의 극성 부호를 산출하며, 세그먼트 심사부(420)는 이를 기초로 속성-감상 쌍의 감상 점수를 산출한다.
다시 도 1로 돌아가서, 본 발명의 일실시예에 따른 질의 파싱부(410)가 감상을 나타내는 키워드에 기초하여 질의의 극성 부호를 산출한 후 그 중 감상의 극성만을 나타내는 키워드를 제거하는 이유는 긍정 또는 부정을 나타내는 표현이 너무 다양하기 때문이다.
예를 들어, "연기가 좋은 영화"와 같이 질의에 "좋다"라는 긍정적인 감상을 나타내는 키워드가 포함되어 있을 경우, "연기가 괜찮다"나 "연기가 환상적이다"와 같은 의견이 기술되어 있는 문서도 검색될 수 있게 하는 것이 바람직할 것이다. 이를 위해 "좋다"의 동의어, 유의어 등으로 질의를 확장하는 방안을 고려해볼 수 있으나, 확장할 수 있는 "좋다"의 동의어, 유의어가 너무 많기 때문에, 이를 모두 포함하도록 질의를 확장하는 것은 매우 비효율적이다. 또한 모든 동의어, 유의어를 포함하도록 질의를 확장할 수 없기 때문에 해당 확장 키워드를 포함하고 있는 의견이 기술된 문서가 검색되지 못할 수 있다.
본 발명은 감상의 극성만을 나타내는 키워드를 제거하는 대신 해당 키워드가 나타내는 극성 부호만을 고려함으로써, 이러한 문제를 해결하였다. 예를 들어, "좋다", "괜찮다", "환상적이다"와 같은 긍정적인 감상 키워드에 대해서는 + 부호, 즉 +1을, "나쁘다", "별로다", "형편없다"와 같은 부정적인 감상 키워드에 대해서는 - 부호, 즉 -1을 산출한다.
단, "재미있다"와 "재미없다"는 감상의 극성만이 아니라 추가적인 감상 정보를 포함하고 있으므로, 극성 부호를 산출하되 제거하지 않는다. 추가적인 예를 들자면, "짱이다", "후지다"은 감상의 극성만을 나타내므로 극성 부호를 산출하고 제거하며, "흥미롭다", "감동적이다", "신난다" 등은 감상의 극성 이외에도 추가적인 감상 정보를 포함하고 있으므로 극성 부호를 산출한 후 제거되지 않는다.
이러한 키워드를 남겨두면 검색 결과의 정확성을 더욱 높일 수 있다. 예를 들어, "신난다"라는 감상 키워드에 대해, 추출된 극성 부호인 +1만을 인덱스 검색에 사용하면, "신난다"라는 감상은 아니나 긍정적인 감상을 기술하고 있는 문서가 "신난다"라는 감상을 기술한 문서보다 높은 점수를 받아 검색 결과로 우선 반환되는 경우가 있을 것이다. 본 발명의 일실시예에 따른 질의 파싱부(410)은 "신난다"라는 질의에 감상 키워드를 남겨둠으로써 이를 방지할 수 있다.
이때, 감상의 극성 이외에도 추가적인 감상 정보를 추가하고 있어 질의에 남겨진 감상 키워드에 대해서는 동의어, 유의어 등으로 확장하는 것이 바람직할 것이다. 이는 전술한 바와 같이, 예를 들어, 질의에 "재미있다"라는 감상 키워드가 포함되어 있다면, "재미있다"라는 의견이 기술되어 있는 문서 뿐 아니라 "흥미롭다"라는 의견이 기술되어 있는 문서도 검색할 수 있도록 하기 위함이다.
한편, 감상 점수 사전에서 해당 키워드가 갖는 극성 가중치 점수의 부호를 검색하면 되므로, 감상을 나타내는 키워드에서 극성 부호를 산출하는 것은 매우 간단하게 수행된다. 또한 의견이 기술된 문서에 긍정적인 감상이 포함되어 있는지 부정적인 감상이 포함되어 있는지를 기준으로 질의를 검색하므로, 감상 키워드 및 유의어, 동의어 각각을 인덱스와 비교하는 과정이 필요없어 검색 속도가 빠르며, 감상의 구체적인 표현과 상관없이 다양한 동의어, 유의어를 모두 처리할 수 있다. 즉, 질의 처리 속도가 빠르면서도, 질의와 유관한 의견을 빠뜨리지 않고 검색해낼 수 있다. 따라서 이러한 방법은 매우 효율적이며 검색 결과의 정확도를 높여준다.
산출된 극성 부호는 세그먼트 심사부(420)에 의해 검색된 세그먼트의 순위를 뒤집기 위해 사용될 수 있다. 산출된 각 세그먼트의 점수에 곱하면 손쉽게 결과의 순서를 뒤집을 수 있을 것임을 당업자는 쉽게 이해할 수 있을 것이다.
사용자는 자신의 의사 결정에 도움을 받기 위해 다른 사람의 의견을 검색하는 경우가 많으므로, 대부분의 경우 질의에 포함되는 감상 키워드의 극성은 긍정적(+)일 것이다. 예를 들어, 무슨 영화를 볼지 선택하기 위해 다른 사람의 의견을 참조하려는 사용자는 일반적으로 "연기가 나쁜 영화"가 아니라 "연기가 좋은 영화"를 검색할 것이다. 따라서 일실시예에서 극성 부호의 기본값을 +1로 두고, 긍정적인 감상을 포함하는 문서를 검색할 수 있다. 사용자가 "연기가 나쁜 영화"를 검색할 경우에는 긍정적인 감상에 대해 검색한 결과에 -1을 곱하면 쉽게 순위를 뒤집을 수 있다.
"연기가 나쁜 영화"라는 질의에 질의 파싱부(410)는 "나쁘다"라는 부정적인 감상 키워드 대신 극성 부호로 "-1"을 산출하고, 세그먼트 심사부(420)는 "연기가 좋은 영화"라는 질의를 수신했을 때처럼 긍정적인 감상을 기술한 세그먼트에 대해 검색한다. 예를 들어, 그 결과, 세그먼트 1, 세그먼트 2, 세그먼트 3의 점수가 각각 +0.2, +2, -1이라면, 극성 부호인 -1을 각각의 점수에 곱한 결과는 -0.2, -2, +1이 될 것이므로, 세그먼트 3이 "연기가 나쁜 영화"라는 질의에 대해 가장 관련성이 높은 의견을 기술하고 있는 세그먼트로서 반환된다. 이는 "연기가 좋은 영화"에 대해 세그먼트 2가 가장 관련성이 높은 검색 결과로 반환되는 것만큼이나 정확도가 높은 결과일 것임은 당업자에게 쉽게 이해될 것이다.
세그먼트 심사부(420)는 세그먼트의 내용이 파싱된 질의에 포함되어 있는 키워드를 포함하고 있는 세그먼트를 검색한 후, 검색된 세그먼트에서 파싱된 질의에 포함된 속성 키워드에 대응하는 속성-감상 쌍을 찾고, 검색된 속성-감상 쌍의 감상 점수를 합산 또는 평균 또는 기타 다른 연산을 수행하여, 검색된 세그먼트의 속성-감상 쌍 점수를 산출한다. 파싱된 질의에 속성 키워드가 포함되어 있지 않을 경우에는, 검색된 세그먼트가 포함하고 있는 모든 속성-감상 쌍의 감상 점수를 합산 또는 평균 또는 기타 다른 연산을 수행함으로써 속성-감상 쌍 점수를 산출한다. 속성-감상 쌍의 감상 점수는 속성-감상 쌍이 포함하고 있는 감상의 극성 가중치 점수를 감상 점수 사전에서 검색함으로써 산출할 수 있다. 전술한 바와 같이, 이렇게 산출된 속성-감상 쌍 점수에 극성 부호를 곱하면 해당 세그먼트의 세그먼트 점수가 최종 산출된다.
도 3 내지 도 10의 실시예를 통하여 본 발명의 일실시예에 따른 감상 기반 질의 처리 시스템(10) 및 방법을 좀더 자세히 설명한다.
도 3은 본 발명의 일실시예에 따른 의견이 표현된 문서를 도시하고 있으며, 도 4는 도 3의 세그먼트가 포함하는 세그먼트 내용 및 속성-감상 쌍을 도시하고 있다.
도시되어 있는 문서 1은 영화에 대한 의견을 기술하고 있으며, "지난 주말에 여자 친구와 보러 갔었다. 각본은 좋았는데 배우들의 연기는 별로였다. 그러나 전체적으로는 괜찮은 영화라고 생각한다. 재미있게 봤다."라는 내용을 담고 있는 세그먼트 1을 포함하고 있다. 세그먼트 1은 전술한 바와 같이 토픽 단위로 분할된 세그먼트이다. 편의상 이후 내용은 세그먼트 1에 대해서만 설명하겠다. 그러나 전술한 바와 같이, 생략된 세그먼트들에 대해서도 세그먼트 점수를 산출하고, 해당 세그먼트들의 점수는 문서 1의 점수를 산출하는 데 사용될 것이다.
세그먼트 1은 "영화"라는 분야 키워드(D)를 포함하고 있다. 전술한 바와 같이 분야를 나타내는 키워드는 실시예에 따라 속성을 나타내는 키워드와 동일하게 취급할 수도 있다. "각본", "연기"는 속성 키워드(A)이며, "좋다", "별로다", "괜찮다", "재미있다"는 감상 키워드(S)이다. 이때, 감상을 나타내는 키워드(S)가 기본형으로 표현된 것은 질의 파싱부(410)가 전처리를 수행하는 것과 마찬가지로 인덱스 구축부(300)도 필요한 전처리를 수행하기 때문이다.
질의를 파싱할 때와 마찬가지로, 일실시예에서 분야 키워드(D)는 인덱스 구축시에도 제외될 수 있다. 또다른 실시예에서는 속성 키워드(A)처럼 취급될 수도 있다. 도 4의 실시예는 "영화"라는 분야 키워드(D)를 제거한 인덱스의 예를 보여주고 있다.
세그먼트 1에서 추출된 각 속성 키워드(A)와 대응하는 감상 키워드(S)로 이루어진 속성-감상 쌍이 생성되어, 세그먼트 내용과 함께 인덱스에 포함되어 있다. 이때, 설명의 편의를 위해 세그먼트 내용이 인덱스에 포함되도록 도시한 것일 뿐, 인덱스의 구성 방법에는 제한이 없다.
예를 들어, 인덱스는 세그먼트 ID 등 해당 세그먼트를 접근하기 위한 정보만을 포함하고, 필요시 해당 정보를 사용하여 세그먼트 1이 포함된 문서를 접근함으로써 세그먼트 1의 내용을 참조하도록 구성할 수 있다. 속성-감상 쌍의 구성 방법에도 제한이 없다.
또다른 예로, 인덱스에 해당 세그먼트가 기술하고 있는 기술 대상에 대한 정보도 같이 저장될 수 있다.
이는 이제까지는 설명의 편의를 위해 문서가 하나의 대상에 대해서만 기술하고 있는 경우에 대해서만 설명하였으나, 문서에 하나 이상의 기술 대상이 기술되어 있을 수 있기 때문이다.
즉, 검색 결과로 기술 대상을 돌려주는 실시예에서 인덱스에 해당 세그먼트가 기술하고 있는 기술 대상에 대한 정보도 같이 저장하면, 질의 처리시 기술 대상을 인덱스에서 바로 파악할 수 있다는 장점이 있다. 반면 검색 결과로 문서를 돌려주는 실시예에서는 기술 대상에 대한 정보는 저장하지 않고 문서에 대한 정보(예: URL)만 저장할 수 있다.
이상과 같이 인덱스의 구성 방법 및 인덱스에 포함되는 정보에는 제한이 없다.
단, 속성 키워드(A)와 대응되는 감상 키워드(S)가 정확하게 짝을 이루어 저장되도록 하는 것이 바람직하다. 예를 들어, "좋다"라는 감상 키워드(S)는 "연기"라는 속성 키워드(A)가 아니라, "각본"이라는 속성 키워드(A)에 대응되어야 한다.
그러나 속성 키워드(A) 없이 감상 키워드(S)만 있는 속성-감상 쌍이 생성되는 것은 가능하다. 예를 들어, 도시되어 있는 바와 같이, 본실시예에서는 "재미있다"라는 감상 키워드(S)가 대응되는 속성 키워드(A) 없이 추출되었다.
도 5 내지 도 7은 본 발명의 일실시예에 따라 파싱된 질의의 세가지 실시예를 도시하고 있다.
도 5는 긍정적인 감상 키워드(S)를 포함한 질의이고, 도 6은 부정적인 감상 키워드(S)를 포함한 질의이다. 또한 도 7은 긍정적인 감상 키워드(S)를 포함하되, 특정 속성 키워드(A)를 포함하지 않은 질의이다.
전술한 바와 같이, 질의 파싱부(410)는 전처리를 수행하고, 키워드들을 추출한 후, 감상 키워드(S)에 기초하여 극성 부호를 산출하고, 분야 키워드(D) 및 극성만을 나타내는 감상 키워드(S)를 제거한다.
도 5에서는 "좋다"에 의해 극성부호 +, 즉 +1이 추출되었고, 분야 키워드(D) 및 감상 키워드(S)를 제거한 결과 파싱된 질의는 "연기"이다.
도 6에서는 "형편없다"에 의해 극성부호 -, 즉 -1이 추출되었고, 분야 키워드(D) 및 감상 키워드(S)를 제거한 결과 파싱된 질의는 "각본"이다. 이때 도면에는 "평가받다"라는 속성에 대한 감상에 큰 영향을 미치지 않는 키워드도 제외된 것으로 도시되어 있으나, 실시예에 따라 이를 제거하지 않는 것도 가능하다.
도 7에서는 "좋다"에 의해 극성부호 +, 즉 +1이 추출되었고, 분야 키워드(D) 및 감상 키워드(S)를 제거한 결과 파싱된 질의는 "여자친구, 보다"이다.
도 8 내지 도 10은 도 5 내지 도 7의 세가지 질의에 대해 도 4의 세그먼트를 심사하는 실시예를 도시하고 있다.
전술한 바와 같이, 세그먼트 심사부(420)는 파싱된 질의에 포함되어 있는 키워드를 포함하고 있는 세그먼트를 추출한다. 즉, 도 5의 질의에 대해서는 세그먼트의 내용에 "연기"가 포함되어 있는 세그먼트를, 도 6의 질의에 대해서는 세그먼트의 내용에 "각본"이 포함되어 있는 세그먼트를, 도 7의 질의에 대해서는 세그먼트의 내용에 "여자친구, 보다"가 포함되어 있는 세그먼트를 검색한다. 세 경우 모두 도 4의 세그먼트 1이 검색된다.
검색된 세그먼트에 대해 세그먼트 심사부(420)는 파싱된 질의에 포함된 속성 키워드(A)에 대응하는 속성-감상 쌍을 찾는다. 도 5의 질의에 대해서는 "연기"라는 속성 키워드(A)에 대응하는 속성-감상 쌍으로 "연기-별로다"가 검색되었고, 도 6의 질의에 대해서는 "각본"이라는 속성 키워드(A)에 대응하는 속성-감상 쌍으로 "각본-좋다"가 검색되었으며, 도 7의 질의에 대해서는 질의에 포함되어 있는 속성 키워드(A)가 없으므로, 검색된 속성-감상 쌍이 없다.
세그먼트 심사부(420)는 검색된 속성-감상 쌍의 감상 점수를 기초로 속성-감상 쌍 점수를 산출한다. 이때, 산출 방법에는 제한이 없으며, 예를 들어 합산 또는 평균 또는 기타 다른 연산이 사용될 수 있다. 예를 들어, 도 5의 질의에 대해 "연기-별로다"라는 하나의 속성-감상 쌍만이 검색되었으므로, 이 속성-감상 쌍의 감상 점수가 속성-감상 쌍 점수로 산출되겠지만, 두개 이상의 속성-감상 쌍이 검색되었다면 각 속성-감상 쌍의 감상 점수를 합산 또는 평균한 값이 속성-감상 쌍 점수로 산출될 수 있다.
각 속성-감상 쌍의 감상 점수는 전술한 바와 같이, 감상 점수 사전(200)에 기정의된 극성 및 가중치를 기초로 산출될 수 있다. 도 5의 질의에 대해 검색된 "연기-별로다"에 포함되어 있는 "별로다"에 대해 감상 점수 사전(200)에서 검색한 극성 및 가중치로 산출한 감상 점수는 -1이고, 도 6의 질의에 대해 검색된 "각본-좋다"에 포함되어 있는 "좋다"에 대해 감상 점수 사전(200)에서 검색한 극성 및 가중치로 산출한 감상 점수는 +2이다.
도 7의 질의는 검색된 속성-감상 쌍이 없다. 이런 경우에는 검색된 세그먼트가 포함하고 있는 모든 속성-감상 쌍의 감상 점수를 기초로 속성-감상 쌍 점수를 산출하면 된다. 이때, 산출 방법에는 제한이 없으며, 예를 들어 합산 또는 평균 또는 기타 다른 연산이 사용될 수 있다. 따라서 도 10에 도시되어 있는 실시예는 평균을 사용하였으며, 그 결과 속성-감상 쌍 점수합으로 +1.25가 산출되었다.
검색된 속성-감상 쌍이 없는 경우는 도 7의 질의에서와 같이 질의가 속성 키워드(A)를 포함하고 있지 않을 때 외에도, 질의는 속성 키워드(A)를 포함하고 있는데 검색된 세그먼트에 속성 키워드(A)가 포함되어 있지 않을 때도 있을 것이다(미도시). 해당 세그먼트가 질의의 속성 키워드(A) 이외의 다른 키워드에 매칭되어 검색된 경우이다. 이 경우 역시 검색된 세그먼트가 포함하고 있는 모든 속성-감상 쌍의 감상 점수를 기초로 속성-감상 쌍 점수를 산출하면 된다. 즉, 세그먼트가 포함하고 있는 모든 감상 키워드(S)의 감상 점수를 기초로 속성-감상 쌍 점수를 산출하는 것이다. 이때도 역시 산출 방법에는 제한이 없으며, 예를 들어 합산 또는 평균 또는 기타 다른 연산이 사용될 수 있다.
전술한 바와 같이, 세그먼트 심사부(420)는 이렇게 산출된 속성-감상 쌍 점수 합에 질의 파싱부(410)가 산출한 극성 부호를 곱하여 최종 세그먼트 점수를 산출한다. 도 5의 질의에 대해서는 도 8에서 산출한 속성-감상 쌍 점수 합은 -1이고, 극성 부호는 +1이므로, 세그먼트 점수는 -1이 산출되며, 도 6의 질의에 대해서는 도 9에서 산출한 속성-감상 쌍 점수 합은 +2이고, 극성 부호는 -1이므로, 세그먼트 점수는 -2이 산출되고, 도 7의 질의에 대해서는 도 10에서 산출한 속성-감상 쌍 점수 합은 +1.25이고, 극성 부호는 +1이므로, 세그먼트 점수는 +1.25이 산출된다.
따라서, 도 8 및 도 9의 실시예에서는 최종 세그먼트 점수가 부정적인 극성을 가지고 있으므로, 세그먼트 1은 각각 도 5 및 도 6의 질의에 대한 검색 결과로 반환되지 않을 것이다. 도 10의 실시예에서는 긍정적인 극성을 갖는 세그먼트 점수가 산출되었으므로, 다른 세그먼트들의 점수와 비교한 결과에 따라 세그먼트 1이 검색 결과로 반환될 수도 있고 반환되지 않을 수도 있다. 예를 들어, 세그먼트 2의 점수가 +3이라면 세그먼트 2가 세그먼트 1에 비해 질의와의 관련성이 더 높은 것이므로, 세그먼트 2가 세그먼트 1보다 우선적으로 반환될 것이다.
이때, 세그먼트 1이 검색 결과로 반환되는 것처럼 기술했지만, 실제로는 전술한 바와 같이, 질의 처리부(400)는 세그먼트 심사부(420)에 의해 산출된 세그먼트 점수에 기초하여 세그먼트가 포함되어 있는 문서 또는 세그먼트가 기술하고 있는 대상의 질의와의 관련성을 심사한다. 예를 들어, 문서 1이 세그먼트 1, 세그먼트 2로 분할되었고, 세그먼트 1의 점수가 +1.25, 세그먼트 2의 점수가 +3이라면 문서 1의 점수는 두 점수를 평균한 +2.125가 될 수 있다. 또는 두 점수를 합산한 +4.25가 될 수도 있다. 또는 기타 다른 연산을 수행한 값이 산출될 수도 있다. 이렇게 최종 산출된 문서 1의 점수가 다른 문서들의 점수와 비교되어 가장 높은 점수를 갖는 문서 또는 해당 문서가 기술하고 있는 대상이 검색 결과로 반환된다.
이때, 질의와 관련된 대상을 검색 결과로 반환하는 방법에는 전술한 바와 같이 세그먼트 점수를 문서별로 묶어 취합하고 해당 문서가 기술하고 있는 대상을 반환하는 방법 이외에도, 문서에 대한 고려없이 세그먼트 점수를 대상별로 묶어 취합하는 방법도 있다. 예를 들어, 문서 1의 세그먼트 1이 영화 1에 대한 의견을 기술하고 있고, 문서 2의 세그먼트 3이 영화 1에 대한 의견을 기술하고 있어, 세그먼트 심사 결과 산출된 세그먼트 점수가 각각 +1, +2라면, 영화 1의 점수는 두 점수를 평균한 +1.5가 될 수 있다. 이 경우에도 마찬가지로 취합 연산에는 합산, 평균, 또는 기타 다른 연산이 사용될 수 있다.
이상 기술한 실시예를 통해, 본 발명에 따른 감상 기반 질의 처리 시스템(10)은 속성 키워드(A)에 대해 긍정적인 감상 키워드(S)를 포함한 질의, 속성 키워드(A)에 대해 부정적인 감상 키워드(S)를 포함하는 질의, 특정 속성 키워드(A)를 포함하지 않은 질의 등 다양한 경우의 질의에 대해 효율적이고 정확하게 처리할 수 있음을 알 수 있다. 또한, 도면으로 실시예를 설명하지는 않았으나, 전술한 바와 같이, 두 개 이상의 속성 키워드(A)를 포함하는 질의에 대해서도 효율적으로 처리하는 것이 가능하다.
이하 도 11 내지 도 13을 통해 본 발명의 일실시예에 따른 감상 기반 질의 처리 방법의 흐름을 설명한다.
먼저, 도 11은 본 발명의 일실시예에 따른 인덱스 구축 방법의 흐름을 도시하고 있다.
온라인 리뷰 등 특정 대상에 대한 의견이 기술되어 있는 하나 이상의 문서를 토픽 단위의 세그먼트로 분할한다(S1110). 세그먼트로 분할하는 방법은 전술한 바와 같이 제한이 없다. 예를 들어, 자연어 처리 분야에서 도출된 기술을 사용하거나, 단순히 문서를 일정 개수의 문장 단위로 분할할 수 있다.
각 세그먼트별 속성-감상 쌍을 추출한다(S1120). 대상이 지니고 있는 속성에 대한 의견 작성자의 감상을 추출하여, 속성 키워드(A) 및 감상 키워드(S)가 짝을 이루도록 하는 것이다. 이때, 전술한 바와 같이, 속성 키워드(A)와 감상 키워드(S)의 대응 관계는 정확해야 한다. 이를 위해 전술한 바와 같이 인덱스 구축부(300)는 각 세그먼트를 파싱하며, 그 전에 필요한 전처리를 수행한다. 예를 들어, "좋은"이라는 표현은 "좋다"라는 기본형의 감상 키워드(S)로 추출된다.
세그먼트 내용과 속성-감상 쌍을 포함하는 인덱스를 구축하여 인덱스 저장부(100)에 저장한다(S1130).
도 12는 본 발명의 일실시예에 따른 질의 파싱 방법의 흐름을 도시하고 있다.
질의를 수신하면, 먼저 질의에서 분야 키워드(D), 속성 키워드(A), 및 감상 키워드(S)를 추출한다(S1210). 이를 위해 전술한 바와 같이 질의 파싱부(410)는 질의를 파싱하며, 그 전에 필요한 전처리를 수행한다. 예를 들어, "좋은"이라는 표현은 "좋다"라는 기본형의 감상 키워드(S)로 추출된다.
다음, 속성 키워드를 기준으로 질의를 의미 단위로 분리한다(S1220). 예를 들어, "각본이 좋고, 연기가 괜찮은 영화"는 "각본이 좋다"와 "연기가 괜찮다"라는 두가지 의미를 포함하고 있으므로, 전술한 바와 같이 각각을 분리하여 따로 처리한 후 이후 결과를 통합할 것이다.
다음, 분야 키워드(D)를 제거한다(S1230). 이는 전술한 바와 같이, 인덱스가 특정 분야의 대상에 대해서만 구축되어 있을 때이다. 예를 들어, 영화에 대한 의견을 기술한 문서만을 대상으로 인덱스를 구축했을 때는 "영화"라는 키워드는 필요없으므로 질의에서 생략된다. 그러나, 인덱스가 영화, 책, TV 프로그램 등 다양한 분야에 대해 구축되어 있을 때는 "영화"라는 키워드는 속성 키워드(A)로 간주되어 처리된다.
다음, 극성 부호 산출 후 극성만을 나타내는 감상 키워드(S)를 제거한다(S1240). 감상 키워드(S)에 대해 극성 부호만을 고려한 후 극성만을 나타내는 감상 키워드(S)를 질의에서 제거하는 것은 전술한 바와 같이, 동의어, 유사어로 확장하지 않고도 모든 동의어, 유사어를 처리할 수 있도록 하기 위함이다. 전술한 바와 같이 단지 극성 부호만을 고려하면 되므로, 질의 처리 과정을 크게 단순화시키면서도 질의와 유관함에도 누락되는 문서가 없게 하므로 검색 결과의 정확성을 더욱 높일 수 있다. 단, 전술한 바와 같이, 극성 이외의 추가적인 감상 정보를 나타내는 감상 키워드(S)는 질의에서 제거되지 않고, 이러한 키워드에 대해서는 동의어, 유사어로 확장하는 것이 바람직하다. 예를 들어, "좋다"는 극성만을 나타내므로 제거되지만, "재미있다"는 극성 이외의 추가적인 감상 정보를 포함하므로 제거되지 않으며, "흥미롭다" 등으로 확장될 수 있다.
각 의미 단위가 모두 처리될 때까지(S1250) 상기 단계(S1230, S1240)를 반복하고, 완료되면 세그먼트 심사 단계로 간다.
도 13은 본 발명의 일실시예에 따른 세그먼트 심사 방법의 흐름을 도시하고 있다.
파싱된 질의 키워드를 포함하는 세그먼트를 검색한다(S1310). 인덱스를 검색하여 세그먼트 내용에 해당 키워드들이 포함되어 있는 세그먼트를 추출하면 된다.
다음, 질의에 속성 키워드가 포함되어 있다면(S1320), 해당 속성-감상 쌍들의 감상 점수를 합산하고(S1330), 그렇지 않다면 모든 속성-감상 쌍의 감상 점수를 평균함으로써(S1340), 검색된 세그먼트의 속성-감상 쌍 점수를 산출한다. 이때, 전술한 바와 같이, 상기 단계들(S1330 및 S1340)에는 합산 또는 평균 이외의 기타 다른 연산이 사용될 수도 있다. 또한, 속성-감상 쌍의 감상 점수는 속성-감상 쌍이 포함하고 있는 감상 키워드(S)를 사용하여 감상 점수 사전(200)에서 해당 감상 키워드(S)의 극성 가중치를 검색함으로써 산출할 수 있다.
다음, 극성 부호를 곱하여 해당 세그먼트의 점수를 산출한다(S1350). 전술한 바와 같이, 극성 부호를 곱함으로써 검색 결과의 순위를 뒤집는 단순한 단계를 통해, 본 발명의 일실시예에 따른 감상 기반 질의 처리 방법은 긍정적인 감상을 갖는 의견을 검색한 결과를 쉽게 부정적인 감상을 갖는 의견을 검색한 결과에 활용할 수 있다.
검색된 세그먼트가 모두 처리될 때까지(S1360), 상기 단계(S1320 내지 S1350)를 반복한다. 완료되면, 각 질의의 의미 단위가 모두 처리될 때까지(S1370), 상기 단계(S1310 내지 S1360)를 반복한다.
도시하지 않았으나, 전술한 바와 같이, 이렇게 해서 산출된 세그먼트 점수는 문서 점수 또는 대상 점수를 산출하는 데 활용된다. 문서 점수가 높은 문서 또는 질의에 매칭된 세그먼트들의 점수를 해당 세그먼트들이 기술하는 대상별로 합산하여 높은 점수를 받은 기술 대상이 검색 결과로 반환된다.
본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다. 도 1 은 본 발명의 일 실시예의 하나 이상의 구성 요소 또는 동작을 실시하기 위하여 사용될 수 있는 컴퓨터 시스템 아키텍쳐의 일례를 도시한 도면이다. 하드웨어 시스템(800)은 프로세서(810), 캐쉬(815), 메모리(815) 및 상술한 기능에 관련된 하나 이상의 소프트웨어 어플리케이션 및 드라이버를 포함할 수 있다.
추가적으로, 하드웨어 시스템(800)은 고성능 입/출력(I/O) 버스(840) 및 표준 I/O 버스(870)를 포함한다. 호스트 브릿지(820)는 프로세서(810)를 고성능 I/O 버스(840)에 결합시키고, I/O 버스 브릿지(850)는 두 개의 버스(840 및 870)를 상호 결합시킨다. 시스템 메모리(860) 및 네트워크/통신 인터페이스(830)는 고성능 I/O 버스(840)에 결합된다. 하드웨어 시스템(800)은 비디오 메모리(도시 생략) 및 그 비디오 메모리에 결합된 디스플레이 장치를 더 포함할 수 있다. 대용량 기억장치(830) 및 I/O 포트(890)는 표준 I/O 버스(870)에 결합된다. 하드웨어 시스템(800)은 키보드 및 포인팅 디바이스(pointing device), 그리고 표준 I/O 버스(870)에 결합된 디스플레이 장치(도시 생략)를 선택적으로 포함할 수 있다. 총괄적으로, 이러한 요소들은 넓은 범위의 컴퓨터 하드웨어 시스템을 표현하도록 의도되며, 인텔사에 의해 제조된 펜티엄 프로세서뿐만 아니라 다른 적절한 프로세서에 기반하는 범용 컴퓨터 시스템을 포함하나 이에 제한되지는 않는다.
하드웨어 시스템(800)의 구성 요소들은 아래에서 더 상세하게 설명된다. 보다 구체적으로, 네트워크 인터페이스(830)는 하드웨어 시스템과 이더넷(예를 들어, IEEE 802.3) 네트워크 등과 같은 임의의 넓은 범위의 네트워크 사이의 통신을 제공한다. 본 발명의 일 실시예의 경우, 네트워크 인터페이스(830)는 하드웨어 시스템(800)과 네트워크 사이를 접속하여 하드웨어 시스템(800)이 그것들의 데이터베이스들을 관리하도록 한다. 대용량 기억장치(830)는 데이터와 프로그래밍 명령을 위한 영구 기억장치를 제공하여 본 발명의 일 실시예에서 구현되는 상술한 기능을 수행하고, 시스템 메모리(860)(예를 들어, DRAM)는 프로세서(810)에 의하여 수행될 때 데이터 및 프로그래밍 명령을 위한 임시 기억장치를 제공한다. I/O 포트(890)는 하드웨어 시스템(800)에 결합될 수 있는 추가적인 주변 장치 간의 통신을 제공하는 하나 이상의 직렬 및/또는 병렬 통신 포트이다.
하드웨어 시스템(800)은 다양한 종류의 시스템 아키텍쳐를 포함할 수 있고, 하드웨어 시스템(800)의 다양한 구성요소가 재배치될 수 있다. 예를 들어, 캐쉬(815)는 프로세서(810)에 내장될 수 있다. 선택적으로, 캐쉬(815) 및 프로세서(810)는 "프로세서 모듈"로써 함께 묶여질 수 있고, 이 때 프로세서(810)는 "프로세서 코어"로서 지칭될 수 있다. 또한, 본 발명의 특정한 실시예는 상술한 구성 요소의 전부를 요구하거나 포함하지 않을 수 있다. 예를 들어, 표준 I/O 버스(870)에 결합되는 것으로 도시된 주변 장치들은 고성능 I/O 버스(840)에 결합할 수 있다. 추가적으로, 임의의 실시예에서 단지 하나의 버스만 존재할 수 있고, 하드웨어 시스템(800)의 구성 요소들은 그 하나의 버스에 결합될 수 있다. 더욱이, 하드웨어 시스템(800)은 추가적인 프로세서, 기억 장치 또는 메모리와 같은 추가적인 구성요소를 포함할 수 있다. 이하에서 논의되는 것처럼, 본 발명의 일 실시예의 동작은 하드웨어 시스템(800)에 의해 구동되는 일련의 소프트웨어 루틴으로서 실시될 수 있다. 이러한 소프트웨어 루틴들은 프로세서(810)와 같은 하드웨어 시스템에서 프로세서에 의하여 실행될 수 있는 복수의 또는 일련의 명령들을 포함한다. 우선, 일련의 명령들은 대용량 기억 장치(830)와 같은 기억 장치에 저장된다. 그러나 일련의 명령들은 디스켓, CD-ROM, ROM, EEPROM 등과 같은 임의의 적절한 기억 매체에 저장될 수 있다. 더욱이, 일련의 명령들은 국소적으로 저장될 필요가 없고, 네트워크/통신 인터페이스(830)를 통하여 네트워크 상의 서버 등과 같은 원격 기억 장치로부터 수신될 수 있다. 그 명령들은 대용량 기억 장치(830)와 같은 기억 장치로부터 시스템 메모리(860)로 복사되고, 프로세서(810)에 의하여 액세스되고 실행된다.
운영 시스템은, 소프트웨어 어플리케이션(도시 생략)과의 데이터 입/출력을 포함하는 하드웨어 시스템(800)의 동작을 관리하고 제어한다. 운영 시스템은 시스템 상에서 실행되는 소프트웨어 어플리케이션과 시스템의 하드웨어 구성 요소 사이의 인터페이스를 제공한다. 본 발명의 일 실시예에 따른 운영 시스템은 마이크로소프트사의 Windows 95/98/NT/XP/VISTA 운영 시스템일 수 있다. 그러나, 본 발명은 애플 컴퓨터사의 애플 맥킨토시 운영 시스템, 유닉스(UNIX) 운영 시스템, 리눅스(LINUX) 운영 시스템 등과 같은 다른 적절한 운영 시스템에서도 사용될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (16)

  1. 감상 기반 질의 처리 시스템에 있어서,
    하나 이상의 문서를 하나 이상의 세그먼트(segment)로 분할하고, 상기 세그먼트에 기술된 의견의 대상(object)이 갖는 속성(aspect)을 나타내는 속성 키워드 및 상기 속성에 대한 문서 작성자의 감상(sentiment)을 나타내는 감상 키워드를 상기 세그먼트에서 추출하여 속성-감상 쌍(pair)을 생성하고, 상기 세그먼트의 내용 및 상기 속성-감상 쌍을 포함하는 인덱스(index)를 구축하는 인덱스 구축부;
    상기 인덱스가 저장되는 인덱스 저장부; 및
    상기 인덱스 저장부에 저장되어 있는 인덱스를 기초로 질의를 처리하여, 상기 질의와 관련된 의견을 기술하고 있는 문서 또는 상기 질의와 관련된 의견이 기술하고 있는 대상을 검색하여 반환하는 질의 처리부;를 포함하는 감상 기반 질의 처리 시스템.
  2. 제 1 항에 있어서,
    상기 세그먼트는 동일한 의미적 관계를 갖는 최소의 구, 절, 또는 문장을 하나 이상 포함하도록 분할되는 감상 기반 질의 처리 시스템.
  3. 제 1 항에 있어서,
    상기 질의 처리부는
    상기 질의에 대한 파싱(parsing)을 수행하는 질의 파싱부; 및
    상기 인덱스에 포함되어 있는 각 세그먼트에 대해 상기 세그먼트의 내용 및 상기 속성-감상 쌍에 기초하여 상기 질의와의 관련성을 심사하여 세그먼트 점수를 산출하는 세그먼트 심사부;를 포함하는 감상 기반 질의 처리 시스템.
  4. 제 3 항에 있어서,
    상기 질의 처리부는
    상기 세그먼트 심사부가 산출한 세그먼트 점수를 합산함으로써 상기 세그먼트가 포함되어 있는 문서 또는 상기 세그먼트가 기술하고 있는 대상에 대해 상기 질의와의 관련성을 심사하는 감상 기반 질의 처리 시스템.
  5. 제 3 항에 있어서,
    상기 질의 파싱부는
    상기 질의에서 감상을 나타내는 키워드에 기초하여 질의의 극성 부호를 산출하고, 상기 감상을 나타내는 키워드 중 감상의 극성만을 나타내는 키워드를 제거하는 감상 기반 질의 처리 시스템.
  6. 제 3 항에 있어서,
    상기 질의 파싱부는
    상기 질의에서 상기 대상이 속하는 분야(domain)를 나타내는 키워드를 제거하는 감상 기반 질의 처리 시스템.
  7. 제 3 항에 있어서,
    상기 질의 파싱부는
    상기 질의를 속성을 나타내는 키워드를 기준으로 하나 이상의 의미 단위로 분할하며,
    상기 세그먼트 심사부는
    상기 분할된 의미 단위에 각각에 대해 세그먼트 점수를 산출하는 감상 기반 질의 처리 시스템.
  8. 제 3 항에 있어서,
    상기 세그먼트 심사부는
    세그먼트의 내용이 상기 파싱된 질의에 포함되어 있는 키워드를 포함하고 있는 세그먼트를 검색한 후, 상기 검색된 세그먼트에서 상기 파싱된 질의에 포함된 속성 키워드에 대응하는 속성-감상 쌍을 찾고, 상기 검색된 속성-감상 쌍의 감상 점수에 기초하여 산출한 속성-감상 쌍 점수에 상기 극성 부호를 곱하여 상기 검색된 세그먼트의 세그먼트 점수를 산출하는 감상 기반 질의 처리 시스템.
  9. 제 3 항에 있어서,
    상기 세그먼트 심사부는
    상기 파싱된 질의에 속성 키워드가 포함되어 있지 않을 경우, 상기 검색된 세그먼트가 포함하고 있는 모든 속성-감상 쌍의 감상 점수에 기초하여 산출한 속성-감상 쌍 점수를 산출하는 감상 기반 질의 처리 시스템.
  10. 제 3 항에 있어서,
    상기 시스템은 각 감상 키워드별로 기지정된 극성 가중치 점수를 저장하는 감상 점수 사전;을 더 포함하며,
    상기 세그먼트 심사부는 속성-감상 쌍이 포함하고 있는 감상의 극성 가중치 점수를 상기 감상 점수 사전에서 검색함으로써, 상기 속성-감상 쌍의 감상 점수를 산출하는 감상 기반 질의 처리 시스템.
  11. 감상 기반 질의 처리 시스템을 사용한 감상 기반 질의 처리 방법에 있어서,
    하나 이상의 문서를 동일한 의미적 관계를 갖는 최소의 구, 절, 또는 문장을 하나 이상 포함하는 하나 이상의 세그먼트(segment)로 분할하는 단계;
    상기 세그먼트에 기술된 의견의 대상(object)이 갖는 하나의 속성(aspect)을 나타내는 속성 키워드 및 상기 속성에 대한 문서 작성자의 감상(sentiment)을 나타내는 감상 키워드를 상기 세그먼트에서 추출하여 속성-감상 쌍(pair)을 생성하는 단계;
    상기 세그먼트의 내용 및 상기 속성-감상 쌍을 포함하는 인덱스(index)를 구축하는 단계;
    수신한 질의에 대한 파싱(parsing)을 수행하여, 상기 질의에서 감상을 나타내는 키워드에 기초하여 질의의 극성 부호를 산출하고, 상기 감상을 나타내는 키워드 중 감상의 극성만을 나타내는 키워드를 제거하는 단계;
    상기 인덱스에 포함되어 있는 각 세그먼트에 대해 상기 세그먼트의 내용 및 상기 속성-감상 쌍에 기초하여 상기 질의와의 관련성을 심사하여 세그먼트 점수를 산출하는 단계; 및
    상기 세그먼트 심사부가 산출한 세그먼트 점수를 합산하여 상기 문서 또는 상기 대상에 대해 상기 질의에 대한 관련성을 심사하는 단계;를 포함하는 감상 기반 질의 처리 방법.
  12. 제 11 항에 있어서,
    상기 (d) 단계는
    상기 질의에서 상기 대상이 속하는 분야(domain)를 나타내는 키워드를 제거하는 감상 기반 질의 처리 방법.
  13. 제 11 항에 있어서,
    상기 (d) 단계는
    상기 질의를 속성을 나타내는 키워드를 기준으로 하나 이상의 의미 단위로 분할하며,
    상기 (e) 단계는
    상기 분할된 의미 단위에 각각에 대해 세그먼트 점수를 산출하는 감상 기반 질의 처리 방법.
  14. 제 11 항에 있어서,
    상기 (e) 단계는
    (e1) 세그먼트의 내용이 상기 파싱된 질의에 포함되어 있는 키워드를 포함하고 있는 세그먼트를 검색하는 단계;
    (e2) 상기 검색된 세그먼트에서 상기 파싱된 질의에 포함된 속성 키워드에 대응하는 속성-감상 쌍을 찾고, 상기 검색된 속성-감상 쌍의 감상 점수를 기초로상기 검색된 세그먼트의 속성-감상 쌍 점수를 산출하는 단계;
    (e3) 상기 극성 부호와 상기 속성-감상 쌍 점수를 기초로 상기 세그먼트 점수를 산출하는 단계;를 포함하는 감상 기반 질의 처리 방법.
  15. 제 14 항에 있어서,
    상기 (e2) 단계는
    상기 파싱된 질의에 속성 키워드가 포함되어 있지 않을 경우, 상기 검색된 세그먼트가 포함하고 있는 모든 속성-감상 쌍의 감상 점수를 기초로 속성-감상 쌍 점수를 산출하는 감상 기반 질의 처리 방법.
  16. 제 14 항에 있어서,
    상기 (e2) 단계는 속성-감상 쌍이 포함하고 있는 감상의 극성 가중치 점수를 상기 감상 점수 사전에서 검색함으로써, 상기 속성-감상 쌍의 감상 점수를 산출하는 감상 기반 질의 처리 방법.
PCT/KR2013/009582 2012-10-26 2013-10-25 감상 기반 질의 처리 시스템 및 방법 WO2014065630A1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US14/693,188 US20150227528A1 (en) 2012-10-26 2015-04-22 Sentiment-based query processing system and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2012-0119977 2012-10-26
KR1020120119977A KR101423549B1 (ko) 2012-10-26 2012-10-26 감상 기반 질의 처리 시스템 및 방법

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US14/693,188 Continuation US20150227528A1 (en) 2012-10-26 2015-04-22 Sentiment-based query processing system and method

Publications (1)

Publication Number Publication Date
WO2014065630A1 true WO2014065630A1 (ko) 2014-05-01

Family

ID=50544928

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2013/009582 WO2014065630A1 (ko) 2012-10-26 2013-10-25 감상 기반 질의 처리 시스템 및 방법

Country Status (3)

Country Link
US (1) US20150227528A1 (ko)
KR (1) KR101423549B1 (ko)
WO (1) WO2014065630A1 (ko)

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9836529B2 (en) 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
US10664759B2 (en) * 2014-10-23 2020-05-26 Fair Isaac Corporation Dynamic business rule creation using scored sentiments
US9558178B2 (en) * 2015-03-06 2017-01-31 International Business Machines Corporation Dictionary based social media stream filtering
US10187704B1 (en) * 2017-07-20 2019-01-22 Rovi Guides, Inc. Methods and systems for presenting a media asset segment that is associated with a pre-specified quality of acting
US10592831B2 (en) 2017-07-20 2020-03-17 Rovi Guides, Inc. Methods and systems for recommending actors
US10970334B2 (en) * 2017-07-24 2021-04-06 International Business Machines Corporation Navigating video scenes using cognitive insights
US10606903B2 (en) * 2017-11-17 2020-03-31 International Business Machines Corporation Multi-dimensional query based extraction of polarity-aware content
US11188592B2 (en) * 2018-02-05 2021-11-30 International Business Machines Corporation Quantum superposition and entanglement of social sentiment and natural language generation
MY189086A (en) * 2018-11-14 2022-01-25 Mimos Berhad System and method for dynamic entity sentiment analysis
US11423221B2 (en) * 2018-12-31 2022-08-23 Entigenlogic Llc Generating a query response utilizing a knowledge database
CN111144507B (zh) * 2019-12-30 2021-06-08 北京百度网讯科技有限公司 情感分析模型预训练方法、装置及电子设备
US20220237386A1 (en) * 2021-01-22 2022-07-28 Nec Laboratories America, Inc. Aspect-aware sentiment analysis of user reviews

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278982A (ja) * 2001-03-22 2002-09-27 Ricoh Co Ltd 情報抽出方法および情報検索方法
KR20060132722A (ko) * 2004-03-15 2006-12-21 야후! 인크. 사용자 주석이 통합된 검색 시스템 및 방법
KR20110052114A (ko) * 2009-11-12 2011-05-18 주식회사 버즈니 인터넷을 활용한 추천 검색 시스템 및 그 방법
JP2012003573A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080109454A1 (en) * 2006-11-03 2008-05-08 Willse Alan R Text analysis techniques
US8280885B2 (en) * 2007-10-29 2012-10-02 Cornell University System and method for automatically summarizing fine-grained opinions in digital text
US8239189B2 (en) * 2008-02-26 2012-08-07 Siemens Enterprise Communications Gmbh & Co. Kg Method and system for estimating a sentiment for an entity
US8838633B2 (en) * 2010-08-11 2014-09-16 Vcvc Iii Llc NLP-based sentiment analysis

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002278982A (ja) * 2001-03-22 2002-09-27 Ricoh Co Ltd 情報抽出方法および情報検索方法
KR20060132722A (ko) * 2004-03-15 2006-12-21 야후! 인크. 사용자 주석이 통합된 검색 시스템 및 방법
KR20110052114A (ko) * 2009-11-12 2011-05-18 주식회사 버즈니 인터넷을 활용한 추천 검색 시스템 및 그 방법
JP2012003573A (ja) * 2010-06-18 2012-01-05 Nomura Research Institute Ltd 感性分析システム及びプログラム

Also Published As

Publication number Publication date
KR101423549B1 (ko) 2014-08-01
US20150227528A1 (en) 2015-08-13
KR20140053717A (ko) 2014-05-08

Similar Documents

Publication Publication Date Title
WO2014065630A1 (ko) 감상 기반 질의 처리 시스템 및 방법
CN107193803B (zh) 一种基于语义的特定任务文本关键词提取方法
Jaimes et al. Semi-automatic, data-driven construction of multimedia ontologies
CN112988969A (zh) 用于文本检索的方法、装置、设备以及存储介质
CN1325513A (zh) 具有知识生成能力的文档语义分析/选择
CN110162768B (zh) 实体关系的获取方法、装置、计算机可读介质及电子设备
Beliga et al. Toward selectivity based keyword extraction for Croatian news
US10083398B2 (en) Framework for annotated-text search using indexed parallel fields
US10474747B2 (en) Adjusting time dependent terminology in a question and answer system
CA2698763A1 (en) System and method for a unified semantic ranking of compositions of ontological subjects and the applications thereof
CN104298732A (zh) 一种面向网络用户的个性化文本排序及推荐方法
CN111125297B (zh) 一种基于搜索引擎的海量离线文本实时推荐方法
CN112989808A (zh) 实体链接方法及装置
CN102117285B (zh) 一种基于语义索引的检索方法
JP2007207127A (ja) 質問応答システム、質問応答処理方法及び質問応答プログラム
Hsu et al. Mining various semantic relationships from unstructured user-generated web data
Jacob et al. Video content analysis and retrieval system using video storytelling and indexing techniques.
Qureshi et al. Comparative analysis of semantic search engines based on requirement space pyramid
KR20020027088A (ko) 구문 분석에 의거한 자연어 처리 기술 및 그 응용
Maree Semantics-based key concepts identification for documents indexing and retrieval on the web
Halabi et al. Graph-based arabic key-phrases extraction
JP2004185135A (ja) 話題変化抽出方法とその装置及び話題変化抽出プログラムとその情報記録伝送媒体
Šišović et al. Toward network-based keyword extraction from multitopic web documents
JP3486406B2 (ja) 特許情報検索装置
WO2016122043A1 (ko) 키워드 인스턴스 기반 온톨로지 데이터 생성 시스템 및 방법

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13849115

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13849115

Country of ref document: EP

Kind code of ref document: A1