WO2012070840A2 - 컨센서스 검색 장치 및 방법 - Google Patents

컨센서스 검색 장치 및 방법 Download PDF

Info

Publication number
WO2012070840A2
WO2012070840A2 PCT/KR2011/008916 KR2011008916W WO2012070840A2 WO 2012070840 A2 WO2012070840 A2 WO 2012070840A2 KR 2011008916 W KR2011008916 W KR 2011008916W WO 2012070840 A2 WO2012070840 A2 WO 2012070840A2
Authority
WO
WIPO (PCT)
Prior art keywords
semantic
search
text data
unit
data
Prior art date
Application number
PCT/KR2011/008916
Other languages
English (en)
French (fr)
Other versions
WO2012070840A3 (ko
Inventor
강재우
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of WO2012070840A2 publication Critical patent/WO2012070840A2/ko
Publication of WO2012070840A3 publication Critical patent/WO2012070840A3/ko
Priority to US13/899,786 priority Critical patent/US9679001B2/en

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/22Indexing; Data structures therefor; Storage structures
    • G06F16/2228Indexing structures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/31Indexing; Data structures therefor; Storage structures
    • G06F16/313Selection or weighting of terms for indexing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3338Query expansion

Definitions

  • the present invention relates to a consensus search apparatus and method for searching a consensus according to a search condition.
  • search-providing web sites such as portal search sites have provided semantic search services for searching and providing more accurate content desired by users. Doing.
  • the manner of implementing conventional semantic search retrieves content based on factual information such as tags and metadata provided by the content provider.
  • factual information such as tags and metadata provided by the content provider.
  • content can be searched based on descriptors extracted directly from the content itself, such as screen analysis, dialogue extraction, voice and voice classification.
  • the present invention has been made in view of the above-described problems, and an object of the present invention is to provide a consensus search apparatus and method that can increase the accuracy of a search by using various opinions about objects recorded in an electronic document by users as a search material.
  • the consensus retrieval apparatus divides the text data created in the electronic document including the content of one or more objects in segments, and in segments After extracting one or more semantic descriptors from the text data, a semantic data indexing unit generating a semantic data index matching the object and the text data of the segment unit with respect to the extracted semantic descriptors and a query based on the semantic data indexes And a semantic search processor for searching for an object related to the text data, wherein the text data of the segment unit is divided based on a semantic unit.
  • the index generation method for consensus search includes the steps of: (a) dividing text data written in an electronic document including contents of at least one object into segments; (b) extracting one or more semantic descriptors from the text data in the segment unit; and (c) generating the semantic data index matching the object and the text data in the segment unit with respect to the extracted semantic descriptor.
  • the text data is divided into text data in segment units based on a semantic unit.
  • the consensus search method comprises the steps of (a) providing a semantic data index obtained by dividing and indexing an electronic document containing the content of one or more objects into text data in units of segments; and (b) And retrieving an object related to a query based on the semantic data index, wherein the semantic data index extracts one or more semantic descriptors from the text data of the segment unit, and then extracts the object and the semantic descriptor.
  • the text data is generated by matching the segment unit.
  • any one of the above-described problem solving means of the present invention there is an effect that it is possible to present a suitable search results for the query by using text data generated by various users for each object. That is, it is possible to increase the search accuracy by searching for content that is closer to the search word requested by the user than in the semantic search based only on the factual information of the conventional content.
  • a search that returns the most optimal results for the query in real time according to the result of combining various opinions online. It may provide a method.
  • 1 is a block diagram showing the structure of a consensus search apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram illustrating a configuration of a semantic search processing unit according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating an example of a structure of a domain ontology onto which domain ontology and metadata are mapped according to an embodiment of the present invention.
  • FIG. 4 is a diagram illustrating a semantic segment according to an embodiment of the present invention.
  • FIG. 5 is a diagram illustrating a semantic data index according to an embodiment of the present invention.
  • FIG. 6 is a view for explaining a search word expansion method according to an embodiment of the present invention.
  • FIG. 7 illustrates a semantic search index according to an embodiment of the present invention.
  • FIG. 8 is a flowchart illustrating a semantic search method using user-generated text data according to an embodiment of the present invention.
  • an “object” refers to a subject or entity that a user intends to describe through various electronic documents.
  • One electronic document may include one or more objects.
  • a product, a service, a person, a company It can be expressed in various forms of named entities, such as local and social issues.
  • the “consensus search” described herein is based on the results of combining various opinions online for a subjective query whose answer is not clear, such as a question asking for an evaluation opinion on a specific object. It can mean a search method that returns the most optimal result for a query.
  • 1 is a block diagram showing the structure of a consensus search apparatus according to an embodiment of the present invention.
  • FIG. 2 is a block diagram showing a configuration of a semantic search processing unit according to an embodiment of the present invention.
  • the consensus retrieval apparatus 100 may generate meta data 111 and a user for various objects existing on various types of electronic documents such as a web or SNS message.
  • Database 110 including text data 112, metadata indexing unit 120, Domain Ontology 121, semantic data indexing unit 130, Linguistic Ontology 132 and semantic And a search processor 140.
  • Meta data 111 stored in database 110 is factual information defined for an object.
  • the metadata may include factual information such as a director, an actor, a release date, and a distributor. That is, the metadata includes at least one factual descriptor for describing the content or the object.
  • the database 110 may be in the form of a database that obtains and stores meta data 111 existing on the web for each object, and a plurality of meta on the web whenever metadata is needed. It may be in the form of a module that searches for, acquires, and collects and provides data.
  • the user-generated text data 112 stored in the database 110 is text data generated (or created) by a user who has experienced various objects.
  • the user-generated text data may be text data such as movie review reviews or comments written by a plurality of users on a bulletin board, a blog or an SNS message of a web site that provides movie information. have.
  • the user-generated text data may be used to create subjective information such as comments and reviews as well as multimedia content (eg, movies, music, novels, photos, etc.) that the user can search on the web. It can be for any object, including goods and services that are present. That is, the user-generated text data according to the embodiment of the present invention is in the form of a document composed of one or more sentences, and means that the present invention may be implemented for all target objects in which the user-generated text data exists.
  • the database 110 may be in the form of a database in which each user-generated text data 112 is obtained and stored for each object, and user-generated text data of the corresponding object on the web whenever the user-generated text data is needed. It may be in the form of a module that searches, obtains, and collects and provides.
  • the database 110 may include a web crawler, and the web crawler may visit a web site of a predetermined address on the web and crawl the web document to generate user-generated text data.
  • the crawler collects specific information from a web document page, and the crawler according to an embodiment of the present invention is a text data page uploaded to a bulletin board or the like of a site of a specific topic (for example, a movie-related website or a blog). Can be collected and stored.
  • the metadata indexing unit 120 obtains meta data for each object from the database 110, maps the domain ontology corresponding to the category of the object, and generates a metadata index using the domain ontology to which each metadata is mapped.
  • the ontology is a kind of dictionary composed of words and relationships.
  • the domain ontology 121 includes inference rules for hierarchically expressing words related to a specific domain (field) and further expands the web. It is a concept that enables knowledge sharing and reuse among knowledge-based processes or applications.
  • the domain ontology 121 according to an embodiment of the present invention may be defined and stored for each category of the object.
  • FIG. 3 is a diagram for explaining an example of a structure of a domain ontology onto which domain ontology and metadata are mapped according to an embodiment of the present invention.
  • FIG. 3A when the category of the object is "Movie", the domain ontology defined for the "Movie” category is shown.
  • “Genres”, “Staff”, “Studios”, “Technical Specs”, etc. are defined as lower layers of the "movie” worm. It was shown.
  • the metadata indexing unit 120 maps the metadata of the object to the predefined domain ontology.
  • the metadata indexing unit 120 obtains the metadata 111 previously stored for each object from the database 110, obtains the domain ontology 121 according to the category, and then includes the metadata onto the metadata. Map descriptive descriptors to the corresponding layer of domain ontology of that category.
  • FIG. 3B illustrates that the metadata indexing unit 120 maps metadata related to a movie "A” to a domain ontology of the "movie” category.
  • the metadata indexing unit 120 generates and stores a metadata index based on a domain ontology to which metadata for each object is mapped.
  • the metadata indexing unit 120 generates a metadata index matching at least one object identification information (eg, ID, content name, etc.) for each factual descriptor stored for each subcategory of the domain ontology. That is, a plurality of object identification information including the same factual descriptor is matched with the factual descriptor and stored.
  • object identification information eg, ID, content name, etc.
  • the semantic data indexing unit 130 extracts the semantic descriptor from the user-generated text data and generates a semantic data index based on each semantic descriptor.
  • the semantic descriptor is used as a criterion of the search in the consensus search according to the embodiment of the present invention.
  • the semantic data indexing unit 130 divides text data written in an electronic document including contents of one or more objects from the database 110 in segments and divides one or more semantic descriptors from the text data in segments. After extracting, the semantic data index is generated by matching text data in units of objects and segments with respect to the extracted semantic descriptor.
  • the semantic data indexing unit 130 may divide the user-generated text data 112 into semantic units and divide the semantic segments into a plurality of semantic segments.
  • the semantic unit indicates a unit of a minimum word, phrase, clause, sentence, or paragraph having a semantic relationship of the same category.
  • one electronic document is logically divided into several segments divided into semantic units.
  • the text data in units of segments may be included in a single sentence.
  • the sentence "good acting but less realistic” can be divided into different semantic units “good acting” and “lowest realistic”, so that text data from different segments It can be divided into
  • the text data in the segment unit may be divided to include one or more paragraphs, one or more sentences, one or more clauses, one or more phrases, one or more words, and the like.
  • the process of dividing the text data into semantic units may be performed using a known natural language processing algorithm or the like, and a detailed description of the specific algorithm will be omitted.
  • FIG. 4 is a diagram illustrating a semantic segment according to an embodiment of the present invention.
  • the semantic data indexing unit 130 is movie synopsis, which is user-generated text data that is pre-generated for a movie content called 'Knight and Day' and a movie content called 'Inception' among contents included in the 'movie' category.
  • the data, the review data of the first user, and the review data of the second user are obtained to generate the semantic segment.
  • FIG. 4 illustrates that the semantic data indexing unit 130 generates semantic segments by dividing user generated text data (ie, a document) based on 'sentence' which is a semantic unit.
  • the semantic data indexing unit 130 divides the user-generated text data (ie, a document) into 'segment' and 'section' semantic segments. It is also possible to generate.
  • the semantic data indexing unit 130 classifies a phrase or clause as a minimum semantic unit based on a conjunction, or classifies a semantic segment based on a positive or negative term. Can be generated.
  • the minimum semantic unit is a 'phrase' or 'clause' based on a conjunction
  • the relationship between the vocabularies in one semantic segment is closely related. Will be lost. Therefore, when a user-entered search term (ie, query) includes vocabulary meaning not only factual information but also subjective information, semantic search based on the semantic segment that is most relevant to the vocabulary in the search term is possible. do.
  • the semantic data indexing unit 130 matches and stores semantic segments generated for each content with identification information of the semantic segment (hereinafter referred to as 'semantic segment identification information').
  • the semantic data indexing unit 130 numbers the semantic segments for each object in the order of sentences, and identifies the numbers 1, 2, 3, 4,... As identification information (ie, semantic segment identification information) of each semantic segment. ) Is generated.
  • the semantic segment identification information may be generated in various forms such as an ID as well as a number.
  • the semantic data indexing unit 130 extracts a plurality of semantic descriptors by dividing each semantic segment into lexical units.
  • the semantic data indexing unit 130 generates a semantic data index that matches at least one object identification information including each semantic descriptor and identification information of the semantic segment.
  • the semantic data indexing unit 130 generates a semantic data index after performing preprocessing on each semantic descriptor using the language ontology 132.
  • the language ontology 132 refers to an ontology that supports a natural language interface for data or information extracted from text, word bundles, and the like.
  • the preprocessing of the vocabulary is a concept including processing such as stop word removal, stemming, and the like.
  • FIG. 5 is a diagram illustrating a semantic data index according to an embodiment of the present invention.
  • the semantic data indexing unit 130 assigns identification information (indicating that it is 'ID' in FIG. 5) for each object.
  • the semantic data indexing unit 130 may use the same identification information that the metadata indexing unit 120 provides for each object. That is, the meta data indexing unit 120 and the semantic data indexing unit 130 assign one identification information to the same object.
  • 5 (a) shows that when the category of the object is 'movie', 'M1042' to 'M1045' are assigned as IDs for 'A' to 'D' movies.
  • the semantic data indexing unit 130 matches and stores corresponding object identification information and semantic segment identification information for each object based on the semantic descriptor extracted from the user-generated text data for each object.
  • the object including 'Wichita' (P51), which is one of the semantic descriptors, is the movie 'B' (P53), and the number '2' in the semantic segment of the movie 'B'. It can be seen that 'Wichita' is included in '3' (P54).
  • the semantic search processor 140 performs a consensus search process using the meta data index and the semantic data index on the input search word, and outputs information on the searched object.
  • the search word may be input by a user in a web site such as a search portal site and may be input in the form of a sentence, a clause, a phrase, or a word.
  • Consensus search goes beyond finding the objective fact of "Who are the actors in the movie A?”, As explained earlier, and the results differ depending on the subject of people who are "what is the most interesting action movie?” To search for the best results for questions that cannot be answered correctly.
  • the semantic search processing unit 140 includes a search word preprocessing module 141, a search word expansion module 142, and a semantic search module 143.
  • the search word preprocessing module 141 divides a search word input by a user into lexical units to extract a search keyword, and performs preprocessing such as removing stop words and removing endings for the extracted search keyword. For reference, the search word preprocessing module 141 may preprocess the search word using the language ontology 132.
  • the search word preprocessing module 141 may process the query by dividing the input search word into semantic segments when the search word input by the user includes one or more minimum meaning units.
  • the search word preprocessing module 141 may divide the search word into search word semantic segments in the same manner as the semantic data indexing unit 130.
  • the search term expansion module 142 generates an expansion keyword by performing a concept expansion process on the search keyword.
  • the search term expansion module 142 may expand a search keyword using the language ontology 132, where the language ontology 132 may be a concept including a dictionary-based expansion technique.
  • the keyword expansion module 142 may generate an expansion keyword based on at least one of synonyms, hyponyms, and hyponyms for each of the search keywords.
  • FIG. 6 is a diagram illustrating a search word expansion method according to an embodiment of the present invention.
  • the concept of one search keyword called car is expanded to generate a plurality of extended keywords (cable car, automobile, railway, etc.).
  • the semantic search module 143 uses the semantic data index or the meta data index to extract at least one object having a high relevance with respect to a search word input by the user and determine it as a search result object.
  • the semantic search module 143 outputs the information of the search result object to the screen so that a user can check the information.
  • the semantic search module 143 may output the search result and user-generated text data related to the search result or connection information.
  • the semantic search module 143 may determine a search result object by using at least one index of the metadata index and the semantic data index according to the attribute of the search word input by the user. That is, the semantic search module 143 may provide a direct relevance (ie, a relevance between a search term and metadata) to a search term and an object input by a user, and an indirect relevance (ie, a search term to a search term and user opinion information).
  • the search result object is determined using at least one of the degree of association between user-generated text data.
  • the semantic search module 143 may determine a search result object by setting a higher weight for any one of the direct relevance and the indirect relevance.
  • an attribute of a search word means a kind of information of a vocabulary included in the search word, and in the embodiment of the present invention, it means realistic information and subjective information.
  • the search term is "Movie of Director A”
  • the search term is divided into search keywords of "A”, “Director”, “Movie”, and “A” and “Director” generally belong to factual information.
  • the search term is "Movie which shows the emotion of director A”
  • the search term is divided into search keywords of "A”, “Director”, “Emotion”, “Highlight”, “Movie”, and “Emotion”, “Highlight”
  • the search term is divided into search keywords of "A”, “Director”, “Emotion”, “Highlight”, “Movie”, and “Emotion”, “Highlight”
  • subjective information For example, if the search term is "Movie of Director A,” the search term is divided into search keywords of "A”, “Director”, “Emotion”, “Highlight”, “Movie”, and “Emotion”, “Highlight” Generally belongs to
  • a search word input to the semantic search module 143 when a search word input to the semantic search module 143 according to an embodiment of the present invention includes only factual information, an object suitable for the search word is searched using a metadata index.
  • the search word input to the semantic search module 143 includes only subjective information, an object suitable for the search word is searched using the semantic data index.
  • the search word input to the semantic search module 143 includes both the factual information and the subjective information, an object suitable for the search word is searched using the metadata index and the semantic data index.
  • the semantic search module 143 may search for an object using any one of a metadata index or a semantic data index, and then search for an object using the other one when an object suitable for a search term is not found.
  • the semantic search module 143 may search for an object using the metadata index and the semantic data index at the same time.
  • the semantic search module 143 searches for the object for the same search term using both the metadata index and the semantic data index, and applies the same weight or different weight to the metadata search index and the semantic data index to search result objects. Can be determined.
  • the semantic search module 143 may determine, as the search result object, an object included in the metadata index (or semantic data index) among the extracted objects based on the semantic data index (or metadata index). Alternatively, the semantic search module 143 may preferentially determine the extracted object based on the semantic data index (or metadata index) as the search result object.
  • the semantic search module 143 will be described how to search based on the metadata index.
  • the semantic search module 143 extracts a realistic descriptor that matches at least one of the search keyword and the extended keyword from the metadata index.
  • the semantic search module 143 generates the extracted factual descriptor among the elements (entries) included in the metadata index and the object identification information matched thereto as the metadata search index.
  • the semantic search module 143 returns an object according to the object identification information included in the metadata search index as a search result.
  • the semantic search module 143 will be described how to search for an object based on the semantic data index.
  • the semantic search module 143 extracts the semantic descriptor matching the search keyword and the extended keyword from the semantic data index, and identifies the object identification information and the object for each extracted semantic descriptor. Generate a semantic search index to which the semantic segment identification information is matched.
  • FIG. 7 is a diagram illustrating a semantic search index according to an embodiment of the present invention.
  • FIG. 7 illustrates a semantic search index generated when a user who searches for an object inputs a search term of 'a Tom Cruise movie that is good to see when dating'.
  • the query preprocessing module 141 first uses the term 'tom Tom Cruise movie' as a term such as 'Tom', 'Cruise', 'movie' or 'date'. Split and extract search keywords.
  • the keyword expansion module 142 performs keyword expansion for each of the extracted search keywords, and generates an expansion keyword of 'film, motion-picture, and go out'.
  • the semantic search module 143 from the semantic data index, the search keywords 'Tom, Cruise, movie, date' and the extended keywords 'film, motion' Extract semantic descriptors that match 'motion-picture, go out'.
  • the semantic search module 143 from the semantic data index, the extracted semantic descriptors' Tom, Cruise, movie, date, film, motion-picture ( object identification information for each motion-picture and go out 'and semantic segment identification information for each object are extracted.
  • the semantic search module 143 generates the semantic search index by matching the extracted object identification information and semantic segment identification information for each extracted semantic descriptor.
  • the semantic search module 143 calculates an association degree between the search word and the corresponding object for each semantic descriptor included in the semantic search index.
  • the semantic search module 143 may detect an intersection of the object and the semantic segment with respect to the semantic descriptors included in the semantic search index, and assign an association score to the intersection of the detected object and the semantic segment.
  • the semantic search module 143 may calculate a relevance score by applying different weights to the semantic descriptor matched to the search keyword and the semantic descriptor matched to the extended keyword.
  • the semantic search module 143 may assign the weights of the scores to the objects matching the semantic descriptors according to the search keyword and the semantic segment to the objects and the semantic segments matching the semantic descriptors according to the extended keyword. It can be set higher than the weight.
  • the semantic search module 143 searches for Tom, Cruise, movie, and date that match the search keyword among the semantic descriptors included in the semantic search index.
  • the object identification information 'M1043' was extracted as an intersection, and '[2, 13]' among the semantic segment identification information matching 'M1043' was extracted as an intersection.
  • the semantic search module 143 extracts the content identification information 'M1042' as the intersection of the film and the go out that match the expansion keyword among the semantic descriptors included in the semantic search index. It is shown that '[5]' is extracted from the semantic segment identification information matching 'M1042' by the intersection.
  • a user's search word includes only one minimum meaning unit.
  • the search word preprocessing module 141 divides the search word into a plurality of search word semantic segments.
  • the search term expansion module 142 then expands each search term semantic segment.
  • the semantic search module 143 may process a query for each extended search term semantic segment as described above.
  • a user search for "movies with good screenplays but the actors performing worst" includes two search term semantic segments expressing two opposite emotions: "good screenplay" and "worst acting."
  • the object identification information and the semantic segment identification information obtained for each search term semantic segment may be integrated by combining the object identification information and then combining the semantic segments of the same content.
  • the semantic search module 143 assigns an association score to the corresponding object according to the number of extracted semantic segments for each object.
  • the semantic search module 143 may calculate the correlation score for each object extracted based on a topology distance method.
  • the semantic search module 143 defines a score as a '1' value for the semantic segment extracted according to the search keyword, and scores for the semantic segment extracted according to the extended keyword. It can be set to a value of '0.5' less than '1'. That is, score weights for search keywords and extended keywords are given differently. Therefore, in FIG. 7, two points are assigned to the object identification information 'M1043' and 0.5 points are assigned to the 'M1042'.
  • FIG. 7 illustrates that the semantic search module 143 outputs objects for 'M1043' and 'M1042' as a search result with respect to a search word input by a user.
  • the semantic search module 143 may output search results in the order of 'M1043' and 'M1042'. That is, the semantic search module 143 may generate search result information so as to distinguish between an object 'M1043' as the most suitable object for the search word input by the user and an object 'M1042' as the next suitable object.
  • the semantic search result ranking method is a method of ranking based on the opinions of users, which is fundamentally different from the conventional method of ranking the search result, which relies only on the similarity with respect to the user search word. Do.
  • the semantic search module 143 when determining the semantic search result ranking, at least one vocabulary (ie, a search keyword and an extended keyword) included in a search word input by a user is sentimental.
  • different weights may be applied to the semantic segment including the keyword according to the polarity and degree of sensitivity. For example, if the user's search term is "movies that look good on dating," the semantic segment that contains "best” among the semantic segments that include "best” and "good” in the semantic data index for the movie category. By setting the weight higher, the semantic search process described above may be performed.
  • 'best' and 'good' both have a positive polarity, but since 'best' expresses the opinion of the user more strongly, the semantic segment including the semantic descriptor of 'best' in the semantic data index of the movie category
  • the weight may be set higher for.
  • additional points or weights are additionally given in consideration of evaluation information such as the authority of the site where the text data from which the segment data is extracted is published, the author's prominence, the freshness of the text data, or the number of times users recommend the text data. can do. For example, information about an author who is recognized for prominence or information about a site that has been recognized for prominence in the corresponding field is stored in advance, and an additional point is added when segment data matches this information. In addition, different weights may be applied based on information on when the text data is posted. In addition, an additional point may be applied to text data by further considering recommendation information or evaluation information such as “yy of xx likes”.
  • the semantic search module 143 detects at least one object identification information related to the search word input by the user from the semantic search index, and among the detected object identification information, a predetermined number of objects in order of high association score. Extract identification information. The semantic search module 143 returns an object according to the extracted at least one object identification information as a search result.
  • the semantic search module 143 includes at least one object extracted according to the order of high relevance score for the search word among the objects whose scores are calculated based on the semantic search index, and metadata. Returns at least one of the objects included in the search index as a search result.
  • a consensus search method according to an embodiment of the present invention will be described in detail with reference to FIG. 8.
  • FIG. 8 is a flowchart illustrating a semantic search method using user-generated text data according to an embodiment of the present invention.
  • a search keyword is extracted by dividing an input search word into a lexical unit, and an extended keyword is generated by expanding the generated search keyword according to at least one of synonyms, sharks, and lower words using language ontology.
  • the search word input by the user may be configured in units of a word, a clause, a phrase, a sentence, and the like.
  • the semantic data index and the metadata index may be generated through the method described above with reference to FIGS. 1 to 7.
  • a semantic search index is generated based on semantic descriptors matching the search keyword and the extended keyword among semantic descriptors for each semantic data index.
  • the metadata search index is generated based on the factual descriptors matching the search keyword and the extended keyword among the factual descriptors for each metadata index.
  • the semantic search index is a form in which at least one object identification information and a semantic segment identification information for each object are matched for each semantic descriptor
  • the metadata search index is a form in which at least one object identification information is matched for each realistic descriptor.
  • the method of searching for an object suitable for the search word using at least one of the semantic search index and the metadata search index in step S830 may be performed through the method described with reference to FIGS. 1 to 7.
  • the information on the semantic searched object is generated and output in the form of information that the user can identify using the user-generated text data and metadata, in operation S 840.
  • the form of information that a user can check may be generated in the form of a web page output through a web site.
  • the consensus search apparatus and method according to an embodiment of the present invention may perform semantic search by using object-related factual information further including object extraction data as factual information related to an object.
  • object extraction data may be obtained by analyzing the object itself, such as image analysis, voice analysis, dialogue extraction, music mood analysis, and musical instrument extraction.
  • object extraction data includes an object extraction descriptor, and the consensus search apparatus and method according to an embodiment of the present invention may perform object extraction data indexing as well as metadata indexing.
  • the semantic search processing unit 140 may perform a semantic search based on the meta data index, the object extraction data index, and the semantic data index.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명에 따른 컨센서스 검색 장치는, 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되, 상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것이다.

Description

컨센서스 검색 장치 및 방법
본 발명은 검색조건에 따라 컨센서스를 검색하는 컨센서스 검색 장치 및 방법에 관한 것이다.
다양한 디지털 콘텐츠나 상품 또는 사회적 이슈에 대하여 검색하고자 하는 사용자의 욕구가 증대되면서, 포털 검색 사이트 등의 검색 제공 웹(web) 사이트들은 사용자가 원하는 콘텐츠를 좀더 정확하게 검색하여 제공하기 위한 시맨틱 검색 서비스를 제공하고 있다.
일반적으로, 종래의 시맨틱 검색을 구현하는 방식은, 콘텐츠 제공자가 제공하는 태그 및 메타 데이터 등의 사실적 정보에 기초하여 콘텐츠를 검색한다. 특히, 동영상과 같은 디지털 컨텐츠의 경우, 화면 분석, 대사 추출, 음성 및 목소리 분류 등 콘텐츠 자체에서 직접 추출한 기술어(descriptor)에 기초하여 콘텐츠를 검색할 수 있다.
그러나, 이와 같은 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는 특정 분야(domain)의 지식을 풍부하게 모델링하는 것이 매우 어려운 작업일 뿐만 아니라, 단순히 콘텐츠 제공자가 작성한 사실적 기술어나 컨텐츠 자체로부터 추출할 수 있는 제한적인 컨텐츠 추출 기술어에 기초하여 콘텐츠를 검색함으로써 실제의 의미와는 다른 콘텐츠를 검색하여 제공하게 될 가능성이 높았다.
즉, 종래의 컨텐츠 기반 시맨틱 검색 구현 방식에서는, 콘텐츠에 대한 검색에 이용되는 정보 데이터가 부족함에 따라, 사용자의 검색 요구에 대하여 제한적이고 부정확한 검색 결과를 제공하게 되는 문제점이 있었다.
또한, 최근 들어 SNS(Social Network Service)등의 보급에 따라 각 사용자들이 디지털 콘텐츠, 상품 또는 사회적 이슈 등에 대하여 다양한 의견을 기록한 전자 문서들이 축적되고 있는 상황임에도, 이러한 다양한 의견을 충분히 반영하여 검색 결과로서 활용할 수 있는 방법이 나타나지 않고 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 사용자들에 의하여 전자 문서에 기록된 객체에 대한 다양한 의견을 검색의 자료로 사용함으로써 검색의 정확도를 높일 수 있는 컨센서스 검색 장치 및 방법을 제공하고자 한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 컨센서스 검색 장치는, 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되, 상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것이다.
그리고, 본 발명의 제 2 측면에 따른 컨센서스 검색을 위한 인덱스 생성 방법은 (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하는 단계; (b) 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출하는 단계 및 (c) 상기 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되, 상기 (a) 단계는 상기 텍스트 데이터를 의미 단위를 기준으로 세그먼트 단위의 텍스트 데이터로 분할한다.
또한, 본 발명의 제 3 측면에 따른 컨센서스 검색 방법은 (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서를 세그먼트 단위의 텍스트 데이터로 분할하여 인덱싱한 시맨틱 데이터 인덱스가 제공되는 단계 및 (b) 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 단계를 포함하되, 상기 시맨틱 데이터 인덱스는 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭하여 생성된 것이다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 각 객체에 대하여 다양한 사용자들이 생성한 텍스트 데이터를 이용하여, 쿼리에 대하여 적합한 검색 결과를 제시할 수 있다는 효과가 있다. 즉, 종래의 콘텐츠의 사실적 정보에만 기초한 시맨틱 검색 시 보다, 사용자가 요구하는 검색어에 대해 더욱 근접한 콘텐츠를 검색하여 검색 정확도를 높일 수 있다. 특히, 특정 객체에 대한 평가 의견을 묻는 질문과 같이 정답이 명확하지 않은 주관적인 질의(subjective query)에 대하여, 온라인 상의 여러 의견들을 종합한 결과에 따라 질의에 대한 가장 최적의 결과를 실시간으로 반환하는 검색 방법을 제공할 수 있다.
도 1은 본 발명의 일실시예에 따른 컨센서스 검색 장치의 구조를 나타내는 블록도이다.
도 2는 본 발명의 일실시예에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.
도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.
도 4는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.
도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.
도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.
도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.
도 8은 본 발명의 일실시예에 따른 사용자 생성 텍스트 데이터를 이용한 시맨틱 검색 방법을 설명하기 위한 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 명세서에 기재된 “객체”는 여러 전자 문서를 통해 사용자가 기술하고자 하는 주제 또는 엔티티를 나타내는 것으로, 하나의 전자 문서에 하나 이상의 객체가 포함될 수 있으며, 예를 들면, 상품, 서비스, 인물, 회사, 지역, 사회적 이슈 등 다양한 형태의 개체명(named entity)으로 표현될 수 있다.
또한, 본 명세서에 기재된 “컨센서스 검색(consensus search)”은 특정 객체에 대한 평가 의견을 묻는 질문과 같이 정답이 명확하지 않은 주관적인 질의(subjective query)에 대하여, 온라인 상의 여러 의견들을 종합한 결과에 따라 질의에 대한 가장 최적의 결과를 반환하는 검색 방법을 의미할 수 있다.
도 1은 본 발명의 일실시예에 따른 컨센서스 검색 장치의 구조를 나타내는 블록도이다.
그리고, 도 2는 본 발명의 일실시예에 따른 시맨틱 검색 처리부의 구성을 나타내는 블록도이다.
도 1에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 컨센서스 검색 장치(100)는 웹(web) 또는 SNS 메시지 등 다양한 형태의 전자 문서상에 존재하는 각종 객체에 대한 메타 데이터(111) 및 사용자 생성 텍스트 데이터(112)를 포함하는 데이터베이스(110), 메타 데이터 인덱싱부(120), 도메인 온톨로지(Domain Ontology)(121), 시맨틱 데이터 인덱싱부(130), 언어 온톨로지(Linguistic Ontology)(132) 및 시맨틱 검색 처리부(140)를 포함한다.
데이터베이스(110)에 저장되는 메타 데이터(111)는 객체에 대하여 규정된 사실적 정보이다. 예를 들어, 전자 문서가 나타내고자하는 객체의 카테고리가 ‘영화’인 경우, 메타 데이터는 감독, 배우, 개봉일, 배급사 등의 사실적 정보를 포함할 수 있다. 즉, 메타 데이터는 콘텐츠 또는 객체를 설명하기 위한 적어도 하나의 사실적 기술어(factual descriptor)를 포함하여 구성된다. 참고로, 본 발명의 일례에 따른 데이터베이스(110)는 웹 상에 존재하는 메타 데이터(111)들을 획득하여 각 객체 별로 저장한 데이터베이스 형태일 수 있으며, 메타 데이터가 필요 할 때 마다 웹 상에서 다수의 메타 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.
데이터베이스(110)에 저장되는 사용자 생성 텍스트 데이터(112)는 각종 객체에 대해서 경험한 사용자가 생성한(또는 작성한) 텍스트 데이터이다. 예를 들어, 객체의 카테고리가 ‘영화’인 경우, 사용자 생성 텍스트 데이터는 영화 정보를 제공하는 웹 사이트의 게시판, 블로그 또는 SNS 메시지 등에 복수의 사용자가 작성한 영화 감상 리뷰, 코멘트 등의 텍스트 데이터일 수 있다.
참고로, 사용자 생성 텍스트 데이터는, 사용자가 웹 상에서 검색할 수 있는 멀티미디어 콘텐츠(예를 들어, 영화, 음악, 소설, 사진 등)뿐만 아니라 사용자가 의견 및 리뷰 등의 주관적 정보를 텍스트 데이터로 작성할 수 있는 상품 및 서비스 등을 포함한 임의의 객체들에 대한 것일 수 있다. 즉, 본 발명의 실시예에 따른 사용자 생성 텍스트 데이터는 하나 이상의 문장으로 구성되는 문서 형태이며, 이러한 사용자 생성 텍스트 데이터가 존재하는 모든 대상 객체에 대하여 본 발명이 실시될 수 있음을 의미한다.
또한, 본 발명의 일예에 따른 데이터베이스(110)는 각 사용자 생성 텍스트 데이터(112)들을 획득하여 객체 별로 저장한 데이터베이스 형태일 수 있으며, 사용자 생성 텍스트 데이터 필요 시마다 웹 상에서 해당 객체의 사용자 생성 텍스트 데이터를 검색, 획득, 및 수집하여 제공하는 모듈 형태일 수 있다.
이때, 데이터베이스(110)는 웹 크롤러(web crawler)를 포함할 수 있으며, 웹 크롤러는 웹 상의 기설정된 주소의 웹 사이트에 방문하여 웹 문서를 크롤링(crawling)하여 사용자 생성 텍스트 데이터를 생성할 수 있다. 참고로, 크롤러는 웹 문서 페이지로부터 특정 정보를 수집하며, 본 발명의 일실시예에 따른 크롤러는 특정 주제의 사이트(예를 들어, 영화 관련 웹 사이트 또는 블로그 등)의 게시판 등에 업로드 된 텍스트 데이터 페이지를 수집하여 저장할 수 있다.
메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 객체 별 메타 데이터를 획득하여 해당 객체의 카테고리에 상응하는 도메인 온톨로지에 맵핑하고, 각 메타 데이터가 맵핑된 도메인 온톨로지를 이용하여 메타 데이터 인덱스를 생성한다. 참고로, 온톨로지는 단어와 관계들로 구성된 일종의 사전으로서, 도메인 온톨로지(121)는 특정 도메인(분야)에 관련된 단어들이 계층적으로 표현되어 있고 추가적으로 이를 확장할 수 있는 추론 규칙이 포함되어 있어, 웹 기반의 지식 처리나 응용 프로그램 간의 지식 공유 및 재사용이 가능토록 하는 개념이다. 이때, 본 발명의 실시예에 따른 도메인 온톨로지(121)는 객체의 카테고리 별로 기정의되어 저장될 수 있다.
예를 들어, 도 3은 본 발명의 일실시예에 따른 도메인 온톨로지 및 메타 데이터가 맵핑된 도메인 온톨로지의 구조의 일례를 설명하기 위한 도면이다.
도 3의 (a)에서는, 객체의 카테고리가 “영화(Movie)”일 때, “영화” 카테고리에 대해 기정의된 도메인 온톨로지를 나타내었다. 이때, 도 3의 (a)에서는 “영화” 계충의 하위 계층으로서 “장르(Genres)”, “스태프(Staff)”, “스튜디오(Studios)”, “기술적 스팩(Technical Specs)” 등이 정의된 것을 나타내었다.
이때, 본 발명의 일실시예에 따른 메타 데이터 인덱싱부(120)는 기정의된 도메인 온톨로지에 해당 객체의 메타 데이터를 맵핑한다.
구체적으로, 메타 데이터 인덱싱부(120)는 데이터베이스(110)로부터 객체 별로 기저장되어 있는 메타 데이터(111)를 획득하고, 해당 카테고리에 따른 도메인 온톨로지(121)를 획득한 후, 메타 데이터에 포함된 사실적 기술어들을 해당 카테고리의 도메인 온톨로지의 해당 계층에 맵핑한다.
예를 들어, 도 3의 (b)에서는, 메타 데이터 인덱싱부(120)가 ‘A’라는 영화에 관련된 메타 데이터를 ‘영화’ 카테고리의 도메인 온톨로지에 맵핑한 것을 나타내었다.
즉, 도 3의 (b)에서 나타낸 바와 같이, 도메인 온톨로지 구조에 ‘A’라는 영화의 메타 데이터를 맵핑하면, 장르(Genres) 계층에 액션(Action), 어드벤쳐(Adventure) 등의 메타 데이터의 사실적 기술어가 맵핑될 수 있다.
다시 도 1로 돌아가서, 메타 데이터 인덱싱부(120)는 각 객체 별 메타 데이터가 맵핑된 도메인 온톨로지에 기반하여 메타 데이터 인덱스를 생성 및 저장한다.
구체적으로, 메타 데이터 인덱싱부(120)는 도메인 온톨로지의 하위 카테고리 별로 저장된 사실적 기술어 별로 적어도 하나의 객체 식별정보(예를 들어, ID, 콘텐츠 이름 등)가 매칭된 메타 데이터 인덱스를 생성한다. 즉, 동일한 사실적 기술어를 포함하는 다수의 객체 식별정보가 해당 사실적 기술어에 매칭되어 저장된다.
시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터로부터 시맨틱 기술어를 추출하고, 각 시맨틱 기술어를 기준으로한 시맨틱 데이터 인덱스를 생성한다. 이때, 시맨틱 기술어는 본 발명의 실시예에 따른 컨센서스 검색 시 검색의 기준으로서 사용된다.
구체적으로, 시맨틱 데이터 인덱싱부(130)는 데이터베이스(110)로부터 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 객체 및 세그먼트 단위의 텍스트 데이터를 매칭하여 시맨틱 데이터 인덱스를 생성한다.
이때, 시맨틱 데이터 인덱싱부(130)는 사용자 생성 텍스트 데이터(112)를 의미 단위(semantic unit)로 분할하여 다수의 시맨틱 세그먼트로 분할할 수 있다. 여기서, 의미 단위는 동일 범주의 의미적 관계를 갖는 최소의 단어, 구, 절, 문장 또는 문단 등의 단위를 나타내는 것이다. 또한, 하나의 전자 문서는 의미 단위로 분할되는 여러 개의 세그먼트로 논리적으로 분할된다.
이러한 세그먼트 단위의 텍스트 데이터는 하나의 문장안에 복수개가 포함될 수 있다. 예를 들어, “연기는 좋았으나, 각본이 현실성이 떨어진다”라는 문장은 “연기는 좋았으나”와 “각본이 현실성이 떨어진다”라는 서로 다른 의미 단위로 분할될 수 있으므로, 서로 다른 세그먼트의 텍스트 데이터로 분할될 수 있다.
또한, 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어 등을 포함하도록 분할될 수 있다.
한편, “iPhone4의 디자인은 좋으나, 통화품질은 떨어진다”라는 문장은 “iPhone4의 디자인은 좋으나”와 “iPhone4의 통화품질은 떨어진다”라는 서로 다른 의미 단위로 분할될 수 있으므로, 서로 다른 세그먼트의 텍스트 데이터로 분할될 수 있다.
이러한 텍스트 데이터를 의미 단위로 분할하는 과정은 이미 알려진 자연어 처리 알고리즘 등을 사용하여 수행할 수 있으며, 구체적인 알고리즘에 대한 상세한 설명은 생략한다.
예를 들어, 도 4 는 본 발명의 일실시예에 따른 시맨틱 세그먼트를 설명하기 위한 도면이다.
도 4 에서는, 시맨틱 데이터 인덱싱부(130)가,‘영화’ 카테고리에 포함되는 콘텐츠 중 ‘Knight and Day’라는 영화 콘텐츠 및 ‘Inception’이라는 영화 콘텐츠에 대해 각각 기생성된 사용자 생성 텍스트 데이터인 영화 시놉시스 데이터, 제 1 사용자의 리뷰 데이터 및 제 2 사용자의 리뷰 데이터를 획득하여 시맨틱 세그먼트를 생성한 것을 나타내었다.
그리고, 도 4 에서는 시맨틱 데이터 인덱싱부(130)가 의미 단위인 ‘문장’을 기준으로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트들 생성한 것을 나타내었다.
참고로, 본 발명의 일실시예에 따른 시맨틱 데이터 인덱싱부(130)는 시맨틱 검색의 정확도를 높이기 위해, ‘구’ 및 ‘절’ 단위로 사용자 생성 텍스트 데이터(즉, 문서)를 분할하여 시맨틱 세그먼트를 생성하는 것도 가능하다.
또한, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 최소 의미 단위로서의 ‘구’ 또는 ‘절’을 접속사를 기준으로 구분하거나, 긍정어 구간 또는 부정어 구간을 기준으로 구분하여 시맨틱 세그먼트를 생성할 수 있다. 이처럼, 최소 의미 단위가 접속사를 기준으로 한 ‘구’또는 ‘절’인 경우, 사용자 생성 텍스트 데이터에서 하나의 문장 내에 상반된 의미의 구 또는 절이 포함되더라도, 하나의 시맨틱 세그먼트 내의 어휘 간 관계도는 긴밀해지게 된다. 따라서, 사용자가 입력한 검색어(즉, 쿼리(query))가 사실적 정보뿐만 아니라 주관적인 정보를 의미하는 어휘들을 포함할 경우, 검색어 내의 어휘들과 가장 연관도가 높은 시맨틱 세그먼트에 기반한 시맨틱 검색이 가능하게 된다.
또한, 시맨틱 데이터 인덱싱부(130)는 콘텐츠 별로 생성된 시맨틱 세그먼트들을 각각 시맨틱 세그먼트의 식별정보(이하, ‘시맨틱 세그먼트 식별정보’라고 함)에 매칭하여 저장한다.
도 4에서는 시맨틱 데이터 인덱싱부(130)가 각 객체 별로 시맨틱 세그먼트를 문장 순서에 따라 넘버링하여, 각 시맨틱 세그먼트의 식별정보(즉, 시맨틱 세그먼트 식별정보)로서 번호(1, 2, 3, 4……)를 생성한 것을 나타내었다. 참고로, 시맨틱 세그먼트 식별정보는 번호뿐만 아니라 ID 등의 다양한 형태로 생성되는 것이 가능하다.
다시 도 1로 돌아가서, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 세그먼트들을 어휘 단위로 분할하여 다수의 시맨틱 기술어(semantic descriptor)를 추출한다.
그리고, 시맨틱 데이터 인덱싱부(130)는 각 시맨틱 기술어가 포함된 적어도 하나의 객체 식별정보 및 시맨틱 세그먼트의 식별정보를 매칭한 시맨틱 데이터 인덱스를 생성한다.
참고로, 본 발명의 실시예에 따른 시맨틱 데이터 인덱싱부(130)는 언어 온톨로지(132)를 이용하여 각 시맨틱 기술어에 대한 전처리를 수행한 후 시맨틱 데이터 인덱스를 생성한다. 여기서, 언어 온톨로지(132)는 텍스트, 단어 묶음(word bundle) 등에서 추출된 데이터나 정보에 대한 자연어 인터페이스를 지원하는 온톨로지를 의미한다. 그리고, 어휘의 전처리는 불용어 제거(stop word removal), 어미 제거(stemming) 등의 처리를 포함하는 개념이다.
예를 들어, 도 5는 본 발명의 일실시예에 따른 시맨틱 데이터 인덱스를 나타내는 도면이다.
도 5의 (a)에서 나타낸 바와 같이, 시맨틱 데이터 인덱싱부(130)는 객체 별로 각각 식별정보(도 5에서는 ‘ID’인 것을 나타냄)를 부여한다. 이때, 시맨틱 데이터 인덱싱부(130)는 메타 데이터 인덱싱부(120)가 각 객체 별로 부여한 식별정보와 동일한 식별정보를 사용할 수 있다. 즉, 동일한 객체에 대해서는 메타 데이터 인덱싱부(120) 및 시맨틱 데이터 인덱싱부(130)에서 하나의 식별정보를 부여한다. 도 5의 (a)에서는 객체의 카테고리가 ‘영화’일 때, ‘A’ 내지 ‘D’ 영화에 대해‘M1042’ 내지 ‘M1045’가 ID로서 부여된 것을 나타내었다.
그리고, 시맨틱 데이터 인덱싱부(130)는 객체 별 사용자 생성 텍스트 데이터로부터 추출한 시맨틱 기술어를 기준으로 하여, 해당하는 객체 식별정보 및 각 객체 별 시맨틱 세그먼트 식별정보를 매칭하여 저장한다.
이때, 도 5의 (b)에서 나타낸 바와 같이, 시맨틱 기술어 중 하나인 ‘Wichita’(P51)가 포함된 객체가 영화 ‘B’(P53)이며, 영화 ‘B’의 시맨틱 세그먼트 중 번호‘2,3’(P54)에 ‘Wichita’가 포함되어 있는 것을 알 수 있다.
다시 도 1로 돌아가서, 시맨틱 검색 처리부(140)는 입력되는 검색어에 대해 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용한 컨센서스 검색 처리를 수행하고, 검색된 객체의 정보를 출력한다. 이때, 검색어는 사용자가 검색 포털 사이트 등의 웹 사이트에서 입력할 수 있으며, 문장, 절, 구, 단어 등의 형태로 입력될 수 있다. 한편, 컨센서스 검색은 앞서 설명한 바와 같이 “A 라는 영화에 출연하는 배우는 누구인가?”라는 객관적인 사실을 검색하는 수준을 넘어서, “가장 재미있는 액션 영화는 무엇인가?”라는 사람들의 주관에 따라 결과가 상이해지고, 정답을 확정할 수 없는 질문에 대한 최적의 결과를 검색하도록 한다.
구체적으로, 도 2에서 나타낸 바와 같이, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 검색어 전처리 모듈(141), 검색어 확장 모듈(142) 및 시맨틱 검색 모듈(143)을 포함한다.
검색어 전처리 모듈(141)은 사용자가 입력하는 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 추출된 검색 키워드에 대해 불용어 제거 및 어미 제거 등의 전처리를 수행한다. 참고로, 검색어 전처리 모듈(141)은 언어 온톨로지(132)를 이용하여 검색어를 전처리할 수 있다.
또한, 검색어 전처리 모듈(141)은 사용자가 입력한 검색어가 하나 이상의 최소 의미 단위를 포함할 때 입력된 검색어를 시맨틱 세그먼트로 분할해 질의를 처리하도록 할 수 있다. 참고로, 본 발명의 일실시예에 따른 검색어 전처리 모듈(141)은 시맨틱 데이터 인덱싱부(130)에서와 같은 방법으로 검색어를 검색어 시맨틱 세그먼트로 분할할 수 있다.
검색어 확장 모듈(142)은 검색 키워드에 대해 개념 확장 처리를 수행하여 확장 키워드를 생성한다. 참고로, 검색어 확장 모듈(142)은 언어 온톨로지(132)를 이용하여 검색 키워드를 확장할 수 있으며, 여기서 언어 온톨로지(132)는 사전 기반 확장 기법을 더 포함하는 개념일 수 있다. 이때, 검색어 확장 모듈(142)은 검색 키워드 별로 유의어(synonyms), 하의어(hyponyms) 및 상의어(hypernyms) 중 적어도 하나의 개념으로 확장 키워드를 생성할 수 있다.
예를 들어, 도 6은 본 발명의 일실시예에 따른 검색어 확장 방법을 설명하기 위한 도면이다.
도 6에서는 카(car)라는 하나의 검색 키워드의 개념이 확장되어 복수의 확장 키워드(cable car, automobile, railway 등)가 생성되는 것을 나타내었다.
다시 도 2로 돌아가서, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스 또는 메타 데이터 인덱스를 이용하여, 사용자가 입력한 검색어에 대해 연관도가 높은 적어도 하나의 객체를 추출하여 검색 결과 객체로 결정한다. 그리고, 시맨틱 검색 모듈(143)은 상기 검색 결과 객체의 정보를 사용자가 확인할 수 있도록 화면 등에 출력한다. 이때, 시맨틱 검색 모듈(143)은 상기 검색 결과 및 상기 검색 결과에 관련된 사용자 생성 텍스트 데이터의 자체 또는 연결 정보 등을 출력하는 것도 가능하다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어의 속성에 따라 메타 데이터 인덱스 및 시맨틱 데이터 인덱스 중 적어도 하나의 인덱스를 이용하여 검색 결과 객체를 결정할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어와 객체와의 직접적인 관련도(즉, 검색어와 메타 데이터 간의 관련도)와, 검색어와 사용자 의견 정보와의 간접적인 관련도(즉, 검색어와 사용자 생성 텍스트 데이터 간의 관련도) 중 적어도 하나를 이용하여 검색 결과 객체를 결정한다. 이때, 시맨틱 검색 모듈(143)은 상기 직접적인 관련도와 간접적인 관련도 중 어느 하나에 대해 가중치를 더 높게 설정하여 검색 결과 객체를 결정할 수 있다.
참고로, 검색어의 속성은 검색어에 포함된 어휘의 정보 종류를 의미하며, 본 발명의 실시예에서는 사실적 정보 및 주관적 정보를 의미한다. 예를 들어, 검색어가 ‘A 감독의 영화’일 경우, 검색어는 ‘A’,‘감독’, ‘영화’의 검색 키워드로 분할되며, ‘A’,‘감독’은 일반적으로 사실적 정보에 속한다. 그리고, 검색어가 ‘A 감독의 감성이 돋보이는 영화’일 경우, 검색어는 ‘A’,‘감독’,’감성’, ‘돋보임’,‘영화’의 검색 키워드로 분할되며, ‘감성’,‘돋보임’은 일반적으로 주관적 정보에 속한다.
이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보만을 포함한 경우 메타 데이터 인덱스를 이용하여 상기 검색어에 적합한 객체가 검색된다. 그리고, 시맨틱 검색 모듈(143)에 입력되는 검색어가 주관적 정보만을 포함한 경우 시맨틱 데이터 인덱스를 이용하여 상기 검색어에 적합한 객체가 검색된다. 또한, 시맨틱 검색 모듈(143)에 입력되는 검색어가 사실적 정보 및 주관적 정보를 모두 포함한 경우 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 이용하여 검색어에 적합한 객체가 검색된다.
구체적으로, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 또는 시맨틱 데이터 인덱스 중 어느 하나를 이용하여 객체를 검색한 후 검색어에 적합한 객체가 검색되지 않는 경우 나머지 하나를 이용하여 객체를 검색할 수 있다.
또한, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 동시에 이용하여 객체를 검색하는 것도 가능하다.
이때, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스 및 시맨틱 데이터 인덱스를 모두 이용하여 동일 검색어에 대한 객체를 검색하고, 메타 데이터 검색 인덱스와 시맨틱 데이터 인덱스에 대해 동일한 가중치 또는 상이한 가중치를 적용하여 검색 결과 객체를 결정할 수 있다.
예를 들어, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스(또는 메타 데이터 인덱스)에 기반하여 추출된 객체 중 메타 데이터 인덱스(또는 시맨틱 데이터 인덱스)에도 포함된 객체를 상기 검색 결과 객체로 결정할 수 있다. 또는, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인텍스(또는 메타 데이터 인덱스)에 기반하여 추출된 객체를 우선적으로 상기 검색 결과 객체로 결정할 수도 있다.
먼저, 시맨틱 검색 모듈(143)이 메타 데이터 인덱스를 기반으로 검색하는 방법에 대해서 설명하도록 한다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 메타 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드 중 적어도 하나에 매칭되는 사실적 기술어를 추출한다. 그리고, 시맨틱 검색 모듈(143)은 메타 데이터 인덱스에 포함된 요소(엔트리) 중 상기 추출된 사실적 기술어 및 그에 매칭된 객체 식별 정보를 메타 데이터 검색 인덱스로서 생성한다.
그리고, 시맨틱 검색 모듈(143)은 메타 데이터 검색 인덱스에 포함된 객체 식별정보에 따른 객체를 검색 결과로서 반환한다.
다음으로, 시맨틱 검색 모듈(143)이 시맨틱 데이터 인덱스를 기반으로 객체를 검색하는 방법에 대해서 설명하도록 한다.
본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어를 추출하고, 상기 추출된 시맨틱 기술어에 대한 객체 식별정보와 각 객체 별 시맨틱 세그먼트 식별정보가 매칭되는 시맨틱 검색 인덱스를 생성한다.
예를 들어, 도 7은 본 발명의 일실시예에 따른 시맨틱 검색 인덱스를 나타내는 도면이다.
이때, 도 7에서는, 객체를 검색하고자 하는 사용자가 ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 입력했을 때 생성되는 시맨틱 검색 인덱스를 나타내었다.
이와 같은 경우, 먼저 검색어 전처리 모듈(141)은, ‘데이트할 때 보기 좋은 톰 크루즈 영화’라는 검색어를 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’라는 어휘로 분할하여 검색 키워드를 추출한다.
그리고, 검색어 확장 모듈(142)은 상기 추출된 검색 키워드 별로 검색어 확장을 수행하여, ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’라는 확장 키워드를 생성한다.
그러면, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 검색 키워드인‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)’및 확장 키워드인 ‘필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’에 매칭되는 시맨틱 기술어를 추출한다.
그리고, 시맨틱 검색 모듈(143)은 시맨틱 데이터 인덱스로부터, 상기 추출된 시맨틱 기술어인 ‘톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date), 필름(film), 모션-픽쳐(motion-picture), 고 아웃(go out)’ 별로 해당하는 객체 식별정보와, 각 객체 별 시맨틱 세그먼트 식별정보를 추출한다.
그런 후, 시맨틱 검색 모듈(143)은 도 7에서 나타낸 바와 같이, 상기 추출된 시맨틱 기술어 별로 상기 추출된 객체 식별정보 및 시맨틱 세그먼트 식별정보를 매칭하여 시맨틱 검색 인덱스를 생성한다.
또한, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 별로 각각 검색어와 해당 객체 간의 연관도를 계산한다.
구체적으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어들에 대한 객체 및 시맨틱 세그먼트의 교집합을 검출하고, 검출된 객체 및 시맨틱 세그먼트의 교집합에 대해 연관도 점수를 부여할 수 있다
참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 매칭된 시맨틱 기술어와 확장 키워드에 매칭된 시맨틱 기술어에 대해 상이한 가중치를 적용하여 연관도 점수를 계산할 수 있다. 이때, 시맨틱 검색 모듈(143)은 검색 키워드에 따른 시맨틱 기술어에 매칭되는 객체 및 시맨틱 세그먼트에 부여하는 점수의 가중치를, 확장 키워드에 따른 시맨틱 기술어에 매칭되는 객체 및 시맨틱 세그먼트에 부여하는 점수의 가중치보다 높게 설정할 수 있다.
예를 들어, 도 7에서는 시맨틱 검색 모듈(143)이 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 검색 키워드에 매칭되는 톰(Tom), 크루즈(Cruise), 영화(movie), 데이트(date)에 대해서 객체 식별정보인 ‘M1043’을 교집합으로 추출하고, ‘M1043’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[2, 13]’을 교집합으로 추출한 것을 나타내었다.
그리고, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 포함된 시맨틱 기술어 중 확장 키워드에 매칭되는 필름(film), 고 아웃(go out)에 대해서 콘텐츠 식별정보인 ‘M1042’를 교집합으로 추출하고, ‘M1042’에 매칭되는 시맨틱 세그먼트 식별정보 중 ‘[5]’를 교집합으로 추출한 것을 나타내었다.
이상의 설명에서는 사용자의 검색어가 하나의 최소 의미 단위만을 포함하는 경우를 가정하였다. 그런데, 사용자의 검색어가 한 개 이상의 최소 의미 단위를 포함할 때 검색어 전처리 모듈(141)은 검색어를 복수의 검색어 시맨틱 세그먼트로 분할한다. 그리고, 검색어 확장 모듈(142)은 각 검색어 시맨틱 세그먼트들을 확장한다. 또한, 시맨틱 검색 모듈(143)은 확장된 각 검색어 시맨틱 세그먼트 별로 상기한 방법과 같이 질의를 처리할 수 있다.
예를 들어, “각본은 좋으나 배우들의 연기가 최악이었던 영화”라는 사용자 검색어는 ‘각본이 좋은’과 ‘연기가 최악’ 이라는 두 개의 상반된 감성을 표현하는 두 개의 검색어 시맨틱 세그먼트를 포함한다. 이때, 각 검색어 시맨틱 세그먼트 별로 얻어진 객체 식별정보와 시맨틱 세그먼트 식별정보들은, 객체 식별정보를 교집합 한 후 같은 콘텐츠에 대한 시맨틱 세그먼트들을 합집합하는 방법으로 통합할 수 있다.
이러한 과정을 거친 후, 시맨틱 검색 모듈(143)은 추출된 객체 별 시맨틱 세그먼트의 개수에 따라 해당 객체에 대해 연관도 점수를 부여한다. 참고로, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 토폴로지 거리(topological distance) 방식에 기반하여 추출된 객체 별 연관도 점수를 계산할 수 있다.
예를 들어, 본 발명의 실시예에 따른 시맨틱 검색 모듈(143)은 검색 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1‘ 값으로 정의하고, 확장 키워드에 따라 추출된 시맨틱 세그먼트의 경우 점수를 ‘1’보다 적은 ‘0.5’ 값으로 설정할 수 있다. 즉, 검색 키워드와 확장 키워드에 대한 점수 가중치를 상이하게 부여한다. 따라서, 도 7에서는 객체 식별정보 ‘M1043’에 대해 2점이 부여되고, ‘M1042’에 대해 0.5점이 부여된다.
도 7에서는 시맨틱 검색 모듈(143)이 사용자가 입력한 검색어에 대해, ‘M1043’, ‘M1042’에 대한 객체를 검색 결과로써 출력하는 것을 나타내었다. 이때, 시맨틱 검색 모듈(143)은 ‘M1043’, ‘M1042’의 순서로 검색 결과를 출력할 수 있다. 즉, 시맨틱 검색 모듈(143)은 사용자가 입력한 검색어에 대해 가장 적합한 객체로서 ‘M1043’객체와, 그 다음으로 적합한 객체로서 ‘M1042’객체를 구별할 수 있도록 검색 결과 정보를 생성할 수 있다.
이러한, 본 발명의 일실시예에 따른 시맨틱 검색 결과 순위 결정 방법은 사용자들의 의견을 바탕으로 순위를 결정하는 방법으로서, 사용자 검색어에 대한 유사도에만 의존하던 종래의 검색 결과 순위 결정 방법과는 근본적으로 상이하다.
또한, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 결과 순위 결정 시, 사용자가 입력한 검색어에 포함된 적어도 하나의 어휘(즉, 검색 키워드 및 확장 키워드)가 감성(sentiment)을 포함하는 경우, 감성의 극성(polarity) 및 정도(degree)에 따라 해당 키워드를 포함하는 시맨틱 세그먼트에 상이한 가중치를 적용할 수 있다. 예를 들어, 사용자가 입력한 검색어가 ‘데이트할 때 보기 좋은 영화’인 경우, 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’와 ‘좋음’을 포함하는 시맨틱 세그먼트 중 ‘최고’를 포함하는 시맨틱 세그먼트에 가중치를 더 높게 설정하여 상기에서 설명한 시맨틱 검색 처리를 수행할 수 있다. 이때, ‘최고’와 ‘좋음’은 둘 다 긍정의 극성을 가지나, ‘최고’가 사용자의 의견을 더욱 강하게 피력하는 것이므로 영화 카테고리의 시맨틱 데이터 인덱스 중‘최고’라는 시맨틱 기술어를 포함하는 시맨틱 세그먼트에 대해 가중치를 더 높게 설정될 수 있다.
또한, 세그먼트 데이터가 추출된 텍스트 데이터가 게시된 사이트의 권위, 저자의 저명성, 텍스트 데이터의 최신성 또는 텍스트 데이터에 대한 사용자들의 추천횟수와 같은 평가 정보등을 추가적으로 고려하여 가산점 또는 가중치를 추가적으로 부여할 수 있다. 예를 들어, 해당 분야에서 저명성을 인정받은 저자에 대한 정보나 저명성을 인정 받은 사이트에 대한 정보를 미리 저장하여, 세그먼트 데이터가 이러한 정보에 매칭되는 경우 가산점을 부가한다. 또한, 텍스트 데이터가 게시된 시점에 대한 정보를 기초로 각각 상이한 가중치를 적용할 수 있다. 또한, 텍스트 데이터에 대하여 “xx명중 yy명이 좋아합니다”와 같은 추천 정보 또는 평가 정보등을 추가적으로 고려하여 가산점을 적용할 수 있다.
이와 같은 방식으로, 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스로부터 사용자가 입력한 검색어에 관련된 적어도 하나의 객체 식별정보를 검출하고, 검출된 객체 식별정보 중 높은 연관도 점수 순으로 기설정된 개수의 객체 식별정보를 추출한다. 그리고 시맨틱 검색 모듈(143)은 추출된 적어도 하나의 객체 식별정보에 따른 객체를 검색 결과로서 반환한다.
이때, 본 발명의 일실시예에 따른 시맨틱 검색 모듈(143)은 시맨틱 검색 인덱스에 기초하여 점수를 계산한 객체 중 검색어에 대한 관련도 점수가 높은 수순에 따라 추출되는 적어도 하나의 객체와, 메타 데이터 검색 인덱스에 포함된 객체 중 적어도 하나를 검색 결과로서 반환한다. 이하, 도 8을 참조하여 본 발명의 일실시예에 따른 컨센서스 검색 방법에 대해서 상세히 설명하도록 한다.
도 8은 본 발명의 일실시예에 따른 사용자 생성 텍스트 데이터를 이용한 시맨틱 검색 방법을 설명하기 위한 순서도이다.
먼저, 사용자가 검색어를 입력하면(S810), 입력된 검색어를 확장한다(S820).
구체적으로, 입력된 검색어를 어휘 단위로 분할하여 검색 키워드를 추출하고, 생성된 검색 키워드를 언어 온톨로지를 이용하여 유의어, 상의어, 하의어 중 적어도 하나의 개념에 따라 확장하여 확장 키워드를 생성한다. 이때, 사용자가 입력하는 검색어는, 단어, 절, 구, 문장 등의 단위로 구성될 수 있다.
그런 다음, 검색 키워드 및 확장 키워드 중 적어도 하나에 기초하여, 사용자 생성 텍스트 데이터 및 메타 데이터 중 적어도 하나를 이용한 시맨틱 검색을 수행한다(S830).
단계(S830)에서는 검색 대상이 되는 객체 별로 사용자가 기생성한 텍스트 데이터에 기초하여 생성되는 시맨틱 데이터 인덱스, 및 객체 별 메타 데이터를 도메인 온톨로지에 맵핑하여 생성되는 메타 데이터 인덱스를 이용하여 상기 검색어 키워드 및 확장 키워드와 관련도가 높은 객체를 검색한다.
이와 같은, 시맨틱 데이터 인덱스 및 메타 데이터 인덱스는 앞서 도 1 내지 도 7에서 설명한 방법을 통해서 생성될 수 있다.
구체적으로, 단계(S830)에서는 시맨틱 데이터 인덱스 별 시맨틱 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 시맨틱 기술어에 기준한 시맨틱 검색 인덱스를 생성한다. 그리고, 메타 데이터 인덱스 별 사실적 기술어 중 상기 검색 키워드 및 확장 키워드에 매칭되는 사실적 기술어에 기준한 메타 데이터 검색 인덱스를 생성한다. 이때, 시맨틱 검색 인덱스는 시맨틱 기술어 별로 적어도 하나의 객체 식별정보 및 각 객체 별 시맨틱 세그먼트 식별정보가 매칭된 형태이고, 메타 데이터 검색 인덱스는 사실적 기술어 별로 적어도 하나의 객체 식별정보가 매칭된 형태이다.
이처럼, 단계(S830)에서 시맨틱 검색 인덱스 및 메타 데이터 검색 인덱스 중 적어도 하나를 이용하여 검색어에 적합한 객체를 검색하는 방법은 상기 도 1 내지 도 7을 통해 설명한 방법을 통해서 수행될 수 있다.
그런 다음, 단계(S830)에서 사용자 생성 텍스트 데이터 및 메타 데이터를 이용하여 시맨틱 검색된 객체의 정보를 사용자가 확인할 수 있는 정보 형태로 생성하여 출력한다(S840).
예를 들어, 사용자가 확인할 수 있는 정보의 형태는 웹 사이트 등을 통해 출력되는 웹 페이지 형태로 생성될 수 있다.
한편, 상기 도 1 내지 도 8을 통해 설명한 본 발명의 일실시예에서는 객체에 관련된 사실적 정보로서 메타 데이터를 설명하였다. 그런데, 본 발명의 일실시예에 따른 컨센서스 검색 장치 및 방법에서는 객체에 관련된 사실적 정보로서 객체 추출 데이터를 더 포함하는 객체 관련 사실적 정보를 이용하여 시맨틱 검색을 수행할 수 있다.
예를 들어, 객체의 카테고리가 영화, 음악 등에 대한 디지털 콘텐츠인 경우 영상 분석, 목소리 분석, 대사 추출, 음악 무드 분석, 악기 추출 등 객체 자체를 분석하여 객체 추출 데이터를 획득할 수 있다. 이와 같은 객체 추출 데이터는 객체 추출 기술어를 포함하여 구성되며, 본 발명의 일실시예에 따른 컨센서스 검색 장치 및 방법에서는 메타 데이터 인덱싱과 더불어 객체 추출 데이터 인덱싱을 수행할 수 있다. 이때, 본 발명의 일실시예에 따른 시맨틱 검색 처리부(140)는 메타 데이터 인덱스, 객체 추출 데이터 인덱스, 및 시맨틱 데이터 인덱스에 기초하여 시맨틱 검색을 수행할 수 있다.
한편 전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
그리고 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (22)

  1. 컨센서스(Consensus) 검색 장치에 있어서,
    하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하고, 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 시맨틱 데이터 인덱싱부 및
    상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 시맨틱 검색 처리부를 포함하되,
    상기 세그먼트 단위의 텍스트 데이터는 의미 단위를 기준으로 분할된 것인 컨센서스 검색 장치.
  2. 제 1 항에 있어서,
    상기 전자 문서에 포함된 메타 데이터로부터 상기 객체에 대한 사실적 기술어를 추출하고, 추출된 사실적 기술어에 대하여 상기 객체의 식별정보를 매칭한 메타 데이터 인덱스를 생성하는 메타 데이터 인덱싱부를 더 포함하되,
    상기 시맨틱 검색 처리부는,
    상기 시맨틱 데이터 인덱스 및 상기 메타 데이터 인덱스 중 적어도 하나를 이용하여 상기 쿼리와 관련된 적어도 하나의 객체를 검색하는 컨센서스 검색 장치.
  3. 제 1 항 또는 제 2 항에 있어서,
    상기 세그먼트 단위의 텍스트 데이터는 문단, 문장, 절, 구 및 단어 중 어느 하나의 단위로 분할된 것인 컨센서스 검색 장치.
  4. 제 3 항에 있어서,
    분할된 상기 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어를 포함하는 것인 컨센서스 검색 장치.
  5. 제 1 항 또는 제 2 항에 있어서,
    상기 세그먼트 단위의 텍스트 데이터는 접속어를 기준으로 분할되거나, 긍정 의미 구간 및 부정 의미 구간에 기준하여 분할된 것인 컨센서스 검색 장치.
  6. 제 1 항 또는 제 2 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 쿼리와 관련된 세그먼트 단위의 텍스트 데이터의 개수를 각 세그먼트 단위의 텍스트 데이터가 나타내는 상기 객체 단위로 합산하고, 합산한 값의 크기에 기초하여 검색 결과를 반환하는 컨센서스 검색 장치.
  7. 제 6 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 쿼리를 어휘 단위로 분할하여 적어도 하나의 검색 키워드를 생성하고, 상기 검색 키워드의 유의어, 상의어 및 하의어 중 적어도 하나를 포함하는 확장 키워드를 생성하고,
    상기 검색 키워드 및 확장 키워드 중 적어도 하나에 해당하는 시맨틱 기술어에 매칭된 상기 세그먼트 단위의 텍스트 데이터의 개수를 상기 객체 단위로 합산하는 것인 컨센서스 검색 장치.
  8. 제 7 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체와 상기 확장 키워드에 해당하는 시맨틱 기술어에 매칭된 객체에 대해 상이한 가중치를 적용하되, 상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체의 가중치를 더 높게 설정하는 것인 컨센서스 검색 장치.
  9. 제 7 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 쿼리에 감성을 표현하는 어휘가 포함된 경우, 감성을 표현하는 시맨틱 기술어에 매칭된 객체에 대해 감성의 극성 및 정도 중 적어도 하나를 기준으로 상이한 가중치를 적용하는 컨센서스 검색 장치.
  10. 제 7 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 세그먼트 단위의 텍스트 데이터의 저자, 상기 텍스트 데이터가 게시된 사이트, 텍스트 데이터가 개시된 시점 및 상기 텍스트 데이터에 대한 사용자들의 평가 정보 중 하나 이상에 따라 가산점을 적용하는 컨센서스 검색 장치.
  11. 제 7 항에 있어서,
    상기 시맨틱 검색 처리부는,
    상기 쿼리를 의미 단위로 분할하여 상기 검색 키워드를 생성하되,
    상기 의미 단위는 문장, 절, 구 및 단어 중 적어도 하나인 것인 컨센서스 검색 장치.
  12. 컨센서스(Consensus) 검색을 위한 인덱스 생성 방법에 있어서,
    (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서에 작성된 텍스트 데이터를 세그먼트 단위로 분할하는 단계;
    (b) 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출하는 단계 및
    (c) 상기 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭한 시맨틱 데이터 인덱스를 생성하는 단계를 포함하되,
    상기 (a) 단계는 상기 텍스트 데이터를 의미 단위를 기준으로 세그먼트 단위의 텍스트 데이터로 분할하는 것인 인덱스 생성 방법.
  13. 제 12 항에 있어서,
    (d) 상기 전자 문서에 포함된 메타 데이터로부터 상기 객체에 대한 사실적 기술어를 추출하는 단계 및
    (e) 상기 추출된 사실적 기술어에 대하여 상기 객체의 식별정보를 매칭한 메타 데이터 인덱스를 생성하는 단계를 더 포함하는 인덱스 생성 방법.
  14. 제 12 항에 있어서,
    상기 (a) 단계는 상기 텍스트 데이터를 문단, 문장, 절, 구 및 단어 중 어느 하나의 단위로 분할하는 것인 인덱스 생성 방법.
  15. 제 12 항에 있어서,
    분할된 상기 세그먼트 단위의 텍스트 데이터는 하나 이상의 문단, 하나 이상의 문장, 하나 이상의 절, 하나 이상의 구 또는 하나 이상의 단어를 포함하는 것인 인덱스 생성 방법.
  16. 제 12 항에 있어서,
    상기 (a) 단계는 상기 텍스트 데이터를 접속어를 기준으로 분할하거나, 긍정 의미 구간 및 부정 의미 구간에 기준하여 분할하는 것인 인덱스 생성 방법.
  17. 컨센서스(Consensus) 검색 방법에 있어서,
    (a) 하나 이상의 객체에 대한 내용을 포함하는 전자 문서를 세그먼트 단위의 텍스트 데이터로 분할하여 인덱싱한 시맨틱 데이터 인덱스가 제공되는 단계 및
    (b) 상기 시맨틱 데이터 인덱스에 기초하여 쿼리와 관련된 객체를 검색하는 단계를 포함하되,
    상기 시맨틱 데이터 인덱스는 상기 세그먼트 단위의 텍스트 데이터로부터 하나 이상의 시맨틱 기술어를 추출한뒤, 추출된 시맨틱 기술어에 대하여 상기 객체 및 상기 세그먼트 단위의 텍스트 데이터를 매칭하여 생성된 것인 컨센서스 검색 방법.
  18. 제 17 항에 있어서,
    상기 (b) 단계는,
    (b1) 상기 쿼리와 관련된 세그먼트 단위의 텍스트 데이터의 개수를 각 세그먼트 단위의 텍스트 데이터가 나타내는 상기 객체 단위로 합산하는 단계,
    (b2) 상기 합산한 값의 크기에 기초하여 관련도를 산출하는 단계 및
    (b3) 상기 관련도가 큰 순서에 따라 해당 객체를 검색 결과로서 반환하는 단계를 포함하는 컨센서스 검색 방법.
  19. 제 18 항에 있어서,
    상기 (b1) 단계는,
    상기 쿼리를 어휘 단위로 분할하여 적어도 하나의 검색 키워드를 생성하는 단계,
    상기 검색 키워드의 유의어, 상의어 및 하의어 중 적어도 하나를 포함하는 확장 키워드를 생성하는 단계 및
    상기 검색 키워드 및 확장 키워드 중 적어도 하나에 해당하는 시맨틱 기술어에 매칭된 상기 세그먼트 단위의 텍스트 데이터의 개수를 상기 객체 단위로 합산하는 컨센서스 검색 방법.
  20. 제 19 항에 있어서,
    상기 (b2) 단계는,
    상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체와 상기 확장 키워드에 해당하는 시맨틱 기술어에 매칭된 객체에 대해 상이한 가중치를 적용하여 상기 관련도를 산출하되, 상기 검색 키워드에 해당하는 시맨틱 기술어에 매칭된 객체의 가중치를 더 높게 설정하는 것인 컨센서스 검색 방법.
  21. 제 18 항에 있어서,
    상기 (b2) 단계는,
    상기 쿼리에 감성을 표현하는 어휘가 포함된 경우, 감성을 표현하는 시맨틱 기술어에 매칭된 객체에 대해 감성의 극성 및 정도 중 적어도 하나를 기준으로 상이한 가중치를 적용하는 컨센서스 검색 방법.
  22. 제 18 항에 있어서,
    상기 (b2) 단계는,
    상기 세그먼트 단위의 텍스트 데이터의 저자, 상기 텍스트 데이터가 게시된 사이트, 상기 텍스트 데이터가 개시된 시점 및 상기 텍스트 데이터에 대한 사용자들의 평가 정보 중 하나 이상에 따라 가산점을 적용하는 컨센서스 검색 방법.
PCT/KR2011/008916 2010-11-22 2011-11-22 컨센서스 검색 장치 및 방법 WO2012070840A2 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
US13/899,786 US9679001B2 (en) 2010-11-22 2013-05-22 Consensus search device and method

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100116421A KR101192439B1 (ko) 2010-11-22 2010-11-22 디지털 콘텐츠 검색 장치 및 방법
KR10-2010-0116421 2010-11-22

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US13/899,786 Continuation US9679001B2 (en) 2010-11-22 2013-05-22 Consensus search device and method

Publications (2)

Publication Number Publication Date
WO2012070840A2 true WO2012070840A2 (ko) 2012-05-31
WO2012070840A3 WO2012070840A3 (ko) 2012-07-19

Family

ID=46146283

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/008916 WO2012070840A2 (ko) 2010-11-22 2011-11-22 컨센서스 검색 장치 및 방법

Country Status (3)

Country Link
US (1) US9679001B2 (ko)
KR (1) KR101192439B1 (ko)
WO (1) WO2012070840A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244637A1 (en) * 2013-02-22 2014-08-28 Chacha Search, Inc Method and system of query processing
CN109785698A (zh) * 2017-11-13 2019-05-21 上海流利说信息技术有限公司 用于口语水平评测的方法、装置、电子设备以及介质

Families Citing this family (45)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8195447B2 (en) 2006-10-10 2012-06-05 Abbyy Software Ltd. Translating sentences between languages using language-independent semantic structures and ratings of syntactic constructions
US9588958B2 (en) 2006-10-10 2017-03-07 Abbyy Infopoisk Llc Cross-language text classification
US8892423B1 (en) 2006-10-10 2014-11-18 Abbyy Infopoisk Llc Method and system to automatically create content for dictionaries
US9892111B2 (en) 2006-10-10 2018-02-13 Abbyy Production Llc Method and device to estimate similarity between documents having multiple segments
US9633005B2 (en) 2006-10-10 2017-04-25 Abbyy Infopoisk Llc Exhaustive automatic processing of textual information
US9069750B2 (en) 2006-10-10 2015-06-30 Abbyy Infopoisk Llc Method and system for semantic searching of natural language texts
US9495358B2 (en) 2006-10-10 2016-11-15 Abbyy Infopoisk Llc Cross-language text clustering
US9053090B2 (en) 2006-10-10 2015-06-09 Abbyy Infopoisk Llc Translating texts between languages
US9471562B2 (en) 2006-10-10 2016-10-18 Abbyy Infopoisk Llc Method and system for analyzing and translating various languages with use of semantic hierarchy
US9235573B2 (en) 2006-10-10 2016-01-12 Abbyy Infopoisk Llc Universal difference measure
US8145473B2 (en) 2006-10-10 2012-03-27 Abbyy Software Ltd. Deep model statistics method for machine translation
US9075864B2 (en) 2006-10-10 2015-07-07 Abbyy Infopoisk Llc Method and system for semantic searching using syntactic and semantic analysis
US9098489B2 (en) 2006-10-10 2015-08-04 Abbyy Infopoisk Llc Method and system for semantic searching
US8959011B2 (en) 2007-03-22 2015-02-17 Abbyy Infopoisk Llc Indicating and correcting errors in machine translation systems
US9262409B2 (en) 2008-08-06 2016-02-16 Abbyy Infopoisk Llc Translation of a selected text fragment of a screen
JP5536687B2 (ja) * 2011-01-31 2014-07-02 インターナショナル・ビジネス・マシーンズ・コーポレーション 目次と見出しの対応付け方法、対応付け装置、及び対応付けプログラム
US8965750B2 (en) 2011-11-17 2015-02-24 Abbyy Infopoisk Llc Acquiring accurate machine translation
US8971630B2 (en) 2012-04-27 2015-03-03 Abbyy Development Llc Fast CJK character recognition
US8989485B2 (en) 2012-04-27 2015-03-24 Abbyy Development Llc Detecting a junction in a text line of CJK characters
US20130304738A1 (en) * 2012-05-11 2013-11-14 International Business Machines Corporation Managing multimedia information using dynamic semantic tables
SG11201407749TA (en) * 2012-05-24 2014-12-30 Hitachi Ltd Image analysis device, image analysis system, and image analysis method
KR101460654B1 (ko) * 2012-07-19 2014-11-12 고려대학교 산학협력단 컨텐츠 관리 시스템 및 방법
KR101345119B1 (ko) * 2013-01-30 2014-01-27 공미선 이미지 취향 아이디 코드 생성, 진단 시스템 및 방법, 그리고 정보 제공 시스템 및 정보 제공 방법
JP2014216943A (ja) * 2013-04-26 2014-11-17 株式会社東芝 電子機器、方法、及びプログラム
WO2015037815A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
KR101508583B1 (ko) * 2013-09-16 2015-04-14 고려대학교 산학협력단 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
US11003659B2 (en) * 2013-10-25 2021-05-11 Rakuten, Inc. Search system, search criteria setting device, control method for search criteria setting device, program, and information storage medium
RU2592395C2 (ru) 2013-12-19 2016-07-20 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Разрешение семантической неоднозначности при помощи статистического анализа
US10176256B1 (en) 2013-12-23 2019-01-08 BroadbandTV, Corp Title rating and improvement process and system
RU2586577C2 (ru) 2014-01-15 2016-06-10 Общество с ограниченной ответственностью "Аби ИнфоПоиск" Фильтрация дуг в синтаксическом графе
US9836529B2 (en) * 2014-09-22 2017-12-05 Oracle International Corporation Semantic text search
CN104408639A (zh) 2014-10-22 2015-03-11 百度在线网络技术(北京)有限公司 多轮会话交互方法和系统
US9626358B2 (en) 2014-11-26 2017-04-18 Abbyy Infopoisk Llc Creating ontologies by analyzing natural language texts
KR101700345B1 (ko) * 2015-06-05 2017-01-26 아주대학교산학협력단 감정 온톨로지에 기반한 동영상 컨텐츠 추천 장치 및 그 방법
CN105260277B (zh) * 2015-10-29 2019-05-03 西安交通大学 一种基于lognormal模型的文本测试数据集生成方法
US11062336B2 (en) 2016-03-07 2021-07-13 Qbeats Inc. Self-learning valuation
CN106599297A (zh) * 2016-12-28 2017-04-26 北京百度网讯科技有限公司 基于深度问答的提问型搜索词搜索方法及装置
US11748416B2 (en) * 2017-06-19 2023-09-05 Equifax Inc. Machine-learning system for servicing queries for digital content
CN110020010A (zh) * 2017-10-10 2019-07-16 阿里巴巴集团控股有限公司 数据处理方法、装置及电子设备
WO2019074191A1 (ko) * 2017-10-13 2019-04-18 고려대학교 산학협력단 암 치료 예측결과 제공 방법 및 시스템, 인공 지능망 기반 치료 예측 결과 제공 방법 및 시스템, 그리고 치료 예측결과 및 근거 자료 일괄 제공 방법 및 시스템
JP6584622B1 (ja) * 2018-04-24 2019-10-02 株式会社Nttドコモ 文章マッチングシステム
KR102280345B1 (ko) * 2019-04-25 2021-07-22 주식회사 마이셀럽스 언어 단위를 이용한 추천 항목 관리 방법 및 장치
US20220237214A1 (en) * 2019-05-20 2022-07-28 Ntt Docomo, Inc. Interactive system
US11188720B2 (en) * 2019-07-18 2021-11-30 International Business Machines Corporation Computing system including virtual agent bot providing semantic topic model-based response
CN113377805B (zh) * 2021-08-13 2021-11-12 腾讯科技(深圳)有限公司 数据查询方法、装置、电子设备及计算机可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010015368A (ko) * 1999-07-19 2001-02-26 마츠시타 덴끼 산교 가부시키가이샤 정보 검색 방법과 정보 검색 장치
KR20070050305A (ko) * 2005-11-10 2007-05-15 주식회사 코난테크놀로지 검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및검색 방법, 시스템
US20090063426A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Identification of semantic relationships within reported speech
US20100268702A1 (en) * 2009-04-15 2010-10-21 Evri, Inc. Generating user-customized search results and building a semantics-enhanced search engine

Family Cites Families (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030042319A1 (en) * 2001-08-31 2003-03-06 Xerox Corporation Automatic and semi-automatic index generation for raster documents
US8117072B2 (en) * 2001-11-13 2012-02-14 International Business Machines Corporation Promoting strategic documents by bias ranking of search results on a web browser
US7836010B2 (en) * 2003-07-30 2010-11-16 Northwestern University Method and system for assessing relevant properties of work contexts for use by information services
US20050234877A1 (en) * 2004-04-08 2005-10-20 Yu Philip S System and method for searching using a temporal dimension
US7536408B2 (en) * 2004-07-26 2009-05-19 Google Inc. Phrase-based indexing in an information retrieval system
US7895197B2 (en) * 2007-04-30 2011-02-22 Sap Ag Hierarchical metadata generator for retrieval systems
US20090187559A1 (en) * 2008-01-17 2009-07-23 Peter Gloor Method of analyzing unstructured documents to predict asset value performance
US8972431B2 (en) * 2010-05-06 2015-03-03 Salesforce.Com, Inc. Synonym supported searches

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010015368A (ko) * 1999-07-19 2001-02-26 마츠시타 덴끼 산교 가부시키가이샤 정보 검색 방법과 정보 검색 장치
KR20070050305A (ko) * 2005-11-10 2007-05-15 주식회사 코난테크놀로지 검색 엔진 및 검색 서비스에서 제공하는 첫소리말 색인 및검색 방법, 시스템
US20090063426A1 (en) * 2007-08-31 2009-03-05 Powerset, Inc. Identification of semantic relationships within reported speech
US20100268702A1 (en) * 2009-04-15 2010-10-21 Evri, Inc. Generating user-customized search results and building a semantics-enhanced search engine

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20140244637A1 (en) * 2013-02-22 2014-08-28 Chacha Search, Inc Method and system of query processing
CN109785698A (zh) * 2017-11-13 2019-05-21 上海流利说信息技术有限公司 用于口语水平评测的方法、装置、电子设备以及介质

Also Published As

Publication number Publication date
US20130254209A1 (en) 2013-09-26
WO2012070840A3 (ko) 2012-07-19
US9679001B2 (en) 2017-06-13
KR20120054986A (ko) 2012-05-31
KR101192439B1 (ko) 2012-10-17

Similar Documents

Publication Publication Date Title
WO2012070840A2 (ko) 컨센서스 검색 장치 및 방법
US10698964B2 (en) System and method for automatically detecting and interactively displaying information about entities, activities, and events from multiple-modality natural language sources
Cambria et al. Statistical approaches to concept-level sentiment analysis
US9715493B2 (en) Method and system for monitoring social media and analyzing text to automate classification of user posts using a facet based relevance assessment model
US9830381B2 (en) Scoring candidates using structural information in semi-structured documents for question answering systems
US20090292685A1 (en) Video search re-ranking via multi-graph propagation
US20110072047A1 (en) Interest Learning from an Image Collection for Advertising
US20100274667A1 (en) Multimedia access
Dong et al. A survey in semantic search technologies
AU2020103004A4 (en) Method to build a document semantic and entity relationship model
WO2010123264A2 (en) Online community post search method and apparatus based on interactions between online community users and computer readable storage medium storing program thereof
Paulus et al. Gathering and Combining Semantic Concepts from Multiple Knowledge Bases.
Spitz et al. EVELIN: Exploration of event and entity links in implicit networks
KR20030069640A (ko) 계층적 및 개념적 클러스터링에 의한 정보검색 시스템 및그 방법
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
CN110008314B (zh) 一种意图解析方法及装置
Ren et al. Resource recommendation algorithm based on text semantics and sentiment analysis
US20230090601A1 (en) System and method for polarity analysis
JP4853915B2 (ja) 検索システム
Waitelonis et al. Use what you have: Yovisto video search engine takes a semantic turn
JP4057962B2 (ja) 質問応答装置、質問応答方法及びプログラム
JP4428703B2 (ja) 情報検索方法及びそのシステム並びにコンピュータプログラム
JP2019003270A (ja) 学習装置、映像検索装置、方法、及びプログラム
WO2010093101A1 (ko) 블로그 포스트를 온톨로지 기반 정보로 변환하는 방법 및 그 시스템
Moreiro-González et al. Folksonomy Indexing From the Assignment of Free Tags to Setup Subject: A Search Analysis into the Domain of Legal History

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11843263

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 11843263

Country of ref document: EP

Kind code of ref document: A2