WO2015037815A1 - 스마트 기기 내 시맨틱 검색 시스템 및 검색방법 - Google Patents

스마트 기기 내 시맨틱 검색 시스템 및 검색방법 Download PDF

Info

Publication number
WO2015037815A1
WO2015037815A1 PCT/KR2014/005081 KR2014005081W WO2015037815A1 WO 2015037815 A1 WO2015037815 A1 WO 2015037815A1 KR 2014005081 W KR2014005081 W KR 2014005081W WO 2015037815 A1 WO2015037815 A1 WO 2015037815A1
Authority
WO
WIPO (PCT)
Prior art keywords
semantic
digital content
context
search
search word
Prior art date
Application number
PCT/KR2014/005081
Other languages
English (en)
French (fr)
Inventor
이상근
이정현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR20130157368A external-priority patent/KR101508583B1/ko
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of WO2015037815A1 publication Critical patent/WO2015037815A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques

Definitions

  • the present invention relates to a semantic search system and a search method in a smart device.
  • a user searches on a web page using a smart device to obtain information related to his needs or questions.
  • a user selects keywords with criteria, and the selected keywords are input to a search engine.
  • semantic search Semantic Search
  • portal search sites such as Naver, Daum, and Nate.
  • Semantic Web gives well-defined meanings to information on the Web, so that not only people but computers can also easily interpret the meaning of documents, so that they can search for, interpret, and integrate information using computers. It is proposed for the purpose of automation.
  • Korean Patent Publication No. 2010-0107948 name of the invention: a direct answer search system and a search method using semantic information
  • the conventional semantic search was performed by accessing a portal search site through a smart device, and was not intended to search for various digital contents collected in each user's smart device.
  • some embodiments of the present invention utilize a public directory project-based subject classification tree to obtain a method for obtaining semantically associated extended context from a primitive context, thereby generating semantic tags.
  • a public directory project-based subject classification tree to obtain a method for obtaining semantically associated extended context from a primitive context, thereby generating semantic tags.
  • Another object of the present invention is to provide a method of providing a result for keyword search using semantic tags generated based on a subject classification tree based on a public directory project.
  • a method for generating a semantic tag by a semantic tag system in a smart device the raw context for the digital content collected by the smart device Extracting the; Determining a target category to which the extracted source context corresponds, based on data of an open directory project (ODP) in which upper categories classified by subjects include lower categories in a tree structure; Obtaining an extended context that is semantically related to the extracted original context using the determined target category; And generating a semantic tag for the digital content including the obtained extended context and the extracted original context.
  • ODP open directory project
  • a semantic index system in a smart device that supports keyword search by a keyword including at least one or more search words may include an identification value and a physical value of the digital content collected by the smart device.
  • the source context included in the semantic tag and the category corresponding to each of the search words are determined based on data of an open directory project (ODP) in which the upper categories classified by themes include lower categories in a tree structure. .
  • ODP open directory project
  • a method of providing a result for a keyword search by a keyword including at least one search word in a semantic match system in a smart device the search word is in the smart device. Calculating a degree of similarity indicating a degree of agreement with the text of the collected digital content; Calculating a semantic similarity indicating a degree to which a category corresponding to the search word corresponds to an extended context included in a pre-generated semantic tag for each of the collected digital contents; Calculating a degree of association of the collected digital content with respect to the keyword based on the similarity and semantic similarity; And determining the ranking of the collected digital content according to the calculated degree of association, and providing the result of the keyword search from the digital content corresponding to the highest ranking to the digital content corresponding to a predetermined ranking.
  • the extended context is obtained by using a category corresponding to the source context while being semantically related to the source context included in the semantic tag and extracted from the collected digital content, and the source context and the search word are
  • Each category is determined based on data of an open directory project (ODP) in which the upper categories classified by themes include the lower categories in a tree structure.
  • ODP open directory project
  • the semantic tag system and the semantic tag generating method in the smart device which are some of the problem solving means of the present invention described above can effectively classify the digital content collected from the smart device by utilizing a subject classification tree based on a public directory project.
  • a semantic tag that considers an extended context that is semantically related to the original context of digital content, it is possible to support user-centered keyword search for digital content inside a smart device.
  • the semantic index system in the smart device proposed by the present invention includes a table storing a plurality of inverse index structures, thereby supporting semantic extended semantic search in the smart device itself rather than a simple keyword search.
  • the method for providing a search result for a semantic match system and keyword search in a smart device which is part of the problem solving means of the present invention, uses a subject classification tree, semantic tag, and various tables to semantically relate to a keyword input during keyword search. It can provide accurate and fast search of digital content inside the smart device.
  • FIG. 1 is a view for explaining each configuration of a semantic search system in a smart device according to an embodiment of the present invention
  • FIG. 2A schematically illustrates an example of a subject classification tree based on the public directory project illustrated in FIG. 1;
  • 2B and 2C are diagrams for describing an example of a category
  • FIG. 3 is a view for explaining the semantic tag system shown in FIG. 1 in more detail;
  • FIG. 4 is a flowchart illustrating each step of a method for generating semantic tag according to an embodiment of the present invention
  • FIG. 5 is a diagram for explaining the semantic index system shown in FIG. 1 in more detail;
  • FIG. 6 is a flow chart for explaining in more detail the operation of the semantic tag system and semantic index system according to an embodiment of the present invention
  • FIG. 7 is a diagram for explaining the semantic match system shown in FIG. 1 in more detail
  • FIG. 8 is a flowchart illustrating each step of a method for providing a result for keyword search according to an embodiment of the present invention
  • 9 is a flow chart for explaining in more detail the operation of the semantic match system according to an embodiment of the present invention.
  • FIG. 1 is a view for explaining each configuration of the semantic search system in a smart device according to an embodiment of the present invention.
  • the semantic search system 100 in a smart device is to provide a highly accurate search result (digital content corresponding to a user query among digital content in the smart device) based on semantic information with respect to a user query.
  • Classification tree 110, semantic tag system 120, semantic index system 130, and semantic match system 140 is to provide a highly accurate search result (digital content corresponding to a user query among digital content in the smart device) based on semantic information with respect to a user query.
  • Classification tree 110, semantic tag system 120, semantic index system 130, and semantic match system 140 is to provide a highly accurate search result (digital content corresponding to a user query among digital content in the smart device) based on semantic information with respect to a user query.
  • Classification tree 110, semantic tag system 120, semantic index system 130, and semantic match system 140 is to provide a highly accurate search result (digital content corresponding to a user query among digital content in the smart device) based on semantic information with respect to a user query.
  • the semantic search system 100 to be described below is for searching for digital content stored in various types of smart devices, and improves the accuracy of the search through semantic search performed on the smart device itself even when network communication is not performed. It is for.
  • the smart device may be implemented as a computer or a portable terminal.
  • the computer includes, for example, a laptop equipped with a web browser, a desktop, a laptop, a tablet PC, a slate PC, and the like
  • the portable terminal is, for example, portable and mobile.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wideband Internet
  • WiBro Wireless Broadband Internet
  • the subject classification tree 110 is generated by processing data of an Open Directory Project (ODP) and includes a plurality of categories. At this time, each upper category includes a lower category of a tree structure classified by subject. (see http://www.dmoz.org/)
  • Public directory projects are about the most comprehensive web directories edited by human hands, and are built and managed by a huge community of resources on a global scale.
  • the data published in the public directory project includes a plurality of categories for categorizing web sites, the structure of subcategories included in a tree structure within each parent category, and a list of web sites categorized by person for each category. .
  • the present invention extracts data about a category useful for indicating the meaning of the collected digital content from the public directory project to generate a topic classification tree 110 based on the public directory project.
  • FIG. 2A is a diagram schematically illustrating an example of a subject classification tree based on a public directory project illustrated in FIG. 1, and FIGS. 2B and 2C are diagrams for describing an example of a category.
  • "Recreation” may be one of a plurality of upper categories generated based on a public directory project, and may include a plurality of sub categories classified according to themes.
  • “Theme Parks” may be a first subcategory which is one of subcategories of “Recreation” which is a first upper category.
  • “Theme Parks” can be both a first subcategory and a second supercategory, since it is a tree structure as a whole. “Disney” may be a second subcategory which is one of subcategories of “Recreation” which is a second higher category.
  • FIG. 2B a plurality of categories generated based on a public directory project, such as “Arts”, “Games”, “Kids and Teens,” are displayed.
  • Each category includes a tree structure category categorized under the subject.
  • the parent category “Arts” contains subcategories such as “Movies”, “Television”, “Music”, etc.
  • the other parent category “Movies” also includes “Actors and Actresses", “Directors", “Filmmaking”. Sub-categories such as; In total, every conceivable topic can be classified into a tree structure.
  • the upper category “Science” includes subcategories such as “Astronomy”, “Biology”, “Social Sciences”, and the like, and these subcategories are also subcategories of the tree structure as upper categories of the next step (level), respectively. It may include.
  • the classifier (not shown) in the subject classification tree 110 may be trained based on the data of the public directory project, and may automatically classify the digital content collected from the smart device for each subject as described below. In this case, the classifier may be repeatedly learned by the list of web sites classified for each category.
  • a directory extraction process and a classifier learning process for embedding a public directory project and a classifier into a smart device may be performed by the inventors of Patent No. 10-1095069 (name of the invention: a portable communication terminal for extracting a subject of interest to the user); The method disclosed in the above).
  • the semantic search system 100 in the smart device proposed by the present invention includes the subject classification tree 110 based on the above-described open directory project, and includes the semantic tag system 120, the semantic index system 130, and the semantic.
  • Match system 140 utilizes data in topic classification tree 110.
  • FIG. 3 is a diagram for explaining the semantic tag system shown in FIG. 1 in more detail.
  • the semantic tag (S-Tag) system 120 in the smart device serves as a system for attaching a tag used in a keyword search to various digital contents together with the subject classification tree 110, the digital content collector 122, Primitive context extractor 124, and extended context generator 126.
  • the digital content collector 122 automatically collects various types of digital content generated in the smart device through at least one route.
  • the digital content may be one created or frequently used by a user of the smart device, such as a photograph taken, a list of websites stored in a bookmark, transmitted text, frequently played music and video, a frequently executed application, or the like.
  • the digital content collector 122 may register a predetermined event through a background service and collect and store digital content every time the corresponding event occurs.
  • the collected digital content information varies depending on the type of digital content, and may basically include “ID”, “physical location”, and “text information (title, description, etc.)” for the digital content. For example, if a user takes a photo using a smart device and stores a photo file in the “Photo” folder under the heading “Travel,” the digital content collector 122 may display [“ID”: “1”, “ Physical location ”:“ Photo ”,“ Text ”:“ Travel ”] can automatically collect information about digital content.
  • the raw context extractor 124 extracts the raw context of the digital content collected from the smart device.
  • the source context extractor 124 serves to extract the source context of the digital content collected by the digital content collector 122, and may be executed whenever the digital content collector 122 collects the digital content.
  • the smart device may include at least one sensor, and each sensor may be synchronized with the digital content collector 122 to generate various sensing information location information, time information, weather information, and the like.
  • the raw context of the digital content may be extracted for each timing at which the digital content is generated, and may include “current location information” acquired through GPS or a network, “creation time” associated with the timing, and “season according to location and time”. Information ”,“ weather information ”over time and location.
  • the raw context for photo files collected through the photo shoot described above is ["Location”: “Disneyland”, “Time”: “2013-08-05”, “Seasonal”: “Summer”, “Weather” “:” Sunny “].
  • the extended context generator 126 repeatedly expands a context that is semantically related to the raw context by using the subject classification tree 110 based on the open directory project, and proceeds through a series of semantic tags (S-Tag). )
  • An extension context that is semantically related to the raw context of the digital content may be obtained by the subject classification tree 110 based on the open directory project, and the subdirectory of the tree structure classified by the subjects in the upper category may be used in the expansion process. Can be.
  • the category of the tree structure in the subject classification tree 110 for the location-related primitive context “Disneyland” in the above-described photographing is “Recreation / Theme Parks / Disney / Disneyland Resort”, it is meaningful to the primitive context and the semantic context.
  • semantic tag (S-Tag) for any digital content that includes a location-related raw context called "Disneyland” and is associated with photography is extended by the extended context generator 126 by ⁇ Disneyland ", ⁇ “ Adventure ”,“ Adventure / Theme Parks ”,“ Adventure / Theme Parks / Disney ”,“ Adventure / Theme Parks / Disney / Disneyland Resort ” ⁇ .
  • semantically related extended contexts such as “Recreation” and “Theme parks” can be obtained from the location-related primitive context “Disneyland”.
  • FIG. 4 is a flowchart illustrating each step of the method for generating semantic tag according to an embodiment of the present invention.
  • the semantic tag system 120 in the smart device extracts a raw context for digital content collected from the smart device (S210).
  • the extracting step S210 may be performed based on target sensing information related to digital content collected from sensing information sensed by at least one sensor of the smart device.
  • the semantic tag system 120 may identify the type of digital content collected by the smart device. For example, it is possible to identify whether a photo file collected at a predetermined timing is generated by photo shooting or photo editing.
  • the semantic tag system 120 uses the vector space model (VSM) to extract the text s of the raw context extracted from the word vector ( Can be converted to).
  • VSM vector space model
  • FTF-IDF Term Frequency-Inverse Document Frequency
  • tf t denotes the frequency of occurrence of the word t in the text s of the raw context
  • N denotes the total number of learning documents used when the classifier in the subject classification tree 110 based on the open directory project is learned.
  • df t is the frequency of the document in which the word t occurs in the entire learning document.
  • the semantic tag system 120 based on the data of the public directory project (ODP) in which the upper categories classified by themes include the lower categories in a tree structure, the target category to which the raw context extracted in step S210 corresponds. Determine (S220).
  • the semantic tag system 120 is a classifier learned based on the data of the public directory project, the type of digital content identified in step S210, and the converted word vector ( ) And the target category may be determined based on a result of calculating the degree of association between the and the category.
  • the classifier in the subject classification tree 110 uses a word vector (of a plurality of categories) by using Equation 2 below. ) Can determine the target category that is most relevant.
  • Word vector Denotes a central vector trained from the training data of a predetermined category c i , V denotes a set of whole words used in the entire training data, and s t denotes a word vector ( Weight for word t, c i, t is the center vector ( Means the weight for the word t.
  • the center vector category as the word vector representing the learning data of c i, web pages classified in category c i exists in the public directory projects category c i the following equation (3), such as when used as training data for Can be calculated by
  • P i is a collection of web pages classified in category ci that exist in the public directory project, Denotes the word vector of the web page p in the set P i .
  • the semantic tag system 120 obtains an extended context that is semantically related to the extracted raw context using the directory of the category determined in step S220 (S230).
  • the extension context may be obtained by the target category (including the upper category and the lower category of the tree structure) determined in step S220.
  • the semantic tag system 120 generates a semantic tag for digital content including the extended context and the extracted original context obtained in step S230 (S240).
  • the semantic tag may include basic information of a digital content, a paired source context, and an extended context.
  • the semantic tag (S-Tag) system 120 may generate a semantic tag for digital content collected from a smart device using the subject classification tree 110 based on the open directory project.
  • FIG. 5 is a diagram for describing the semantic index system shown in FIG. 1 in more detail.
  • the semantic index (S-Index) system 130 in the smart device supports keyword search by a keyword including at least one or more search words, and indexes semantic tagged digital content to improve keyword search efficiency and speed.
  • a system for performing an (index) task which may include a semantic index generator 132 and a semantic index table 134.
  • the semantic index generator 132 may store the basic information of the digital content collected by the semantic tag system 120 in the first table of the semantic index table 134 which will be described later.
  • semantic index generator 132 searches for digital content including search words in text in semantic tags (S-Tags) including raw and extended contexts, and digital content including search words in text of digital content.
  • S-Tags semantic tags
  • Possible reverse index structures may be stored in the second table of the semantic index table 134 described below.
  • the semantic index generator 132 may store a searchable reverse index structure of the digital content having an extended context including a category corresponding to a search word in a third table of the semantic index table 134 which will be described later.
  • semantic index table 134 is composed of three tables as follows.
  • the digital content information table which is the first table, is a table that stores basic information (identification value, physical location, text, etc.) of the plurality of digital contents collected by the smart device for each of the collected digital contents.
  • the structure of the table is the same as "[identification value (ID)]," physical location ", and” text "of the digital content, and the digital content information table uses the key for searching for the keyword" digital content identification value ". ) Value can be used.
  • the second table is a digital content having a text containing a search word, and a digital having a raw context including a search word among the raw contexts included in the semantic tag generated in advance for each digital content collected by a smart device.
  • the raw context included in the semantic tag is extracted from digital content collected from the smart device, and the extended context included in the semantic tag is included in the semantic tag while semantically related to the raw context included in the semantic tag.
  • the primitive context was obtained using the corresponding category.
  • the category to which the original context included in the semantic tag corresponds is determined based on the data of the above-described public directory project (ODP). That is, the data of the subject or the subject classification tree 110 of the open directory project in which the upper category classified by the subject includes the lower category in a tree structure may be used.
  • ODP public directory project
  • the structure of a table is the same as [“word”, “frequency”, “word location classification”, “identification value of digital content”], and the keyword reverse index table uses “word” as a key value when searching for keywords. Can be.
  • word position classification is to distinguish whether the search word is included in the text of the digital content, the raw context included in the semantic tag generated by the semantic tag system 120 described above, and the extended context included in the semantic tag.
  • the keyword inverse index table may be used for a quick keyword matching search of the semantic match system 140 described below.
  • the category inverse index table which is the third table, is a table that stores a second inverted index structure capable of searching for digital content having an extended context including a category corresponding to a search word.
  • the category corresponding to the search word is determined based on the data of the above-described open directory project (ODP). That is, the data of the subject or the subject classification tree 110 of the open directory project in which the upper category classified by the subject includes the lower category in a tree structure may be used.
  • ODP open directory project
  • the structure of the table is the same as [“category identification value”, “digital content identification value”], and the category reverse index table may use “category identification value” as a key value in keyword search.
  • the category inverse index table may be used for a quick semantic matching search of the semantic match system 140 described below.
  • the semantic index (S-Index) system 130 may perform semantic indexing on digital content collected from a smart device using the subject classification tree 110 based on the open directory project.
  • FIG. 6 is a flowchart illustrating in more detail the operation of the semantic tag system and the semantic index system according to an embodiment of the present invention.
  • the digital content collector 122 in the semantic tag system 120 collects basic information of the digital content (S22).
  • the source context is extracted from the digital content (S23), and the extension context generator 126 generates the extension context using the subject classification tree 110 based on the open directory project (S24).
  • the semantic index generator 132 in the semantic index system 130 When a signal for performing an index is transmitted (S25), the semantic index generator 132 in the semantic index system 130 operates and the generated result is stored in the semantic index table 134.
  • the semantic index generator 132 stores basic information (identification value, physical location, text, etc.) of the digital content in the digital content information table (S26), and stores the first reverse index structure in the keyword reverse index table (S27).
  • the second reverse index structure is stored in the category reverse index table.
  • Such a series of processes are preferably completed before the keyword search is performed, but the training data and the classifier in the subject classification tree 110 may be continuously updated to improve the accuracy of the search even during the keyword search.
  • FIG. 7 is a diagram for describing the semantic match system shown in FIG. 1 in more detail.
  • the semantic match (S-Match) system 140 in the smart device together with the subject taxonomy tree 110 and the semantic index table 134, semantic-tagged digital content semantically associated with user-entered search keywords.
  • the system to search may include a search keyword analyzer 142, a semantic ranker 144, and a search result generator 146.
  • the search keyword analyzer 142 analyzes the input keyword search and extends the meaning of the search keyword by using the subject classification tree 110 based on the open directory project.
  • the search keyword analyzer 142 may determine a category corresponding to the input keyword among the plurality of categories in the above-described subject classification tree 110. More specifically, a word in the input keyword may be converted into a word vector through Equation 1, and a target category having the most correlation with the converted word vector among a plurality of categories may be determined through a classifier using Equation 2. have.
  • the semantic ranker 144 calculates the degree of semantic association between each digital content and the search keyword in the semantic index table 134 to determine the ranking (ranking) of the digital content.
  • the semantic ranker 144 may utilize the first reverse index structure and the second reverse index structure of the semantic index table 134 included in the semantic index system 130.
  • the search result generator 146 provides, as a search result, not only digital content that matches the keyword input when searching for a keyword, but also digital content that is semantically related according to the ranking result.
  • the semantic match system 140 may not only provide digital content for “Lotte World” as a search result to a user who searches for “Lotte World” using a smart device, but also semantically relate to “Lotte World”.
  • digital content eg, "picture taken at Disneyland” about “Disneyland”, “Recreation” or “Theme parks” stored inside the smart device may be provided as a search result.
  • FIG. 8 is a flowchart illustrating each step of a method of providing a result for keyword search according to an embodiment of the present invention.
  • the semantic match system 140 calculates similarity between the search word in the input keyword and the plurality of digital contents collected by the smart device, respectively (S310).
  • the similarity is a value indicating the degree to which the search word matches the text of the digital content collected by the smart device.
  • semantic match system 140 uses similarity equation 4 below to determine the similarity degree. Can be calculated.
  • t is a search word in keyword q entered by the user
  • sw (t, d i ) represents a weight value that depends on whether the search word t is included in the text, the original context, and the extended context.
  • the value sw (t, d i ) when the search word t is included in the text of the digital content di is sw (t when the search word t is included in the raw and extended contexts. , d i ) can be set higher than the value.
  • the similarity value increases as the digital content d i including a large number of search words t in the input keyword q.
  • the similarity value is 0 to 1.
  • the extended context is included in the semantic tag generated by the semantic tag system 120, and the raw context is semantically related to the raw context extracted from the digital content collected by the smart device. It is obtained using the corresponding category.
  • the category to which the source context corresponds is determined based on the data of the above-described public directory project (ODP). That is, the data of the subject classification tree or the subject classification tree 110 in which the upper category classified by the subject includes the lower category in a tree structure may be used.
  • ODP public directory project
  • the semantic match system 140 may calculate the similarity using the first inverse index structure stored in the semantic index system 130 connected with the semantic match system 140.
  • the first reverse index structure includes digital content having a text containing a search word, digital content having a raw context including a search word among raw contexts, and a search word among extended contexts included in semantic tags. It is possible to search for digital content with extended context.
  • the semantic match system 140 can perform a faster search by the first inverse index structure.
  • the semantic match system 140 calculates semantic similarity between the category corresponding to the search word in the keyword inputted during the keyword search and the extended context in the semantic tag (S320).
  • the semantic similarity is a value representing the degree to which the category corresponding to the search word corresponds to the extended context included in the semantic tag generated in advance for each digital content collected by the smart device.
  • the semantic match system 140 uses the following Equation 5 to determine the semantic similarity. Can be calculated.
  • c q means a category to which the keyword q input by the user among the plurality of categories corresponds
  • s (d i ) means a set of extension contexts in the semantic tag for the digital content d i
  • cs (c q , c k ) represents category similarity indicating how semantically the two categories c q and c k are within the subject classification tree 110 based on the open directory project.
  • the category similarity may be measured by various methods.
  • category similarity may be measured based on a distance between two categories in the subject classification tree 110 based on the open directory project.
  • the category similarity may be calculated according to the position where the category c q corresponding to the search word in the keyword q is included in the extended context.
  • c q and c k coincide with each other, they have a value of 1, and when one category corresponds to a subcategory of another category, it may have a value lower than 1 due to an increase in distance.
  • category similarity may be measured using the wPPR algorithm disclosed in the inventor's registered patent No. 10-1083274 (name of the invention: a contextual advertisement system using a similarity graph).
  • the category corresponding to the search word is determined based on the data of the above-described open directory project (ODP). That is, the data of the subject classification tree or the subject classification tree 110 in which the upper category classified by the subject includes the lower category in a tree structure may be used.
  • ODP open directory project
  • the semantic match system 140 may calculate semantic similarity using the second inverse index structure stored in the semantic index system 130 coupled with the semantic match system 140.
  • the second reverse index structure enables searching for digital content having an extended context including a category corresponding to a search word. For example, after selecting n c k having high similarity to category c q using cs (c q , c k ) of Equation 5, digital content including an extended context corresponding to the selected category c k is first generated. Acquired by the two inverse index structure, the obtained digital content can be used for calculation of semantic similarity. Thus, the semantic match system 140 can perform a faster search by the second inverse index structure.
  • the semantic match system 140 may additionally perform a process of obtaining an extended search word semantically related to the search word using a category corresponding to the search word. This process may be performed before the above-described steps S310 and S320.
  • step S310 may calculate the similarity with respect to the search word and the extended search word. That is, apart from step S310, the similarity between the extended search word and the collected digital content may be additionally calculated, and the calculation scheme may be performed as in Equation 4 and description thereof.
  • step S320 may calculate semantic similarity for the search word and the extended search word. That is, apart from step S320, the semantic similarity between the category corresponding to the extended search word and the extended context in the semantic tag may be additionally calculated, and the calculation scheme may be performed as in Equation 5 and description thereof.
  • the semantic match system 140 based on the similarity calculated in step S310 and the semantic similarity calculated in step S320, respectively, correlating the degree of association of the digital content with respect to the keyword inputted during the keyword search. It calculates (S330).
  • the semantic match system 140 may calculate a degree of association between the input keyword and the digital content collected by the smart device using Equation 6 below.
  • q denotes a search keyword entered by the user
  • d i denotes any digital content collected within the smart device
  • denotes a weight for a linear combination of similarity and semantic similarity
  • tw (d i ) Represents a weight for the creation time of the digital content d i .
  • ⁇ and tw (d i ) are variables representing values from 0 to 1.
  • the similarity degree mentioned above The degree of matching between the search keyword q and any digital content d i is calculated, and the semantic similarity The degree of correspondence between the search keyword q and the extended context of the digital content d i may be calculated.
  • the semantic match system 140 determines the ranking of the digital content collected by the smart device according to the degree of association calculated in step S330, and the keyword is from the digital content corresponding to the highest ranking to the digital content corresponding to the predetermined ranking. Provided as a result of the search (S340).
  • the ranking and sorting is basically the equation (6) It is made according to, but may be made according to the creation time of the digital content.
  • the semantic match (S-Match) system 140 uses a subject classification tree 110 based on a public directory project to provide accurate semantic results for keywords entered by a user when searching for keywords for digital content in a smart device. Can provide.
  • FIG. 9 is a flow chart for explaining in more detail the operation of the semantic match system according to an embodiment of the present invention.
  • the search keyword analyzer 142 in the semantic match system 140 uses the topic classification tree 110 based on the open directory project. Extend the meaning of (S33).
  • the semantic ranker 144 performs similarity matching (S35) and semantic similarity matching (S36) using the semantic index table 134 in the semantic index system 130, According to the ranking of each digital content.
  • the search result generator 146 in the semantic match system 140 receives the digital content information from the semantic index table 134 (S38), and provides the final search result to the user. (S39).

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

본 발명은 스마트 기기 내에서 적용되는 공개 디렉토리 프로젝트(Open Directory Project) 기반의 주제 분류 트리, 시맨틱(Semantic) 태그 시스템, 시맨틱 인덱스 시스템, 및 시맨틱 매치 시스템을 포함하는 시맨틱 검색 시스템에 대해 개시한다. 특히, 스마트 기기 내 시맨틱 태그 시스템이 시맨틱 태그를 생성하는 방법은, 상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계; 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계; 상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및 상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함한다.

Description

스마트 기기 내 시맨틱 검색 시스템 및 검색방법
본 발명은 스마트 기기 내 시맨틱 검색 시스템 및 검색방법에 관한 것이다.
사용자는 자신이 필요로 하거나 궁금해하는 것과 관련된 정보를 얻기 위해 스마트 기기를 이용하여 웹페이지 등에서 검색을 수행한다. 검색을 수행함에 있어서, 사용자는 각자 기준을 가지고 키워드를 선정하고, 선정된 키워드는 검색 엔진에 입력된다.
최근에는 종래 단순한 키워드 검색이 아닌, 키워드 내 단어 혹은 키워드 간의 의미를 파악하는 시맨틱 검색(Semantic Search)이 가능해지고 있다. 국내에서는 네이버(Naver), 다음(Daum), 네이트(Nate) 등의 포탈 검색 사이트에서 이러한 시맨틱 검색 서비스를 제공하고 있다.
또한, 시맨틱 웹(Semantic Web)은 웹상의 정보에 잘 정의된 의미를 부여함으로써, 사람뿐만 아니라 컴퓨터도 쉽게 문서의 의미를 해석할 수 있도록 하여 컴퓨터를 이용한 정보의 검색 및 해석, 통합 등의 업무를 자동화하기 위한 목적으로 제안된 것이다.
한편, 이와 관련하여 한국공개특허 제2010-0107948호(발명의 명칭: 시맨틱 정보를 활용한 직답형 검색 시스템 및 검색 방법)는 시맨틱 정보를 활용하여 명령어와 키워드를 입력하면 화면 전환없이 바로 검색결과를 보여주는 기술에 대해 개시하고 있다.
다만, 기존의 시맨틱 검색은 스마트 기기를 통해 포탈 검색 사이트에 접속하여 이루어지는 방식이었고, 각각의 사용자의 스마트 기기 내부에 수집된 각종 디지털 콘텐츠를 검색하기 위한 것은 아니었다.
또한, 최근 별도의 저장소인 클라우드에 저장된 디지털 콘텐츠를 검색하는 서비스가 제공되고 있지만, 스마트 기기가 클라우드에 연결될 수 있어야 한다는 점과, 스마트 기기 내부에 저장되어 있는 디지털 콘텐츠를 검색할 수는 없다는 점에서 새로운 검색 기술에 대한 연구가 필요한 실정이었다.
본 발명의 일부 실시예는 외부 통신망과의 접속 없이 스마트 기기 자체에서 스마트 기기 내부에 저장된 디지털 콘텐츠에 대한 시맨틱 검색이 가능한 시스템을 제공하는 데에 그 목적이 있다.
또한, 본 발명의 일부 실시예는 공개 디렉토리 프로젝트 기반의 주제 분류 트리를 활용하여 원시 문맥으로부터 의미적으로 연관된 확장 문맥을 얻을 수 있고, 그에 따라 시맨틱 태그를 생성할 수 있는 방법을 제공하는 데에 다른 목적이 있다.
또한, 본 발명의 일부 실시예는 입력된 키워드에 대한 시맨틱 검색이 빠르게 이루어질 수 있도록 지원하는 역 색인 구조를 저장하는 시맨틱 인덱스 시스템을 제공하는 데에 또 다른 목적이 있다.
또한, 본 발명의 일부 실시예는 공개 디렉토리 프로젝트 기반의 주제 분류 트리를 기초로 생성된 시맨틱 태그를 이용하여 키워드 검색에 대한 결과를 제공하는 방법을 제공하는 데에 또 다른 목적이 있다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱(Semantic) 태그 시스템이 시맨틱 태그를 생성하는 방법은, 상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계; 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계; 상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및 상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함한다.
또한, 본 발명의 일 실시예에 따른 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하는 스마트 기기 내 시맨틱(Semantic) 인덱스 시스템은, 상기 스마트 기기에서 수집된 디지털 콘텐츠의 식별 값, 물리적 위치, 및 텍스트를 상기 수집된 디지털 콘텐츠마다 저장하는 제 1 테이블; 상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 제 2 테이블; 및 상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 제 3 테이블을 포함하고, 상기 시맨틱 태그에 포함된 원시 문맥은 상기 수집된 디지털 콘텐츠로부터 추출된 것이고, 상기 시맨틱 태그에 포함된 확장 문맥은 상기 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 상기 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이며, 상기 시맨틱 태그에 포함된 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다.
또한, 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱(Semantic) 매치 시스템이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법은, 상기 검색단어가 상기 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 유사도를 계산하는 단계; 상기 검색단어가 해당되는 카테고리가 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 시맨틱 유사도를 계산하는 단계; 상기 유사도 및 시맨틱 유사도에 기초하여 상기 키워드에 대한 상기 수집된 디지털 콘텐츠의 연관 정도를 산출하는 단계; 및 상기 산출된 연관 정도에 따라 상기 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 상기 키워드 검색에 대한 결과로서 제공하는 단계를 포함하고, 상기 확장 문맥은 상기 시맨틱 태그에 포함되고 상기 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 상기 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이고, 상기 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다.
전술한 본 발명의 과제 해결 수단 중 일부인 스마트 기기 내 시맨틱 태그 시스템 및 시맨틱 태그 생성방법은 공개 디렉토리 프로젝트 기반 주제 분류 트리를 활용함으로써, 스마트 기기로부터 수집된 디지털 콘텐츠를 효율적으로 분류할 수 있고, 각각의 디지털 콘텐츠의 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥까지 고려한 시맨틱 태그를 생성함으로써, 스마트 기기 내부의 디지털 콘텐츠에 대해서도 사용자 중심의 키워드 검색을 지원할 수 있다.
또한, 본 발명에서 제안하는 스마트 기기 내 시맨틱 인덱스 시스템은 복수의 역 색인 구조를 저장하는 테이블을 포함함으로써, 단순 키워드 검색이 아닌 스마트 기기 자체에서의 의미 확장형 시맨틱 검색을 지원할 수 있다.
또한, 본 발명의 과제 해결 수단 중 일부인 스마트 기기 내 시맨틱 매치 시스템 및 키워드 검색에 대한 검색 결과 제공방법은 주제 분류 트리, 시맨틱 태그 및 각종 테이블을 활용함으로써, 키워드 검색시 입력된 키워드와 의미적으로 연관성을 가지는 스마트 기기 내부의 디지털 콘텐츠를 정확하고 빠르게 검색하여 제공해줄 수 있다.
도 1은 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱 검색 시스템의 각 구성을 설명하기 위한 도면,
도 2a는 도 1에 도시된 공개 디렉토리 프로젝트 기반의 주제 분류 트리의 일 예를 개략적으로 나타낸 도면,
도 2b 및 도 2c는 카테고리의 일 예를 설명하기 위한 도면,
도 3은 도 1에 도시된 시맨틱 태그 시스템을 보다 상세하게 설명하기 위한 도면,
도 4는 본 발명의 일 실시예에 따른 시맨틱 태그 생성방법의 각 단계를 설명하기 위한 순서도,
도 5는 도 1에 도시된 시맨틱 인덱스 시스템을 보다 상세하게 설명하기 위한 도면,
도 6은 본 발명의 일 실시예에 따른 시맨틱 태그 시스템 및 시맨틱 인덱스 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도,
도 7은 도 1에 도시된 시맨틱 매치 시스템을 보다 상세하게 설명하기 위한 도면,
도 8은 본 발명의 일 실시예에 따른 키워드 검색에 대한 결과 제공방법의 각 단계를 설명하기 위한 순서도,
도 9는 본 발명의 일 실시예에 따른 시맨틱 매치 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하, 본 발명의 구체적인 실시예를 첨부한 도면을 참조하여 상세히 설명하면 다음과 같다. 다만, 본 발명의 사상은 제시되는 일 실시예에 제한되지 아니하며, 본 발명의 사상을 이해하는 동일한 사상의 범위 내에서 구성요소의 부가, 변경, 삭제, 추가 등에 의해서 다른 실시예를 쉽게 발명할 수 있을 것이나, 이 또한 본 발명의 사항의 범위 내에 포함된다고 할 것이다.
<스마트 기기 내 시맨틱 검색 시스템>
도 1은 본 발명의 일 실시예에 따른 스마트 기기 내 시맨틱 검색 시스템의 각 구성을 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 검색(Semantic Search) 시스템(100)은 사용자 질의에 대하여 의미 정보에 기초한 높은 정확도의 검색 결과(스마트 기기 내부의 디지털 콘텐츠 중 사용자 질의에 대응되는 디지털 콘텐츠)를 제공하기 위한 것으로서, 주제 분류 트리(110), 시맨틱 태그 시스템(120), 시맨틱 인덱스 시스템(130), 및 시맨틱 매치 시스템(140)을 포함한다.
이하에서 설명될 시맨틱 검색 시스템(100)은 다양한 종류의 스마트 기기 내부에 저장된 디지털 콘텐츠에 대한 검색을 위한 것이고, 네트워크 통신이 이루어지지 않더라도 스마트 기기 자체에서 수행되는 시맨틱 검색을 통해 검색의 정확도를 향상시키기 위한 것이다.
여기서, 스마트 기기는 컴퓨터나 휴대용 단말기로 구현될 수 있다. 이때, 컴퓨터는 예를 들어, 웹 브라우저(WEB Browser)가 탑재된 노트북, 데스크톱(desktop), 랩톱(laptop), 태블릿 PC, 슬레이트 PC 등을 포함하고, 휴대용 단말기는 예를 들어, 휴대성과 이동성이 보장되는 무선 통신 장치로서, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone) 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
주제 분류 트리(110)는 공개 디렉토리 프로젝트(Open Directory Project; ODP)의 데이터를 가공하여 생성되고, 복수의 카테고리를 포함한다. 이때, 각각의 상위 카테고리는 주제 별로 분류된 트리 구조의 하위 카테고리를 포함한다. (http://www.dmoz.org/ 참조)
공개 디렉토리 프로젝트란 인간의 손에 의해 편집되는 가장 포괄적인 웹 디렉토리에 관한 것으로서, 세계규모의 거대한 자원 커뮤니티에 의해 구축 및 관리되고 있다.
공개 디렉토리 프로젝트에서 공개하는 데이터는 웹 사이트를 분류하기 위한 복수의 카테고리, 각각의 상위 카테고리 내 트리 구조를 이루며 포함된 하위 카테고리의 구조, 및 각 카테고리마다 사람에 의해 분류된 웹 사이트들의 리스트를 포함한다.
즉, 본 발명에서는 수집된 디지털 콘텐츠의 의미를 나타내기 유용한 카테고리에 대한 데이터를 공개 디렉토리 프로젝트로부터 추출하여 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 생성한다.
도 2a는 도 1에 도시된 공개 디렉토리 프로젝트 기반의 주제 분류 트리의 일 예를 개략적으로 나타낸 도면이고, 도 2b 및 도 2c는 카테고리의 일 예를 설명하기 위한 도면이다.
예를 들어, 도 2a의 경우 “Recreation”은 공개 디렉토리 프로젝트 기반으로 생성된 복수의 상위 카테고리 중 하나일 수 있고, 그 하위에 주제 별로 분류된 복수의 하위 카테고리를 포함할 수 있다. “Theme Parks”는 제 1 상위 카테고리인 “Recreation”의 하위 카테고리 중 하나인 제 1 하위 카테고리일 수 있다.
또한, “Theme Parks”는 제 1 하위 카테고리임과 동시에 제 2 상위 카테고리일 수 있는데, 이는 전체적으로 트리 구조이기 때문이다. “Disney”는 제 2 상위 카테고리인 “Recreation”의 하위 카테고리 중 하나인 제 2 하위 카테고리일 수 있다.
도 2b의 경우 “Arts”, “Games”, “Kids and Teens” 등과 같이 공개 디렉토리 프로젝트 기반으로 생성된 복수의 카테고리가 표시되어 있다. 각각의 카테고리는 그 하위에 주제 별로 분류된 트리 구조의 카테고리를 포함한다. 일 예로, 상위 카테고리인 “Arts”는 “Movies”, “Television”, “Music” 등과 같은 하위 카테고리를 포함하고, 다른 상위 카테고리인 “Movies”도 “Actors and Actresses”, “Directors”, “Filmmaking” 등과 같은 하위 카테고리를 포함한다. 전체적으로, 생각해낼 수 있는 모든 주제가 트리 구조로 분류될 수 있다.
도 2c의 경우 상위 카테고리인 “Science”는 “Astronomy”, “Biology”, “Social Sciences” 등과 같은 하위 카테고리를 포함하고, 이들 하위 카테고리도 각각 다음 단계(레벨)의 상위 카테고리로서 트리 구조의 하위 카테고리를 포함할 수 있다.
또한, 주제 분류 트리(110) 내 분류기(미도시)는 공개 디렉토리 프로젝트의 데이터를 기초로 학습되고, 후술할 것처럼 스마트 기기로부터 수집된 디지털 콘텐츠를 주제 별로 자동 분류할 수 있다. 이때, 분류기는 각 카테고리마다 분류되어 있는 웹 사이트들의 리스트에 의해 반복적으로 학습될 수 있다.
일 예로, 공개 디렉토리 프로젝트와 분류기를 스마트 기기에 내장하기 위한 디렉토리 추출 과정과 분류기 학습 과정은 본 특허의 발명자의 등록특허 제10-1095069호(발명의 명칭: 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법)에 개시된 내용을 활용할 수 있다.
이와 같이 본 발명에서 제안하는 스마트 기기 내 시맨틱 검색 시스템(100)은 상술한 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 포함하고, 시맨틱 태그 시스템(120), 시맨틱 인덱스 시스템(130), 및 시맨틱 매치 시스템(140)은 주제 분류 트리(110) 내 데이터를 활용한다.
이하에서는 이들 각각의 시스템에 대해 상세히 설명하고자 한다.
<시맨틱 태그 시스템>
도 3은 도 1에 도시된 시맨틱 태그 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 태그(S-Tag) 시스템(120)은 주제 분류 트리(110)와 함께 키워드 검색시 사용되는 태그를 각종 디지털 콘텐츠에 대해 붙이는 역할을 수행하는 시스템으로서, 디지털 콘텐츠 수집기(122), 원시 문맥 추출기(124), 및 확장 문맥 생성기(126)를 포함할 수 있다.
디지털 콘텐츠 수집기(122)는 적어도 하나 이상의 루트를 통해 해당 스마트 기기에서 발생되는 다양한 타입의 디지털 콘텐츠를 자동으로 수집한다.
예를 들어, 디지털 콘텐츠는 촬영된 사진, 즐겨찾기에 저장된 웹사이트 목록, 전송된 문자, 자주 재생된 음악 및 비디오, 자주 실행된 어플리케이션 등과 같이 스마트 기기의 사용자에 의해 생성되거나 자주 사용되는 것일 수 있다.
이러한 디지털 콘텐츠를 수집하기 위해서, 디지털 콘텐츠 수집기(122)는 백그라운드 서비스를 통해 미리 정해진 이벤트를 등록해두고, 해당 이벤트가 발생되었을 때마다 디지털 콘텐츠에 대한 수집 및 저장 동작을 수행할 수 있다.
수집된 디지털 콘텐츠의 정보는 디지털 콘텐츠의 종류에 따라 달라지며, 기본적으로 디지털 콘텐츠에 대한 “ID”, “물리적 위치”, “텍스트 정보(제목, 설명 등)”를 포함할 수 있다. 예를 들어, 사용자가 스마트 기기를 이용하여 사진 촬영을 하고 “여행” 이라는 제목으로 사진 파일을 “Photo” 폴더에 저장한 경우, 디지털 콘텐츠 수집기(122)는 [“ID”:“1”, “물리적 위치”:“Photo”, “텍스트”:“여행”]와 같은 디지털 콘텐츠의 정보를 자동으로 수집할 수 있다.
원시 문맥 추출기(124)는 스마트 기기로부터 수집된 디지털 콘텐츠의 원시 문맥을 추출한다.
구체적으로, 원시 문맥 추출기(124)는 디지털 콘텐츠 수집기(122)에 수집된 디지털 콘텐츠의 원시 문맥을 추출하는 역할을 수행하고, 디지털 콘텐츠 수집기(122)가 디지털 콘텐츠를 수집할 때마다 실행될 수 있다.
스마트 기기는 적어도 하나 이상의 센서를 포함할 수 있고, 각각의 센서는 디지털 콘텐츠 수집기(122)와 동기화되어 다양한 센싱 정보 위치 정보, 시간 정보, 날씨 정보 등)를 생성할 수 있다.
즉, 디지털 콘텐츠의 원시 문맥은 해당 디지털 콘텐츠가 생성된 타이밍마다 추출될 수 있고, GPS 또는 네트워크를 통해 획득된 “현재 위치 정보”, 해당 타이밍과 관련된 “생성 시간”, 위치 및 시간에 따른 “계절 정보”, 위치 및 시간에 따른 “날씨 정보”를 포함할 수 있다. 예를 들어, 상술한 사진 촬영을 통해 수집된 사진 파일에 대한 원시 문맥은 [“위치”:“Disneyland”, “시간”:“2013-08-05”, “계절”:“여름”, “날씨”:“맑음”]일 수 있다.
또한, 확장 문맥 생성기(126)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 원시 문맥과 의미적으로 연관성을 가지는 문맥을 반복적으로 확장하고, 일련의 과정을 거쳐 시맨틱 태그(S-Tag)를 생성한다.
디지털 콘텐츠의 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)에 의해 획득될 수 있고, 확장 과정에서 상위 카테고리 내 주제 별로 분류된 트리 구조의 하위 디렉토리가 사용될 수 있다.
예를 들어, 상술한 사진 촬영에서 “Disneyland”라는 위치 관련 원시 문맥에 대한 주제 분류 트리(110) 내 트리 구조의 카테고리가 “Recreation/Theme Parks/Disney/Disneyland Resort”라면, 해당 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥은 다음과 같이 4개일 수 있다.
“Recreation”, “Recreation/Theme Parks”, “Recreation/Theme Parks/Disney”, “Recreation/Theme Parks/Disney/Disneyland Resort”
따라서, “Disneyland”라는 위치 관련 원시 문맥을 포함하고 사진 촬영과 관련된 소정의 디지털 콘텐츠에 대한 시맨틱 태그(S-Tag)는 확장 문맥 생성기(126)에 의해 {“Disneyland”, {“Recreation”, “Recreation/Theme Parks”, “Recreation/Theme Parks/Disney”, “Recreation/Theme Parks/Disney/Disneyland Resort”}}와 같이 생성될 수 있다.
이처럼 위치 관련 원시 문맥인 “Disneyland”로부터 “Recreation”, “Theme parks” 등과 같은 의미적으로 연관된 확장 문맥이 획득될 수 있다.
확장 문맥을 획득하는 보다 구체적인 과정과 관련해서는 후술하기로 한다.
한편, 상술한 시맨틱 태그 시스템(120)이 시맨틱 태그를 생성하는 방법에 대해 도 4를 참고하여 설명하기로 한다. 참고로, 설명의 편의를 위해 도 3에 도시된 각 구성의 식별번호를 인용한다.
도 4는 본 발명의 일 실시예에 따른 시맨틱 태그 생성방법의 각 단계를 설명하기 위한 순서도이다.
스마트 기기 내 시맨틱 태그 시스템(120)은 해당 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출한다(S210).
특히, 추출하는 단계(S210)는 해당 스마트 기기의 적어도 하나 이상의 센서로부터 센싱된 센싱 정보 중 수집된 디지털 콘텐츠와 관련된 타겟 센싱 정보를 기초로 이루어질 수 있다.
구체적으로, 시맨틱 태그 시스템(120)은 해당 스마트 기기에서 수집된 디지털 콘텐츠의 종류를 식별할 수 있다. 예를 들어, 소정의 타이밍에 수집된 사진 파일이 사진 촬영에 의해 생성된 것인지, 사진 편집에 의해 생성된 것인지 등을 식별할 수 있다.
또한, 시맨틱 태그 시스템(120)은 벡터 스페이스 모델(VSM)을 이용하여 추출된 원시 문맥의 텍스트(s)를 단어 벡터(
Figure PCTKR2014005081-appb-I000001
)로 변환할 수 있다. 이 과정에서 단어빈도수-역문서빈도수(Term Frequency-Inverse Document Frequency; FTF- IDF) 방식을 통해 아래의 수학식 1처럼 단어 벡터(
Figure PCTKR2014005081-appb-I000002
)의 각 단어(t)에 대한 가중치(wt)가 부여될 수 있다.
수학식 1
Figure PCTKR2014005081-appb-M000001
여기서, tft는 원시 문맥의 텍스트(s) 내에서 단어 t가 발생한 빈도수를 의미하고, N은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내 분류기가 학습될 때 사용된 전체 학습 문서 수를 의미하며, dft는 전체 학습 문서 내에서 단어 t가 발생한 문서 빈도수를 의미한다.
계속해서, 시맨틱 태그 시스템(120)은 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 단계 S210에서 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정한다(S220).
구체적으로, 시맨틱 태그 시스템(120)은 공개 디렉토리 프로젝트의 데이터를 기초로 학습된 분류기가 단계 S210에서 식별된 디지털 콘텐츠의 종류, 및 변환된 단어 벡터(
Figure PCTKR2014005081-appb-I000003
)와 카테고리 간 연관 정도를 계산한 결과를 기초로 타겟 카테고리를 결정할 수 있다.
보다 구체적으로, 주제 분류 트리(110) 내 분류기는 아래 수학식 2를 이용하여 복수의 카테고리 중 단어 벡터(
Figure PCTKR2014005081-appb-I000004
)와 가장 연관성이 높은 타겟 카테고리를 결정할 수 있다.
수학식 2
Figure PCTKR2014005081-appb-M000002
여기서,
Figure PCTKR2014005081-appb-I000005
는 단어 벡터,
Figure PCTKR2014005081-appb-I000006
는 소정의 카테고리 ci의 학습 데이터로부터 학습된 중심 벡터를 의미하고, V는 전체 학습 데이터에서 사용된 전체 단어의 집합을 의미하며, st는 단어 벡터(
Figure PCTKR2014005081-appb-I000007
)의 단어 t에 대한 가중치, ci,t는 중심 벡터(
Figure PCTKR2014005081-appb-I000008
)의 단어 t에 대한 가중치를 의미한다.
참고로, 중심 벡터는 카테고리 ci의 학습 데이터를 대표하는 단어 벡터로서, 공개 디렉토리 프로젝트 내에 존재하는 카테고리 ci에 분류된 웹 페이지들이 카테고리 ci의 학습 데이터로 사용되는 경우 다음과 같은 수학식 3에 의해 계산될 수 있다.
수학식 3
Figure PCTKR2014005081-appb-M000003
여기서, Pi는 공개 디렉토리 프로젝트 내에 존재하는 카테고리 ci 에 분류된 웹 페이지들의 집합이고,
Figure PCTKR2014005081-appb-I000009
는 집합 Pi 내의 웹 페이지 p의 단어 벡터를 의미한다.
다음으로, 시맨틱 태그 시스템(120)은 단계 S220에서 결정된 카테고리의 디렉토리를 이용하여 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득한다(S230).
앞서 설명한 것처럼, 확장 문맥은 단계 S220에서 결정된 타겟 카테고리(트리 구조의 상위 카테고리, 하위 카테고리 포함)에 의해 획득될 수 있다.
이어서, 시맨틱 태그 시스템(120)은 단계 S230에서 획득된 확장 문맥 및 추출된 원시 문맥을 포함하는 디지털 콘텐츠에 대한 시맨틱 태그를 생성한다(S240). 이때, 시맨틱 태그는 디지털 콘텐츠의 기본 정보, 쌍을 이루는 원시 문맥과 확장 문맥을 포함할 수 있다.
이와 같이 시맨틱 태그(S-Tag) 시스템(120)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기에서 수집된 디지털 콘텐츠에 대한 시맨틱 태그를 생성할 수 있다.
<시맨틱 인덱스 시스템>
도 5는 도 1에 도시된 시맨틱 인덱스 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 인덱스(S-Index) 시스템(130)은 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하고, 키워드 검색의 효율 및 속도 향상을 위하여 시맨틱 태그가 붙은 디지털 콘텐츠에 대한 인덱싱(색인) 작업을 수행하는 시스템으로서, 시맨틱 인덱스 생성기(132) 및 시맨틱 인덱스 테이블(134)을 포함할 수 있다.
시맨틱 인덱스 생성기(132)는 시맨틱 태그 시스템(120)에서 수집된 디지털 콘텐츠의 기본 정보를 후술할 시맨틱 인덱스 테이블(134)의 제 1 테이블에 저장할 수 있다.
또한, 시맨틱 인덱스 생성기(132)는 원시 문맥 및 확장 문맥을 포함하는 시맨틱 태그(S-Tag) 내 텍스트 내 검색단어를 포함하는 디지털 콘텐츠, 및 디지털 콘텐츠의 텍스트 내 검색단어를 포함하는 디지털 콘텐츠를 검색 가능한 역 색인 구조를 후술할 시맨틱 인덱스 테이블(134)의 제 2 테이블에 저장할 수 있다.
또한, 시맨틱 인덱스 생성기(132)는 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 역 색인 구조를 후술할 시맨틱 인덱스 테이블(134)의 제 3 테이블에 저장할 수 있다.
나아가, 시맨틱 인덱스 테이블(134)은 다음과 같은 3가지 테이블로 구성된다.
제 1 테이블인 디지털 콘텐츠 정보 테이블은 스마트 기기에서 수집된 복수의 디지털 콘텐츠의 기본 정보(식별 값, 물리적 위치, 및 텍스트 등)를 수집된 디지털 콘텐츠마다 저장하는 테이블이다. 일 예에 따른 테이블의 구조는 [“디지털 콘텐츠의 식별 값(ID)”, “물리적 위치”, “텍스트”]와 같고, 디지털 콘텐츠 정보 테이블은 “디지털 콘텐츠 식별 값”을 키워드 검색시 키(Key) 값으로 사용할 수 있다.
제 2 테이블인 키워드 역 색인 테이블은, 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 스마트 기기에서 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 시맨틱 태그에 포함된 확장 문맥 중 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 테이블이다.
여기서, 시맨틱 태그에 포함된 원시 문맥은 스마트 기기에서 수집된 디지털 콘텐츠로부터 추출된 것이고, 시맨틱 태그에 포함된 확장 문맥은 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이다.
또한, 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
일 예에 따른 테이블의 구조는 [“단어”, “빈도수”, “단어 위치 구분”, “디지털 콘텐츠의 식별 값”]과 같고, 키워드 역 색인 테이블은 “단어”를 키워드 검색시 키 값으로 사용할 수 있다.
이때, “단어 위치 구분”은 검색단어가 디지털 콘텐츠의 텍스트, 상술한 시맨틱 태그 시스템(120)에서 생성된 시맨틱 태그에 포함된 원시 문맥, 및 시맨틱 태그에 포함된 확장 문맥 중 어디에 포함되는가를 구분하기 위한 정보이다.
참고로, 키워드 역 색인 테이블은 후술할 시맨틱 매치 시스템(140)의 빠른 키워드 매칭 검색을 위하여 사용될 수 있다.
제 3 테이블인 카테고리 역 색인 테이블은, 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 테이블이다.
여기서, 검색단어가 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
일 예에 따른 테이블의 구조는 [“카테고리의 식별 값”, “디지털 콘텐츠의 식별 값”]와 같고, 카테고리 역 색인 테이블은 “카테고리의 식별 값”을 키워드 검색시 키 값으로 사용할 수 있다.
참고로, 카테고리 역 색인 테이블은 후술할 시맨틱 매치 시스템(140)의 빠른 시맨틱 매칭 검색을 위하여 사용될 수 있다.
이와 같이 시맨틱 인덱스(S-Index) 시스템(130)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기에서 수집된 디지털 콘텐츠에 대한 시맨틱 인덱싱 작업을 수행할 수 있다.
한편, 지금까지 설명한 시맨틱 태그 시스템(120) 및 시맨틱 인덱스 시스템(130)과 관련된 데이터/신호의 순서는 도 6에 도시된 일 예처럼 진행될 수 있다. 도 6은 본 발명의 일 실시예에 따른 시맨틱 태그 시스템 및 시맨틱 인덱스 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
스마트 기기의 사용자에 의해 사진을 찍는 이벤트가 발생한 경우(S21), 시맨틱 태그 시스템(120) 내 디지털 콘텐츠 수집기(122)는 디지털 콘텐츠의 기본 정보를 수집한다(S22). 원시 문맥 추출기(124)에서 디지털 콘텐츠로부터 원시 문맥이 추출되고(S23), 확장 문맥 생성기(126)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 확장 문맥을 생성한다(S24).
인덱스 수행을 위한 신호가 전달되면(S25), 시맨틱 인덱스 시스템(130) 내 시맨틱 인덱스 생성기(132)가 동작하고, 생성된 결과물이 시맨틱 인덱스 테이블(134)에 저장된다. 시맨틱 인덱스 생성기(132)는 디지털 콘텐츠의 기본 정보(식별 값, 물리적 위치, 및 텍스트 등)를 디지털 콘텐츠 정보 테이블에 저장하고(S26), 제 1 역 색인 구조를 키워드 역 색인 테이블에 저장하며(S27), 제 2 역 색인 구조를 카테고리 역 색인 테이블에 저장한다(S28).
이와 같은 일련의 과정은 키워드 검색이 이루어지기 전에 완료되는 것이 바람직하나, 학습 데이터 및 주제 분류 트리(110) 내 분류기 등은 키워드 검색이 이루어지는 도중에도 검색의 정확도 향상을 위해 지속적으로 업데이트될 수 있다.
<시맨틱 매치 시스템>
도 7은 도 1에 도시된 시맨틱 매치 시스템을 보다 상세하게 설명하기 위한 도면이다.
스마트 기기 내 시맨틱 매치(S-Match) 시스템(140)은 주제 분류 트리(110) 및 시맨틱 인덱스 테이블(134)과 함께, 사용자가 입력한 검색 키워드와 의미적으로 연관되고 시맨틱 태그가 붙은 디지털 콘텐츠를 검색하는 시스템으로서, 검색 키워드 분석기(142), 시맨틱 랭커(144), 및 검색 결과 생성기(146)를 포함할 수 있다.
검색 키워드 분석기(142)는 입력된 키워드 검색을 분석하고, 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 검색 키워드의 의미를 확장한다.
구체적으로, 검색 키워드 분석기(142)는 상술한 주제 분류 트리(110) 내 복수의 카테고리 중 입력된 키워드가 해당되는 카테고리를 결정할 수 있다. 보다 구체적으로, 입력된 키워드 내 단어는 상기 수학식 1을 통해 단어 벡터로 변환될 수 있고, 수학식 2를 이용한 분류기를 통해 복수의 카테고리 중 변환된 단어 벡터와 가장 연관성이 높은 타겟 카테고리가 결정될 수 있다.
시맨틱 랭커(144)는 시맨틱 인덱스 테이블(134) 내 각각의 디지털 콘텐츠와 검색 키워드 간의 의미적 연관 정도를 산출하여 디지털 콘텐츠의 순위(랭킹)를 결정한다. 이때, 시맨틱 랭커(144)는 시맨틱 인덱스 시스템(130)에 포함된 시맨틱 인덱스 테이블(134)의 제 1 역 색인 구조 및 제 2 역 색인 구조를 활용할 수 있다.
의미적 연관 정도를 산출하는 보다 구체적인 과정과 관련해서는 후술하기로 한다.
검색 결과 생성기(146)는 순위 결과에 따라, 키워드 검색시 입력된 키워드와 매칭되는 디지털 콘텐츠 뿐만 아니라 의미적으로 연관되는 디지털 콘텐츠도 검색 결과로서 제공한다.
이처럼 시맨틱 매치 시스템(140)은 스마트 기기를 이용하여 "롯데월드"를 검색한 사용자에게 "롯데월드"에 대한 디지털 콘텐츠를 검색 결과로서 제공할 수 있을 뿐만 아니라, "롯데월드"와 의미적으로 연관성을 가지면서 해당 스마트 기기 내부에 저장되어 있는 "Disneyland", "Recreation" 혹은 "Theme parks"에 대한 디지털 콘텐츠(예를 들어, "디즈니랜드에서 찍은 사진")도 검색 결과로서 제공할 수 있다.
한편, 상술한 시맨틱 매치 시스템(140)이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법에 대해 도 8을 참고하여 설명하기로 한다. 참고로, 설명의 편의를 위해 도 7에 도시된 각 구성의 식별번호를 인용한다.
도 8은 본 발명의 일 실시예에 따른 키워드 검색에 대한 결과 제공방법의 각 단계를 설명하기 위한 순서도이다.
시맨틱 매치 시스템(140)은 입력된 키워드 내 검색단어와, 스마트 기기에서 수집된 복수의 디지털 콘텐츠 간의 유사도를 각각 계산한다(S310). 여기서, 유사도는, 검색단어가 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 값이다.
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 4를 이용하여 유사도인
Figure PCTKR2014005081-appb-I000010
를 계산할 수 있다.
수학식 4
Figure PCTKR2014005081-appb-M000004
여기서, t는 사용자에 의해 입력된 키워드 q내 검색단어,
Figure PCTKR2014005081-appb-I000011
는 검색단어 t의 키워드 q 내 빈도수,
Figure PCTKR2014005081-appb-I000012
는 검색단어 t의 디지털 콘텐츠의 텍스트 내 빈도수, sw(t, di)는 검색단어 t가 상기 텍스트, 원시 문맥, 및 확장 문맥 중 어느 것에 포함되어 있는가에 따라 달라지는 가중치 값을 나타낸다.
예를 들어, 가중치 값과 관련하여, 검색단어 t가 디지털 콘텐츠 di의 텍스트 내에 포함되는 경우의 sw(t,di) 값은 검색단어 t가 원시 문맥과 확장 문맥 내에 포함되는 경우의 sw(t,di) 값보다 높게 설정될 수 있다.
따라서, 입력된 키워드 q내의 검색단어 t를 많이 포함하는 디지털 콘텐츠 di일수록 유사도의 값이 증가한다. 일반적으로, 스마트 기기에서 발생되는 디지털 콘텐츠의 텍스트는 적은 개수의 단어만을 포함하고, 키워드 검색시 입력된 키워드도 1~2개 정도의 제한적인 검색단어를 포함하므로, 유사도는 0에서 1 사이의 값을 가지게 된다.
참고로, 상술한 바와 같이, 확장 문맥은 시맨틱 태그 시스템(120)에서 생성된 시맨틱 태그에 포함된 것이고, 스마트 기기에서 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이다.
또한, 원시 문맥이 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 주제 분류 트리의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
덧붙여, 시맨틱 매치 시스템(140)은, 시맨틱 매치 시스템(140)과 연결된 시맨틱 인덱스 시스템(130)에 저장된 제 1 역 색인 구조를 이용하여 유사도를 계산할 수 있다. 앞서 설명한 것과 같이, 제 1 역 색인 구조는 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 원시 문맥 중 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 시맨틱 태그에 포함된 확장 문맥 중 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것이다. 따라서, 시맨틱 매치 시스템(140)은 제 1 역 색인 구조에 의해 보다 빠른 검색을 수행할 수 있다.
또한, 시맨틱 매치 시스템(140)은 키워드 검색시 입력된 키워드 내 검색단어가 해당되는 카테고리와, 시맨틱 태그 내 확장 문맥 간의 시맨틱 유사도를 각각 계산한다(S320). 여기서, 시맨틱 유사도는, 검색단어가 해당되는 카테고리가 스마트 기기에서 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 값이다.
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 5를 이용하여 시맨틱 유사도인
Figure PCTKR2014005081-appb-I000013
를 계산할 수 있다.
수학식 5
Figure PCTKR2014005081-appb-M000005
여기서, cq는 복수의 카테고리 중 사용자에 의해 입력된 키워드 q가 해당되는 카테고리를 의미하고, s(di)는 디지털 콘텐츠 di에 대한 시맨틱 태그 내 확장 문맥들의 집합을 의미하며, cs(cq, ck)는 두 카테고리 cq와 ck가 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내에서 얼마나 의미적으로 유사한지를 나타내는 카테고리 유사도를 나타낸다.
이때, 카테고리 유사도는 다양한 방식에 의하여 측정될 수 있다.
일 예로, 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110) 내에서 두 카테고리 간 거리를 기초로 카테고리 유사도를 측정할 수 있다.
즉, 확장 문맥 내에서 키워드 q 내 검색단어가 해당되는 카테고리 cq가 포함되는 위치에 따라 카테고리 유사도를 계산할 수 있다. cq와 ck가 일치하는 경우 1 값을 가지고, 하나의 카테고리가 다른 카테고리의 하위 카테고리에 해당하는 경우 거리 증가로 인해 1보다 낮은 값을 가질 수 있다.
다른 예로, 본 특허의 발명자의 등록특허 제10-1083274호(발명의 명칭: 유사도 그래프를 활용한 문맥 광고 시스템)에 개시된 wPPR 알고리즘을 이용하여 카테고리 유사도를 측정할 수 있다.
참고로, 검색단어가 해당되는 카테고리는 상술한 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것이다. 즉, 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 주제 분류 트리의 데이터 혹은 주제 분류 트리(110)가 이용될 수 있다.
덧붙여, 시맨틱 매치 시스템(140)은, 시맨틱 매치 시스템(140)과 연결된 시맨틱 인덱스 시스템(130)에 저장된 제 2 역 색인 구조를 이용하여 시맨틱 유사도를 계산할 수 있다. 앞서 설명한 것과 같이, 제 2 역 색인 구조는 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것이다. 이를테면, 수학식 5의 cs(cq, ck)를 이용하여 카테고리 cq와 유사도가 높은 n개의 ck를 먼저 선택한 이후에, 선택된 카테고리 ck에 해당되는 확장 문맥을 포함하는 디지털 콘텐츠는 제 2 역 색인 구조에 의해 획득되고, 획득된 디지털 콘텐츠는 시맨틱 유사도의 계산을 위해 사용될 수 있다. 따라서, 시맨틱 매치 시스템(140)은 제 2 역 색인 구조에 의해 보다 빠른 검색을 수행할 수 있다.
나아가, 경우에 따라, 시맨틱 매치 시스템(140)은 검색단어가 해당되는 카테고리를 이용하여 검색단어와 의미적으로 연관성을 가지는 확장된 검색단어를 획득하는 과정을 추가적으로 수행할 수 있다. 이러한 과정은 앞서 설명한 단계 S310 및 단계 S320보다 먼저 수행될 수 있다.
이러한 경우 단계 S310은 검색단어 및 상기 확장된 검색단어에 대한 유사도를 계산할 수 있다. 즉, 단계 S310와 별도로, 상기 확장된 검색단어와 수집된 디지털 콘텐츠 간의 유사도가 각각 추가적으로 계산될 수 있고, 계산 방식은 수학식 4 및 그에 대한 설명과 같이 이루어질 수 있다.
또한, 이러한 경우 단계 S320은 검색단어 및 상기 확장된 검색단어에 대한 시맨틱 유사도를 계산할 수 있다. 즉, 단계 S320과 별도로, 상기 확장된 검색단어가 해당되는 카테고리와 시맨틱 태그 내 확장 문맥 간의 시맨틱 유사도가 각각 추가적으로 계산될 수 있고, 계산 방식은 수학식 5 및 그에 대한 설명과 같이 이루어질 수 있다.
다음으로, 도 8을 다시 참고하면, 시맨틱 매치 시스템(140)은 단계 S310에서 계산된 유사도와 단계 S320에서 계산된 시맨틱 유사도에 기초하여, 키워드 검색시 입력된 키워드에 대한 디지털 콘텐츠의 연관 정도를 각각 산출한다(S330).
구체적으로, 시맨틱 매치 시스템(140)은 아래의 수학식 6을 이용하여, 입력된 키워드와 스마트 기기에서 수집된 디지털 콘텐츠 간의 연관 정도를 산출할 수 있다.
수학식 6
Figure PCTKR2014005081-appb-M000006
여기서, q는 사용자에 의해 입력된 검색 키워드를 의미하고, di는 스마트 기기 내에 수집된 임의의 디지털 콘텐츠를 의미하고, β는 유사도 및 시맨틱 유사도의 선형 조합에 대한 가중치를 나타내며, tw(di)는 디지털 콘텐츠 di의 생성 시간에 대한 가중치를 나타낸다. β와 tw(di)는 0에서 1까지의 값을 나타내는 변수이다.
상술한 유사도인
Figure PCTKR2014005081-appb-I000014
을 통해 검색 키워드 q와 임의의 디지털 콘텐츠 di 간의 일치 정도가 산출되고, 상술한 시맨틱 유사도인
Figure PCTKR2014005081-appb-I000015
를 통해 검색 키워드 q와 디지털 콘텐츠 di의 확장 문맥 간의 일치 정도가 산출될 수 있다.
계속해서, 시맨틱 매치 시스템(140)은 단계 S330에서 산출된 연관 정도에 따라 스마트 기기에서 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 키워드 검색에 대한 결과로서 제공한다(S340).
이때, 순위 결정 및 정렬은 기본적으로 수학식 6의
Figure PCTKR2014005081-appb-I000016
에 따라 이루어지지만, 디지털 콘텐츠의 생성 시간에 따라 이루어질 수도 있다.
이처럼 키워드 검색시 입력된 키워드 내 검색단어가 일치하고 수학식 4의 유사도가 높은 디지털 콘텐츠 뿐만 아니라, 검색단어와 의미적으로 연관성을 가지고 수학식 5의 시맨틱 유사도가 높은 디지털 콘텐츠도 상위 순위에 랭크될 수 있다. 따라서 상술한 수학식 4, 5, 6을 통해, 시맨틱 매치 시스템(140)의 검색 결과에 대한 신뢰도 및 정확도가 향상될 수 있다.
이와 같이 시맨틱 매치(S-Match) 시스템(140)은 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 스마트 기기 내 디지털 콘텐츠에 대한 키워드 검색시 사용자가 입력한 키워드에 대한 정확도 높은 시맨틱 결과를 제공할 수 있다.
한편, 지금까지 설명한 시맨틱 매치 시스템(140)과 관련된 데이터/신호의 순서는 도 9에 도시된 일 예처럼 진행될 수 있다. 도 9는 본 발명의 일 실시예에 따른 시맨틱 매치 시스템의 동작을 보다 상세하게 설명하기 위한 흐름도이다.
스마트 기기의 사용자가 키워드를 입력하여(S31) 키워드 검색을 시도한 경우(S32), 시맨틱 매치 시스템(140) 내 검색 키워드 분석기(142)는 공개 디렉토리 프로젝트 기반의 주제 분류 트리(110)를 이용하여 키워드의 의미를 확장한다(S33). 계산 수행이 시작되면(S34), 시맨틱 랭커(144)는 시맨틱 인덱스 시스템(130) 내 시맨틱 인덱스 테이블(134)을 이용하여 유사도 매칭(S35) 및 시맨틱 유사도 매칭(S36)을 수행하고, 연관 정도에 따라 각각의 디지털 콘텐츠의 순위를 결정한다.
순위에 따라 검색 결과가 생성되면(S37), 시맨틱 매치 시스템(140) 내 검색 결과 생성기(146)는 시맨틱 인덱스 테이블(134)로부터 디지털 콘텐츠 정보를 수신하고(S38), 최종 검색 결과를 사용자에게 제공한다(S39).
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (11)

  1. 스마트 기기 내 시맨틱(Semantic) 태그 시스템이 시맨틱 태그를 생성하는 방법에 있어서,
    상기 스마트 기기에서 수집된 디지털 콘텐츠에 대한 원시 문맥을 추출하는 단계;
    주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로, 상기 추출된 원시 문맥이 해당되는 타겟 카테고리를 결정하는 단계;
    상기 결정된 타겟 카테고리를 이용하여 상기 추출된 원시 문맥과 의미적으로 연관성을 가지는 확장 문맥을 획득하는 단계; 및
    상기 획득된 확장 문맥 및 상기 추출된 원시 문맥을 포함하는 상기 디지털 콘텐츠에 대한 시맨틱 태그를 생성하는 단계를 포함하는 시맨틱 태그 생성방법.
  2. 제 1 항에 있어서,
    상기 추출하는 단계는 상기 스마트 기기의 적어도 하나 이상의 센서로부터 센싱된 센싱 정보 중 상기 수집된 디지털 콘텐츠와 관련된 타겟 센싱 정보를 기초로 상기 원시 문맥을 추출하는 시맨틱 태그 생성방법.
  3. 제 1 항에 있어서,
    상기 추출하는 단계는
    상기 수집된 디지털 콘텐츠의 종류를 식별하는 단계;
    벡터 스페이스 모델을 이용하여 상기 추출된 원시 문맥의 텍스트를 단어 벡터로 변환하는 단계; 및
    단어빈도수-역문서빈도수(TF- IDF) 방식을 통해 상기 변환된 단어 벡터의 각 단어에 대한 가중치를 부여하는 단계를 포함하는 시맨틱 태그 생성방법.
  4. 제 3 항에 있어서,
    상기 결정하는 단계는
    상기 공개 디렉토리 프로젝트의 데이터를 기초로 학습된 분류기가 상기 식별된 디지털 콘텐츠의 종류, 및 상기 변환된 단어 벡터와 카테고리 간 연관 정도를 계산한 결과를 기초로 상기 타겟 카테고리를 결정하는 시맨틱 태그 생성방법.
  5. 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색을 지원하는 스마트 기기 내 시맨틱(Semantic) 인덱스 시스템에 있어서,
    상기 스마트 기기에서 수집된 디지털 콘텐츠의 식별 값, 물리적 위치, 및 텍스트를 상기 수집된 디지털 콘텐츠마다 저장하는 제 1 테이블;
    상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 1 역 색인(Inverted Index) 구조를 저장하는 제 2 테이블; 및
    상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠를 검색 가능한 제 2 역 색인(Inverted Index) 구조를 저장하는 제 3 테이블을 포함하고,
    상기 시맨틱 태그에 포함된 원시 문맥은 상기 수집된 디지털 콘텐츠로부터 추출된 것이고, 상기 시맨틱 태그에 포함된 확장 문맥은 상기 시맨틱 태그에 포함된 원시 문맥과 의미적으로 연관성을 가지면서 상기 시맨틱 태그에 포함된 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이며,
    상기 시맨틱 태그에 포함된 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것인, 시맨틱 인덱스 시스템.
  6. 스마트 기기 내 시맨틱(Semantic) 매치 시스템이 적어도 하나 이상의 검색단어를 포함하는 키워드에 의한 키워드 검색에 대한 결과를 제공하는 방법에 있어서,
    상기 검색단어가 상기 스마트 기기에서 수집된 디지털 콘텐츠의 텍스트와 일치하는 정도를 나타내는 유사도를 계산하는 단계;
    상기 검색단어가 해당되는 카테고리가 상기 수집된 디지털 콘텐츠마다 미리 생성된 시맨틱 태그에 포함된 확장 문맥과 일치하는 정도를 나타내는 시맨틱 유사도를 계산하는 단계;
    상기 유사도 및 시맨틱 유사도에 기초하여 상기 키워드에 대한 상기 수집된 디지털 콘텐츠의 연관 정도를 산출하는 단계; 및
    상기 산출된 연관 정도에 따라 상기 수집된 디지털 콘텐츠의 순위를 결정하고, 최고 순위에 해당되는 디지털 콘텐츠부터 소정의 순위에 해당되는 디지털 콘텐츠까지 상기 키워드 검색에 대한 결과로서 제공하는 단계를 포함하고,
    상기 확장 문맥은 상기 시맨틱 태그에 포함되고 상기 수집된 디지털 콘텐츠로부터 추출된 원시 문맥과 의미적으로 연관성을 가지면서 상기 원시 문맥이 해당되는 카테고리를 이용하여 획득된 것이고,
    상기 원시 문맥 및 상기 검색단어가 각각 해당되는 카테고리는 주제 별로 분류된 상위 카테고리가 하위 카테고리를 트리 구조로 포함하고 있는 공개 디렉토리 프로젝트(ODP)의 데이터를 기초로 결정되는 것인, 키워드 검색에 대한 결과 제공방법.
  7. 제 6 항에 있어서,
    상기 검색단어가 해당되는 카테고리를 이용하여 상기 검색단어와 의미적으로 연관성을 가지는 확장된 검색단어를 획득하는 단계를 더 포함하고,
    상기 유사도를 계산하는 단계는 상기 검색단어 및 상기 확장된 검색단어에 대한 유사도를 계산하고,
    상기 시맨틱 유사도를 계산하는 단계는 상기 검색단어 및 상기 확장된 검색단어에 대한 시맨틱 유사도를 계산하는 키워드 검색에 대한 결과 제공방법.
  8. 제 6 항에 있어서,
    상기 유사도를 계산하는 단계는 상기 검색단어가 상기 텍스트, 상기 원시 문맥, 및 상기 확장 문맥 중 어느 것에 포함되어 있는가에 따라 달라지는 가중치 값, 상기 검색단어의 상기 키워드 내 빈도수, 및 상기 검색단어의 상기 텍스트 내 빈도수를 기초로 계산하는 키워드 검색에 대한 결과 제공방법.
  9. 제 6 항에 있어서,
    상기 유사도를 계산하는 단계는 상기 시맨틱 매치 시스템과 연결된 시맨틱 인덱스 시스템에 저장된 제 1 역 색인(Inverted Index) 구조를 이용하여 계산하고,
    상기 제 1 역 색인 구조는 상기 검색단어가 포함된 텍스트를 가지는 디지털 콘텐츠, 상기 원시 문맥 중 상기 검색단어가 포함된 원시 문맥을 가지는 디지털 콘텐츠, 및 상기 시맨틱 태그에 포함된 확장 문맥 중 상기 검색단어가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 것인, 키워드 검색에 대한 결과 제공방법.
  10. 제 6 항에 있어서,
    상기 시맨틱 유사도를 계산하는 단계는 상기 확장 문맥 내에 상기 검색단어가 해당되는 카테고리가 포함되는 위치에 따라 계산하는 키워드 검색에 대한 결과 제공방법.
  11. 제 6 항에 있어서,
    상기 시맨택 유사도를 계산하는 단계는 상기 시맨틱 매치 시스템과 연결된 시맨틱 인덱스 시스템에 저장된 제 2 역 색인(Inverted Index) 구조를 이용하여 계산하고,
    상기 제 2 역 색인 구조는 상기 검색단어가 해당되는 카테고리가 포함된 확장 문맥을 가지는 디지털 콘텐츠에 대한 검색이 가능한 키워드 검색에 대한 결과 제공방법.
PCT/KR2014/005081 2013-09-16 2014-06-10 스마트 기기 내 시맨틱 검색 시스템 및 검색방법 WO2015037815A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR20130111351 2013-09-16
KR10-2013-0111351 2013-09-16
KR10-2013-0157368 2013-12-17
KR20130157368A KR101508583B1 (ko) 2013-09-16 2013-12-17 스마트 기기 내 시맨틱 검색 시스템 및 검색방법

Publications (1)

Publication Number Publication Date
WO2015037815A1 true WO2015037815A1 (ko) 2015-03-19

Family

ID=52665886

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/005081 WO2015037815A1 (ko) 2013-09-16 2014-06-10 스마트 기기 내 시맨틱 검색 시스템 및 검색방법

Country Status (1)

Country Link
WO (1) WO2015037815A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN109740162A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 文本表示方法、装置及介质
CN109739998A (zh) * 2018-12-19 2019-05-10 维沃移动通信有限公司 一种信息分类方法及装置
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
US11941367B2 (en) 2021-05-29 2024-03-26 International Business Machines Corporation Question generation by intent prediction

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090062548A (ko) * 2007-12-13 2009-06-17 삼성전자주식회사 콘텐츠 검색 방법 및 이를 이용하는 이동통신 단말기
KR20110052821A (ko) * 2009-11-13 2011-05-19 고려대학교 산학협력단 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
KR20120054986A (ko) * 2010-11-22 2012-05-31 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
KR20130084923A (ko) * 2012-01-18 2013-07-26 고려대학교 산학협력단 지식 베이스 확장 장치 및 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20090062548A (ko) * 2007-12-13 2009-06-17 삼성전자주식회사 콘텐츠 검색 방법 및 이를 이용하는 이동통신 단말기
KR20110052821A (ko) * 2009-11-13 2011-05-19 고려대학교 산학협력단 주제 분류 모듈 및 그를 이용한 문맥 광고 시스템
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
KR20120054986A (ko) * 2010-11-22 2012-05-31 고려대학교 산학협력단 디지털 콘텐츠 검색 장치 및 방법
KR20130084923A (ko) * 2012-01-18 2013-07-26 고려대학교 산학협력단 지식 베이스 확장 장치 및 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377203A (zh) * 2018-09-13 2019-02-22 平安医疗健康管理股份有限公司 医疗结算数据处理方法、装置、计算机设备和存储介质
CN109739998A (zh) * 2018-12-19 2019-05-10 维沃移动通信有限公司 一种信息分类方法及装置
CN109740162A (zh) * 2019-01-09 2019-05-10 安徽省泰岳祥升软件有限公司 文本表示方法、装置及介质
CN109740162B (zh) * 2019-01-09 2023-07-11 安徽省泰岳祥升软件有限公司 文本表示方法、装置及介质
CN111695358A (zh) * 2020-06-12 2020-09-22 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
CN111695358B (zh) * 2020-06-12 2023-08-08 腾讯科技(深圳)有限公司 生成词向量的方法、装置、计算机存储介质和电子设备
US11941367B2 (en) 2021-05-29 2024-03-26 International Business Machines Corporation Question generation by intent prediction

Similar Documents

Publication Publication Date Title
US11100175B2 (en) Method of and system for conducting personalized federated search and presentation of results therefrom
WO2015037815A1 (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
WO2011096690A2 (ko) 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
WO2012091360A2 (ko) 유저 맞춤형 컨텐츠 제공 방법 및 시스템
WO2015066995A1 (zh) 一种智能收藏与分享的方法及移动终端
WO2013100480A1 (ko) 스마트 기기에서의 메뉴 구성 방법 및 시스템
WO2015020354A1 (en) Apparatus, server, and method for providing conversation topic
CN107784059A (zh) 用于搜索和选择图像的方法和系统以及机器可读媒体
KR101508583B1 (ko) 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
WO2016093630A1 (en) Semantic enrichment of trajectory data
WO2014119938A1 (en) Server for offering service targeting user and service offering method thereof
WO2013012159A1 (ko) 지능형 정보 제공 시스템 및 방법
CN111708943B (zh) 一种搜索结果展示方法、装置和用于搜索结果展示的装置
WO2017115994A1 (ko) 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
WO2015133856A1 (ko) 정답 키워드 제공 방법 및 장치
CN105159976A (zh) 图像文件的处理方法和系统
WO2019146951A1 (en) Electronic apparatus and control method thereof
CN109521888A (zh) 一种输入方法、装置和介质
Monaghan et al. Automating photo annotation using services and ontologies
WO2020149655A1 (ko) 장치 속성에 기반한 공유 데이터의 제공 방법 및 그 전자 장치
Monaghan et al. Leveraging ontologies, context and social networks to automate photo annotation
Yeh et al. IDeixis: image-based Deixis for finding location-based information
WO2011025162A2 (ko) 특정 클래스에 속하는 엔터티의 리스트 검색 방법
KR101734533B1 (ko) 다국가 뉴스 서비스 제공 방법
JP2010176387A (ja) 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14844449

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14844449

Country of ref document: EP

Kind code of ref document: A1