WO2015037814A1 - 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법 - Google Patents

사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법 Download PDF

Info

Publication number
WO2015037814A1
WO2015037814A1 PCT/KR2014/005077 KR2014005077W WO2015037814A1 WO 2015037814 A1 WO2015037814 A1 WO 2015037814A1 KR 2014005077 W KR2014005077 W KR 2014005077W WO 2015037814 A1 WO2015037814 A1 WO 2015037814A1
Authority
WO
WIPO (PCT)
Prior art keywords
content
similarity
word
verb
user
Prior art date
Application number
PCT/KR2014/005077
Other languages
English (en)
French (fr)
Inventor
이상근
이정현
장원준
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Priority claimed from KR1020140008526A external-priority patent/KR101562279B1/ko
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Publication of WO2015037814A1 publication Critical patent/WO2015037814A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0255Targeted advertisements based on user history
    • G06Q30/0256User search

Definitions

  • the present invention relates to a portable terminal and a method for inferring user intention in the form of nouns and verbs, and more particularly, to analyze the data collected from the portable terminal or the Internet in the form of nouns and verbs to meet the user's intention.
  • the present invention relates to a portable terminal and a method for ranking and recommending digital content.
  • Korean Patent Publication No. 10-1095069 name of the invention: a portable communication terminal and a method of extracting a subject of interest to a user
  • a technique for automatically grasping is disclosed. More specifically, by extracting the user's data (SMS, Web Usage, etc.) in the terminal, and automatically classifies the user's data using a pre-learned classifier in the subject classification tree generated by processing the open directory data, It describes a technique of inferring a user's interest as a category name in the form of a noun in the subject classification tree.
  • the topic classification tree is composed of the topics of all web pages in the form of a tree. Each topic is connected in an "is-a" relationship. In order to define all the topics and connect their relationships, a number of experts in each field Their long-term efforts are needed. Therefore, in order to automatically determine the most suitable topics for the content of web pages and advertisements among the generated topics of the classification tree, a large amount of learning data customized by humans is required.
  • Korean Patent Publication No. 10-2012-0026682 name of the invention: a method and apparatus for providing Internet service in a user terminal
  • a technique for automatically recommending content associated with a user's intention is given when a user's intention inferred as a category name in the form of a noun is given. More specifically, the candidate content is collected from the web, and the subject classification tree generated by processing the published directory data is automatically classified using the pre-learned classifier to express the meaning of the content in the noun in the subject classification tree. After identifying the category name in the form, the semantic similarity between the intention of the user and the meaning of the content is calculated, and the technology for ranking the content according to the degree to which the intention and the meaning of the user is similar is described.
  • nouns in the subject classification tree generated by processing the open directory data are used. For example, if the user's intention is inferred by the category "Vehicle” in the subject classification tree, the content inferred by the same category is recommended to the user.
  • users who are interested in "Vehicle” can perform different actions as a user who wants to "Rent” "Vehicle” and a user who wants to "Buy”.
  • the user's intention is more accurate to infer in terms of (nouns, verbs) (Vehicle, Rent) and (Vehicle, Buy) than to infer only in noun form of Vehicle.
  • Korean Laid-Open Patent Publication No. 10-2013-0084923 (Invention: Knowledge Base Expansion Apparatus and Method) includes data associated with each category of a subject classification tree generated by processing published directory data. To generate related documents by extracting from several knowledge bases, extract candidate verbs that express behaviors from related documents, and then expand the subject classification tree by selecting verbs that represent behaviors that are highly related to each category among candidate verbs. Is disclosed.
  • the portable terminal uses the subject classification tree to the user's intention to categories and actions, that is, nouns and verbs (for example, Inferred in the form of nouns and verb pairs).
  • the recommendation method calculates the semantic similarity between the intention of the user inferred in the form of nouns and verbs and the meaning of the content, thereby calculating the content.
  • Ranking and recommendation calculates the semantic similarity between the intention of the user inferred in the form of nouns and verbs and the meaning of the content, thereby calculating the content.
  • the portable terminal As a technical means for achieving the above-described technical problem, the portable terminal according to the first aspect of the present invention, a storage unit storing a subject classification tree including a noun representing a specific category and a verb associated with the noun; A user intention reasoning unit for analyzing text data stored in the portable terminal and inferring the user's intention in the form of nouns and verbs using the subject classification tree; A content semantic analysis unit which analyzes the content collected from the Internet and deduces the meaning of the content in the form of nouns and verbs using the subject classification tree; And a content ranking unit for ranking and recommending content having the highest similarity by calculating similarity between user intention and content meaning.
  • the method for recommending content through the portable terminal by analyzing the text data stored in the portable terminal and infer the user's intention in the form of nouns and verbs Doing; Analyzing the content collected from the Internet and inferring the meaning of the content in the form of nouns and verbs; And ranking and recommending content by calculating a similarity between the intention of the user and the meaning of the content.
  • the portable terminal infers the user's intention in the form of nouns and verbs from the user data, unlike the prior art that infers the user's intention only in the form of nouns Even the desired behavior can be grasped to provide more accurate content according to the user's intention.
  • the content recommendation method collects content from the Internet to grasp the meaning of the content in the form of nouns and verbs, and then calculates the intention and semantic similarity of the user inferred in the form of nouns and verbs.
  • the user's intention and content can be more accurately associated by recommending.
  • FIG. 1 is a block diagram of a portable terminal according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a subject classification tree of nouns and verbs stored in a storage unit.
  • FIG. 3 is a block diagram of a user intention reasoning unit according to an exemplary embodiment of the present invention.
  • FIG. 4 is a block diagram of a content semantic analyzer according to an exemplary embodiment of the present invention.
  • FIG. 5 is a block diagram of a content ranking unit according to an embodiment of the present invention.
  • FIG. 6 is a flowchart illustrating a content recommendation method according to an embodiment of the present invention.
  • FIG. 7 is a diagram illustrating a step of selecting a noun and a verb representing a category highly related to a word vector based on a stored topic classification tree in the form of a noun and a verb.
  • FIG 8 shows an execution screen of the EPE Demo which is a prototype application of a portable terminal according to an embodiment of the present invention.
  • noun and verb includes both a noun representing a category of a subject classification tree to be described later and a verb representing an action associated with a category.
  • a noun and a verb pair ie, It can take the form of (nouns, verbs).
  • FIG. 1 is a block diagram of a portable terminal according to an embodiment of the present invention.
  • the portable terminal 10 is a terminal that ranks and recommends content suitable for a user's intention.
  • the portable terminal 10 is a wireless communication device that guarantees portability and mobility for accessing an open directory and the Internet through a network, and includes a communication module, a processor, and a display. Basically, it includes Personal Communication System (PCS), Global System for Mobile communications (GSM), Personal Digital Cellular (PDC), Personal Handyphone System (PHS), Personal Digital Assistant (PDA), International Mobile Telecommunication (IMT) -2000, CDMA (Code Division Multiple Access) -2000, W-CDMA (W-Code Division Multiple Access), WiBro (Wireless Broadband Internet) terminal, Smart Phone, Tablet PC, Slate PC etc. It may include a handheld based wireless communication device.
  • PCS Personal Communication System
  • GSM Global System for Mobile communications
  • PDC Personal Digital Cellular
  • PHS Personal Handyphone System
  • PDA Personal Digital Assistant
  • IMT International Mobile Telecommunication
  • CDMA Code Division Multiple Access
  • W-CDMA Wide-Code Division Multiple Access
  • the portable terminal 10 In order to analyze the text data stored in the portable terminal 10 and the content collected from the Internet to rank and recommend contents related to the user's intention, the portable terminal 10 according to an embodiment of the present invention is collected from a published directory.
  • Storage unit 50 stores a subject classification tree in which one or more central vectors processed are stored in a tree form, and a user intention inference unit 100 that infers user intentions in the form of nouns and verbs by analyzing text data stored in a portable terminal.
  • a content meaning analysis unit 200 for inferring the meaning of the content in the form of nouns and verbs by analyzing the contents collected from the Internet, and a content ranking unit for ranking and recommending content by calculating similarity between the user intention and the meaning of the content ( 300).
  • the "noun and verb" form may have a (noun, verb) form, that is, a noun and a verb pair form, wherein the verb represents an action that the user intends to perform with respect to the noun, and the noun is a verb and a meaning.
  • the nouns of the noun and the verb pair serve as the object of the verb.
  • the portable terminal infers a user's intention and recommends digital content by using a subject classification tree including a noun representing a specific category and a verb representing an action associated with the noun.
  • one or more center vectors are categorized and stored in the storage unit 50. That is, the storage unit 50 stores a subject classification tree in the form of nouns and verbs.
  • FIG. 2 is a diagram illustrating a subject classification tree of nouns and verbs according to the present invention.
  • the subject classification tree in the form of nouns and verbs includes a category of noun forms processed from the Open Directory Project and one or more verbs associated with each category.
  • One or more verbs associated with each category are generated by extracting from multiple knowledge bases.
  • the subject classification tree in the form of nouns and verbs may be pre-stored in the form of a file system or a database (for example, SQLite) in the smart terminal sdcard.
  • Nouns can also be collected from, for example, Open Directory Project (ODP) sites ( www.dmoz.com ), and verbs can be used by Microsoft's search engine click log data, ODP category and website data, Wikipedia, and search. May be collected from external knowledge bases, such as engine search results pages.
  • ODP Open Directory Project
  • the storage unit 50 may include a nonvolatile memory device such as a cache, a read only memory (ROM), a programmable ROM (PROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), and a flash memory.
  • a nonvolatile memory device such as a cache, a read only memory (ROM), a programmable ROM (PROM), an erasable programmable ROM (EPROM), an electrically erasable programmable ROM (EEPROM), and a flash memory.
  • the present invention may be implemented as at least one of a volatile memory device such as a random access memory (RAM), or a storage medium such as a hard disk drive (HDD) or a CD-ROM.
  • RAM random access memory
  • HDD hard disk drive
  • CD-ROM compact disc-read only memory
  • FIG. 2 is a diagram illustrating an example of a subject classification tree.
  • a noun representing a category has a hierarchical structure, and associated verbs exist in each category.
  • there are three associated verbs in the category “Top> Shopping> Vehicle”, “Buy”, “Rent”, and "Drive”.
  • the user intention inference unit 100 and the content meaning analysis unit 200 to be described later may infer the user intention and the meaning of the content using the data stored in the storage unit 50.
  • a method of inferring user intention and content meaning will be described later with reference to FIGS. 3 to 5.
  • FIG. 3 is a block diagram of a user intention reasoning unit according to an exemplary embodiment of the present invention.
  • the user intention reasoning unit 100 is a component that analyzes the text data stored in the portable terminal using the subject classification tree and infers the user intention in the form of nouns and verbs, and extracts the text data from the data stored in the portable terminal.
  • the extractor 110, the user data analyzer 120 that generates a word vector by dividing the extracted text data into words, and a user data classifier that selects a category and a verb of a subject classification tree highly related to the generated word vector. 130 may be included.
  • each component is demonstrated.
  • the user data extractor 110 extracts text data of user data inside a portable terminal such as a text message, a web record, a schedule, and the like.
  • the user data analyzer 120 analyzes the extracted text data to generate a word vector based on a vector space model.
  • the user data analyzer 120 divides the extracted text data into individual words and generates a word vector by calculating a weight value of each word based on the frequency of occurrence of each word, that is, the frequency of each word included in the text data. do.
  • the user data analyzer 120 generates the word vector by dividing the extracted text data into individual words and calculating a weight value of each word.
  • the weight value for each word of the word vector may be calculated using Equation 1 below.
  • t is a word
  • Wt is a weight value of the word t
  • tf t is the frequency of the word t included in the extracted text data
  • N is the total number of documents used when the user data classifier 130 is learned
  • dft is The frequency of the document in which the word t occurs among the entire documents used when the user data classification unit 130 is learned.
  • the training data includes a title, description, and page body of pages (sites) classified for each category in the public directory.
  • the user data classifier 130 uses the word vector generated from the extracted user data and the center vector generated from the learning data of the subject classification tree composed of the nouns and the verbs to express the intention of the user. Categories are categorized into categories and one action associated with a category, that is, categories and behavior types.
  • the user data classifier 130 calculates the similarity between the center vector in the category of the subject taxonomy tree formed of nouns and verbs and the word vector generated by the user data analyzer 120, and has the highest similarity. First select the category (noun) with. Thereafter, one of the verbs associated with the selected category is selected to represent the behavior most relevant to the word vector.
  • the similarity between the word vector and the center vector may be calculated using Equation 2
  • the association with the word vector among the verbs associated with the category may be calculated using Equation 3 or Equation 4.
  • cos (u, c) is a word vector ( ) And the center vector of the category ( ) Similarity, Is a word vector generated by the user data analysis unit 120, Is a central vector consisting of data in the category of the subject taxonomy tree in the form of nouns and verbs (for example, the title, description, and page body of the web page), and V is the training data in the subject taxonomy tree in the form of nouns and verbs.
  • Make up word set ui words vector Is the weighted value of the i-th word, ci is the center vector ( The weight value of the i-th word included by).
  • r (u, v) is a word vector
  • u v is the word vector Is the weighted value of the verb v
  • cv is the center vector of the verb v and the category in the subject classification tree Similarity of is computed when constructing a subject classification tree in the form of nouns and verbs.
  • r (u, v) is a word vector
  • the word vector of the training data when extracted as a verb associated with, cos ( , ) Is a word vector ( )
  • the word vector of the training data ( ) Is the similarity between.
  • the portable terminal 10 includes a content semantic analyzer 200 that infers content meanings in the form of nouns and verbs by analyzing content collected from the Internet.
  • FIG. 4 is a block diagram of a content semantic analyzer according to an exemplary embodiment of the present invention.
  • the content semantic analysis unit 200 is a component that analyzes the content collected from the Internet and infers the meaning of the content in the form of nouns and verbs using a subject classification tree.
  • the content collecting unit which collects the content from the Internet and extracts the text data.
  • the content analysis unit 220 for generating a word vector by dividing the extracted text data into words, and using a topic classification tree in the form of nouns and verbs, and classifying a topic highly related to the word vector generated in the content collection unit.
  • a content classifier 230 for selecting a noun and a verb representing a category of the tree.
  • the content collector 210 collects content such as news and app information from the Internet, and extracts text data.
  • the content analyzer 220 divides the text data extracted from the content collector 210 into words to generate a word vector. That is, like the above-described user data analysis unit, the extracted text data is divided into words, and a word vector is generated by calculating a weight value of each word based on the frequency of each word included in the text data.
  • the weight value of the word may be calculated using Equation 1 like the user data analysis unit, and the description of Equation 1 will be omitted below.
  • Equation 1 like the user data analysis unit, and the description of Equation 1 will be omitted below.
  • tf t is the frequency of the word t included in the text data extracted from the content
  • N is the total number of documents used when the content classifier 230 is learned
  • df t is the content class 230 when the content classifier 230 is learned.
  • the content classifying unit 230 uses the word vector generated from the extracted content data and the center vector generated from the learning data of the subject classification tree composed of nouns and verbs, and the meaning of the content is classified into categories of the subject classification tree.
  • the similarity between the vectors is calculated to first select the category with the central vector with the highest similarity. Then, one of the verbs having the highest association with the word vector is selected among the verbs associated with the selected category.
  • Equation 2 the similarity between the center vector and the word vector may be calculated using Equation 2
  • Equation 3 the association with the word vector among the verbs associated with the category may be calculated using Equation 4 or Equation 4.
  • Description of Equations 2, 3, and 4 will be omitted below. only, Denotes a word vector generated by the content analyzer 220.
  • the portable terminal may include a content ranking unit 300.
  • the content ranking unit 300 ranks the contents by calculating a similarity between the user intention and the meaning of the contents. And make recommendations.
  • FIG. 5 is a block diagram of a content ranking unit according to an embodiment of the present invention.
  • the content ranking unit 300 calculates an association between the intention of the user inferred in the form of nouns and verbs and the meaning of the content identified in the nouns and verbs form, and recommends the most relevant content to the user. do.
  • the content means digital information provided through a wired or wireless communication network such as news or application information provided from the Internet, or such contents, and has the same idiomatic meaning.
  • the content ranking unit 300 In order to play such a role, the content ranking unit 300 according to an embodiment of the present invention, the noun similarity calculation unit 310 for calculating the similarity between the nouns of the user intention and the meaning of the content, the similarity between the verbs of the user intention and the meaning of the content Verb similarity calculation unit 320 for calculating a and a content recommendation unit 330 for ranking and recommending the content by summing the similarity between nouns and similarity between verbs.
  • the noun similarity calculator 310 calculates a similarity between the noun selected as representing the user's intention and the noun selected as indicating the content meaning.
  • the noun similarity calculator may use the similarity calculator 232 described in Korean Patent Publication No. 10-1083274 (name of the invention: a contextual advertisement system using a similarity graph).
  • the noun similarity calculation unit is calculated using learning data allocated to each category of the classification tree. Based on the training data of each category according to the vector space model, a center vector representing each category is generated, a cosine similarity of each center vector is calculated, and used as the similarity between the categories. In this case, the cosine similarity may be calculated based on Equation 5.
  • the verb similarity calculator 320 calculates the similarity between the verb selected by the user intention reasoning unit and the verb selected by the content semantic analyzer. According to an embodiment of the present invention, the verb similarity calculator 320 may calculate the similarity between verbs as shown in Equation 6 below.
  • c u is a noun representing a category of the subject classification tree selected from the user intention inference unit
  • c s is a noun representing a category of the subject classification tree selected from the content semantic analysis unit
  • v u represents an action selected from the user intention inference unit.
  • Verb, and v s is a verb representing the action selected from the content semantic analysis unit
  • ActionScore (v u , v s ) is the similarity between the final verb (v u , v s ), score (v u , v s ) is pre-calculated The similarity between verbs (v u, v s ).
  • score (v u , v s ) is, for example, 1) a method of calculating similarity using learning data used when each verb is extracted from several knowledge bases, and 2) between words provided by WordNet and ConceptNet. It can be calculated using the similarity.
  • the content recommendation unit 330 ranks and recommends content by summing similarity between nouns calculated by the noun similarity calculating unit 310 and similarity between verbs calculated by the verb similarity calculating unit 320.
  • the similarity between nouns and the similarity between verbs may be added as shown in Equation 7 below.
  • NVScore (u, s) is the similarity of the sum of user intentions and content meanings
  • GraphScore (c u , c s ) is a noun (c u ) representing a category of the subject classification tree selected from the user intention inference unit and content semantic analysis Similarity between nouns (c s ) representing categories of the subject classification tree selected from the unit
  • ActionScore (v u , v s ) indicates verbs (v u ) representing the actions selected from user inference inference and actions selected from the content semantic analysis unit. Similarity between verbs (v s ), ⁇ denotes a weight value for a linear combination of similarity between nouns and similarity between verbs.
  • each component illustrated in FIGS. 1 to 5 may be configured as a kind of 'module'.
  • the 'module' refers to a hardware component such as software or a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC), and the module plays a role.
  • modules are not meant to be limited to software or hardware.
  • the module may be configured to be in an addressable storage medium and may be configured to execute one or more processors.
  • the functionality provided by the components and modules may be combined into a smaller number of components and modules or further separated into additional components and modules.
  • FIG. 6 is a flowchart illustrating a content recommendation method according to an embodiment of the present invention.
  • the portable terminal stores at least one central vector processed with the published directory data in the form of a subject classification tree. That is, the subject classification tree in the form of nouns and verbs is stored in advance. A detailed description of the subject classification tree in the form of nouns and verbs will be omitted below with reference to FIG. 2.
  • the portable terminal analyzes the text data stored in the portable terminal using the subject classification tree and infers the user's intention in the form of nouns and verbs (eg, nouns and verb pairs, or (nouns, verbs)) (S1100). ). More specifically, the text data is extracted from the data stored in the portable terminal, the extracted text data is divided into words, a word vector is generated, and the subject classification tree in the form of nouns and verbs is used to generate a category highly related to the word vector.
  • the verb represents an action having a meaning associated with a noun representing a category, and as an example, the noun may be an object of the verb.
  • nouns and verbs may have a noun and verb pair form as an example.
  • FIG. 7 is a diagram illustrating a step of selecting a noun and a verb representing a category highly related to a word vector based on a stored topic classification tree in the form of a noun and a verb.
  • a category highly related to the word vector is selected. According to FIG. 7, a noun representing a category having the highest similarity between the word vectors u is selected.
  • the verb that is most relevant to the word vector is selected from one or more verbs associated with the selected category.
  • a verb (Rent) having the most correlation with the verb of the word vector u is selected from one or more verbs (Buy, Rent, Drive) included in the selected category.
  • step S1100 of inferring a detailed user intention is omitted as described above with reference to FIG. 3.
  • the portable terminal analyzes the contents collected from the Internet using the subject classification tree and infers the meaning of the contents in the form of nouns and verbs (S1200). More specifically, the portable terminal collects content from the Internet, extracts text data, generates the word vector by dividing the extracted text data into words, and associates the word vector with a topic classification tree in the form of stored nouns and verbs. Choose nouns representing this high category and verbs representing behavior. Detailed description of this step will be omitted as described above with reference to FIG.
  • the portable terminal ranks and recommends content by calculating similarity between the user intention and the meaning of the content (S1300). More specifically, the portable terminal calculates similarity between nouns of user intent and content meaning, calculates similarity between verbs of user intent and content meaning, ranks and recommends content by summing similarity between nouns and similarity between verbs. . Detailed description of this step will be omitted as described above with reference to FIG.
  • an embodiment of the present invention may also be implemented in the form of a recording medium including instructions executable by a computer, such as a program module executed by the computer.
  • Computer readable media can be any available media that can be accessed by a computer and includes both volatile and nonvolatile media, removable and non-removable media.
  • Computer readable media may include both computer storage media and communication media.
  • Computer storage media includes both volatile and nonvolatile, removable and non-removable media implemented in any method or technology for storage of information such as computer readable instructions, data structures, program modules or other data.
  • Communication media typically includes computer readable instructions, data structures, program modules, or other data in a modulated data signal such as a carrier wave, or other transmission mechanism, and includes any information delivery media.
  • the above-described content recommendation method can be embodied as a code that can be read by a computer or a portable terminal in a recording medium that can be read by a computer or a portable terminal.
  • Recordable media that can be read by a computer or a portable terminal includes all kinds of recording media storing data that can be decrypted by a computer or a portable terminal system.
  • ROM read only memory
  • RAM random access memory
  • magnetic tape magnetic tape
  • magnetic disk magnetic disk
  • flash memory an optical data storage device, and the like.
  • the recording medium readable by a computer or a portable terminal may be distributed to a computer or portable terminal system connected through a communication network, and may be stored and executed as code readable in a distributed manner.
  • FIG 8 shows an execution screen of the EPE Demo which is a prototype application of a portable terminal according to an embodiment of the present invention.
  • the EPE Demo application was developed in the Windows 8 phone environment.
  • the portable terminal and the method according to an embodiment of the present invention collect content from the Internet, grasp the meaning of the content in the form of nouns and verbs, and then calculate the intention and semantic similarity of the user inferred in the form of nouns and verbs.
  • ranking and recommending unlike the prior art of ranking and recommending content by calculating semantic similarity using only a noun form, it is possible to recommend content that is semantically related to a desired behavior.

Landscapes

  • Business, Economics & Management (AREA)
  • Engineering & Computer Science (AREA)
  • Accounting & Taxation (AREA)
  • Development Economics (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Economics (AREA)
  • Marketing (AREA)
  • Physics & Mathematics (AREA)
  • General Business, Economics & Management (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

휴대용 단말은, 특정 카테고리를 나타내는 명사 및 명사와 연관된 동사를 포함하는 주제 분류 트리가 저장되고, 주제 분류 트리를 이용하여, 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자 의도를 명사 및 동사 형태로 추론하며, 주제 분류 트리를 이용하여, 인터넷에서 수집한 컨텐츠를 분석하고 컨텐츠 의미를 명사 및 동사 형태로 추론하고, 사용자 의도 및 컨텐츠 의미 사이의 유사도를 계산하여 가장 유사도가 높은 컨텐츠를 랭킹하고 추천한다.

Description

사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
본 발명은 명사 및 동사형태로 사용자 의도를 추론하여 컨텐츠를 추천하는 휴대용 단말 및 방법에 관한 것으로서, 보다 상세하게는 휴대용 단말 또는 인터넷으로부터 수집한 데이터를 명사 및 동사 형태로 분석하여 사용자의 의도에 부합하는 디지털 컨텐츠를 랭킹하고 추천하는 휴대용 단말 및 방법에 관한 것이다.
스마트폰의 보급으로 인하여 이동통신 기술이 급격하게 발달함에 따라, 휴대용 단말을 통한 다양한 서비스가 제공되고 있다. 특히 정보 폭주(Information Explosion) 시대에 사용자의 경험과 서비스의 효과를 극대화하기 위하여, 사용자의 관심 분야를 모바일 기기상에서 자동으로 파악하여 개인화된 컨텐츠를 추천하는 서비스가 이용되고 있는데, 해당 서비스에 사용되는 종래 기술로서, 1) 사용자 단말에서 자동으로 사용자의 의도를 추론하는 기술 및 2) 추론된 사용자의 의도를 기반으로 사용자 단말에서 컨텐츠를 추천하는 기술이 있어왔다.
사용자 단말에서 자동으로 사용자의 의도를 추론하는 기술로서, 한국 등록특허공보 제10-1095069호(발명의 명칭: 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법)는 사용자 단말 상에서 사용자의 관심 사항을 자동으로 파악하기 위한 기술에 대하여 개시하고 있다. 더욱 상세하게는 단말기 내부의 사용자의 데이터(SMS, Web Usage 등)를 추출하고, 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리에, 미리 학습된 분류기를 사용하여 사용자의 데이터를 자동 분류함으로써, 사용자의 관심사항을 주제 분류 트리 내의 명사 형태의 카테고리 명으로 추론하는 기술에 대하여 기재하고 있다.
이때, 주제 분류 트리란, 모든 웹 페이지의 주제를 트리 형태로 구성한 것으로서, 각 주제들은 "is-a" 관계를 가지고 연결되는데, 모든 주제들을 정의하고 그들의 관계를 연결하기 위해선 각 분야의 다수의 전문가들의 장기간에 걸친 노력이 필요하다. 따라서, 생성된 주제 분류 트리의 주제들 중 웹 페이지와 광고의 내용에 가장 적합한 주제를 자동으로 결정하기 위해선 사람이 손수 정의해 놓은 많은 양의 학습 데이터가 필요하다.
또한, 추론된 사용자의 의도를 기반으로 사용자 단말에서 컨텐츠를 추천하는 기술로서, 한국 공개특허공보 제 10-2012-0026682호(발명의 명칭: 사용자 단말에서 인터넷 서비스 제공 방법 및 장치)는 주제 분류 트리 내의 명사 형태의 카테고리 명으로 추론된 사용자의 의도가 주어졌을 때, 사용자 의도에 연관된 컨텐츠를 자동으로 추천하기 위한 기술에 대하여 개시하고 있다. 더욱 상세하게는, 후보 컨텐츠를 웹으로부터 수집하고, 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리에, 미리 학습된 분류기를 사용하여 컨텐츠 데이터를 자동 분류함으로써, 컨텐츠의 의미를 주제 분류 트리 내의 명사 형태의 카테고리 명으로 파악한 후, 사용자의 의도와 컨텐츠 의미 사이의 의미론적 유사도를 계산하여, 사용자의 의도와 의미가 유사한 정도에 따라 컨텐츠를 랭킹하여 컨텐츠를 추천하는 기술에 대하여 기재하고 있다.
상술한 종래기술에서는 사용자의 의도와 컨텐츠의 의미를 파악함에 있어서, 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리 내의 명사를 이용하고 있다. 예를 들어, 주제 분류 트리 내의 "Vehicle" 이란 카테고리로 사용자의 의도를 추론한 경우, 같은 카테고리로 의미가 추론된 컨텐츠가 사용자에게 추천된다. 하지만, "Vehicle" 에 대한 관심을 가지고 있는 사용자들도 "Vehicle" 을 "Rent" 하려는 사용자와 "Buy" 하려는 사용자로 서로 다른 행위를 수행할 수 있다. 이 경우, 사용자의 의도는 (명사, 동사) 형태인 (Vehicle, Rent) 및 (Vehicle, Buy) 로 추론하는 것이 명사 형태인 Vehicle 로만 추론하는 것보다 더 정확하다. 따라서 이 경우, 해당 사용자들이 원하는 행동에 따라, "Vehicle"에 대한 컨텐츠도 "Rent" 에 관한 컨텐츠와 "Buy"에 대한 컨텐츠를 나누어서 추천해 줄 필요가 있다. 결과적으로 종래 기술은 사용자가 원하는 행동에 대한 의도를 정확하게 추론하지 못하며, 이에 맞는 사용자 의도에 부합하는 컨텐츠를 추천할 수 없는 한계점이 있다.
또한, 지식 베이스 확장 기술로서, 한국 공개특허공보 제 10-2013-0084923호(발명의 명칭: 지식 베이스 확장 장치 및 방법)에는 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리의 각 카테고리별로 연관된 데이터를 여러 지식 베이스로부터 수집하여 관련 문서를 생성하고, 관련 문서에서 행동을 표현하는 후보 동사를 추출한 후, 후보 동사들 중에서 각 카테고리와 연관성이 높은 행위를 나타내는 동사를 선별하여 주제 분류 트리를 확장하는 기술이 개시되어 있다.
본 발명은 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일 실시예에 따른 휴대용 단말은 주제 분류 트리를 이용하여 사용자의 의도를 카테고리와 행위, 즉, 명사 및 동사(일 예로서, 명사와 동사 쌍) 형태로 추론한다.
또한, 전술한 종래 기술의 문제점을 해결하기 위한 것으로서, 본 발명의 일 실시예에 따른 추천 방법은 명사 및 동사 형태로 추론된 사용자의 의도와 컨텐츠의 의미 사이의 의미론적 유사도를 계산하여, 컨텐츠를 랭킹 및 추천한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 휴대용 단말은, 특정 카테고리를 나타내는 명사 및 명사와 연관된 동사를 포함하는 주제 분류 트리가 저장된 저장부; 주제 분류 트리를 이용하여, 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자의 의도를 명사 및 동사 형태로 추론하는 사용자 의도 추론부; 주제 분류 트리를 이용하여, 인터넷에서 수집한 컨텐츠를 분석하고 컨텐츠의 의미를 명사 및 동사 형태로 추론하는 컨텐츠 의미 분석부; 및 사용자 의도 및 컨텐츠 의미 사이의 유사도를 계산하여 가장 유사도가 높은 컨텐츠를 랭킹하고 추천하는 컨텐츠 랭킹부를 포함한다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 2 측면에 따른 휴대용 단말을 통해 컨텐츠를 추천하는 방법은, 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자의 의도를 명사 및 동사 형태로 추론하는 단계; 인터넷에서 수집한 컨텐츠를 분석하고 컨텐츠의 의미를 명사 및 동사 형태로 추론하는 단계; 및 사용자의 의도 및 컨텐츠의 의미 사이의 유사도를 계산하여 컨텐츠를 랭킹하고 추천하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단에 의하면 본 발명의 일 실시예에 따른 휴대용 단말은 사용자 데이터로부터 사용자의 의도를 명사 및 동사 형태로 추론함으로써, 사용자의 의도를 명사 형태로만 추론하는 종래 기술과 달리 사용자가 원하는 행동까지도 파악하여 보다 정확하게 사용자 의도에 따른 컨텐츠를 제공할 수 있다.
또한, 본 발명의 일 실시예에 따른 컨텐츠 추천 방법은 인터넷으로부터 컨텐츠를 수집하여 컨텐츠의 의미를 명사 및 동사형태로 파악한 후, 명사 및 동사 형태로 추론된 사용자의 의도와 의미론적 유사도를 계산하여 컨텐츠를 랭킹 및 추천함으로써, 명사 형태만을 이용하여 의미론적 유사도를 계산하여 컨텐츠를 랭킹 및 추천하는 종래 기술과 달리 사용자의 의도와 컨텐츠를 의미적으로 더 정확히 연관시켜 추천할 수 있다.
도 1은 본 발명의 일 실시예에 따른 휴대용 단말의 블록도를 나타낸 도면이다.
도 2는 저장부에 저장된 명사 및 동사형태의 주제 분류 트리에 대한 도면이다.
도 3은 본 발명의 일 실시예에 따른 사용자 의도 추론부의 블록도이다.
도 4는 본 발명의 일 실시예에 따른 컨텐츠 의미 분석부의 블록도이다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 랭킹부의 블록도이다.
도 6은 본 발명의 일 실시예에 따른 컨텐츠 추천 방법에 대한 순서도이다.
도 7은 저장된 명사 및 동사 형태의 주제 분류 트리에 기반하여, 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 단계에 대한 도면이다.
도 8은 본 발명의 실시예에 따른 휴대용 단말의 프로토타입 어플리케이션인 EPE Demo의 실행 화면을 나타낸다
도 9는 실험을 통해 측정된 EPE Demo 어플리케이션의 명사 및 동사 형태의 사용자 의도 추론 성능의 측정결과를 나타낸다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
명세서 전체에서, "명사 및 동사"는 후술할 주제 분류 트리의 카테고리(Category)를 나타내는 명사와 카테고리와 연관된 행동(Action)을 나타내는 동사를 모두 포함하는 것으로 일 예로서, 명사와 동사 쌍, 즉, (명사, 동사)와 같은 형태를 가질 수 있다.
도 1은 본 발명의 일 실시예에 따른 휴대용 단말의 블록도를 나타낸 도면이다.
휴대용 단말(10)은 사용자의 의도에 적합한 컨텐츠를 랭킹하여 추천해 주는 단말로서, 네트워크를 통해 공개된 디렉토리, 인터넷에 접속할 수 있는 휴대성과 이동성이 보장되는 무선 통신 장치이고, 통신 모듈, 프로세서, 디스플레이 등을 기본적으로 포함하며, PCS(Personal Communication System), GSM(Global System for Mobile communications), PDC(Personal Digital Cellular), PHS(Personal Handyphone System), PDA(Personal Digital Assistant), IMT(International Mobile Telecommunication)-2000, CDMA(Code Division Multiple Access)-2000, W-CDMA(W-Code Division Multiple Access), WiBro(Wireless Broadband Internet) 단말, 스마트 폰(Smart Phone), 태블릿PC, 슬레이트PC 등과 같은 모든 종류의 핸드헬드(Handheld) 기반의 무선 통신 장치를 포함할 수 있다.
휴대용 단말(10)에 저장된 텍스트 데이터 및 인터넷에서 수집된 컨텐츠를 분석하여 사용자 의도와 연관된 컨텐츠를 랭킹하고 추천하기 위해, 본 발명의 일 실시예에 따른 휴대용 단말(10)은 공개된 디렉토리로부터 수집된 데이터가 가공된 하나 이상의 중심 벡터가 트리 형태로 저장된 주제 분류 트리가 저장된 저장부(50), 휴대용 단말에 저장된 텍스트 데이터를 분석하여 사용자 의도를 명사 및 동사 형태로 추론하는 사용자 의도 추론부(100), 인터넷에서 수집된 컨텐츠를 분석하여 컨텐츠 의미를 명사 및 동사 형태로 추론하는 컨텐츠 의미 분석부(200), 및 사용자 의도 및 상기 컨텐츠 의미 사이의 유사도를 계산하여 컨텐츠를 랭킹하고 추천하는 컨텐츠 랭킹부(300)를 포함한다. 이때, "명사 및 동사" 형태는 일 예로서, (명사, 동사) 형태, 즉 명사와 동사 쌍 형태를 가질 수 있되, 동사는 명사에 대하여 사용자가 수행하고자 하는 행위를 나타내며, 명사는 동사와 의미적 연관성을 갖는다. 일 예로서, 명사와 동사 쌍의 명사는 동사의 목적어 역할을 수행한다.
따라서, 휴대용 단말은 특정 카테고리를 나타내는 명사 및 해당 명사와 연관된 행동을 나타내는 동사를 포함하는 주제 분류 트리를 이용하여, 사용자 의도를 추론하고, 디지털 컨텐츠를 추천한다.
우선, 저장부(50)에는 하나 이상의 중심 벡터가 카테고리화 되어 저장되어 있다. 즉, 저장부(50)에는 명사 및 동사 형태의 주제 분류 트리가 저장되어 있다.
도 2는 본 발명에 적용되는 명사 및 동사형태의 주제 분류 트리에 대한 도면이다.
명사 및 동사 형태의 주제 분류 트리는 공개된 디렉토리 데이터(Open Directory Project)로부터 가공된 명사 형태의 카테고리와 각 카테고리와 연관된 하나 이상의 동사를 포함한다. 각 카테고리에 연관된 하나 이상의 동사는 여러 지식 베이스로부터 추출함으로써 생성된다.
도 2를 참조하면, 명사 및 동사 형태의 주제 분류 트리는 스마트 단말 내부(sdcard)에 파일시스템이나 데이터베이스(일례로 SQLite) 등의 형태로 기 저장될 수 있다. 또한 명사는 일 예로서 공개된 디렉토리(ODP: Open Directory Project) 사이트(www.dmoz.com)에서 수집될 수 있고, 동사는 Microsoft 의 검색 엔진 클릭 로그 데이터, ODP 카테고리 및 웹 사이트 데이터, Wikipedia, 검색 엔진 검색 결과 페이지 등의 외부 지식 베이스들로부터 수집될 수 있다.
이때, 저장부(50)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다.
또한, 도 2는 주제 분류 트리의 일 예를 표현한 도면으로, 카테고리를 나타내는 명사는 계층 구조로 구성되어 있으며, 각 카테고리에는 연관된 동사들이 존재한다. 도 2의 예제에서는 "Top>Shopping>Vehicle" 카테고리에 "Buy", "Rent", "Drive"의 세 가지 연관된 동사가 존재한다.
이때, 후술할 사용자 의도 추론부(100) 및 컨텐츠 의미 분석부(200)는 저장부(50)에 저장된 데이터를 이용하여 사용자 의도 및 컨텐츠 의미를 추론할 수 있다. 사용자 의도 및 컨텐츠 의미를 추론하는 방법은 도 3 내지 도 5와 관련하여 후술한다.
도 3은 본 발명의 일 실시예에 따른 사용자 의도 추론부의 블록도이다.
사용자 의도 추론부(100)는 주제 분류 트리를 이용하여, 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자 의도를 명사 및 동사 형태로 추론하는 구성으로서, 휴대용 단말에 저장된 데이터로부터 텍스트 데이터를 추출하는 사용자 데이터 추출부(110), 추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하는 사용자 데이터 분석부(120), 및 생성된 단어 벡터와 연관성이 높은 주제 분류 트리의 카테고리 및 동사를 선택하는 사용자 데이터 분류부(130)를 포함할 수 있다. 이하, 각 구성요소에 대해 설명한다.
먼저, 사용자 데이터 추출부(110)는 문자 메시지, 웹 기록, 일정 등의 휴대용 단말 내부의 사용자 데이터의 텍스트 데이터를 추출하는 역할을 수행한다.
이어서, 사용자 데이터 분석부(120)는 추출된 텍스트 데이터를 분석하여 벡터 스페이스 모델(Vector Space Model)에 기반한 단어 벡터를 생성하는 역할을 수행한다.
사용자 데이터 분석부(120)는 추출된 텍스트 데이터를 개별적인 단어로 구분하고, 각 단어들이 나타나는 빈도수, 즉 텍스트 데이터가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산하여 단어 벡터를 생성한다.
보다 상세하게는, 사용자 데이터 분석부는(120) 추출된 텍스트 데이터를 개별적인 단어로 구분하고, 각 단어의 가중치 값을 계산 함으로써 단어 벡터를 생성한다. 단어 벡터의 각 단어에 대한 가중치 값은 아래 수학식 1을 이용하여 계산할 수 있다.
수학식 1
Figure PCTKR2014005077-appb-M000001
이때, t는 단어, Wt는 단어 t의 가중치 값, tft는 추출된 텍스트 데이터가 포함하는 단어 t의 빈도수, N은 사용자 데이터 분류부(130)가 학습될 때 사용된 전체 문서 수, dft는 사용자 데이터 분류부(130)가 학습될 때 사용된 전체 문서 중에서 단어 t가 발생한 문서의 빈도수를 의미한다. 여기서 학습 데이터는 공개 디렉토리에서 각 카테고리마다 분류된 페이지(사이트) 의 제목(title), 설명(description) 및 페이지 본문을 포함한다. 마지막으로, 사용자 데이터 분류부(130)는 추출된 사용자 데이터로부터 생성된 단어 벡터와 명사 및 동사 형태로 구성된 주제 분류 트리의 학습 데이터로부터 생성된 중심 벡터를 사용하여, 사용자의 의도를 주제 분류 트리의 카테고리 및 카테고리와 연관된 하나의 행동 즉, 카테고리 및 행동 형태로 분류한다.
다시 말하면, 사용자 데이터 분류부(130)는 명사 및 동사 형태로 구성된 주제 분류 트리의 카테고리에 있는 중심 벡터와 사용자 데이터 분석부(120)에서 생성한 단어 벡터 간 유사도를 계산하여 유사도가 가장 높은 중심 벡터를 지니는 카테고리(명사)를 먼저 선택한다. 이후, 선택된 해당 카테고리와 연관된 동사들 중에서 상기 단어 벡터와 연관성이 가장 높은 행동을 나타내는 동사를 하나 선택한다. 이때, 단어 벡터와 중심 벡터 간의 유사도는 수학식 2를 이용하여 계산될 수 있고, 카테고리와 연관된 동사들 중에서 상기 단어 벡터와의 연관성은 수학식 3 또는 수학식 4를 이용하여 계산될 수 있다.
수학식 2
Figure PCTKR2014005077-appb-M000002
이때, cos(u, c)는 단어 벡터(
Figure PCTKR2014005077-appb-I000001
)와 카테고리의 중심 벡터(
Figure PCTKR2014005077-appb-I000002
)의 유사도,
Figure PCTKR2014005077-appb-I000003
는 사용자 데이터 분석부(120)에서 생성한 단어 벡터,
Figure PCTKR2014005077-appb-I000004
는 명사 및 동사 형태로 구성된 주제 분류 트리의 카테고리에 있는 데이터 (예를 들어, 웹 페이지의 제목, 설명 및 페이지 본문)로부터 구성된 중심 벡터, V는 명사 및 동사 형태로 구성된 주제 분류 트리의 학습 데이터를 구성하는 단어 집합, ui는 단어 벡터
Figure PCTKR2014005077-appb-I000005
가 포함하는 i번째 단어의 가중치 값, ci는 중심 벡터(
Figure PCTKR2014005077-appb-I000006
)가 포함하는 i번째 단어의 가중치 값을 의미한다.
수학식 3
Figure PCTKR2014005077-appb-M000003
이때, r(u, v)는 단어 벡터
Figure PCTKR2014005077-appb-I000007
와 동사 v의 연관성, uv는 단어 벡터
Figure PCTKR2014005077-appb-I000008
가 포함하는 동사 v의 가중치 값, cv는 동사 v와 주제 분류 트리의 카테고리의 중심 벡터
Figure PCTKR2014005077-appb-I000009
의 유사도로서 명사 및 동사 형태의 주제 분류 트리를 생성할 때 계산된다.
수학식 4
Figure PCTKR2014005077-appb-M000004
이때, r(u, v)는 단어 벡터
Figure PCTKR2014005077-appb-I000010
와 동사 v의 연관성,
Figure PCTKR2014005077-appb-I000011
는 사용자 데이터 분석부(120)에서 생성한 단어 벡터,
Figure PCTKR2014005077-appb-I000012
는 동사 v가 명사 및 동사형태의 주제 분류 트리가 생성되는 과정에서 해당 카테고리 중심 벡터
Figure PCTKR2014005077-appb-I000013
에 연관된 동사로 추출될 때 사용된 학습 데이터의 단어 벡터, cos(
Figure PCTKR2014005077-appb-I000014
,
Figure PCTKR2014005077-appb-I000015
)는 단어 벡터(
Figure PCTKR2014005077-appb-I000016
)와 학습 데이터의 단어 벡터(
Figure PCTKR2014005077-appb-I000017
) 간의 유사도를 의미한다.
다시 도 1로 돌아가면, 휴대용 단말(10)는 인터넷에서 수집된 컨텐츠를 분석하여 컨텐츠 의미를 명사 및 동사 형태로 추론하는 컨텐츠 의미 분석부(200)를 포함한다.
도 4는 본 발명의 일 실시예에 따른 컨텐츠 의미 분석부의 블록도이다.
컨텐츠 의미 분석부(200)는 주제 분류 트리를 이용하여, 인터넷에서 수집한 컨텐츠를 분석하고 컨텐츠 의미를 명사 및 동사 형태로 추론하는 구성으로서, 인터넷에서 컨텐츠를 수집하여 텍스트 데이터를 추출하는 컨텐츠 수집부(210), 추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하는 컨텐츠 분석부(220), 및 명사 및 동사 형태의 주제 분류 트리를 사용하여 컨텐츠 수집부에서 생성된 단어 벡터와 연관성이 높은 주제 분류 트리의 카테고리를 나타내는 명사와 동사를 선택하는 컨텐츠 분류부(230)를 포함한다.
먼저, 컨텐츠 수집부(210)는 인터넷으로부터 뉴스, App 정보 등의 컨텐츠를 수집하여, 텍스트 데이터를 추출하는 역할을 수행한다.
이어서, 컨텐츠 분석부(220)는 컨텐츠 수집부(210)로부터 추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성한다. 즉, 앞서 설명한 사용자 데이터 분석부와 같이, 추출한 텍스트 데이터를 단어로 구분하고, 텍스트 데이터가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산함으로써 단어 벡터를 생성한다. 이때, 단어의 가중치 값은 사용자 데이터 분석부와 마찬가지로 수학식 1을 이용하여 계산될 수 있고 수학식 1에 대한 설명은 상술한 바 이하 생략한다. 단, tft는 컨텐츠로부터 추출된 텍스트 데이터가 포함하는 단어 t의 빈도수, N은 컨텐츠 분류부(230)가 학습될 때 사용된 전체 문서 수 , dft는 컨텐츠 분류부(230)가 학습될 때 사용된 전체 문서 중에서 단어 t가 발생한 문서의 빈도수를 의미한다.
마지막으로, 컨텐츠 분류부(230)는 추출된 컨텐츠 데이터로부터 생성된 단어 벡터와 명사 및 동사 형태로 구성된 주제 분류 트리의 학습 데이터로부터 생성된 중심 벡터를 사용하여, 컨텐츠의 의미를 주제 분류 트리의 카테고리를 나타내는 명사 및 카테고리와 연관된 행동을 나타내는 하나의 동사로 분류한다. 즉, 컨텐츠 분류부(230)는 명사 및 동사(일 예로서, 명사와 동사 쌍 또는 (명사, 동사)) 형태로 구성된 주제 분류 트리의 카테고리에 있는 중심 벡터와 컨텐츠 분석부(220)에서 추출한 단어 벡터 간 유사도를 계산하여 유사도가 가장 높은 중심 벡터를 지니는 카테고리를 먼저 선택한다. 그런 다음, 선택된 해당 카테고리와 연관된 동사들 중에서 상기 단어 벡터와의 연관성이 가장 높은 동사를 하나 선택한다. 이때, 중심 벡터 및 단어 벡터 간의 유사도는 수학식 2를 이용하여 계산될 수 있고, 카테고리와 연관된 동사들 중에서 상기 단어 벡터와의 연관성은 수학식 3 또는 수학식 4를 이용하여 계산될 수 있다. 수학식 2, 수학식 3, 및 수학식 4에 대한 설명은 상술한 바 이하 생략한다. 단,
Figure PCTKR2014005077-appb-I000018
는 컨텐츠 분석부(220)에서 생성한 단어 벡터를 의미한다.
다시 도 1로 돌아가면 본 발명의 일 실시예에 따른 휴대용 단말은 컨텐츠 랭킹부(300)를 포함할 수 있는데, 컨텐츠 랭킹부(300)는 사용자 의도 및 컨텐츠 의미 사이의 유사도를 계산하여 컨텐츠를 랭킹하고 추천하는 역할을 수행한다.
도 5는 본 발명의 일 실시예에 따른 컨텐츠 랭킹부의 블록도이다.
컨텐츠 랭킹부(300)는 명사 및 동사 형태로 추론된 사용자 의도와 명사 및 동사 형태로 파악된 컨텐츠 의미 사이의 연관성을 계산하여, 사용자의 의도와 가장 연관성이 높은 컨텐츠를 사용자에게 추천해주는 역할을 수행한다.
이때, 컨텐츠란 인터넷에서 제공되는 뉴스, 애플리케이션 정보 등 유무선 통신망을 통해 제공되는 디지털 정보나 그러한 내용물을 의미하는 것으로 관용적인 의미와 동일하다.
이러한 역할을 수행하기 위해 본 발명의 일 실시예에 따른 컨텐츠 랭킹부(300)는 사용자 의도 및 컨텐츠 의미의 명사 간 유사도를 계산하는 명사 유사도 계산부(310), 사용자 의도 및 컨텐츠 의미의 동사 간 유사도를 계산하는 동사 유사도 계산부(320), 및 명사 간 유사도 및 동사 간 유사도를 합산하여 컨텐츠를 랭킹하고 추천하는 컨텐츠 추천부(330)를 포함할 수 있다.
명사 유사도 계산부(310)는 사용자 의도를 나타내는 것으로 선택된 명사와컨텐츠 의미를 나타내는 것으로 선택된 명사 간의 유사도를 계산하는 역할을 수행한다. 명사 유사도 계산부는 등록특허공보 제 10-1083274호(발명의 명칭: 유사도 그래프를 활용한 문맥 광고 시스템)에 기재된 유사도 산출부(232)를 사용할 수 있다.
이때, 본 발명의 일 실시예에 따른 명사 유사도 계산부는 분류 트리의 각 카테고리마다 할당되어 있는 학습 데이터를 이용하여 산출한다. 벡터 스페이스 모델에 따라 각 카테고리의 학습 데이터에 기초하여, 각 카테고리를 대표하는 중심 벡터를 생성하고, 각 중심 벡터의 코사인 유사도(cosine similarity)를 산출하여, 각 카테고리 간의 유사도로서 사용한다. 이때, 코사인 유사도는 수학식 5를 기초로 산출될 수 있다.
수학식 5
Figure PCTKR2014005077-appb-M000005
이어서 동사 유사도 계산부(320)는 사용자 의도 추론부에서 선택된 동사 및 컨텐츠 의미 분석부에서 선택된 동사 간의 유사도를 계산하는 역할을 수행한다. 본 발명의 일 실시예에 따르면 동사 유사도 계산부(320)는 아래 수학식 6과 같이 동사 간 유사도를 계산할 수 있다.
수학식 6
Figure PCTKR2014005077-appb-M000006
이때, cu는 사용자 의도 추론부로부터 선택된 주제 분류 트리의 카테고리를 나타내는 명사, cs 는 컨텐츠 의미 분석부로부터 선택된 주제 분류 트리의 카테고리를 나타내는 명사, vu 는 사용자 의도 추론부로부터 선택된 행동을 나타내는 동사, 및 vs 는 컨텐츠 의미 분석부로부터 선택된 행동을 나타내는 동사, ActionScore(vu, vs)는 최종 동사(vu, vs) 간 유사도, score(vu, vs)는 기 계산된 동사(vu, vs) 간 유사도를 의미한다.
이때, score(vu, vs)은 예를 들어 1) 여러 지식 베이스로부터 각 동사가 추출될 때 사용된 학습 데이터를 이용하여 유사도를 계산하는 방법과 2) WordNet 과 ConceptNet에서 제공하는 단어 사이의 유사도를 이용하여 계산될 수 있다.
이어서, 컨텐츠 추천부(330)는 명사 유사도 계산부(310)에서 계산한 명사 간 유사도 및 동사 유사도 계산부(320)에서 계산한 동사 간 유사도를 합산하여 컨텐츠를 랭킹하고 추천한다. 이때, 명사간 유사도 및 동사 간 유사도는 아래 수학식 7과 같이 합산될 수 있다.
수학식 7
Figure PCTKR2014005077-appb-M000007
이때, NVScore(u, s)는 합산된 사용자 의도 및 컨텐츠 의미의 유사도, GraphScore(cu, cs)는 사용자 의도 추론부로부터 선택된 주제 분류 트리의 카테고리를 나타내는 명사(cu) 및 컨텐츠 의미 분석부로부터 선택된 주제 분류 트리의 카테고리를 나타내는 명사(cs) 간 유사도, ActionScore(vu, vs)는 사용자 의도 추론로부터 선택된 행동을 나타내는 동사(vu) 및 컨텐츠 의미 분석부로부터 선택된 행동을 나타내는 동사(vs) 간 유사도, β는 명사 간 유사도 및 동사 간 유사도의 선형 조합에 대한 가중치 값을 의미한다.
한편, 도 1 내지 도 5에서 도시된 각각의 구성요소는 일종의 '모듈'로 구성될 수 있다. 상기 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(ASIC, Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.
도 6은 본 발명의 일 실시예에 따른 컨텐츠 추천 방법에 대한 순서도이다.
먼저, 휴대용 단말에는 공개된 디렉토리 데이터가 가공된 하나 이상의 중심 벡터가 주제 분류 트리 형태로 저장되어 있다. 즉, 명사 및 동사 형태의 주제 분류 트리가 기 저장되어 있다. 명사 및 동사 형태의 주제 분류 트리에 대한 상세한 설명은 도 2와 관련하여 상술한 바 이하 생략한다.
다음으로 휴대용 단말은 주제 분류 트리를 이용하여, 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자 의도를 명사 및 동사(일 예로서, 명사와 동사 쌍, 또는 (명사, 동사)) 형태로 추론한다(S1100). 보다 상세하게는, 휴대용 단말에 저장된 데이터로부터 텍스트 데이터를 추출하고, 추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하고, 명사 및 동사 형태의 주제 분류 트리를 사용하여 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택한다. 이때, 동사는 카테고리를 나타내는 명사와 연관적인 의미를 갖는 행동을 나타내는 것으로, 일 예로서 명사는 동사의 목적어일 수 있다. 또한, 명사 및 동사는 일 예로서 명사와 동사 쌍 형태를 가질 수 있다.
도 7은 저장된 명사 및 동사 형태의 주제 분류 트리에 기반하여, 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 단계에 대한 도면이다.
먼저 카테고리를 나타내는 명사를 선택하기 위해, 단어 벡터와 연관성이 높은 카테고리를 선택하는데, 도 7에 따르면 단어 벡터(u) 간 유사도가 가장 높은 카테고리를 나타내는 명사(Vehicle)를 선택한다.
다음으로 행동을 나타내는 동사를 선택하기 위해, 선택된 카테고리와 연관된 하나 이상의 동사 중 단어 벡터와 가장 연관성이 높은 동사를 선택한다. 도 7에 따르면 선택된 카테고리(Vehicle)가 포함하는 하나 이상의 동사(Buy, Rent, Drive) 중 단어 벡터(u)의 동사와 가장 연관성이 높은 동사(Rent)를 선택한다.
더욱 상세한 사용자 의도를 추론하는 단계(S1100)에 대한 설명은 도 3과 관련하여 상술한 바 이하 생략한다.
이어서, 휴대용 단말은 주제 분류 트리를 이용하여 인터넷에서 수집된 컨텐츠를 분석하고, 컨텐츠 의미를 명사 및 동사 형태로 추론한다(S1200). 보다 상세하게는, 휴대용 단말은 인터넷에서 컨텐츠를 수집하여 텍스트 데이터를 추출하고, 추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하고, 저장된 명사 및 동사 형태의 주제 분류 트리를 사용하여 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택한다. 이 단계에 대한 상세한 설명은 도 4와 관련하여 상술한 바 이하 생략한다.
이어서, 휴대용 단말은 사용자 의도 및 컨텐츠 의미 사이의 유사도를 계산하여 컨텐츠를 랭킹하고 추천한다(S1300). 보다 상세하게는, 휴대용 단말은 사용자 의도 및 컨텐츠 의미의 명사 간 유사도를 계산하고, 사용자 의도 및 컨텐츠 의미의 동사 간 유사도를 계산하고, 명사 간 유사도 및 동사 간 유사도를 합산하여 컨텐츠를 랭킹하고 추천한다. 이 단계에 대한 상세한 설명은 도 5와 관련하여 상술한 바 이하 생략한다.
한편, 본 발명의 일 실시예는 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
상술한 본 발명에 따른 컨텐츠 추천 방법은 컴퓨터 또는 휴대용 단말이 읽을 수 있는 기록 매체에 컴퓨터 또는 휴대용 단말이 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터 또는 휴대용 단말이 읽을 수 있는 기록매체로는 컴퓨터 또는 휴대용 단말 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래쉬 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터 또는 휴대용 단말이 읽을 수 있는 기록매체는 통신망으로 연결된 컴퓨터 또는 휴대용 단말 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
도 8은 본 발명의 실시예에 따른 휴대용 단말의 프로토타입 어플리케이션인 EPE Demo의 실행 화면을 나타낸다. EPE Demo 어플리케이션은 윈도우 8 폰 환경에서 개발되었다.
도 8에 따르면, EPE Demo 어플리케이션에서는 휴대용 단말 내에서 추출한 사용자 데이터가 표출되고, 휴대용 단말 내에서 추출된 사용자 데이터로부터 추론한 명사 및 동사 형태의 사용자 의도가 표출된다.
도 9는 실험을 통해 측정된 EPE Demo 어플리케이션의 명사 및 동사 형태의 사용자 의도 추론 성능의 측정결과를 나타낸다.
도 9에 따르면, 15가지의 시나리오(애완동물, 교육, 요리, 건강, 영화, 음악, 야구, 축구, 여행, 뉴스, 요가, 금융, 점술, 게임, 소셜 네트워크)에 대한 테스트 사용자 데이터에 대하여 Top-k 개의 명사 및 동사 형태의 사용자 의도를 추론한 결과의 정확도가 정밀지표(Precision at k의 지표)로 측정되었다. 측정 결과 Precision at 1 은 0.778의 성능을, Precision at 2는 0.711의 성능을, Precision at 3은 0.667의 성능을 보였다.
이와같이 본 발명의 일 실시예에 따른 휴대용 단말 및 방법은 인터넷으로부터 컨텐츠를 수집하여 컨텐츠의 의미를 명사 및 동사형태로 파악한 후, 명사 및 동사 형태로 추론된 사용자의 의도와 의미론적 유사도를 계산하여 컨텐츠를 랭킹 및 추천함으로써, 명사 형태만을 이용하여 의미론적 유사도를 계산하여 컨텐츠를 랭킹 및 추천하는 종래 기술과 달리 사용자가 원하는 행동과 의미적으로 연관된 컨텐츠를 추천할 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (17)

  1. 휴대용 단말에 있어서,
    특정 카테고리를 나타내는 명사 및 상기 명사와 연관된 동사를 포함하는 주제 분류 트리가 저장된 저장부;
    상기 주제 분류 트리를 이용하여, 상기 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자의 의도를 명사 및 동사 형태로 추론하는 사용자 의도 추론부;
    상기 주제 분류 트리를 이용하여, 인터넷에서 수집한 컨텐츠를 분석하고 상기 컨텐츠의 의미를 명사 및 동사 형태로 추론하는 컨텐츠 의미 분석부; 및
    상기 사용자의 의도 및 상기 컨텐츠의 의미 사이의 유사도를 계산하여 가장 유사도가 높은 컨텐츠를 랭킹하고 추천하는 컨텐츠 랭킹부를 포함하는 휴대용 단말.
  2. 제 1 항에 있어서,
    상기 명사 및 동사 형태는 명사와 동사가 쌍을 이루는 형태인 휴대용 단말.
  3. 제 1 항에 있어서,
    상기 사용자 의도 추론부는,
    상기 휴대용 단말에 저장된 데이터로부터 텍스트 데이터를 추출하는 사용자 데이터 추출부;
    추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하는 사용자 데이터 분석부; 및
    상기 주제 분류 트리로부터 상기 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 사용자 데이터 분류부를 포함하되,
    상기 사용자 데이터 분석부는,
    추출한 텍스트 데이터를 단어로 구분하고, 상기 추출한 텍스트 데이터가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산하여 단어 벡터를 생성하는 휴대용 단말.
  4. 제 3 항에 있어서,
    상기 사용자 데이터 분석부는,
    상기 휴대용 단말로부터 추출된 텍스트 데이터가 포함하는 단어의 빈도수, 학습될 때 사용된 전체 문서 수, 및 학습될 때 사용된 전체 문서 중에서 단어가 발생한 문서의 빈도수에 기반하여 상기 단어의 가중치 값을 계산하는 휴대용 단말.
  5. 제 3 항에 있어서,
    상기 사용자 데이터 분류부는,
    상기 주제 분류 트리의 카테고리에 있는 중심 벡터와 상기 사용자 데이터 분석부에서 생성한 단어 벡터 간 유사도를 계산하여 유사도가 가장 높은 카테고리에 해당하는 명사를 선택하고,
    선택된 명사와 연관된 동사 및 상기 단어 벡터 간의 연관성을 계산하여 연관성이 가장 높은 동사를 선택하는 휴대용 단말.
  6. 제 5 항에 있어서,
    상기 사용자 데이터 분류부는,
    상기 유사도를 계산하는 경우,
    상기 주제 분류 트리의 학습 데이터를 구성하는 단어 집합, 상기 사용자 데이터 분석부에서 생성한 단어 벡터가 포함하는 단어의 가중치 값, 및 상기 중심 벡터가 포함하는 단어의 가중치 값을 기반으로 계산하고,
    상기 연관성을 계산하는 경우,
    상기 사용자 데이터 분석부에서 생성한 단어 벡터가 포함하는 동사의 가중치 값, 및 상기 동사와 상기 중심벡터 간의 유사도를 기반으로 계산하거나, 또는
    상기 사용자 데이터 분석부에서 생성한 단어 벡터, 및 상기 주제 분류 트리가 생성되는 과정에서 해당 카테고리 중심 벡터에 연관된 동사가 추출될 때 사용된 학습 데이터의 단어 벡터 간의 유사도를 기반으로 계산하는 휴대용 단말.
  7. 제 1 항에 있어서,
    상기 컨텐츠 의미 분석부는,
    인터넷에서 컨텐츠를 수집하여 텍스트 데이터를 추출하는 컨텐츠 수집부;
    추출한 텍스트 데이터를 단어로 구분하여 단어 벡터를 생성하는 컨텐츠 분석부; 및
    상기 주제 분류 트리로부터 상기 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 컨텐츠 분류부를 포함하되,
    상기 컨텐츠 분석부는,
    추출한 텍스트 데이터를 단어로 구분하고, 상기 컨텐츠가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산하여 단어 벡터를 생성하는 휴대용 단말.
  8. 제 7 항에 있어서,
    상기 컨텐츠 분석부는,
    상기 컨텐츠로부터 추출된 텍스트 데이터가 포함하는 단어의 빈도수, 학습될 때 사용된 전체 문서 수, 및 학습될 때 사용된 전체 문서 중에서 단어가 발생한 문서의 빈도수에 기반하여 상기 단어의 가중치 값을 계산하는 휴대용 단말.
  9. 제 7 항에 있어서,
    상기 컨텐츠 분류부는,
    상기 주제 분류 트리의 카테고리에 있는 중심 벡터와 상기 컨텐츠 분석부에서 생성한 단어 벡터 간 유사도를 계산하여 유사도가 가장 높은 카테고리에 해당하는 명사를 선택하고,
    선택된 명사와 연관된 동사 및 상기 단어 벡터 간의 연관성을 계산하여 연관성이 가장 높은 동사를 선택하는 휴대용 단말.
  10. 제 9 항에 있어서,
    상기 컨텐츠 분류부는,
    상기 유사도를 계산하는 경우,
    상기 주제 분류 트리의 학습 데이터를 구성하는 단어 집합, 상기 컨텐츠 분석부에서 생성한 단어 벡터가 포함하는 단어의 가중치 값, 및 상기 중심 벡터가 포함하는 단어의 가중치 값을 기반으로 계산하고,
    상기 연관성을 계산하는 경우,
    상기 컨텐츠 분석부에서 생성한 단어 벡터가 포함하는 동사의 가중치 값, 및 상기 동사와 상기 중심벡터 간의 유사도를 기반으로 계산하거나, 또는
    상기 컨텐츠 분석부에서 생성한 단어 벡터, 및 상기 주제 분류 트리가 생성되는 과정에서 해당 카테고리 중심 벡터에 연관된 동사가 추출될 때 사용된 학습 데이터의 단어 벡터 간의 유사도를 기반으로 계산하는 휴대용 단말.
  11. 제 1 항에 있어서,
    상기 컨텐츠 랭킹부는,
    상기 사용자 의도 추론부에서 추론된 명사 및 상기 컨텐츠 의미 분석부에서 추론된 명사 간의 유사도를 계산하고,
    상기 사용자 의도 추론부에서 추론된 동사 및 상기 컨텐츠 의미 분석부에서 추론된 동사 간의 유사도를 계산하고,
    상기 명사 간의 유사도 및 상기 동사 간의 유사도를 합산하여 컨텐츠를 랭킹하고 추천하는 휴대용 단말.
  12. 제 11 항에 있어서,
    상기 컨텐츠 랭킹부는,
    상기 동사 간의 유사도를 계산하는 경우,
    상기 사용자 의도 추론부로부터 선택된 명사, 및 상기 컨텐츠 의미 분석부로부터 선택된 명사가 동일한 경우, 기 계산된 동사 간의 유사도를 상기 동사 간의 유사도로서 산출하는 휴대용 단말.
  13. 제 11 항에 있어서,
    상기 컨텐츠 랭킹부는,
    상기 명사 간 유사도 및 상기 동사 간 유사도의 선형 조합에 대한 가중치 값을 이용하여 상기 명사 간의 유사도 및 상기 동사 간의 유사도를 합산하는 휴대용 단말.
  14. 휴대용 단말을 통해 컨텐츠를 추천하는 방법에 있어서,
    상기 휴대용 단말에 저장된 텍스트 데이터를 분석하고 사용자의 의도를 명사 및 동사 형태로 추론하는 단계;
    인터넷에서 수집한 컨텐츠를 분석하고 상기 컨텐츠의 의미를 명사 및 동사 형태로 추론하는 단계; 및
    상기 사용자의 의도 및 상기 컨텐츠의 의미 사이의 유사도를 계산하여 컨텐츠를 랭킹하고 추천하는 단계를 포함하는 컨텐츠 추천 방법.
  15. 제 14 항에 있어서,
    상기 사용자 의도를 명사 및 동사 형태로 추론하는 단계는,
    상기 휴대용 단말에 저장된 데이터로부터 텍스트 데이터를 추출하는 단계;
    추출한 텍스트 데이터를 단어로 구분하고, 상기 추출한 텍스트 데이터가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산하여 단어 벡터를 생성하는 단계; 및
    기 저장된 명사 및 동사 형태의 주제 분류 트리로부터 상기 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 단계를 포함하는 컨텐츠 추천 방법.
  16. 제 14 항에 있어서,
    상기 컨텐츠 의미를 명사 및 동사 형태로 추론하는 단계는,
    인터넷에서 컨텐츠를 수집하여 텍스트 데이터를 추출하는 단계;
    추출한 텍스트 데이터를 단어로 구분하고, 상기 컨텐츠가 포함하는 각 단어의 빈도수를 기반으로 각 단어의 가중치 값을 계산하여 단어 벡터를 생성하는 단계; 및
    기 저장된 명사 및 동사 형태의 주제 분류 트리로부터 상기 단어 벡터와 연관성이 높은 카테고리를 나타내는 명사 및 행동을 나타내는 동사를 선택하는 단계를 포함하는 컨텐츠 추천 방법.
  17. 제 14 항에 있어서,
    상기 컨텐츠를 랭킹하고 추천하는 단계는,
    상기 사용자 의도로서 추론된 명사 및 상기 컨텐츠 의미로서 추론된 명사 간의 유사도, 및 상기 사용자 의도로서 추론된 동사 및 상기 컨텐츠 의미로서 추론된 동사 간의 유사도를 계산하는 단계; 및
    상기 명사 간의 유사도 및 상기 동사 간의 유사도를 합산하여 컨텐츠를 랭킹하고 추천하는 단계를 포함하는 컨텐츠 추천 방법.
PCT/KR2014/005077 2013-09-16 2014-06-10 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법 WO2015037814A1 (ko)

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
KR10-2013-0111355 2013-09-16
KR20130111355 2013-09-16
KR10-2014-0008526 2014-01-23
KR1020140008526A KR101562279B1 (ko) 2013-09-16 2014-01-23 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법

Publications (1)

Publication Number Publication Date
WO2015037814A1 true WO2015037814A1 (ko) 2015-03-19

Family

ID=52665885

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2014/005077 WO2015037814A1 (ko) 2013-09-16 2014-06-10 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법

Country Status (1)

Country Link
WO (1) WO2015037814A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049499A1 (en) * 2002-08-19 2004-03-11 Matsushita Electric Industrial Co., Ltd. Document retrieval system and question answering system
JP2009064213A (ja) * 2007-09-06 2009-03-26 Nagoya Institute Of Technology 目的指向書籍推薦システム
KR20100067285A (ko) * 2008-12-11 2010-06-21 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
KR20100067288A (ko) * 2008-12-11 2010-06-21 주식회사 네오패드 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20040049499A1 (en) * 2002-08-19 2004-03-11 Matsushita Electric Industrial Co., Ltd. Document retrieval system and question answering system
JP2009064213A (ja) * 2007-09-06 2009-03-26 Nagoya Institute Of Technology 目的指向書籍推薦システム
KR20100067285A (ko) * 2008-12-11 2010-06-21 주식회사 네오패드 사용자의 의도에 기반한 정보 검색방법 및 정보 제공방법
KR20100067288A (ko) * 2008-12-11 2010-06-21 주식회사 네오패드 언어 표현 해석에 기반한 정보 검색방법 및 정보 제공방법
KR20110090354A (ko) * 2010-02-03 2011-08-10 고려대학교 산학협력단 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111723378A (zh) * 2020-06-17 2020-09-29 浙江网新恒天软件有限公司 一种基于网站地图的网站目录爆破方法

Similar Documents

Publication Publication Date Title
CN109684483B (zh) 知识图谱的构建方法、装置、计算机设备及存储介质
US10795919B2 (en) Assisted knowledge discovery and publication system and method
Papadamou et al. Understanding the incel community on youtube
Koesten et al. Everything you always wanted to know about a dataset: Studies in data summarisation
US9558267B2 (en) Real-time data mining
Malik et al. Comparing mobile apps by identifying ‘Hot’features
US9483462B2 (en) Generating training data for disambiguation
KR101562279B1 (ko) 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
JP5538185B2 (ja) テキストデータ要約装置、テキストデータ要約方法及びテキストデータ要約プログラム
JP4859779B2 (ja) 有害コンテンツの評価付与装置、プログラム及び方法
JP2011108053A (ja) ニュース記事評価システム
US20160379515A1 (en) System and method for enhancing logical thinking in curation learning
JP2017134787A (ja) 複数地域でのトピックの評価を分析する装置、プログラム及び方法
CN113961823B (zh) 新闻推荐方法、系统、存储介质及设备
Todi et al. Conversations with guis
US20140363802A1 (en) Facilitated learning-structure generation using a semantic publishing system
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2015037814A1 (ko) 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
Samantaray et al. Fake news detection using text similarity approach
Joglekar et al. Like at first sight: Understanding user engagement with the world of microvideos
JP5513929B2 (ja) 経験情報の再利用性評価装置及び方法及びプログラム
Sworna et al. IRP2API: Automated Mapping of Cyber Security Incident Response Plan to Security Tools’ APIs
Bing et al. Unsupervised extraction of popular product attributes from web sites
CN114757146A (zh) 一种文本编辑方法、装置、电子设备和存储介质
JP6985181B2 (ja) 情報処理装置、情報処理方法、およびプログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 14843336

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 14843336

Country of ref document: EP

Kind code of ref document: A1