WO2011096690A2 - 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법 - Google Patents

사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법 Download PDF

Info

Publication number
WO2011096690A2
WO2011096690A2 PCT/KR2011/000663 KR2011000663W WO2011096690A2 WO 2011096690 A2 WO2011096690 A2 WO 2011096690A2 KR 2011000663 W KR2011000663 W KR 2011000663W WO 2011096690 A2 WO2011096690 A2 WO 2011096690A2
Authority
WO
WIPO (PCT)
Prior art keywords
similarity
word
classification tree
directory
text data
Prior art date
Application number
PCT/KR2011/000663
Other languages
English (en)
French (fr)
Other versions
WO2011096690A3 (ko
Inventor
이상근
하종우
이정현
Original Assignee
고려대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 고려대학교 산학협력단 filed Critical 고려대학교 산학협력단
Priority to EP11739986.5A priority Critical patent/EP2533430B1/en
Priority to US13/577,149 priority patent/US9323845B2/en
Publication of WO2011096690A2 publication Critical patent/WO2011096690A2/ko
Publication of WO2011096690A3 publication Critical patent/WO2011096690A3/ko

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/50Network services
    • H04L67/535Tracking the activity of the user
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising

Definitions

  • the present invention relates to a portable communication terminal and method for extracting a user interest topic, and more particularly, to a portable communication terminal and a method for extracting a user interest topic for extracting a user interest topic.
  • a commonly used method to grasp the user's interest is to receive the user's interest directly.
  • a user's interest may be acquired through a GUI that provides a user with a list of interests, or the user may directly specify a word of interest.
  • this conventional method has a problem that it is difficult to grasp the user's interests when the user does not have an active response in an environment where input is inconvenient, such as a portable communication terminal.
  • Some embodiments of the present invention use the text data included in the data generated in the portable communication terminal to grasp the user's interest topic, so that the user does not have to explicitly enter data on his or her topic of interest.
  • An object of the present invention is to provide a portable communication terminal for extracting a user interest topic that can be extracted.
  • some embodiments of the present invention output a user interest topic as a node name of a subject classification tree generated by processing the published directory data, thereby extracting a user interest topic capable of securing the user interest topic.
  • the purpose is to provide.
  • Another object of the present invention is to provide a portable communication terminal for extracting a user interest topic that can grasp a higher concept of a user interest topic due to the characteristics of a topic classification tree.
  • a portable communication terminal for extracting a user interest subject is a word vector representing each text data according to the type of text data stored in the portable communication terminal
  • a subject classification tree storage unit for generating a word vector generating unit, a subject classification tree including one or more training data, and a plurality of nodes representing a subject connected in a tree structure, and each node included in the word vector and the subject classification tree.
  • a similarity calculating unit may be configured to calculate similarity between different learning data, and the similarity calculating unit extracts a node name to represent a user's subject of interest from the subject classification tree according to the similarity.
  • the method of extracting a user interest subject includes the steps of extracting a word from text data stored in a portable communication terminal by a word extractor, a frequency of use of each word used in the text data by a word weight calculator, Calculating a word weight based on a generation time of the text data including the word; generating a word vector representing each text data according to the type of the text data based on the word weight;
  • Computing unit includes a step of calculating the similarity between the learning data for each node and the word vector included in the topic classification tree in which a plurality of nodes representing the topic is connected in a tree structure, wherein the similarity calculator is calculated similarity According to your Extract node names to represent topics of interest.
  • FIG. 1 is a block diagram of a subject classification tree apparatus according to an embodiment of the present invention.
  • FIG. 2 is a diagram illustrating a method of processing a published directory data according to an embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a method of processing the published directory data according to an embodiment of the present invention.
  • FIG. 4 is a diagram for formulating a method for processing published directory data according to an embodiment of the present invention.
  • FIG. 5 shows a part of a subject classification tree created using a directory structure of an open directory project according to an embodiment of the present invention.
  • FIG. 6 is a diagram for formulating the learning data generation step according to an embodiment of the present invention.
  • FIG. 7 is a conceptual diagram of learning data generated in each node according to an embodiment of the present invention.
  • FIG. 8 is a diagram illustrating a modification of the configuration of a classification unit according to an exemplary embodiment of the present invention.
  • FIG. 9 is a block diagram of a portable communication terminal for extracting a user interest subject according to an embodiment of the present invention.
  • FIG. 10 is a conceptual diagram of extracting text data from input data according to an embodiment of the present invention and storing the text data in an XML form.
  • FIG. 11 is a conceptual diagram of analyzing a text data to generate a word vector according to an embodiment of the present invention.
  • FIG. 12 is a conceptual diagram of extracting a node name corresponding to a user interest subject based on a similarity by analyzing text data according to an embodiment of the present invention.
  • FIG. 13 is a flowchart for generating a subject classification tree according to an embodiment of the present invention.
  • FIG. 14 is a flowchart for extracting a node name corresponding to a user interest subject from a subject classification tree according to an embodiment of the present invention.
  • FIG. 1 is a block diagram of a subject classification tree apparatus according to an embodiment of the present invention.
  • the subject classification tree apparatus 100 includes a public directory data collector 110, a subject classification tree generator 120, a training data generator 130, and a classification unit 140. do.
  • the subject classification tree apparatus 100 may operate in conjunction with the portable communication terminal 200 for extracting a user interest topic to be described later, or may include components of the portable communication terminal 200 for extracting a user interest topic.
  • a portable communication terminal 200 for extracting a user interest topic will be described with reference to FIG. 9.
  • the public directory data collector 110 collects various public directories and web page information included in each directory.
  • the open directory data collector 110 mines data of an open directory project (ODP, Open Directory Project, http://www.dmoz.org/) or open directory data posted on various portal sites.
  • ODP Open Directory Project
  • http://www.dmoz.org/ open directory Project
  • the Open Directory Project is the most comprehensive web directory edited by the human hand, and is built and managed by the world's largest resource editing community.
  • the data released by the Open Directory Project includes a directory structure for categorizing Web sites and a list of Web sites categorized by people in each directory.
  • the subject classification tree generation unit 120 generates the subject classification tree by processing the open directory data.
  • the subject classification tree generating unit 120 includes a directory for simple dictionary classification in addition to the directory representing the concept and the subject of the real world, the subject classification tree generating unit 120 may generate the subject classification tree by removing it when generating the classification tree.
  • the subject classification tree generation unit 120 may generate a subject classification tree by selecting a directory representing a concept and a subject suitable for the user's interest.
  • the following four filtering steps may be performed to generate the subject classification tree.
  • directories that do not represent a subject are removed from the entire directory of published directory data.
  • directories that do not represent a subject are removed from the entire directory of published directory data.
  • the "World” and “Regional” directories that overlap with other directories in the top-level directory and that are configured in various languages may be removed.
  • the child directories of the "World” directory may be selected and applied according to the target language of the subject classification tree.
  • intermediate directories that simply use alphabets (A, B, C, ...) or numbers (1, 2, 3, ...) as directory names can be removed, and their subtrees can be linked to their parent directories.
  • leaf directories that are frequently repeated for each directory can be removed without indicating a particular subject.
  • a directory including the number of web pages smaller than a threshold among directories included in the published directory data may be removed.
  • FIG. 2 is a diagram illustrating a method of processing a published directory data according to an embodiment of the present invention.
  • the subject classification tree generating unit 120 may include each directory ( ) Includes the number of web pages ( ) Is the threshold ( If less than), you can remove that directory.
  • the subject classification tree generation unit 120 performs a given parameter in each path leading to all the leaf nodes of the tree. Subnodes can be removed by
  • FIG. 3 is a diagram illustrating a method of processing the published directory data according to an embodiment of the present invention.
  • the subject classification tree generation unit 120 may determine the depth of each directory (dep ( Depth of lowest directory () )) Is the threshold ( If greater than), you can remove that directory.
  • the depth of directory D2 is 2 and the lowest directory ( ) Has a depth of 3.
  • dep ( ) / maxdep ( ) 3/3, which is the threshold ( Greater than), so that directory ( ) Can be removed.
  • a vector space model can be applied to the web pages of each directory to ensure sufficient differentiation between the topics to improve the accuracy of the topic of interest to the user.
  • FIG. 4 is a diagram for formulating a method for processing published directory data according to an embodiment of the present invention.
  • the subject classification tree generating unit 120 converts information about a web page of each directory into a word vector, and then generates a centroid vector for each directory based on each word vector.
  • the cosine similarity between the parent directory and the centroid vector of the child directory can be calculated, and if the value is greater than or equal to the threshold value, the child directory can be removed.
  • the cosine similarity may be calculated based on Equation 1.
  • the subject classification tree generation unit 120 may remove the directory according to the four steps described above, and convert the remaining directory into each node of the subject classification tree.
  • the subject classification tree generation unit 120 may set a directory name as a node name, and generate a subject classification tree by converting a parent-child relationship between directories into edges between nodes. In this case, one or more of the steps of filtering the directory may be selectively applied.
  • FIG. 5 shows a part of a subject classification tree created using a directory structure of an open directory project according to an embodiment of the present invention.
  • the directory structure of the Open Directory project is tree-shaped.
  • the total number of directories is about 590,000, the maximum tree depth is 15 levels, and the number of top level directories is 16.
  • a topic classification tree can be generated by viewing it as any user's interests.
  • the subject classification tree generation unit 120 may generate a subject classification tree by selecting a directory representing a concept and a subject suitable as a user's interest.
  • the training data generation unit 130 generates training data representing each directory based on text data information of a web site included in each directory among the published directory data.
  • 6 is a diagram for formulating the learning data generation step according to an embodiment of the present invention.
  • 7 is a conceptual diagram of learning data generated in each node according to an embodiment of the present invention.
  • the training data generation unit 130 converts the text data information of the web page into a word vector, calculates a centroid vector for each directory based on each word vector, and centroids of the child directories from the lowest directory. By obtaining a vector sum between the vector and the centroid vector of the parent directory, a merge centroid vector of each parent directory may be calculated.
  • the reason for calculating the merge centroid vector is to ensure that the parent directory contains the concept of a child directory. To do this, it calculates its merged centroid vector by finding the sum of vectors between the centroid vectors of its child directories and its centroid vector, starting from the lowest directory. The detailed algorithm is as shown in FIG.
  • the learning data generator 130 may convert the text data into a word vector based on the text data information.
  • the training data generation unit 130 configures text data 702 including a title and a description as a single document, and each document includes training data for each node of the subject separation tree. Can be generated as The word vector conversion and centroid vector calculation process may be performed according to the equation of FIG. 4.
  • the classification unit 140 maps the generated directory-specific training data to directories included in the subject classification tree.
  • the classification unit 140 may map the calculated merge centroid vector to a directory included in the subject classification tree.
  • FIG. 8 is a diagram illustrating a modification of the configuration of a classification unit according to an exemplary embodiment of the present invention.
  • the classification unit 140 described above converts the text data of the web pages to be classified into the word vector d in the vector space model.
  • the cosine similarity between the merged centroid vector (mc) and the word vectors (d) representing each node of the generated subject classification tree is calculated, and the web is classified into the node (class (d)) having the highest cosine similarity. Determine the topic of the page.
  • the classifier 140 may include a Rocchio classifier in the vector space model.
  • the user's interest is expressed in the form of node names in the subject classification tree through the similarity between the learning data for each node included in the above-described subject classification tree and the word vector representing text data included in the data generated in the portable communication terminal to be described later. Can be extracted. This will be described later in more detail with reference to FIG. 9.
  • FIG. 9 is a block diagram of a portable communication terminal for extracting a user interest subject according to an embodiment of the present invention.
  • the portable communication terminal 200 extracting a user interest topic may include a word vector generator 210, a subject classification tree storage 215, a similarity calculator 220, and an information storage 230.
  • the portable communication terminal 200 extracting a user interest subject may include the components of FIG. 1 described above or may operate in conjunction with the subject classification tree apparatus 100.
  • the word vector generator 210 generates a word vector representing each text data according to the type of text data stored in the portable communication terminal. To this end, the word vector generator 210 includes a word extractor 212 and a word weight calculator 214.
  • the word extractor 212 extracts a word from text data.
  • the text data may be text data extracted from at least one of a text message, a file name, an e-mail, and a mobile web usage history generated by the portable communication terminal. That is, the word extractor 212 may extract a word from text data generated when a user sends a text message to a mobile phone, writes an email, stores a user file, and searches through a web connection.
  • FIG. 10 is a conceptual diagram of extracting text data from input data according to an embodiment of the present invention and storing the text data in an XML form.
  • the word extractor 212 extracts a word from text data such as a text message 1002, an e-mail 1004, a file name 1006, a mobile web usage history 1008, etc. generated in the portable communication terminal ( S1001).
  • the text data may include meta data as information related to the text data.
  • the information related to the text data may include the type of text data (eg, SMS, FILE, EMAIL, etc.) including the text data, the text data generation time, the generation location, and related application information.
  • the word extractor 212 may extract a word for text data generated during a specific set period, and may store information related to the text data in the following information storage 230 in the form of an XML file (S1011). .
  • the XML data 1010 may include lists (1) for each text type, information (3) for the text data, and information (2) for the time at which the text data was generated.
  • the word weight calculator 214 calculates a word weight based on a frequency of use of each word used in the text data and a generation time of the text data including the word. For example, when the user mainly uses a lot of text messages, more weight may be given to the text message type than other types of text data. In addition, since recently generated data may better represent a current user's interest, a weight may be given to a time at which text data including the corresponding word is generated.
  • the word weight calculator 214 calculates a word weight based on the frequency of use of each word and the generation time of the text data including the word, and the word vector generator 210 calculates the word weight based on the word data. According to the type, a word vector representing each text data can be generated. Here, the word weight calculator 214 may further assign weights according to the type of text data.
  • FIG. 11 is a conceptual diagram of analyzing a text data to generate a word vector according to an embodiment of the present invention.
  • the word weight calculator 214 may parse the XML data 1010 described above through an XML parser and load the result into a memory (S1101).
  • the word vector generator 210 uses the analyzed information to generate a vector space model based on the word weight.
  • a word vector 1110 may be generated.
  • the word vector 1110 is a basic classification unit.
  • the word vector 1110 may be defined as a vector having individual terms forming the text data as a dimension and having a word weight as a value for each word.
  • the word weight may be calculated by calculating a word frequency and a time weight.
  • the word frequency represents the number of times of use 1104 of the individual words 1102 included in the extracted text data, as shown in FIG. 11, which is a word that frequently appears in the extracted text data to indicate the user's interest. It is an important word.
  • a weight may be assigned to the word according to the type of the text data from which the text data including the word is extracted.
  • the time weight 1106 is a weight according to the text data generation time among the metadata of the text data including each word. In this case, it may be represented by a range of 0 to 1 how close the generation time of the text data including the word is to the current time at which the word vector 1110 is calculated.
  • the word vector 1110 may be generated one by one according to the type of text data, for example, a location where the extracted text data is generated and a type of an application program associated with the text data.
  • the word vector generation unit 210 may represent a word vector representing each text data according to text types such as SMS (Short Message Service) / MMS (Multimedia Messaging Service) text message, file name, email, and mobile web usage history. Can be created individually.
  • at least one word vector representing each text data may be generated for each text type according to a word weight including a word frequency and a time weight as a value.
  • the subject classification tree storage unit 215 stores one or more pieces of learning data and a subject classification tree in which a plurality of nodes representing a subject are connected in a tree structure. Since the method of generating the subject classification tree has been described in detail with reference to FIG. 1, it will be omitted below.
  • the similarity calculator 220 calculates a similarity between the word vector 1110 representing the text data included in the data generated in the portable communication terminal and the learning data for each node included in the subject classification tree.
  • FIG. 12 is a conceptual diagram of extracting a node name corresponding to a user interest subject based on a similarity by analyzing text data according to an embodiment of the present invention.
  • the similarity calculator 220 uses the classification algorithm to select a word vector 1110 representing text data included in data generated in a portable communication terminal. It corresponds to each node of (S1201).
  • the classification algorithm may include a support vector machine, a native bayesian, a K-NN (K-Nearest Neighbor), and the like.
  • the similarity calculator 220 calculates a similarity 1202 between the word vector 1110 and the training data of the corresponding node.
  • the similarity calculator 220 may calculate the similarity between the word vector 1110 and the training data for each node to extract the top N node names 1204 having the high similarity 1202 according to the similarity 1202 score.
  • the similarity calculator 220 may calculate the final similarity value of the upper node by summing all similarity values for the lower nodes belonging to the same upper node in each node of the subject classification tree 1200.
  • the similarity calculator 220 may extract, as the user interest subject, a node name having the highest similarity value among the higher nodes belonging to the same hierarchy in the subject classification tree 1200.
  • the similarity of the soccer node may be calculated by summing all values of the similarity values for the lower nodes of the soccer node. Therefore, when the similarity value is the largest value of football, a node name of Top / Sports / Soccer may be extracted as a corresponding user interest topic.
  • all the similarities of the same layer such as soccer, baseball, etc. may be added together to finally calculate the similarity of the sports node of the upper node.
  • the node name Top / Sports may be extracted as the user interest topic.
  • the information storage unit 230 may include a program, an algorithm, a setting value, information on a tree structure, a similarity value for each node, learning data information for each node, data type information, and the like for performing the present invention. It stores information about word vectors.
  • FIG. 13 is a flowchart for generating a subject classification tree according to an embodiment of the present invention.
  • the public directory data collection unit 110 collects various directories and web page information included in each directory (S1301). For example, data of an open directory project (ODP) or open directory data posted on various portal sites are mined.
  • ODP open directory project
  • the subject classification tree generating unit 120 processes the collected directory data to generate a subject classification tree (S1311).
  • One or more of the four filtering methods described above may be selectively used for generating the subject classification tree.
  • the training data generation unit 130 generates training data representing each directory based on the text data information of the web site included in each directory among the collected directory data (S1321). To this end, the learning data generation unit 130 converts the text data information of the web page into a word vector and then calculates the centroid vector for each directory based on each word vector, and the centroid vector of the child directory from the lowest directory. The sum of the vectors between and the centroid vector of the parent directory is obtained, and the merge centroid vector of each parent directory is calculated.
  • the classification unit 140 corresponds directory-specific training data to directories included in the subject classification tree (S1331).
  • the classification unit 140 may map the calculated merge centroid vector to a directory included in the subject classification tree.
  • FIG. 14 is a flowchart for extracting a node name corresponding to a user interest subject from a subject classification tree according to an embodiment of the present invention.
  • the word extractor 212 extracts a word from text data stored in the portable communication terminal (S1401).
  • the word weight calculator 214 calculates a word weight based on the frequency of use of each word used in the text data and the generation time of the text data including the word (S1411).
  • the word vector generation unit 210 generates a word vector representing each text data based on the type of the text data based on the word weight (S1421).
  • the similarity calculator 220 corresponds the word vector to the nodes of the subject classification tree (S1431), and calculates the similarity between the word vector and the training data for each node included in the subject classification tree (S1441).
  • the similarity calculator 220 extracts a node name representing a user interest topic from the subject classification tree according to the similarity.
  • the similarity calculator 220 may extract a node name having the highest similarity among subject classification trees as a user interest topic.
  • the similarity calculating unit 220 may extract the highest node name having the highest final calculated value as a user interest topic by summing all values of similarity for the same node in each node of the subject classification tree.
  • the above-described subject classification tree storage unit 215 and information storage unit 230 may include a cache, a read only memory (ROM), a programmable ROM (PROM), an erasable programmable ROM (EPROM), and an electrically erasable programmable (EPPROM).
  • ROM read only memory
  • PROM programmable ROM
  • EPROM erasable programmable ROM
  • EPPROM electrically erasable programmable
  • Non-volatile memory devices such as ROM and Flash memory or volatile memory devices such as random access memory (RAM) or at least one of a storage medium such as a hard disk drive (HDD) or a CD-ROM. May be, but is not limited to
  • each component illustrated in FIGS. 1 and 9 may be configured as a kind of 'module'.
  • the 'module' refers to a hardware component such as software or a field programmable gate array (FPGA) or an application specific integrated circuit (ASIC), and the module plays a role.
  • modules are not meant to be limited to software or hardware.
  • the module may be configured to be in an addressable storage medium and may be configured to execute one or more processors.
  • the functionality provided by the components and modules may be combined into a smaller number of components and modules or further separated into additional components and modules.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Finance (AREA)
  • Development Economics (AREA)
  • Accounting & Taxation (AREA)
  • Evolutionary Biology (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Computation (AREA)
  • Marketing (AREA)
  • Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • General Business, Economics & Management (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Computer Hardware Design (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Signal Processing (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Mobile Radio Communication Systems (AREA)

Abstract

사용자 관심 주제를 추출하는 휴대용 통신 단말기는 휴대용 통신 단말기에 저장된 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성하는 단어 벡터 생성부와, 하나 이상의 학습 데이터를 포함하고, 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리를 저장하는 주제 분류 트리 저장부 및 단어 벡터와 주제 분류 트리에 포함된 각 노드별 학습 데이터간의 유사도를 산출하는 유사도 산출부를 포함하되, 유사도 산출부는 유사도에 따라 주제 분류 트리 중에서 사용자의 관심 주제를 대표할 노드명을 추출한다.

Description

사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
본 발명은 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법에 관한 것으로서, 보다 상세하게는, 사용자 관심 주제를 추출하는 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법에 관한 것이다.
최근 휴대용 통신 단말기의 인터넷 활성화와 휴대용 통신 단말기의 개인화된 특성에 따라 휴대용 통신 단말기 환경에서 뉴스 추천, 맞춤형 광고 등 개인화된 정보 서비스를 제공하기 위한 기술이 개발되고 있다. 이러한 개인화된 정보 서비스를 제공하기 위해서는 사용자의 관심 사항을 파악하는 것이 필수적인 요소이다.
사용자의 관심 사항을 파악하기 위하여 일반적으로 활용되는 방법은 사용자의 관심 사항을 직접적으로 입력받는 것이다. 예를 들어, 사용자에게 관심정보 리스트를 제공하는 GUI를 통하여 사용자의 관심 사항을 획득하거나, 사용자가 관심 단어를 직접 지정할 수 있다.
그러나, 이러한 종래 방법은 사용자가 휴대용 통신 단말기와 같이 입력이 불편한 환경에서 적극적인 호응이 없을 경우 해당 사용자의 관심 사항을 파악하기가 어려운 문제점 있다.
또한, 사용자의 관심 사항을 자동으로 파악하기 위해, 사용자 단말기에 설치된 소프트웨어를 통하여 사용자의 검색 키워드를 자동으로 추출하고, 이를 사용자 관심 사항으로 간주하는 방법이 있다.
그러나, 이러한 종래 기술은 사용자의 검색 키워드를 모두 서버에 전송하기 때문에 전송 과정에서의 보안 문제가 발생할 수 있다. 그리고, 주로 사용자의 검색 키워드를 대상으로 하기 때문에 사용자 관심 사항을 파악하는 데에 있어서 추출 범위 및 추출 대상에 있어서 한계가 있다.
본 발명의 일부 실시예는 휴대용 통신 단말기에서 생성되는 데이터에 포함된 텍스트 데이터를 이용하여 사용자 관심 주제를 파악함으로써, 사용자가 명시적으로 자신의 관심 주제에 대한 데이터를 입력하지 않아도 보다 정확한 사용자 관심 주제를 추출할 수 있는 사용자 관심 주제를 추출하는 휴대용 통신 단말기를 제공하는 데에 그 목적이 있다.
또한, 본 발명의 일부 실시예는 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리의 노드명으로 사용자 관심 주제를 출력하므로, 사용자 관심 주제에 대한 보안이 가능한 사용자 관심 주제를 추출하는 휴대용 통신 단말기를 제공하는 데에 그 목적이 있다.
또한, 본 발명의 일부 실시예는 주제 분류 트리의 특성상 사용자 관심 주제에 대한 상위 개념의 파악이 가능한 사용자 관심 주제를 추출하는 휴대용 통신 단말기를 제공하는 데에 그 목적이 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 실시예에 따른 사용자 관심 주제를 추출하는 휴대용 통신 단말기는 휴대용 통신 단말기에 저장된 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성하는 단어 벡터 생성부와, 하나 이상의 학습 데이터를 포함하고, 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리를 저장하는 주제 분류 트리 저장부 및 단어 벡터와 주제 분류 트리에 포함된 각 노드별 학습 데이터간의 유사도를 산출하는 유사도 산출부를 포함하되, 유사도 산출부는 유사도에 따라 주제 분류 트리 중에서 사용자의 관심 주제를 대표할 노드명을 추출한다.
또한, 본 발명의 일 실시예에 따른 사용자 관심 주제 추출 방법은 단어 추출부가 휴대용 통신 단말기에 저장된 텍스트 데이터로부터 단어를 추출하는 단계와, 단어 가중치 산출부가 텍스트 데이터 내에서 사용되는 각 단어의 사용 빈도수, 및 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출하는 단계와, 단어 벡터 생성부가 단어 가중치를 기초로 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성하는 단계 및 유사도 산출부가 하나 이상의 학습 데이터를 포함하고 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리에 포함된 각 노드별 학습 데이터와 단어 벡터간의 유사도를 산출하는 단계를 포함하되, 유사도 산출부는 산출된 유사도에 따라 주제 분류 트리 중에서 사용자의 관심 주제를 대표할 노드명을 추출한다.
전술한 본 발명의 과제 해결 수단에 의하면, 휴대용 통신 단말기에서 생성되는 데이터에 포함된 텍스트 데이터를 이용하여 사용자 관심 주제를 파악함으로써, 사용자가 명시적으로 자신의 관심 주제에 대한 데이터를 입력하지 않아도 보다 정확한 사용자 관심 주제를 추출할 수 있는 장점이 있다.
더불어, 사용자가 직접 입력한 텍스트뿐만 아니라 사용자가 접근한 웹 페이지, 시청한 방송 프로그램 제목 및 설명문, 받은 편지함 등과 같이 텍스트 형태로 표현되는 모든 데이터가 분석의 대상이 되므로, 사용자가 IP-TV를 사용하여 웹 서비스를 받는 경우에도 응용할 수 있다는 확장성이 있다.
또한, 전술한 본 발명의 과제 해결 수단에 의하면, 공개된 디렉토리 데이터를 가공하여 생성된 주제 분류 트리의 노드명으로 사용자 관심 주제를 출력하므로, 사용자 관심 주제에 대한 보안이 가능한 장점이 있다.
그리고, 주제 분류 트리의 특성상 사용자 관심 주제에 대한 상위 개념의 파악이 가능한 장점이 있다.
도 1은 본 발명의 일 실시예에 따른 주제 분류 트리 장치의 블록도이다.
도 2는 본 발명의 일 실시예에 따른 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
도 3은 본 발명의 일 실시예에 따른 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
도 4는 본 발명의 일 실시예에 따라 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
도 5는 본 발명의 일실시예에 따른 오픈 디렉토리 프로젝트의 디렉토리 구조를 이용하여 생성된 주제 분류 트리의 일부를 나타낸다.
도 6은 본 발명의 일 실시예에 따른 학습 데이터 생성 단계를 수식화한 도면이다.
도 7은 본 발명의 일 실시예에 따른 각 노드에 생성된 학습 데이터에 대한 개념도이다.
도 8은 본 발명의 일 실시예에 따른 분류부의 구성을 수식화한 도면이다.
도 9는 본 발명의 일 실시예에 따른 사용자 관심 주제를 추출하는 휴대용 통신 단말기의 블록도이다.
도 10은 본 발명의 일 실시예에 따른 입력되는 데이터에서 텍스트 데이터를 추출하여 XML 형태로 저장하는 개념도이다.
도 11은 본 발명의 일 실시예에 따른 텍스트 데이터를 분석하여 단어 벡터를 생성하는 개념도이다.
도 12는 본 발명의 일 실시예에 따른 텍스트 데이터를 분석하여 유사도에 따라 사용자 관심 주제에 해당하는 노드명을 추출하는 개념도이다.
도 13은 본 발명의 일 실시예에 따른 주제 분류 트리를 생성하는 순서도이다.
도 14는 본 발명의 일 실시예에 따른 주제 분류 트리에서 사용자 관심 주제에 해당하는 노드명을 추출하는 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였으며, 명세서 전체를 통하여 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
명세서 전체에서, 어떤 부분이 다른 부분과 "연결"되어 있다고 할 때, 이는 "직접적으로 연결"되어 있는 경우뿐 아니라, 그 중간에 다른 소자를 사이에 두고 "전기적으로 연결"되어 있는 경우도 포함한다. 또한 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 주제 분류 트리 장치의 블록도이다.
도 1에 도시된 바와 같이, 주제 분류 트리 장치(100)는 공개 디렉토리 데이터 수집부(110), 주제 분류 트리 생성부(120), 학습 데이터 생성부(130), 및 분류부(140)를 포함한다. 주제 분류 트리 장치(100)는 후술될 사용자 관심 주제를 추출하는 휴대용 통신 단말기(200)와 연동되어 동작하거나, 사용자 관심 주제를 추출하는 휴대용 통신 단말기(200)의 구성요소들을 포함할 수 있다. 사용자 관심 주제를 추출하는 휴대용 통신 단말기(200)에 대해서는 도 9에서 설명하기로 한다.
먼저 공개 디렉토리 데이터 수집부(110)는 공개되어 있는 각종 디렉토리 및 각 디렉토리에 포함되는 웹 페이지 정보를 수집한다. 예를 들면, 공개 디렉토리 데이터 수집부(110)는 오픈 디렉토리 프로젝트(ODP, Open Directory Project, http://www.dmoz.org/)의 데이터 또는 각종 포털 사이트에 게시된 공개 디렉토리 데이터를 마이닝한다.
오픈 디렉토리 프로젝트란, 인간의 손에 의해 편집되는 가장 포괄적인 웹 디렉토리로서, 세계규모의 거대한 자원 편집 커뮤니티에 의해 구축 및 관리되고 있다. 오픈 디렉토리 프로젝트에서 공개하는 데이터에는 웹 사이트를 분류하기 위한 디렉토리의 구조와 각 디렉토리마다 사람에 의해 분류된 웹 사이트들의 리스트가 포함된다.
주제 분류 트리 생성부(120)는 공개된 디렉토리 데이터를 가공하여 주제 분류 트리를 생성한다. 여기서 주제 분류 트리 생성부(120)는 실세계의 개념 및 주제를 나타내는 디렉토리 이외에도 단순한 사전식 분류를 위한 디렉토리 등이 있기 때문에, 분류 트리 생성시 이를 제거하여 주제 분류 트리를 생성할 수 있다.
또한, 주제 분류 트리 생성부(120)는 사용자의 관심 사항으로 적당한 개념 및 주제들을 나타내는 디렉토리를 선별하여 주제 분류 트리를 생성할 수 있다. 여기서, 본 발명의 실시예에서는 주제 분류 트리 생성을 위해 하기의 네 가지 필터링 단계를 거칠 수 있다.
첫 번째 단계에서는, 공개된 디렉토리 데이터의 전체 디렉토리 중에서 주제를 나타내지 않는 디렉토리가 제거된다. 예를 들어, 최상위 디렉토리 중 다른 디렉토리와 중복이 되고 또한 다양한 언어로 구성되는 "World", "Regional" 디렉토리가 제거될 수 있다.
여기서 주제 분류 트리의 대상 언어에 따라 "World" 디렉토리의 자식 디렉토리가 선별되어 적용될 수 있다. 또한, 단순히 알파벳(A, B, C, …)이나 숫자(1, 2, 3, …)를 디렉토리 이름으로 사용하는 중간 디렉토리들이 제거되고, 그 서브 트리가 상위 디렉토리에 연결될 수 있다. 또한, 특정 주제를 나타내지 않고 각 디렉토리마다 자주 반복되는 리프 디렉토리들이 제거될 수 있다.
두 번째 단계에서는, 공개된 디렉토리 데이터에 포함된 디렉토리들 중 임계값보다 작은 개수의 웹 페이지를 포함하는 디렉토리가 제거될 수 있다.
도 2는 본 발명의 일 실시예에 따른 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
이어서 설명하자면, 도 2에 도시된 바와 같이, 주제 분류 트리 생성부(120)는 각 디렉토리(
Figure PCTKR2011000663-appb-I000001
)에 포함된 웹 페이지의 개수(
Figure PCTKR2011000663-appb-I000002
)가 임계값(
Figure PCTKR2011000663-appb-I000003
) 보다 적은 경우, 해당 디렉토리를 제거할 수 있다.
세 번째 단계에서는, 일반성과 구체성을 적정한 수준에서 보장하는 주제를 선별하기 위해, 주제 분류 트리 생성부(120)는 트리의 모든 리프 노드까지 이르는 각각의 경로에서 주어진 파라미터(
Figure PCTKR2011000663-appb-I000004
) 비율로 하위노드들을 제거할 수 있다.
도 3은 본 발명의 일 실시예에 따른 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
도 3의 수식에 기재된 바와 같이, 주제 분류 트리 생성부(120)는 각 디렉토리의 깊이(dep(
Figure PCTKR2011000663-appb-I000005
))에 대한 최하위 디렉토리의 깊이(maxdep(
Figure PCTKR2011000663-appb-I000006
))의 비율이 임계값(
Figure PCTKR2011000663-appb-I000007
) 보다 큰 경우 해당 디렉토리를 제거할 수 있다.
그리고 도 3에 도시된 예에서, 디렉토리(D2)의 깊이는 2 이고, 최하위 디렉토리(
Figure PCTKR2011000663-appb-I000008
)의 깊이는 3 이 된다. 임계값(
Figure PCTKR2011000663-appb-I000009
)이 0.8이라고 가정하면, dep(
Figure PCTKR2011000663-appb-I000010
)/ maxdep(
Figure PCTKR2011000663-appb-I000011
)=2/3 이고, 이는 임계값(
Figure PCTKR2011000663-appb-I000012
)보다 작으므로, 해당 디렉토리(
Figure PCTKR2011000663-appb-I000013
)는 유지시킨다. 그러나, dep(
Figure PCTKR2011000663-appb-I000014
)/ maxdep(
Figure PCTKR2011000663-appb-I000015
)=3/3 이고, 이는 임계값(
Figure PCTKR2011000663-appb-I000016
)보다 크므로, 해당 디렉토리(
Figure PCTKR2011000663-appb-I000017
)는 제거될 수 있다.
네 번째 단계에서는, 각 주제들 간의 충분한 차별성을 보장하여 사용자 관심 주제의 정확도를 향상시키기 위해, 각 디렉토리의 웹 페이지에 벡터 스페이스 모델이 적용될 수 있다.
도 4는 본 발명의 일 실시예에 따라 공개된 디렉토리 데이터를 가공하는 방법을 수식화한 도면이다.
도 4에 도시된 바와 같이, 주제 분류 트리 생성부(120)는 각 디렉토리의 웹 페이지에 대한 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터(centroid vector)를 산출하고, 부모 디렉토리와 자식 디렉토리의 센트로이드 벡터 사이의 코사인 유사도를 산출하여, 그 값이 임계값 이상인 경우에는 자식 디렉토리를 제거할 수 있다. 이때, 코사인 유사도는 수학식 1을 기초로 산출될 수 있다.
수학식 1
Figure PCTKR2011000663-appb-M000001
이와 같이, 주제 분류 트리 생성부(120)는 상술된 네 가지 단계에 따라 디렉토리를 제거할 수 있으며, 남은 디렉토리를 주제 분류 트리의 각 노드로 변환할 수 있다.
그리고, 주제 분류 트리 생성부(120)는 디렉토리 이름을 노드 이름으로 정하며, 디렉토리 간의 부모-자식 관계를 각 노드 사이의 간선으로 변환하여 주제 분류 트리를 생성할 수 있다. 이때, 디렉토리를 필터링하는 단계들 중 하나 이상이 선택적으로 적용될 수 있다.
도 5는 본 발명의 일실시예에 따른 오픈 디렉토리 프로젝트의 디렉토리 구조를 이용하여 생성된 주제 분류 트리의 일부를 나타낸다.
오픈 디렉토리 프로젝트에 존재하는 디렉토리의 구조는 트리 형태로 이루어져 있으며, 전체 디렉토리의 수는 약 59만개, 최대 트리 깊이는 15레벨이며, 최상위 레벨의 디렉토리의 개수는 16개이다.
도 5에 도시된 바와 같이, 이러한 디렉토리들은 각각 실세계의 하나의 개념 및 주제를 나타내기 때문에, 이를 임의의 사용자의 관심 사항들로 보고 주제 분류 트리가 생성될 수 있다.
여기서 상술된 네 가지 단계를 활용하여, 주제 분류 트리 생성부(120)는 사용자의 관심 사항으로 적당한 개념 및 주제들을 나타내는 디렉토리를 선별하여 주제 분류 트리를 생성할 수 있다.
다시 도 1을 참조하면, 학습 데이터 생성부(130)는 공개된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 데이터 정보에 기초하여 각 디렉토리를 대표하는 학습 데이터를 생성한다.
도 6은 본 발명의 일 실시예에 따른 학습 데이터 생성 단계를 수식화한 도면이다. 그리고 도 7은 본 발명의 일 실시예에 따른 각 노드에 생성된 학습 데이터에 대한 개념도이다.
이어서 설명하자면, 학습 데이터 생성부(130)는 웹 페이지의 텍스트 데이터 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하고, 최하위 디렉토리부터 자식 디렉토리의 센트로이드 벡터와 부모 디렉토리의 센트로이드 벡터간의 벡터 합을 구하여, 각 부모 디렉토리의 병합 센트로이드 벡터(merge centroid vector)를 산출할 수 있다.
여기서 병합 센트로이드 벡터을 산출하는 이유는 부모 디렉토리가 자식 디렉토리의 개념을 포함하도록 하기 위함이다. 이를 위해, 가장 하위의 디렉토리부터 시작하여 자식 디렉토리들의 센트로이드 벡터와 자신의 센트로이드 벡터간의 벡터 합을 구하여 자신의 병합 센트로이드 벡터를 계산한다. 상세 알고리즘은 도 6에 도시된 바와 같다.
그리고, 각 웹 페이지의 텍스트 데이터 정보는 웹 사이트 주소(URL), 제목(Title), 설명(Description)을 포함하므로, 학습 데이터 생성부(130)는 이를 기초로 단어 벡터로 변환할 수 있다. 이때 도 7에 도시된 바와 같이, 학습 데이터 생성부(130)는 제목과 설명을 포함하는 텍스트 데이터(702)를 하나의 문서로 구성하고, 각 문서들을 주제 분리 트리의 각 노드들에 대한 학습 데이터로 생성할 수 있다. 단어 벡터 변환 및 센트로이드 벡터 산출과정은 도 4의 수식에 따라 진행될 수 있다.
다시 도 1을 참조하면, 분류부(140)는 생성된 디렉토리별 학습 데이터를 주제 분류 트리에 포함된 디렉토리에 대응시킨다. 여기서, 분류부(140)는 산출된 병합 센트로이드 벡터를 주제 분류 트리에 포함된 디렉토리에 대응시킬 수 있다.
도 8은 본 발명의 일 실시예에 따른 분류부의 구성을 수식화한 도면이다.
이어서 설명하자면, 상술된 분류부(140)는 분류할 웹 페이지의 텍스트 데이터를 벡터 스페이스 모델에서 단어 벡터(d)로 변환한다. 또한, 상기 생성된 주제 분류 트리의 각 노드를 나타내는 병합 센트로이드 벡터(mc)와 단어 벡터(d)들 사이의 코사인 유사도를 계산하여, 가장 높은 코사인 유사도를 가지는 노드(class(d))로 웹 페이지의 주제를 결정한다. 여기서 분류부(140)는 벡터 스페이스 모델에서의 로치오(Rocchio) 분류기를 포함할 수 있다.
한편, 상술된 주제 분류 트리에 포함된 노드별 학습 데이터와 후술될 휴대용 통신 단말기에서 생성된 데이터에 포함된 텍스트 데이터를 대표하는 단어 벡터간의 유사도를 통해 사용자의 관심 사항이 주제 분류 트리의 노드명의 형태로 추출될 수 있다. 이에 대해서 이하 도 9에서 보다 구체적으로 후술하기로 한다.
도 9는 본 발명의 일 실시예에 따른 사용자 관심 주제를 추출하는 휴대용 통신 단말기의 블록도이다.
사용자 관심 주제를 추출하는 휴대용 통신 단말기(200)는 단어 벡터 생성부(210), 주제 분류 트리 저장부(215), 유사도 산출부(220) 및 정보 저장부(230)를 포함한다. 사용자 관심 주제를 추출하는 휴대용 통신 단말기(200)는 상술된 도 1의 구성요소들을 포함하거나 주제 분류 트리 장치(100)와 연동되어 동작할 수 있다.
단어 벡터 생성부(210)는 휴대용 통신 단말기에 저장된 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성한다. 이를 위해 단어 벡터 생성부(210)는 단어 추출부(212) 및 단어 가중치 산출부(214)를 포함한다.
단어 추출부(212)는 텍스트 데이터로부터 단어를 추출한다. 여기서 텍스트 데이터는 휴대용 통신 단말기에서 생성되는 문자 메시지, 파일명, 이메일, 모바일 웹 사용 히스토리 중 하나 이상에서 추출된 텍스트 데이터일 수 있다. 즉, 단어 추출부(212)는 사용자가 휴대폰으로 문자 메시지를 보내거나, 이메일 작성, 사용자 파일 저장 및 웹 연결을 통한 검색을 수행할 때 생성되는 텍스트 데이터에서 단어를 추출할 수 있다.
도 10은 본 발명의 일 실시예에 따른 입력되는 데이터에서 텍스트 데이터를 추출하여 XML 형태로 저장하는 개념도이다.
이어서 설명하자면, 단어 추출부(212)는 휴대용 통신 단말기에서 생성되는 문자 메시지(1002), 이메일(1004), 파일명(1006), 모바일 웹 사용 히스토리(1008) 등의 텍스트 데이터에서 단어를 추출한다(S1001). 여기서, 텍스트 데이터에는 해당 텍스트 데이터에 관련된 정보들로서 메타 데이터가 포함될 수 있다. 구체적으로, 텍스트 데이터에 관련된 정보에는 해당 텍스트 데이터가 포함된 텍스트 데이터의 종류(예컨대 SMS, FILE, EMAIL 등), 텍스트 데이터 생성시간, 생성위치, 연관된 응용 프로그램 정보 등이 포함될 수 있다.
또한, 단어 추출부(212)는 특정 설정된 기간 동안 생성된 텍스트 데이터에 대해서 단어를 추출할 수 있으며, 텍스트 데이터에 관련된 정보들을 XML 파일 형태로 하기 정보 저장부(230)에 저장할 수 있다(S1011). 여기서, XML 데이터(1010)에는 각 텍스트 종류에 대한 리스트(1)들과, 텍스트 데이터에 대한 정보(3)들, 및 해당 텍스트 데이터가 생성된 시간에 대한 정보(2)들이 포함될 수 있다.
다시 도 9로 돌아가서, 단어 가중치 산출부(214)는 텍스트 데이터 내에서 사용되는 각 단어의 사용 빈도수, 및 상기 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출한다. 예컨대, 사용자가 주로 문자 메시지를 많이 사용할 경우, 다른 텍스트 데이터의 종류에 비해 문자 메시지 타입에 더 많은 가중치가 부여될 수 있다. 그리고, 최근에 생성된 데이터가 현재 사용자의 관심 사항을 더 잘 나타낼 수 있으므로, 해당 단어가 포함된 텍스트 데이터가 생성된 시간에 대한 가중치가 부여될 수 있다.
따라서, 단어 가중치 산출부(214)는 각 단어의 사용 빈도수, 및 해당 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출하고, 단어 벡터 생성부(210)는 이를 기초로 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성할 수 있다. 여기서, 단어 가중치 산출부(214)는 텍스트 데이터의 종류에 따라 추가로 가중치를 더 부여할 수도 있다.
도 11은 본 발명의 일 실시예에 따른 텍스트 데이터를 분석하여 단어 벡터를 생성하는 개념도이다.
이어서 설명하자면, 단어 가중치 산출부(214)가 상술된 XML 데이터(1010)에 대해 XML 파서를 통해 파싱(Parsing)을 수행하고, 그 결과를 메모리에 로딩할 수 있다(S1101). 그리고, 단어 가중치 산출부(214)가 메모리에 로딩된 각 텍스트 데이터 및 메타 데이터를 분석하면(S1111), 단어 벡터 생성부(210)는 분석된 정보를 이용하여 단어 가중치를 기초로 한 벡터 스페이스 모델에서의 단어 벡터(1110)를 생성할 수 있다(S1121).
이러한 단어 벡터(1110)는 기본 분류 단위로서, 텍스트 데이터를 이루는 개별적인 단어(Term)들을 차원으로 가지고, 각 단어마다 단어 가중치(Term Weight)를 값으로 가지는 벡터로 정의될 수 있다. 이때, 단어 가중치는 상술된 바와 같이, 단어 빈도수(Term Frequency)와 시간 가중치(Time Weight)의 연산으로 계산될 수 있다.
단어 빈도수는, 도 11에 도시된 바와 같이 추출된 텍스트 데이터에 포함된 개별적인 단어들(1102)의 사용 횟수(1104)를 나타내며, 이는 추출된 텍스트 데이터에 자주 나타난 단어가 사용자의 관심 사항을 나타내는데 더 중요한 단어임을 반영하는 것이다. 이때, 해당 단어가 포함된 텍스트 데이터가 추출된 텍스트 데이터의 종류에 따라 해당 단어에 가중치가 부여될 수 있다.
그리고, 시간 가중치(1106)란, 각 단어가 포함된 텍스트 데이터의 메타데이터 중 해당 텍스트 데이터 생성 시간에 따른 가중치이다. 이때, 단어가 포함된 텍스트 데이터의 생성 시간이 단어 벡터(1110)가 계산되는 현재 시간에 얼마나 가까운지를 0~1의 범위로 나타낼 수 있다.
이는 최근에 생성된 텍스트 데이터에 포함된 단어일수록 사용자의 관심 사항을 나타내는데 더 중요한 단어임을 반영하기 위한 것이다. 이러한 단어 벡터(1110)는 텍스트 데이터의 종류 예컨대, 추출된 텍스트 데이터가 생성된 위치, 해당 텍스트 데이터와 연관된 응용프로그램의 타입에 따라 하나씩 생성될 수 있다.
구체적으로, 단어 벡터 생성부(210)는 SMS(Short Message Service)/MMS(Multimedia Messaging Service) 문자 메시지, 파일명, 이메일, 및 모바일 웹 사용 히스토리 등의 텍스트 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 개별적으로 생성할 수 있다. 이때, 단어 빈도수 및 시간 가중치를 값으로 포함하는 단어 가중치에 따라 텍스트 종류별로 각 텍스트 데이터를 대표하는 단어 벡터가 하나 이상 생성될 수 있다.
다시 도 9로 돌아가서, 주제 분류 트리 저장부(215)는 하나 이상의 학습 데이터를 포함하고, 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리를 저장한다. 주제 분류 트리를 생성하는 방법에 대해서는 도 1에서 상세히 설명되었으므로 이하 생략하도록 한다.
유사도 산출부(220)는 휴대용 통신 단말기에서 생성되는 데이터에 포함된 텍스트 데이터를 대표하는 상기 단어 벡터(1110)와 주제 분류 트리에 포함된 각 노드별 학습 데이터간의 유사도를 산출한다.
도 12는 본 발명의 일 실시예에 따른 텍스트 데이터를 분석하여 유사도에 따라 사용자 관심 주제에 해당하는 노드명을 추출하는 개념도이다.
이어서 설명하자면 도 12에 도시된 바와 같이, 유사도 산출부(220)는 분류 알고리즘을 이용하여 휴대용 통신 단말기에서 생성되는 데이터에 포함된 텍스트 데이터를 대표하는 단어 벡터(1110)를 주제 분류 트리(1200)의 각 노드에 대응시킨다(S1201). 여기서, 분류 알고리즘은 지지 벡터 머신(Support Vector Machine), 고유 베이지안(Naive Bayesian), K-NN(K-Nearest Neighbor) 등을 포함할 수 있다.
그리고, 유사도 산출부(220)는 단어 벡터(1110)와 해당 노드의 학습 데이터간의 유사도(1202)를 산출한다. 여기서, 유사도 산출부(220)는 단어 벡터(1110)와 각 노드별 학습 데이터간의 유사도를 산출하여 유사도(1202)가 높은 상위 N개의 노드명(1204)을 유사도(1202) 점수에 따라 추출할 수 있다(S1211). 그리고, 유사도 산출부(220)는 주제 분류 트리(1200)의 각 노드에 있어서 동일한 상위 노드에 속한 하위 노드들에 대해서는 각각의 유사도 값을 모두 합산하여 상위 노드의 최종 유사도 값으로 산출할 수 있다.
그리고, 유사도 산출부(220)는 주제 분류 트리(1200)에 있어서 동일한 계층에 속한 상위 노드들 중 최종적으로 산출된 유사도 값이 가장 높은 노드명을 사용자 관심 주제로 추출할 수 있다.
예컨대, 스포츠(Sports)-축구(Soccer)로 이어지는 주제 분류 트리(1200)에서 축구 노드의 하위 노드들에 대해서는 유사도에 대한 값을 모두 합산하여 축구 노드의 유사도로 산출될 수 있다. 따라서, 유사도 값이 축구(Soccer)가 가장 큰 값인 경우, Top/Sports/Soccer란 노드명이 해당 사용자 관심 주제로 추출될 수 있다.
또한, 구성에 따라 축구(Soccer), 야구(Baseball) 등의 동일한 계층에 대한 유사도를 모두 합산하여 그 상위 노드의 스포츠(Sports) 노드의 유사도로 최종 산출할 수 있다. 이 경우, 동일한 계층에 있는 노드들 중에서 스포츠(Sports) 노드의 최종 유사도 값이 가장 큰 값인 경우, Top/Sports 란 노드명이 해당 사용자 관심 주제로 추출될 수 있다. 이와 같이, 주제 분류 트리의 노드명으로 사용자 관심 주제가 추출되므로, 사용자 관심 주제에 대한 보안이 가능하다.
다시 도 9를 참조하면, 정보 저장부(230)는 본 발명을 수행하기 위한 프로그램, 알고리즘, 설정값, 트리 구조에 대한 정보, 각 노드별 유사도값, 각 노드별 학습 데이터 정보, 데이터 타입 정보, 단어 벡터에 대한 정보 등을 저장한다.
도 13은 본 발명의 일 실시예에 따른 주제 분류 트리를 생성하는 순서도이다.
먼저, 공개 디렉토리 데이터 수집부(110)가 공개되어 있는 각종 디렉토리 및 각 디렉토리에 포함되는 웹 페이지 정보를 수집한다(S1301). 예를 들면, 오픈 디렉토리 프로젝트(ODP)의 데이터나 또는 각종 포털 사이트에 게시된 공개 디렉토리 데이터가 마이닝된다.
다음으로, 주제 분류 트리 생성부(120)가 수집된 디렉토리 데이터를 가공하여 주제 분류 트리를 생성한다(S1311). 주제 분류 트리 생성을 위해 앞서 설명한 네 가지 필터링 방법 중 하나 이상이 선택적으로 사용될 수 있다.
다음으로, 학습 데이터 생성부(130)가 수집된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 데이터 정보에 기초하여 각 디렉토리를 대표하는 학습 데이터를 생성한다(S1321). 이를 위해, 학습 데이터 생성부(130)는 웹 페이지의 텍스트 데이터 정보를 단어 벡터로 변환한 후 각 단어 벡터를 기초로 각 디렉토리에 대한 센트로이드 벡터를 산출하고, 최하위 디렉토리부터 자식 디렉토리의 센트로이드 벡터와 부모 디렉토리의 센트로이드 벡터간의 벡터 합을 구하여, 각 부모 디렉토리의 병합 센트로이드 벡터를 산출한다.
다음으로, 분류부(140)가 디렉토리별 학습 데이터를 주제 분류 트리에 포함된 디렉토리에 대응시킨다(S1331). 여기서, 분류부(140)는 산출된 병합 센트로이드 벡터를 주제 분류 트리에 포함된 디렉토리에 대응시킬 수 있다.
도 14는 본 발명의 일 실시예에 따른 주제 분류 트리에서 사용자 관심 주제에 해당하는 노드명을 추출하는 순서도이다.
먼저, 단어 추출부(212)가 휴대용 통신 단말기에 저장된 텍스트 데이터로부터 단어를 추출한다(S1401).
다음으로, 단어 가중치 산출부(214)가 텍스트 데이터 내에서 사용되는 각 단어의 사용 빈도수, 및 상기 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출한다(S1411).
다음으로, 단어 벡터 생성부(210)가 단어 가중치를 기초로 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성한다 (S1421).
다음으로, 유사도 산출부(220)가 단어 벡터를 주제 분류 트리의 노드에 대응시키고(S1431), 단어 벡터와 주제 분류 트리에 포함된 각 노드별 학습 데이터간의 유사도를 산출한다(S1441).
그리고, 유사도 산출부(220)가 유사도에 따라 주제 분류 트리 중에서 사용자 관심 주제를 대표할 노드명을 추출한다(S1451).
여기서, 유사도 산출부(220)는 주제 분류 트리 중에서 유사도가 가장 높은 노드명을 사용자 관심 주제로 추출할 수 있다. 또한, 유사도 산출부(220)는 주제 분류 트리의 각 노드에 있어서 동일한 노드에 대해서는 유사도에 대한 값을 모두 합산하여 최종 산출값이 가장 높은 최상위 노드명을 사용자 관심 주제로 추출할 수 있다.
한편, 상술된 도 9의 주제 분류 트리 저장부(215) 및 정보 저장부(230)는 캐쉬, ROM(Read Only Memory), PROM(Programmable ROM), EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 및 플래쉬 메모리(Flash memory)와 같은 비휘발성 메모리 소자 또는 RAM(Random Access Memory)과 같은 휘발성 메모리 소자 또는 하드디스크 드라이브(HDD, Hard Disk Drive), CD-ROM과 같은 저장 매체 중 적어도 하나로 구현될 수 있으나 이에 한정되지는 않는다
또한, 도 1 및 도 9에서 도시된 각각의 구성요소는 일종의 '모듈'로 구성될 수 있다. 상기 '모듈'은 소프트웨어 또는 Field Programmable Gate Array(FPGA) 또는 주문형 반도체(ASIC, Application Specific Integrated Circuit)과 같은 하드웨어 구성요소를 의미하며, 모듈은 어떤 역할들을 수행한다. 그렇지만 모듈은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니다. 모듈은 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 실행시키도록 구성될 수도 있다. 구성요소들과 모듈들에서 제공되는 기능은 더 작은 수의 구성요소들 및 모듈들로 결합되거나 추가적인 구성요소들과 모듈들로 더 분리될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.

Claims (10)

  1. 사용자 관심 주제를 추출하는 휴대용 통신 단말기에 있어서,
    상기 휴대용 통신 단말기에 저장된 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성하는 단어 벡터 생성부,
    하나 이상의 학습 데이터를 포함하고, 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리를 저장하는 주제 분류 트리 저장부 및
    상기 단어 벡터와 상기 주제 분류 트리에 포함된 각 노드별 학습 데이터간의 유사도를 산출하는 유사도 산출부를 포함하되,
    상기 유사도 산출부는 상기 유사도에 따라 상기 주제 분류 트리 중에서 사용자의 관심 주제를 대표할 노드명을 추출하는 것인 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  2. 제 1 항에 있어서,
    상기 단어 벡터 생성부는,
    상기 텍스트 데이터로부터 단어를 추출하는 단어 추출부 및
    상기 텍스트 데이터 내에서 사용되는 각 단어의 사용 빈도수, 및 상기 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출하는 단어 가중치 산출부를 포함하는 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  3. 제 1 항에 있어서,
    상기 유사도 산출부는,
    상기 단어 벡터와 상기 주제 분류 트리의 각 노드에 포함된 학습 데이터간의 유사도를 산출하되,
    상기 주제 분류 트리의 각 노드에 있어서 동일한 상위 노드에 속한 하위 노드들에 대해서는 각각의 유사도 값을 모두 합산하여 상기 상위 노드의 유사도 값으로 산출하는 것인 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  4. 제 1 항에 있어서,
    상기 유사도 산출부는,
    상기 주제 분류 트리 중에서 상기 유사도가 가장 높은 노드명을 상기 사용자의 관심 주제로 추출하는 것인 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  5. 제 1 항에 있어서,
    공개된 디렉토리 데이터를 가공하여 상기 주제 분류 트리를 생성하는 주제 분류 트리 생성부,
    상기 공개된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 데이터 정보에 기초하여 각 디렉토리를 대표하는 상기 학습 데이터를 생성하는 학습 데이터 생성부 및
    상기 학습 데이터를 상기 주제 분류 트리에 포함된 디렉토리에 대응시키는 분류부를 더 포함하는 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  6. 제 1 항 내지 제 5 항 중 하나의 항에 있어서,
    상기 텍스트 데이터는,
    상기 휴대용 통신 단말기에서 생성되는 문자 메시지, 파일명, 이메일, 모바일 웹 사용 히스토리 중 하나 이상에서 추출된 텍스트 데이터인 것인 사용자 관심 주제를 추출하는 휴대용 통신 단말기.
  7. 사용자 관심 주제 추출 방법에 있어서,
    단어 추출부가 휴대용 통신 단말기에 저장된 텍스트 데이터로부터 단어를 추출하는 단계,
    단어 가중치 산출부가 상기 텍스트 데이터 내에서 사용되는 각 단어의 사용 빈도수, 및 상기 단어가 포함된 텍스트 데이터의 생성 시간에 기초하여 단어 가중치를 산출하는 단계,
    단어 벡터 생성부가 상기 단어 가중치를 기초로 상기 텍스트 데이터의 종류에 따라 각 텍스트 데이터를 대표하는 단어 벡터를 생성하는 단계 및
    유사도 산출부가 하나 이상의 학습 데이터를 포함하고 주제를 나타내는 복수의 노드가 트리 구조로 연결된 주제 분류 트리에 포함된 각 노드별 학습 데이터와 상기 단어 벡터간의 유사도를 산출하는 단계를 포함하되,
    상기 유사도 산출부는 산출된 상기 유사도에 따라 상기 주제 분류 트리 중에서 사용자의 관심 주제를 대표할 노드명을 추출하는 것인 사용자 관심 주제 추출 방법.
  8. 제 7 항에 있어서,
    상기 유사도 산출부는,
    상기 주제 분류 트리의 각 노드에 있어서 동일한 상위 노드에 속한 하위 노드들에 대해서는 각각의 유사도 값을 모두 합산하여 상기 상위 노드의 유사도 값으로 산출하는 것인 사용자 관심 주제 추출 방법.
  9. 제 7 항에 있어서,
    상기 유사도 산출부는,
    상기 주제 분류 트리 중에서 상기 유사도가 가장 높은 노드명을 상기 사용자의 관심 주제로 추출하는 것인 사용자 관심 주제 추출 방법.
  10. 제 7 항에 있어서,
    상기 텍스트 데이터를 추출하는 단계에 앞서서, 상기 주제 분류 트리를 생성하는 단계를 포함하되,
    상기 주제 분류 트리를 생성하는 단계는,
    공개 디렉토리 데이터 수집부가 공개되어 있는 각종 디렉토리 및 각 디렉토리에 포함되는 웹 페이지 정보를 수집하는 단계,
    주제 분류 트리 생성부가 상기 수집된 디렉토리 데이터를 가공하여 상기 주제 분류 트리를 생성하는 단계,
    학습 데이터 생성부가 상기 수집된 디렉토리 데이터 중 각 디렉토리에 포함되는 웹 사이트의 텍스트 데이터 정보에 기초하여 각 디렉토리를 대표하는 상기 학습 데이터를 생성하는 단계 및
    분류부가 디렉토리별 상기 학습 데이터를 상기 주제 분류 트리에 포함된 디렉토리에 대응시키는 단계를 포함하는 사용자 관심 주제 추출 방법.
PCT/KR2011/000663 2010-02-03 2011-01-31 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법 WO2011096690A2 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
EP11739986.5A EP2533430B1 (en) 2010-02-03 2011-01-31 Portable communication terminal for extracting subjects of interest to the user, and a method therefor
US13/577,149 US9323845B2 (en) 2010-02-03 2011-01-31 Portable communication terminal for extracting subjects of interest to the user, and a method therefor

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR1020100010078A KR101095069B1 (ko) 2010-02-03 2010-02-03 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
KR10-2010-0010078 2010-02-03

Publications (2)

Publication Number Publication Date
WO2011096690A2 true WO2011096690A2 (ko) 2011-08-11
WO2011096690A3 WO2011096690A3 (ko) 2011-12-15

Family

ID=44355938

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2011/000663 WO2011096690A2 (ko) 2010-02-03 2011-01-31 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법

Country Status (4)

Country Link
US (1) US9323845B2 (ko)
EP (1) EP2533430B1 (ko)
KR (1) KR101095069B1 (ko)
WO (1) WO2011096690A2 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9582767B2 (en) * 2012-05-16 2017-02-28 Excalibur Ip, Llc Media recommendation using internet media stream modeling
KR101350782B1 (ko) * 2012-06-13 2014-01-16 포항공과대학교 산학협력단 데이터 샘플링 방법 및 장치
KR101401175B1 (ko) * 2012-12-28 2014-05-29 성균관대학교산학협력단 가중치 tf 기법을 이용한 텍스트 마이닝 방법 및 시스템
WO2015037815A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
KR101508583B1 (ko) * 2013-09-16 2015-04-14 고려대학교 산학협력단 스마트 기기 내 시맨틱 검색 시스템 및 검색방법
WO2015037814A1 (ko) * 2013-09-16 2015-03-19 고려대학교 산학협력단 사용자 의도 추론에 기반한 휴대용 단말 장치 및 이를 이용한 컨텐츠 추천 방법
CN106202124B (zh) * 2015-05-08 2019-12-31 广州市动景计算机科技有限公司 网页分类方法及装置
KR101713258B1 (ko) * 2015-05-19 2017-03-09 트윈워드 주식회사 글에 반영된 사용자의 심리 상태 정보 제공 장치 및 그 방법
CN106372086B (zh) * 2015-07-23 2019-12-03 华中师范大学 一种获取词向量的方法和装置
CN109582790A (zh) * 2018-11-13 2019-04-05 深圳市康拓普信息技术有限公司 一种基于名称高效核对不同系统中的电力设备的方法及装置
CN109684554B (zh) * 2018-12-26 2021-07-20 腾讯科技(深圳)有限公司 新闻的潜在用户的确定方法及新闻推送方法
US11017179B2 (en) 2018-12-28 2021-05-25 Open Text Sa Ulc Real-time in-context smart summarizer
CN110097395B (zh) * 2019-03-27 2023-05-26 平安科技(深圳)有限公司 定向广告投放方法、装置及计算机可读存储介质
US11003840B2 (en) 2019-06-27 2021-05-11 Open Text Corporation System and method for in-context document composition using subject metadata queries
US11216521B2 (en) * 2019-11-07 2022-01-04 Open Text Holdings, Inc. Content management methods for providing automated generation of content suggestions
US11256735B2 (en) 2019-11-07 2022-02-22 Open Text Holdings, Inc. Content management systems providing automated generation of content summaries
US11423114B2 (en) 2019-11-07 2022-08-23 Open Text Holdings, Inc. Content management systems for providing automated generation of content suggestions
US11620351B2 (en) 2019-11-07 2023-04-04 Open Text Holdings, Inc. Content management methods for providing automated generation of content summaries
KR102479677B1 (ko) * 2019-12-30 2022-12-22 주식회사 에비드넷 위계정보를 이용한 표준화된 용어 추천 방법 및 장치
CN112101008A (zh) * 2020-09-27 2020-12-18 北京百度网讯科技有限公司 一种文本热度确定方法、装置、电子设备和存储介质
CN112100360B (zh) * 2020-10-30 2024-02-02 北京淇瑀信息科技有限公司 一种基于向量检索的对话应答方法、装置和系统

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7912868B2 (en) * 2000-05-02 2011-03-22 Textwise Llc Advertisement placement method and system using semantic analysis
US20030074409A1 (en) 2001-10-16 2003-04-17 Xerox Corporation Method and apparatus for generating a user interest profile
CN101203895A (zh) * 2005-04-05 2008-06-18 Ai有限公司 语义知识评估、教学和习得系统及其方法
KR100832859B1 (ko) 2006-08-30 2008-05-28 한양대학교 산학협력단 모바일 웹 콘텐츠 서비스 시스템 및 그 방법
KR101112989B1 (ko) 2008-04-11 2012-04-23 한국전자통신연구원 지능형 정보 서비스를 위한 계층적 문서 분류 장치 및 방법

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
None

Also Published As

Publication number Publication date
US9323845B2 (en) 2016-04-26
EP2533430B1 (en) 2020-03-11
EP2533430A4 (en) 2015-11-18
WO2011096690A3 (ko) 2011-12-15
US20130073569A1 (en) 2013-03-21
KR101095069B1 (ko) 2011-12-20
KR20110090354A (ko) 2011-08-10
EP2533430A2 (en) 2012-12-12

Similar Documents

Publication Publication Date Title
WO2011096690A2 (ko) 사용자 관심 주제를 추출하는 휴대용 통신 단말기 및 그 방법
Hulpus et al. Unsupervised graph-based topic labelling using dbpedia
Jaimes et al. Learning personalized video highlights from detailed MPEG-7 metadata
CN112165462A (zh) 基于画像的攻击预测方法、装置、电子设备及存储介质
JP6429382B2 (ja) コンテンツ推薦装置、及びプログラム
Hu et al. Enhancing accessibility of microblogging messages using semantic knowledge
Al-Safadi et al. Developing ontology for Arabic blogs retrieval
WO2012046906A1 (ko) 다중 자원을 통합한 지식베이스를 이용하여 연구 주체간의 상관관계가 표시된 자원검색 정보 제공 장치 및 방법
Yang et al. Semantic feedback for interactive image retrieval
Yang et al. MMED: a multi-domain and multi-modality event dataset
Chen et al. A method for Chinese text classification based on apparent semantics and latent aspects
WO2021107444A1 (ko) 지식 그래프 기반 마케팅 정보 분석 서비스 제공 방법 및 그 장치
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2018143490A1 (ko) 웹 콘텐츠를 이용한 사용자 감성 예측 시스템 및 그 방법
WO2012030049A2 (ko) 동적 임계값이 적용된 유사문서 분류화 장치 및 방법
Moumtzidou et al. Discovery of environmental nodes in the web
CN114238735B (zh) 一种互联网数据智能采集方法
Gu et al. Query intent detection based on clustering of phrase embedding
Huang et al. Pandasearch: A fine-grained academic search engine for research documents
JP2010176387A (ja) 電子スクラップシステム、電子スクラップ方法、電子スクラップサーバ、および利用者端末
Baratis et al. Automatic website summarization by image content: a case study with logo and trademark images
CN103530418B (zh) 信息搜索与发布方法与系统
Le et al. Query classification using topic models and support vector machine
WO2012046905A1 (ko) 다중 자원의 통합에 의한 자원 검색 장치 및 방법
CN112749289A (zh) 基于多模态的知识图谱检索系统及方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11739986

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 2011739986

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 13577149

Country of ref document: US