WO2010120101A2 - 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 - Google Patents

역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 Download PDF

Info

Publication number
WO2010120101A2
WO2010120101A2 PCT/KR2010/002280 KR2010002280W WO2010120101A2 WO 2010120101 A2 WO2010120101 A2 WO 2010120101A2 KR 2010002280 W KR2010002280 W KR 2010002280W WO 2010120101 A2 WO2010120101 A2 WO 2010120101A2
Authority
WO
WIPO (PCT)
Prior art keywords
keyword
user
keywords
computer
words
Prior art date
Application number
PCT/KR2010/002280
Other languages
English (en)
French (fr)
Other versions
WO2010120101A3 (ko
Inventor
윤지영
노상규
Original Assignee
(주)미디어레
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by (주)미디어레 filed Critical (주)미디어레
Publication of WO2010120101A2 publication Critical patent/WO2010120101A2/ko
Publication of WO2010120101A3 publication Critical patent/WO2010120101A3/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/3332Query translation
    • G06F16/3334Selection or weighting of terms from queries, including natural language queries
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model

Definitions

  • the present invention relates to a keyword recommendation method and apparatus using an inversed vector space model.
  • the Internet is an open network that can be used by anyone anywhere in the world and freely connects to the other computer to which they want to access. It is used not only for transmitting basic text information but also for the development of compression technology and for delivering multimedia information. Various services such as transmission can be used.
  • Sites that provide a search service typically collect raw data from the Internet, select keywords for each material, build a database, and enter some keywords of the data they want to find.
  • the service is provided in the form of providing the data to users.
  • the site providing the search service provides the users with the upper documents placed above the documents provided according to the users' search according to the accuracy, importance, etc. of the documents.
  • the Vector Space Model is a mathematical model for filtering information, searching information within documents, and calculating index and similarity, also called Term Space Model. This paper suggests a method for analyzing the importance of documents including natural language using vector information.
  • Each document can be represented by a vector of index words contained in the document, and the similarity of the document can be calculated by the distance between the words in the vector.
  • the similarity of the words in the vector is Calculate with the cosine formula.
  • the document D2 is more similar to the user query Q because the vector of the document D2 is located closer to the user query Q than the vector of the document D1.
  • the TF-IDF (Term Frequency-inverse document frequency) model is mainly used.
  • the vector space model is a method of searching for a document input close to a question set, that is, a keyword set closest to a keyword set among many documents.
  • a keyword set closest to a keyword set among many documents As in the inverse vector space model of, we do not find the keyword set that is closest to the input text among the keyword sets.
  • An object of the present invention is to provide a keyword recommendation method and apparatus using an inverse vector space model for finding and recommending a keyword closest to an input text among a plurality of keywords constructed in a database.
  • Another object of the present invention is an inverse vector space model that calculates the similarity between a keyword set composed of two or more keywords that are semantically related among the keyword sets, and words included in an input text, and recommends a keyword having high similarity. To provide a keyword recommendation method and apparatus therefor.
  • the keyword recommendation method using an inverse vector space model for achieving the above object is (1) a server computer that provides a keyword recommendation service using an inverse vector space model, two or more semantically related; Constructing a keyword set composed of keywords and weight information for each item of each keyword of the keyword set into a database, and vectorizing each keyword set based on weights of items of each keyword constructed as a database;
  • the server computer determines whether a written text is directly input from a user computer connected through a network communication network, and (3) when the user's written text is directly input from the user computer, the server computer directly analyzes the morphological analysis.
  • the keyword recommendation apparatus using the inverse vector space model a network communication network and a network communication network to connect the unspecified multiple communication lines to each other, the user's own writing, data communication related to keyword recommendation It establishes a communication connection with a server computer that provides keyword recommendation service through the server computer, and outputs a written article from the server computer, and a plurality of user computers that recommend keywords for the user's written article from the server computer, and a database.
  • Vectorize each keyword set based on the keyword set composed of two or more keywords that are semantically related, and the weight information for each item of the keyword set, and perform member access of the user computer connected through the network. From your computer.
  • the word included in the writing by the user and the frequency of occurrence of the words are extracted through morphological analysis, and the weight is assigned based on the frequency of the extracted words. It includes a server computer that vectorizes the written article, calculates the similarity between each vectorized keyword set and the user-written article, and extracts a keyword from the top n keyword sets with high similarity and recommends it to the user computer.
  • a plurality of keywords are applied by inversely applying a conventional vector space model that finds a document closest to an input keyword (question) among many documents.
  • searching for and recommending a keyword that is closest to the inputted text the user can easily select a keyword of his / her own writing using the recommended keyword.
  • FIG. 1 is a diagram showing a user query and a vector of each document according to a conventional vector space model
  • FIG. 2 is a diagram for comparing a vector space model and an inverse vector space model
  • FIG. 3 is a block diagram schematically illustrating a configuration of a keyword recommendation apparatus using an inverse vector space model according to the present invention
  • FIG. 4 is a flowchart illustrating an operation of a keyword recommendation method using an inverse vector space model according to the present invention
  • 5 to 8 are diagrams showing examples of a keyword set (triple) database, a weight table for each item, an input post, and an input TF for the keyword recommendation method using the inverse vector space model of the present invention
  • FIG. 9 is a view schematically showing the structure of a system for recommending a keyword keyword according to the present invention.
  • 10 is a table showing an example of a converted keyword index and weight
  • 11 is a table showing an example of a keyword set
  • FIG. 14 is a table showing examples of terms and frequency of occurrences of the gum of FIG. 13 extracted through a morpheme analyzer
  • 15 is a table showing an example of the weights of terms of the stems analyzed by the stem;
  • 16 is a table showing an example of a converted keyword index and weight
  • FIG. 17 is a table showing an example of the summarized Inverted keyword index & weight of FIG. 16;
  • FIG. 18 is a table illustrating a result of calculating similarity of FIG. 17.
  • FIG. 3 is a block diagram schematically illustrating a configuration of a keyword recommendation apparatus using an inverse vector space model according to the present invention.
  • the keyword recommendation apparatus of the present invention includes a network communication network 100, a plurality of user computers 200, a server computer 300, and the like.
  • the network communication network 100 is a communication network such as a wired / wireless internet, and connects communication lines of a plurality of user computers 200 and a server computer 300 to perform data communication related to articles written by users and keyword recommendations. To lose.
  • the user computer 200 performs a communication connection with the server computer 300 that provides the keyword recommendation service through the network communication network 100, and a user-written article (it can be expressed as' It 'in another expression of the present invention'). ) Is outputted from the server computer 300, and receives a recommendation keyword for a post written by the user from the server computer 300.
  • the server computer 300 constructs a keyword set consisting of two or more keywords that are semantically related, and weight information for each item of the keyword set in a database, and based on the weight information for each item.
  • a member login or a new member registration of the user computer 200 connected through the network communication network 100 is performed, and when a user directly writes a post from the corresponding user computer 200, the user directly writes the article through morphological analysis.
  • the word included in the word and the frequency of occurrence of the words are extracted, weighted based on the extracted frequency of the extracted words, and the user directly writes the text based on the weight.
  • the similarity between each vectorized keyword set and a user-written text is calculated, and a keyword is extracted from the top n keyword sets with high similarity and recommended to the user computer 200.
  • the server computer 300 is composed of a morphological analysis means 310, a keyword triple database 320, a weight database 330, a control means 340 and the like.
  • the morphological analysis unit 310 extracts words included in a user-written article directly input from the user computer 200 which has performed member access to the server computer 300 and the occurrence frequency of the words, and controls extraction information. Output to the means 340.
  • the keyword set database 320 stores a keyword set composed of two or more keywords that are semantically related.
  • the weight database 330 stores item weight information for each keyword of each keyword set stored in the keyword set database 320.
  • the control means 340 vectorizes each keyword set on the basis of the item weight information for each keyword of the keyword set stored in the keyword set database 320 and the keyword set stored in the weight database 330.
  • the morphological analysis unit 310 controls to extract the word included in the writing made by the user and the frequency of occurrence of the words. After weighting based on the occurrence frequency of the words extracted by the morphological analysis means 310, vectorize the text written by the user directly based on the weight, and calculate the similarity between each vectorized keyword set and the text written by the user directly.
  • a keyword is extracted from the top n keyword sets with high similarity, and the recommended keyword from which duplicate keywords are removed is output to the user computer 200.
  • FIG. 4 is a flowchart illustrating an operation of a keyword recommendation method using an inverse vector space model according to the present invention.
  • the server computer 300 that provides a keyword recommendation service using an inverse vector spatial model constructs a keyword set consisting of two or more keywords that are semantically related as a database (S10), and sets a keyword including a keyword triple.
  • the item-weighted information for each keyword in the database is constructed (20).
  • each keyword set is vectorized based on the weight of the item of each keyword constructed as a database (S30). That is, all keyword sets constructed as a database are vectorized based on the keywords included in each keyword set. Since each keyword in the keyword set has information on the type of the item that it means, the weight is given to each keyword set according to the weight for each type of item defined in the weight table. In the conventional vector space model, weights are set based on the term frequency of words. However, in the keyword triple of the present invention using an inverse vector space model, the frequency of occurrence of each keyword is meaningless, and thus the frequency of occurrence of a specific keyword is high. Keywords cannot be considered important keywords. That is, since the information on the item meaning each keyword is important, the weight is given based on the value of the item of each keyword.
  • the vector Ti of the keyword triples among the keyword sets obtained through the step S30 is obtained as the square root of the sum of the squares of the weights of the items of the keywords of the keyword triples, as shown in the following equation. This formula is also applicable to all keyword sets.
  • the server computer 300 accesses the user computer 200 through the network communication network 100.
  • the member login or new member registration is processed (S40), and it is determined whether a written article directly from the user computer 200 which has performed member access is input (S50).
  • the server computer 300 extracts the words included in the writing made by the user and the occurrence frequency of the words through morphological analysis (S60). After assigning a weight based on the frequency of occurrence of the extracted words, the user directly writes the text based on the weight (S70).
  • the vector D of the article directly written by the user obtained through the step S70 is obtained by the following equation.
  • the server computer 300 After vectorizing the article, which is a user-written article, through the steps S60 and S70 described above, the server computer 300 sets the keyword set based on each keyword set vectorized in step S30 and the user-written article vectorized in step S70. And calculate the similarity between the user-written text (S80).
  • the server computer 300 Based on the result of calculating the similarity between each vectorized keyword set and the text written by the user through the step S80, the server computer 300 extracts the recommended keyword from the top n keyword sets with high similarity (S90), and the extracted recommendation.
  • the keyword is output to the user computer 200 through the network communication network 100 (S100).
  • the server computer 300 removes the duplicate keyword and provides the same to the user computer 200.
  • 5 to 8 are examples of a keyword triple database, an item weight table, an input article, and a TF (appearance frequency, term frequency) of the input article used in the keyword recommendation method using the inverse vector space model of the present invention. The figure shown.
  • keyword 1 is a cape / type is a product
  • keyword 2 is a mini skirt / type is a product
  • keyword 3 is a strap shoe / type is a product
  • keyword 1 is a mini skirt / type is a product.
  • Keyword 2 is School Look / Type is Style
  • Keyword 3 is Lee Jung-jung / Type is Celebrity Second Keyword Triple
  • Keyword 1 is Ethnic Style / Type is Style
  • Keyword 2 is Jeong Ryeo Won / Type is Celebrity
  • Keyword Loose fit / type 3 is the adjective and modifier
  • the third keyword triple keyword 1 is the cloak / type is the product
  • keyword 2 is the loose fit / type is the style
  • keyword 3 is croppants / type is the product Keyword keyword with the fifth keyword triple, where keyword 1 is cropped pants / type is product, keyword 2 is jacket / type is product, and keyword 3 is strap shoes / type is product It is assumed that the sample database exists.
  • the article product item weight is 0.2
  • the celebrity item weight is 0.4
  • the media item weight is 0.4
  • the style item weight is 0.4
  • the season item weight is 0.2
  • the product type_beauty item is 0.2
  • Product type_ clothing item weight 0.2 is 0.2
  • product type_ fashion miscellaneous item weight 0.2 is 0.3
  • product item weight 0.3 color item 0.1
  • pattern item 0.1 Suppose there is an item-specific weight table with a weight of 0.1 for creatives, 0.2 for decorative items, 0.1 for adjectives and modifiers, 0.2 for store information items, and 0.1 for other additional information items.
  • the vector T of each keyword triple can be obtained as follows.
  • the server computer 300 After obtaining the vector T of the five keyword triples, as shown in Fig. 7, "Jeong Ryeo-won in Samsuni enjoyed loose-fitting style like cloak or blouson. Also, she laid out the ethnic style and led the new fashion.
  • the server computer 300 extracts words from the user's own article through stemming, as shown in FIG. Obtain the frequency TF and normalize the frequency TF.
  • the user-written text can be expressed as a vector D of words in the text, which is obtained by calculating the square root of the sum of the squares of the normalized frequency (TF) in consideration of the frequency of the words in the text as follows. Lose.
  • the server computer 300 calculates the similarity between each of the vectorized keyword triples and the user-written text.
  • the dot product of each keyword triple and the user-written text is calculated. ) Is as follows.
  • the server computer 300 extracts the recommended keyword from the top two keyword triples with high similarity
  • the ethnic style, Jung Ryeo Won, loose fit, cloak, loose fit, and cropped pants are extracted from the third and fourth keyword triples.
  • Six keywords such as, etc. are extracted, and the remaining five keywords except for one overlapped loose fit are ethnic style, Jung Ryeo Won, loose fit, cloak and croppants are recommended to the user.
  • FIG. 9 is a view schematically showing the structure of a system for recommending a keyword keyword according to the present invention.
  • an inverted keyword index & weight table is created, and the vector length of all keyword sets is calculated.
  • the Inverted keyword index & weight table includes (a) the frequency at which each keyword appears in the keyword set, (b) the weight based on the frequency of each keyword, And (c) index information (information on which keyword set these keywords are included) (see FIG. 10).
  • the keyword weight of (b) is calculated by the following equation.
  • the keyword weight of each keyword is required, which is included in the Inverted keyword index & weight table.
  • the vector length of each keyword set is updated periodically and calculated as follows.
  • the vector length of keyword set # 5 is calculated as follows.
  • a vector length can be obtained as shown in FIG. 12.
  • the Eagle input to the web page is processed by the stemmer in real time, and the word included in the Eagle and the frequency of occurrence of the words are extracted.
  • the term of the input and the frequency is extracted through the morpheme analyzer as shown in FIG.
  • the input vector value, the vector length of each keyword set, and the dot product between it and the keyword set must be calculated.
  • the vector length of each keyword set stores periodically updated values, and the vector value of the gum can be simply calculated in real time from the included terminology and terminology.
  • it is practically impossible to recommend keywords in real time because comparing the words included in the word with the keywords of each keyword set to calculate the dot product between the keyword and each keyword set takes quite a long time.
  • a keyword set that includes two or more words in a word as a keyword among the keyword sets is selected first to finally select a keyword set having high similarity among the keyword sets.
  • the term and term frequency extracted through the 'Ital Processing' step are first normalized to generate a weight based on the frequency of occurrence in the Eagle (fw).
  • the weight is vectorized by using the keyword weight (kw) based on the frequency of occurrence of each keyword in the Inverted keyword index & weight table.
  • the inputted Eagle is extracted from the term and its frequency included in the 'Ital Processing' step, and this frequency can be normalized by dividing by the total.
  • Each extracted term is vectorized using weighted (kw) information calculated based on the normalized frequency and the frequency that the term is included in the keyword set table as a keyword.
  • the inputted gum based on the information shown in FIG. 15 is vectorized as follows.
  • Keyword sets that contain words in the Inverted index table are used as keywords.
  • the keywords 'Song Hye Kyo', 'the world they live only' and 'Long Knit' are used in the Inverted index table.
  • Song Hye-kyo is included in keyword sets 1, 2, 5, 12, 13, and 15, the world in which they live is in keyword set 5, 12, 13, 16, and long knit is keyword set 2, 12, If it is included in 15, keyword sets 2, 5, 12, 13, and 15 contain two words of the words included in the tag as keywords, and the similarity is calculated and compared only for these keyword sets.
  • the world they live in is included in a total of four keyword sets and is included in keyword set numbers 5, 12, 13, and 16.
  • a cosine value that is, a similarity value
  • the top n keyword sets having a large similarity value can be extracted.
  • Unique keywords are extracted by removing duplicate keywords from the n similarly high keyword sets.
  • the priority of terms is determined based on the weight of the words included in the keyword as keywords in the keyword set. For example, in the absence of a common keyword set, Song Hye Kyo has a weight of 1 and the world they live in is 0.83333. In the keyword recommendation, Song Hye Kyo has a higher priority than the world they live in.
  • the unique keywords selected in the keyword extraction step and the keywords specified in the above text, if present, are recommended to the user. If there are five or more keywords specified in the above text, only the first five words are imported, and it is recommended to the user not to duplicate the keywords specified in the above text and the keywords extracted from the keyword set.
  • the keyword extraction process (muffler, Song Hye-kyo, the world they live in, long knit) was extracted. Along with this, if there is a whit in the article to recommend keyword recommendation, up to five of the keywords specified by the wig in order are recommended together with the extracted keywords. For example, if (Drama, Celebrity, Styling, Winter, Song Hye-kyo, Goo Hye-sun, Lee Yeon-hee) is specified as a keyword in the current Eagle, users (muffler, Song Hye-kyo, The world they live in, Long knit, Drama, Celebrity, Styling, Winter, Song Hye Kyo) is finally recommended as a keyword for Eagle.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Artificial Intelligence (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

개시된 내용은 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치에 관한 것으로서, 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하고, 사용자 컴퓨터로부터 직접 작성한 글이 입력되면 형태소 분석을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화된 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천한다. 이에 따라 본 발명은 많은 문서들 중에서 입력된 키워드(질문)와 가장 근접한 문서를 찾는 벡터 공간 모델을 역으로 적용하여 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천함으로써, 사용자는 추천받은 키워드를 이용하여 자신이 직접 작성한 글의 키워드를 손쉽게 선택하게 된다.

Description

역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
본 발명은 역 벡터 공간 모델(inversed vector space model)을 이용한 키워드 추천방법 및 그 장치에 관한 것이다.
일반적으로 인터넷은 전세계 어디서나, 누구나 접속하고자 하는 상대편 컴퓨터에 자유롭게 연결하여 사용할 수 있도록 구성된 개방형 네트워크로서, 기본적인 문자정보의 전달은 물론 압축기술의 발전과 더불어 멀티미디어 정보의 전달에 이용되는 등 전자 우편, 파일 전송 등의 다양한 서비스를 이용할 수 있다.
이와 같은 인터넷은 국내를 비롯하여 세계적으로 사용이 급격하게 증가하면서 기존 산업의 전 부분에 걸쳐 효율성과 생산성 제고를 위한 전략적인 도구로서 중요성이 급속히 증대하고 있으며, 인터넷을 통한 새로운 비즈니스 기회가 지속적으로 창출됨은 물론, 그 영역도 확장되고 있는 추세여서 인터넷을 이용한 사업자들도 점차 증가하고 있다.
즉, 인터넷을 통한 비즈니스의 일환으로 인터넷 광고, 인터넷 방송, 온라인 게임, 인터넷 신문/잡지, 검색 서비스, 포탈 서비스, 전자 상거래 등의 다양한 컨텐츠를 제공하는 사이트들이 급속히 증가하고 있는 것이다.
이러한 사이트들중 최근에는 많은 정보를 손쉽게 접할 수 있는 검색 서비스를 제공하는 사이트들이 많아지고 있으며, 원하는 정보를 보다 빠르고 쉽게 찾기 위한 사용자들의 이용 또한 나날이 증가하고 있다.
검색 서비스를 제공하는 사이트에서는 통상적으로 인터넷 상에 존재하는 원시데이터를 수집하여 해당 자료별로 키워드를 선정한 후 데이터베이스로 구축하고, 사용자들이 찾고자 하는 자료의 일부 키워드를 입력하여 검색을 요청하면 해당 키워드로 지정되어 있는 자료들을 사용자들에게 제공하는 형태로 서비스를 수행하고 있다.
이때 검색 서비스를 제공하는 사이트에서는 사용자들의 검색에 따라 제공되는 자료를 문서의 정확도, 중요도 등에 따라 상위의 문서들을 상위에 배치하여 사용자들에게 제공한다.
이와 같은 문서의 중요도를 분석하는 많은 방법 중에서 벡터 공간 모델(Vector Space Model)은 Term Space Model이라고도 불리우는 정보 필터링, 문서 내에서의 정보검색, 색인과 유사도를 계산하기 위한 수학모델로서, 다차원 선형공간에서의 벡터 정보를 이용하여 자연어를 포함한 문서의 중요도를 분석하기 위한 방법을 제시하고 있다.
각 문서는 그 문서가 포함하고 있는 색인단어의 벡터로 나타낼 수 있고, 문서의 유사도는 벡터에 위치한 단어들간의 거리로 계산할 수 있다는 것이 벡터 공간 모델의 대전제이며, 벡터에 위치한 단어들의 유사도는 다음의 코사인공식으로 계산한다.
Figure PCTKR2010002280-appb-I000001
그리고 연산 결과에 따라 사용자의 질의에 대하여 어느 문서가 유사한 문서인지를 확인할 수 있다. 도 1을 예로 하면, 문서 D2의 벡터가 문서 D1의 벡터보다 사용자 질의인 Q에 더 가까이 위치해 있으므로 문서 D2가 사용자 질의 Q에 대하여 보다 유사한 문서라고 할 수 있다.
벡터 공간 모델을 사용하기 위해서는 문서의 벡터 공간에 있는 단어(Term)의 가중치를 계산하고 있어야 한다.
이를 위해서 TF-IDF(Term Frequency-inverse document frequency) 모델이 주로 사용되고 있다.
TF ; 문서 벡터에 존재하는 단어의 개수
IDF ; 단어를 벡터에 포함하고 있는 모든 문서들
가중치 = TF * IDF
이때, TF가 크고, DF가 작을수록 가중치는 커진다. 그리고, 전체문서에서 공통적으로 등장하는 단어들은 걸러지게 된다. 이는 많은 문서에서 출현하는 단어는 의미가 없다는 것을 뜻한다.
그리고, 문서 d가 있다면, 벡터 d는 다음과 같다.
Figure PCTKR2010002280-appb-I000002
그러나, 상술한 바와 같은 종래의 벡터 공간 모델은, 사용자가 질문을 입력한 경우 그 질문과 가장 유사한 문서를 찾아주기 위하여 질문과 각 문서들의 거리를 측정하고, 측정된 값에 따라 질문과 유사한 문서를 사용자에게 제시하지만, 문서에 적합한 키워드를 추천하는 데는 한계가 있었다.
즉 벡터 공간 모델과 역 벡터 공간 모델을 비교하기 위한 도면인 도 2에 나타낸 바와 같이, 벡터 공간 모델은 많은 문서들 중에서 입력한 질문, 즉 키워드 셋과 가장 근접한 문서를 찾는 방식이지만, 후술되는 본 발명의 역 벡터 공간 모델에서와 같이 여러 키워드 셋 중에서 입력된 글과 가장 근접한 키워드 셋을 찾아내는 것은 아니다.
본 발명의 목적은, 데이터베이스로 구축하고 있는 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천하도록 하는 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 제공하는 데 있다.
본 발명의 다른 목적은, 키워드 셋 중 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과 입력된 글에 포함된 단어들의 유사도를 계산하고, 유사도가 높은 키워드를 추천하도록 하는 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 제공하는 데 있다.
이러한 목적을 달성하기 위한 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법은, (1) 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하는 단계와, (2) 서버 컴퓨터는 네트워크 통신망을 통해 접속한 사용자 컴퓨터로부터 직접 작성한 글이 입력되는지를 판단하는 단계와, (3) 사용자 컴퓨터로부터 사용자가 직접 작성한 글이 입력되면, 서버 컴퓨터는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여하며, 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하는 단계와, (4) 서버 컴퓨터는, (1) 단계에서 벡터화된 각 키워드 셋과 (3) 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산하는 단계, 그리고 (5) 서버 컴퓨터는, (4) 단계를 통해 계산된 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천하는 단계를 포함한다.
또한, 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치는, 불특정 다수의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 하는 네트워크 통신망과, 네트워크 통신망을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터와 통신 접속을 수행하고, 직접 작성한 글을 서버 컴퓨터로부터 출력하며, 사용자가 직접 작성한 글에 대한 키워드를 서버 컴퓨터로부터 추천받는 복수의 사용자 컴퓨터, 그리고 데이터베이스로 구축된 의미적으로 연관되어 있는 2개의 이상의 키워드로 구성된 키워드 셋과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 네트워크 통신망을 통해 접속한 사용자 컴퓨터의 회원 접속을 수행하고, 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터로 추천하는 서버 컴퓨터를 포함한다.
이상에서와 같이 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치에 따르면, 많은 문서들 중에서 입력된 키워드(질문)와 가장 근접한 문서를 찾는 종래의 벡터 공간 모델을 역으로 적용하여 여러 키워드 중에서 입력된 글과 가장 근접한 키워드를 찾아 추천함으로써, 사용자는 추천받은 키워드를 이용하여 자신이 직접 작성한 글의 키워드를 손쉽게 선택할 수 있는 효과가 있다.
도 1은 종래의 벡터 공간 모델에 따른 사용자 질의와 각 문서의 벡터를 표시한 도면,
도 2는 벡터 공간 모델과 역 벡터 공간 모델을 비교하기 위한 도면,
도 3은 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치의 구성을 개략적으로 나타낸 블록도,
도 4는 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 동작과정을 나타낸 순서도,
도 5 내지 도 8은 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법에 사용되는 키워드 셋(트리플) 데이터베이스, 항목별 가중치 테이블, 입력된 글, 입력된 글의 TF의 예를 각각 나타낸 도면,
도 9는 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조를 개략적으로 나타낸 도면,
도 10은 변환된 키워드 인덱스와 웨이트의 예를 나타낸 표,
도 11은 keyword set의 예를 나타낸 표,
도 12는 모든 keyword set에 대하여 구해진 vector length의 예를 나타낸 표,
도 13은 잇글의 예,
도 14는 형태소분석기를 통해 추출된 도 13의 잇글의 용어와 출현빈도의 예를 나타낸 표,
도 15는 형태소 분석된 잇글의 용어의 그 가중치의 예를 나타낸 표,
도 16은 변환된 키워드 인덱스와 웨이트의 예를 나타낸 표,
도 17은 도 16의 요약된 Inverted keyword index & weight의 예를 나타낸 표,
도 18은 도 17의 유사도 계산된 결과를 나타낸 표이다.
이하, 첨부된 도면을 참조하여 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치를 상세하게 설명한다.
도 3은 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천장치의 구성을 개략적으로 나타낸 블록도이다.
도시된 바와 같이 본 발명의 키워드 추천장치는, 네트워크 통신망(100), 복수의 사용자 컴퓨터(200), 서버 컴퓨터(300) 등으로 구성된다.
네트워크 통신망(100)은 유/무선 인터넷 등의 통신망으로서, 복수의 사용자 컴퓨터(200)와 서버 컴퓨터(300)의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 한다.
사용자 컴퓨터(200)는 네트워크 통신망(100)을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터(300)와 통신 접속을 수행하고, 사용자가 직접 작성한 글(본 발명의 다른 표현으로 '잇글'이라 표현할 수 있음)을 서버 컴퓨터(300)로부터 출력하며, 사용자가 직접 작성한 글에 대한 추천 키워드를 서버 컴퓨터(300)로부터 제공받는다.
서버 컴퓨터(300)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고 있고, 항목에 대한 가중치 정보를 기반으로 각 키워드 셋을 벡터화한다. 그리고 네트워크 통신망(100)을 통해 접속한 사용자 컴퓨터(200)의 회원 로그인 또는 신규회원가입을 수행하고, 해당 사용자 컴퓨터(200)로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화한다. 그리고 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 사용자 컴퓨터(200)로 추천한다.
서버 컴퓨터(300)는 형태소 분석수단(310), 키워드 트리플 데이터베이스(320), 가중치 데이터베이스(330), 제어수단(340) 등으로 구성된다.
형태소 분석수단(310)은 서버 컴퓨터(300)로 회원 접속을 수행한 사용자 컴퓨터(200)로부터 입력된 사용자가 직접 작성된 글에 포함되어 있는 단어와 그 단어들의 출현빈도를 추출하고, 추출 정보를 제어수단(340)으로 출력한다.
키워드 셋 데이터베이스(320)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 저장하고 있다.
가중치 데이터베이스(330)는 키워드 셋 데이터베이스(320)에 저장되어 있는 각 키워드 셋들의 각 키워드가 의미하는 항목별 가중치 정보를 저장하고 있다.
제어수단(340)은 키워드 셋 데이터베이스(320)에 저장되어 있는 키워드 셋과 가중치 데이터베이스(330)에 저장되어 있는 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 회원 접속을 수행한 사용자 컴퓨터(200)로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석수단(310)을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하도록 제어한다. 그리고 형태소 분석수단(310)에서 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하여 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하며, 중복된 키워드를 제거한 추천 키워드를 사용자 컴퓨터(200)로 출력한다.
이와 같이 구성된 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법을 도 4를 참조하여 설명하면 다음과 같다.
도 4는 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 동작과정을 나타낸 순서도이다.
우선, 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터(300)는 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 데이터베이스로 구축하고(S10), 키워드 트리플을 포함한 키워드 셋 내의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축한다(20).
그리고 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋들을 벡터화한다(S30). 즉 데이터베이스로 구축된 모든 키워드 셋을 각 키워드 셋이 포함하고 있는 키워드에 기초하여 벡터화하는 것이다. 키워드 셋 내의 각 키워드마다 그것이 의미하는 항목의 유형에 대한 정보를 지니고 있으므로 가중치 테이블에 정의된 각 항목의 유형에 대한 가중치에 따라 각 키워드 셋에 가중치가 부여된다. 기존의 벡터 공간 모델에서는 단어의 출현빈도(term frequency)에 기반하여 가중치를 설정하였으나, 역 벡터 공간 모델을 이용하는 본 발명의 키워드 트리플에서는 각 키워드의 출현빈도는 무의미하므로 특정 키워드의 출현빈도가 많다고 그 키워드가 중요한 키워드라고 간주할 수 없다. 즉 각 키워드가 의미하는 항목에 대한 정보가 중요하기 때문에 각 키워드의 항목에 대한 값에 기초하여 가중치를 부여한다.
S30 단계를 통해 구해지는 키워드 셋 중 키워드 트리플의 벡터 Ti는, 다음의 식과 같이 키워드 트리플의 각 키워드의 항목에 대한 가중치의 제곱의 합의 양의 제곱근으로 구한다. 이러한 식은 모든 키워드 셋에도 적용가능하다.
Figure PCTKR2010002280-appb-I000003
상술한 S10 단계 내지 S30 단계를 통해 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화한 이후, 서버 컴퓨터(300)는 네트워크 통신망(100)을 통해 접속한 사용자 컴퓨터(200)의 회원 로그인 또는 신규회원가입을 처리하고(S40), 회원 접속을 수행한 사용자 컴퓨터(200)로부터 직접 작성한 글(잇글)이 입력되는지를 판단한다(S50).
판단결과 사용자 컴퓨터(200)로부터 사용자가 직접 작성한 글인 잇글이 입력되면, 서버 컴퓨터(300)는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고(S60), 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화한다(S70).
S70 단계를 통해 구해지는 사용자가 직접 작성한 글의 벡터 D는, 다음의 식과 같이 구해진다.
Figure PCTKR2010002280-appb-I000004
상술한 S60 단계와 S70 단계를 통해 사용자가 직접 작성한 글인 잇글을 벡터화한 이후, 서버 컴퓨터(300)는 S30 단계에서 벡터화된 각 키워드 셋과 S70 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산한다(S80).
즉 다음과 같은 코사인 공식에 의하여 유사도 계산을 수행하는 것이다.
Figure PCTKR2010002280-appb-I000005
S80 단계를 통해 벡터화된 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산한 결과를 토대로 서버 컴퓨터(300)는, 유사도가 높은 상위 n개의 키워드 셋으로부터 추천 키워드를 추출하고(S90), 추출된 추천 키워드를 네트워크 통신망(100)을 통해 사용자 컴퓨터(200)로 출력한다(S100).
이때, 유사도가 높은 상위 n개의 키워드 셋로부터 키워드를 추출하여 사용자 컴퓨터(200)로 추천할 때, 서버 컴퓨터(300)는 중복된 키워드는 제거한 후 사용자 컴퓨터(200)로 제공한다.
다음에는, 도 5 내지 도 8을 참조하여 본 발명에 따른 역 벡터 공간 모델을 이용한 키워드 추천방법의 일 실시 예를 보다 상세하게 설명한다. 이 예에서는 이해를 돕기 위해 3개의 키워드로 이루어진 키워드 트리플을 중심으로 설명한다.
도 5 내지 도 8은 본 발명의 역 벡터 공간 모델을 이용한 키워드 추천방법에 사용되는 키워드 트리플 데이터베이스, 항목별 가중치 테이블, 입력된 글, 입력된 글의 TF(출현빈도, Term Frequency)의 예를 각각 나타낸 도면이다.
우선, 도 5와 같이 키워드 1이 망토/유형은 제품이고, 키워드 2가 미니스커트/유형은 제품이고, 키워드 3이 스트랩슈즈/유형은 제품인 첫 번째 키워드 트리플과, 키워드 1이 미니스커트/유형은 제품이고, 키워드 2가 스쿨룩/유형은 스타일이고, 키워드 3이 이의정/유형은 연예인인 두 번째 키워드 트리플과, 키워드 1이 에스닉스타일/유형은 스타일이고, 키워드 2가 정려원/유형은 연예인이고, 키워드 3이 루즈핏/유형은 형용사 및 수식어인 세 번째 키워드 트리플과, 키워드 1이 망토/유형은 제품이고, 키워드 2가 루즈핏/유형은 스타일이고, 키워드 3이 크롭팬츠/유형은 제품인 네 번째 키워드 트리플과, 키워드 1이 크롭팬츠/유형은 제품이고, 키워드 2가 블루종/유형은 제품이고, 키워드 3이 스트랩슈즈/유형은 제품인 다섯 번째 키워드 트리플로 된 키워드 트리플 데이터베이스가 존재한다고 가정한다.
그리고 도 6과 같이 기사제품 항목의 가중치가 0.2, 연예인 항목의 가중치가 0.4, 매체 항목의 가중치가 0.4, 스타일 항목의 가중치가 0.4, 시즌 항목의 가중치가 0.2, 제품유형_뷰티 항목의 가중치가 0.2, 제품유형_의류 항목의 가중치가 0.2, 제품유형_패션잡화 항목의 가중치가 0.2, 브랜드 항목의 가중치가 0.3, 제품 항목의 가중치가 0.3, 색상 항목의 가중치가 0.1, 무늬 항목의 가중치가 0.1, 소재 항목의 가중치가 0.1, 장식 항목의 가중치가 0.2, 형용사 및 수식어 항목의 가중치가 0.1, 상점정보 항목의 가중치가 0.2, 기타추가정보 항목의 가중치가 0.1인 항목별 가중치 테이블이 존재한다고 가정하면, 서버 컴퓨터(300)각 키워드 트리플의 벡터 T를 다음과 같이 구할 수 있다.
Figure PCTKR2010002280-appb-I000006
Figure PCTKR2010002280-appb-I000007
Figure PCTKR2010002280-appb-I000008
Figure PCTKR2010002280-appb-I000009
Figure PCTKR2010002280-appb-I000010
이처럼 다섯 개의 키워드 트리플의 벡터 T를 구한 이후, 도 7에서와 같이 "삼순이에서의 정려원은 망토나 블루종과 같이 루즈핏 스타일을 즐겨입었다. 또한 에스닉스타일을 레이아웃해서 입어 새로운 유행을 선도했다. 정려원같이 마른 사람은 뭘 입어두 이쁘다."라는 사용자가 직접 작성한 글(잇글)이 입력되면, 서버 컴퓨터(300)는 도 8에서와 같이 사용자가 직접 작성한 글에서 형태소 분석을 통해 단어를 추출하여 각 단어의 출현빈도 TF를 구하고, 출현빈도 TF를 정규화한다.
사용자가 작성한 글은 글에 포함된 단어들의 벡터 D로 표현할 수 있는데, 이것은 다음과 같이 글에 포함된 단어들의 빈도수를 고려하여 정규화된 출현빈도(TF)의 제곱의 합의 양의 제곱근값을 구하여 얻어진다.
Figure PCTKR2010002280-appb-I000011
이후, 서버 컴퓨터(300)는 벡터화된 각 키워드 트리플과 사용자가 직접 작성한 글간의 유사도를 계산하는데, 유사도 계산을 위한 코사인 공식을 적용하기 이전에 각 키워드 트리플과 사용자가 작성한 글과의 내적(dot product)을 구하면 다음과 같다.
Figure PCTKR2010002280-appb-I000012
Figure PCTKR2010002280-appb-I000013
Figure PCTKR2010002280-appb-I000014
Figure PCTKR2010002280-appb-I000015
Figure PCTKR2010002280-appb-I000016
위와 같이 구해진 내적을 유사도 계산을 위한 코사인 공식에 적용하면, 다음과 같이 각 키워드 트리플과 사용자가 작성한 글(잇글)간의 유사도가 계산된다.
Figure PCTKR2010002280-appb-I000017
Figure PCTKR2010002280-appb-I000018
Figure PCTKR2010002280-appb-I000019
Figure PCTKR2010002280-appb-I000020
Figure PCTKR2010002280-appb-I000021
위와 같이 각 키워드 트리플과 사용자가 작성한 글(잇글)간의 유사도가 계산되면, 각 키워드 트리플의 순위는, T3 > T4 > T1, T5 > T2가 된다.
마지막으로 서버 컴퓨터(300)는 유사도가 높은 상위 2개의 키워드 트리플로부터 추천 키워드를 추출한다고 가정하면, 상술한 예에서는 세 번째와 네 번째 키워드 트리플로부터 에스닉스타일, 정려원, 루즈핏, 망토, 루즈핏, 크롭팬츠 등의 6개 키워드가 추출되고, 중복된 루즈핏 1개를 제외한 나머지 5개의 키워드인 에스닉스타일, 정려원, 루즈핏, 망토, 크롭팬츠가 사용자에게 추천된다.
다음에는, 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조에 대하여 보다 상세하게 설명한다.
도 9는 본 발명에 따른 잇글 키워드 추천을 위한 시스템의 구조를 개략적으로 나타낸 도면이다.
1. Keyword Sets Processing
Keyword sets processing 단계에서는 inverted keyword index & weight 테이블이 만들어지며, 모든 keyword sets의 vector length가 계산된다.
(1) Inverted keyword index & weight table
Inverted keyword index & weight table은 keyword set들이 포함하고 있는 모든 키워드들에 대해서 (a) 각 키워드가 keyword set에 나타나는 빈도수 (Keyword Frequency: KF), (b) 각 키워드의 빈도수에 기초한 가중치(weight), 그리고 (c) 인덱스 정보(이 키워드들이 어떤 keyword set에 포함되어 있는지에 대한 정보)를 가진다.(도 10 참조)
이때, (b)의 keyword weight는 다음의 식으로 계산된다.
keyword weight(kw) = 0.5 + 0.5*(KF/Max KF)
(2) Keyword set vector length 계산
각 keyword set의 vector length를 구하기 위해서는 각 키워드들의 keyword weight가 필요하며, 이것은 Inverted keyword index & weight table에 포함되어 있다. 각 keyword set의 vector length는 periodic하게 갱신되며 다음의 식과 같이 계산된다.
Figure PCTKR2010002280-appb-I000022
예를 들어, 도 11과 같은 keyword set 테이블이 있을 때, 5번 keyword set의 vector length는 다음과 같이 계산된다.
Figure PCTKR2010002280-appb-I000023
모든 keyword set에 대해서 도 12와 같이 vector length를 구할 수 있다.
2. 잇글 Processing
잇글 역시 그 글에 포함된 단어들의 vector로서 표현될 수 있다. 이를 위해, '잇글 processing' 단계에서는 사용자가 웹 페이지에 입력한 잇글이 실시간으로 형태소 분석기에 의해 처리되어, 잇글이 포함한 단어와 그 단어들의 출현빈도가 추출된다.
예를 들어, 도 13의 잇글이 입력되었다고 할 때, 입력된 잇글은 도 14와 같이 형태소분석기를 통해 용어와 출현빈도가 추출된다.
3. 유사도 계산
유사도 계산을 위해서는 입력된 잇글의 벡터값과, 각 keyword set의 vector length, 그리고 잇글과 keyword set간의 내적이 계산되어야 한다. 각 keyword set의 vector length는 주기적으로 업데이트된 값이 저장되어 있고, 잇글의 벡터값은 포함된 용어와 용어빈도로 실시간으로 간단히 계산될 수 있다. 그러나 잇글과 각 keyword set 간의 내적을 계산하기 위해 잇글이 포함한 단어와 각 keyword set들의 키워드를 비교하는 것은 꽤 긴 시간을 요하므로 실시간으로 키워드를 추천하는 것은 현실적으로 불가능하다.
따라서 우선 keyword set 중에서 잇글에 있는 단어들을 2개 이상 키워드로서 포함하고 있는 keyword set 들을 우선 선택하여 이 keyword set 중에서 유사도가 높은 keyword set 을 최종적으로 선택한다. 이를 위해 keyword set 이 포함하고 있는 키워드들에 대한 inverted index 테이블이 필요한데, 이는 'keyword sets processing' 단계를 통해 이미 만들어져 있다.
형태소분석을 통해 추출된 잇글의 단어들에 대해서 그 단어들이 Inverted index 테이블에 키워드로서 존재하는지 확인하고 그것들이 어떤 keyword set 들에 포함되는지에 대한 정보를 가져온다. 여기서, 공통된 keyword set 에 존재하는 단어들은 의미적으로 연관되어있다고 판단할 수 있으며, 한 keyword set 에 잇글에 사용된 단어가 많이 포함되어 있을수록 그 keyword set 은 잇글과의 유사도가 높을 가능성이 높다고 간주할 수 있다. 따라서 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set 들에 대해서만 유사도를 계산한다(만약, 잇글에 사용된 단어들을 2개이상 키워드로서 갖고 있는 keyword set이 존재하지 않는 경우, 4. 키워드 추천의 '키워드 추출' 단계로 바로 이동).
(1) 잇글 벡터 연산
'잇글 Processing' 단계를 통해 추출된 용어와 용어 출현빈도(Term frequency)는 우선 정규화하여 잇글내의 출현빈도에 기초된 가중치(Frequency weight: fw)가 만들어진다. 여기에 Inverted keyword index & weight table에 있는 각 키워드의 출현빈도를 기준으로 만들어진 가중치(keyword weight: kw)를 적용하여 다음의 식으로 잇글을 벡터화한다.
Figure PCTKR2010002280-appb-I000024
'잇글 Processing' 단계에서 제시된 예를 가지고 살펴보면, 입력된 잇글은 '잇글 Processing' 단계를 통해 잇글에 포함된 용어와 그 빈도가 추출되며, 이 빈도는 총합으로 나눔으로써 정규화할 수 있다. 추출된 각 용어는 정규화된 빈도와 그 용어가 키워드로서 keyword set 테이블에 포함되는 빈도에 기초하여 계산된 가중치(kw) 정보를 사용하여 벡터화된다.
도 15에 제시된 정보를 기준으로 입력된 잇글은 다음과 같이 벡터화된다.
Figure PCTKR2010002280-appb-I000025
(2) 유사도 계산
각 keyword set과 입력된 글과의 유사도를 다음의 코사인 공식에 의해 계산한다.
Figure PCTKR2010002280-appb-I000026
구체적으로 보면, Inverted index 테이블에 잇글에 포함된 단어들을 키워드로 포함하고 있는 keyword set 들을 조사한다. 즉, 잇글에 '송혜교', '그들만이 사는 세상', '롱니트' 라는 단어들이 포함되어 있다면, 우선 Inverted index 테이블에서 '송혜교', '그들만이사는세상', '롱니트' 라는 키워드가 keyword set 에 존재하는지를 먼저 확인하고, 존재한다면 이들이 어떤 keyword set 에 포함되었는지를 확인한다. 확인 후 잇글에 포함된 단어들이 한 keyword set에 적어도 2개 이상의 키워드로 갖고 있는 keyword set들에 대해서만 코사인값을 구하여 유사도를 비교한다(그렇지 않은 경우는 바로 '키워드 추천' 단계로 이동). 예를 들어, 송혜교가 keyword set 1, 2, 5, 12, 13, 15번에 포함되어 있고, 그들이사는세상은 keyword set 5, 12, 13, 16에, 그리고 롱니트는 keyword set 2, 12, 15에 포함되어 있다면, 2, 5, 12, 13, 15번의 keyword set 들은 잇글에 포함된 단어중 2개의 단어를 키워드로서 포함하고 있으므로 이 keyword set 들에 대해서만 유사도를 계산하여 비교한다.
유사도 계산 예
잇글에는 '송혜교', '현빈', '그들만이 사는 세상', '스타일링', '롱니트', '머플러'가 포함되어 있다. 이 단어들을 키워드로 가지고 있는 keyword set을 찾기 위해 Inverted keyword index & weight 테이블을 살펴본 결과, 도 17과 같다.
예를 들어, 그들이사는세상은 총 4개의 keyword set에 포함되어 있으며, keyword set 번호 5, 12, 13, 16에 포함되어 있음을 알려준다.
inverted keyword index & weight로부터 잇글에 포함된 모든 단어들이 어떤 keyword set에 포함되었는지를 확인할 수 있으며, 그 결과 동일한 keyword set에 포함된 단어들을 찾을 수 있다. 예를 들어 '그들이사는세상'과 '롱니트'는 keyword set 번호 12에 함께 존재함을 확인할 수 있다. 이와 같은 정보로부터 공통된 keyword set 에 존재하는 단어들은 의미적으로 연관되어 있다고 판단할 수 있으며, 한 keyword set에 잇글에 사용된 단어가 많이 포함되어 있을수록 그 keyword set은 잇글과의 유사도가 높을 가능성이 높다. 따라서 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set 들에 대해서만 유사도를 계산다(잇글에 사용된 단어들을 2개이상 키워드로서 갖고 있는 keyword set 이 존재하지 않는 경우, '키워드 추천' 단계로 바로 이동). 제시된 예에서는 keyword set 번호 2, 5, 12, 13, 15, 16이 잇글에 사용된 단어들을 2개 이상 키워드로 포함하고 있다. 이들에 대해서만 유사도를 계산하며, 계산된 결과는 도 18과 같다.
4. 키워드 추천
(1) 키워드 추출
'유사도 계산' 단계에서 코사인 값, 즉 유사도 값이 계산되었으며, 그 결과 유사도 값이 큰 상위 n개의 keyword set을 추출할 수 있다. 유사도가 높은 n개의 keyword set에서 중복된 키워드를 제거하여 유니크한 키워드들을 추출한다.
'유사도 계산'의 예에서 이어서 보면, 3개의 keyword set이라고 가정하면, 유사도값의 순위가 높은 순으로 keyword set번호 15, 12, 5번이 추출된다. 여기서 중복된 키워드를 제거하고 (머플러, 송혜교, 그들이사는세상, 롱니트)의 키워드가 추출된다.
또한 만약 잇글에 사용된 단어들을 2개 이상 키워드로서 갖고 있는 keyword set이 존재하지 않는다면, 잇글에 포함된 단어가 keyword set에 키워드로서 갖는 가중치를 기준으로 용어간의 우선순위를 정한다. 예를 들어, 공통된 keyword set이 없는 상황에서 송혜교는 가중치 1, 그들이사는세상은 0.83333이라면 키워드추천에 있어서 송혜교가 그들이사는세상보다 보다 높은 우선순위를 가진다.
(2) 최종 키워드 추천
키워드 추출단계에서 선택된 유니크한 키워드들과, 윗글이 존재하는 경우 윗글에서 지정한 키워드를 사용자에게 추천한다. 이때 윗글에 지정된 키워드가 5개 이상인 경우는 앞에 있는 5개만을 가져오며, 최종적으로 윗글이 지정한 키워드와 keyword set에서 추출한 키워드가 중복되지 않도록 사용자에게 추천한다.
키워드 추출 예에서 이어서 보면, 키워드 추출과정을 통해 (머플러, 송혜교, 그들이사는세상, 롱니트)가 추출되었다. 이것과 함께 만약 키워드 추천을 하고자 하는 잇글에 윗글이 존재한다면 윗글이 지정한 키워드들 중 차례대로 최대 5개를 추출된 키워드와 함께 추천한다. 예를 들어 현재 잇글의 윗글에 (드라마, 연예인, 스타일링, 동절기, 송혜교, 구혜선, 이연희)가 키워드로 지정되었다면 사용자에게는 (머플러, 송혜교, 그들이사는세상, 롱니트, 드라마, 연예인, 스타일링, 동절기, 송혜교)가 최종적으로 잇글의 키워드로서 추천된다.
여기에서, 상술한 본 발명에서는 바람직한 실시예를 참조하여 설명하였지만, 해당 기술분야의 숙련된 당업자는 하기의 특허청구범위에 기재된 본 발명의 사상 및 영역으로부터 벗어나지 않는 범위 내에서 본 발명을 다양하게 수정 및 변경할 수 있음을 이해할 수 있을 것이다.

Claims (7)

  1. (1) 역 벡터 공간 모델을 이용하여 키워드 추천 서비스를 제공하는 서버 컴퓨터는, 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋과, 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 데이터베이스로 구축하고, 데이터베이스로 구축된 각 키워드의 항목에 대한 가중치를 기반으로 각 키워드 셋을 벡터화하는 단계,
    (2) 상기 서버 컴퓨터는 네트워크 통신망을 통해 접속한 사용자 컴퓨터로부터 직접 작성한 글이 입력되는지를 판단하는 단계,
    (3) 상기 사용자 컴퓨터로부터 사용자가 직접 작성한 글이 입력되면, 상기 서버 컴퓨터는 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고, 추출된 단어들의 출현빈도에 기초하여 가중치를 부여하며, 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하는 단계,
    (4) 상기 서버 컴퓨터는, 상기 (1) 단계에서 벡터화된 각 키워드 셋과 상기 (3) 단계에서 벡터화된 사용자가 직접 작성한 글을 토대로 각 키워드 셋과 사용자가 작성한 글간의 유사도를 계산하는 단계, 그리고
    (5) 상기 서버 컴퓨터는, 상기 (4) 단계를 통해 계산된 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천하는 단계를
    포함하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
  2. 제 1 항에 있어서,
    상기 (1) 단계를 통해 구해지는 각 키워드 트리플의 벡터는,
    Figure PCTKR2010002280-appb-I000027
    의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
  3. 제 1 항에 있어서,
    상기 (3) 단계를 통해 구해지는 사용자가 직접 작성한 글의 벡터는,
    Figure PCTKR2010002280-appb-I000028
    의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
  4. 제 1 항에 있어서,
    상기 (4) 단계에서 수행되는 유사도 계산은,
    Figure PCTKR2010002280-appb-I000029
    의 수학식으로 구하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
  5. 제 1 항에 있어서,
    상기 (5) 단계를 통해 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천할 때,
    중복된 키워드는 제거한 후 상기 사용자 컴퓨터로 추천하는 역 벡터 공간 모델을 이용한 키워드 추천방법.
  6. 불특정 다수의 통신회선을 연결하여 상호간에 사용자가 직접 작성한 글, 키워드 추천에 관련된 데이터 통신이 이루어지도록 하는 네트워크 통신망,
    상기 네트워크 통신망을 통해 키워드 추천 서비스를 제공하는 서버 컴퓨터와 통신 접속을 수행하고, 직접 작성한 글을 서버 컴퓨터로부터 출력하며, 사용자가 직접 작성한 글에 대한 키워드를 서버 컴퓨터로부터 추천받는 복수의 사용자 컴퓨터, 그리고
    데이터베이스로 구축된 의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋(키워드 트리플 포함)과 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 상기 네트워크 통신망을 통해 접속한 상기 사용자 컴퓨터의 회원 접속을 수행하고, 상기 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 형태소 분석을 통해 사용자가 직접 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하고 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하며, 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하여 상기 사용자 컴퓨터로 추천하는 서버 컴퓨터를
    포함하는 역 벡터 공간 모델을 이용한 키워드 추천장치.
  7. 제 6 항에 있어서,
    상기 서버 컴퓨터는,
    상기 사용자 컴퓨터로부터 입력된 사용자가 직접 작성된 글에 포함되어 있는 단어와 그 단어들의 출현빈도를 추출하는 형태소 분석수단,
    의미적으로 연관되어 있는 2개 이상의 키워드로 구성된 키워드 셋을 저장하고 있는 키워드 셋 데이터베이스,
    상기 키워드 셋 데이터베이스에 저장되어 있는 각 키워드 셋들의 각 키워드가 의미하는 항목별 가중치 정보를 저장하고 있는 가중치 데이터베이스, 그리고
    상기 키워드 셋 데이터베이스에 저장되어 있는 키워드 셋과 상기 가중치 데이터베이스에 저장되어 있는 키워드 셋의 각 키워드가 의미하는 항목별 가중치 정보를 기반으로 각 키워드 셋을 벡터화하고, 회원 접속을 수행한 상기 사용자 컴퓨터로부터 사용자가 직접 작성된 글이 입력되면 상기 형태소 분석수단을 통해 사용자가 작성한 글에 포함된 단어와 그 단어들의 출현빈도를 추출하도록 제어하고, 상기 형태소 분석수단에서 추출된 단어들의 출현빈도에 기초하여 가중치를 부여한 후 가중치를 기반으로 사용자가 직접 작성한 글을 벡터화하고, 벡터화한 각 키워드 셋과 사용자가 직접 작성한 글간의 유사도를 계산하여 유사도가 높은 상위 n개의 키워드 셋으로부터 키워드를 추출하며, 중복된 키워드를 제거한 추천 키워드를 상기 사용자 컴퓨터로 출력하는 제어수단을
    포함하는 역 벡터 공간 모델을 이용한 키워드 추천장치.
PCT/KR2010/002280 2009-04-13 2010-04-13 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치 WO2010120101A2 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2009-0032004 2009-04-13
KR1020090032004A KR20100113423A (ko) 2009-04-13 2009-04-13 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치

Publications (2)

Publication Number Publication Date
WO2010120101A2 true WO2010120101A2 (ko) 2010-10-21
WO2010120101A3 WO2010120101A3 (ko) 2011-01-20

Family

ID=42982988

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2010/002280 WO2010120101A2 (ko) 2009-04-13 2010-04-13 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치

Country Status (2)

Country Link
KR (1) KR20100113423A (ko)
WO (1) WO2010120101A2 (ko)

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016093532A1 (ko) * 2014-12-10 2016-06-16 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
CN110134390A (zh) * 2019-03-30 2019-08-16 杭州电子科技大学 一种基于用户相似度的可编程控制器图编程控件的智能推送功能的实现方法
CN110148198A (zh) * 2019-05-10 2019-08-20 厦门欢乐逛科技股份有限公司 海报模板推荐方法、介质、设备及装置
CN110175224A (zh) * 2019-06-03 2019-08-27 安徽大学 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN111241383A (zh) * 2018-11-28 2020-06-05 上海花事电子商务有限公司 一种智能处理图文方法以及处理图文系统
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN112765342A (zh) * 2021-03-22 2021-05-07 中国电子科技集团公司第二十八研究所 一种基于时间与语义的文章推荐方法
CN115659046A (zh) * 2022-11-10 2023-01-31 果子(青岛)数字技术有限公司 基于ai大数据的技术交易推荐系统及方法

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019103183A1 (ko) * 2017-11-23 2019-05-31 지속가능발전소 주식회사 Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
KR102051825B1 (ko) 2018-02-13 2020-01-08 국민대학교산학협력단 의미 기반 유사특허 검색 장치 및 방법, 이를 기록한 기록매체
KR101880474B1 (ko) * 2018-03-23 2018-08-17 주식회사 비네아 고부가 가치화 콘텐츠 정보서비스를 위한 키워드 기반 서비스 제공 방법, 이를 구현하기 위한 프로그램이 저장된 기록매체 및 이를 구현하기 위해 매체에 저장된 컴퓨터프로그램
KR102306393B1 (ko) * 2019-08-12 2021-09-29 엘지전자 주식회사 음성 처리 장치 및 음성 처리 방법
KR102105319B1 (ko) * 2019-09-20 2020-04-28 지속가능발전소 주식회사 Esg 기반의 기업 평가 수행 장치 및 이의 작동 방법
KR102085355B1 (ko) 2019-10-02 2020-03-05 (주)디앤아이파비스 특허문서의 유의어 사전 생성 방법, 장치 및 컴퓨터프로그램
CN111709819B (zh) * 2020-01-20 2021-03-30 山东佳联电子商务有限公司 一种点拍网基于图神经网络的产权交易推荐系统及推荐方法
KR20210039905A (ko) 2020-02-06 2021-04-12 (주)디앤아이파비스 특허문서의 유의어 사전 생성 방법, 장치 및 컴퓨터프로그램
KR20210109208A (ko) 2020-02-27 2021-09-06 주식회사 케이티 질의 응답 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US20050021490A1 (en) * 2003-07-25 2005-01-27 Chen Francine R. Systems and methods for linked event detection
KR100490442B1 (ko) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법
KR20100066919A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11110409A (ja) * 1997-10-07 1999-04-23 Ntt Data Corp 情報分類方法及び装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100490442B1 (ko) * 2002-03-16 2005-05-17 삼성에스디에스 주식회사 벡터문서모델을 이용한 동일/유사제품 클러스트링 장치 및그 방법
JP2003288362A (ja) * 2002-03-27 2003-10-10 Seiko Epson Corp 特定要素ベクトル生成装置、文字列ベクトル生成装置、類似度算出装置、特定要素ベクトル生成プログラム、文字列ベクトル生成プログラム及び類似度算出プログラム、並びに特定要素ベクトル生成方法、文字列ベクトル生成方法及び類似度算出方法
US20050021490A1 (en) * 2003-07-25 2005-01-27 Chen Francine R. Systems and methods for linked event detection
KR20100066919A (ko) * 2008-12-10 2010-06-18 한국전자통신연구원 웹 기반의 정보 저장 및 검색 방법, 이를 위한 정보 관리 시스템

Cited By (18)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2016093532A1 (ko) * 2014-12-10 2016-06-16 주식회사 와이즈넛 정규화된 키워드 가중치에 기반한 연관 키워드 추출 방법
CN110309387A (zh) * 2018-03-07 2019-10-08 苏州猫耳网络科技有限公司 一种大数据资讯聚合阅读推荐方法
CN111241383B (zh) * 2018-11-28 2023-08-04 上海与你信息科技有限公司 一种智能处理图文方法以及处理图文系统
CN111241383A (zh) * 2018-11-28 2020-06-05 上海花事电子商务有限公司 一种智能处理图文方法以及处理图文系统
CN110134390B (zh) * 2019-03-30 2022-11-25 杭州电子科技大学 一种基于用户相似度的可编程控制器图编程控件的智能推送功能的实现方法
CN110134390A (zh) * 2019-03-30 2019-08-16 杭州电子科技大学 一种基于用户相似度的可编程控制器图编程控件的智能推送功能的实现方法
CN110148198A (zh) * 2019-05-10 2019-08-20 厦门欢乐逛科技股份有限公司 海报模板推荐方法、介质、设备及装置
CN110990711B (zh) * 2019-05-13 2023-05-12 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐方法及系统
CN110990711A (zh) * 2019-05-13 2020-04-10 国家计算机网络与信息安全管理中心 基于机器学习的微信公众号推荐算法及系统
CN110175224A (zh) * 2019-06-03 2019-08-27 安徽大学 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN110175224B (zh) * 2019-06-03 2022-09-30 安徽大学 基于语义链接异构信息网络嵌入的专利推荐方法及装置
CN110727784A (zh) * 2019-09-05 2020-01-24 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN110727784B (zh) * 2019-09-05 2023-11-10 上海异势信息科技有限公司 基于内容的文章推荐方法及系统
CN111767713A (zh) * 2020-05-09 2020-10-13 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN111767713B (zh) * 2020-05-09 2023-07-21 北京奇艺世纪科技有限公司 关键词的提取方法、装置、电子设备及存储介质
CN112765342B (zh) * 2021-03-22 2022-10-14 中国电子科技集团公司第二十八研究所 一种基于时间与语义的文章推荐方法
CN112765342A (zh) * 2021-03-22 2021-05-07 中国电子科技集团公司第二十八研究所 一种基于时间与语义的文章推荐方法
CN115659046A (zh) * 2022-11-10 2023-01-31 果子(青岛)数字技术有限公司 基于ai大数据的技术交易推荐系统及方法

Also Published As

Publication number Publication date
KR20100113423A (ko) 2010-10-21
WO2010120101A3 (ko) 2011-01-20

Similar Documents

Publication Publication Date Title
WO2010120101A2 (ko) 역 벡터 공간 모델을 이용한 키워드 추천방법 및 그 장치
WO2017213396A1 (ko) 도서 추천 서비스 제공 장치 및 방법
WO2010087566A1 (en) Document analysis system
WO2018016673A1 (ko) 대체어 자동 추출 장치 및 방법, 이를 수행하기 위한 기록 매체
WO2020251233A1 (ko) 영상데이터의 추상적특성 획득 방법, 장치 및 프로그램
WO2012070840A2 (ko) 컨센서스 검색 장치 및 방법
CN105005561B (zh) 一种基于语料库的双语检索统计翻译系统
WO2020085663A1 (ko) 인공지능 기반의 자동 로고생성 시스템 및 이를 이용한 로고생성 서비스 방법
CN102667767A (zh) 色彩描述分析设备、色彩描述分析方法及色彩描述分析程序
WO2017115994A1 (ko) 인공 지능 기반 연관도 계산을 이용한 노트 제공 방법 및 장치
WO2017099454A1 (ko) 마인드맵 기반 키워드 검색 방법 및 이를 위한 장치
WO2010123264A2 (en) Online community post search method and apparatus based on interactions between online community users and computer readable storage medium storing program thereof
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
WO2021246642A1 (ko) 폰트를 추천하는 방법 및 이를 구현하는 장치
JP3612769B2 (ja) 情報検索装置および情報検索方法
WO2018128502A1 (ko) 생물학적 체계 정보 검색 시스템 및 방법
WO2017191877A1 (ko) 프로버넌스 관리를 위한 압축 장치 및 방법
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2017179778A1 (ko) 빅데이터를 이용한 검색 방법 및 장치
WO2019112223A1 (ko) 전자 문서 검색 방법 및 그 서버
WO2022154376A1 (ko) Sns 텍스트 기반의 사용자의 인테리어 스타일 분석 모델 제공 장치 및 방법
WO2011136413A1 (ko) 특허 유사도 검출에 의한 지적재산권 포괄 성형망 구현장치 및 방법
WO2016072772A1 (ko) 레퍼런스 의미 지도를 이용한 데이터 시각화 방법 및 시스템
WO2020251236A1 (ko) 딥러닝 알고리즘을 이용한 영상데이터 검색 방법, 장치 및 프로그램
CN114298058B (zh) 文章替换词推荐方法、系统、计算机可读介质

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 10764640

Country of ref document: EP

Kind code of ref document: A2

NENP Non-entry into the national phase

Ref country code: DE

32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 112(1) EPC (EPO FORM 1205A DATED 06/02/2012)

122 Ep: pct application non-entry in european phase

Ref document number: 10764640

Country of ref document: EP

Kind code of ref document: A2