WO2019039673A1 - 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법 - Google Patents

인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법 Download PDF

Info

Publication number
WO2019039673A1
WO2019039673A1 PCT/KR2017/015054 KR2017015054W WO2019039673A1 WO 2019039673 A1 WO2019039673 A1 WO 2019039673A1 KR 2017015054 W KR2017015054 W KR 2017015054W WO 2019039673 A1 WO2019039673 A1 WO 2019039673A1
Authority
WO
WIPO (PCT)
Prior art keywords
words
web page
score
company
extracting
Prior art date
Application number
PCT/KR2017/015054
Other languages
English (en)
French (fr)
Inventor
김관호
이동훈
Original Assignee
인천대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인천대학교 산학협력단 filed Critical 인천대학교 산학협력단
Publication of WO2019039673A1 publication Critical patent/WO2019039673A1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/20Natural language analysis
    • G06F40/268Morphological analysis

Definitions

  • the present invention relates to an apparatus and a method for automatically extracting product keyword information for a company operating a web page through analysis of a web page.
  • the analysis of information through web pages is performed by analyzing various texts included in a web page through text mining, which is a technique for finding new and useful information from unstructured text data, and finding a predetermined meaning therefrom.
  • An apparatus and method for automatically extracting product keyword information based on analysis of a web page according to the present invention includes extracting important words according to frequency of occurrence in a corresponding web page from a web page of an enterprise, A product keyword having the highest similarity according to a characteristic vector is selected and provided to an administrator so that an administrator can easily collect product keyword information for a specific company easily.
  • the apparatus for automatically extracting product keyword information based on analysis of a web page according to an embodiment of the present invention is a device for automatically extracting product keyword information based on analysis of a web page according to an embodiment of the present invention.
  • a dictionary database in which a plurality of product keywords are assigned, and a plurality of predetermined product keywords (the plurality of product keywords are words included in the plurality of words)
  • a product keyword database and a connection address for a web page of the first company are input, the web page of the first company is accessed from the web page of the first company on the basis of the connection address,
  • a word extracting unit for extracting a plurality of first words from the plurality of first texts by performing morphological analysis on the first texts, a word extracting unit for extracting a plurality of first words from the plurality of first texts,
  • An important word selection unit for selecting at least one important word among the plurality of first words on the basis of
  • An apparatus and method for automatically extracting product keyword information based on analysis of a web page according to the present invention includes extracting important words according to frequency of occurrence in a corresponding web page from a web page of an enterprise, A product keyword having the highest degree of similarity according to the characteristic vector is selected and provided to the manager so that the manager can easily and automatically collect product keyword information for a specific company.
  • FIG. 1 is a diagram illustrating a structure of an apparatus for automatically extracting product keyword information based on web page analysis according to an embodiment of the present invention.
  • FIG. 2 is a flowchart showing a method of automatically extracting product keyword information based on web page analysis.
  • FIG. 1 is a diagram illustrating a structure of an apparatus for automatically extracting product keyword information based on web page analysis according to an embodiment of the present invention.
  • an apparatus for automatically extracting product keyword information 110 based on web page analysis includes a dictionary database 111, a product keyword database 112, a text extractor 113, An extracting unit 114, an important word selecting unit 115, a product keyword selecting unit 116, and a product keyword information transmitting unit 117.
  • the dictionary database 111 stores a plurality of predetermined words.
  • different characteristic vectors are assigned to each of the plurality of words so that the similarity degree between the vectors becomes higher as similar words are determined according to a predetermined word similarity criterion.
  • information may be stored in the dictionary database 111 as shown in Table 1 below.
  • S is a similarity between the characteristic vectors A and B, and has a value between -1 and 1, and the larger the value is, the similar characteristic vector
  • a i is the i-th component of the characteristic vector A
  • B i is the characteristic vector And the i-th component of B, respectively.
  • the plurality of words stored in the dictionary database 111 as shown in Table 1 are words arbitrarily set by the administrator, and the characteristic vectors assigned to the words are determined by a similarity degree between the words set by the administrator Lt; / RTI > At this time, the similarity criterion between the words can be a criterion based on a result of analyzing various information through the web and analyzing the relation between various words through analysis and learning of each information.
  • the product keyword database 112 stores a plurality of predetermined product keywords.
  • the plurality of product keywords are words included in the plurality of words.
  • the text extracting unit 113 accesses the web page of the first company based on the access address, And extracts a plurality of first texts existing on the web page.
  • the text extracting unit 113 parses HTML (Hypertext Markup Language) code constituting the web page of the first company, extracting the plurality of first texts existing on the web page of the first company by extracting the inserted text through a tag, if a hyperlink tag exists on the HTML code, Tag, and extracting texts inserted through a tag associated with text input from the HTML code of the sub-page, together with the plurality of texts existing on the web page of the first company, 1 < / RTI > texts.
  • HTML Hypertext Markup Language
  • the text extraction unit 113 extracts the text inserted through the tag associated with the text input in the HTML code constituting the web page of the first company, and a hyperlink tag such as " ⁇ a href> & , It is possible to access the sub page linked through the hyperlink tag and to extract the texts inserted through the tag associated with the text input from the HTML code of the sub page to be present on the web page of the first company A plurality of first texts may be extracted.
  • the word extracting unit 114 extracts a plurality of first words from the plurality of first texts by performing morphological analysis on the plurality of first texts.
  • the important word selection unit 115 selects at least one important word among the plurality of first words based on the frequency of occurrence of the plurality of first words on the web page of the first company.
  • the important word selecting unit 115 may include a score assigning unit 118, a frequency counting unit 119, a score correcting unit 120, and a selecting unit 121 .
  • the score assigning unit 118 refers to the dictionary database 111 for each of the plurality of first words, and stores the feature vector for the company name and the plurality of first words A score based on the similarity between the feature vectors for each is assigned.
  • the frequency counting unit 119 counts the frequency of appearance of each of the plurality of first words appearing on the web page of the first company.
  • the score correcting unit 120 applies different weights based on the appearance frequency on the web page of the first company of the plurality of first words to the score assigned to each of the plurality of first words, ≪ / RTI >
  • the selecting unit 121 selects words as the at least one important word to which a score exceeding a predetermined reference score is assigned to the corrected score among the plurality of first words.
  • the important word selection unit 115 includes a weight table holding unit 122 for storing and holding a weight table in which different weights are recorded corresponding to predetermined predetermined frequency ranges, As shown in FIG.
  • Different frequency ranges Different weights 1 to 5 times One 6 ⁇ 10 times 1.1 11 times to 15 times 1.2 ... ...
  • the score assigning unit 118 refers to the dictionary database 111 among the plurality of first words, and stores the feature vector for the company name and the plurality of first words Assigning a first score to words whose similarities are greater than a predetermined reference similarity degree among the plurality of first words and assigning a second score to words not exceeding the predetermined reference similarity degree among the plurality of first words Can be assigned.
  • the second score is a score lower than the first score.
  • the score assigning unit 118 assigns the degree of similarity between the characteristic vector of the company name stored in the dictionary database 111 and the characteristic vector of each of the plurality of first words according to the equation of equation (1)
  • a first score can be assigned to words whose calculated degree of similarity exceeds the predetermined reference similarity degree among the plurality of first words and a second score lower than the first score Can be assigned.
  • the score correction unit 120 refers to the weight table as shown in Table 1, and calculates, for each of the plurality of first words, A weighting value corresponding to a frequency range to which the frequency of occurrence belongs is matched and a weight matched to each of the plurality of first words is applied to a score assigned to each of the plurality of first words, The score for each of the words can be corrected.
  • the selector 121 assigns a score that exceeds the predetermined reference score of the corrected scores among the plurality of first words Words can be selected as the at least one important word.
  • the product keyword selection unit 116 refers to the dictionary database 111 among the plurality of product keywords stored in the product keyword database 112, At least one product keyword to which a feature vector for which the degree of similarity with the feature vector assigned to each word is calculated is selected.
  • the product keyword selection unit 116 selects, for each of the ten important words among the plurality of product keywords stored in the product keyword database 112, Ten product keywords to which a feature vector with the maximum similarity calculated according to Equation (1) above are assigned to the feature vectors of the ten important words can be selected.
  • the product keyword information transmitting unit 117 transmits the at least one product keyword to the terminal of the manager as the main product keyword information of the first company.
  • the automatic product keyword information extraction device 110 based on the analysis of the web page according to the present invention extracts important words according to the appearance frequency in the web page from the web page of the company, And the product keyword having the highest similarity according to the characteristic vector is selected and provided to the manager so that the manager can easily and automatically collect product keyword information for a specific company.
  • FIG. 2 is a flowchart showing a method of automatically extracting product keyword information based on web page analysis.
  • step S210 a plurality of predetermined words (different characteristic vectors set in advance so as to calculate a similarity degree between the vectors with a similar word according to a predetermined word similarity criterion are assigned to each of the plurality of words) And maintains a dictionary database.
  • step S220 a product keyword database in which a predetermined plurality of product keywords (the plurality of product keywords are included in the plurality of words) is stored.
  • step S230 when a connection address for the web page of the first company is inputted, the web page of the first company is accessed from the web page of the first company on the basis of the connection address, And extracts a plurality of first texts existing on the display screen.
  • step S240 morphological analysis is performed on the plurality of first texts to extract a plurality of first words from the plurality of first texts.
  • step S250 at least one important word among the plurality of first words is selected based on the frequency of occurrence on the web page of the first company of the plurality of first words.
  • the feature database may be referred to by referring to the dictionary database among the plurality of product keywords stored in the product keyword database, At least one product keyword to which a feature vector for which the similarity degree of the feature vector is calculated at the maximum is assigned.
  • step S270 when the at least one product keyword is selected, the at least one product keyword is transmitted to the terminal of the administrator as the main product keyword information of the first company.
  • step S250 when the company name of the first company is input, for each of the plurality of first words, referring to the dictionary database, Assigning a score based on a degree of similarity between characteristic vectors for each of the plurality of first words, counting the number of occurrences of each of the plurality of first words appearing on a web page of the first company, For each of the first words of the plurality of first words by applying different weights based on the frequency of occurrence on the web page of the first company of the plurality of first words, Correcting the first words and the words to which the score exceeding the predetermined reference score is assigned to the corrected score among the plurality of first words It may include the step of selecting as one of the important words.
  • the step S250 may further include storing and maintaining a weight table in which different weights are recorded corresponding to predetermined frequency ranges, Wherein when the company name of the first company is inputted, the step of assigning the name of the first company is performed by referring to the dictionary database among the plurality of first words and calculating the similarity between the characteristic vector for the company name and the characteristic vector for each of the plurality of first words Assigning a first score to words exceeding a predetermined reference similarity degree and assigning a second score to the words not exceeding the predetermined reference similarity degree among the plurality of first words The score being less than the first score), and the step of correcting the score may include assigning the plurality of first words For each of the plurality of first words, a weight corresponding to a frequency range to which a frequency of occurrence on the web page of the first corporation belongs is matched on the weight table, The score for each of the plurality of first words may be corrected by applying a weight matched to each of the plurality of first words.
  • step S230 the HTML code constituting the web page of the first company is parsed, and the embedded text is extracted through the tag associated with the text input on the HTML code, Extracting the plurality of first texts existing on the web page of the first company, if a hyperlink tag exists on the HTML code, accessing a sub page linked through the hyperlink tag, Extracting the text inserted through the tag associated with the text input from the HTML code of the page, and extracting the plurality of first texts existing on the web page of the first company.
  • the calculation of the similarity between different feature vectors may be performed according to Equation (1) above.
  • the automatic product keyword information extraction method based on web page analysis corresponds to the configuration of the operation of the automatic product keyword information extraction apparatus 110 based on the web page analysis described with reference to FIG. 1 A detailed description thereof will be omitted.
  • a method for automatically extracting product keyword information based on analysis of a web page may be implemented by a computer program stored in a storage medium for execution through a combination with a computer.
  • the method of automatically extracting product keyword information based on analysis of a web page may be implemented in a form of a program command that can be executed through various computer means and recorded in a computer readable medium.
  • the computer-readable medium may include program instructions, data files, data structures, and the like, alone or in combination.
  • the program instructions recorded on the medium may be those specially designed and constructed for the present invention or may be available to those skilled in the art of computer software.
  • Examples of computer-readable media include magnetic media such as hard disks, floppy disks and magnetic tape; optical media such as CD-ROMs and DVDs; magnetic media such as floppy disks; Magneto-optical media, and hardware devices specifically configured to store and execute program instructions such as ROM, RAM, flash memory, and the like.
  • Examples of program instructions include machine language code such as those produced by a compiler, as well as high-level language code that can be executed by a computer using an interpreter or the like.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법이 개시된다. 본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.

Description

인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
본 발명은 웹 페이지의 분석을 통해 해당 웹 페이지를 운영하는 기업에 대한 제품 키워드 정보를 자동으로 추출하는 장치 및 방법에 대한 것이다.
인터넷의 보급이 확대됨에 따라 다양한 정보들을 포함하고 있는 웹 페이지들이 등장하고 있다.
이렇게 다양한 정보들을 포함하고 있는 웹 페이지가 생산되고 배포됨에 따라, 이러한 웹 페이지들에 포함되어 있는 정보들의 분석을 통해서, 경제 흐름이나 여론 흐름 등을 분석하는 빅데이터 기반의 분석 기술들도 등장하고 있다.
웹 페이지를 통한 정보 분석은 비정형 텍스트 데이터에서 새롭고 유용한 정보를 찾아내는 기술인 텍스트 마이닝을 통해 웹 페이지에 포함되어 있는 각종 텍스트들을 분석하고, 이로부터 소정의 의미를 찾아내는 형태로 이루어지고 있다.
예컨대, 상품에 대한 정보를 주고받는 커뮤니티와 관련된 웹 페이지에서 각 회원들이 웹 페이지 상에 남겨놓은 글들을 분석해서 현재 어떠한 제품이 인기를 끌고 있는지 등을 예측하는 시스템들이 존재한다.
최근에는 투자 유치, 수요 기업 발굴 등의 이유로 기업들의 정보를 데이터베이스로 구축하려고 하는 시도가 증가하고 있다. 다양한 기업들의 정보를 수집하여 데이터베이스로 구축할 때에는 각 기업들이 어떠한 제품들을 생산하고 있는지를 확인해서 기업 정보 데이터베이스 상에 각 기업들이 취급하는 제품 정보를 저장해야 할 필요가 있다.
이와 관련해서, 대부분의 기업들은 홍보의 목적으로 다양한 정보가 포함된 웹 페이지를 구축해서 운영하고 있다는 점에서, 이러한 각 기업들의 웹 페이지에 대한 정보 분석을 통해 각 기업들이 취급할 것으로 예상되는 제품의 키워드들을 자동으로 추출해서 관리자에게 제공할 수 있는 기술에 대한 연구가 필요하다.
본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원하고자 한다.
본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치는 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스, 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스, 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 텍스트 추출부, 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단어 추출부, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 중요 단어 선택부, 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 제품 키워드 선택부 및 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 제품 키워드 정보 전송부를 포함한다.
또한, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스를 유지하는 단계, 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스를 유지하는 단계, 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 단계, 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단계, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 단계, 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 단계 및 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 단계를 포함한다.
본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.
도 1은 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치의 구조를 도시한 도면이다.
도 2는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법을 도시한 순서도이다.
이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.
도 1은 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치의 구조를 도시한 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)는 사전 데이터베이스(111), 제품 키워드 데이터베이스(112), 텍스트 추출부(113), 단어 추출부(114), 중요 단어 선택부(115), 제품 키워드 선택부(116) 및 제품 키워드 정보 전송부(117)를 포함한다.
사전 데이터베이스(111)에는 미리 정해진 복수의 단어들이 저장되어 있다.
여기서, 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있다.
예컨대, 사전 데이터베이스(111)에는 하기의 표 1과 같이 정보가 저장되어 있을 수 있다.
복수의 단어들 특성 벡터
컴퓨터 (1, 2, 3, 4, 5)
휴대폰 (6, 7, 8, 9, 10)
... ...
여기서, 벡터 사이의 유사도는 하기의 수학식 1에 따라 연산될 수 있다.
Figure PCTKR2017015054-appb-M000001
여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, Ai는 특성 벡터 A의 i번째 성분, Bi는 특성 벡터 B의 i번째 성분을 의미한다.
예컨대, 상기 표 1에서 "컴퓨터"라는 단어와 "휴대폰"이라는 단어에 각각 할당되어 있는 특성 벡터 간의 유사도를 연산하게 되면, 하기의 수학식 2와 같이 연산될 수 있다.
Figure PCTKR2017015054-appb-M000002
상기 표 1과 같은 사전 데이터베이스(111)에 저장되는 복수의 단어들은 관리자에 의해 임의로 설정된 단어들이며, 각 단어들에 할당되어 있는 특성 벡터들은 관리자에 의해서 설정된 각 단어들 간의 유사도 기준에 따라 소정의 유사도가 연산되도록 할당된 값일 수 있다. 이때, 각 단어들 간의 상기 유사도 기준은 웹을 통해 다양한 정보들을 수집하고, 각 정보들에 대한 분석과 학습을 통해서 다양한 단어들 간의 관계 분석을 수행한 결과에 기반한 기준일 수 있다.
제품 키워드 데이터베이스(112)에는 미리 정해진 복수의 제품 키워드들이 저장되어 있다.
여기서, 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들이다.
텍스트 추출부(113)는 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출한다.
이때, 본 발명의 일실시예에 따르면, 텍스트 추출부(113)는 상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행할 수 있다.
관련해서, 텍스트 추출부(113)는 제1 기업의 웹 페이지를 구성하는 HTML 코드에서 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 추출하되, "<a href>"와 같은 하이퍼링크 태그가 존재하는 경우, 해당 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속해서 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출할 수 있다.
단어 추출부(114)는 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출한다.
중요 단어 선택부(115)는 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택한다.
이때, 본 발명의 일실시예에 따르면, 중요 단어 선택부(115)는 점수 할당부(118), 빈도수 카운트부(119), 점수 보정부(120) 및 선택부(121)를 포함할 수 있다.
점수 할당부(118)는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 사전 데이터베이스(111)를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당한다.
빈도수 카운트부(119)는 상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트한다.
점수 보정부(120)는 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정한다.
선택부(121)는 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택한다.
이때, 본 발명의 일실시예에 따르면, 중요 단어 선택부(115)는 미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 가중치 테이블 유지부(122)를 더 포함할 수 있다.
관련해서, 상기 가중치 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.
서로 다른 빈도수 범위들 서로 다른 가중치
1회~5회 1
6회~10회 1.1
11회~15회 1.2
... ...
이때, 점수 할당부(118)는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 사전 데이터베이스(111)를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수를 할당할 수 있다.
여기서, 상기 제2 점수는 상기 제1 점수보다 낮은 점수이다.
관련해서, 점수 할당부(118)는 상기 수학식 1의 연산식에 따라 사전 데이터베이스(111) 상에 저장되어 있는 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각의 특성 벡터 간의 유사도를 연산한 후 상기 복수의 제1 단어들 중 연산된 유사도가 상기 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당할 수 있고, 나머지 단어들에 대해 상기 제1 점수보다 낮은 제2 점수를 할당할 수 있다.
이때, 점수 보정부(120)는 상기 표 1과 같은 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정할 수 있다.
이렇게, 상기 복수의 제1 단어들 각각에 대한 점수의 보정이 완료되면, 선택부(121)는 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택할 수 있다.
이렇게, 상기 적어도 하나의 중요 단어가 선택되면, 제품 키워드 선택부(116)는 제품 키워드 데이터베이스(112)에 저장되어 있는 상기 복수의 제품 키워드들 중 사전 데이터베이스(111)를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택한다.
예컨대, 상기 적어도 하나의 중요 단어가 총 10개 단어라고 하는 경우, 제품 키워드 선택부(116)는 제품 키워드 데이터베이스(112)에 저장되어 있는 복수의 제품 키워드들 중 상기 10개의 중요 단어 각각에 대해서, 상기 10개의 중요 단어 각각의 특성 벡터와의 상기 수학식 1에 따른 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 10개의 제품 키워드들을 선택할 수 있다.
이렇게, 상기 적어도 하나의 제품 키워드가 선택되면, 제품 키워드 정보 전송부(117)는 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송한다.
결국, 본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)는 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.
도 2는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법을 도시한 순서도이다.
단계(S210)에서는 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스를 유지한다.
단계(S220)에서는 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스를 유지한다.
단계(S230)에서는 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출한다.
단계(S240)에서는 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출한다.
단계(S250)에서는 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택한다.
단계(S260)에서는 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택한다.
단계(S270)에서는 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송한다.
이때, 본 발명의 일실시예에 따르면, 단계(S250)에서는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 단계, 상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 단계, 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 단계 및 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 단계를 포함할 수 있다.
이때, 본 발명의 일실시예에 따르면, 단계(S250)에서는 미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 단계를 더 포함할 수 있고, 상기 점수를 할당하는 단계는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수(상기 제2 점수는 상기 제1 점수보다 낮은 점수임)를 할당할 수 있으며, 상기 점수를 보정하는 단계는 상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정할 수 있다.
또한, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 제1 기업의 웹 페이지를 구성하는 HTML 코드를 파싱하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행할 수 있다.
또한, 본 발명의 일실시예에 따르면, 서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 상기 수학식 1에 따라 수행될 수 있다.
이상, 도 2를 참조하여 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 도 1을 이용하여 설명한 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.
본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.
또한, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.
이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.
따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims (12)

  1. 미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스;
    미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스;
    제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 텍스트 추출부;
    상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단어 추출부;
    상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 중요 단어 선택부;
    상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 제품 키워드 선택부; 및
    상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 제품 키워드 정보 전송부
    를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
  2. 제1항에 있어서,
    상기 중요 단어 선택부는
    상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 점수 할당부;
    상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 빈도수 카운트부;
    상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 점수 보정부; 및
    상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 선택부
    를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
  3. 제2항에 있어서,
    상기 중요 단어 선택부는
    미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 가중치 테이블 유지부
    를 더 포함하고,
    상기 점수 할당부는
    상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,
    상기 점수 보정부는
    상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
  4. 제1항에 있어서,
    상기 텍스트 추출부는
    상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
  5. 제2항에 있어서,
    서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 1에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
    [수학식 1]
    Figure PCTKR2017015054-appb-I000001
    여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, Ai는 특성 벡터 A의 i번째 성분, Bi는 특성 벡터 B의 i번째 성분을 의미함.
  6. 미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스를 유지하는 단계;
    미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스를 유지하는 단계;
    제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 단계;
    상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단계;
    상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 단계;
    상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 단계; 및
    상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 단계
    를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
  7. 제6항에 있어서,
    상기 적어도 하나의 중요 단어를 선택하는 단계는
    상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 단계;
    상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 단계;
    상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 단계; 및
    상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 단계
    를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
  8. 제7항에 있어서,
    상기 적어도 하나의 중요 단어를 선택하는 단계는
    미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 단계
    를 더 포함하고,
    상기 점수를 할당하는 단계는
    상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,
    상기 점수를 보정하는 단계는
    상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
  9. 제6항에 있어서,
    상기 복수의 제1 텍스트들을 추출하는 단계는
    상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
  10. 제7항에 있어서,
    서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 2에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
    [수학식 2]
    Figure PCTKR2017015054-appb-I000002
    여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, Ai는 특성 벡터 A의 i번째 성분, Bi는 특성 벡터 B의 i번째 성분을 의미함.
  11. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
  12. 제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.
PCT/KR2017/015054 2017-08-21 2017-12-19 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법 WO2019039673A1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
KR10-2017-0105316 2017-08-21
KR1020170105316A KR101814005B1 (ko) 2017-08-21 2017-08-21 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법

Publications (1)

Publication Number Publication Date
WO2019039673A1 true WO2019039673A1 (ko) 2019-02-28

Family

ID=61004597

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/KR2017/015054 WO2019039673A1 (ko) 2017-08-21 2017-12-19 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법

Country Status (2)

Country Link
KR (1) KR101814005B1 (ko)
WO (1) WO2019039673A1 (ko)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023025332A1 (zh) * 2021-08-26 2023-03-02 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102146152B1 (ko) * 2018-01-03 2020-08-28 세종대학교산학협력단 관능 평가 방법 및 그 장치
KR101997111B1 (ko) * 2018-01-08 2019-07-05 인천대학교 산학협력단 인공지능 기반의 웹 페이지 분석에 기초한 융합 지수 연산 장치 및 이의 동작 방법
KR102004981B1 (ko) * 2018-03-07 2019-07-30 주식회사 한글과컴퓨터 선택된 단어에 대한 자동 설명 삽입이 가능한 전자 문서 편집 장치 및 그 동작 방법
KR102081273B1 (ko) * 2018-05-30 2020-02-25 (주)유비벨록스모바일 Iot 가전의 기능 제어 프로토콜 생성을 위한 클라우드-ai 서버
KR102224931B1 (ko) * 2018-12-24 2021-03-09 주식회사 포티스 신경망을 이용한 패션 상품 관련 정보 정제를 위한 서비스 제공 장치 및 방법
KR102302952B1 (ko) * 2019-06-13 2021-09-16 주식회사 한컴위드 사용자 로그인 보안 등급에 기초하여 차등 로그인 인증 처리를 수행하는 통합 금융 거래 플랫폼 장치 및 그 동작 방법

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076254A (ja) * 1998-08-31 2000-03-14 Toshiba Corp キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP2009271799A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 企業相関情報抽出システム
KR101228865B1 (ko) * 2011-11-23 2013-02-01 주식회사 한글과컴퓨터 문서 표시 장치 및 문서 내 중요 단어 추출 방법
US20130290320A1 (en) * 2012-04-25 2013-10-31 Alibaba Group Holding Limited Recommending keywords
KR20140073256A (ko) * 2012-12-06 2014-06-16 주식회사 인터파크아이엔티 상품 추천 서비스 제공 방법 및 장치
US9146910B2 (en) * 2010-12-14 2015-09-29 Alibaba Group Holding Limited Method and system of displaying cross-website information
CN105138690A (zh) * 2015-09-18 2015-12-09 北京博雅立方科技有限公司 确定关键词的方法和装置

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000076254A (ja) * 1998-08-31 2000-03-14 Toshiba Corp キーワード抽出装置、このキーワード抽出装置を用いた類似文献検索装置、キーワード抽出方法及び記録媒体
JP2009271799A (ja) * 2008-05-08 2009-11-19 Nomura Research Institute Ltd 企業相関情報抽出システム
US9146910B2 (en) * 2010-12-14 2015-09-29 Alibaba Group Holding Limited Method and system of displaying cross-website information
KR101228865B1 (ko) * 2011-11-23 2013-02-01 주식회사 한글과컴퓨터 문서 표시 장치 및 문서 내 중요 단어 추출 방법
US20130290320A1 (en) * 2012-04-25 2013-10-31 Alibaba Group Holding Limited Recommending keywords
KR20140073256A (ko) * 2012-12-06 2014-06-16 주식회사 인터파크아이엔티 상품 추천 서비스 제공 방법 및 장치
CN105138690A (zh) * 2015-09-18 2015-12-09 北京博雅立方科技有限公司 确定关键词的方法和装置

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023025332A1 (zh) * 2021-08-26 2023-03-02 中国环境科学研究院 长江流域企业筛选方法、装置、电子设备及存储介质

Also Published As

Publication number Publication date
KR101814005B1 (ko) 2018-01-02

Similar Documents

Publication Publication Date Title
WO2019039673A1 (ko) 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법
CN109947952B (zh) 基于英语知识图谱的检索方法、装置、设备及存储介质
WO2015167074A1 (ko) 토픽을 추출하고, 추출된 토픽의 적합성을 평가하는 방법 및 서버
WO2012108623A1 (ko) 이미지 데이터베이스에 신규 이미지 및 이에 대한 정보를 추가하기 위한 방법, 시스템 및 컴퓨터 판독 가능한 기록 매체
CN106815263A (zh) 法律条文的搜索方法及装置
WO2020111314A1 (ko) 개념 그래프 기반 질의응답 장치 및 방법
US20220300543A1 (en) Method of retrieving query, electronic device and medium
WO2021235617A1 (ko) 과학기술 지식정보 추천 시스템 및 그 방법
WO2016006837A1 (ko) 문장 분석을 이용하는 전화 번호 안내 시스템 및 전화 번호 안내 방법
WO2023106855A1 (ko) 작문 평가를 지원하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
WO2018101506A1 (ko) 문장을 구성하는 단어들의 의미범주를 재구성한 어휘의미패턴을 이용하여 하나의 문서를 복수의 카테고리로 분류하는 문서의 다중분류 장치 및 다중분류 방법
CN104881428A (zh) 一种信息图网页的信息图提取、检索方法和装置
CN109902290A (zh) 一种基于文本信息的术语提取方法、系统和设备
CN111325018A (zh) 一种基于web检索和新词发现的领域词典构建方法
CN116109732A (zh) 图像标注方法、装置、处理设备及存储介质
WO2016117739A1 (ko) 인-메모리 데이터베이스 기반의 데이터 관리 시스템 및 그 방법
WO2017057858A1 (ko) 가중치에 의한 다수 분야별 검색 기능을 구비한 지식관리 시스템
WO2014148664A1 (ko) 단어의 의미를 기반으로 하는 다국어 검색 시스템, 다국어 검색 방법 및 이를 이용한 이미지 검색 시스템
WO2023113377A1 (ko) 작문을 위한 콘텐츠를 추천하기 위한 방법, 시스템 및 비일시성의 컴퓨터 판독 가능한 기록 매체
CN115640376A (zh) 文本标注方法、装置、电子设备和计算机可读存储介质
WO2016088954A1 (ko) 스팸 분류 방법, 이를 수행하기 위한 기록 매체 및 스팸 분류 장치
CN109918661A (zh) 同义词获取方法及装置
WO2015093651A1 (en) Method and system for managing a wordgraph
CN112287076B (zh) 一种基于用户聊天记录的标签挖掘方法及设备
CN110866393B (zh) 基于领域知识库的简历信息抽取方法及系统

Legal Events

Date Code Title Description
NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 17922726

Country of ref document: EP

Kind code of ref document: A1