WO2019039673A1

WO2019039673A1 - 인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법

Info

Publication number: WO2019039673A1
Application number: PCT/KR2017/015054
Authority: WO
Inventors: 김관호; 이동훈
Original assignee: 인천대학교 산학협력단
Priority date: 2017-08-21
Filing date: 2017-12-19
Publication date: 2019-02-28
Also published as: KR101814005B1

Abstract

인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법이 개시된다. 본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.

Description

인공지능 기반의 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법

본 발명은 웹 페이지의 분석을 통해 해당 웹 페이지를 운영하는 기업에 대한 제품 키워드 정보를 자동으로 추출하는 장치 및 방법에 대한 것이다.

인터넷의 보급이 확대됨에 따라 다양한 정보들을 포함하고 있는 웹 페이지들이 등장하고 있다.

이렇게 다양한 정보들을 포함하고 있는 웹 페이지가 생산되고 배포됨에 따라, 이러한 웹 페이지들에 포함되어 있는 정보들의 분석을 통해서, 경제 흐름이나 여론 흐름 등을 분석하는 빅데이터 기반의 분석 기술들도 등장하고 있다.

웹 페이지를 통한 정보 분석은 비정형 텍스트 데이터에서 새롭고 유용한 정보를 찾아내는 기술인 텍스트 마이닝을 통해 웹 페이지에 포함되어 있는 각종 텍스트들을 분석하고, 이로부터 소정의 의미를 찾아내는 형태로 이루어지고 있다.

예컨대, 상품에 대한 정보를 주고받는 커뮤니티와 관련된 웹 페이지에서 각 회원들이 웹 페이지 상에 남겨놓은 글들을 분석해서 현재 어떠한 제품이 인기를 끌고 있는지 등을 예측하는 시스템들이 존재한다.

최근에는 투자 유치, 수요 기업 발굴 등의 이유로 기업들의 정보를 데이터베이스로 구축하려고 하는 시도가 증가하고 있다. 다양한 기업들의 정보를 수집하여 데이터베이스로 구축할 때에는 각 기업들이 어떠한 제품들을 생산하고 있는지를 확인해서 기업 정보 데이터베이스 상에 각 기업들이 취급하는 제품 정보를 저장해야 할 필요가 있다.

이와 관련해서, 대부분의 기업들은 홍보의 목적으로 다양한 정보가 포함된 웹 페이지를 구축해서 운영하고 있다는 점에서, 이러한 각 기업들의 웹 페이지에 대한 정보 분석을 통해 각 기업들이 취급할 것으로 예상되는 제품의 키워드들을 자동으로 추출해서 관리자에게 제공할 수 있는 기술에 대한 연구가 필요하다.

본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원하고자 한다.

본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치는 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스, 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스, 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 텍스트 추출부, 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단어 추출부, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 중요 단어 선택부, 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 제품 키워드 선택부 및 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 제품 키워드 정보 전송부를 포함한다.

또한, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스를 유지하는 단계, 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스를 유지하는 단계, 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 단계, 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단계, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 단계, 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 단계 및 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 단계를 포함한다.

본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치 및 방법은 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.

도 1은 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치의 구조를 도시한 도면이다.

도 2는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법을 도시한 순서도이다.

이하에서는 본 발명에 따른 실시예들을 첨부된 도면을 참조하여 상세하게 설명하기로 한다. 이러한 설명은 본 발명을 특정한 실시 형태에 대해 한정하려는 것이 아니며, 본 발명의 사상 및 기술 범위에 포함되는 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다. 각 도면을 설명하면서 유사한 참조부호를 유사한 구성요소에 대해 사용하였으며, 다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 본 명세서 상에서 사용되는 모든 용어들은 본 발명이 속하는 기술분야에서 통상의 지식을 가진 사람에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다.

도 1을 참조하면, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)는 사전 데이터베이스(111), 제품 키워드 데이터베이스(112), 텍스트 추출부(113), 단어 추출부(114), 중요 단어 선택부(115), 제품 키워드 선택부(116) 및 제품 키워드 정보 전송부(117)를 포함한다.

사전 데이터베이스(111)에는 미리 정해진 복수의 단어들이 저장되어 있다.

여기서, 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있다.

예컨대, 사전 데이터베이스(111)에는 하기의 표 1과 같이 정보가 저장되어 있을 수 있다.

복수의 단어들	특성 벡터
컴퓨터	(1, 2, 3, 4, 5)
휴대폰	(6, 7, 8, 9, 10)
...	...

여기서, 벡터 사이의 유사도는 하기의 수학식 1에 따라 연산될 수 있다.

여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, A_i는 특성 벡터 A의 i번째 성분, B_i는 특성 벡터 B의 i번째 성분을 의미한다.

예컨대, 상기 표 1에서 "컴퓨터"라는 단어와 "휴대폰"이라는 단어에 각각 할당되어 있는 특성 벡터 간의 유사도를 연산하게 되면, 하기의 수학식 2와 같이 연산될 수 있다.

상기 표 1과 같은 사전 데이터베이스(111)에 저장되는 복수의 단어들은 관리자에 의해 임의로 설정된 단어들이며, 각 단어들에 할당되어 있는 특성 벡터들은 관리자에 의해서 설정된 각 단어들 간의 유사도 기준에 따라 소정의 유사도가 연산되도록 할당된 값일 수 있다. 이때, 각 단어들 간의 상기 유사도 기준은 웹을 통해 다양한 정보들을 수집하고, 각 정보들에 대한 분석과 학습을 통해서 다양한 단어들 간의 관계 분석을 수행한 결과에 기반한 기준일 수 있다.

제품 키워드 데이터베이스(112)에는 미리 정해진 복수의 제품 키워드들이 저장되어 있다.

여기서, 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들이다.

텍스트 추출부(113)는 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출한다.

이때, 본 발명의 일실시예에 따르면, 텍스트 추출부(113)는 상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행할 수 있다.

관련해서, 텍스트 추출부(113)는 제1 기업의 웹 페이지를 구성하는 HTML 코드에서 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 추출하되, "<a href>"와 같은 하이퍼링크 태그가 존재하는 경우, 해당 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속해서 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출할 수 있다.

단어 추출부(114)는 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출한다.

중요 단어 선택부(115)는 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택한다.

이때, 본 발명의 일실시예에 따르면, 중요 단어 선택부(115)는 점수 할당부(118), 빈도수 카운트부(119), 점수 보정부(120) 및 선택부(121)를 포함할 수 있다.

점수 할당부(118)는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 사전 데이터베이스(111)를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당한다.

빈도수 카운트부(119)는 상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트한다.

점수 보정부(120)는 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정한다.

선택부(121)는 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택한다.

이때, 본 발명의 일실시예에 따르면, 중요 단어 선택부(115)는 미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 가중치 테이블 유지부(122)를 더 포함할 수 있다.

관련해서, 상기 가중치 테이블에는 하기의 표 2와 같이 정보가 기록되어 있을 수 있다.

서로 다른 빈도수 범위들	서로 다른 가중치
1회~5회	1
6회~10회	1.1
11회~15회	1.2
...	...

이때, 점수 할당부(118)는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 사전 데이터베이스(111)를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수를 할당할 수 있다.

여기서, 상기 제2 점수는 상기 제1 점수보다 낮은 점수이다.

관련해서, 점수 할당부(118)는 상기 수학식 1의 연산식에 따라 사전 데이터베이스(111) 상에 저장되어 있는 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각의 특성 벡터 간의 유사도를 연산한 후 상기 복수의 제1 단어들 중 연산된 유사도가 상기 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당할 수 있고, 나머지 단어들에 대해 상기 제1 점수보다 낮은 제2 점수를 할당할 수 있다.

이때, 점수 보정부(120)는 상기 표 1과 같은 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정할 수 있다.

이렇게, 상기 복수의 제1 단어들 각각에 대한 점수의 보정이 완료되면, 선택부(121)는 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택할 수 있다.

이렇게, 상기 적어도 하나의 중요 단어가 선택되면, 제품 키워드 선택부(116)는 제품 키워드 데이터베이스(112)에 저장되어 있는 상기 복수의 제품 키워드들 중 사전 데이터베이스(111)를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택한다.

예컨대, 상기 적어도 하나의 중요 단어가 총 10개 단어라고 하는 경우, 제품 키워드 선택부(116)는 제품 키워드 데이터베이스(112)에 저장되어 있는 복수의 제품 키워드들 중 상기 10개의 중요 단어 각각에 대해서, 상기 10개의 중요 단어 각각의 특성 벡터와의 상기 수학식 1에 따른 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 10개의 제품 키워드들을 선택할 수 있다.

이렇게, 상기 적어도 하나의 제품 키워드가 선택되면, 제품 키워드 정보 전송부(117)는 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송한다.

결국, 본 발명에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)는 기업의 웹 페이지로부터 해당 웹 페이지에서의 등장 빈도수에 따른 중요 단어들을 추출하고, 복수의 제품 키워드들 중 상기 중요 단어들 각각과 특성 벡터에 따른 유사도가 가장 높은 제품 키워드를 선택하여 관리자에게 제공함으로써, 관리자가 특정 기업에 대한 제품 키워드 정보를 자동으로 손쉽게 수집할 수 있도록 지원할 수 있다.

단계(S210)에서는 미리 정해진 복수의 단어들(상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음)이 저장되어 있는 사전 데이터베이스를 유지한다.

단계(S220)에서는 미리 정해진 복수의 제품 키워드들(상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임)이 저장되어 있는 제품 키워드 데이터베이스를 유지한다.

단계(S230)에서는 제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출한다.

단계(S240)에서는 상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출한다.

단계(S250)에서는 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택한다.

단계(S260)에서는 상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택한다.

단계(S270)에서는 상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송한다.

이때, 본 발명의 일실시예에 따르면, 단계(S250)에서는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 단계, 상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 단계, 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 단계 및 상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 단계를 포함할 수 있다.

이때, 본 발명의 일실시예에 따르면, 단계(S250)에서는 미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 단계를 더 포함할 수 있고, 상기 점수를 할당하는 단계는 상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수(상기 제2 점수는 상기 제1 점수보다 낮은 점수임)를 할당할 수 있으며, 상기 점수를 보정하는 단계는 상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정할 수 있다.

또한, 본 발명의 일실시예에 따르면, 단계(S230)에서는 상기 제1 기업의 웹 페이지를 구성하는 HTML 코드를 파싱하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행할 수 있다.

또한, 본 발명의 일실시예에 따르면, 서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 상기 수학식 1에 따라 수행될 수 있다.

이상, 도 2를 참조하여 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법에 대해 설명하였다. 여기서, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 도 1을 이용하여 설명한 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치(110)의 동작에 대한 구성과 대응될 수 있으므로, 이에 대한 보다 상세한 설명은 생략하기로 한다.

본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램으로 구현될 수 있다.

또한, 본 발명의 일실시예에 따른 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 상기 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 상기 매체에 기록되는 프로그램 명령은 본 발명을 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다.

이상과 같이 본 발명에서는 구체적인 구성 요소 등과 같은 특정 사항들과 한정된 실시예 및 도면에 의해 설명되었으나 이는 본 발명의 보다 전반적인 이해를 돕기 위해서 제공된 것일 뿐, 본 발명은 상기의 실시예에 한정되는 것은 아니며, 본 발명이 속하는 분야에서 통상적인 지식을 가진 자라면 이러한 기재로부터 다양한 수정 및 변형이 가능하다.

따라서, 본 발명의 사상은 설명된 실시예에 국한되어 정해져서는 아니되며, 후술하는 특허청구범위뿐 아니라 이 특허청구범위와 균등하거나 등가적 변형이 있는 모든 것들은 본 발명 사상의 범주에 속한다고 할 것이다.

Claims

미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스;

미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스;

제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 텍스트 추출부;

상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단어 추출부;

상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 중요 단어 선택부;

상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 제품 키워드 선택부; 및

상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 제품 키워드 정보 전송부

를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
제1항에 있어서,

상기 중요 단어 선택부는

상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 점수 할당부;

상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 빈도수 카운트부;

상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 점수 보정부; 및

상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 선택부

를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
제2항에 있어서,

상기 중요 단어 선택부는

미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 가중치 테이블 유지부

를 더 포함하고,

상기 점수 할당부는

상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,

상기 점수 보정부는

상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
제1항에 있어서,

상기 텍스트 추출부는

상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.
제2항에 있어서,

서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 1에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 장치.

[수학식 1]

여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, A_i는 특성 벡터 A의 i번째 성분, B_i는 특성 벡터 B의 i번째 성분을 의미함.
미리 정해진 복수의 단어들 - 상기 복수의 단어들 각각에는 미리 정해진 단어 유사도 기준에 따라 유사한 단어일수록 벡터 사이의 유사도가 높게 연산되도록 미리 설정된 서로 다른 특성 벡터들이 할당되어 있음 - 이 저장되어 있는 사전 데이터베이스를 유지하는 단계;

미리 정해진 복수의 제품 키워드들 - 상기 복수의 제품 키워드들은 상기 복수의 단어들 내에 포함되어 있는 단어들임 - 이 저장되어 있는 제품 키워드 데이터베이스를 유지하는 단계;

제1 기업의 웹 페이지에 대한 접속 주소가 입력되면, 상기 접속 주소를 기초로 상기 제1 기업의 웹 페이지에 접속하여 상기 제1 기업의 웹 페이지로부터 상기 제1 기업의 웹 페이지 상에 존재하는 복수의 제1 텍스트들을 추출하는 단계;

상기 복수의 제1 텍스트들에 대해 형태소 분석을 수행하여 상기 복수의 제1 텍스트들로부터 복수의 제1 단어들을 추출하는 단계;

상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초하여 상기 복수의 제1 단어들 중 적어도 하나의 중요 단어를 선택하는 단계;

상기 적어도 하나의 중요 단어가 선택되면, 상기 제품 키워드 데이터베이스에 저장되어 있는 상기 복수의 제품 키워드들 중 상기 사전 데이터베이스를 참조하여 상기 적어도 하나의 중요 단어 각각에 할당되어 있는 특성 벡터와의 유사도가 최대로 연산되는 특성 벡터가 할당되어 있는 적어도 하나의 제품 키워드를 선택하는 단계; 및

상기 적어도 하나의 제품 키워드가 선택되면, 관리자의 단말에 대해 상기 적어도 하나의 제품 키워드를 상기 제1 기업의 주요 제품 키워드 정보로 전송하는 단계

를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
제6항에 있어서,

상기 적어도 하나의 중요 단어를 선택하는 단계는

상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 각각에 대해, 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도에 기초한 점수를 할당하는 단계;

상기 복수의 제1 단어들 각각이 상기 제1 기업의 웹 페이지 상에서 등장하는 등장 빈도수를 카운트하는 단계;

상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수에 기초한 서로 다른 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 단계; 및

상기 복수의 제1 단어들 중 상기 보정된 점수가 선정된(predetermined) 기준 점수를 초과하는 점수가 할당되어 있는 단어들을 상기 적어도 하나의 중요 단어로 선택하는 단계

를 포함하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
제7항에 있어서,

상기 적어도 하나의 중요 단어를 선택하는 단계는

미리 정해진 서로 다른 빈도수 범위들 별로 서로 다른 가중치들이 대응되어 기록되어 있는 가중치 테이블을 저장하여 유지하는 단계

를 더 포함하고,

상기 점수를 할당하는 단계는

상기 제1 기업의 기업명이 입력되면, 상기 복수의 제1 단어들 중 상기 사전 데이터베이스를 참조하여 상기 기업명에 대한 특성 벡터와 상기 복수의 제1 단어들 각각에 대한 특성 벡터 간의 유사도가 선정된 기준 유사도를 초과하는 단어들에 대해 제1 점수를 할당하고, 상기 복수의 제1 단어들 중 상기 선정된 기준 유사도를 초과하지 않는 단어들에 대해 제2 점수 - 상기 제2 점수는 상기 제1 점수보다 낮은 점수임 - 를 할당하며,

상기 점수를 보정하는 단계는

상기 가중치 테이블을 참조하여 상기 복수의 제1 단어들 각각에 대해, 상기 가중치 테이블 상에서 상기 복수의 제1 단어들의 상기 제1 기업의 웹 페이지 상에서의 등장 빈도수가 속해있는 빈도수 범위에 대응하는 가중치를 매칭시킨 후 상기 복수의 제1 단어들 각각에 할당된 점수에 대해, 상기 복수의 제1 단어들 각각에 매칭된 가중치를 적용하여 상기 복수의 제1 단어들 각각에 대한 점수를 보정하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
제6항에 있어서,

상기 복수의 제1 텍스트들을 추출하는 단계는

상기 제1 기업의 웹 페이지를 구성하는 HTML(Hypertext Markup Language) 코드를 파싱(parsing)하여 상기 HTML 코드 상에서 텍스트 입력과 연관된 태그(tag)를 통해 삽입되어 있는 텍스트들을 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들을 추출하되, 상기 HTML 코드 상에 하이퍼링크 태그가 존재하는 경우, 상기 하이퍼링크 태그를 통해 링크되어 있는 서브 페이지에 접속하여 상기 서브 페이지의 HTML 코드로부터 텍스트 입력과 연관된 태그를 통해 삽입되어 있는 텍스트들도 함께 추출함으로써, 상기 제1 기업의 웹 페이지 상에 존재하는 상기 복수의 제1 텍스트들에 대한 추출을 수행하는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.
제7항에 있어서,

서로 다른 특성 벡터 사이에 대한 상기 유사도의 연산은 하기의 수학식 2에 따라 수행되는 웹 페이지 분석에 기초한 제품 키워드 정보 자동추출 방법.

[수학식 2]

여기서, S는 특성 벡터 A와 B 사이의 유사도로 -1에서 1사이의 값을 가지며, 그 값이 클수록 유사한 특성 벡터임을 의미하고, A_i는 특성 벡터 A의 i번째 성분, B_i는 특성 벡터 B의 i번째 성분을 의미함.
제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터로 하여금 수행하도록 하는 프로그램을 기록한 컴퓨터 판독 가능 기록 매체.
제6항 내지 제10항 중 어느 한 항의 방법을 컴퓨터와의 결합을 통해 실행시키기 위한 저장매체에 저장된 컴퓨터 프로그램.