KR101083669B1

KR101083669B1 - 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법

Info

Publication number: KR101083669B1
Application number: KR1020090112994A
Authority: KR
Inventors: 남상협; 나승훈
Original assignee: 주식회사 버즈니
Priority date: 2009-11-23
Filing date: 2009-11-23
Publication date: 2011-11-16
Also published as: KR20110056602A

Abstract

본 발명은 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법에 관한 것으로, 인터넷 상에 존재하는 웹 문서 데이터들을 수집하는 제1 서버와, 상기 제1 서버로부터 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱하는 제2 서버와, 및 인터넷을 통해 접속되어 사용자 단말로부터 전송된 검색어를 제공받아 상기 제2 서버로부터 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 해당 검색어와 관련 있는 문서 집합을 추출한 후, 해당 검색어와 상기 추출된 문서 집합과의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말의 화면에 디스플레이 해주는 웹 서버를 포함함으로써, 사용자는 검색어에 대한 전문 지식을 보유한 전문가 웹사이트(예컨대, 블로그 등)를 쉽게 찾아 원하는 정보를 쉽게 접근할 수 있는 효과가 있다.

인터넷, 전문가, 웹사이트, 검색어, 웹 서버, 문서 집합, 인덱싱, 블로그

Description

인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법{EXPERT WEBSITE SEARCHING SYSTEM USING INTERNET AND METHOD THEREOF}

본 발명은 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법에 관한 것으로, 보다 상세하게는 기존의 사용자 검색어에 대한 검색 결과인 웹 문서나 개체(Entity)가 아닌 사용자 검색어와 인덱싱된 전문가별 웹 문서 묶음에서 추출한 해당 검색어와 관련 있는 문서 집합간의 연관도를 계산하여 연관도가 높은 전문가의 웹사이트 주소 리스트를 검색 결과로 반환함으로써, 사용자는 검색어에 대한 전문 지식을 보유한 전문가 웹사이트를 쉽게 찾아 원하는 정보를 쉽게 접근할 수 있도록 한 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법에 관한 것이다.

최근에 인터넷 사용이 점차 활발해 짐에 따라, 많은 사람들이 인터넷에서 예컨대, 블로그(Blog), 위키(Wiki)와 같은 매체를 통해서 자신의 의견을 표현하고 있는 추세이다. 또한, 특정한 정보의 가치를 평가할 때, 이러한 다른 사람들이 인터넷 상에 올려놓은 의견 정보를 참조하고자 하는 수요도 높아지고 있다.

예를 들면, 인터넷 상에는 상품 리뷰(Review)에서 영화 리뷰까지 다양한 사용자들의 의견이 존재한다. 이러한 각 사용자들의 의견들은 일반 사용자들이 물품을 구매하거나, 영화를 보기 전에 다른 사용자들의 의견을 보고자 하는 경우에도 이용될 수 있으며, 마케팅 담당자나 주식 매매자 등이 각 물품이나 회사에 대한 일반 사용자들의 다양한 의견을 알고자 하는 경우에도 사용될 수 있다. 특히, 일반 사용자들은 특정 물품을 구매하기 전에 다른 사용자들의 평가를 먼저 보고 나서 이런 물품을 구매하려는 경향이 크다.

하지만, 이러한 인터넷 상에 존재하는 의견들은 개개의 웹사이트들에만 존재하여, 이러한 의견 정보들을 사용하고자 할 경우에는 사용자가 일일이 이러한 개개의 모든 웹사이트를 수동으로 찾아보아야 하는 번거로움이 존재한다.

이러한 모든 웹사이트들을 사용자들이 모두 찾아보기 어려우며 일반 검색으로 다른 사용자들의 의견을 찾고자 하는 경우에는 의견이 있는 웹 문서, 긍정적인 의견이 있는 웹 문서, 부정적인 의견이 있는 웹 문서 등이 혼재하여 효과적으로 다른 사용자들의 의견을 찾아보기 어려운 문제점이 있다.

이러한 문제점을 해결하기 위하여 국/내외 학계를 중심으로 사용자 의견 추출 기술이 활발하게 연구되고 있으며, 정보 검색 분야에서도 2000년도 초반부터 크게 발전하여 다양한 기술이 연구되고 있다.

그러나, 기존의 정보 검색 기술은 단순히 키워드가 존재하는 정보에 기반한 검색만 제공해주고 있을 뿐이고, 각 키워드가 등장하는 문서나 문장에서 긍정적/부정적으로 평가된 내용을 기반으로 한 좀더 고차원적인 검색까지 제공해주고 있지 못하고 있다. 최근에 사용자 의견 추출 기술을 정보 검색에 적용하려는 시도가 진행되고 있으나 아직도 단순히 긍정, 부정 문서를 나누는 수준에만 머무르고 있는 실정이다.

한편, 기존의 사용자 검색 키워드에 대한 검색 결과로 단순히 웹 문서나 개체(Entity) 등을 반환하는 검색 방법으로써, 전문 지식을 보유한 전문가들의 웹 문서만을 요구하는 사용자들에게는 충분히 만족을 못하고 있는 실정이다.

본 발명은 전술한 문제점을 해결하기 위하여 안출된 것으로서, 본 발명의 목적은 기존의 사용자 검색어에 대한 검색 결과인 웹 문서나 개체(Entity)가 아닌 사용자 검색어와 인덱싱된 전문가별 웹 문서 묶음에서 추출한 해당 검색어와 관련 있는 문서 집합간의 연관도를 계산하여 연관도가 높은 전문가의 웹사이트 주소 리스트를 검색 결과로 반환함으로써, 사용자는 검색어에 대한 전문 지식을 보유한 전문가 웹사이트를 쉽게 찾아 원하는 정보를 쉽게 접근할 수 있도록 한 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법을 제공하는데 있다.

전술한 목적을 달성하기 위하여 본 발명의 제1 측면은, 인터넷 상에 존재하는 웹 문서 데이터들을 수집하는 제1 서버; 상기 제1 서버로부터 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱하는 제2 서버; 및 인터넷을 통해 접속되어 사용자 단말로부터 전송된 검색어를 제공받아 상기 제2 서버로부터 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 해당 검색어와 관련 있는 문서 집합을 추출한 후, 해당 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말의 화면에 디스플레이 해주는 웹 서버를 포함하는 인터넷을 활용한 전문가 웹사이트 검색시스템을 제공하는 것이다.

여기서, 상기 제1 서버는 인터넷 상에서 RSS 주소들을 수집 및 저장하고, 상기 저장된 RSS 주소들에 해당하는 RSS 파일들을 제공받아 각 RSS 파일이 제공해주는 링크정보를 이용하여 웹 문서 데이터를 수집함이 바람직하다.

바람직하게, 상기 웹 서버는, 상기 제2 서버를 통해 전문가별로 묶여 있는 색인 데이터 내에서 해당 검색어와 관련이 높은 문서들을 검색한 후, 각 전문가별로 해당 검색어와 관련 있는 웹 문서 집합들을 매핑할 수 있다.

바람직하게, 상기 웹 서버는, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말에 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈을 해당 사용자 단말에 제공할 수 있다.

바람직하게, 상기 웹 서버는, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말에 디스플레이 해줄 수 있다.

바람직하게, 상기 웹 서버는, 회원 등록된 사용자에 대한 검색어를 별도의 데이터베이스(DB)에 저장될 수 있도록 서비스를 제공할 수 있다.

본 발명의 제2 측면은, (a) 인터넷 상에 존재하는 웹 문서 데이터들을 수집하는 단계; (b) 상기 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱하는 단계; (c) 상기 인덱싱된 각 전 문가의 웹 문서 묶음별로 인터넷을 통해 접속되어 사용자 단말로부터 전송된 검색어와 관련 있는 문서 집합을 추출하는 단계; 및 (d) 해당 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말의 화면에 디스플레이 해주는 단계를 포함하는 인터넷을 활용한 전문가 웹사이트 검색방법을 제공하는 것이다.

여기서, 상기 단계(c)는, 상기 인덱싱된 전문가별로 묶여 있는 색인 데이터 내에서 해당 검색어와 관련이 높은 문서들을 검색한 후, 각 전문가별로 해당 검색어와 관련 있는 웹 문서 집합들을 매핑하여 문서 집합을 추출함이 바람직하다.

바람직하게, 상기 단계(d)이후에, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말에 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈을 해당 사용자 단말에 제공하는 단계를 더 포함할 수 있다.

바람직하게, 상기 단계(d)에서, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말에 디스플레이 해줄 수 있다.

바람직하게, 상기 단계(d)에서, 해당 사용자 단말에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 해당 전문가 사이트의 URL, 대표 이미지, 해당 검색어와 관련된 페이지 제목 리스트, 사이트 이름 중 적어도 어느 하나를 사용하여 디스플레이 해줄 수 있다.

바람직하게, 상기 단계(d)에서, 해당 사용자 단말에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 각 하위 카테고리별 전문가를 묶어서 디스플레이 해줄 수 있다.

바람직하게, 상기 단계(d)에서, 해당 검색어에 대한 검색 결과로 나온 각 전문가 웹사이트들에서 긍정적으로 평가한 각 대상(Entity)들을 추출하여 해당 사용자 단말의 화면에 디스플레이 해줄 수 있다.

이상에서 설명한 바와 같은 본 발명의 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법에 따르면, 기존의 사용자 검색어에 대한 검색 결과인 웹 문서나 개체(Entity)가 아닌 사용자 검색어와 인덱싱된 전문가별 웹 문서 묶음에서 추출한 해당 검색어와 관련 있는 문서 집합간의 연관도를 계산하여 연관도가 높은 전문가의 웹사이트 주소 리스트를 검색 결과로 반환함으로써, 사용자는 검색어에 대한 전문 지식을 보유한 전문가 웹사이트를 쉽게 찾아 원하는 정보를 쉽게 접근할 수 있는 이점이 있다.

이하, 첨부 도면을 참조하여 본 발명의 실시예를 상세하게 설명한다. 그러나, 다음에 예시하는 본 발명의 실시예는 여러 가지 다른 형태로 변형될 수 있으 며, 본 발명의 범위가 다음에 상술하는 실시예에 한정되는 것은 아니다. 본 발명의 실시예는 당업계에서 통상의 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위하여 제공되어지는 것이다.

먼저, 본 발명의 전반에 걸쳐 언급된 "전문가"란 통상적으로 어떤 분야(예컨대, 정치, 경제, 문화, 스포츠, 사회, 연애 등)에서 상당한 지식과 경험을 가지고 있는 사람을 말한다.

도 1은 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색시스템을 설명하기 위한 전체적인 블록 구성도이고, 도 2는 본 발명의 일 실시예에 적용된 전문가 웹사이트 관리모듈을 설명하기 위한 예시 도면이다.

도 1 및 도 2를 참조하면, 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색시스템은, 크게 데이터 수집서버(100), 인덱싱 서버(200), 웹 서버(300) 및 사용자 단말(400) 등을 포함하여 이루어질 수 있다.

여기서, 데이터 수집서버(100)는 인터넷(10) 상에 존재하는 웹 문서 데이터들을 수집하는 서버로서, 인터넷 상에서 RSS 주소들을 수집 및 저장하고, 상기 수집 및 저장된 RSS 주소들에 해당하는 RSS 파일들을 제공받아 각 RSS 파일이 제공해주는 링크정보를 이용하여 웹 문서 데이터를 수집하는 기능을 수행한다.

이러한 데이터 수집서버(100)는 인터넷(10)에 연결되어 통상의 자동적인 확장방식으로 수많은 RSS 주소들을 수집하여 별도의 데이터베이스(DB)에 저장될 수 있도록 전송하는 기능을 수행한다.

이때, 상기 자동적인 확장방식은 대표적인 인터넷 자원(예컨대, RSS 또는 ATOM 등) 주소 표현 형태를 이용하여 인터넷(Internet) 상에 있는 웹(Web)(예컨대, IPv4에서는 일반 웹, IPv6에서는 전자제품을 포함한 웹 등) 문서(HTML 파일)에서 RSS 주소를 자동적으로 추출하고, 해당 웹 문서에 있는 링크(link)에서도 같은 방식으로 RSS 주소를 추출하는 방식이다.

즉, 미리 설정된 주요 포탈이나 전문가 블로그 웹 문서를 시작으로 해서 점차적으로 해당 웹 문서들의 외부로 향하는 링크를 따라 방문하면서 RSS 주소를 자동 추출하거나, RSS 주소를 추출할 웹 문서를 주요 메타 사이트들이 제공해주는 최신 RSS 파일을 주기적으로 방문하면서 이에 들어 있는 링크 주소를 방문하여 RSS 주소를 추출하는 방식이다.

또한, 데이터 수집서버(100)는 별도의 데이터베이스(DB)에 미리 저장된 RSS 주소들에 해당하는 RSS 파일들을 제공받아 각 RSS 파일이 제공해주는 링크정보를 이용하여 웹 문서 데이터들을 수집하는 기능을 수행한다.

즉, 데이터 수집서버(100)는 별도의 데이터베이스(DB)와 연동되어 미리 수집 및 저장된 RSS 주소 목록을 주기적으로 제공받아 각 RSS 주소를 방문하면서 해당 RSS 파일을 다운로드(Download)받은 후, 각 RSS 파일이 제공해주는 RSS 정보들(예컨대, 제목(title), 링크(link), 요약설명(description), 카테고리(category), 등록날짜(publication date) 정보 등) 중 소스 링크정보에 존재하는 링크(link)를 방문하여 해당 웹 문서 데이터(예컨대, RSS 주소, 원문 링크, 날짜, 제목, 본문, 태그, 블로그 이름, 카테고리, 썸네일, 이미지, 동영상, 글자수/이미지 개수/동영상 개수 등)를 수집하여 인덱싱 서버(200) 또는 별도의 데이터베이스(DB)에 전송한다.

이때, 상기 소스 링크정보에 존재하는 링크 방문 시 별도의 데이터베이스(DB)에 미리 저장된 RSS 파일 목록과 상기 다운로드(Download)받은 RSS 파일을 비교하여 RSS 파일 내용 중에서 갱신된 RSS 정보의 소스 링크정보에 존재하는 링크를 방문하여 수집함이 바람직하다.

한편, 데이터 수집서버(100)에 의해 웹 문서 데이터를 수집할 경우, 각 RSS 파일이 제공해주는 링크가 활성화되어 있는지를 체크하는 활성화 여부 체크 기능과, 스팸 RSS(예컨대, 광고성 및 성인성 글과 같은 상업적인 RSS, 리포트 샵과 같은 다른 사이트에 대한 링크만 있는 RSS, 글리 너무 빨리 업데이트 되는 RSS 등) 체크 기능과, 중복 RSS(예컨대, 한 블로그에서 RSS1.0, RSS2.0, Atom를 동시에 제공하는 경우, feedburner 혹은 메타 블로그를 통해서 RSS 재발행 하는 경우 등) 체크 기능 등을 수행할 수도 있다.

또한, 데이터 수집서버(100)는 본 출원인에 의해 선출원된 특허출원 제2008-93125호(인터넷을 이용한 의견 검색 시스템 및 그 방법)에 제안된 방식으로 인터넷(10) 상에 존재하는 각 웹사이트(Web Site)들의 HTML(Hyper Text Markup Language) 정보를 실시간으로 다운로드(Download) 받고, 상기 다운로드(Download) 받은 웹 문서 데이터에서 필요한 정보들 예컨대, 텍스트(Text), 이미지(Image) 또는 비디오(Video) 등의 정보들 중 적어도 어느 하나의 정보 데이터를 추출하여 별도의 데이터 저장수단에 저장시킬 수 있다.

또한, 데이터 수집서버(100)는 의견정보 데이터(즉, 일반 문장/문서 데이터 와 이에 대한 긍정/부정 평가가 매겨진 정보 데이터)를 포함하는 웹 문서 데이터들을 선별하여 수집할 수도 있다.

이때, 상기 의견정보 데이터를 포함하는 웹 문서 데이터들만을 선별적으로 수집하는 방법으로는, 의견정보 데이터를 포함하는 특정의 웹 문서 데이터를 선별하고, 후술하는 기계학습 알고리즘(예컨대, SVM, K-NN, Bayseian 등)을 사용하여 웹 문서 선별 모델을 생성한 후, 상기 생성된 웹 문서 선별 모델을 사용하여 전체 인터넷 웹 페이지에서 의견정보 데이터가 포함된 웹 문서 데이터들만을 선별적으로 수집할 수 있게 된다.

더욱이, 데이터 수집서버(100)에 의해 수집된 웹 문서 데이터는 바로 사용도 가능하지만, 도메인 분류모듈(미도시)을 적용하여 각 도메인별로 분류한 후 사용하는 방법도 가능하다.

한편, 인터넷(Internet)(10)은 TCP/IP 프로토콜 및 그 상위계층에 존재하는 여러 서비스, 즉 HTTP(Hyper Text Transfer Protocol), Telnet, FTP(File Transfer Protocol), DNS(Domain Name System), SMTP(Simple Mail Transfer Protocol), SNMP(Simple Network Management Protocol), NFS(Network File Service), NIS(Network Information Service) 등을 제공하는 전 세계적인 개방형 컴퓨터 네트워크 구조를 의미하며, 사용자 단말(400)은 후술하는 웹 서버(300)에 용이하게 접속될 수 있게 하는 환경을 제공한다. 한편, 인터넷(10)은 유선 또는 무선 인터넷일 수도 있고, 이외에도 유선 공중망, 무선 이동 통신망, 또는 휴대 인터넷 등과 통합된 코어망 일 수도 있다.

인덱싱 서버(200)는 데이터 수집서버(100)로부터 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱(Indexing)하는 기능을 수행한다.

즉, 인덱싱 서버(200)는 데이터 수집서버(100)로부터 수집된 웹 문서 데이터들을 의견 추출을 위한 형태로 저장하기보다는 원문 소스 기준으로 통합하여 인덱싱하여 각각의 웹 문서 집합 단위로 검색하여 연관도를 계산할 수 있도록 저장한다.

여기서, 상기 인덱싱(Indexing) 처리는 일반적으로 검색 엔진에서 많이 쓰이는 방법으로서, 하기의 랭크(Rank)는 해당 웹 페이지에 대한 역 링크와 외부 링크 개수 등을 이용한 정보 검색 알고리즘을 사용한다. 이 알고리즘은 많은 역 링크를 가지는 링크가 더 유리하고 각 링크들은 자신이 가지고 있는 점수를 자신에서 뻗어 가는 링크들에게 나누어주는 방식이다.

그리고, 단일 검색키워드가 아닌 합성 검색키워드의 경우에는 사용자가 입력한 검색키워드의 각 형태소들이 가지고 있는 링크들 중에서 공통으로 들어 있는 링크들을 추출한 후에 각 형태소들이 각 링크 문서 중에서 얼마나 가까이 존재하는지 정보와 해당 링크의 랭크 정보들을 종합해서 계산한 후 점수 순서대로 해당 사용자에게 보여주게 된다.

이를 간단히 설명하면, 각 링크(Link)별 형태소들에 대해서 형태소를 중심으로 역 리스트(Inverted List)를 만들어 랭크(Rank) 순서대로 저장한 후에 사용자가 검색키워드를 입력하면, 해당 검색키워드에 해당되는 링크(Link)들을 역 리스 트(Inverted List)에서 얻어 온 후에 불(boolean) 연산, 거리(Distance) 연산, TF(Term Frequency), IDF(Inversed Document Frequency) 등을 이용하여 계산한 점수 순서대로 사용자에게 보여주게 된다.

그리고, 웹 서버(300)는 인터넷(10)을 통해 접속되어 사용자 단말(400)로부터 전송된 검색어를 제공받아 인덱싱 서버(200)로부터 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 각 전문가의 웹 문서 묶음에서 해당 사용자 질의어와 관련 있는 문서 집합을 추출한 후, 해당 검색어와 상기 추출된 각 전문가의 웹 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말(400)의 화면에 디스플레이(Display) 해주는 기능을 수행한다.

이러한 웹 서버(300)는 인덱싱 서버(200)로부터 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 해당 검색어와 관련 있는 문서 집합을 추출할 수 있다.

이때, 상기 문서 집합은 각 전문가별로 묶여 있는 색인 데이터를 이용하여 추출함이 바람직하지만, 이에 국한하지 않으며, 예컨대, 형태소 분석(Morpheme Analyze) 또는 띄어쓰기(Segmentation) 처리로 수행될 수 있으며, 이외에도 문서 집합 추출을 위한 조사 처리, 한국어 굴절 처리, 또는 원형 복귀 처리 등을 수행할 수도 있다.

또한, 웹 서버(300)는 도 2에 도시된 바와 같이, 사용자 단말(400)로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말(400)에 간편하게 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈(350)을 해당 사용자 단말(400)에 제공할 수 있다. 이러한 전문가 웹사이트 관리모듈(350)은 사용자의 요청에 의해 웹 서버(300)에 접속하여 회원으로 가입한 후 다운로드(Download)받아 설치될 수 있다.

또한, 웹 서버(300)는 사용자 단말(400)로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말(400)에 디스플레이 해줄 수 있다.

또한, 웹 서버(300)는 회원으로 등록된 사용자에 대한 검색어를 별도의 데이터베이스(DB)에 저장될 수 있도록 서비스를 제공할 수도 있다.

그리고, 사용자 단말(400)은 예컨대, 네트워크(Network) 또는 인터넷(Internet) 등과 같은 유선 또는 무선 통신망을 통해 웹 서버(300)에 접속되며, 통상적인 웹 브라우저(Web Browser)를 통해 웹 서버(300)에서 제공하는 각종 서비스를 제공받을 수 있게 된다.

이러한 사용자 단말(400)은 개인용 퍼스널 컴퓨터(Personal Computer, PC)로 구현됨이 바람직하지만, 이에 국한하지 않으며, 인터넷에 연결하여 통신할 수 있는 노트북(Notebook), 개인 휴대용 단말기(Personal Digital Assistant, PDA), PDA폰 또는 통신기능이 있는 DMB(Digital Multimedia Broadcasting)폰 등과 같이 통신기능을 가지는 모든 장치로 구현할 수도 있다.

이하에는 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법에 대하여 상세하게 설명하기로 한다.

도 3은 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 설명하기 위한 전체적인 흐름도이고, 도 4는 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 통해 실제 검색 결과 화면을 나타낸 도면이다.

도 3 및 도 4를 참조하면, 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법은, 먼저, 데이터 수집서버(100, 도 1 참조)를 통해 인터넷 상에 존재하는 웹 문서 데이터들을 수집하고(S100), 상기 단계S100에서 수집된 웹 문서 데이터들을 인덱싱 서버(200, 도 1 참조)를 통해 제공받아 각 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱(Indexing)한다(S200).

다음으로, 상기 단계S200에서 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 인터넷을 통해 접속되어 사용자 단말(400, 도 1 참조)로부터 전송된 검색어와 관련 있는 문서 집합을 추출한 후(S300), 해당 검색어와 상기 단계S300에서 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말(400)의 화면에 디스플레이 해준다(S400).

즉, 상기 단계S300에서는 상기 단계S200에서 인덱싱된 각 전문가의 웹 문서(예컨대, 블로그 등) 묶음별로 검색하여 각 전문가의 웹 문서 묶음에서 해당 검색어와 관련 있는 문서 집합을 추출함이 바람직하다.

그리고, 상기 단계S400에서는 상기 단계S300에서 추출된 문서 집합과 해당 검색어간의 연관 확률을 계산하여 연관도를 표현한다. 이때, 상기 연관도는 각 전문가의 웹 문서 묶음 전체 내용을 대상으로 검색어(예컨대, 요리법 등)와의 관련성을 계산하여 확률로 나타낸 것이다.

추가적으로, 상기 단계S400이후에, 사용자 단말(400)로부터 전송된 검색어와 상기 단계S300에서 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말(400)에 간편하게 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈(350, 도 2 참조)을 해당 사용자 단말(400)에 서비스로 제공할 수도 있다.

더욱이, 상기 단계S400에서, 사용자 단말(400)로부터 전송된 검색어와 상기 단계S300에서 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말(400)에 디스플레이 해줄 수도 있다.

즉, 웹 서버(300)를 통해 사용자 단말(400)로부터 전송된 검색어와 관련이 높은 문서들을 전문가별로 묶여 있는 색인 데이터 내에서 검색한 후, 각 전문가별로 해당 검색어와 관련이 있는 웹 문서 집합들이 매핑이 된다.

그런 다음, 각 전문가를 랭킹(Ranking)하게 되는데, 이때 상기 랭킹 방법으로는 하기의 수학식 1에 의해 연산된 Score(U_k) 순서로 정렬하여 해당 사용자 단말(400)에 검색 결과를 디스플레이 해준다.

여기서, LocalScore(U_k)는 k번째 전문가(U_k)의 로컬 점수이고, 상기 로컬 점수는 k번째 전문가(U_k)가 가지고 있는 사용자 검색어와 관련 있는 웹 문서 리스트를 Score(i) 순서로 정렬을 했을 때 상위 N번째까지의 점수의 합을 의미한다.

그리고, maxLocalScore는 LocalScore(U_k)의 최대값이며, minLocalScore는 LocalScore(U_k) 중에서 가장 낮은 점수(최소값)이며, GlobalScore(U_k)는 k번째 전문가(U_k)의 전체 점수이며, k번째 전문가(U_k)가 가지고 있는 사용자 검색어와 관련 있는 웹 문서 리스트들의 Score(i) 점수의 총합이며, maxGlobalScore는 GlobalScore(U_k)의 최대값이며, minGlobalScore는 GlobalScore(U_k)의 최소값이다.

상기 Score(i)는 i번째 웹 문서의 점수로서 하기의 수학식 2에 의해 연산될 수 있다.

여기서, themeScore(i)는 특정 전문가의 i번째 웹 문서의 주제성 점수로서, 상기 주제성 점수라 함은 특정 테마(예컨대, 영화 ,경제, 스포츠, 게임, 시사, IT 기타 등등)에 대하여, 해당 글이 얼마나 그 테마에 대하여 전문적인 글인지를 가리 키는 수치이다. 간단하게는 각 테마의 전문 용어 단어 집합이 해당 웹 문서에서 얼마나 많이 나타났는지 정보, 해당 웹 문서가 얼마나 전문적인 글과 유사한 서술어, 수식어 등을 사용하여 표현되었는지 정보, 이 웹 문서 내에서 문맥 흐름이 얼마나 자연스러운지 정보 등이 사용 가능하다. 그리고, maxThemeScore는 themeScore(i)의 최대값이고, minThemeScore는 themeScore(i)의 최소값이다.

또한, rankScore(i)는 i번째 웹 문서의 검색 랭킹 점수로서, 상기 검색 랭킹 점수는 일반적인 검색 모델을 사용하여 검색어가 해당 문서와 얼마나 관련이 있는지를 가리키는 점수이다. 그리고, maxScore는 rankScore(i)의 최대값이고, minScore는 rankScore(i)의 최소값이다.

즉, 상기 단계S400에서, 해당 검색어와 상기 추출된 문서 집합간의 연관도를 계산할 때에 상기 추출된 문서 집합이 해당 분야의 전문적인 내용을 얼마나 반영하는지 전문성 단어 정보를 활용하며, 이와 기본 랭크(Rank) 점수에 대하여 보간법(interpolation)을 사용한다.

또한, 상기 단계S400에서, 해당 검색어와 각 전문가간의 연관도를 계산할 때 해당 검색어와 관련 있는 각 전문가 문서 집합들의 전체 관련도 점수 합과, 상위 N개의 관련도 점수 합을 보간법(interpolation)으로 계산할 수 있다.

한편, 상기 단계S400에서, 해당 사용자 단말(400)에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 해당 전문가 사이트의 URL, 대표 이미지, 해당 검색어와 관련된 페이지 제목 리스트, 사이트 이름 중 적어도 어느 하나를 사용하여 디스플레이 해줄 수 있다.

또한, 상기 단계S400에서, 해당 사용자 단말(400)에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 각 하위 카테고리별 전문가를 묶어서 디스플레이 해줄 수도 있다. 예를 들면, "드라마"라고 검색할 시에 "한국 드라마", "미국 드라마", "중국 드라마", "일본 드라마"와 같이 각 주요 테마별로 전문가를 묶어서 보여주는 화면을 의미한다.

도 5는 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 통해 실제 검색 결과 화면을 각 사용자별로 질의어와 관련된 글 목록을 묶어서 보여준 도면으로서, 상기 단계S400에서, 해당 사용자 단말(400)에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 해당 검색어에 대한 검색 결과로 나온 각 전문가 웹사이트들에서 언급하고 긍정적으로 평가한 각 대상(Entity)들을 추출하여 해당 사용자 단말(400)의 화면에 디스플레이 해줄 수도 있다.

예를 들면, 도 5에 도시된 바와 같이, "미국 영화"라고 검색할 시에 나오는 각 전문가들이 미국 영화와 관련하여 글 쓴 것들에서 언급한 미국 영화들을 뽑아서 보여주는 것을 의미한다.

전술한 본 발명에 따른 인터넷을 활용한 전문가 웹사이트 검색시스템 및 그 방법에 대한 바람직한 실시예에 대하여 설명하였지만, 본 발명은 이에 한정되는 것이 아니고 특허청구범위와 발명의 상세한 설명 및 첨부한 도면의 범위 안에서 여러 가지로 변형하여 실시하는 것이 가능하고 이 또한 본 발명에 속한다.

도 1은 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색시스템을 설명하기 위한 전체적인 블록 구성도이다.

도 2는 본 발명의 일 실시예에 적용된 전문가 웹사이트 관리모듈을 설명하기 위한 예시 도면이다.

도 3은 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 설명하기 위한 전체적인 흐름도이다.

도 4는 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 통해 실제 검색 결과 화면을 나타낸 도면이다.

도 5는 본 발명의 일 실시예에 따른 인터넷을 활용한 전문가 웹사이트 검색방법을 통해 실제 검색 결과 화면을 각 사용자별로 질의어와 관련된 글 목록을 묶어서 보여준 도면이다.

Claims

삭제
삭제
삭제
삭제
삭제
인터넷 상에 존재하는 웹 문서 데이터들을 수집하는 제1 서버;

상기 제1 서버로부터 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱하는 제2 서버; 및

인터넷을 통해 접속되어 사용자 단말로부터 전송된 검색어를 제공받아 상기 제2 서버로부터 인덱싱된 각 전문가의 웹 문서 묶음별로 검색하여 해당 검색어와 관련 있는 문서 집합을 추출한 후, 해당 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말의 화면에 디스플레이 해주는 웹 서버를 포함하되,

상기 웹 서버는, 회원으로 등록된 사용자에 대한 검색어를 별도의 데이터베이스(DB)에 저장될 수 있도록 서비스를 제공하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색시스템.
(a) 인터넷 상에 존재하는 웹 문서 데이터들을 수집하는 단계;

(b) 상기 수집된 웹 문서 데이터들을 제공받아 전문가별로 웹 문서 데이터들을 원문 단위로 묶어 저장되도록 인덱싱하는 단계;

(c) 상기 인덱싱된 각 전문가의 웹 문서 묶음별로 인터넷을 통해 접속되어 사용자 단말로부터 전송된 검색어와 관련 있는 문서 집합을 추출하는 단계; 및

(d) 해당 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말의 화면에 디스플레이 해주는 단계를 포함하되,

인터넷을 통해 회원으로 등록된 사용자에 대한 검색어를 별도의 데이터베이스(DB)에 저장하는 단계를 더 포함하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(c)는, 상기 인덱싱된 전문가별로 묶여 있는 색인 데이터 내에서 해당 검색어와 관련 있는 문서들을 검색한 후, 각 전문가별로 해당 검색어와 관련 있는 웹 문서 집합들을 매핑하여 문서 집합을 추출하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)이후에, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말에 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈을 해당 사용자 단말에 제공하는 단계를 더 포함하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)에서, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말에 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)에서, 해당 사용자 단말에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 해당 전문가 사이트의 URL, 대표 이미지, 해당 검색어와 관련된 페이지 제목 리스트, 사이트 이름 중 적어도 어느 하나를 사용하여 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)에서, 해당 사용자 단말에 해당 검색어에 대한 검색 결과를 디스플레이 할 경우, 각 하위 카테고리별 전문가를 묶어서 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)에서, 해당 검색어에 대한 검색 결과로 나온 각 전문가 웹사이트들에서 긍정적으로 평가한 각 대상(Entity)들을 추출하여 해당 사용자 단말의 화면에 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.
제7 항에 있어서,

상기 단계(d)에서, 해당 검색어와 상기 추출된 문서 집합간의 연관도(Score(U_k))는 하기의 수학식 3에 의해 연산되며, 상기 연산된 Score(U_k) 순서로 정렬하여 해당 사용자 단말에 검색 결과를 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색방법.

여기서, LocalScore(U_k)는 k번째 전문가(U_k)의 로컬 점수이고, 상기 로컬 점수는 k번째 전문가(U_k)가 가지고 있는 사용자 검색어와 관련 있는 웹 문서 리스트를 Score(i) 순서로 정렬을 했을 때 상위 N번째까지의 점수의 합을 의미한다.

그리고, 상기 maxLocalScore는 LocalScore(U_k)의 최대값이며, 상기 minLocalScore는 LocalScore(U_k) 중에서 가장 낮은 점수(최소값)이며, 상기 GlobalScore(U_k)는 k번째 전문가(U_k)의 전체 점수이며, k번째 전문가(U_k)가 가지고 있는 사용자 검색어와 관련 있는 웹 문서 리스트들의 Score(i) 점수의 총합이며, 상기 maxGlobalScore는 GlobalScore(U_k)의 최대값이며, 상기 minGlobalScore는 GlobalScore(U_k)의 최소값이다.

상기 Score(i)는 i번째 웹 문서의 점수로서 하기의 수학식 4에 의해 연산된다.

여기서, themeScore(i)는 특정 전문가의 i번째 웹 문서의 주제성 점수로서, 상기 주제성 점수라 함은 특정 테마에 대하여, 해당 글이 얼마나 그 테마에 대하여 전문적인 글인지를 가리키는 수치이다. 그리고, 상기 maxThemeScore는 themeScore(i)의 최대값이고, 상기 minThemeScore는 themeScore(i)의 최소값이다.

그리고, 상기 rankScore(i)는 i번째 웹 문서의 검색 랭킹 점수이고, 상기 maxScore는 rankScore(i)의 최대값이며, 상기 minScore는 rankScore(i)의 최소값이다.
제6 항에 있어서,

상기 제1 서버는 인터넷 상에서 RSS 주소들을 수집 및 저장하고,

상기 저장된 RSS 주소들에 해당하는 RSS 파일들을 제공받아 각 RSS 파일이 제공해주는 링크정보를 이용하여 웹 문서 데이터를 수집하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색시스템.
제6 항에 있어서,

상기 웹 서버는, 상기 제2 서버를 통해 전문가별로 묶여 있는 색인 데이터 내에서 해당 검색어와 관련 있는 문서들을 검색한 후, 각 전문가별로 해당 검색어와 관련 있는 웹 문서 집합들을 매핑하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색시스템.
제6 항에 있어서,

상기 웹 서버는, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 해당 사용자 단말에 등록 및 편집할 수 있도록 전문가 웹사이트 관리모듈을 해당 사용자 단말에 제공하는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색시스템.
제6 항에 있어서,

상기 웹 서버는, 해당 사용자 단말로부터 전송된 검색어와 상기 추출된 문서 집합간의 연관도를 계산하여 미리 설정된 기준치 이상의 연관도를 갖는 전문가의 웹사이트 주소 리스트를 연관도가 높은 순서대로 해당 사용자 단말에 디스플레이 해주는 것을 특징으로 하는 인터넷을 활용한 전문가 웹사이트 검색시스템.