KR100902757B1 - Url기반의 검색결과 제공방법 및 시스템 - Google Patents

Url기반의 검색결과 제공방법 및 시스템 Download PDF

Info

Publication number
KR100902757B1
KR100902757B1 KR1020070136416A KR20070136416A KR100902757B1 KR 100902757 B1 KR100902757 B1 KR 100902757B1 KR 1020070136416 A KR1020070136416 A KR 1020070136416A KR 20070136416 A KR20070136416 A KR 20070136416A KR 100902757 B1 KR100902757 B1 KR 100902757B1
Authority
KR
South Korea
Prior art keywords
url
urls
website
similarity
search result
Prior art date
Application number
KR1020070136416A
Other languages
English (en)
Inventor
강춘식
양주영
Original Assignee
엔에이치엔(주)
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 엔에이치엔(주) filed Critical 엔에이치엔(주)
Priority to KR1020070136416A priority Critical patent/KR100902757B1/ko
Application granted granted Critical
Publication of KR100902757B1 publication Critical patent/KR100902757B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/338Presentation of query results
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/955Retrieval from the web using information identifiers, e.g. uniform resource locators [URL]
    • G06F16/9566URL specific, e.g. using aliases, detecting broken or misspelled links

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Information Transfer Between Computers (AREA)

Abstract

서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하여 하나의 검색결과 문서 형태로 제공할 수 있는 본 발명의 일 실시예에 따른 URL기반의 검색결과 제공방법은 웹사이트들의 URL을 추출하는 단계; 상기 추출된 URL들 중 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하는 단계; 및 상기 그룹핑 된 URL들이 하나의 검색결과 문서 형태로 포함된 검색결과를 생성하는 단계를 포함한다.
웹사이트, URL, 연관, 검색, IP, 웹자원

Description

URL기반의 검색결과 제공방법 및 시스템{Method and System for Providing Searching Result Based on URL}
본 발명은 검색 서비스 제공방법에 관한 것으로서, 보다 상세하게는 검색결과 내에서 동일한 웹사이트에 관한 URL들을 하나의 검색결과 문서 형태로 제공할 수 있는 방법에 관한 것이다.
인터넷을 이용하여 제공되는 다양한 서비스 중 하나인 검색 서비스는 사용자가 입력하는 소정의 검색 질의어에 대해 검색을 수행한 후 검색 질의어에 상응하는 검색 결과를 사용자에게 제공하는 서비스를 의미한다.
이러한 검색 서비스의 제공을 위해 검색엔진은 스파이더와 같은 웹로봇을 이용하여 미리 웹사이트들에 대한 정보를 직접 수집하거나 사용자로부터 웹사이트 정보 등록 요청을 통해 웹사이트들에 대한 정보를 획득한 후, 이러한 정보들을 색인하여 저장함으로써 데이터베이스를 구축하고, 사용자로부터 검색이 요청되는 경우 데이터베이스에 저장된 웹사이트 정보들을 검색함으로써 해당 결과를 사용자에게 제공한다.
그러나, 웹로봇을 이용하여 수집된 웹사이트들의 정보 또는 사용자로부터 등 록 요청된 웹사이트들의 정보 중 하나의 웹사이트에 복수개의 URL(Uniform Resource Locator)이 할당되어 있는 웹사이트가 존재하는 경우, 즉, 실제로는 동일한 컨텐츠를 포함하고 있는 웹사이트이지만 URL만이 복수개 할당되어 있는 웹사이트의 경우, 검색엔진은 각 URL이 별개의 웹사이트를 나타내는 것으로 판단하게 된다. 따라서, 검색엔진은 검색결과에 하나의 웹사이트를 그 URL만을 달리하여 중복적으로 노출하게 된다는 문제점이 있다.
예컨대, 사용자로부터 "야후"라는 질의어가 수신되는 경우, "야후"라는 웹사이트에 대해 "http://kr.yahoo.com/"이라는 URL과 "http://www.yahoo.co.kr"이라는 URL이 할당되어 있기 때문에, 검색서버는 도 1에 도시된 바와 같이, 검색결과에 "야후"라는 웹사이트를 그 URL만 달리하여 중복적으로 노출하고 있음을 알 수 있다.
최근에는 쇼핑몰 등과 같은 상업성 웹사이트의 운영업자들이 자신의 웹사이트가 검색결과에 포함되는 횟수를 증가시키기 위해, 하나의 웹사이트에 대해 가능한 모든 종류의 URL을 할당받은 후, 할당받은 URL 모두에 대해 등록을 요청함으로써 상술한 문제점은 더욱 심각해지고 있다.
본 발명은 상술한 문제점을 해결하기 위한 것으로서, 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하여 하나의 검색결과 문서 형태로 제공할 수 있는 URL기반 검색결과 제공방법 및 시스템을 제공하는 것을 그 기술적 과제로 한다.
또한, 본 발명은 각 URL의 IP주소 또는 각 URL에 해당하는 웹사이트로부터 획득된 웹자원을 이용하여 서로 연관된 웹사이트를 나타내는 URL들을 판단할 수 있는 URL기반의 검색결과 제공 방법 및 시스템을 제공하는 것을 다른 기술적 과제로 한다.
또한, 본 발명은 동일한 그룹에 속하는 URL들에 대한 검색결과를 제공함에 있어서, 선택횟수가 높은 URL을 대표 URL로 결정하여 검색결과를 제공할 수 있는 URL 기반의 검색결과 제공방법 및 시스템을 제공하는 것을 또 다른 기술적 과제로 한다.
상술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 URL기반의 검색결과 제공방법은 웹사이트들의 URL을 추출하는 단계; 상기 추출된 URL들 중 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하는 단계; 및 상기 그룹핑 된 URL들이 하나의 검색결과 문서 형태로 포함되도록 검색결과를 생성하는 단계를 포함한다.
일 실시예에 있어서, 상기 URL들의 그룹핑 단계는 상기 추출된 URL들의 IP(Internet Protocol)주소의 동일여부를 판단하는 단계를 포함하고, 상기 IP주소가 동일한 URL들을 동일 그룹으로 그룹핑하는 것을 특징으로 한다.
다른 실시예에 있어서, 상기 URL들의 그룹핑 단계는, 상기 추출된 URL들에 해당하는 웹사이트에 접속하여 해당 웹사이트로부터 웹자원을 수집하는 단계; 및 각 URL별 웹자원들의 유사도를 산출하는 단계를 포함함으로써, 상기 웹자원들의 유사도가 임계치 이상인 URL들을 동일 그룹으로 그룹핑하는 것을 특징으로 한다.
이때, 상기 웹자원 수집단계에서, 상기 웹자원은 상기 웹사이트의 제목정보, 상기 웹사이트의 제공자 정보, 및 상기 웹사이트의 대표 키워드 정보 중 적어도 하나를 포함하는 것을 특징으로 한다.
여기서, 상기 웹사이트의 제목 정보는 상기 웹사이트의 타이틀 태그에 포함된 문구 또는 상기 웹사이트를 구성하는 웹페이지들 중에서 가장 많이 노출된 문구로 결정되고, 상기 웹사이트의 제공자 정보는 상기 웹사이트의 카피라이터(Copyright)에 포함된 문구로 결정되며, 상기 웹사이트의 대표 키워드 정보는 상기 웹사이트의 키워드 태그에 포함된 단어 또는 상기 웹사이트를 구성하는 웹페이지들에 포함된 단어들 중 그 출현빈도가 상위 N번째 이내인 단어들로 결정될 수 있다.
한편, 상기 웹자원들간의 유사도 산출단계에서, 상기 웹자원들의 유사도는 상기 URL에 해당하는 웹사이트들의 제목정보별 유사도, 제공자 정보별 유사도, 및 대표 키워드 정보별 유사도를 산출하고, 산출된 각 정보별 유사도에 미리 설정된 가중치를 곱한 후 결과값들을 합산함으로써 산출되는 것을 특징으로 한다.
일 실시예에 있어서, 상기 URL 기반의 검색결과 제공방법은 상기 그룹핑된 URL들 중 대표 URL을 결정하는 단계를 더 포함하고, 상기 검색결과 생성단계에서, 상기 하나의 검색결과 문서 내에서 상기 대표 URL이 최상단에 배치되도록 하는 것을 특징으로 한다. 이때, 상기 대표 URL은 상기 그룹핑된 URL들 중 사용자들에 의한 선택횟수가 가장 높은 URL로 결정되는 것을 특징으로 한다
상술한 목적을 달성하기 위한 본 발명의 다른 측면에 따른 URL기반의 검색결과 제공 시스템은 웹사이트들의 URL을 추출하는 URL 추출부; 상기 URL추출부에 의해 추출된 URL들 중 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하는 URL 분류부; 및 상기 URL 분류부에 의해 그룹핑된 URL들이 하나의 검색결과 문서 형태로 포함되도록 검색결과를 생성하는 검색결과를 생성하는 검색결과 생성부를 포함한다.
상술한 바와 같이 본 발명에 따르면, 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑하여 하나의 검색결과 문서 형태로 제공함으로써, 검색결과 내에서 동일한 컨텐츠의 중복 노출을 방지할 수 있어 검색 서비스의 품질 및 신뢰성을 향상시킬 수 있다는 효과가 있다.
또한, 본 발명은 각 URL의 IP주소 또는 각 URL에 해당하는 웹사이트로부터 획득된 웹자원을 이용하여 서로 연관된 웹사이트를 나타내는 URL들을 판단하기 때문에, 서로 연관된 웹사이트를 나타내는 URL들을 용이하게 판단할 수 있음은 물론 보다 정확하게 판단할 수 있다는 효과가 있다.
또한, 본 발명은 동일한 그룹에 속하는 URL들 중 선택횟수가 가장 높은 URL이 검색결과 문서 내에서 최상단에 배치되기 때문에, 검색결과 열람시 인기도가 높은 URL에 해당하는 웹사이트를 우선적으로 열람할 수 있어 사용자의 편의성이 증대된다는 효과가 있다.
이하 첨부된 도면을 참조하여 본 발명의 실시예에 대해 상세히 설명한다.
도 2는 본 발명의 일 실시예에 따른 URL 기반의 검색결과 제공 시스템의 개략적인 블럭도이다. 도시된 바와 같이, 검색결과 제공 시스템(200, 이하, '검색결과 제공 시스템'이라 함)은 URL추출부(210), URL분류부(220), 대표 URL 결정부(230), 및 검색결과 생성부(240), 및 데이터베이스(250)를 포함한다.
URL 추출부(210)는 데이터베이스(250)에 저장된 웹사이트 정보로부터 각 웹사이트들의 URL을 추출한다. 일 실시예에 있어서, 데이터베이스(250)에 저장되어 있는 웹사이트 정보는 스파이더와 같은 웹로봇를 통해 획득된 웹사이트들의 정보이거나, 사용자로부터 등록 요청된 웹사이트들의 정보일 수 있다.
URL 분류부(220)는 URL 추출부(210)에 의해 추출된 웹사이트들의 URL들 중 서로 연관된 웹사이트를 나타내는 것으로 판단되는 URL들을 그룹핑한다. 일 실시예에 있어서, URL 분류부(220)는 각 URL들의 IP(Internet Protocol)주소의 판단을 통해 동일한 IP주소를 가지는 URL들은 동일한 웹사이트를 나타내는 것으로 판단할 수 있다. 이를 위해 URL분류부(220)는 IP주소 판단부(222) 및 URL그룹핑(224)를 포함할 수 있다.
IP주소 판단부(222)는 각 URL들의 IP주소의 동일여부를 판단하는 것으로, IP주소 판단부(222)는 각 URL들의 IP주소를 도메인 등록을 관장하는 한국 인터넷 정보 센터(KRNIC)나 도메인 등록을 대행하는 서비스 프로바이더(Service Provider)로부터 획득할 수 있다.
URL 그룹핑부(224)는 IP주소 판단부(222)의 판단결과, 동일한 IP주소를 가지는 것으로 판단된 URL들은 서로 연관된 웹사이트를 나타내는 것으로 판단하여, 해당 URL들을 동일한 그룹으로 그룹핑한 후 그 결과를 데이터베이스(250)에 저장한다.
한편, 다른 IP주소를 가지는 URL들 중에서도 연관된 웹사이트를 나타내는 URL들이 존재할 수 있으므로, URL 분류부는 각 URL에 해당하는 웹사이트로부터 획득할 수 있는 정보들을 이용하여 동일한 웹사이트를 나타내는 URL들을 판단할 수 있다. 이를 위해 URL분류부(220)는 웹자원 수집부(226) 및 연산부(228)를 더 포함한다.
웹자원 수집부(226)는 각 URL들에 해당하는 웹사이트에 접속하여 해당 웹사이트로부터 웹자원을 수집한다. 일 실시예에 있어서, 웹자원 수집부(226)는 웹자원으로서 해당 웹사이트로부터 웹사이트의 제목정보, 제공자 정보, 및 대표 키워드 정보 중 적어도 하나를 수집할 수 있다.
여기서, 웹자원 수집부(226)는 해당 웹사이트의 타이틀 태그로부터 수집되는 문구나 웹사이트를 구성하는 모든 웹페이지에 포함된 문구들 중 그 출현빈도가 가 장 높은 문구를 웹사이트의 제목정보로 결할 수 있다.
또한, 웹자원 수집부(226)는 웹사이트의 카피라이터(Copyright) 부분에 포함되어 있는 문구를 웹사이트의 제공자 정보로 결정할 수 있다.
또한, 웹자원 수집부(226)는 웹사이트의 대표 키워드 태그로부터 수집되는 단어들이나 웹사이트를 구성하는 모든 웹페이지에 포함된 문구들 중 그 출현빈도가 상위 N번째 이내인 단어들을 웹사이트의 대표 키워드로 결정할 수 있다.
연산부(228)는 웹자원 수집부(226)에 의해 수집된 각 URL들의 웹자원들을 이용하여 각 URL별 웹자원들간의 유사도를 산출한다. 먼저, 연산부(228)는 URL들의 웹자원들에 포함된 정보별 유사도를 산출한다. 즉, URL들의 제목정보별 유사도, 정보 제공자별 유사도, 및 대표 키워드별 유사도를 각각 산출하는 것이다.
이후, 연산부(228)는 산출된 각 정보별 유사도에 미리 정해진 가중치를 곱한 후 그 결과값을 합산함으로써 각 URL별 웹자원들간의 유사도를 산출하게 된다.
이러한 실시예에 의하는 경우, URL 그룹핑부(224)는 연산부(228)에 의해 산출된 웹자원의 유사도가 임계치 이상인 URL들은 서로 연관된 웹사이트를 나타내는 것으로 판단하여 이러한 URL들을 동일한 그룹으로 그룹핑한 후 데이터베이스(250)에 저장한다.
상술한 실시예에 있어서 URL분류부(220)는 URL들의 IP주소의 동일여부를 이용하여 각 URL들이 서로 연관된 웹사이트를 나타내는 것인지 여부를 먼저 판단한 후 각 URL별 웹자원들간의 유사도를 이용하여 각URL들이 서로 연관된 웹사이트를 나타내는 것인지 여부를 판단함으로써 각 URL들을 그룹핑하는 것으로 기재하였지 만, 변형된 실시예에 있어서는 그 순서를 변경하여 적용하거나, 두 가지 중 어느 하나만을 선택적으로 적용함으로써 각 URL들을 그룹핑할 수도 있을 것이다.
대표 URL 결정부(230)는 URL분류부(220)에 의해 그룹핑된 URL들 중 대표 URL을 결정하는 것으로서, 일 실시예에 있어서, 대표 URL 결정부(230)는 동일한 그룹에 포함되어 있는 URL들 중 선택횟수가 가장 높은 URL을 해당 그룹의 대표 URL로 결정할 수 있다. 예컨대, 대표 URL 결정부(230)는 동일 그룹에 포함되어 있는 URL들 중 페이지 랭크가 가장 높은 URL을 대표 URL로 결정하는 것이다.
이때, 각 URL들의 선택횟수는 변동될 수 있으므로, 대표 URL 결정부(230)는 동일 그룹에 포함된 URL들에 대한 선택횟수를 일정주기마다 확인함으로써 각 그룹의 대표 URL을 일정 주기마다 새롭게 결정할 수 있을 것이다.
한편, 대표 URL 결정부(230)는 각 그룹별로 결정된 대표 URL을 해당 그룹과 매칭시켜 데이터베이스(250)에 저장한다.
검색결과 생성부(240)는 사용자 단말기(미도시)로부터 소정 질의어가 입력되는 경우 검색 데이터베이스(미도시)에 대한 검색을 수행함으로써 해당 질의어에 대한 검색결과를 생성한다. 여기서는 검색 데이터베이스와 후술할 데이터베이스(250)가 별개인 것으로 기재하였지만, 검색 데이터베이스와 데이터베이스(250)는 하나로 구성될 수도 있을 것이다.
본 발명의 일 실시예에 따른 검색결과 생성부(240)는 검색결과를 생성함에 있어서, 동일한 그룹에 포함된 URL들을 각각 별개의 검색결과 문서로 검색결과에 포함시키는 것이 아니라 동일한 그룹에 포함된 URL들을 하나의 검색결과 문서 형태 로 검색결과에 포함시킬 수 있다.
한편, 이러한 경우, 하나의 검색결과 문서 내에서 대표 URL결정부(230)에 의해 결정된 대표 URL을 최상단에 배치하고, 나머지 URL들을 그 하단에 배치할 수 있다.
여기서, 동일한 그룹에 포함된 URL들을 하나의 검색결과 문서 형태로 제공한다는 것은, 동일한 그룹에 포함된 URL들은 서로 관련된 웹사이트 또는 동일한 웹사이트를 나타내는 것이므로, 검색결과 문서 내에서 각 URL들 중 어느 하나의 URL에 해당하는 웹사이트 관련된 정보(예컨대, 웹사이트의 제목이나 설명)만이 포함되도록 하고 다른 URL에 해당하는 웹사이트들은 URL만이 포함되도록 하는 것을 의미한다. 이때, 검색결과 문서 내에서 대표 URL에 해당하는 웹사이트 관련된 정보가 포함되도록 할 수 있을 것이다.
이러한 검색결과 생성부(240)에 의해 생성된 검색결과의 일 예를 도 3을 참조하여 설명한다.
도 3에 도시된 바와 같이, "http://kr.yahoo.com/"이라는 URL과 "http://www.yahoo.co.kr"이라는 URL의 경우 "야후"라는 동일한 웹사이트를 나타내는 것이므로, 각 URL은 하나의 검색결과 문서로 통합되어 검색결과에 포함되며, 이때, 대표 URL로 결정된 "http://kr.yahoo.com/"이라는 URL은 검색결과 문서 내에서 최상단에 배치되어 있음을 알 수 있고 대표 URL을 제외한 "http://www.yahoo.co.kr"이라는 URL은 관련 사이트라는 제목으로 대표URL의 하단에 배치되어 있음을 알 수 있다.
검색결과 생성부(240)는 상술한 과정을 통해 생성된 검색결과가 소정의 검색결과 제공수단(미도시)을 통해 사용자 단말기로 제공되도록 한다.
상술한 실시예에 있어서는 검색결과 생성부(240)가 검색결과 제공 시스템에 포함되는 것으로 기재하였지만, 변형된 실시예에 있어서는, 검색결과 제공 시스템이 외부의 검색서버(미도시)로 각 URL들의 그룹핑 정보 및 대표 URL정보를 제공함으로써 상술한 검색결과가 외부의 검색서버에 의해 생성되도록 할 수도 있을 것이다. 따라서, 이러한 경구 검색결과 제공 시스템은 검색결과 생성부를 포함하지 않을 수도 있을 것이다.
데이터베이스(250)는 각 웹사이트의 URL정보를 포함한 각 웹사이트에 대한 정보, 각 URL들의 그룹핑 정보, 및 각 URL그룹의 대표 URL정보가 저장된다.
도 4는 본 발명의 일 실시예에 따른 URL기반의 검색결과 제공방법을 보여주는 플로우차트이다.
도시된 바와 같이, 먼저, 데이터베이스에 저장된 각 웹사이트들의 정보로부터 각 웹사이트의 URL을 추출한다(제400단계). 여기서, 각 웹사이트들의 정보는 스파이더와 같은 웹로봇을 통해 획득된 웹사이트들의 정보이거나, 사용자로부터 등록 요청된 웹사이트들의 정보일 수 있다.
이후, 추출된 URL들의 IP주소를 획득한 후(제410단계), 각 URL들의 IP주소의 동일여부를 판단한다(제420단계). 이때, 각 URL들의 IP주소는 도메인 등록을 관장하는 한국 인터넷 정보 센터(KRNIC) 또는 도메인 등록을 대행하는 서비스 프로바이더(Service Provider)로부터 획득될 수 있다.
판단결과, 동일한 IP주소를 가지는 것으로 URL들은 서로 연관된 웹페이지를 나타내는 URL인 것으로 판단하여 동일한 그룹으로 그룹핑하고 그 결과를 데이터베이스에 저장한다(제430단계). 이후, 동일한 IP주소를 가지지 않는 것으로 판단된 URL에 해당하는 웹사이트에 접속하여 각 웹사이트들로부터 웹자원을 획득한다(제440단계).
일 실시예에 있어서, 웹자원이란 각 웹사이트의 제목정보, 제공자 정보, 및 대표 키워드 정보 중 적어도 하나를 포함할 수 있다. 웹자원에 포함되는 이러한 각 정보들에 대한 설명은 웹자원 수집부에 대한 설명에서 구체적으로 기재하였으므로 자세한 설명은 생략하기로 한다.
다음으로, 수집된 각 URL별 웹자원을 이용하여 각 URL별 웹자원들간의 유사도를 산출한다(제450단계). 일 실시예에 있어서, 각 URL별 웹자원들간의 유사도는 각 URL에 해당하는 웹사이트들의 제목정보별로 산출된 유사도, 제공자 정보별로 산출된 유사도, 및 대표 키워드 정보별로 산출된 유사도 각각에 각 정보별로 설정된 가중치를 곱한 후 그 결과값들을 합산함으로써 산출된다.
이후, 산출된 유사도가 임계치 이상인 URL들은 서로 연관된 웹페이지를 나타내는 URL인 것으로 판단하여 동일한 그룹으로 그룹핑하고 그 결과를 데이터베이스에 저장한다(제460단계).
마지막으로, 각 그룹별로 대표 URL을 결정한다(제470단계). 일 실시예에 있어서, 대표 URL은 각 그룹에 포함되어 있는 URL들 중 사용자에 의한 선택횟수가 가장 많은 URL을 대표 URL로 결정할 수 있다. 이때, 각 그룹별로 결정된 대표 URL은 각 그룹과 매칭시켜 데이터베이스에 저장된다.
이후, 사용자 단말기로부터 검색요청이 수신되면, 동일한 그룹으로 그룹핑된 URL들이 하나의 검색결과 문서 형태로 검색결과에 포함되도록 검색결과를 생성하여 사용자 단말기로 제공한다.
상술한 실시예에 있어서는, 동일한 IP주소를 가지는 URL들을 먼저 그룹핑한 후 각 URL별 웹자원들간의 유사도가 임계치 이상인 URL들을 그룹핑하는 것으로 기재하였지만, 변형된 실시예에 있어서는 그 순서를 변경하여 적용하거나, 어느 하나만을 선택적으로 적용할 수도 있을 것이다.
상술한 URL기반의 검색결과 제공방법은 다양한 컴퓨터 수단을 이용하여 수행될 수 있는 프로그램 형태로도 구현될 수 있는데, 이때 검색결과 제공방법을 수행하기 위한 프로그램은 하드 디스크, CD-ROM, DVD, 롬(ROM), 램, 또는 플래시 메모리와 같은 컴퓨터로 판독할 수 있는 기록 매체에 저장된다.
본 발명이 속하는 기술분야의 당업자는 본 발명이 그 기술적 사상이나 필수적 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다.
예컨대, 상술한 실시예에 있어서는 대표URL 결정부 및 대표 URL결정단계가 필수적인 구성인 것으로 설명하였으나 변형된 실시예에 있어서는, 검색결과 제공시 대표 URL없이 동일한 그룹에 속한 모든 URL들이 랜덤하게 배치되도록 할 수 있기 때문에, 대표 URL 결정부 및 대표 URL결정단계는 선택적으로 포함될 수 있을 것이다.
그러므로, 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적인 것이 아닌 것으로 이해해야만 한다. 본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 등가 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
도 1은 종래기술에 따른 검색결과 제공화면을 캡쳐하여 보여주는 도면.
도 2는 본 발명의 일 실시예에 따른 URL 기반의 검색결과 제공 시스템의 개략적인 블럭도.
도 3은 본 발명의 일 실시예에 따른 URL 기반의 검색결과 제공화면을 캡쳐하여 보여주는 도면.
도 4는 본 발명의 일 실시예에 따른 URL기반의 검색결과 제공방법을 보여주는 플로우차트.
<도면의 주요부분에 대한 부호의 설명>
200: 검색결과 제공 시스템 210: URL 추출부
220: URL 분류부 230: 대표 URL 결정부
240: 검색결과 생성부 250: 데이터베이스

Claims (18)

  1. 웹사이트들의 URL을 추출하는 단계;
    상기 추출된 URL들의 IP(Internet Protocol)주소 및 상기 추출된 URL들에 해당하는 웹사이트로부터 획득된 웹자원 중 적어도 하나를 이용하여 상기 추출된 URL들 중 서로 연관된 웹사이트의 URL들을 그룹핑하는 단계; 및
    상기 그룹핑 된 URL들이 하나의 검색결과 문서 형태로 포함되도록 검색결과를 생성하는 단계를 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  2. 제1항에 있어서,
    상기 URL들의 그룹핑 단계에서, 상기 추출된 URL들의 IP주소가 동일한 URL들을 동일 그룹으로 그룹핑하는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  3. 제1항에 있어서, 상기 URL들의 그룹핑 단계는,
    상기 추출된 URL들에 해당하는 웹사이트에 접속하여 해당 웹사이트로부터 웹자원을 수집하는 단계; 및
    각 URL별 웹자원들간의 유사도를 산출하는 단계를 포함함으로써,
    상기 웹자원들간의 유사도가 임계치 이상인 URL들을 동일 그룹으로 그룹핑하는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  4. 제1항에 있어서,
    상기 웹자원은 상기 웹사이트의 제목정보, 상기 웹사이트의 제공자 정보, 및 상기 웹사이트의 대표 키워드 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  5. 제4항에 있어서,
    상기 웹사이트의 제목 정보는 상기 웹사이트의 타이틀 태그에 포함된 문구 또는 상기 웹사이트를 구성하는 웹페이지들 중에서 가장 많이 노출된 문구로 결정되는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  6. 제4항에 있어서,
    상기 웹사이트의 제공자 정보는 상기 웹사이트의 카피라이터(Copyright)에 포함된 문구로 결정되는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  7. 제4항에 있어서,
    상기 웹사이트의 대표 키워드 정보는 상기 웹사이트의 키워드 태그에 포함된 단어 또는 상기 웹사이트를 구성하는 웹페이지들에 포함된 단어들 중 그 출현빈도가 상위 N번째 이내인 단어들로 결정되는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  8. 제4항에 있어서, 상기 웹자원들간의 유사도 산출단계에서,
    상기 웹자원들간의 유사도는 상기 URL에 해당하는 웹사이트들의 제목정보별 유사도, 제공자 정보별 유사도, 및 대표 키워드 정보별 유사도를 산출하고, 산출된 각 정보별 유사도에 미리 설정된 가중치를 곱한 후 결과값들을 합산함으로써 산출되는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  9. 제1항에 있어서,
    상기 그룹핑된 URL들 중 대표 URL을 결정하는 단계를 더 포함하고,
    상기 검색결과 생성단계에서, 상기 하나의 검색결과 문서 내에서 상기 대표 URL이 최상단에 배치되도록 하는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  10. 제9항에 있어서, 상기 대표 URL 결정단계에서,
    상기 대표 URL은 상기 그룹핑된 URL들 중 사용자들에 의한 선택횟수가 가장 높은 URL로 결정되는 것을 특징으로 하는 URL기반의 검색결과 제공방법.
  11. 제1항 내지 제10항 중 어느 하나의 항에 기재된 방법을 수행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록매체.
  12. 웹사이트들의 URL을 추출하는 URL 추출부;
    상기 추출된 URL들의 IP(Internet Protocol)주소 및 상기 추출된 URL들에 해당하는 웹사이트로부터 획득된 웹자원 중 적어도 하나를 이용하여 상기 추출된 URL들 중 서로 연관된 웹사이의 URL들을 그룹핑하는 URL 분류부; 및
    상기 URL 분류부에 의해 그룹핑된 URL들이 하나의 검색결과 문서 형태로 포함되도록 검색결과를 생성하는 검색결과를 생성하는 검색결과 생성부를 포함하는 특징으로 하는 URL기반의 검색결과 제공 시스템.
  13. 제12항에 있어서,
    상기 추출된 URL들의 IP 주소의 동일여부를 판단하는 IP주소 판단부; 및
    상기 IP주소 판단부에 의해 동일한 IP주소를 가지는 것으로 판단된 URL들을 동일 그룹으로 그룹핑하는 URL그룹핑부를 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
  14. 제12항에 있어서,
    상기 추출된 URL들에 해당하는 웹사이트에 접속하여 해당 웹사이트로부터 웹자원을 수집하는 웹자원 수집부;
    각 URL별 웹자원들의 유사도를 산출하는 연산부; 및
    상기 연산부에 의해 산출된 유사도가 임계치 이상인 URL들을 동일 그룹으로 그룹핑하는 URL 그룹핑부를 더 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
  15. 제14항에 있어서, 상기 웹자원 수집부에 의해 수집되는 상기 웹자원은,
    상기 웹사이트의 제목정보, 상기 웹사이트의 제공자 정보, 및 상기 웹사이트의 대표 키워드 정보 중 적어도 하나를 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
  16. 제15항에 있어서, 상기 연산부는,
    상기 URL들의 제목정보별 유사도, 제공자 정보별 유사도, 및 대표 키워드 정보별 유사도를 산출하고, 산출된 각 정보별 유사도에 각각 미리 설정된 가중치를 곱한 후 결과값들을 합산함으로써 상기 웹자원들의 유사도를 산출하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
  17. 제12항에 있어서,
    상기 URL분류부에 의해 그룹핑된 URL들 중 대표 URL을 결정하는 대표 URL 결정부를 더 포함하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
  18. 제17항에 있어서,
    상기 대표 URL 결정부는, 상기 URL분류부에 의해 그룹핑된 URL들 중 사용자들에 의한 선택횟수가 가장 높은 URL을 대표 URL로 결정하는 것을 특징으로 하는 URL기반의 검색결과 제공 시스템.
KR1020070136416A 2007-12-24 2007-12-24 Url기반의 검색결과 제공방법 및 시스템 KR100902757B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020070136416A KR100902757B1 (ko) 2007-12-24 2007-12-24 Url기반의 검색결과 제공방법 및 시스템

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020070136416A KR100902757B1 (ko) 2007-12-24 2007-12-24 Url기반의 검색결과 제공방법 및 시스템

Publications (1)

Publication Number Publication Date
KR100902757B1 true KR100902757B1 (ko) 2009-06-15

Family

ID=40982746

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020070136416A KR100902757B1 (ko) 2007-12-24 2007-12-24 Url기반의 검색결과 제공방법 및 시스템

Country Status (1)

Country Link
KR (1) KR100902757B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101454466B1 (ko) 2013-08-02 2014-10-23 주식회사 알에스엔 Html파일로부터 비정형 메타 데이터를 추출하는 장치
KR101843355B1 (ko) * 2016-04-04 2018-05-14 (유)신도정보통신 큐알 코드를 이용한 영상 처리 장치
KR20200114485A (ko) * 2019-03-28 2020-10-07 네이버비즈니스플랫폼 주식회사 웹사이트에서 수집된 url을 처리하는 방법, 장치 및 컴퓨터 프로그램

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082984A (ko) * 2000-02-22 2001-08-31 박봉래 월드와이드 웹페이지를 검색하기 위한 시스템과, 이검색결과를 저장하고, 뷰잉하고, 활용하는 방법
KR20010082966A (ko) * 2000-02-22 2001-08-31 백윤주 관련 웹 사이트 제공 방법 및 시스템
JP2003058552A (ja) 2001-08-21 2003-02-28 Sony Corp アドレス自動検索装置、アドレス自動検索方法、アドレス自動検索プログラム及びアドレス自動検索プログラム格納媒体

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20010082984A (ko) * 2000-02-22 2001-08-31 박봉래 월드와이드 웹페이지를 검색하기 위한 시스템과, 이검색결과를 저장하고, 뷰잉하고, 활용하는 방법
KR20010082966A (ko) * 2000-02-22 2001-08-31 백윤주 관련 웹 사이트 제공 방법 및 시스템
JP2003058552A (ja) 2001-08-21 2003-02-28 Sony Corp アドレス自動検索装置、アドレス自動検索方法、アドレス自動検索プログラム及びアドレス自動検索プログラム格納媒体

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101454466B1 (ko) 2013-08-02 2014-10-23 주식회사 알에스엔 Html파일로부터 비정형 메타 데이터를 추출하는 장치
KR101843355B1 (ko) * 2016-04-04 2018-05-14 (유)신도정보통신 큐알 코드를 이용한 영상 처리 장치
KR20200114485A (ko) * 2019-03-28 2020-10-07 네이버비즈니스플랫폼 주식회사 웹사이트에서 수집된 url을 처리하는 방법, 장치 및 컴퓨터 프로그램
KR102247067B1 (ko) 2019-03-28 2021-05-03 네이버클라우드 주식회사 웹사이트에서 수집된 url을 처리하는 방법, 장치 및 컴퓨터 프로그램
US11321415B2 (en) 2019-03-28 2022-05-03 Naver Cloud Corporation Method, apparatus and computer program for processing URL collected in web site

Similar Documents

Publication Publication Date Title
US9742723B2 (en) Internet profile service
US9436747B1 (en) Query generation using structural similarity between documents
CN106095979B (zh) Url合并处理方法和装置
CN109905288B (zh) 一种应用服务分类方法及装置
US20120158496A1 (en) System and method for classifying webpages
JP2007528520A (ja) 検索エンジンに登録されたウェブサイトを管理するための方法およびシステム
US9330168B1 (en) System and method for identifying website verticals
KR101344913B1 (ko) 지역별 자동완성 질의어 제공 시스템 및 방법
CN101853300A (zh) 一种视频下载服务网站的识别、评估方法及系统
CN102880613A (zh) 色情图片的识别方法及其设备
CN111224923B (zh) 一种仿冒网站的检测方法、装置及系统
CN104090887A (zh) 歌曲搜索方法及装置
CN104899306A (zh) 信息处理方法、信息显示方法及装置
WO2014183544A1 (en) Method and device for generating a personalized navigation webpage
JP2011515754A (ja) 新規広告可能なurl提供方法およびシステム
KR100902757B1 (ko) Url기반의 검색결과 제공방법 및 시스템
WO2017000659A1 (zh) 一种富集化url的识别方法和装置
CN108111547B (zh) 一种域名健康监测方法及系统
RU2709647C9 (ru) Способ ассоциирования доменного имени с характеристикой посещения веб-сайта
CN109547294B (zh) 一种基于固件分析的联网设备型号探测方法、装置
JP2012523626A (ja) ドメイン状態、目的、およびカテゴリ
CN108595453B (zh) Url标识映射获取方法及装置
KR100943625B1 (ko) 지역 정보와 웹사이트 정보의 통합 관리를 위한 통합데이터베이스 생성 방법 및 시스템과 그에 의해 생성된통합 데이터베이스를 이용한 검색 결과 제공 방법
CN108009171B (zh) 一种提取内容数据的方法和装置
KR101277300B1 (ko) 맞춤형 광고 제공 방법 및 장치

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20120329

Year of fee payment: 5

FPAY Annual fee payment

Payment date: 20160329

Year of fee payment: 8

FPAY Annual fee payment

Payment date: 20170328

Year of fee payment: 9

FPAY Annual fee payment

Payment date: 20190401

Year of fee payment: 11