KR102054020B1

KR102054020B1 - 참조 웹 크롤의 도움에 의한 웹 코퍼스의 구축

Info

Publication number: KR102054020B1
Application number: KR1020130040143A
Authority: KR
Inventors: 세바스띠앙 리샤르; 사비에 그르앙; 짐 페렌치
Original assignee: 다솔 시스템므
Priority date: 2012-04-12
Filing date: 2013-04-11
Publication date: 2019-12-09
Also published as: CN103377291A; CA2812439C; JP6254355B2; CA2812439A1; KR20130116032A; CN103377291B; EP2650802B1; EP2650802A1; US9529911B2; US20130275406A1; JP2013222463A

Abstract

- 웹 크롤러 (WC) 에 의해, 참조 웹 크롤 에이전트 (RWCA) 로 질의를 전송하는 단계로서, 상기 질의는 리소스의 적어도 하나의 식별자를 포함하는, 상기 질의를 전송하는 단계;
- 웹 크롤러 (WC) 에 의해, 참조 웹 크롤 에이전트 (RWCA) 로부터 응답을 수신하는 단계;
- 이 응답이 식별자에 의해 식별된 리소스를 포함하지 않는다면, 웹 크롤러 (WC) 에 의해, 식별자에 대응하는 웹사이트 (WS) 로부터 응답을 다운로드하여 리소스를 웹 코퍼스 (WCD) 에 부가하는 단계; 및
- 이 응답이 식별자에 의해 식별된 리소스를 포함한다면, 리소스를 웹 코퍼스 (WCD) 에 부가하는 단계를 포함하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.

Description

참조 웹 크롤의 도움에 의한 웹 코퍼스의 구축{BUILDING OF A WEB CORPUS WITH THE HELP OF A REFERENCE WEB CRAWL}

본 발명은 네트워크 정보 소프트웨어의 분야에 관한 것으로, 특히 코퍼스 (corpus) 를 구축하기 위해, "웹 크롤러 (web crawler) 들" 로 알려진 것들과 같은, 인터넷으로부터 데이터를 취출하는 방법들 및 시스템들에 관한 것이다.

월드와이드웹 (WWW) 은 매우 중요한 비즈니스 가치를 갖는 것으로 간주되는 거대 데이터 리포지터리로서 간주될 수 있다. 따라서, 웹 상에서 이용가능한 리소스들로부터 이 값을 생성해내는 툴들을 인터넷 분야에서 활동적인 회사들에 제공할 필요가 있다. 이들 회사들은 개개의 사용자들 전용의 서비스들 (예를 들면, 검색 엔진들) 을 제공할 수도 있거나 또는 특정 비지니스 분야에서 마케팅 데이터를 수집하는 것 등과 같은 B2B (business to business) 모델에서 다른 회사들 전용의 서비스를 제공할 수도 있다.

정보를 분석할 수 있고 그 가격을 정할 수 있기 위해, 제 1 필수 단계는 웹 상에서 이용가능한 정보를 취출하고, 그들로부터 "웹 코퍼스 (web corpus)", 즉, 전용 컴퓨터 프로그램들이 운용될 리소스들의 세트를 구축하는 것이다. 이들 웹 코퍼스들은 일반 검색 엔진의 경우에서와 같이 일반적일 수도 있거나, 또는 소정 비지니스 영역 또는 주제들로 더 좁혀질 수도 있다.

웹으로부터의 정보, 예를 들면 리소스들 (웹 페이지들, 멀티미디어 파일들 등) 의 취출은 시간 소모적인 작업이다. 단일 리소스를 취출하기 위한 지연은 수백 밀리초에서 수초 정도 걸릴 수도 있다. 이 지연이 웹사이트의 상태 및 기반 통신 네트워크들의 상태에 좌우되기 때문에, 이 지연도 예측불가능하다.

또한, 웹 상에서 이용가능한 리소스들의 글로벌 뷰는 존재하지 않는다. 따라서, 이 뷰를 구축하기 위해서, 예를 들면 검색 엔진의 사용자에 의해 입력된 질의에 응답하기 위해서, 웹의 충분한 뷰를 얻었다고 여겨질 때까지, 제 1 리소스들을 방문하고, 그 다음 이들 리소스들에서 참조된 리소스들을 방문하는 등의 상호작용적인 프로세스를 수행할 필요가 있다.

이 프로세스를 행함에 있어서, 지연들은 누적되고 사용자의 요구에 응답할 수 있는 최종 지연은 적합하지 않다.

검색 엔진들 또는 대다수의 리소스들에 액세스할 필요가 있는 임의의 다른 컴퓨터 프로그램들에 대한 이 지연을 방지하기 위해 웹 크롤러들이 도입되었다.

웹 크롤러들은, 코퍼스, 즉, 다른 프로그램들에 의해 사용될 수 있을 리소스들의 세트를 구성하기 위해, 웹의 웹사이트 상에서 이용가능한 리소스들을 발견하고, 탐색하며 다운로드하기 위해 사용되는 프로그램들이다. 또한, 이들은 앤트들 (ants), 보트들 (bots), 웹 스파이더들 (web spiders).. 로도 칭해진다. 다음에서, 이들은 "웹 크롤러들" 또는 더 단순히 "크롤러들" 로 지칭될 것이다.

더 정확하고 일반적으로, 크롤러는, 방문을 위해, "씨드 (seed) 들" 로 칭해지는 URL (Unified Resource Locator) 들의 리스트로 시작한다. 크롤러가 이들 URL들에 의해 식별된 리소스들을 방문할 때, (하이퍼링크 형태로) 리소스에 의해 포함된 모든 URL들을 식별하고 이들을 방문할 URL들의 리스트에 부가한다. 그 후 대응하는 리소스들이 다운로드되어 점차적으로 웹 크롤 (web crawl) 을 구축하는 동안 이들 URL들을 반복적으로 방문한다.

여기서 웹 크롤은 웹 크롤러에 의해 저장된 디지털 콘텐츠들로서 정의된다.

이들 웹 크롤러들은, 도 1 에 도시된 것처럼, 검색 엔진들에 의해 현저히 사용된다.

웹 크롤러 (WC) 는 웹을 크롤하며 웹 크롤 (WCD) 을 구축하는데, 이것은 다운로드된 리소스들의 리포지터리이다. 인덱싱 프로그램 (IDP) 은 인덱스 (ID) 를 구축하기 위해 이 웹 크롤 (WCD) 을 사용하고 있다.

이 인덱싱 프로그램 (IDP) 은 웹 크롤 (WCD) 의 로 (raw) 리소스들을 분석하여 인덱싱에 보다 적합한 포맷에 부합하는 "오브젝트들" 로 변환하는 것을 목표로하는 프로세싱 파이프라인을 포함할 수도 있다. 예를 들면, (광고 배너, 이미지 등과 같은) 소정의 다운로드된 리소스들의 콘텐츠의 일부를 숨기고/거나 다운로드된 리소스들 내에서 소정의 데이터를 검색하여 그들을 인덱싱될 오브젝트들의 특정 필드들 내에 두는 등등을 할 수도 있다.

또한, 인덱싱 프로그램 (IDP) 은 질의들의 처리를 패스닝하도록 "오브젝트들" 또는 로 리소스들을 처리하여 그들과 연관된 아이템들을 저장한다.

사용자 (U) 가 검색 엔진 (SE) 으로 질의를 개시하면, 검색 엔진 (SE) 은 인덱스 (ID) 를 조사하여 질의의 기준들과 매칭하는 아이템들을 취출한다. 그 후 이들 아이템들은 사용자 (U) 에게 제시되며, 그 후 사용자는 (예를 들면 아이템과 연관된 하이퍼링크를 클릭하는 것에 의해) 제시된 아이템들에 대응하는 리소스들을 다운로드할지 여부를 선택할 수 있다.

또한 웹 크롤 (WCD) 은, 배치 분석 프로그램들과 같은 다른 컴퓨터 프로그램들 (Prog) 에 의해, 예를 들면 그래픽 모델링에 의해 사용될 수도 있다.

따라서, 웹 크롤러들은 애플리케이션들 및 프로세싱으로부터 리소스들 취출을 디커플링할 수 있다. 웹으로부터의 리소스 추출로 인한 지연들은 컴퓨터 프로그램들 (Prog) 의 응답성 (SE) 에도, 인덱스 (ID) 의 실시간 합성에도 영향을 미치지 않는다. 지연들은 단지 소정의 시간에서 이용가능한 정보 (즉, 다운로드된 리소스들) 에만 영향을 미친다. 보다 구체적으로, 이들은 인덱스 (ID) 상에서 보이게 되는 코퍼스에 대한 변경 (새로운 리소스, 삭제된 리소스 또는 수정된 리소스) 의 시간에 영향을 준다.

이것은, 애플리케이션들이 크롤러에 의해 수행된 리소스 취출 작업의 스케줄링에 직접 의존하지 않음을 의미한다. 이 작업에 링크된 시간 제약들 및 지연들은 소정의 시간에 이용가능한 정보 (즉, 다운로드된 리소스들) 의 양과, 그 연령 (age) 이나 선도 (freshness) 에 영향을 미칠 수도 있다.

또한, 이것은 웹 크롤러가 웹으로부터 다운로드된 데이터 위에 메타데이터를 구성할 수 있음을 의미한다. 보다 정확하게는, 단일 인덱스 필드는 단일 리소스에서 발견되지 않는, 그러나 다수의 리소스들의 분석에 의해 제공되는 정보를 필요로 할 수도 있다. 또한, 회사 구글의 페이지랭크 알고리즘은 리소스들 사이의 하이퍼링크들의 그래프 표현을 사용한다. 이 그래프를 구축하는 것은 코퍼스의 모든 리소스의 시험을 필요로 한다.

일반적으로, 인덱스의 구성 (construction) 은 동일 리소스에 대한 다수의 액세스들을 필요로 한다. 웹 크롤이 없다면, 웹으로부터 리소스를 취출하는 지연이 수 회 체감될 것이다.

또한, 때때로 인덱스의 구조를 부분적으로 또는 전체적으로 변경할 필요가 있다. 리소스 취출의 지연을 방지하기 위해서, 인덱싱 프로그램 (IDP) 은 웹에서 리소스들을 다운로드하는 대신 웹 크롤 (WCD) 에서 이용가능한 다운로드된 리소스들을 사용할 수 있다.

이 디커플링에도 불구하고, 웹 크롤링 작업에 수반되는 지연들은 병목으로 남게 되고, 웹 코퍼스 내에서의 변경을 웹 크롤에 반영하는데 필요한 시간을 줄이거나, 또는 웹 크롤링을 가장 관련성 있는 변경들에 먼저 초점을 맞추기 위해 몇몇 작업들이 취해졌다.

그러나, 이들 노력들은 주로 웹 코퍼스 내의 변경들을 포착하고 그들을 최소 지연으로 웹 크롤 내에 반영하는 문제를 주로 다룬다.

이들은 새로운 웹 코퍼스를 초기에 구축하는 문제에 관해서는 다루지 않는다.

웹 크롤링은 적어도 다음의 이유들 때문에 매우 느린 프로세스로 남게 된다:

- "네티켓" 에 의해 인가된 제한된 크롤 빈도 (crawl frequency) 가 존재한다: 웹 크롤러들에 링크된 트래픽으로의 웹사이트의 과부하를 방지하기 위해, 크롤러가 매 2.5초에 한번보다 덜 빈번하게 동일한 호스트 웹사이트 (또는 호스트) 에 액세스할 것이라는 것이 일반적으로 인정된다. 또한, 웹사이트들은 그들 자신의 정책을 강제하고 심지어 인정된 빈도를 넘는 크롤러를 서비스하는 것을 거부할 수도 있다. 이러한 경우들에서, 크롤러는 다시 일시적으로 또는 한정적으로 웹사이트에 액세스하지 못하게 될 수도 있다.

- 앞서 언급한 바와 같이, 웹사이트들은 일반적으로 요구에 응답하는데 수백 밀리초에서 수초가 걸린다.

- 크롤링 프로세스는 병행처리될 수 없다. 리소스에서 발견된 URL들이 방문할 새로운 리소스들을 결정하기 위해 종종 사용된다. 이 경우, 리소스들은 병렬로 다운로드될 수 없고 지연들은 가중된다.

또한, 웹 코퍼스가 좁은 영역에서 요구되더라도, 웹 크롤링 프로세스는 이 좁은 영역에 관련되지 않은 리소들을 포함하여 매우 많은 양의 리소스를 고려해야 한다. 이 이유는 크롤링 프로세스가 비선택적 프로세스이기 때문이다:

- 웹의 서브세트에만 관심이 있는 애플리케이션에 대해, 관심 대상인 리소스들이 관심 대상이 아닌 리소스들에 의해 참조될 수도 있기 때문에 여전히 전체 웹의 크롤이 요구된다. 다시 말하면, 관심 대상이 아닌 리소스들이 필터링되어 없어지면, 많은 관심 대상의 리소스들이 간과될 수도 있다.

- 리소스가 관심의 대상인지의 여부의 결정은 단지, 리소스의 URL 과 이것을 참조하는 리소스에 의해 제공되는 정보가 리소스 그 자체에 의해 제공되는 정보보다 더 적기 때문에, 리소스가 크롤된 이후에 취해질 수 있다.

웹 크롤을 구축하는데 필요한 시간을 줄이기 위해 하드웨어 리소스를 늘리는 것이 가능할 수 있을 것이다. 그러나, 이 해결책은 확장가능하지 않으며 아주 많은 비용이 든다. 또한, 프로세스의 작업들 사이에 의존성이 존재하기 때문에, 시간 이득 면에서 전체적으로 만족스러운 해결책은 아닐 것이며: 무한의 프로세싱 리소스들에서도, 웹의 실질적 부분을 크롤하는데 여러 달 걸릴 수도 있다. 이것은 예를 들면 1999년에 Nature vol.400, pp.107-109 에서 공개된 Steve Lawrence 및 C. Lee Giles 의 Article "Accessibility of Information on the Web" 에 나타나 있다.

본 발명의 목적은 상기 언급한 단점들을 적어도 부분적으로 완화시키는 것이다.

보다 구체적으로는, 본 발명은 웹 코퍼스를 효율적인 방식으로 구축하는 것으로서, 즉, 더 많은 하드웨어 리소스들을 요구하지 않고 이 구축을 패스닝함으로써 구축하는 것을 목표로 한다.

이 목적은 웹 코퍼스를 구축하는 컴퓨터 구현 방법으로 달성되며, 이 컴퓨터 구현 방법은 :

- 웹 크롤러에 의해, 참조 웹 크롤 에이전트로 질의를 전송하는 단계로서, 이 질의는 리소스의 적어도 하나의 식별자를 포함하는, 상기 질의를 전송하는 단계;

- 웹 크롤러에 의해, 참조 웹 크롤 에이전트로부터 응답을 수신하는 단계;

- 이 응답이 식별자에 의해 식별된 리소스를 포함하지 않는다면, 웹 크롤러에 의해, 식별자에 대응하는 웹사이트 (WS) 로부터 리소스를 다운로드하여 이 리소스를 웹 코퍼스에 부가하는 단계; 및

- 그렇지 않고, 응답이 식별자에 의해 식별된 리소스를 포함한다면, 이 리소스를 웹 코퍼스에 부가하는 단계

를 포함한다.

바람직한 실시형태들은 다음의 특징들 중 하나 이상을 포함한다 :

- 참조 웹 크롤 에이전트는 참조 웹 크롤의 콘텐츠에 따라 응답들을 구축한다.

- 참조 웹 크롤 에이전트가 리소스가 참조 웹 크롤 내에 포함되지 않는다고 결정한다면, 그 참조 웹 크롤 에이전트는 리소스의 다운로딩 및 그 리소스의 참조 웹 크롤에의 부가를 개시한다.

일 실시형태에 따르면, 본 발명의 방법은 :

- 참조 웹 크롤로부터 참조 인덱스를 구축하는 단계,

- 웹 크롤러에 의해, 참조 인덱스로 인덱스 질의를 전송하는 단계, 및

- 웹 크롤러에 의해, 참조 인덱스로부터 응답을 수신하는 단계를 더 포함할 수도 있으며,

- 참조 웹 크롤 에이전트로 질의를 전송하는 단계는 응답의 콘텐츠에 따라 수행된다.

이 실시형태는 또한, 다음의 특징들 중 하나 이상을 포함할 수도 있다 :

- 인덱스 질의는 리소스의 식별자를 포함할 수도 있으며, 응답이 이 리소스에 관련되는 인덱싱된 정보를 포함한다면, 그것은 인덱싱된 정보에 따라 참조 웹 크롤 에이전트로 질의를 전송할지 여부에 대해 결정할 수도 있다.

- 인덱스 질의는 질의 기준들을 포함하고, 참조 인덱스의 응답은 식별자들의 리스트를 포함한다.

- 참조 인덱스의 응답은 또한 식별자들에 대응하는 인덱싱된 정보를 포함한다.

- 인덱스 질의는 식별자를 포함하고, 참조 인덱스는 이 식별자에 의해 식별된 리소스에 포함된 식별자들의 세트를 포함하는 응답을 전송한다.

식별자는 URL (Unified Resource Locator) 일 수 있다.

본 발명의 다른 목적은 웹 코퍼스를 구축하도록 구성된 웹 크롤러이다. 웹 크롤러는 :

- 참조 웹 크롤 에이전트로 질의를 전송하는 수단으로서, 이 질의는 리소스의 적어도 하나의 식별자를 포함하는, 상기 질의를 전송하는 수단;

- 참조 웹 크롤 에이전트로부터 응답을 수신하는 수단;

- 응답이 식별자에 의해 식별된 리소스를 포함하지 않는다면, 식별자에 대응하는 웹사이트로부터 이 리소스를 다운로드하여 이 리소스를 웹 코퍼스에 부가하는 수단; 및

- 그렇지 않고, 응답이 식별자에 의해 식별된 리소스를 포함한다면, 이 리소스를 웹 코퍼스에 부가하는 수단을 갖는다.

본 발명의 추가 특징들 및 이점들은, 아래에 열거된 첨부 도면들을 참조하여, 비제한적인 예들로서 주어진, 다음에 오는 본 발명의 실시형태들의 설명으로부터 자명할 것이다.

도 1 (전술) 은 웹 크롤러가 전개될 수 있는 기능 구조를 도시한 도면.
도 2 는 본 발명의 전개를 가능하게 하는 기능 구조를 도시한 도면.
도 3 은 리소스가 보통 최신 기술에 따라 웹으로부터 취출되는 방법을 설명한 도면.
도 4 는 본 발명의 다양한 실시형태들 및 옵션들을 설명한 2 개의 시간 시퀀스들.

도 2 에 도시된 본 발명의 실시형태에서, 참조 영역 (RA) 은 참조 웹 크롤러 (RWC), 참조 웹 크롤 (RWCD) 및 참조 웹 크롤 에이전트 (RWCA) 를 포함한다.

이러한 참조 웹 크롤러 (RWC) 는, 최신 기술에 따른 것들을 포함하는, 임의의 웹 크롤러일 수 있다. 단어 "참조" 는 본 발명에 따른 웹 크롤러 (WC) 에 대한 "참조" 외에는 임의의 다른 특성을 야기하지 않는다.

참조 영역 (RA) 은 기능적 의미 또는 비지니스 의미를 갖는다.

크롤링 서비스들을 다른 회사들 또는 최종 사용자들에게 제공하는 동일한 회사를 바라보는 전제들 또는 서비스들을 참조할 수도 있다. 예로서, 웹 크롤러 (WC) 는 이 참조 영역 외부에 있을 수 있고 참조 웹 크롤러 에이전트 (RWCA) 에 액세스하기 위해 참조 영역 (RA) 을 서비스하는 회사에 의해 개방된 인터페이스들을 사용한다.

또한 웹 크롤러 (WC) 와 참조 영역 (RA) 은 동일 회사를 바라볼 수 있다. 이러한 경우, 참조 영역 (RA) 은 기능적 의미만을 가질 수 있고 각각의 웹 크롤러들 (WC, RWC) 과 연관된 영역들을 분리할 수 있다. 참조 영역은 레거시 웹 크롤러 프로그램을 전개할 수 있다 (그러나 필수적인 것은 아니다).

참조 웹 크롤러 (RWC) 는 본 발명에 따라 전개될 수도 있다: 이때 용어 "참조" 는 이들 간의 기능적 관계들만을 구별할 것이다.

본 실시형태에 따르면, 참조 영역 (RA) 은 참조 웹 크롤 에이전트 (RWCA) 를 또한 포함한다. 이 엘리먼트는 웹 크롤러 (WC) 와 참조 웹 크롤 (RWCD) 의 인터페이싱을 담당한다. 특히, 그것은 필요할 때 임의의 프로토콜 변환 양태들의 책임을 질 수 있다. 이것은 웹 크롤러 (WC) 에 의해 전송된 질의들을 수신하고 웹 크롤러 (WC) 로 응답들을 되전송한다. 이들 응답들은 참조 웹 크롤 (RWCD) 의 콘텐츠에 따라 구축된다.

아키텍처의 관점에서, 본 발명은 참조 웹 크롤 에이전트 (RWCA) 의 참조 영역 (RA) 에의 부가에만 영향을 미칠 수도 있다. 참조 영역의 모든 다른 기능적 엘리먼트들은 수정되지 않게 될 것이며 최신 기술의 메커니즘들에 완전히 부합할 수도 있다.

이 참조 웹 크롤러 (RWC) 는 앞서 설명한 바와 같이 참조 웹 크롤 (RWCD) 을 구축할 수 있다. 보다 구체적으로는, 이것은 웹으로부터 리소스들을 반복적으로 다운로드하고 다운로드된 리소스들의 콘텐츠를 분석하는 것에 의해 다운로드할 새로운 리소스들을 식별한다.

이들 다운로드된 리소스들은 하이퍼링크들을 포함할 수 있고, 이들은 리소스의 식별자들을 포함한다. 이들 식별자들은, 예를 들면, IETF (Internet Engineering Task Force) 의 RFC 3986 에 의해 특정된 바와 같이, 보통 URL (Unified Resource Locator) 이다.

다운로드된 리소스가 웹페이지인 경우, 식별자들은 HTML (HyperText Mark-up Language) 에 포함된 URL 의 형태를 통상 취한다. 이러한 실시형태의 일 예가 다음과 같을 수 있다:

이 언어는, 단어 "link" 가 하이퍼링크에 대응하여 강조되면서, 웹페이지에 디스플레이되는 것을 의미한다. 이 강조는, 그녀 또는 그가 이 단어를 클릭하여 "resourcel" 에 액세스할 수 있다는 것을 나타낸다. <href> 키워드는 이 "resource1" 의 식별자를 URL 의 형태로 도입한다.

따라서 참조 웹 크롤러 (RWC) 는 다운로드된 리소스를 파싱하여 이들 URL들의 전부 (또는 일부) 를 식별할 수 있고 이들을 방문할 새로운 리소스들로서 간주할 수 있다. 이것은 몇몇 정책들에 따라 방문들을 스케줄링하고/하거나 방문할 부분만을 선택할 수 있다.

다운로드된 리소스들은 참조 웹 크롤 (RWCD) 에 부가될 수 있다.

도 4 는 본 발명의 실시형태들에 포함된 엘리먼트들 간의 메시지들의 교환들을 설명한다.

본 발명의 일 양태에 따르면, 웹 크롤러 (WC) 는 참조 웹 크롤 에이전트 (RWCA) 로 질의 (M1) 를 전송한다.

이 질의 (M1) 는 적어도 리소스의 식별자를 포함한다. 이 식별자는 URL일 수 있고 리소스는, 웹페이지, 멀티미디어 파일 (비디오, 포토, 뮤직...) 등을 포함하는, 임의의 타입의 것일 수 있다.

일반적인 경우, 질의 (M1) 는 URL들의 리스트를 포함한다. 그러나, 단순화를 위해, 다음의 설명은 질의에 포함된 단 하나의 URL 에 기초할 것이다. 상이한 엘리먼트들이 이들을 단순히 순차적으로 처리할 수 있기 때문에, 처리해야 할 하나에서 다수의 URL들로의 확장은 간단하다.

그러면, 이 URL 이 이미 다운로드되어 이 참조 웹 크롤 (RWCD) 에 부가된 리소스에 대응하는지 여부를 결정하기 위해 참조 웹 크롤 에이전트 (RWCA) 는 참조 웹 크롤 (RWCD) 을 체크할 수 있다.

이 제 1 상황에서, 리소스가 발견된 것으로 가정한다. 그러면, 참조 웹 크롤 에이전트 (RWCA) 는 웹 크롤러 (WC) 로 되전송된 응답 (M2) 에 리소스를 삽입할 수 있다.

웹 크롤러 (WC) 가 이 응답 (M2) 을 수신하면, 웹 크롤러 (WC) 는 그 응답의 콘텐츠를 체크할 수 있다. 여기서, 이것은 리소스를 포함하고, 이 리소스가 URL 에 의해 식별된 리소스인 것으로 가정할 수 있다. 그 후, 이것을 웹 코퍼스 (WCD) 에 부가할 수 있다.

여기서, 어떠한 웹 서버도 질의되지 않았지만, 참조 웹 크롤 (RWCD) 로부터 리소스를 카피하는 것만으로 웹 코퍼스 (WCD) 의 강화 (enrichment) 가 수행되었다는 것을 알 수 있을 것이다. 참조 웹 크롤의 응답 시간이 웹사이트의 응답 시간보다 정상적인 방식에서 더 짧기 때문에, 이 메커니즘은 인터넷에 걸친 트래픽을 감소시키게 돕고, 웹 코퍼스를 구축하는데 필요한 시간을 크게 줄인다.

제 2 상황에서, 웹 크롤러 (WC) 는 참조 웹 크롤 에이전트 (RWCA) 로 제 2 질의 (M3) 를 전송한다. 이 제 2 질의는 다른 리소스의 URL 을 포함한다.

이전과 같이, 참조 웹 크롤 에이전트 (RWCA) 는, 이 URL 이 이미 다운로드되어 이 참조 웹 크롤 (RWCD) 에 부가된 리소스에 대응하는지를 체크한다. 그러나, 이 때, 리소스는 지금까지 다운로드되지 않은 것으로 가정한다.

제 1 옵션에 따르면, 참조 웹 크롤 에이전트 (RWCA) 는 어떠한 리소스도 포함하지 않는 응답 (M4) 을 되전송할 수 있다. 응답 (M4) 은 이 리소스의 결여를 나타내는 상태 표시를 포함할 수도 있다. 예를 들어, 이러한 상태 표시는 HTTP 204 상태 ("콘텐츠 없음") 일 수도 있다.

웹 크롤러 (WC) 가 이 응답 (M4) 을 수신할 때, 그 웹 크롤러 (WC) 는, 그 응답의 콘텐츠를 체크할 수 있고, 요구된 리소스 및/또는 에러 메시지를 포함하지 않는다고 결정할 수 있다.

본 발명의 일 실시형태에 따르면, 이러한 상황에서, 웹 크롤러 (WC) 는 다른 참조 웹 크롤 에이전트 (도 2 에는 미도시) 로 다른 질의를 전송할 수도 있다. 여러 참조 웹 크롤 에이전트들 (및 참조 영역들) 은 웹 크롤러 (WC) 에 의해 사용될 수 있다. 이러한 실시형태에서, 참조 웹 크롤 에이전트들은, 리소스를 포함하는 응답이 수신될 때까지 순차적으로 또는 동시에 질의될 수 있다. 병렬 옵션은, 리소스를 포함하는 응답을 얻는 평균 시간을 감소시키는 이점을 제공하지만, 참조 웹 크롤 에이전트들의 부하를 증가시킨다.

리소스를 포함하는 응답이 수신되면, 웹 크롤러 (WC) 는 응답 (M2) 을 수신할 때 이전처럼 동작할 수 있다.

웹 크롤러 (WC) 가 (여러 개 또는 단 하나가 질의된 상황에서) 리소스를 포함하는 어떠한 응답도 수신하지 않았다면, 이것은, URL 에 대응하는 웹사이트 (WS) 로부터 이 리소스의 웹 크롤러 (WC) 에 의한 다운로딩을 트리거할 수 있다.

그것의 URL 을 알고 있는 리소스의 다운로딩은, 최신 기술의 메커니즘에 따른 웹 크롤러에 의해 수행된다. 간단히 말해서, 그것은, URL 에 대응하는 웹사이트 (WS) 로 요청 (M5) 을 전송하고, 이 웹사이트 (WS) 로부터 이 리소스를 포함하는 응답 (M6) 을 수신하는 것으로 이루어진다.

도 3 은 웹 크롤러 (WC) 가 그것의 URL 을 알고 있는 웹의 리소스에 액세스할 수 있는 방법을 더 상세히 도시한다.

인터넷의 임의의 클라이언트로서, 웹 크롤러 (WC) 는 하나 (또는 그 이상) 의 DNS (Domain Name Server, 도메인 네임 서버) 의 어드레스(들)로 구성된다.

그것은, 먼저, 파라미터로서 URL 을 갖는 이 DNS (또는 DNS 리스트 중 첫 번째 것) 로 요청 (MR1) 을 전송한다. DNS 는, 리소스들의 URL들을 이 리소스가 발견될 수 있는 웹사이트들의 IP 어드레스들과 연관시키도록 동적으로 구성된다. 그것은, 요청된 URL 에 대응하는 IP 어드레스들의 리스트를 포함하는 메시지 (MR2) 로 그 요청에 응답한다.

그 후, 웹 크롤러 (WC) 는, 이 리스트의 IP 어드레스들 중 하나에 의해 식별된 웹사이트 (WS) 로, IETF 의 RFC 2616 에 의해 정의된 바와 같은 HTTP (HyperText Transfer Protocol) 요청 (M5) 을 전송할 수 있다. 이 요청은 통상 GET 요청이며, 그 요청은 URL 을 포함한다.

웹사이트 (WS) 에 연관된 HTTP 서버는, 이 URL 에 의해 식별된 리소스를 포함하는, 이 요청에 대한 응답 (M6) 을 전송한다.

그 후, 웹 크롤러 (WC) 는 이 리소스를 그것의 웹 코퍼스 (WCD) 에 부가할 수 있다.

제 2 옵션에 따르면, 어떠한 리소스 및/또는 에러의 표시도 갖지 않는 메시지 (M4) 를 되전송하는 대신, 참조 웹 크롤 에이전트 (RWCA) 는 요청된 리소스의 다운로딩을 개시할 수 있다.

이 다운로딩은, 참조 웹 크롤 에이전트 (RWCA) 자체에 의해 수행될 수 있고, 또는 참조 웹 크롤러 (RWC) 에 의해 다운로드할 리소스들의 리스트에 삽입될 수 있다.

이들 상황들에서, 응답은, 일단 그것이 웹사이트 (WS) 로부터 다운로드되었다면, 웹 크롤러 (WC) 로 되전송되어, 그것의 질의가 프로세싱되고 있다는 것 그리고 그것이 리소스를 포함하는 다른 응답을 기대할 수도 있다는 것을 알릴 수 있다. 이 조건부 응답은 이 상황을 나타내는 상태 정보를 포함할 수 있다. 이러한 상태 정보는, 예를 들어 HTTP 202 상태일 수도 있다. 이러한 조건부 응답을 수신할 때, 웹 크롤러는 전체 응답이 수신될 때가지 대기할 수 있고, 또는 웹사이트 (WS) 로부터 리소스 자체를 다운로드할 수 있다.

참조 웹 크롤러 측에서, 그 후, 리소스는, 전술된 바와 같이, URL 에 대응하는 웹사이트 (WS) 로부터 다운로드된다: 참조 웹 크롤러는, 리소스를 포함하는 응답 (M8) 에 의해 응답하는, 웹사이트로 HTTP 요청 (M7) 을 전송한다.

리소스는 참조 웹 크롤러 (RWC) 의 자신의 정책들에 따라 참조 웹 크롤 (RWCD) 에 부가되거나, 또는 부가되지 않을 수도 있다. 이들 정책들은 본 발명의 범위를 넘어선다.

그 후, 참조 웹 크롤 에이전트 (RWCA) 는, 이 리소스를 포함하는, 응답 (M9) 을 웹 크롤러 (WC) 로 전송할 수 있다. 그러면, 웹 크롤러 (WC) 는 메시지 (M2) 의 수신과 관련하여 전술한 상황에서처럼 동작할 수 있다.

이 제 2 옵션은, 참조 웹 크롤러 (RWC) 가 다른 당사들의 질의들에 관하여 확인응답하게 하는 제 1 옵션에 대한 이점을 갖는다. 특히, 참조 웹 크롤 (RWCD) 이 여러 개의 웹 크롤러들 (WC) 에 의해 사용되는 경우, 그것은, 다운로드된 리소스들에게 그 자신의 참조 웹 크롤 (RWC) 을 강화 (enrich) 하도록 지시받는 이점을 취할 수도 있다.

이것은, 참조 웹 크롤 (RWCD) 이 더 특정적인 웹 크롤러들 (WC) 에 의해 사용되는 일반적 웹 코퍼스를 형성할 때 특히 유용하다. 그러면, 그것은, 특화된 틈새 비즈니스 플레이어들 덕택에 더 특정적인 콘텐츠로 강화될 수 있다.

동일한 회사가 참조 웹 크롤러 (RWC) 및 웹 크롤러 (RC) 를 바라보지 않은 상황에서, 이 거동은 지식 관리 면에서 양 당사자들에게 이점을 제공한다.

본 발명의 일 실시형태에 따르면, 참조 웹 크롤 에이전트 (RWCA) 로 전송된 질의들 (M1, M3) 은 식별자들 (URL들) 외에 부가적인 파라미터들을 포함할 수 있다. 특히, 그들은, 리소스가 웹으로부터 마지막으로 다운로드된 이래로 최대 시간을 특정하는 수명 제약을 포함할 수 있다.

URL 에 대응하는 참조 웹 크롤 (RWCD) 에서의 리소스가, 질의 (M1, M3) 내부의 수명 파라미터보다 덜 최근에 다운로드되었으면, 참조 웹 크롤 에이전트는, 리소스가 참조 웹 크롤 (RWCD) 에서 발견되지 않은 것으로 간주할 수 있다. 그 후, 그것은, 웹사이트로부터 리소스를 다운로드하는 것 또는 에러 메시지를 되전송하는 것과 같은, 전술한 옵션들 중 임의의 것을 개시할 수 있다 (즉, 거동은, 리소스가 참조 웹 크롤 (RWCD) 에 포함되지 않았다는 것과 유사할 수도 있다).

도 5 는 본 발명의 다른 실시형태를 나타내며, 여기서 웹 크롤러 (WC) 는 참조 인덱스 (RID) 를 활용한다. 용어 "참조" 는, 단순히, 이 인덱스가 참조 웹 크롤 (RWCD) 로부터 구축되고 참조 영역 (RA) 의 일부라는 것을 의미한다.

당업계에 공지된 메커니즘에 따르면, 인덱싱 프로그램은, 참조 웹 크롤 (RWCD) 을 사용하여 이 참조 인덱스 (RID) 를 구축한다. 이 참조 인덱스 내의 정보의 포맷 및 콘텐츠는 본 발명의 범위 밖에 있다. 참조 인덱스는 최신 기술의 임의의 인덱스일 수 있다.

그것은, 구글, 마이크로소프트 또는 엑셀레아 (Exalead) 등과 같이, 본 분야에서 활동하는 회사들에 의해 제공되는 인덱스일 수도 있다.

참조 인덱스 (RID) 는, 여기서 부분적으로, 클라이언트들에 의해 전송된 질의들에 대한 응답을 프로세싱하는 데 필요한 프로그램 및 정보 리포지터리인 것으로 이해되어야 한다.

본 발명의 일 실시형태에 따르면, 참조 크롤 에이전트 (RWCA) 로 질의를 전송하기 전에, 웹 크롤러 (WC) 는 참조 인덱스 (RID) 로 인덱스 질의를 전송할 수 있다. 그러면, 이러한 실시형태에서, 참조 웹 크롤 에이전트로의 질의들의 전송은, 이들 인덱스 질의들과 관련하여 수신된 응답들의 콘텐츠에 의존하여 결정될 수도 있다.

여러 개의 옵션들이 가능하다.

도 5 로 되돌아가서, 제 1 옵션에 따르면, 하나 (또는 여러 개) 의 URL 을 포함하는, 인덱스 질의 (M10) 가 참조 인덱스로 전송된다.

제 1 상황에서, 참조 인덱스 (RID) 는 요청된 URL 에 관한 어떠한 정보도 포함하지 않는다. 그 후, 그것은, URL 이 인덱싱되지 않은 것을 나타내는 응답 (M11) 을 웹 크롤러 (WC) 로 되전송한다.

참조 인덱스가 참조 웹 크롤 (RWCD) 로부터 얻어지므로, 그것은, 리소스가 다운로드되어 이 참조 웹 크롤에 부가되지 않았다는 것을 의미한다는 것에 주목해야 한다.

그 후, 웹 크롤러 (WC) 는 이 URL 에 대응하는 웹사이트 (WS) 로부터 이 URL 에 의해 식별된 리소스를 다운로드할 수 있다. 웹 크롤러 (WC) 는, 메시지 (M12) 를 웹사이트 (WS) 로 전송하고, 응답 (M13) 내에서 리소스를 수신한다.

제 2 상황에서, 참조 인덱스 (RID) 는 URL 에 대해 인덱싱된 정보를 포함한다. 그 후, 그 참조 인덱스 (RID) 는, URL 에 관련된 인덱싱된 정보의 전부 또는 일부일 수도 있는 정보를 포함하는, 인덱스 질의 (M14) 에 응답하는 응답 (M15) 을 전송한다 (일반적인 경우, 인덱싱된 정보 중 일부만이 송신된다).

인덱스 응답 내의 전송된 정보는 리소스의 디스크립션 (description) 을 포함할 수도 있다: 태그들, 키워드들, 정보 필드들뿐 아니라 리소스의 발췌 또는 요약 버전. 전술한 바와 같이, 웹페이지에 대해, 인덱싱된 정보는, 페이지 중에서, 광고 배너들, 이미지들 등이 없는 버전을 포함할 수 있다. 비디오 리소스에 대해, 인덱싱된 정보는, 비디오 등의 텍스트형 디스크립션만을 포함할 수 있다.

본 발명의 일 실시형태에 따르면, 웹 크롤러 (WC) 는 이 인덱스 응답에 기초하여 웹 코퍼스 (WCD) 에 리소스를 부가하도록 시도하는 기회에 관하여 결정할 수 있다.

이 결정은, 리소스가 웹 크롤러가 구축하려고 의도되는 웹 코퍼스 (WCD) 와 관련되는지 여부에 따라 취해질 수 있다. 예를 들어, 웹 크롤러 (WC) 가 소정 테마와 관련된 웹 코퍼스를 구축하고 있다면, 그것은, 리소스가 이 테마에 대응하지 않는다는 힌트를 참조 인덱스가 리턴한 경우에, 이 웹 코퍼스에 리소스를 부가하길 원하지 않을 수도 있다.

인덱스 응답으로부터, 웹 크롤러 (WC) 가 대응하는 리소스에 긍정적인 관심을 갖는 것으로 결정한 상황에서, 웹 크롤러 (WC) 는, 전술한 바와 같이, URL 을 포함하는 질의 (M16) 를 참조 웹 크롤 에이전트 (RWCA) 로 전송한다. 웹 크롤러 (WC) 가 리소스를 포함하는 응답 (M17) 을 수신할 때, 리소스가 웹 코퍼스 (WCD) 에 부가된다.

인덱스 응답으로부터, 웹 크롤러 (WC) 가 대응하는 리소스에 전혀 관심이 없다고 결정한 상황에서는, 프로세스가 여기에서 종료할 수 있고, 참조 웹 크롤 에이전트 (RWCA) 로는 어떠한 메시지 (M16) 도 전송되지 않는다. 그 후, 웹 크롤러는 다른 URL 을 처리할 수 있다.

다른 옵션에 따르면, 인덱스 질의 (M18) 는, 질의 언어에 따라 질의 기준들을 포함하여 참조 인덱스 (RID) 로 전송된다. 이 질의 언어는 복잡한 것일 수 있고, 또는 단순한 것일 수 있다 (예를 들어, 부울 연결자 (Boolean connector) 들과 링크된 키워드들의 리스트).

이 옵션은, 구축되는 웹 코퍼스가 소정 테마에 관한 특정 웹 코퍼스일 때 특히 관련된다. 이들 질의들은, 이 테마와 관련된 리소스들을 필터링할 수도 있다.

참조 인덱스 (RID) 는 질의 기준들과 매칭하는 정보를 전송함으로써 이러한 요청에 응답할 수도 있다. 더 구체적으로, 응답 (M19) 은 질의 기준들과 매칭하는 리소스들에 대응하는 URL 의 리스트 또는 URL들에 대응하는 리소스들의 인덱싱된 정보와 연관된 이들 URL 의 리스트를 포함할 수도 있다.

제 1 경우에 있어서, 웹 크롤러 (WC) 는 수신된 리스트에 포함된 모든 URL 에 대해 질의 (M20) 를 전송할 필요가 있을 수도 있다.

제 2 경우에 있어서, 웹 크롤러는, 그것이 리소스의 각각에 질의함에 관심이 있는지의 여부를 결정하기 위해, 수신된 인덱싱된 정보를 사용할 수도 있다. 그 후, 그것은, 질의 (M20) 를 수신된 리스트의 URL들의 각각에 대해 또는 그 중 일부에 대해 전송할 수도 있고, 또는 어떠한 것도 전송하지 않을 수도 있다. 웹 크롤러 (WC) 는, 질의된 URL들에 대응하는 응답들 (M21) 을 수신한다.

다른 옵션은, 이 리소스 자체에 대해 질의하지 않고서 리소스 내에 포함된 URL들의 리스트에 대해 웹 크롤러가 질의하게 하는 것으로 이루어진다.

웹 크롤러 (WC) 는 URL 및 표시자를 포함하는 참조 인덱스 (RID) 로 인덱스 질의 (M22) 를 전송한다.

이 표시자를 인식하면, 참조 인덱스 (RID) 는 이 인덱스 질의 (M22) 와 전술한 인덱스 질의들 (M10, M14) 과 같은 "일반 (normal)" 인덱스 질의 간을 구별할 것이다. 참조 인덱스 (RID) 는, 이전과 같이, 그것이 이 URL 에 관련된 인덱싱된 정보를 포함하는지 여부를 볼 것이다.

이 옵션의 바람직한 실시형태에서, 인덱싱된 정보는, 리소스에 의해 포함된 URL (하이퍼링크들) 에 관한 정보를 포함한다. 이 정보는 참조 인덱스 (RID) 를 구축할 때 리소스를 파싱 (parse) 함으로써 취출되었다. 이 실시형태에서, 참조 인덱스 (RID) 는 리소스의 임의의 프로세싱 또는 추가 파싱을 필요로 하지 않고 인덱스 질의에 대해 신속하게 응답할 수 있다. 이러한 인덱싱된 정보가 발견된 경우, 그것은, (만약에 있다면) 이들 URL들을 포함하는 응답 (M23) 을 전송할 것이다.

그 후, 웹 크롤러 (WC) 는 이들 URL들을 임의의 타입들의 후속 질의들에 사용할 수 있다: 이들 URL들에 의해 식별된 리소스들을 참조 웹 크롤 에이전트 (RWCA) 에 질의하는 것, 참조 인덱스 (RID) 에 질의하여, 리소스들 자체를 얻지 않고도 추가 URL들을 얻는 것 등.

이 타입의 요청은, 하나의 리소스가 이 코퍼스 (테마 등과는 무관함) 에는 관심을 가지지 않지만, 관심을 가질 수도 있는 다른 리소스들에 대해서는 하이퍼링크들을 여전히 유지할 수도 있는 상황에서, 웹 코퍼스 (WCD) 에 불필요한 리소스들을 추가하지 않도록 하는 데 유용하다.

동일한 웹 크롤러는, 이들 옵션들 중 하나 또는 여러 개를 구현할 수 있고, 그것의 알고리즘에 따라서 그들을 이용하여, 가장 효율적인 방식으로 웹을 발견하고 웹 코퍼스를 구축할 수 있다.

본 발명은, 바람직한 실시형태들을 참조하여 설명되었다. 그러나, 많은 변형들이 본 발명의 범위 내에서 가능하다.

Claims

웹 코퍼스 (web corpus; WCD) 를 구축하는 컴퓨터 구현 방법으로서,
- 웹 크롤러 (web crawler; WC) 에 의해, 참조 웹 크롤 에이전트 (reference web crawl agent; RWCA) 로 질의를 전송하는 단계로서, 상기 질의는 리소스의 적어도 하나의 식별자를 포함하는, 상기 질의를 전송하는 단계;
- 상기 웹 크롤러 (WC) 에 의해, 상기 참조 웹 크롤 에이전트 (RWCA) 로부터 응답을 수신하는 단계;
- 상기 응답이 상기 식별자에 의해 식별된 상기 리소스를 포함하지 않는다면, 상기 웹 크롤러 (WC) 에 의해, 상기 식별자에 대응하는 웹사이트 (WS) 로부터 상기 리소스를 다운로드하여 상기 리소스를 상기 웹 코퍼스 (WCD) 에 부가하는 단계; 및
- 상기 응답이 상기 식별자에 의해 식별된 상기 리소스를 포함한다면, 상기 리소스를 상기 웹 코퍼스 (WCD) 에 부가하는 단계를 포함하고,
상기 식별자는 URL 인, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 1 항에 있어서,
상기 참조 웹 크롤 에이전트 (RWCA) 는 참조 웹 크롤 (reference web crawl; RWCD) 의 콘텐츠에 따라 응답들을 구축하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 2 항에 있어서,
상기 참조 웹 크롤 에이전트 (RWCA) 가 상기 리소스가 상기 참조 웹 크롤 (RWCD) 내에 포함되지 않는다고 결정한다면, 상기 참조 웹 크롤 에이전트 (RWCA) 는 상기 리소스의 다운로딩 및 상기 참조 웹 크롤 (RWCD) 에의 부가를 개시하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 2 항 또는 제 3 항에 있어서,
- 상기 참조 웹 크롤 (RWCD) 로부터 참조 인덱스 (reference index; RID) 를 구축하는 단계,
- 상기 웹 크롤러 (WC) 에 의해, 상기 참조 인덱스 (RID) 로 인덱스 질의를 전송하는 단계, 및
- 상기 웹 크롤러 (WC) 에 의해, 상기 참조 인덱스로부터 응답을 수신하는 단계를 더 포함하며,
상기 참조 웹 크롤 에이전트 (RWCA) 로 질의를 전송하는 단계는 상기 응답의 콘텐츠에 따라 수행되는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 4 항에 있어서,
상기 인덱스 질의는 리소스의 식별자를 포함하고, 상기 응답이 상기 리소스에 관련되는 인덱싱된 정보를 포함한다면, 상기 인덱싱된 정보에 따라 상기 참조 웹 크롤 에이전트 (RWCA) 로 질의를 전송할지 여부에 대해 결정하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 4 항에 있어서,
상기 인덱스 질의는 질의 기준들을 포함하고, 상기 참조 인덱스의 상기 응답은 식별자들의 리스트를 포함하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 6 항에 있어서,
상기 참조 인덱스의 상기 응답은 또한, 상기 식별자들에 대응하는 인덱싱된 정보를 포함하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
제 4 항에 있어서,
상기 인덱스 질의는 식별자를 포함하며, 상기 참조 인덱스는 상기 식별자에 의해 식별된 상기 리소스에 포함된 식별자들의 세트를 포함하는 응답을 전송하는, 웹 코퍼스 (WCD) 를 구축하는 컴퓨터 구현 방법.
삭제
웹 코퍼스 (web corpus; WCD) 를 구축하도록 구성된 웹 크롤러 (web crawler; WC) 로서,
- 참조 웹 크롤 에이전트 (reference web crawl agent; RWCA) 로 질의를 전송하는 수단으로서, 상기 질의는 리소스의 적어도 하나의 식별자를 포함하는, 상기 질의를 전송하는 수단;
- 상기 참조 웹 크롤 에이전트 (RWCA) 로부터 응답을 수신하는 수단;
- 상기 응답이 상기 식별자에 의해 식별된 상기 리소스를 포함하지 않는다면, 상기 식별자에 대응하는 웹사이트 (WS) 로부터 상기 리소스를 다운로드하여 상기 리소스를 상기 웹 코퍼스 (WCD) 에 부가하는 수단; 및
- 상기 응답이 상기 식별자에 의해 식별된 상기 리소스를 포함한다면, 상기 리소스를 상기 웹 코퍼스 (WCD) 에 부가하는 수단을 갖고,
상기 식별자는 URL 인, 웹 크롤러 (WC).