KR19990064246A

KR19990064246A - 월드 와이드 웹상에 페이지를 위치 설정하고 네트워크 컴퓨터로부터 문서를 위치 설정하는 시스템 및 그 방법

Info

Publication number: KR19990064246A
Application number: KR1019980702734A
Authority: KR
Inventors: 엠. 모니어 루이스
Original assignee: 피셔, 아더 더블유.; 디지탈 이큅먼트 코포레이션
Priority date: 1995-12-13
Filing date: 1996-12-10
Publication date: 1999-07-26
Also published as: EP3086246A3; KR100330576B1; EP1241594A2; TW311996B; US6032196A; EP3086246A2; CN1202257A; AU1417597A; ZA9610561B; CN1192317C; BR9611149A; CN1811757B; AU694386B2; EP1241594A3; CA2240350A1; CN1811757A; JPH10512699A; WO1997022069A1; JP3160719B2; US5974455A

Abstract

월드 와이드 웹상에서 또는 네트워크를 통해 접속된 컴퓨터로부터 웹 페이지를 신속히 인출하여 분석하는 웹 크롤러 시스템 및 방법은 랜덤 액세스 메모리(RAM)에 기억된 해시 테이블과 순차 웹 정보 디스크 파일을 포함한다. 시스템에 알려진 모든 웹 페이지에 대하여, 웹 크롤러 시스템은 순차 디스크 파일에 하나의 엔트리를 기억시킬 뿐만 아니라, 해시 테이블에는 더욱 작은 엔트리를 기억시킨다. 해시 테이블 엔트리는 지문값과, 대응하는 웹 페이지가 성공적으로 인출되었을 때에만 참으로 설정되는 인출 플래그와, 순차 디스크 파일내에서 대응하는 엔트리가 기억되는 장소를 나타내는 파일 위치 지시기를 포함한다. 순차 디스크 파일 엔트리는 각각 대응하는 웹 페이지의 URL에 덧붙여 상기 웹 페이지에 관한 인출 상태 정보도 포함한다. 웹 정보 디스크 파일로의 모든 액세스는 다수의 엔트리가 단일 I/O 동작에 따라 순차 디스크 파일로부터 입력 버퍼로 이동하는 것처럼, 입력 버퍼를 통하여 순차적으로 액세스된다. 그 후에, 순차 디스크 파일은 입력 버퍼로부터 액세스된다. 마찬가지로, 순차 디스크 파일에 부가될 모든 신규 엔트리들은 부가 버퍼에 기억되어, 부가 버퍼가 채워지면 이 부가 버퍼의 내용은 순차 디스크 파일엔트리의 마지막에 부가된다. 이러한 방식으로, 웹 정보 디스크 파일로의 랜덤 액세스가 제거되어, 디스크 액세스 한계에 의해 야기되는 대기 시간이 최소화된다.

Description

월드 와이드 웹상에 페이지를 위치 설정하고 네트워크 컴퓨터로부터 문서를 위치 설정하는 시스템 및 그 방법

본 명세서에서 웹 페이지로 불리우는 웹 문서는 인터넷에 접속된 수많은 서버 컴퓨터(이하, "서버"라 함)에 기억된다. 웹상의 페이지에는 각각 독특한 URL(범용 자원 위치자)이 있다. 웹 서버에 기억된 대다수의 문서들은 소위 HTML(하이퍼텍스트 마크업 언어)로 불리우는 표준 문서 기재 언어로 기록된다. HTML을 이용하여, 웹 문서 작성자는 문서내에 특정 워드나 구(句)로 하이퍼텍스트 링크 또는 주석문을 구성하고 웹 페이지의 시각적 형식 및 내용을 기재한다. 하이퍼텍스트 링크는 워드 또는 구와 관련된 정보를 제공하는 다른 웹 문서의 URL 또는 동일 문서중의 다른 부분을 식별한다.

유저는 인터넷에 접속된 웹 클라이언트상에서 운용되는 웹 브라우저(HTML 문서를 디스플레이하고 웹 서버와 통신하기 위해 고안된 컴퓨터 프로그램)를 이용하여 월드 와이드 웹상에 기억된 문서를 액세스한다. 통상, 이러한 액세스는 유저가 웹 브라우저를 통해 보여지는 문서내에서 하이퍼텍스트 링크(통상 강조된 워드 또는 구로서 웹 브라우저에 의해 디스플레이 됨)를 선택함으로써 행해진다. 웹 브라우저는 리퀘스트된 문서의 URL로써 식별되는 웹 서버에 리퀘스트된 문서에 대한 HTTP(하이퍼텍스트 전송 프로토콜) 리퀘스트 명령을 발행한다. 응답시, 지정된 웹 서버는 역시 HTTP를 이용하여 리퀘스트된 문서를 웹 브라우저에 귀환시킨다.

1995년 말기에는, 월드 와이드 웹(본 명세서에서는 이하 "웹"이라 함)으로서 알려진 인터넷상의 페이지 수는 과거 일년간의 페이지 수의 몇 배로 증가하여 적어도 3천만개의 페이지가 되었다. 본 발명은 지속적인 웹 페이지의 성장에 따라 웹 페이지상의 트랙을 관리하는 시스템에 관한 것이다.

웹상에 페이지를 위치 설정하는 시스템으로서 "웹 크롤러", "웹 스파이더" 및 "웹 스쿠터"와 같은 시스템들이 다양하게 알려져 있다. 본 발명은 "웹 스쿠터"를 개선한 것이며, 그 이유는 웹 스쿠터가 지금까지 알려져 있는 모든 웹 크롤러보다 훨씬 빠르기 때문이다. "웹 크롤러", "웹 스파이더", "웹 스쿠터", "웹 크롤러 컴퓨터 시스템" 및 "웹 스쿠터 컴퓨터 시스템" 등의 표현은 본 명세서에서는 상호 호환적으로 사용될 수 있다.

종래의 웹 크롤러는 통상적으로 다음과 같이 동작한다. 공지된 웹 페이지의 루트 세트에서 개시하여, 모든 공지된 웹 페이지에 대해 개개의 엔트리를 가진 디스크 파일을 생성한다. 추가의 웹 페이지가 인출되고, 다른 페이지로의 인출 페이지의 링크가 분석되면, 이전에는 웹 크롤러에 알려지지 않은 웹 페이지를 참조하도록 추가의 엔트리가 디스크 파일내에 작성된다. 각 엔트리는 대응하는 웹 페이지가 처리되었는지의 여부는 물론이고 다른 상태 정보까지도 나타낸다. 아직 처리되지 않은 모든 식별 웹 페이지가 처리될 웹 페이지의 목록 또는 다른 동등한 데이터 구조체에 부가되도록 웹 크롤러는 (A)처리되고 있는 페이지내의 다른 웹 페이지를 향한 모든 링크를 식별하여, 관련 정보를 기억시키고, (B)상기 웹 페이지를 인덱서 또는 다른 문서 처리 시스템에 전송함으로써 웹 페이지를 처리한다.

디스크 파일의 정보량이 랜덤 액세스 메모리(RAM)에 기억되기에는 너무 크기 때문에, 이미 처리된 웹 페이지에 관한 정보는 통상 디스크 파일에 기억된다. 예컨대, 평균 100byte의 정보가 웹 페이지 엔트리에 각각 기억된다면, 3천만개의 웹 페이지를 나타내는 데이터 파일은 실제 RAM의 기억 용량으로는 지나치게 큰, 약 3기가바이트를 점유할 것이다.

다음으로, 하나의 웹 페이지를 처리할 때 발생하는 디스크 I/O를 고려하자. 본격적인 논의를 위해, 통상의 웹 페이지는 다른 웹 페이지에 대해 20개의 레퍼런스를 보유하고, 디스크 기억 장치는 초당 50개 미만의 시크(seek)를 처리할 수 있다고 가정하자. 웹 크롤러는 처리되는 페이지내의 20개의 페이지 레퍼런스를 각각 평가하여 이러한 페이지들에 대하여 웹 크롤러가 이미 알고 있는지를 결정한다. 이를 위해, 웹 크롤러는 웹 정보 디스크 파일로부터 20개의 레코드를 검색해야 한다. 특정 페이지 레퍼런스에 관한 레코드가 이미 존재하면, 더 이상의 처리가 필요없기 때문에 그 레퍼런스는 버려진다. 그러나, 특정 페이지에 관한 레코드가 발견되지 않으면, 페이지 어드레스의 가능한 별명(alias)에 대해 각각 레코드를 위치 설정해야 하므로, 평균 페이지당 약 50개의 디스크 시크로 웹 페이지를 분석하는데 필요한 평균 디스크 레코드 시크의 수를 증가시킨다.

특정 페이지 레퍼런스에 관한 디스크 파일 레코드가 이미 존재하고 있지 않다면, 참조된 페이지에 관한 새로운 레코드가 생성되어 디스크 파일에 부가되고, 이 페이지 레퍼런스가 처리될 페이지들의 큐에 부가되거나 디스크 파일 엔트리 자체가 상기 페이지가 인출 및 처리되지 않았음을 나타내는데 사용된다.

그러므로, 단일 웹 페이지를 처리하는데는 대략 20개의 디스크 시크(존재하고 있는 레코드를 판독하고 신규 레코드를 기록하기 위한)가 요구된다. 결과적으로, 초당 50개의 디스크 시크로 제한하면, 초당 오직 1개 정도의 웹 페이지만이 처리될 수 있다.

또한, 네트워크 액세스 대기 시간의 문제도 있다. 평균적으로, 하나의 웹 페이지를 검색하는데는 약 3초가 소요되지만, 이 소요 시간은 웹 서버의 위치와, 웹 서버 및 웹 크롤러 컴퓨터에 모두 사용되는 특정한 하드웨어 및 소프트웨어에 따라서 크게 변할 수 있다. 네트워크 대기 시간은 또한, 종래의 웹 크롤러로 처리될 수 있는 웹 페이지의 수를 초당 약 0.33개의 웹 페이지로 제한하는 경향이 있다. 디스크 "시크" 한계, 네트워크 대기 시간 및 다른 지연 요인 때문에, 통상적인 종래의 웹 크롤러는 하루에 약 30,000개 이상의 웹 페이지는 처리할 수 없다.

상기 웹에 웹 페이지가 추가되는 비율과 상기 웹에서 웹 페이지가 삭제되고 수정되는 비율 때문에, 하루에 30,000개의 웹 페이지를 처리한다는 것은 웹 상의 전체 웹 페이지의 현재 디렉토리 또는 인덱스를 유지하기에는 충분하지 못하다. 이상적으로는, 웹 크롤러는 하루에 적어도 2천 5백만개의 웹 페이지를 방문(즉, 인출 및 분석)할 수 있어야 한다.

그러므로, 이러한 고속 처리 능력을 갖춘 웹 크롤러를 구비하는 것이 요구된다. 따라서, 본 발명은 하루에 수백만개의 웹 페이지를 처리할 수 있는 진보된 웹 크롤러를 제공하는 것을 목적으로 한다. 본 발명의 관련 목적은 웹 크롤러의 동작 속도가 주로 웹 크롤러의 CPU의 처리 속도에 의해서만 제한되도록 전술된 디스크 "시크" 한계 및 네트워크 대기 시간의 한계를 해결한, 개선된 웹 크롤러를 제공하는 것이다. 본 발명의 또다른 목적은 평균적으로는 초당 적어도 30개의 웹 페이지를 바람직하게는, 초당 적어도 100개의 웹 페이지를 인출 및 처리할 수 있는 웹 크롤러 시스템을 제공하는 것에 있다.

본 발명은 통상, 월드 와이드 웹(WWW)상에서 소위 페이지라 일컬어지는 문서를 액세스하여 네트워크 컴퓨터로부터 문서를 위치 설정하는 시스템 및 그 방법에 관한 것이며, 특히, 월드 와이드 웹상의 페이지를 신속하게 위치 설정하여 분석하는 시스템 및 방법에 관한 것이다.

도 1은 본 발명의 바람직한 실시예에 따른 웹 크롤러 시스템의 블록도.

도 2는 본 발명의 바람직한 실시예에 이용되는 해시 테이블 메커니즘의 블록도.

도 3은 본 발명의 바람직한 실시예에 이용되는 순차 웹 정보 디스크 파일 및 관련 데이터 구조체의 블록도.

도 4A 내지 4B는 본 발명의 바람직한 실시예에 이용되는 웹 크롤러 처리부의 플로우 차트.

본 발명의 범위는 청구항 제1항에 기재된 바와 같은 웹 페이지 위치 설정 시스템 및 청구항 제6항에 기재된 바와 같은 웹 페이지 위치 설정 방법에 귀속된다.

이하에, 월드 와이드 웹상에 웹 페이지의 디렉토리를 신속하게 위치 설정하고 작성하는 시스템 및 그 방법이 개시된다. 웹 크롤러 시스템은 랜덤 액세스 메모리(RAM)에 기억된 해시 테이블과 통상은 디스크 기억 장치인 보조 기억 장치에 기억된 순차 파일(명세서에서는 "순차 디스크 파일" 또는 "웹 정보 디스크 파일"로 칭함)을 포함한다. 상기 시스템에 알려진 모든 웹 페이지들에 대하여, 상기 웹 크롤러 시스템은 순차 디스크 파일에 하나의 엔트리를 기억시킬 뿐만 아니라, 해시 테이블에는 더욱 작은 엔트리를 기억시킨다. 해시 테이블 엔트리는 지문값과, 대응하는 웹 페이지가 성공적으로 인출된 경우에만 참으로 설정되는 인출 플래그와, 순차 디스크 파일내에서 대응하는 웹 페이지가 기억되는 장소를 나타내는 파일 위치 지시기를 포함한다. 순차 디스크 파일 엔트리는 각각 대응하는 웹 페이지의 URL에 덧붙여 상기 웹 페이지에 관한 인출 단계 정보도 포함한다.

웹 정보 디스크 파일에 대한 모든 액세스는 다수의 엔트리가 단일 I/O 동작으로서 상기 순차 디스크 파일로부터 상기 입력 버퍼로 이동되는 것처럼, 입력 버퍼를 통하여 순차적으로 액세스된다. 그 후에, 순차 디스크 파일은 입력 버퍼로부터 액세스된다. 마찬가지로, 순차 파일에 더해지는 모든 신규 엔트리는 부가 버퍼에 기억되어, 상기 부가 버퍼가 채워지면 부가 버퍼의 내용은 순차 디스크 파일의 마지막에 더해진다. 이러한 방식으로, 웹 정보 디스크 파일로의 랜덤 액세스가 제거되어, 디스크 액세스 한계 때문에 야기되는 대기 시간이 최소화된다.

웹 페이지 위치 설정 및 처리 절차는 순차 파일내의 모든 엔트리를 순차적으로 검토하는 단계와 확정된 선택 기준에 부합하는 차기 엔트리를 선택하는 단계로 이루어진다. 처리할 차기 파일 엔트리를 선택할 때, 해시 테이블은 상기 웹 페이지가 별명하에 인출되었는지의 여부를 결정하기 위해 현재 대기 엔트리의 모든 공지 별명에 대해서 점검된다. 웹 페이지가 별명하에 인출되었다면, 순차 파일 엔트리의 오류 타입 필드는 "미선택 별명"으로 표시되고 대기 엔트리는 선택되지 않는다.

일단, 차기 웹 페이지 레퍼런스 엔트리가 선택되었으면, 웹 크롤러 시스템은 대응하는 웹 페이지를 인출할 수 있다. 인출에 실패한 경우, 상기 웹 페이지에 대한 순차 파일 엔트리의 인출 단계 정보는 웹 크롤러에 귀환되는 오류 귀환 코드에 따라 인출 실패로 표시된다. 인출 성공시에는, 웹 페이지에 대한 해시 테이블 엔트리의 인출 플래그는 웹 페이지에 대한 순차 디스크 파일 엔트리(입력 버퍼)의 인출 플래그와 흡사하게 설정된다. 또한, 인출된 웹 페이지의 각 URL 링크가 분석된다. 링크에 의해 참조된 URL 또는 임의로 규정된 별명의 URL에 대한 엔트리가 이미 해시 테이블에 존재하는 경우, 추가의 URL 링크 처리는 필요없다. 해시 테이블에서 이러한 엔트리가 발견되지 않으면, 그 URL은 웹 페이지의 웹 크롤러 데이터베이스에 포함되지 않았던 "신규" 웹 페이지를 나타내므로, 새로운 웹 페이지에 대한 엔트리가 순차 디스크 파일에 더해진다(즉, 부가 버퍼내의 디스크 파일 부분에 더해진다). 신규 디스크 파일 엔트리는 처리되는 링크에 의해 참조된 URL을 포함하고, "미인출"로 표시된다. 또한, 대응하는 신규 엔트리는 해시 테이블에 더해지고, 이 엔트리의 인출 플래그는 대응하는 웹 페이지가 인출되지 않았음을 나타내기 위해 소거된다. 인출된 페이지내의 모든 URL 링크를 처리하는 것 이외에, 웹 크롤러는 추가의 처리를 위해 인출된 페이지를 인덱서에 전송한다.

본 발명은 첨부된 도면과 함께, 이하에 예시의 방식으로 제공된 바람직한 실시예의 설명으로부터 더욱 용이하게 이해될 수 있을 것이다.

도 1은 웹 스쿠터 컴퓨터 시스템(102)을 구비한 분산형 컴퓨터 시스템(100)을 도시한다. 웹 스쿠터는 통신 인터페이스(104)와, 1조의 인터넷과 인터넷으로의 다른 네트워크와의 접속부(106)와, 웹 페이지 인덱싱 컴퓨터(108)에 의해 접속된다. 몇가지 실시예에서, 웹 페이지 인덱싱 컴퓨터(108)는 지역 또는 광역 네트워크 접속을 이용함이 없이, 개인 통신 채널을 통하여 웹 스쿠터(102)에 직접 연결된다. 웹 스쿠터(102)가 접속되는 인터넷의 부분들은 (A)웹 페이지를 기억하는 웹 서버(110)와, (B)분산형 네임 서비스(DNS)로서 알려진 서비스에 상응하는 서버들이다(본 명세서에서는 참조 번호 (112)로써 뭉뚱그려서 표시하였다). 이 문서의 용도에 있어서, DNS(112)는 임의의 인터넷 호스트 네임에 대해 모두 규정된 별명들로 된 임의의 리퀘스터를 제공하는데, 이 인터넷 호스트 네임 및 그 별명들은 모든 URL의 접두 부호 부분을 형성한다.

바람직한 실시예에서, 웹 스쿠터(102)는 Digital Equipment Corporation사의 Alpha 워크스테이션 컴퓨터이지만, 실제로는 어떤 형태의 컴퓨터라도 웹 스쿠터 컴퓨터로서 이용될 수 있다. 바람직한 실시예에서, 웹 스쿠터(102)는 CPU(114), 전술한 통신 인터페이스(104), 유저 인터페이스(116), 랜덤 액세스 메모리(RAM: 118) 및 디스크 메모리(disk: 120)를 구비한다. 바람직한 실시예에서, 통신 인터페이스(104)는 초당 적어도 30개의 웹 페이지 평균 인출 처리 능력을 가지고서, 1000개 이상의 중첩 통신 리퀘스트를 처리할 수 있는 매우 고성능의 통신 인터페이스이다.

바람직한 실시예에서, 웹 스쿠터의 RAM에는 Gigabyte급의 랜덤 액세스 메모리가 있으며,

· 멀티태스킹 오퍼레이팅 시스템(122);

· 웹 페이지 인출은 물론이고 DNS(112)로부터 별명 정보까지도 인출하기 위한 인터넷 통신 관리자 프로그램(124);

· 호스트 네임에 대한 규정된 별명들을 나타내는 정보를 기억하는 호스트 네임 테이블(126);

· 웹 정보 해시 테이블(130);

· 해시 테이블 관리자 처리부(132);

· 입력 버퍼(134) 및 부가 버퍼(136);

· 해시 테이블(130), 입력 버퍼(134) 및 부가 버퍼(136)로의 액세스를 제어하기 위한 뮤텍스(138);

· 웹 스쿠터 처리부(140); 및

· T1이 웹 스쿠터 컴퓨터 시스템(102)의 오퍼레이터에 의해 선택 가능한 정수(예컨대, T1은 바람직한 실시예에서 값 1000으로 설정됨)일 때, 실행을 스래드(thread)하는 T1을 규정하기 위한 스래드 데이터 구조체(142)를 기억한다.

디스크 기억 장치(120)는 이하에 더욱 상세하게 설명되는 바와 같이, 입력 버퍼(134)와 부가 버퍼(136)를 통하여 순차로 액세스되는 웹 정보 디스크 파일(150)을 기억한다.

호스트 네임 테이블(126)은 무엇보다도 DNS(112)에 알려진 각 호스트 네임의 모든 별명을 나타내는 정보를 기억한다. 이 별명들은 특정 웹 페이지에 대해 별명 URL의 세트를 형성하기 위해 특정 웹 페이지의 URL의 호스트 네임 부분에 대한 웹 스쿠터 처리부(140)를 대신하는 1 세트의 URL 접두부가 된다.

전술한 데이터 구조체 및 처리부들의 사용 및 동작은 도 1 내지 도 4A 내지 도 4B와 표 1 및 표 2를 참조하여 이하에 설명될 것이다. 표 1 및 표 2는 모두 웹 스쿠터 처리부의 의사 부호 표현을 포함하고 있다. 본 명세서에서 사용되는 의사 부호는 명세서의 설명을 위해 창안된 것이지만, 이 의사 부호는 일반 컴퓨터 언어 협정을 이용하며, 당업계의 숙련된 컴퓨터 프로그래머에게 용이하게 이해될 수 있도록 고안된 것이다.

웹 정보 해시 테이블

도 2를 참조하면, 웹 정보 해시 테이블(130)은 웹 스쿠터 시스템에 의해 인출 및 분석된 각각의 웹 페이지는 물론이고 인출 및 분석된 웹 페이지에서 URL 링크에 의해 참조되는 각각의 웹 페이지를 위한 개별 엔트리(160)를 포함한다. 이러한 엔트리는,

· 대응하는 웹 페이지에 대해 고유 지문값(162);

· 대응하는 웹 페이지가 웹 스쿠터에 의해 인출 및 분석되었는지의 여부를 나타내는 1비트의 "인출 플래그"; 및

· 웹 정보 디스크 파일(150)내에서 대응하는 엔트리의 위치를 나타내는 파일 위치값(166)을 포함한다.

바람직한 실시예에서, 지문값은 각각 63비트 길이이며, 파일 위치값은 각각 32비트 길이이다. 결과적으로, 바람직한 실시예에서 각각의 해시 테이블 엔트리(160)는 정확히 12바이트를 점유한다. 해시 테이블 엔트리의 정확한 크기는 중요하지 않지만, 각각의 해시 테이블(160)이 대응하는 디스크 파일 엔트리보다 상당히 작다(예컨대, 평균으로 적어도 75% 작다)는 것은 중요하다.

해시 테이블 관리자(132)는 "인터페이스"(170)를 통해, 웹 스쿠터 처리부(140)로부터 2가지 타입의 절차 호출인,

· 특정 URL을 위한 엔트리가 존재하는지의 여부를 해시 테이블 관리자(132)에게 묻고, 존재하는 경우에는 레코드의 인출 플래그가 대응하는 웹 페이지가 과거에 인출 및 분석되었음을 나타내는지의 여부를 묻는 제1 리퀘스트와;

· 특정 URL과 특정 디스크 파일 위치에 대해 해시 테이블(130)에 신규 엔트리를 기억할 것인지를 해시 테이블 관리자에게 묻는 제2 리퀘스트를 수신한다.

해시 테이블 관리자(132)는 지문 해시 함수(172)를 이용하여 해시 테이블 관리자에 제공되는 전체 URL에 대한 63비트의 지문값을 계산한다. 지문 해시 함수(172)는 모든 고유한 URL이 마찬가지로 고유 지문값으로 확실히 매핑되도록 고안되었다. 상기 지문 함수는 임의의 특정 웹 페이지 URL의 압축 부호화 신호를 발생시킨다. 적당한 지문 함수의 설계를 당업계의 당업자는 이해할 수 있을 것이다. 상기 함수에는 약 2²⁵내지 2²⁶개의 웹 페이지가 있지만, 지문들은 2⁶³개의 개별값을 가질 수 있음을 주목하자.

웹 스쿠터 처리부(140)가 해시 테이블에 특정 URL에 대한 엔트리가 이미 존재하는지의 여부를 해시 테이블 관리자(132)에게 묻는 경우, 해시 테이블 관리자는 (A)전술한 지문 해시 함수(172)를 이용하여 특정 URL의 지문값을 발생시키고, (B)해시 테이블 위치 함수(174)에 이 값을 통과시켜 지문값을 가진 엔트리가 해시 테이블(130)내에서 기억될 곳을 결정하고, (C)상기의 엔트리가 해시 테이블내에 실제로 기억되는지의 여부를 결정하고, (D)매칭 엔트리가 발견되지 않는 경우에, 실패값(예컨대, -1)으로 귀환하고, (E)엔트리가 해시 테이블에서 발견되면, 성공값(예컨대, 0)과 엔트리의 인출 플래그값 및 디스크 위치값으로 귀환한다.

바람직한 실시예에서, 해시 테이블 위치 함수(174)는 소정수의 낮은 차수 비트 지문값에 기초하여 해시 테이블 엔트리의 위치를 결정한 다음, 동일한 낮은 차수 비트의 모든 지문값에 대하여 엔트리 블록들의 체인을 이행한다. 해시 테이블(130)내의 소정값의 낮은 차수 비트의 엔트리(160)는 B1이 조정 가능한 파라미터라고 할 때, 블록마다 B1 엔트리의 블록들에 할당된다. 바람직한 실시예에 사용된 상기 구성은 해시 테이블(130)내에 매우 조밀하게 데이터를 기억시킨다는 이점이 있다. 당업계의 숙련된 기술자가 이해하는 바와 같이, 기타의 수많은 해시 테이블 위치 함수를 이용할 수 있다.

웹 스쿠터 처리부(140)가 해시 테이블 관리자(132)에게 특정 URL 및 특정 디스크 파일 위치에 대해 신규 해시 테이블 엔트리를 기억할 것인지를 묻는 경우, 해시 테이블 관리자는 (A)전술된 지문 해시 함수(172)를 이용하여 특정 URL의 지문을 발생시키고, (B)해시 테이블 위치 함수(174)에 이 값을 통과시켜 지문값을 가진 엔트리가 해시 테이블(130)내에서 기억될 곳을 결정하고, (C)대응하는 웹 페이지가 인출되지 않았음을 나타내고, 또한 지문값 및 특정 디스크 파일 위치를 포함하는 인출 플래그값을 가진 신규 엔트리(160)를 해시 테이블내의 결정된 위치에 기억시킨다.

웹 정보 디스크 파일 및 버퍼

도 3과 표 2를 참조하면, 디스크 액세스 동작은 RAM에 위치되는 입력 버퍼(134)와 부가 버퍼(136)를 사용함으로써 최소화된다. 입력 버퍼와 부가 버퍼의 관리는 디스크 파일 관리자로서 알려진 백그라운드 순차 디스크 파일 및 버퍼 핸들러 처리부에 의해 행해진다.

바람직한 실시예에서, 입력 버퍼 및 부가 버퍼는 각각 50 내지 100메가바이트 크기이다. 입력 버퍼(134)는 웹 정보 디스크 파일(150)의 순차적으로 정렬된 연속 부분을 기억하는데 사용된다. 웹 스쿠터 처리부는 처리될 입력 버퍼내의 차기 엔트리에 포인터(176)를 유지하고, 입력 버퍼(134)에 전송될 웹 정보 디스크 파일(150)내의 차기 엔트리(180)에 포인터(178)를 유지할 뿐만 아니라, 입력 버퍼(134), 부가 버퍼(136) 및 디스크 파일(150)을 조화시켜 사용하는데 필요한 다수의 다른 북키핑 포인터들을 유지한다.

웹 정보 디스크 파일(150)에 대한 모든 액세스는 순차 디스크 파일로부터의 다수의 엔트리가 단일 I/O 동작에 따라 입력 버퍼로 이동하는 것처럼, 입력 버퍼(134)를 통하여 순차적으로 액세스된다. 이 순차 디스크 파일(150)은 입력 버퍼로부터 액세스된다. 마찬가지로, 상기 순차 파일에 더해지는 모든 신규 엔트리들은 부가 버퍼(136)에 기억되고, 부가 버퍼의 내용은 부가 버퍼가 채워지면 순차 파일의 마지막에 더해진다. 이러한 방식으로, 웹 정보 디스크 파일에 대한 랜덤 액세스는 제거되고, 디스크 액세스 한계에 의해 야기되는 대기 시간이 최소화된다.

입력 버퍼(134)내의 모든 엔트리가 웹 스쿠터에 의해 스캔될 때마다, 입력 버퍼내의 엔트리에 대한 모든 갱신값들은 웹 정보 디스크 파일(150)에 다시 기억되고 부가 버퍼(136)내의 모든 엔트리들은 디스크 파일(150)의 마지막에 부가된다. 또한, 부가 버퍼(136)가 소거되고, 입력 버퍼(134)에 최종 엔트리의 세트가 카피된 직후에 개시하는(포인터(178)로써 표시된 바와 같이) 디스크 파일내의 차기 엔트리의 세트가 입력 버퍼(134)에 카피된다. 디스크 파일내의 최종 엔트리가 웹 스쿠터 처리부에 의해 스캐닝되었을 때, 스캐닝은 디스크 파일(150)의 개시부에서 다시 시작된다.

부가 버퍼(136)가 신규 엔트리로 채워지면, 그 내용은 디스크 파일(150)의 마지막에 부가되어 부가 버퍼는 신규 엔트리들을 수신하도록 소거된다.

웹 정보 디스크 파일(150)내의 엔트리(180)는 각각,

· 엔트리에 의해 참조되는 웹 페이지에 대하여 URL을 기억하는 가변 길이 URL 필드;

· 대응하는 웹 페이지가 웹 스쿠터에 의해 인출 및 분석되었는지의 여부를 나타내는 인출 플래그(184);

· 참조 웹 페이지가 인출, 분석 및 인덱스된 날짜와 시간을 나타내는 타임스탬프(186);

· 웹 페이지의 크기를 나타내는 크기값(188);

· 오류의 타입이 참조 웹 페이지를 인출하기 위한 시도가 행해졌던 마지막 시간에 기인한 것인지, 또는 상기 엔트리가 무시될 복제(즉, 별명 URL) 엔트리를 나타내는 것인지를 나타내는 오류 타입값(190); 및

· 이와 상관없는 기타의 인출 상태 파라미터(192)를 기억한다.

URL 필드(182)는 길이가 변화될 수 있기 때문에, 웹 정보 디스크 파일(150)내의 레코드 또한 길이가 변화할 수 있다.

웹 스쿠터 처리부

도 1 내지 도 4A 내지 도 4B와 표 1의 의사 부호를 참조하면, 바람직한 실시예의 웹 스쿠터 처리부(140)는 다음과 같이 동작한다. 웹 스쿠터 처리부가 실행을 개시하면,

· 기존의 웹 정보 디스크 파일(150)을 통하여 스캐닝하여, 모든 엔트리에 대하여 해시 테이블(130)의 엔트리를 순차 디스크 파일로 초기화하는 단계;

· 디스크 파일(150)로부터 입력 버퍼(134)로 순차 디스크 엔트리의 제1 배치분을 카피하는 단계;

· 신규 순차 파일 엔트리에 대하여 공(空) 부가 버퍼(136)를 규정하는 단계; 및

· 입력 버퍼(134), 부가 버퍼(136) 및 해시 테이블(130)로의 액세스를 제어하기 위해 뮤텍스(138)를 규정하는 단계에 의해, 시스템의 데이터 구조체를 초기화한다(200).

웹 스쿠터 초기화부는 동일한 스쿠터 처리를 각각 실행하는 T1 스래드(예컨대, 바람직한 실시예에서는 1000개의 스래드가 시작됨)를 시작한다.

웹 스쿠터 초기화 처리의 실행전에, 기존의 웹 정보 디스크 파일(150)내의 엔트리의 세트는 알고 있는 웹 페이지의 "루트 세트"(144)로 불리운다. "액세스 가능한" 웹 페이지의 세트는 상기 루트 세트내의 URL 링크에 의해 참조되는 모든 웹 페이지와 다른 액세스 가능한 웹 페이지내의 URL 링크에 의해 참조되는 모든 웹 페이지로 구성된다. 따라서, 상기 루트 세트와 이러한 "액세스 불가능" 웹 페이지간에 URL 링크 접속이 없음으로 인해, 일부 웹 페이지들은 웹 스쿠터(102)에 대해 액세스가 불가능 할 수도 있다.

이와 같은 웹 페이지들에 대한 정보를 다양한 채널을 통하여 이용할 수 있는 경우, 웹 정보 디스크 파일(150)은 추가 엔트리의 "수동" 삽입 또는 과거의 액세스 불가 웹 페이지를 액세스 가능하게 하도록 추가의 엔트리를 포함시키기 위한 다른 메커니즘에 의해 확장될 수 있다(이로써, 루트 세트(144)를 확장함).

다음은 모든 동시 구동 스래드에 의해 실행되는 웹 스쿠터 처리부에 관한 설명이다. 처리의 제1 단계는 뮤텍스에 대한 리퀘스트 및 대기 단계(202)이다. 2개의 스래드가 동일한 디스크 파일 엔트리를 처리하지 않도록, 그리고 2개의 스래드가 동시에 해시 테이블, 입력 버퍼, 부가 버퍼 또는 디스크 파일에 정보를 기록하지 못하도록 뮤텍스의 소유권이 요구된다. 해시 테이블(130), 입력 버퍼(134), 부가 버퍼(136) 및 디스크 파일(150)은 뮤텍스를 사용함으로써 일괄적으로 보호되기 때문에, 본 명세서에서는 뭉뚱그려서 "보호된 데이터 구조체"라고 부른다. 일단, 스래드가 뮤텍스를 소유하면, 스래드는 스캐닝되지 않은 차기 엔트리에서 시작하여(포인터(176)에 의해 나타낸 바와 같은), 확정된 선택 기준에 부합하는 엔트리가 위치 설정 및 선택될 때까지 입력 버퍼에 디스크 파일 엔트리를 스캐닝한다(204).

예를 들면, 디폴트 선택 기준은 그 오류 타입 필드가 상기 엔트리가 복제 엔트리(즉, 이하에 설명되는 바와 같이 "비선택 별명"인)임을 나타내는 엔트리를 제외하고는, 인출된 적이 없거나, H1 시간보다 더 이전에 최종 인출 및 분석된(여기서, H1은 오퍼레이터가 선택할 수 있는 값) 엔트리로써 표시되는 웹 페이지를 참조하는 어떠한 엔트리라도 가능하다. H1이 168로 설정되면, 1주일보다 더 전에 최종 인출 및 분석된 웹 페이지를 참조하는 모든 엔트리들은 상기 선택 기준에 부합한다. 선택 기준에 대한 또다른 예로서, 웹 페이지 크기가 고려된 선택 기준은 그 오류 타입 필드가 상기 엔트리가 "비선택 별명"임을 나타내는 엔트리일 때를 제외하고는, 인출된 적이 없는 웹 페이지나, H1 시간보다 더 이전에 최종 인출 및 분석된 S1의 크기보다 큰 웹 페이지나, H2 시간보다 더 이전에 최종 인출 및 분석된 S1의 크기보다 작은 웹 페이지를 나타내는 엔트리이다(여기서, S1, H1 및 H2는 오퍼레이터가 선택할 수 있는 값이다).

처리할 차기 엔트리를 선택할 때, 해시 테이블은 하나의 별명하에 웹 페이지가 이미 인출되었는지의 여부를 결정하기 위해 대기하고 있는 현 엔트리의 모든 공지된 별명에 대하여 점검된다. 특히, 엔트리가 확정된 선택 기준에 부합하는 경우, 상기 엔트리에 대한 모든 공지된 별명의 URL은 호스트 네임 테이블(126)의 정보를 사용하여 발생되고, 해시 테이블(130)은 임의의 별명 엔트리에 대하여 참조 웹 페이지가 별명 URL하에 인출되었는지를 나타내는 인출 플래그로 엔트리를 기억하는지의 여부를 알기 위해 점검된다. 입력 버퍼내에 대기하는 현재 엔트리에 의해 참조되는 웹 페이지가 별명 URL하에 이미 인출되었다고 결정된 경우, 입력 버퍼 엔트리의 오류 타입 필드(190)는 이 엔트리가 이 때 및 미래에 추가의 처리를 위해 선택되지 않게 하는 "비선택 별명"임을 나타내도록 수정된다.

일단 웹 페이지 참조 엔트리가 선택되면, 상기 뮤텍스는 다른 스래드가 보호 데이터 구조체를 액세스할 수 있도록 해제된다(206). 그리고나서, 웹 스쿠터 처리부는 대응하는 웹 페이지를 인출하고자 한다(208). 이러한 인출이 완료 또는 실패한 후, 상기 처리부는 다시 한번 보호 데이터 구조체를 이용하기 위해 또 한번 뮤텍스를 리퀘스트 및 대기한다(210).

상기 인출이 성공되지 않은 경우(212-N), 웹 페이지에 대한 순차 파일 엔트리의 인출 상태 정보는 웹 크롤러로 귀환하는 오류 귀환 코드에 따라 인출 실패로서 표시된다(214). 상기 인출이 성공한 경우(212-Y), 웹 페이지에 관한 해시 테이블(160)내의 인출 플래그(164)가 설정되고, 마찬가지로, 순차 디스크 파일 엔트리(180)(입력 버퍼에서)내의 인출 플래그(184)가 웹 페이지에 관하여 설정된다. 또한, 인출된 웹 페이지의 URL 링크가 각각 분석된다(216).

상기 인출 웹 페이지가 분석된 후에, 또는 인출 웹 페이지가 입력 버퍼 엔트리에 기록된 후에, 뮤텍스는 다른 스래드가 보호 데이터 구조체를 액세스 할 수 있도록 해제된다(218).

인출된 웹 페이지내의 URL 링크를 분석하기 위한 절차가 도 4B를 참조하여 다음에 설명되었다. 여기서, 웹 페이지는 인덱싱 시스템(108)에 의한 인덱싱에 적합한 정보를 포함하지 않는, 이미지 파일과 같은 문서에 대한 URL 링크를 포함할 수 있음을 유의해야 한다. 이러한 참조 문서들은 이들을 참조하는 웹 페이지의 구성 요소로서 이용되기도 한다. 이 문서의 목적에 있어서, 이미지 파일 및 다른 비인덱서블 파일과 같은 성분 파일로의 URL 링크는 "다른 웹 페이지로의 URL 링크"가 아니다. 이러한 비인덱서블 파일로의 URL 링크는 웹 스쿠터 처리부에 의해 무시된다.

일단 다른 웹 페이지로의 모든 URL 링크가 처리된 경우(230), 인출된 웹 페이지는 인덱싱을 위해 인덱서에 전송되고(232) 웹 스쿠터에 의한 상기 인출 웹 페이지의 처리가 완료된다. 한편, 웹 페이지로의 차기 URL 링크가 선택된다(234). 이 선택 링크에 관련한 URL 링크에 대해 해시 테이블 엔트리가 이미 존재하는 경우(236), 상기 링크의 추가의 처리가 필요없게 되어, 분석되는 웹 페이지내에 미처리된 URL 링크가 남아있는 경우에 차기 URL 링크가 선택된다(234).

상기 선택 링크에 관련한 URL 링크에 대해 해시 테이블 엔트리가 이미 존재하지 않는 경우(236), 상기 엔트리에 대한 모든 공지된 별명의 URL이 호스트 네임 테이블(126)내의 정보를 사용하여 발생된 후, 해시 테이블(130)은 임의의 별명 URL에 대한 엔트리를 기억하고 있는지의 여부를 확인하기 위해 점검된다(238). 해시 테이블에 임의의 별명 URL에 대한 엔트리가 존재하면, 상기 링크의 추가의 처리가 필요없게 되어, 분석되는 웹 페이지내에 미처리된 URL 링크가 남아있는 경우에 차기 URL 링크가 선택된다(234).

선택된 링크의 URL 또는 임의의 별명들에 대한 엔트리가 해시 테이블내에서 발견되지 않는 경우, URL은 웹 페이지의 웹 크롤러 데이터베이스에 과거에 포함되지 않았던 "신규" 웹 페이지를 나타내므로, 신규 웹 페이지에 대한 엔트리는 부가 버퍼에서 디스크 파일의 부분에 더해진다(240). 이 새로운 디스크 파일 엔트리는 처리되는 링크에 의해 참조되는 URL을 포함하고, "미인출"로 표시된다. 또한, 대응하는 신규 엔트리가 해시 테이블에 더해지고, 이 엔트리의 인출 플래그는 대응하는 웹 페이지가 인출되지 않았음을 나타내기 위해 소거된다(240). 그리고나서, 웹 페이지내에 미처리 URL 링크가 남아있는 경우에는 웹 페이지내에서 차기 미처리 URL 링크로 웹 페이지의 처리를 계속한다(234).

해시 테이블(130)이 각각의 공지된 웹 페이지에 대하여 디스크 파일 위치 설정값을 포함하고 있으므로, 웹 정보 디스크 파일(150)로의 인덱스와 같이 웹 정보 해시 테이블(130)이 본 명세서의 범위를 벗어나는 용도 및 동작을 가진 처리부에 의해 사용된다. 다시 말해, 웹 정보 디스크 파일내의 엔트리가 웹 정보 해시 테이블내의 대응하는 엔트리에서 우선 디스크 파일 어드레스를 판독함으로써 액세스되고 나서, 이 어드레스에서 웹 정보 디스크 파일 엔트리가 판독된다.

대체 실시예

평형 트리, 스킵 리스트 등과 같이, 웹 정보 해시 테이블(130)과 동일한 특성을 가진 임의의 데이터 구조체가 바람직한 실시예의 해시 테이블 구조체(130) 대신에 사용될 수 있다.

결과적으로, 본 발명은 종래의 웹 크롤러의 속도 한계를 극복하기 위해 3개의 주 메커니즘을 이용한다.

첫째, 웹 페이지 디렉토리 테이블은 과거에 웹 크롤러에 알려지지 않은 신규 웹 페이지를 나타내는 웹 페이지 링크를 결정하기에 충분한 정보를 가진 RAM에 기억되어, 수신된 웹 페이지가 디스크 파일을 액세스하지 않고서도 분석될 수 있게 한다.

둘째, 더욱 완전한 웹 페이지 디렉토리가 단지 순차로 액세스되고, 큰 입력 버퍼와 부가 버퍼를 통하여 이러한 액세스를 행함으로써 상기 포인트에 행해지는 디스크 액세스의 수를 감소시키는데, 상기 디스크 액세스는 웹 크롤러의 속도 성능에 심각한 손상을 주지 않는다.

셋째, 웹 스쿠터 처리부를 실행하기 위해 다수의 액티브 스래드를 동시에 사용함으로써, 그리고 웹 서버에 비슷한 수의 동시 통신 채널을 처리할 수 있는 통신 인터페이스를 제공함으로써, 본 발명은 네트워크 액세스 대기 시간에 의해 야기되는 지연을 방지할 수 있다.

특히, 다수의 스래드가 웹 페이지 인출 리퀘스트에 대한 응답을 기다리는 동안, 그 밖의 다른 스래드가 수신된 웹 페이지들을 분석한다. 모두 동일한 웹 스쿠터 처리 절차를 행하는 다수의 스래드를 사용함으로써, 평균적으로 수신된 웹 페이지로 이루어진 1큐의 스래드가 수신된 웹 페이지를 처리할 수 있도록 뮤텍스를 기다리는 경향이 발생한다. 또한, 웹 페이지 인출은 시간에 대하여 엇갈리게 되는 경향이 있다. 그 결과, 웹 스쿠터는 웹 페이지를 수신하기 위해 대기하고 아무것도 할게 없는 상태에 남아있기가 힘들어진다. 웹 스쿠터의 처리량은 멀티프로세서 워크스테이션을 이용함으로써 더욱 증가될 수 있어서, 웹 스쿠터 처리를 동시에 실행하는 스래드의 수를 더욱 증가시킬 수 있다.

본 발명이 몇가지의 구체 실시예를 참조하여 설명되었지만, 상기 설명은 본 발명의 예시일 뿐이며, 본 발명의 제한으로서 해석되지 않는다. 다양한 변형 실시예가 본 명세서에 제공되고 주장된 바와 같은 본 발명의 범위를 벗어나지 않고서 행해질 수 있다.

웹 스쿠터 처리부의 의사 부호 표현처리부: 웹 스쿠터{/*초기화 단계*/기존의 웹 정보 디스크 파일을 통하여 스캐닝하고 모든 엔트리에 대해 해시 테이블의 엔트리를 순차 파일로 초기화입력 버퍼로의 제1 배치의 순차 디스크 엔트리를 RAM에서 판독신규 순차 파일 엔트리들에 대한 공(空) 부가 버퍼 규정입력 버퍼, 부가 버퍼 및 해시 테이블로의 액세스를 제어하기 위한 뮤텍스 규정각각 동일한 스쿠터 처리를 실행하는 1000개의 스래드를 시작}처리부: 스쿠터{영구 실행:{뮤텍스 리퀘스트 및 대기처리를 위해 신규 URL이 확정된 URL 선택 기준에 따라 선택될 때까지 순차 파일(입력 버퍼에서)을 판독. 처리를위해 차기 URL을 선택할 때, 웹 페이지가 별명하에 이미 인출되었는지의 여부를 결정하기 위해 모든 공지된별명의 URL에 대해 해시 테이블을 점검하고, 웹 페이지가 별명하에 인출되었다면 순차 파일 엔트리의 오류타입 필드를 "비선택 별명"으로서 표시한다./*선택 기준의 예: URL은 한 번도 인출되지 않았거나, H1 시간보다 이전에 최종 인출되었고, 비선택 별명이아님*/뮤텍스 해제선택 웹 페이지 인출뮤텍스 리퀘스트 및 대기인출이 성공적인 경우{입력 버퍼내의 해시 테이블 및 순차 파일 엔트리에서 인출될 때의 페이지를 표시/*인출 페이지 분석*/페이지내의 각 URL 링크에 대해{URL 또는 임의의 규정된 별명이 해시 테이블에 이미 존재하는 경우{ Do Nothing }Else{/*URL은 데이터베이스에 포함되지 않았던 "신규" 웹 페이지를 나타냄*/부가 버퍼에 대응하는 웹 페이지에 대한 신규 엔트리를 더하여, 엔트리를 "미인출"로 표시해시 테이블에 엔트리를 더하여, 엔트리를 "미인출"로 표시}}처리를 위해 인출 페이지를 인덱서로 전송}Else{수신된 귀환 코드에 기초하여 적당한 "인출 실패" 오류 지시기로 현재 처리되는 입력 버퍼내의 엔트리를 표시}뮤텍스 해제} /*영구 실행 루프의 종료*/}

백그라운드 순차 파일 버퍼 핸들러를 위한 의사 부호 표현처리부: 백그라운드 순차 파일 버퍼 핸들러(a/k/a 디스크 파일 관리자){"순차 파일 판독" 명령시마다 입력 버퍼 오버 플로우{입력 버퍼를 순차 디스크 파일에 다시 카피엔트리의 차기 세트를 입력 버퍼로 판독부가 버퍼의 내용을 순차 디스크 파일의 마지막에 부가신규 엔트리를 준비하기 위해 부가 버퍼 소거}"순차 파일에 엔트리 추가"시마다 부가 버퍼 오버 플로우{부가 버퍼의 내용을 순차 디스크 파일의 마지막에 부가신규 엔트리를 준비하기 위해 부가 버퍼 소거계류중인 신규 엔트리를 부가 버퍼의 시작부에 추가}}

Claims

원격지에서 액세스 가능한 컴퓨터상에 기억되고, 고유 URL(범용 자원 위치자)을 각각 가지며, 적어도 일부는 다른 웹 페이지로의 URL 링크를 구비한 웹 페이지를 포함하는 데이터 세트를 위치 설정하는 시스템에 있어서,

대응하는 URL에 따라 상기 원격지 컴퓨터로부터 웹 페이지들 중 특정 웹 페이지를 인출하기 위한 통신 인터페이스와;

대응하는 웹 페이지에 대해, 각각 URL 및 인출 상태 정보를 나타내는 엔트리들의 세트를 가진 웹 정보 파일과;

대응하는 웹 페이지에 대해, 각각 지문값과 인출 상태 정보를 나타내는 엔트리들의 세트를 가지고, RAM(랜덤 액세스 메모리)에 기억되는 웹 정보 테이블과;

웹 페이지를 인출하고 분석하기 위해, 상기 위치 설정 시스템에 의해 실행되는 웹 스쿠터 처리부를 구현하기 위한 수단을 포함하는데, 상기 웹 스쿠터 처리부는 웹 페이지의 웹 정보 파일 엔트리가 상기 인출 상태 정보에 기초한 소정의 선택 기준에 부합하는 웹 페이지를 인출하고, 각각의 수신된 웹 페이지내의 각각의 URL 링크에 대해 대응하는 엔트리가 웹 정보 테이블에 이미 존재하는지를 결정하고, 웹 정보 테이블에 대응 엔트리가 없는 각각의 URL 링크에 대해서는 웹 정보 테이블에 신규 엔트리를, 웹 정보 파일에는 대응하는 신규 엔트리를 부가하기 위한 명령을 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 시스템.
제1항에 있어서, 오버래핑 시간 동안 웹 스쿠터 처리부를 각각 실행하는 다수의 스래드를 포함하고, 상기 스래드의 일부는 웹 페이지를 인출하고, 상기 스래드의 나머지는 인출된 웹 페이지를 분석하는 수단을 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 시스템.
제2항에 있어서, 뮤텍스를 포함하며, 상기 웹 스쿠터 처리부는 웹 정보 테이블 및 웹 정보 파일을 액세스하기 전에 상기 뮤텍스를 리퀘스트하고 대기하는 명령을 포함하는 스래드에 의해 각각 실행되는 것을 특징으로 하는 데이터 세트 위치 설정 시스템.
제3항에 있어서,

입력 버퍼 및 부가 버퍼와;

웹 정보 파일로부터 순차 정렬된 엔트리의 블록들을 입력 버퍼에 기억시키기 위한 파일 관리자를 포함하고;

상기 웹 스쿠터 처리부는 상기 소정의 선택 기준에 부합하는 상기 웹 정보 파일 엔트리들을 위치 설정하기 위해 입력 버퍼내의 웹 정보 파일 엔트리들을 스캐닝 및 분석하고;

상기 웹 스쿠터 처리부는 상기 부가 버퍼에 모든 엔트리들을 기억하여 웹 정보 파일에 추가시키고;

상기 파일 관리자는 부가 버퍼내의 다수의 엔트리들을 웹 정보 파일로 이동시키는 것을 특징으로 하는 데이터 세트 위치 설정 시스템.
제1항에 있어서, 보조 기억 장치내의 엔트리들은 주기억 장치내의 대응하는 엔트리의 어드레스를 각각 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 시스템.
원격지에서 액세스 가능한 컴퓨터상에 기억되고, 고유 URL(범용 자원 위치자)을 각각 가지며, 적어도 일부는 다른 웹 페이지로의 URL 링크를 구비한 웹 페이지를 포함하는 데이터 세트를 위치 설정하는 방법에 있어서,

대응하는 웹 페이지에 대해 각각 URL 및 인출 상태 정보를 나타내는 엔트리들의 세트를 가진 웹 정보 파일을 기억하는 단계와;

대응하는 웹 페이지에 대해 각각 지문값과 인출 상태 정보를 나타내는 엔트리들의 세트를 가진 웹 정보 테이블을 RAM(랜덤 액세스 메모리)에 기억시키는 단계와;

웹 페이지들을 인출하고 분석하기 위해, (A)상기 엔트리들이 소정의 선택 기준에 부합하는지의 여부를 결정하도록 웹 정보 파일내의 엔트리들을 순차로 스캐닝하는 단계와, (B)웹 페이지의 웹 정보 파일 엔트리들이 상기 소정의 선택 기준에 부합할 때, 상기 웹 페이지를 인출하는 단계와, (C)수신된 각각의 웹 페이지내의 또다른 웹 페이지로의 각 URL 링크에 대해, 대응하는 엔트리가 웹 정보 테이블에 이미 존재하는지의 여부를 결정하는 단계와, (D)웹 정보 테이블에 대응하는 엔트리가 없는 각 URL 링크에 대해, 웹 정보 테이블에 신규 엔트리를 추가하고 웹 정보 파일에는 대응하는 신규 엔트리를 추가하는 단계를 구비하여 웹 스쿠터 처리부를 실행하는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제6항에 있어서, 다수의 스래드에서 오버래핑 시간 동안 상기 웹 스쿠터 처리부를 각각 실행하는 단계를 포함하며, 상기 스래드의 일부는 웹 페이지를 인출하고, 상기 스래드의 나머지는 인출된 웹 페이지를 분석하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제7항에 있어서, 뮤텍스를 규정하는 단계와;

상기 각각의 스래드에서 상기 웹 스쿠터 처리부를 실행하면서, 웹 정보 테이블 및 웹 정보 파일을 액세스하기 전에 상기 뮤텍스를 리퀘스트하고 대기하는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제8항에 있어서, 상기 RAM에 "입력 버퍼"와 "부가 버퍼"를 형성하는 단계와;

웹 정보 파일로부터 순차로 정렬된 엔트리들의 블록들을 상기 입력 버퍼에 기억시키는 단계와;

웹 정보 파일내의 엔트리들을 순차로 스캐닝하는 상기 단계는 상기 웹 정보 파일 엔트리가 상기 소정의 선택 기준에 부합하는지의 여부를 결정하기 위해 상기 입력 버퍼내의 웹 정보 파일 엔트리들을 스캐닝하는 단계를 포함하고;

상기 파일에 추가될 모든 엔트리들을 상기 부가 버퍼에 기억시키는 단계와;

상기 부가 버퍼내의 다수의 엔트리들을 웹 정보 파일로 이동시키는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제6항에 있어서, 웹 정보 테이블내의 엔트리들은 웹 정보 파일내의 대응하는 엔트리의 어드레스를 각각 포함하고,

상기 데이터 세트 위치 설정 방법은 웹 정보 테이블내의 대응하는 엔트리의 어드레스를 판독한 후, 상기 어드레스에서 상기 웹 정보 파일의 상기 엔트리를 판독함으로써 상기 웹 정보 파일내의 상기 엔트리들 중 하나를 액세스하는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
네트워크를 통해 접속되는 컴퓨터상에 기억되고, 어드레스에 의해 가각 고유 식별되며, 적어도 일부는 상기 컴퓨터상에 기억되는 다른 데이터 세트의 하나 이상의 링크 어드레스를 포함하는 데이터 세트를 위치 설정하는 장치에 있어서,

식별된 데이터 세트에 대해 식별된 데이터 세트의 어드레스를 각각 포함하는 리퀘스트를 컴퓨터에 전송하고, 상기 리퀘스트에 응답하여 데이터 세트를 수신하기 위해 네트워크에 접속된 통신 인터페이스와;

대응하는 데이터 세트의 어드레스 및 대응하는 데이터 세트에 대한 상태 정보를 각각 포함하는 엔트리들의 제1 세트를 기억하는 주기억 장치와;

대응하는 데이터 세트의 어드레스의 부호화 신호와, 대응하는 데이터 세트에 대한 상태 정보의 부호화 신호를 각각 포함하는 엔트리들의 제2 세트를 기억하는 보조 기억 장치와;

상기 주기억 장치 및 보조 기억 장치와 통신 인터페이스에 결합되고, 제1 세트의 엔트리를 순차적으로 판독하여 상기 제1 세트에 소정의 상태에 기초한 선택 기준에 부합하는 대응 엔트리를 갖는 데이터 세트중 식별된 데이터 세트에 대해 리퀘스트를 발생시키며, 상기 식별된 데이터 세트 수신에 응답하여 상기 제2 세트에 어떠한 대응 엔트리도 없는 상기 수신된 데이터 세트 중 적어도 서브세트의 어드레스에 각각 대응하는 상기 제1 및 제2 세트에 새로운 엔트리를 생성하는 스래드 수단을 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 장치.
제11항에 있어서, 제2 세트의 엔트리는 상기 제1 세트에 대응하는 엔트리의 어드레스를 각각 포함하고, 상기 제2 세트의 엔트리는 상기 제1 세트의 엔트리를 인덱싱하는 것을 특징으로 하는 데이터 세트 위치 설정 장치.
제11항에 있어서, 다수의 상기 스래드 수단을 포함하며, 일부의 상기 스래드 수단은 상기 리퀘스트를 발생시키고 상기 식별된 데이터 세트를 수신하며, 나머지 상기 스래드 수단은 상기 주기억 장치 및 보조 기억 장치에 새로운 엔트리를 생성하는 것을 특징으로 하는 데이터 세트 위치 설정 장치.
제13항에 있어서, 뮤텍스를 포함하며, 상기 스래드 수단은 상기 주기억 장치 및 보조 기억 장치를 액세스하기 전에 상기 뮤텍스를 리퀘스트하고 대기하는 로직을 각각 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 장치.
제14항에 있어서, 상기 보조 기억 장치에 위치 설정되는 입력 버퍼 및 부가 버퍼와;

상기 주기억 장치에 순차적으로 정렬된 그룹의 엔트리를 상기 입력 버퍼에 기억시키는 관리자를 포함하며;

상기 스래드 수단은 상기 입력 버퍼의 엔트리를 스캐닝하고 분석하여 상기 소정의 상태에 기초한 선택 기준에 부합하는 상기 엔트리를 위치 설정하는 수단을 각각 포함하고;

상기 스래드 수단은 상기 주기억 장치에 부가될 모든 엔트리를 상기 부가 버퍼에 각각 기억시키며;

상기 관리자는 상기 부가 버퍼의 다수의 엔트리를 상기 주기억 장치로 이동시키는 수단을 추가로 갖는 것을 특징으로 하는 데이터 세트 위치 설정 장치.
네트워크를 통해 접속되는 컴퓨터상에 기억되고, 어드레스에 의해 가각 고유 식별되며, 적어도 일부는 상기 컴퓨터상에 기억되는 다른 데이터 세트의 하나 이상의 링크 어드레스를 포함하는 데이터 세트를 위치 설정하는 방법에 있어서,

(A) 주기억 장치에 제1 엔트리 세트를 기억시키는 단계를 포함하는데, 상기 제1 세트의 각각의 엔트리는 대응하는 데이터 세트에 대한 상태 정보 및 대응하는 데이터의 어드레스를 포함하고;

(B) 보조 기억 장치에 제2 엔트리 세트를 기억시키는 단계를 포함하는데, 상기 제1 세트의 각각의 엔트리는 대응하는 데이터 세트에 대한 상태 정보 및 대응하는 데이터의 어드레스를 포함하고;

(C) 상기 제1 세트의 엔트리를 순차적으로 판독하는 단계와;

(D) 상기 제1 세트에 소정의 상태에 기초한 선택 기준에 부합하는 대응 엔트리를 갖는 데이터 세트 중 식별된 세트에 대하여 상기 네트워크를 통해 상기 컴퓨터에 리퀘스트를 전송하는 단계와;

(E) 상기 데이터 세트 중 식별된 세트 수신에 응답하여, 상기 제2 세트에 어떠한 대응 엔트리도 없는 수신된 데이터 세트 중 적어도 서브세트의 어드레스에 대응하는 상기 제1 및 제2 세트에 새로운 엔트리를 생성하는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제16항에 있어서, 상기 단계 B는 상기 제1 세트의 대응 엔트리의 어드레스를 상기 제2 세트의 엔트리에 각각 기억하는 단계를 포함하고, 상기 제2 세트의 엔트리는 상기 제1 세트의 엔트리를 인덱싱하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제16항에 있어서, 다수의 스래드에서 오버래핑 시간 동안 단계 C, D 및 E를 행하는 단계를 포함하고, 일부의 스래드는 데이터 세트를 인출하고, 나머지 데이터 세트는 인출된 데이터 세트를 분석하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제18항에 있어서, 뮤텍스를 형성하는 단계를 포함하며;

상기 스래드는 주기억 장치 및 보조 기억 장치의 상기 제1 및 제2 세트의 엔트리를 액세스하기 전에 상기 뮤텍스를 각각 리퀘스트하고 대기하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.
제19항에 있어서, 상기 보조 기억 장치에 입력 버퍼 및 부가 버퍼를 형성하는 단계와;

상기 제1 세트의 엔트리부터 순차로 정렬된 엔트리의 블록들을 상기 입력 버퍼에 기억시키는 단계를 포함하고;

상기 순차 판독 단계는 상기 입력 버퍼의 엔트리들을 순차로 판독하는 단계와 상기 입력 버퍼 엔트리가 상기 소정의 상태에 기초한 선택 기준에 부합하는지의 여부를 결정하는 단계를 포함하고;

상기 주기억 장치에 부가될 모든 엔트리를 상기 부가 버퍼에 기억시키는 단계와;

상기 부가 버퍼의 다수의 엔트리를 상기 주기억 장치로 이동시키는 단계를 포함하는 것을 특징으로 하는 데이터 세트 위치 설정 방법.