KR101159342B1

KR101159342B1 - 인트라넷 검색을 위한 방법 및 장치

Info

Publication number: KR101159342B1
Application number: KR1020050079882A
Authority: KR
Inventors: 마크 에스. 두르소
Original assignee: 마이크로소프트 코포레이션
Priority date: 2004-10-15
Filing date: 2005-08-30
Publication date: 2012-06-25
Also published as: JP2012027938A; EP1647904A3; JP2006114021A; EP1647904A2; KR20060050806A; JP5068437B2; JP2012027937A

Abstract

인트라넷을 처리하기 위한 방법은 인트라넷 내의 페이지 중 적어도 몇몇을 식별하기 위해 인트라넷을 크롤링(crawling)하는 것, 및 각각의 식별된 페이지에 대해서 루트 페이지에서부터 그 식별된 페이지까지의 최단 경로 내의 링크의 개수를 판정하는 것을 포함한다.

레벨 1 페이지, 루트 태그, 바디 태그, 페이지 제목 태그, 헤딩 메타 태그

Description

인트라넷 검색을 위한 방법 및 장치{METHOD AND APPARATUS FOR INTRANET SEARCHING}

도 1은 본 발명의 일 실시예에 따라, 인트라넷을 크롤링(crawling)하기 위한 방법의 순서도.

도 2는 본 발명의 원리에 따라, 각 페이지의 특수성(specificity) 또는 포괄성(generality)을 추측하는 데 이용될 수 있는, 인트라넷의 계층 조직에 대한 블럭도.

도 3은 본 발명의 일 실시예에 따라, 인트라넷을 파싱(parsing)하기 위한 방법의 순서도.

도 4는 본 발명의 원리에 따라, 페이지 내의 각각의 용어들의 특수성 또는 포괄성을 추측하는 데 이용될 수 있는, 페이지 구조의 계층 조직에 대한 블럭도.

도 5는 본 발명의 일 실시예에 따라, 검색 엔진 쿼리를 처리하기 위한 방법의 순서도.

<도면의 주요 부분에 대한 부호의 설명>

401: 루트 태그

410: 페이지 헤딩 태그

411: 페이지 제목 태그

412: 헤딩 메타 태그

420: 바디 태그

본 발명은 인트라넷용 검색 엔진에 관한 것이다.

검색 엔진은 기업 인트라넷의 보다 초점이 맞춰진 검색, 또는 전체 인터넷과 같은 네트워크 내의 관심 있는 정보를 발견하는데 종종 이용된다. 사용자의 쿼리에 응답하여, 전형적인 검색 엔진은 관련 네트워크 페이지로의 텍스트 링크뿐만 아니라 공개된 컨텐츠에 대한 간략한 설명을 포함하는 랭크별로 순서화된 리스트(rank-ordered list)를 제공한다. 리스트의 랭크별 순서화는 전형적으로 쿼리에 나타난 단어들과 컨텐츠에 나타난 단어들 간의 매칭에 기초한다. 현재의 검색 방법론의 전형적 한계는 쿼리에 응답하여 종종 부적절한 컨텐츠가 반환되는 것이다. 특히, 적절한 컨텐츠로부터 부적절한 컨텐츠를 분리시키는 것이 어렵기 때문에, 이용가능한 컨텐츠가 많아지면 검색 엔진 효능이 경감될 수 있다.

전형적인 엔진은 검색 페이지들 내에서 발견된 키워드가 나타난 개수에 부분적으로 기초하여, 페이지를 선택한다. 페이지의 길이에 따라 정규화된, 페이지 상에서의 검색 용어의 출현 빈도의 수에 대응하는 관련성이 페이지에 할당될 수 있다. 몇몇 엔진들은 중요도에 대한 표시자로서 링크의 개수를 취하여, 다른 페이지에 보다 많이 링크된 웹 페이지에게 보다 큰 중요도를 줌으로써 검색 결과를 향상 시키려고 한다.

대부분의 검색 엔진들은 페이지의 네트워크 기반 집합 내의 정보를 처리하기 위해 동일한 기본 절차를 따른다. 엔진은 크롤링 및 파싱 기술을 이용하여, 네트워크의 페이지에서 발견된 용어들의 색인을 형성한다. 색인은, 쿼리를 처리하고 관련 페이지를 식별하기 위해, 검색 시스템에 의해 이용될 데이터를 포함한다. 색인이 생성된 후, 쿼리가 검색 엔진에 제출될 수 있다. 쿼리는 사용자의 정보 요청을 나타내며, 검색 엔진에 의해 정의된 쿼리 언어 및 구문을 이용하여 표현된다. 검색 엔진은 네트워크에 대한 색인 데이터를 이용하여 쿼리를 처리하고, 검색 엔진이 시사적으로 관련되었다고 식별한 객체의 히트-리스트(hit-list)를 반환한다. 사용자는 그후 관찰 및 처리하기 위해 히트-리스트로부터 관련 객체들을 선택할 수 있다. 엔진의 사용자는 또한 히트-리스트로부터의 페이지를 네트워크에 걸친 또 다른 네비게이션에 대한 시작 지점으로 이용할 수 있다.

본 발명의 몇몇 원리에 따른 검색 툴은, 검색 결과가 일반적인 또는 특수한 주제 컨텐츠(subject matter content)에 관련되어 있는지에 기초하여 검색 결과를 조직할 수 있다. 예를 들어, 일반적인 쿼리에 응답하여, 일반적인 컨텐츠에 관련된 페이지가 반환될 수 있는 반면, 특수한 쿼리에 응답하여 특수한 컨텐츠에 관련된 페이지가 반환될 수 있다. 검색 툴은 크롤링 관련, 파싱 관련 및 쿼링 관련 특징들 중 임의의 것 또는 모두에 관련될 수 있다.

따라서, 일 양상에서, 본 발명은 적어도 하나는 루트 페이지인 페이지들을 포함하는 인트라넷을 처리하기 위한 방법을 특징으로 한다. 처리 방법론은 인트라넷 내의 페이지들 중 적어도 몇몇을 식별하기 위해 인트라넷을 크롤링하는 것, 및 각각의 식별된 페이지에 대해 루트 페이지에서부터 그 식별된 페이지까지의 최단 경로 내에 있는 링크의 개수를 판정하는 것을 포함한다.

또 다른 양상에서, 본 발명은 인트라넷의 적어도 하나의 페이지를 파싱하기 위한 방법을 특징으로 하며, 여기서 페이지는 계층 구조 내에 정렬된 용어들을 포함한다. 이 방법은 페이지 내의 용어들을 식별하기 위해 페이지를 파싱하는 것, 및 식별된 용어들에 대해서 하나 이상의 특수성 관련 매개변수를 판정하는 것을 포함한다. 특수성 관련 매개변수는, 예를 들어 페이지의 계층 구조 내에서 용어의 위치 및/또는 용어에 관련된 태그 유형에 연관될 수 있다.

여전히 또 다른 양상에서, 본 발명은 인트라넷에 대한 쿼리를 처리하기 위한 방법을 특징으로 한다. 이 방법은 적어도 하나의 검색 용어를 포함하는 쿼리를 수신하는 것, 및 쿼리의 특수성의 정도를 판정하는 것을 포함한다.

출원인은, 예를 들어 검색가능한 수많은 페이지들, 및 사용자가 제출한 종종 매우 광범위한 검색 쿼리 때문에, 종래 검색 엔진이 종종 불만족스러운 결과를 준다는 점을 인식했다. 광범위한 쿼리는 검색자에게 거의 또는 전혀 유용하지 않은 수많은 히트를 반환하게 할 수 있다. 또한, 관련 히트가 검색 결과 리스트의 깊은 곳에 묻힐 수 있기 때문에, 검색자는 리스트 내의 관련 페이지를 찾기 힘들어진다.

출원인은 종래 검색 엔진이 인트라넷 검색에 잘 적응되지 않는다는 점도 인 식했다. 포괄적인 정보를 찾고자하는 사용자는 종종 검색 쿼리에 대해 일반적인 검색 용어를 입력한다. 검색 엔진은 그 후 관심 있는 페이지를 갖는 긴 히트 리스트를 반환할 수 있는데, 사용자들은, 그 관심 있는 페이지가 리스트의 깊은 곳에 묻혀있기 때문에 그것을 인지하지 못할 수 있다. 또한, 리스트는 요구한 포괄적인 정보에 관련 없는 특수한 주제를 갖는 페이지를 포함할 수 있다.

"인트라넷"이란 용어는 여기서 웹 사이트(웹 프레전스로도 알려짐) 또는 사설 네트워크(피고용인 전용 인트라넷 또는 고객 전용 인트라넷과 같은)를 의미하도록 광범위하게 이용된다. 그러므로, 몇몇 인트라넷은 제한된 액세스를 갖는 반면, 다른 것들은 대중들이 액세스할 수 있다. 인트라넷이 네비게이션 툴에 의해 서로 링크된 정보의 집합을 포함하므로, 그 정보는 결합적 정보의 세트로 나타내진다.

인트라넷은 계층 구조의 상위에 하나 이상의 루트 페이지인 페이지들을 포함한다. 루트 페이지는, 예를 들어 홈 페이지 및/또는 개념 페이지일 수 있다. 인트라넷은 하나 이상의 엔티티에 의해 제어될 수 있지만, 전형적으로 예를 들어 단일 회사, 기관 또는 개인에 의해 제어된다. 인트라넷의 구조에 대한 예는 도 2에 예시되어 있으며, 다음에 보다 상세하게 설명될 것이다.

출원인은 또한 인트라넷이 전형적으로 페이지들이 다양한 레벨에 정렬되는 계층 구조를 갖는다는 점을 인식하고 있으며, 여기서 각각의 레벨은 하나 이상의 루트 페이지에서부터 그 페이지에 도달하는데 필요한 링크에 의해 정의된다. 이 구조는 트리의 기반에(즉, 트리 루트의 상위 레벨 또는 트리 브랜치의 하위 레벨에의) 루트 페이지를 갖는 트리의 루트 구조(root-like structure) 또는 브랜치 구조 (branch-like structure)로 보여질 수 있다. 루트 페이지에서부터 보다 먼 거리의 레벨에 있는 페이지는 전형적으로, 보다 일반적인 컨텐츠를 갖는 경향이 있는 루트 페이지에 보다 인접한 레벨에 있는 페이지들보다 좁고 및/또는 보다 상세한 주제 범위를 갖는다. 본 발명의 일 실시예에 따르면, 검색 큐에 응답하여 획득된 결과는 검색 큐가 일반적인 정보를 요구하는지 또는 특수한 정보를 요구하는지에 영향을 받을 수 있으며, 다음에 더 설명된다.

페이지는 디스플레이를 통해 네트워크 사용자에게 페이지로서 나타내질 때 자신의 시각적 레이아웃을 제어하는 포매팅 정보를 가진 파일을 참조한다. 페이지는 관련된 네트워크 주소를 갖는다. 페이지는 또한 예를 들어 노트 또는 문서를 의미할 수 있다. 전형적으로, 페이지는 하나 이상의 다른 페이지에 링크될 수 있다. 예를 들어, 링크에 관련된 용어를 선택함으로써 링크를 뒤따를 수 있다. 페이지 컨텐츠는 종종 HTML를 이용하여 포매팅된다. 다음의 설명은 HTML 기반 페이지의 예를 이용하지만, 이러한 예들은 예시적인 것일 뿐 본 발명을 제한하기 위한 것은 아님을 이해해야 하며, 본 발명의 특징은 HTML 이외의 언어를 포함하는 임의의 언어에 기초한 페이지를 포함하는 인트라넷에 적용가능하다.

개별적인 페이지들은 구조적 계층을 갖는다. 예를 들어, HTML 기반 페이지는 예를 들어, 루트 태그 및 루트 태그에 관련된 다양한 레벨에의 추가적인 태그를 포함하는 HTML 태그에 관련된 노드 계층을 가질 수 있다. 이 구조의 예가 도 4에 도시되며, 다음에 설명된다. 출원인은 페이지의 계층 내에서 보다 낮은 곳에 있는 정보는 전형적으로 보다 특수적이고, 페이지의 계층에서 보다 높은 곳에 있는 정보 는 전형적으로 보다 포괄적이란 점을 인식하고 있다. 일 실시예에서, 정보의 계층적 위치에 대한 지식은 포괄적 또는 특수한 검색에 응답하여 반환되는 결과에 영향을 주는데 이용되며, 다음에 보다 상세하게 설명된다.

"개념 페이지"란 표현는 특정 주제 토픽에 대한 근본 페이지 또는 부모로 활동하는 페이지를 의미하도록 여기서 이용되기 때문에, 토픽에 대한 개념 페이지는 그 토픽에 특수한 정보에 대해서 계층의 상위에 존재한다. 개념 페이지에서부터 확장된 링크는 종종 개념 페이지의 주제 토픽에 관한 추가적인 정보를 제공하는데, 즉 이런 페이지는 부모 개념 페이지에 대한 자식으로서 활동할 수 있다.

"용어"란 단어는 여기서 페이지 내에 나타나는 단어, 문단, 심볼 또는 정보의 다른 단위를 의미하도록 이용된다. 인트라넷의 사용자는, 예를 들어 검색 엔진에게 관심 있는 정보에 관련된 하나 이상의 용어를 포함하는 쿼리를 제출함으로써 인트라넷 내의 관심있는 정보를 검색할 수 있다.

"가중치"란 단어는 여기서 페이지 또는 용어에 관련된 특수성의 레벨을 의미하도록 이용된다. 이 단어는 검색자에게 반환되는 결과 리스트 내의 페이지들의 배치를 판정하기 위해, 쿼리할 때 페이지에 할당된 값을 의미하도록 이용되기도 한다. 예를 들어, 가중치는 인트라넷 내의 페이지의 계층에 기초하여 페이지에 할당된 특수성의 정도 또는 페이지 내의 용어 계층 내의 용어의 특수성의 정도를 의미할 수 있다.

또한, 페이지는 페이지 내의 용어들에 관련된 특수성 값을 할당받을 수 있으므로, 페이지 내에 위치한 상이한 용어들 각각에 대한 상이한 특수성의 정도를 잦 는다. 보다 큰 특수성의 정도가 할당된 페이지는 포괄적인 주제 컨텐츠에 대해 상대적으로 보다 큰 가능성을 갖는 보다 낮은 특수성의 정도가 할당된 페이지보다 특수한 주제 컨텐츠에 대해 보다 높은 가능성을 갖는다.

특수성은 페이지/용어 조합에 할당되며, 예를 들어 인트라넷 구조 내에서의 페이지의 위치 및/또는 페이지 구조 내에서의 용어의 위치에 의해 판정된다. 예를 들어 쿼리할 때, 페이지 가중치는 페이지 관련성의 정도에 관련하여 페이지에 할당되면, 보다 큰 잠재적 관련성을 갖는 페이지는, 예를 들어 쿼리 응답 결과 리스트의 상위로 향할 수 있다.

다양한 양상에서, 본 발명은 인트라넷 검색 엔진이 인트라넷에 통상적인 구조적 특징을 이용하여 검색 결과에 향상된 관련성을 제공하고/하거나 사용자가 관련 정보를 위치시키는데 소요하는 시간을 감소시키는 것을 현실화함으로써 부분적으로 일어난다. 예를 들어, 인트라넷은 홈 페이지 또는 개념 페이지로부터의 거리가 증가할 때 일련의 페이지 레벨을 통해 링크된 페이지를 포함한다. 출원인은 인트라넷 구조 내에서 보다 먼 거리에 있는 페이지는 보다 큰 특수성을 가진 정보를 포함하는 경향이 있음을 인식했었다. 즉, 출원인은 인트라넷 작성자 및 설계자가 루트 페이지에 있거나 그에 인접한 페이지 내에는 보다 포괄적인 정보를 배치하고, 루트 페이지로부터 보다 멀리 있는 것에는 보다 상세하고 원칙적으로 특수한 정보를 배치하려는 경향이 있음을 인식한다.

또한, 기업 보유 웹 사이트 관리자는, 예를 들어 그들 사이트의 구조를 논리적 개념 영역의 그룹으로 조직화하려고 하는 경향이 있다. 이러한 개념 영역은 또 한 보다 특수한 컨텐츠를 동일한 주제에 대한 포괄적 컨텐츠보다 개념 홈 페이지에서 먼곳에 배치하는 방식으로 조직화될 수도 있다. 그러므로, 인트라넷은 링크를 통해 스스로 포괄적인 것에서 특수한 것으로 조직화되는, 개념 클러스터(cluster of concept)로 조직화되는 경향이 있는 링크 구조를 가질 수 있다.

그러므로, 보다 먼 곳에 있는 레벨 페이지가 전형적으로 기초, 또는 거의 기초 레벨 페이지의 주제의 몇몇 양상에 대한 보다 협의적이고 상세하고 특수한 정보를 제공하는 경향이 있는 반면, 인접한 레벨 페이지는 전형적으로 보다 일반적인 범위에서 광범위한 주제를 포용하는 경향이 있다. 그러므로, 일 실시예에서, 본 발명의 원리에 따르면, 인트라넷의 구조는, 예를 들어 인트라넷 내의 페이지들을 크롤링하여 그들의 계층적 위치를 판정하고 그들의 계층적 위치에 기초한 크롤링된 페이지의 특수성의 정도를 추측함으로써, 보다 관련성이 있는 검색 결과를 제공하는데 이용될 수 있다. 또 다른 실시예에서, 컨텐츠의 특수성의 정도는 페이지 내의 구조에 기초하여 추측될 수 있다.

일 실시예에서, 후술된 바와 같이, 페이지 계층에 관한 정보와 페이지 내의 용어들의 계층에 관한 정보는 함께 이용된다. 그러나, 본 발명은 이러한 특징이 함께 이용되는지 또는 단독으로 이용되는지에 제한받지 않는다.

또 다른 실시예에서, 일단 특수성에 관한 정보가 추측되면, 요구된 특수성의 레벨을 판정하기 위해 검색 쿼리를 검사할 수 있고, 그 후 설명된 특수성의 레벨을 갖는 컨텐츠가 반환될 수 있다.

본 발명의 원리에 따르면, 검색 엔진은, 예를 들어 상술된 구조적 경향을 이 용하여 보다 관련성 있고/있거나 보다 유용한 페이지 히트를 제공할 수 있다. 예를 들어, 보다 특수한 정보를 갖는 페이지는 상대적으로 특수한 쿼리에 응답하여 히트 리스트의 상위로 밀어 올려질 수 있고, 보다 포괄적인 정보를 갖는 페이지는 상대적으로 광범위한 쿼리에 응답하여 히트 리스트의 상위로 밀어 올려질 수 있다. 그러므로, 사용자는, 예를 들어 특수한 쿼리가 생성될 때는 포괄적 주제 페이지를 검토하는 시간을 또는 포괄적인 쿼리가 생성될 때는 부적절한 특수한 페이지를 검토하는 시간을 줄임으로써, 관심 있는 페이지를 보다 용이하고 빠르게 찾아낼 수 있다.

반대로, 종래 기술 검색 엔진은 쿼리에 응답하여 전형적으로 쿼리 용어를 포함하는 페이지를 반환하는데, 여기서 페이지는, 예를 들어 페이지 중요도의 표시자로서 취해질 수 있는, 페이지를 가리키는 링크의 개수에 응답하여 재순서화될 수 있다. 그러나 본 발명에 관련하여 여기에 설명된 바와 같이 종래 검색 엔진은 인트라넷의 계층 구조의 특징을 이용하지 않는다. 예를 들어, 종래 검색 엔진은 협의적인 쿼리에 응답하여 일반적인 주제를 갖는 고레벨 페이지를 반환하려는 경향이 있거나, 광범위한 쿼리에 응답하여 협의적인 주제를 갖는 부적절한 보다 깊은 곳에 있는 레벨 페이지를 반환할 수 있다.

그러므로, 본 발명의 원리에 따르면, 일반적인 쿼리는 쿼리에 관해 포괄적인 주제를 포함하는 인트라넷의 부분으로 검색자를 유도하는데 이용될 수 있으며, 이러한 부분에 의해, 사용자는 종종 보다 특수하고 관련성이 있는 주제를 갖고 있는 페이지를 더욱 네비게이션해 내려감으로써 그들이 필요로하는 정보를 찾을 수 있 다. 거꾸로 말하면, 특수한 쿼리는 그 쿼리에 관련된 특수한 주제를 포함하는 인트라넷의 부분으로 검색자를 유도하는데 이용될 수 있다.

도 1은 본 발명의 일 실시예에 따라 인트라넷을 처리하기 위한 방법(100)의 순서도이다. 이 방법(100)은 인트라넷 내의 페이지를 식별하기 위해 인트라넷을 크롤링하는 단계(110)를 포함한다. 크롤링(110)은 임의의 적절한 방식으로 행해질 수 있기 때문에 임의의 특정한 기술에 제한되지 않는다. 크롤링(110)은 불필요할 수 있는 모든 페이지를 처리함으로써 인트라넷 내의 페이지 모두를 식별할 수 있지만, 본 발명은 이에 제한되지 않는다.

이 방법은 또한 각각의 식별된 페이지에 대해서, 루트 페이지에서부터 그 식별된 페이지까지의 최단 경로 내의 링크의 개수를 판정하는 단계(120)를 포함한다. 최단 경로는 임의의 적절한 방식으로 판정될 수 있다. 이 경로는 각각의 페이지가 식별될 때(110) 판정될 수 있다(120). 대안적으로, 예를 들어 페이지가 우선 식별되고(110), 그 후 최단 경로가 판정될 수 있다(120).

이 방법(100)은 또한 각각의 식별된 페이지에 대해 적어도 하나의 루트 페이지에서부터 식별된 페이지까지의 최단 경로 내의 링크의 개수를 나타내는 정보를 저장하는 단계(130)를 포함하며, 이 정보는 인트라넷 내에서 식별된 페이지에 대한 계층 레벨을 나타낸다. 이 정보는 어떠한 형태도 취할 수 있다. 이 정보는 링크일 수도 있으며, 임의의 스케일 또는 임의의 다른 적절한 방식에 따라 특수성의 등급을 매기는 정보일 수도 있다.

그러므로, 도 1의 본 발명의 실시예에 따르면, 페이지 계층과 같은 인트라넷 구조로부터 페이지의 주제 컨텐츠에 대한 정보를 추측할 수 있다. 예를 들어, 루트 페이지에서부터의 보다 짧은 경로를 갖는 식별된 페이지는 루트 페이지에서부터의 보다 긴 경로를 갖는 식별된 페이지보다 주제에 대해 보다 포괄적일 수 있으며, 여기서 루트 페이지는 상대적으로 보다 협의적이고, 보다 특수한 주제를 보유한다고 가정될 수 있다.

최단 경로는 루트 페이지에서부터의 크롤링시에 식별된 페이지를 처음으로 발견한 경로이다. 최단 경로는, 루트 페이지에서부터 크롤을 개시하여 루트 페이지 내에 임베딩된 링크를 통해 다음 레벨의 페이지로 진행함으로써 판정될 수 있다. 다음 레벨의 페이지에 임베딩된 링크들은 인트라넷 구조 내의 보다 깊은 곳으로 뒤따라 진다. 계층 내에서 보다 깊이 있는 페이지에 임베딩된 루트 페이지로의 링크는 대체로 무시되는데, 이는 인트라넷 내의 모든 페이지들이 사용자가 인트라넷의 홈 페이지와 같은 루트 페이지로 용이하게 반환하게 하기 위해 이러한 임베딩된 링크를 포함하기 때문이다. 그러므로, 최단 경로는 종종 인트라넷의 페이지 내에 고의적으로 배치된 링크에 대한 함수일 것이다.

도 2는 방법(100)이 처리할 수 있는 인트라넷 구조(200)의 예에 대한 다이어그램이다. 이 구조는 홈 페이지(201), 홈 페이지로부터 한 개의 링크에 위치한 제1 레벨 페이지(210)(도 2의 레벨 1), 홈 페이지(201)로부터 2개의 링크에 위치한 제2 레벨 페이지(220)(도 2의 레벨 2) 및 홈 페이지(201)로부터 3개의 링크에 위치한 제3 레벨 페이지(230)(도 2의 레벨 3)를 갖는다. 본 발명의 원리에 따르면, 제1 레벨 페이지(210)는 제2 레벨 페이지(220)에 포함된 주제보다 포괄적인 주제를 포함한다고 추측된다. 마찬가지로, 제2 레벨 페이지(220)는 제3 레벨 페이지(230)에 포함된 주제보다 포괄적인 주제를 포함한다는 점 등등이 추측된다.

도 3은 페이지의 내부 구조에 의해 정의된 계층 내의 용어의 위치 및/또는 취급법에 기초하여 컨텐츠 특수성에 대한 추가적인 정보를 모으기 위해 페이지를 파싱하는 방법(300)에 대한 순서도를 나타낸다. 이 방법(300)은 페이지 내의 적어도 하나의 용어를 식별하기 위해 적어도 하나의 페이지를 파싱하는 단계(310), 및 각각의 식별된 용어에 대해서 용어 특수성에 관련된 하나 이상의 특수성 관련 매개변수를 판정하는 단계(320)를 포함한다. 예를 들어, 이러한 매개변수는 페이지 구조 매개변수 및 태그 유형 매개변수를 포함한다. 페이지 구조 매개변수는, 예를 들어 페이지의 루트로부터의 거리일 수 있다.

이 방법(300)은 각각의 식별된 용어에 대해서, 루트에서부터의 거리와 같은 특수성 관련 매개변수를 나타내는 정보를 저장하는 단계(330)를 포함할 수 있다. 그러므로 정보는 페이지 내의 식별된 용어에 대한 계층 레벨을 나타낼 수 있다. 페이지 내의 식별된 용어에 대한 계층 레벨을 나타내는 정보는 어떠한 형태도 취할 수 있다. 그것은 페이지의 루트에서부터의 레벨일 수도 있으며, 임의의 스케일 또는 임의의 다른 적절한 방식에 따라 특수성의 등급을 메기는 정보일 수도 있다.

본 발명의 일 실시예에 따르면, 용어 특수성은 적어도 부분적으로 내부 페이지 구조 내에서의 용어의 위치로부터 추측될 수 있다. 예를 들어, HTML 페이지는 도 4에 참조로 예시된 바와 같은 노드 계층을 갖는다. 다음의 설명이 HTML 페이지에 관한 것이지만, 본 발명의 실시예는 다른 포맷을 갖는 인트라넷 페이지에도 적 용될 수 있다.

HTML 페이지 계층은 전형적으로 다음에 내부 텍스트에 관련되는 HTML 태그를 포함한다. 일 실시예에 따르면, 이러한 노드 계층은 페이지 내의 포괄적 컨텐츠와 특수한 컨텐츠 간의 비교를 추측하는데 이용될 수 있다. 예를 들어, 현재 내부 텍스트를 포함하는 노드가 페이지의 루트에 더욱 인접할수록, 특히 내부 텍스트가 특수한 토픽에 초점이 맞춰지지 않은 포괄적 컨텐츠를 포함할 가능성이 크다. 반대로, 그 노드가 루트로부터 멀리 위치할수록, 노드의 내부 텍스트가 특수한 토픽에 대해 특수할 가능성이 크다.

또한, 출원인은 용어를 굵은체로 하기, 용어에 밑줄긋기 및/또는 용어에 링크걸기와 같은 포매팅 양상은 보다 큰 특수성에 관련하여 보다 큰 레벨의 용어의 중요성을 나타낼 수 있으며, 또한 페이지의 루트에서부터 먼 곳에 위치한 텍스트로 귀착한다.

상술된 페이지 레벨 구조 정보는, 예를 들어 문서에 포함된 주어진 용어에 대해서 페이지가 가져야하는 가중치를 추측하는데 이용될 수 있다. 그러므로, 예를 들어, 페이지는, 보다 큰 특수성 레벨에 연관된 것으로 식별된 페이지 내의 용어에 대해서 그 페이지 내의 다른 용어들보다 큰 특수성의 레벨이 할당될 수 있다.

본 발명의 일 실시예에서, 페이지에 대한 용어 가중치는 페이지 길이에 기초한, 다른 페이지 내의 동일한 용어에 대한 용어 가중치에 비교하여 정규화된다. 이 정규화는 긴 페이지가 짧은 페이지보다 특수적이라고 나타내지는 것을 방지하도록 돕는데, 즉, 보다 긴 페이지는 용어가 보다 잦게 출현하는 경향이 있을 것이다. 이용시에, 정규화는 임의의 적절한 방식으로 수행될 수 있다.

도 4는 HTML 기반 페이지 구조(400)의 예에 대한 다이어그램이다. 구조(400)에 관련된 페이지는, 예를 들어 도 2의 구조(200)를 갖는 인트라넷 내에 위치할 수 있었으며, 도 3을 참조하며 설명된 방법(300)에 의해 처리될 수 있었다. 구조(400)는 루트 태그(401), 페이지 헤딩 태그(410), 페이지 제목 태그(411), 헤딩 메타 태그(412), 페이지(400)의 바디 부분을 식별하는 바디 태그(420), 바디 헤딩 태그(421), 바디 테이블 태그(422), 바디 문단 태그(423a, 423b), 굵은 폰트 태그(424a, 424b) 및 앵커 태그(425a, 425b, anchor tag)를 포함한다. 몇몇의 태그는 내부 텍스트(430a, 430b, 430c)에 관련되며, 사용자는 페이지가 디스플레이될 때 이 내부 텍스트를 볼 수 있다. 이러한 태그 유형 및 내부 텍스트에 관련된 것들은 HTML 기술에 알려져 있다.

상술된 바와 같이, 본 발명의 몇몇 실시예에서, 루트 태그(401)로부터 먼 곳에 있는 페이지 구조(400) 내의 용어들은 보다 큰 특수성을 갖는 정보에 대응하는 것으로 식별될 수 있다. 예를 들어, 루트 태그(410)는 레벨 0에 관련될 수 있고, 페이지 헤딩 태그(410) 및 바디 태그(420)는 레벨 1에 관련될 수 있으며, 페이지 제목 태그(411), 헤딩 메타 태그(412), 바디 헤딩 태그(421), 바디 테이블 태그(422) 및 바디 문단 태그(423a)는 레벨 2에 관련될 수 있고, 바디 문단 태그(423b)는 레벨 3에 관련될 수 있다.

또한, 추가적인 포매팅을 갖는 용어는 보다 큰 레벨의 특수성에 관련된다. 특수성을 나타내는 추가적인 포매팅은, 예를 들어 굵은 또는, 다른 특유한 폰트 또 는 색, 하이퍼텍스트 링크 및/또는 제목이나 메타 태그 내의 표현을 포함할 수 있다. 따라서, 용어는 그들의 추가적인 포매팅(만약 있다면)에 대응하여 페이지 계층 구조의 보다 깊은 레벨에 관련될 수 있다.

추가적인 태그 유형은 페이지 계층 내의 보다 깊은 레벨을 나타낼 수 있다. 이러한 태그 유형은 코드 태그를 포함하지만, 이에 제한되지는 않는다. 용어 특수성은 이때 페이지의 계층 내의 용어 깊이에 관련될 수 있다. 또한, 용어 특수성은 다음에 보다 상세하게 설명되는 바와 같이 태그 유형에 따라 가중치가 메겨질 수 있다. 그러므로, 특수성의 정도 계산은 태그 유형이 제공하는 특수성 레벨에 대한 표시를 이용하여 향상될 수 있다.

가급적으로, 내부 텍스트는 그것의 이웃 노드 레벨에 관련하여 페이지 계층 내의 레벨을 할당받는다. 즉, 노드는 내부 텍스트를 포함할 수 있으며, 자식도 내부 텍스트를 갖는다. 자식의 내부 텍스트는 그러므로 가급적 부모 노드에 직접적으로 관련된 내부 텍스트와 비교하여 상이한 레벨의 계층에 상주하는 것으로 보여진다.

상술된 바와 같이, 페이지 내의 컨텐츠의 특수성 또는 포괄성에 관한 정보는 페이지 구조 내의 컨텐츠의 위치를 제어하는 정보뿐만 아니라 인트라넷 계층 내의 페이지의 위치 모두에 기초하여 추측될 수 있다. 컨텐츠의 특수성/포괄성에 관한 정보의 이러한 2가지 기초는 임의의 적절한 방식으로 조합될 수 있으며, 그들 모두를 채용하는 본 발명의 실시예는 어떠한 특정 기술에 제한되지 않는다. 다음에서, 정보에 대한 2개의 소스(source)를 채용하는 특수한 예가 설명되지만, 이는 단지 예일 뿐이며, 컨텐츠의 특수성/포괄성에 대한 판정은 다른 방식으로도 행해질 수 있다.

페이지를 식별하기 위한 크롤링(110)(도 2)은, 예를 들어 상술된 바와 같이 임의의 적절한 크롤링 기술을 이용하여 수행될 수 있지만, 공지된 기술에 제한되는 것은 아니다. 예를 들어, 인트라넷은 소프트웨어 로봇, 스파이더, 원더러(wanderer), 웜(worm) 등을 이용해 크롤링되어, 페이지를 식별한다. 본 발명의 원리에 따르면, 식별된 페이지로의 최단 경로 내의 판정(120)된 링크의 개수에 대한 정보가 보유된다. 크롤링은, 예를 들어 임의의 적절한 방식으로 크롤러에 의해 식별될 수 있는 인트라넷의 루트 페이지 및/또는 개념 페이지에서부터 시작될 수 있다.

상술된 것과 같은 기술을 이용하여, 크롤링(110) 및 판정(120)하는 단계는 인트라넷 구조 내에서의 페이지의 위치를 판정하기 위한 링크 정보를 얻는데 이용될 수 있다. 예를 들어, 크롤링(110)은 인트라넷 내의 각각의 식별된 페이지에 대한 페이지 레벨을 식별하는 매개변수 DL을 제공할 수 있다. 매개변수 DL은 임의의 적절한 방식으로 지정될 수 있다. 예를 들어, DL은 편리하게 레벨의 단위의 루트 페이지에서부터 특정 페이지까지의 거리로서 식별되며, 여기서 루트 페이지는 레벨 0에 존재하고, 루트 페이지에서부터 확장된 각각의 다음 레벨은 이전 레벨에 상대적으로 1만큼 증가한다.

이 예에서, 크롤링(110)하는 동안 판정된 페이지 레벨 이외에, 페이지 내의 용어들의 네스팅 레벨(nesting level)은 방법(300)을 이용하여 수행될 수 있는 바 와 같이 식별된 페이지를 파싱하는 동안 용어에 대해서 판정된다. 본 발명의 몇몇 원리에 따르면, 인트라넷 계층 내에서의 페이지 위치와 페이지 내에서의 컨텐츠의 위치에 관한 정보의 조합은, 예를 들어 다음에 설명된 수학식을 이용하여 구현될 수 있다.

이 예에서, 다음의 수학식은 관련된 페이지 내의 용어 계층을 할당하는 것에 관한 것이다. 식별된 페이지 내의 용어에 대한 정규화된 용어 계층은 다음과 같이 정의된다:

NLW=NL-TTL

여기서, NLW는 특정 페이지 내의 용어에 관련된 정규화된 용어 레벨 또는 특수성이다. NL은 페이지의 루트 페이지에서부터 측정될 수 있는 바와 같은, 특정 페이지의 계층 내의 용어에 대한 원시 용어 레벨이다.

TTL은 용어를 포함하는 인트라넷의 모든 페이지에 대한 용어의 정규화된 최소 네스팅 레벨을 정의하는 임계 용어 레벨이다. TTL은 용어를 포함하는 식별된 모든 페이지의 용어에 대한 상수값을 갖는다. 예를 들어, TTL은 우선 인트라넷 내의 용어를 포함하는 모든 페이지 내의 용어의 최대 네스팅 레벨을 판정함으로써 편리하게 선택될 수 있다. TTL은 그 후, 최대 용어 레벨로부터 다소 떨어져 있는 레벨에서 설정될 수 있다. 예를 들어, 용어에 대한 최대 네스팅 레벨이 레벨 10이면, 그 용어에 대한 TTL은 레벨 5로 설정될 수 있다. NLW 매개변수는 그 후 레벨 5보다 낮은 네스팅 레벨에서 용어를 갖는 페이지를 삭제할 것이다.

대안적으로, 예를 들어 TTL은 통계적 고려사항에 기초하여 선택될 수 있다. 예를 들어, TTL은 최대 용어 레벨 보다는 2개의 표준 편차 어떤 레벨에서 설정될 수 있다.

TTL이 어떤 방식으로 선택되든지, TTL 매개변수의 효과는 어떤 용어에 대해 페이지와 함께 오직 높은 계층 레벨에 있는 용어만을 포함하는 페이지를 삭제하기 위한 것이다. 실제로 TTL 매개변수는 충분한 특수성을 갖지 않은 페이지를 (용어를 포함하고 있더라도) 삭제함으로써, 용어를 포함하고 있는 페이지의 리스트로부터 노이즈(noise)를 잘라내어, 검색자에게 결과 리스트의 프리젠테이션을 보증해준다.

용어에 관련된 특수성을 좀 더 다듬기 위해, 페이지 내의 용어에 대한 용어 특수성 매개변수 TW는 다음과 같이 태그 가중치 매개변수 TagW에 NLW 매개변수를 더함으로써 판정될 수 있다:

TW = TagW + NLW

여기서 TW는 특정 페이지에 대해서 용어에 할당된 전체적 특수성에 관련된 용어 특수성이고, TagW는 용어의 직접적인 부모의 HTML 태그 유형에 기초하여 용어의 것이라고 고려되는 태그 특수성 매개변수이다. 이를 수행하기 위해, 각각의 태그 유형에 대한, 인트라넷에 걸쳐 정의된 상수 값이 태그 유형에 할당될 수 있다. 예를 들어, 인트라넷에 걸쳐있는 대부분의 일반 태그 유형에는 1의 가중치가 할당될 수 있지만, 다른 태그 유형에는 그것에 관련된 알려지지 않은 어떤 것에 따라 1보다 큰 가중치가 할당될 수 있다. 예를 들어, 2의 가중치를 갖는 태그는 1의 가중치를 갖는 태그보다 반정도 자주 나타난다. 또한, 예를 들어, 페이지 헤드 내의 태그들 은 페이지 바디 내의 태그들과는 상이하게 취급될 수 있다. 예를 들어, 헤드 내의 태그는 조정가능한 가중치가 주어질 수 있다. 즉, 임의의 적절한 절차가 다양한 태그 유형들에 특수성 레벨을 할당하는데 이용될 수 있다.

예를 들어, 태그는 부분적으로는 통계적 분석을 통해서 및 부분적으로는 사람의 선택을 통해서 값을 할당받을 수 있다. 예를 들어, 태그는 1 내지 20의 값을 가질 수 있으며, 보다 큰 값은 보다 큰 특수성에 관련된다. 예를 들어, 통계적 분석은 태그를 자주 이용하며, 보다 잦은 이용은 보다 큰 포괄성을 나타낸다.

상술된 활동은 인트라넷 내의 페이지의 용어 색인을 생성하는데 이용될 수 있다. 용어 색인은 특정 용어를 포함하는 페이지의 리스트 및 상술된 TW 매개변수와 같은 각각의 페이지에 대한 용어의 특수성 값을 포함할 수 있다. 또한, 본 발명의 몇몇 실시예에서, 검색 기술의 당업자들이 아는 바와 같이, 역의 키워드 색인은 질의시에 검색하기 위해 생성될 수 있다. 역의 키워드 색인을 검색하여, 검색 용어를 포함하는 페이지의 리스팅을 획득할 수 있다.

몇몇 실시예에서, 전체 용어 특수성 매개변수(예를 들어, 후술된 NTW 매개변수)가 이용되며, 그것은 페이지 내의 특정 용어의 모든 외양에 관련하는 페이지에 대해 정의된다. 정규화된 전체 용어 특수성 매개변수 NTW는 다음과 같이 정의된다:

NTW = log(STW/ASTW)

STW는 특정 페이지 내의 용어의 외양 모두에 대한 용어 특수성(TW) 값 모두의 합이다. ASTW는 모두 페이지의 용어에 대한 모든 STW 매개변수 값의 평균이며, 그 용어는 전체 인트라넷에 걸쳐 나타난다. NTW가 페이지 내의 용어에 대한 정규화된 전체 용어 특수성인 반면, STW 대 ASTW의 비율은 원시 정규화된 전체 용어 특수성을 제공한다. NTW는 편의상 로그로 표현되며, 로그의 밑은 10 또는 또 다른 값일 수 있다. 로그의 이용은 계산의 편이를 위해 NTW 값의 범위를 제한한다.

상술된 예시적인 수학식은, 예를 들어 검색 엔진 쿼리에 대한 응답을 보조하며, 이는 도 5를 참조하여 설명된다.

다음으로 도 5를 참조하면, 본 발명의 특징은, 예를 들어 사용자 쿼리에 대한 검색 엔진의 응답을 개선시키는데 이용될 수 있다. 도 5는 본 발명의 일 실시예에 따라, 인트라넷에 대해서 검색 엔진 쿼리를 처리하기 위한 방법(500)의 순서도이다. 방법(500)은 적어도 하나의 검색 용어를 포함하는 쿼리를 수신하는 것(510), 및 그 쿼리의 특수성의 정도를 판정하는 것(520)을 포함한다.

판정하는 단계(520)는 임의의 적절한 방식으로 행해질 수 있다. 일 실시예에서, 특수성은 쿼리에 응답하여 반환되는 잠재적 페이지 개수에 대해 역관계를 갖는다고 판정된다. 예를 들어, 몇몇 검색 용어 중 임의의 것이 반환된 페이지 내에 나타날 것을 명시적으로 요구하는 쿼리는 이러한 잠재적 페이지 개수를 제공할 것이다. 대안적으로, 그 페이지 개수는, 예를 들어 검색 용어 모두를 포함하는 페이지 개수일 수 있다. 모든 검색 용어가 페이지 내에 상주하는 것을 명시적으로 요구하거나, 어떤 선호사항도 없어서 이 요청사항이 디폴트이면, 이러한 잠재적 페이지 개수가 획득될 수 있다.

방법(500)은 쿼리에 매칭하는 것으로서 인트라넷의 적어도 몇몇 페이지를 선 택하는 것(530)을 포함한다. 선택하는 것(530)은 적어도 부분적으로 쿼리의 특수한 정도에 종속하는 선택 프로세스를 이용할 수 있다. 방법(500)은 또한 쿼리에 응답하여 프리젠테이션을 위해 적어도 몇몇의 선택된 페이지들을 랭킹시키는 것(540)을 포함한다. 랭킹시키는 것(540)은 적어도 부분적으로 쿼리의 특수한 정도에 종속하는 랭킹 프로세스를 이용할 수 있다.

랭킹하는 것(540)은 쿼리의 특수성의 레벨에 관련된 페이지 특수성의 레벨에 따라 랭킹 페이지를 한정할 수 있다. 그러므로, 쿼리가 특수하다고 인식되면, 프리젠트된 랭킹은 특수한 컨텐츠를 갖는 페이지에 우선권을 줄 수 있다. 쿼리가 일반적이거나 포괄적이라고 인식되면, 랭킹은 일반적이거나 포괄적인 주제 컨텐츠를 갖는 페이지에 우선권을 줄 수 있다.

예를 들어, 방법(500)에 대한 일 구현에서, 각각의 선택된 페이지에 관련성 값 R을 할당함으로써, 페이지는 소팅된 순서로 랭킹될 수 있다. 예를 들어, 선택된 페이지는 쿼리 내의 모든 용어가 최적으로 매칭된 것들일 수 있다. 각각의 이러한 페이지에 할당된 R 값은 그 후 검색자에게 프리젠테이션하기 위해 선택된 페이지의 소트 순서를 판정할 수 있다.

페이지 관련성 값 R을 계산하기 위한 수학식에 대한 하나의 예시적 세트는 다음과 같이 정의되며:

R = log(r), 여기서

NDL = IDL -TDL 이고,

r은 ((twK*NTW)+(nlK*NDL))의 합이다.

이 수학식 내의 매개변수는 다음과 같이 정의된다.

NDL은 특정한 쿼리에 응답하여 반환될 각각의 페이지에 대한 정규화된 페이지 레벨이다. NDL 매개변수는 검색 결과와 선택된 페이지의 특수성 간의 연결을 제공한다. 다음에 설명된 바와 같이, 선택된 페이지는 검색자에게 프리젠팅된 결과 리스트를 더욱 다듬기 위해 상술된 용어 매개변수에 따라 더 높은 가중치를 가질 수 있다.

IDL은 인트라넷에 걸쳐있는 모든 페이지 레벨 중 최대로 식별된 깊이에 있는 페이지에서부터 특정 페이지까지의 거리에 대응하는 리버스 페이지 레벨(reverse page level)이며, 최대로 깊은 곳의 레벨로부터 떨어져 있는 각각의 다음 레벨은 이전 레벨로부터 1만큼 감소된 것으로 판정된다. 그러므로, IDL은 상술된 바와 같이 파싱하는(310) 동안 판정되는 페이지 레벨 매개변수 DL과 유사하지만, 페이지 레벨은 루트 페이지보다는 인트라넷의 모든 식별된 페이지의 최대로 깊은 곳의 레벨에서부터 측정된다.

임계 페이지 레벨 TDL은 주제 컨텐츠가 중요하다고 고려되는 최소 페이지 레벨이다. TDL의 값은 특정 쿼리의 특수성에 응답하여 선택되며, 쿼리에 응답하여 수많은 페이지 히트에 의해 판정된다. TDL은 경험적으로 판정될 수 있다. 예를 들어, TDL 값의 범위는 페이지 히트 개수의 범위로 할당될 수 있다. 예를 들어, 최대 페이지 레벨이 10이면, 특정 쿼리의 특정한 특수성은 5의 TDL 값을 할당받을 수 있다. 이 예에서, NDL의 계산은 5 미만의 페이지 레벨을 갖는, 히트 리스트 내의 모든 페이지를 삭제할 것이다.

그러므로, TDL은 쿼리의 특수성에 종속할 수 있다. 그러므로, 예를 들어, 루트에서부터 좀 더 멀리 떨어져 있는 페이지 레벨이 보다 특수한 쿼리에 대해 좀 더 관련성이 있는 경향이 있기 때문에, 특수한 쿼리에 대해서 보다 깊은 TDL이 선택될 수 있다. IDL 매개변수에서 TDL를 빼면, 음의 NDL 매개변수 값을 갖는 페이지는 남는다. 그러므로, 쿼리 용어를 포함한 페이지들의 리스트 내에 남아있는 페이지는 TDL 매개변수의 액션에 의해 선택된 레벨보다 큰 특수성을 갖는 페이지이다.

R은 쿼리에 응답하여 선택된 페이지에 할당된 관련성이다. R은 특정 쿼리에 응답하여 검색에 의해 반환된 페이지들의 리스트의 소트 순서를 제어한다. R은 원시 관련성 값(이하 r 참조)의 로그로 계산되므로, R 값의 범위를 0 내지 1 사이로 제한한다. 컴퓨터적인 목적을 위해 값의 범위를 제한하는 것이 편리할 수 있다. 또한, 계산된 값은, 예를 들어 4자리 숫자만을 이용하도록 잘릴 수 있으며, 검색이 컴퓨터적 요청사항을 강요하여 더 제한한다.

r은 쿼리에 응답하여 선택된 각 페이지의 원시 관련성이며, 용어 가중치 계수(twK, 이하 참조)에 의해 조정되는 정규화된 전체 용어 특수성(NTW) 매개변수와 페이지 가중치 계수(nlK, 이하 참조)에 의해 조정된 정규화된 페이지 레벨(NDL)의 합이다. 그러므로, 원리 관련성은 페이지 특수성 매개변수와 페이지 내 용어 특수성 매개변수 모두에 관련된 페이지 히트의 랭킹을 제공한다.

twK는 용어 레벨 계수이며, 원시 관련성 r의 계산시에, 정규화된 페이지 레벨 NDL에 가해진 영향과 정규화된 전체 용어 특수성(NTW)에 가해진 영향 간의 균형 을 맞추기 위해 페이지 레벨 계수(nlK 참조)와 함께 이용된다. nlK는 페이지 레벨 계수이다. twK 및 nlK는 관련성 판정 시에 용어 특수성과 페이지 특수성의 이용 간의 바람직한 균형을 획득하도록 선택된다.

이러한 균형은 임의의 적절한 방식으로 선택될 수 있다. twK 및 nlK는 모든 쿼리에 대해서 상수이거나, 상이한 쿼리에 대해서 조정될 수 있다. twK 및 nlK는 적어도 부분적으로 용어 레벨 값 내의 NTW 값의 유닛과 페이지 레벨 값 내의 NDL 값의 유닛을 조정하도록 선택될 수 있다.

이러한 상수는, 예를 들어 0, 1, 2 또는 그보다 높은 값이 할당될 수 있는데, 이것은 관련성 계산 시에 페이지 레벨 및 용어 특수성에 주어진 상관적인 가중치를 다양하게 하기 위해서이다. 이 값은 임의의 다양한 방식으로 선택될 수 있다. 예를 들어, 상이한 할당된 상수 값으로 생성된 검색 결과가 샘플 사용자 그룹에게 프리젠트될 수 있으므로, 그 사용자 그룹은 그 후 어떠한 결과 세트가 가장 만족스러운지를 식별할 수 있다. 그러므로, 예를 들어, 상수 값은 주관적인 경험적 접근법을 통해 선택될 수 있다.

상술된 바와 같이, 일 실시예에서, 쿼리의 검색 용어 또는 검색 용어들의 포괄성은 잠재적인 결과 리스트 내의 페이지 개수에 대한 함수이다. 예를 들어, Microsoft.com 웹 사이트 상에서 "windows"란 단어를 포함하는 쿼리는 수백 수천 개의 페이지와 매칭할 것이며, 본 발명의 일 실시예에 따르면, 그 사이트에 대해서 상대적으로 포괄적인 검색 용어로 취급된다. "window"란 용어가 포괄적인 쿼리임을 이해하면, 본 발명의 원리에 따라, 검색엔진은 페이지의 결과 세트 내의 일반적 인 결과를 푸시(push)할 수 있는데, 즉 광범위한 주제를 갖는 페이지가 검색 엔진의 사용자에게 프리젠팅된 결과 리스트의 상위로 푸시될 것이다.

반대로, 상대적으로 적은 페이지 히트를 갖는 쿼리는 상대적으로 특수하다고 판단될 수 있다. 따라서, 루트 페이지에서부터 좀 더 먼 거리에의 페이지 히트는 보다 큰 가중치가 주어져, 그들을 결과 리스트의 상위로 푸시할 수 있다. 루트 페이지에 인접하게 존재할 수 있는 보다 낮은 특수성 값에 관련된 포괄적 컨텐츠 페이지는 유사하게 리스트의 상위로부터 멀리 푸시될 수 있다. 검색자는 그 후 검색에 대해, 관련성에 대한 보다 큰 특수성을 갖는 페이지로 향하여, 그에 따라 성공적인 검색의 가능성 및/또는 속도를 증가시킬 수 있다.

예를 들어, 상술된 프로세스에도 불구하고, 보다 짧은 경로를 갖는 페이지에는 포괄적인 쿼리에 응답하여 보다 큰 가중치가 주어질 수 있는 반면, 보다 긴 경로를 갖는 페이지에는 특수한 쿼리에 응답하여 보다 큰 가중치가 주어질 수 있다. 그러므로, 예를 들어, 특수한 쿼리가 리스트의 상위로 푸시된 특수한 페이지를 갖는 페이지의 리스트를 수신할 수 있는 반면, 포괄적인 쿼리는 리스트의 상위로 푸시된 포괄적인 페이지를 갖는 페이지의 리스트를 수신할 수 있다.

그러므로 포괄적인 쿼리를 프리젠팅하는 사용자는 협의적인 바람직하지 않은 정보를 갖고 있는 많은 페이지들을 소팅할 필요가 없다. 이 사용자는 바람직한 정보를 갖고 있는 페이지로 사용자를 더욱 이끌 수 있는 포괄적인 주제 페이지와 함께 시작할 수 있다. 마찬가지로, 특수한 쿼리를 프리젠팅하는 사용자는 특수한 검색을 만족시키기에 너무 포괄적인 정보를 갖고 있는 페이지를 검사하는 것을 피할 수 있다.

여기에 약술된 방법(100, 300)의 몇몇 특징은 다양한 오퍼레이팅 시스템 또는 플랫폼 중 임의의 하나를 채용하는 하나 이상의 프로세서 상에서 실행가능한 소프트웨어로서 코딩될 수 있다. 이외에, 이러한 소프트웨어는 수많은 적절한 프로그래밍 언어 및/또는 종래 프로그래밍 또는 스크립팅 툴 중 임의의 것을 이용해 작성될 수 있으며, 그리고 또한 실행가능한 기계 언어 코드로서 컴피일링될 수 있다.

"프로그램"이란 용어는 상술된 바와 같은 본 발명의 다양한 양상을 구현하기 위해 컴퓨터 또는 다른 프로세서를 프로그래밍하는데 채용될 수 있는 임의의 유형의 컴퓨터 코드 또는 명령어의 세트를 의미하도록 여기에서 일반적 의미로 이용된다는 점을 이해해야 한다. 이외에, 본 발명의 일 양상에 따르면, 실행시에 본 발명의 방법을 수행하는 하나 이상의 컴퓨터 프로그램은 단일 컴퓨터 또는 프로세서 상에 상주해 있을 필요는 없지만, 수많은 상이한 컴퓨터 또는 프로세서들에 걸쳐 모듈 방식으로 분산되어, 본 발명의 다양한 양상을 구현할 수 있다.

본 발명의 다양한 양상은 단독으로, 조합으로, 또는 상술된 실시예에서 구체적으로 설명되지 않은 다양한 정렬로 이용될 수 있으며, 그러므로 그것의 응용이 상기 설명에 설명되거나 도면에 예시된 컴포넌트의 세부사항 및 정렬에 제한되지 않는다. 특히, 각각의 상위 레벨 활동은 다양한 서브 활동 중 임의의 것을 포함할 수 있다. 예를 들어, 여기에 설명된 상위 레벨 활동은 여기에 설명된 서브 활동 중 하나 또는 임의의 조합을 포함할 수 있거나, 패치 관리 프로세스에 명령하고 그것을 관리하는 계층 구조를 다듬는 다른 활동을 포함할 수 있다.

청구 구성요소를 수식하기 위해 청구항에서 "제1", "제2", "제3" 등의 순서를 나타내는 용어의 이용은 우선권, 선행, 다른 청구 구성요소들에 대한 한 청구 구성요소의 순서, 또는 방법의 단계들이 수행되는 일시적인 순서를 암시하는 것이 아니라, 청구 구성요소들을 구별하기 위해 단지 어떤 이름을 갖는 하나의 청구 구성요소를 동일한 이름을 갖는 또 다른 구성요소로부터 구별하는 레이블로서 이용될 뿐이다.

또한, 여기에 이용된 문체와 전문용어는 설명을 위한 것일 뿐, 제한하기 위한 것으로 간주되어서는 안된다. "포함하다", "갖는다" 및 여기에 이용된 이들의 변형은 그 다음에 열거된 항목, 추가된 항목 및 그것의 등가물을 포함하는 것을 의미한다.

본 발명은 인트라넷용 검색 엔진을 제공한다.

Claims

인트라넷의 복수의 페이지 - 각각의 페이지는 계층적 구조로 정렬된 복수의 용어를 포함함 - 의 검색 결과를 랭킹시키는데 사용되는 데이터를 생성하는, 컴퓨터의 프로세서에 의해 수행되는 방법으로서,

(A) 상기 복수의 용어를 식별하기 위해 상기 복수의 페이지를 파싱하는 단계 - 상기 복수의 페이지 중 적어도 하나의 페이지는 상기 복수의 용어 중 하나의 용어의 복수의 인스턴스(instance)를 포함함 - ;

(B) 각각의 식별된 용어의 각각의 인스턴스와 상기 식별된 용어가 나타나는 상기 복수의 페이지의 각각의 페이지에 대해서, 상기 인스턴스의 특수성 값(specificity value)을 자동적으로 계산하는 단계 - 상기 특수성 값은, 상기 페이지의 상기 식별된 용어의 각각의 인스턴스에 대하여, 상기 인스턴스와 연관된 태그 파라미터와 상기 페이지의 상기 계층적 구조 내의 상기 인스턴스의 용어 레벨의 조합에 기초하여 계산되며, 상기 용어 레벨은 상기 페이지의 적어도 하나의 루트 레벨로부터 측정됨 - ;

(C) 상기 식별된 용어의 결합된 계산된 특수성 값을 생성하기 위해, 각각의 식별된 용어와 상기 식별된 용어가 나타나는 상기 복수의 페이지의 각각의 페이지에 대하여, 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스의 상기 계산된 특수성 값들을 결합하는 단계;

(D) 각각의 식별된 용어와 상기 식별된 용어가 나타나는 상기 복수의 페이지의 각각의 페이지에 대하여, 상기 식별된 용어의 상기 결합된 계산된 특수성 값과 상기 페이지의 식별자를 저장하는 단계; 및

(E) 상기 복수의 페이지의 복수의 매칭 페이지를 랭킹시키는 단계 - 상기 매칭 페이지는 상기 복수의 페이지에서 수행되는 검색 쿼리(search query)에 응답하여 반환되고, 상기 랭킹시키는 단계는 각각의 매칭 페이지에 대하여, 상기 쿼리의 용어를 매칭하는 식별된 용어를 위해 저장된 상기 결합된 계산된 특수성 값과 상기 쿼리와 연관된 특수성 정도 간의 비교에 기초하고, 상기 매칭 페이지는 상기 식별된 용어를 위해 저장된 상기 페이지에 대한 상기 식별자에 기초하여 상기 쿼리의 용어를 매칭하는 식별된 용어를 포함하는 것으로 식별됨 -

를 포함하는 데이터 생성 방법.
제1항에 있어서, 상기 계층적 구조는 복수의 레벨을 포함하고, 상기 식별된 용어의 상기 인스턴스의 상기 특수성 값을 자동적으로 계산하는 상기 단계는, 상기 적어도 하나의 루트 레벨의 레벨로부터 상기 식별된 용어의 상기 인스턴스의 상기 용어 레벨까지의 최단 경로 내의 레벨의 수를 판정하는 단계를 더 포함하는, 데이터 생성 방법.
제2항에 있어서, 상기 복수의 페이지 중 적어도 하나의 페이지는 HTML에 따라서 정렬되고, 상기 적어도 하나의 루트 레벨은 HTML 루트 태그와 연관되는, 데이터 생성 방법.
제3항에 있어서, 상기 적어도 하나의 페이지의 상기 계층적 구조 내의 상기 레벨은 상기 페이지의 상기 HTML 구조 내의 노드의 레벨에 연관되는, 데이터 생성 방법.
제4항에 있어서, 상기 HTML 구조 내의 상기 노드의 레벨은 포매팅 특성(formatting characteristics)을 기술하는 태그 파라미터에 적어도 부분적으로 연관되는, 데이터 생성 방법.
제5항에 있어서, 상기 포매팅 특성은 특유한 폰트, 특유한 색, 하이퍼텍스트 링크, 제목, 코딩 태그 및 메타 태그를 포함하는 태그 유형의 그룹으로부터 선택된 적어도 하나의 태그 유형을 포함하는, 데이터 생성 방법.
제6항에 있어서, 각각의 식별된 용어의 각각의 인스턴스에 대한 상기 특수성 값을 자동적으로 계산하는 상기 단계는, 상기 식별된 용어와 연관된 태그 유형의 특수성 가중치 요소에 적어도 부분적으로 연관하여 수행되는, 데이터 생성 방법.
제7항에 있어서, 상기 태그 유형의 상기 특수성 가중치 요소는 상기 인트라넷에서의 상기 태그 유형의 빈도수에 적어도 부분적으로 기초하는, 데이터 생성 방법.
제1항에 있어서, 상기 단계(B)는 각각의 매칭 페이지에 대해 결정된 특수성 값에 적어도 부분적으로 기초하여 상기 식별된 용어의 상기 인스턴스의 상기 특수성 값을 계산하는 단계를 더 포함하는, 데이터 생성 방법.
제1항에 있어서, 상기 특수성 값은, 상기 계층적 구조의 루트 레벨에서부터의 상대적으로 짧은 거리를 갖는 식별된 용어의 인스턴스에 대한 특수성 값보다, 상기 계층적 구조의 상기 루트 레벨에서부터의 긴 거리를 갖는 식별된 용어의 인스턴스에 대해서 더 큰, 데이터 생성 방법.
인트라넷의 복수의 페이지 - 각각의 페이지는 계층적 구조로 정렬된 복수의 용어를 포함함 - 의 검색 결과를 랭킹시키는데 사용되는 용어 인덱스를 생성하는, 컴퓨터의 프로세서에 의해 수행되는 방법으로서,

(A) 상기 복수의 용어를 식별하기 위해 상기 복수의 페이지를 파싱하는 단계 - 상기 복수의 페이지 중 적어도 하나의 페이지는 상기 복수의 용어 중 하나의 용어의 복수의 인스턴스를 포함함 - ;

(B) 상기 복수의 페이지 각각에 대하여,

(i) 각각의 식별된 용어의 각각의 인스턴스에 대해서, 상기 인스턴스와 연관된 태그 파라미터와 상기 페이지의 상기 계층적 구조 내의 상기 인스턴스의 용어 레벨의 조합에 기초하여 상기 인스턴스의 특수성 값을 자동적으로 계산하는 단계 - 상기 용어 레벨은 상기 페이지의 루트 태그로부터 측정됨 - ;

(ii) 상기 식별된 용어에 대한 결합된 특수성 값을 생성하기 위해, 각각의 식별된 용어에 대해서, 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스의 상기 계산된 특수성 값을 결합하는 단계; 및

(iii) 각각의 식별된 용어에 대해서, 상기 식별된 용어가 나타나는 상기 페이지 및 상기 식별된 용어에 대한 상기 결합된 특수성 값을 나타내는 정보와 결합하여 상기 식별된 용어를 식별하는 정보를 상기 용어 인덱스에 저장하는 단계

를 포함하는, 용어 인덱스 생성 방법.
제11항에 있어서, 상기 식별된 용어의 상기 태그 파라미터는 상기 식별된 용어와 연관된 태그의 태그 형식과 연관되는, 용어 인덱스 생성 방법.
제12항에 있어서, 상기 태그 파라미터는 상기 태그 형식의 상기 인트라넷에서의 출현 빈도수와 연관되는, 용어 인덱스 생성 방법.
적어도 하나의 프로세서 상에서 실행되는 프로그램으로 인코딩된 컴퓨터 판독가능 저장 매체로서, 상기 프로그램은 상기 적어도 하나의 프로세서상에서 실행될 때, 인트라넷의 복수의 페이지 - 각각의 페이지는 계층적 구조로 정렬된 복수의 용어를 포함함 - 의 검색 결과를 랭킹시키는데 사용되는 데이터를 생성하는, 컴퓨터의 프로세서에 의해 수행되는 방법을 수행하며, 상기 방법은,

(A) 상기 복수의 용어를 식별하기 위해 상기 복수의 페이지를 파싱하는 단계 - 상기 복수의 페이지 중 적어도 하나의 페이지는 상기 복수의 용어 중 하나의 용어의 복수의 인스턴스를 포함함 - ;

(B) 상기 복수의 페이지 내의 각각의 식별된 용어의 각각의 인스턴스에 대해서, 상기 인스턴스와 연관된 태그 파라미터와 상기 인스턴스의 상기 페이지의 상기 계층적 구조 내의 상기 인스턴스의 용어 레벨의 조합에 기초하여, 상기 인스턴스의 특수성 값을 계산하는 단계 - 상기 용어 레벨은 상기 인스턴스의 상기 페이지의 루트 태그로부터 측정됨 - ;

(C) 상기 식별된 용어의 결합된 계산된 특수성 값을 생성하기 위해, 각각의 식별된 용어와 상기 식별된 용어가 나타나는 상기 복수의 페이지의 각 페이지에 대해서, 상기 페이지 내의 상기 식별된 용어의 각각의 인스턴스의 상기 계산된 특수성 값을 결합하는 단계; 및

(D) 각각의 식별된 용어와 상기 식별된 용어가 나타나는 상기 복수의 페이지의 각각의 페이지에 대하여, 상기 식별된 용어의 상기 결합된 계산된 특수성 값과 상기 페이지의 식별자의 정보를 저장하는 단계를 포함하는, 컴퓨터 판독가능 저장 매체.
제14항에 있어서, 상기 계층적 구조는 적어도 하나의 루트 레벨을 포함하는 복수의 레벨을 포함하고, 상기 (B) 단계는 상기 적어도 하나의 루트 레벨의 레벨로부터 상기 식별된 용어의 상기 인스턴스의 상기 용어 레벨로의 최단 경로에서 레벨의 수를 판정하는 단계를 더 포함하는, 컴퓨터 판독가능 저장 매체.
제11항에 있어서, 각각의 식별된 용어 및 상기 복수의 페이지 각각에 대하여, 상기 페이지의 길이에 의해 상기 식별된 용어에 대한 상기 결합된 특수성 값을 정규화(normalize)하는 단계를 더 포함하는, 용어 인덱스 생성 방법.
제11항에 있어서, 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스의 상기 계산된 특수성 값을 결합하는 상기 단계는, 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스와 연관된 상기 계산된 특수성을 합하는 단계를 포함하는, 용어 인덱스 생성 방법.
제11항에 있어서, 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스의 상기 계산된 특수성 값을 결합하는 상기 단계는 상기 페이지 내의 상기 식별된 용어의 상기 인스턴스의 상기 계산된 특수성 값을 평균화하는 단계를 포함하는, 용어 인덱스 생성 방법.
제1항에 있어서, 상기 단계(B)는 페이지의 용어에 대한 평균화된 전체 용어 특수성 값(NTW)을 계산하는 단계를 포함하며, 상기 NTW는 수식 NLW=NL-TTL; TW=TagW+NLW; NTW=log(STW/ASTW) 에 따라서 상기 페이지의 상기 용어의 모든 출현과 연관되고,

NL은 상기 페이지의 루트 태그로부터 측정된 바와 같은, 상기 페이지의 상기 계층 내의 상기 용어의 원시(raw) 용어 레벨이고,

TTL은 상기 용어를 포함하는 상기 인트라넷의 모든 페이지에 대한 상기 용어의 정규화된 최소 네스팅(nesting) 레벨을 정의하는 임계 용어 레벨이며,

TagW는 상기 용어의 직접적인 부모의 HTML 태그 유형에 기초하여 상기 용어의 것이라고 고려되는 태그 특수성 매개변수이고,

STW는 특정 페이지 내의 용어의 모든 출현에 대한 상기 모든 TW 값의 합이며,

ASTW는 상기 인트라 넷에서 상기 용어가 나타나는 모든 페이지에 대한 용어의 모든 STW 파라미터 값의 평균인, 데이터 생성 방법.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제