KR20060017765A - 개념 네트워크 - Google Patents

개념 네트워크 Download PDF

Info

Publication number
KR20060017765A
KR20060017765A KR1020057020733A KR20057020733A KR20060017765A KR 20060017765 A KR20060017765 A KR 20060017765A KR 1020057020733 A KR1020057020733 A KR 1020057020733A KR 20057020733 A KR20057020733 A KR 20057020733A KR 20060017765 A KR20060017765 A KR 20060017765A
Authority
KR
South Korea
Prior art keywords
conceptual network
network
web
information
conceptual
Prior art date
Application number
KR1020057020733A
Other languages
English (en)
Inventor
젱 첸
쉥핑 리우
웨이-와잉 마
Original Assignee
마이크로소프트 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 마이크로소프트 코포레이션 filed Critical 마이크로소프트 코포레이션
Publication of KR20060017765A publication Critical patent/KR20060017765A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/951Indexing; Web crawling techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9532Query formulation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9538Presentation of query results
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/954Relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/959Network
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/953Organization of data
    • Y10S707/96Object-relational
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99931Database or file accessing
    • Y10S707/99933Query processing, i.e. searching
    • Y10S707/99935Query augmenting and refining, e.g. inexact access
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10TECHNICAL SUBJECTS COVERED BY FORMER USPC
    • Y10STECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y10S707/00Data processing: database and file management or data structures
    • Y10S707/99941Database schema or data structure
    • Y10S707/99943Generating database or data structure, e.g. via user interface

Landscapes

  • Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

사용자 질의에 응답하여 생성될 수 있는 개념 네트워크(100)가 개시된다. 일 실시예에서, 개념 네트워크(100)는 검색 도구와 함께 이용된다. 검색 도구는 복수의 데이터 저장 위치를 검색한다. 각각의 데이터 저장 위치는 노드(302)로 배열된다. 노드들 중 특정 노드는 적어도 하나의 링크(306)에 의해 연결된다. 개념 네트워크는 링크(306)에 기초하여 노드들 중 특정 노드들의 일부분을 선택하는데, 여기서, 적어도 하나의 링크는 컨텐츠 목적으로 사용된다.
개념 네트워크, 웹 사이트, 노드

Description

개념 네트워크{CONCEPT NETWORK}
본 발명은 검색 도구, 특히, 디스플레이된 검색된 결과에 관한 것이다.
인터넷과 같은 네트워크의 급속한 성장으로, 검색의 정확도 및 품질이 점점 중요해지고 있다. 그러나, 다수의 사용자들은, 검색 엔진을 이용한 검색이 매우 많은(아마도, 수천개의) 결과를 산출하며 그것들 중 다수는 그 제출된 질의에 거의 적용될 수 없다는 것을 발견한다. 그 자체만으로도, 다수의 사용자들은 검색 결과에 불만족한다. 몇몇 사용자들은 또한, 질의에 대해 반환된 매우 많은 결과가 인터넷에 포함된 중요한 정보를 모호하게 한다는 것을 발견한다.
대부분의 종래 기술의 검색 엔진은 주로, 키워드 비교에 기초한다. 세계 상위 N개의 디지털 카메라 제조업체를 묻는 질의를 생각해보자(여기서 N는 정수). 키워드 비교 검색 엔진은 주요 용어 "디지털 카메라"를 포함하는 몇몇 웹 페이지, 및 주요 용어 "제조업체"를 포함하는 다른 웹 페이지들을 반환할 것이다. 따라서, 키워드 비교 검색 엔진에서 반환되는 디지털 카메라 제조업체에 관련한 총 반환 결과의 퍼센티지는 비교적 작다. 키워드 비교 검색 엔진은 또한, 한 특정 디지털 카메라 제조업체가 그들의 웹 페이지에 기초하여 다른 디지털 카메라 제조업체보다 더 크거나 더 잘 알려져 있는지(또는, 임의의 다른 수량화가능한 비교)를 비교할 방법을 갖지 못한다. 그러한 것으로, 주로 키워드 비교에 기초한 종래 기술의 검색 엔진은 종종, 매우 많은 결과들에 이르고, 그 중 다수는 질의와 관련이 적다. 그러한 키워드 비교 검색 엔진은 웹 사이트들의 구조에 기초하여 검색된 복수의 웹 사이트들 중 가장 적용가능한 웹 사이트를 식별할 수 없다.
다른 양태에서, 다수의 사용자들은 유용한 검색 결과를 획득하기 위해서는 자신이 매우 많은 질의를 통해 검색해야 한다고 생각한다. 그 자체로, 사용자는 그 질의(및 관련도에 대한 검색 결과의 검사)가 모든 관련있는 응답이 고려될 것을 보장하기 위해 매우 많은 양의 시간을 요구한다고 생각한다. 그러한 시간이 소비된 후에도, 사용자는 종종, 방대한 양의 관련없는 정보 내에서 가장 중요한 검색 결과가 손실될 수 있다고 생각한다.
또 다른 양태에서, 다수의 인터넷 어플리케이션은 검색 엔진의 정밀도를 향상시키기 위해, (조지 A 밀러 교수의 지휘하에 프린스턴 대학에서 개발된) WordNet®과 같은 사전편찬 도구를 이용하여 사용자의 질의를 확장한다. WordNet은 온라인 사전 참조 시스템이다. WordNet을 이용하여, 명사, 동사, 형용사 및 부사가 동의어 세트로 조직되고, 이 각각은 하나의 근원적 사전적 개념을 나타낸다. 서로 다른 관계가 동의어 세트를 링크한다. WordNet에서는, 사용자는 웹 페이지에 관련된 자신의 개인적인 분류를 수동으로 입력한다. 따라서, WordNet은 인터넷 및 다른 네트워크화된 컴퓨터 시스템의 급속한 성장 및 동적인 변화를 따라잡도록 적합하게 구성되어 있지 못하다. 예를 들어, 웹 내의 단어들 중 절반 이상은 WordNet에 나타나지 않는다.
본 발명은 개념 네트워크에 관한 것이다. 개념 네트워크는 사용자 질의에 응답하여 생성될 수 있다. 일 실시예에서, 개념 네트워크는 검색 도구와 함께 사용된다. 검색 도구는 복수의 데이터 저장 위치를 검색한다. 각각의 데이터 저장 위치는 노드로 배열된다. 이 노드들 중 특정 노드는 적어도 하나의 링크에 의해 연결된다. 개념 네트워크는 링크에 기초하여 노드들 중 특정 노드들의 일부분을 선택하며, 이 때, 적어도 하나의 링크는 컨텐츠 목적으로 사용된다.
도면 전체에 걸쳐서, 동일한 번호가 유사한 특징들 및 컴포넌트들을 참조한다.
도 1은 개념 네트워크를 포함하는 컴퓨터 환경의 일 실시예의 블럭도.
도 2는 개념 네트워크의 일 실시예를 개발하는 웹 사이트 검색 부분의 다른 실시예의 블럭도.
도 3은 개념 네트워크를 설정하는 데 사용되는 도메인에 대한 분류 구성의 일 실시예의 블럭도.
도 4는 컴퓨터 환경의 디스플레이 상에 나타날 수 있을 때, 개념 네트워크의 디스플레이된 결과의 투시도를 도시.
도 5는 웹 사이트 구조 분석 알고리즘의 일 실시예의 순서도.
도 6은 개념 네트워크를 사용자에게 도출하거나 디스플레이하는 데 사용될 수 있는 컴퓨터 환경의 일 실시예의 블럭도.
본 명세서는 개념 네트워크의 다양한 실시예를 제공한다. 개념 네트워크에서, 질의는 검색될 개념와 동등시 된다. 개념 네트워크에서, 복수의 검색 결과 정보는 구조적으로, 사용자에게 디스플레이되는 복수의 개념들로 조직된다. 본원에서 설명되는 개념 네트워크는 질의의 다양한 개념에 대한 검색 결과의 관련도에 따라 검색 결과를 회수 및/또는 디스플레이한다(검색 결과는 개념에 기초하여 정렬됨). 개념 네트워크는 사용자가 사용자 질의에 대한 검색 결과의 관련도에 기초하여, 다양한 검색 결과, 다양한 검색 결과의 컨텐츠, 또는 다양한 검색 결과의 일부분에 액세스하게 하도록 구성될 수 있다. 그러한 개념 네트워크는 질의에 기초하여 컴퓨터 환경에서 생성된다. "개념 네트워크"라는 용어의 일 양태는 사용자가 개념을 이해하고 액세스할 수 있도록 하는 방식으로 개념들을 개념 네트워크로 그룹핑하는 것에 관련된다.
개념 네트워크는 일반적으로 임의의 컴퓨터 환경 또는 컴퓨터 시스템에 적용될 수 있지만, 개념 네트워크의 일 실시예는 특히 인터넷에 관한 것이다. 개념 네트워크의 인터넷 실시예에서, 사용자는 질의를 입력할 수 있고, 디스플레이된 출력 개념 네트워크는 사용자에 의해 선택될 수 있는 개념들의 목록일 수 있다. 예를 들어, 사용자가 "전자 시스템"을 질의하면, 디스플레이된 개념 네트워크는 휴대전화, 컴퓨터, 오디오 시스템, 비디오 시스템 등과 같은 다양한 개념을 포함할 수 있다. 사용자는 거기서, 개념 네트워크로서 디스플레이된 이러한 개념들 중 하나를 선택하여 더 특정적인 검색 결과를 디스플레이할 수 있다.
개념 네트워크의 일 실시예는 도 3과 관련하여 설명되는 것과 같은 복수의 상호연결된 개념들을 디스플레이하는 큰 연결 그래프를 포함한다. 종래 기술의 검색 엔진으로부터의 검색 결과에서와 같이, 개념 네트워크는 사용자 질의에 기초하여 도출된다. 개념 네트워크는 종래 기술의 검색 엔진과 비교하여 사용자 질의에 대한 응답의 정확도를 증가시킨다. 또한, 개념 네트워크는 키워드 질의에 의존하는 종래 기술의 검색 엔진들 사이에서 만연되고 있는 매우 많은 관련없는 검색 결과들을 제한한다.
도 1은 개념 네트워크(100)를 생성하고 디스플레이하도록 구성된 컴퓨터 환경(50)의 실시예의 블럭도를 도시한다. (컴퓨터는 또한 독립형 컴퓨터일 수 있지만,) 컴퓨터 환경(50)은 선택적인 네트워크 부분(72)을 포함할 수 있다. 컴퓨터 환경(50)은 검색 도구(74) 및 디스플레이 도구(75)를 포함한다. 검색 도구(74) 및 디스플레이 도구(75)의 일부분은 개념 네트워크(100)의 일 실시예의 일부분을 포함한다. 개념 네트워크(100)는 검색 결과의 구조화된 표시를 사용자에게 디스플레이해 주는 사용자 인터페이스로서 제공되며, 검색 결과들은 각각의 반환된 검색 결과의 관련도를 나타내기 위해 사용자에게 예시될 수 있는 개념에 따라 구조화 또는 정렬된다. 종래 기술의 검색 엔진은 일반적으로 적용가능한 웹 페이지들 등의 목록을 반환하지만, 본 명세서에서 설명되는 반환된 개념 네트워크는 예를 들어, 자신의 컨텐츠에 따라 구조적으로 배열된 복수의 웹 페이지들을 포함한다. 개념 네트워크(100)를 생성하기 위한 검색은 검색된 데이터(예를 들어, 웹 페이지)의 임의의 구조적 특징에 의해 나타난 바와 같이, 검색된 데이터 내에 포함된 정보에 의존 한다. 그것 자체로서, (검색된 데이터의 구조에 기초한) 개념 네트워크의 반환된 결과는 일반적으로, (키워드 매칭에 기초한) 종래 기술의 검색 엔진의 검색 결과보다 더 정확한 검색 결과를 제공한다.
개념 네트워크(100)를 포함하는 도 1의 컴퓨터 환경(50)은 일반화된 컴퓨터 환경을 도시한다. 개념 네트워크가 독립형 컴퓨터, 네트워크화된 컴퓨터 또는 메인프레임 컴퓨터를 포함한 검색 엔진을 사용할 수 있는 임의의 유형의 컴퓨터 환경에 잘 적용될 수 있다는 것을 고려한다. 그러나, 본 명세서는 컴퓨터 환경의 특정 실시예에 적용될 수 있는 것으로서 설명된다. 특히, 개념 네트워크(100)가 네트워크에 적용될 수 있다는 것을 고려한다. 더 상세하게는, 개념 네트워크(100)를 포함하는 컴퓨터 환경(50)의 일 실시예가 인터넷에 걸쳐 웹 사이트 상에 배열된 다양한 웹 페이지들을 포함한다는 것을 고려한다. 그러한 것으로서, 개념 네트워크의 특정 실시예는 인터넷과 같은 네트워크화된 컴퓨터 환경에서 검색 결과를 형성하는 데이터를 클라이언트에 제공하는 서버에 의존한다. 사용자에게 디스플레이되는 검색 결과의 구조화된 표시의 일 실시예는 인터넷 사용자에게 일반적으로 알려진 URL(Universal Resource Locator)에 기초한다. 인터넷의 특정 실시예에서 사용되는 URL의 구조적 양태가 본 명세서에서 설명된다. 본 명세서는 개념 네트워크에서 의존되는 데이터에 구조를 제공하는 것으로서 URL을 설명하지만, 개념 네트워크에 의해 의존될 수 있는 유사한 구조적 정보를 포함할 수 있는 임의의 다른 메커니즘이 본 명세서의 의도된 범주 내에 있다는 것을 강조한다.
컴퓨터 환경(50)의 특정 실시예에서, 질의를 제출하는 사용자는 관련된 개념 네트워크(100)에 귀착할 것이며, 여기서, 디스플레이된 결과는 관련된 일련의 개념으로 조직된다. 일반적으로, 매우 다양한 유형의 검색 결과는 매우 다양한 사용자 질의에 기초하여 획득될 수 있다. 그러한 것으로서, 본 명세서는 매우 많은 사용자 질의에 기초한 다양한 개념 네트워크들의 생성을 설명한다. 개념 네트워크의 일례는 "상위 N개" 질의{임의의 카테고리의 상위 "N"개를 요구하는 질의(N은 정수)}를 검색함으로써 산출된다. 개념 네트워크의 다른 예는 "전자기기를 설명하라"와 같은 복잡한 개념에 대한 검색에서 의미있는 결과를 산출한다. 개념 네트워크(100)는 (사용자의 질의에 의해 제공된 실제 키워드에 기초하여 검색 결과를 생성하는 종래 기술의 검색 엔진과 달리) 개념에 기초하여 생성된다. 개념 네트워크(100)는 사용자에게 좀 더 상세하고 정확한 정보를 제공할 수 있는 방법으로 질의에 응답하여 생성된다. 질의가 지닌 개념에 관련한 매우 많은 웹 사이트들을 고려하여 개념 네트워크의 특정 실시예가 예를 들어 생성된다. 개념 네트워크는 질의에 의해 제공된 개념에 대한 각각의 웹 사이트의 관련도를 고려하고, 그 후, 다양한 웹 사이트들 중 관련있는 부분들이 개념 네트워크를 통해 사용자에게 도시된다.
개념 네트워크(100)는 키워드 질의 결과에 의존하는 종래 기술의 검색 엔진보다 더 조직적이고 정확한 방식으로 다양한 질의로부터의 결과를 디스플레이할 수 있다. 더 직접적이고 정확한 질의 응답이 포함된다는 사실은 개념 네트워크가 사용자에게 디스플레이할 때 더 적은 웹 페이지들을 다루게 한다. 개념 네트워크에 의해 생성된 상대적으로 적은 웹 페이지들은 그들의 구조에 따라 조직될 수 있다. 예를 들어, 한 유형의 개념에 관한 웹 페이지들은 개념 네트워크의 일부분을 통해 액세스될 수 있는 한편, 다른 유형의 개념에 관한 웹 페이지들은 개념 네트워크의 다른 부분을 통해 액세스될 수 있다. 따라서, 개념 네트워크(100)는 (웹 사이트, 웹 사이트 컨텐츠 정보, 또는 웹 사이트들의 일부와 같은) 매우 많은 회수된 정보에 관한 구조 정보를 포함할 수 있다.
개념 네트워크(100)는 종래 기술의 검색 엔진에 의해 반환된 웹 페이지들의 목록을 통해 많은 개선을 제공한다. 개념 네트워크(100)의 특정 실시예는 대신에, (개념 네트워크를 디스플레이하는) 웹 페이지 상에 한 순서로 배열되는 구조화된 정보를 제공 및 디스플레이한다. 도 4에 도시된 바와 같이, 자동으로 생성 및 디스플레이된 개념 네트워크(100)는 쉽게 이해되고 해석될 수 있는 형태이며, 사용자에게 더 유용하다. 개념 네트워크(100)는 일반적으로 검색의 정밀도 및 속도를 향상시킬 뿐만 아니라, 종래 기술의 검색 엔진과 비교할 때 이러한 검색 동안 획득된 정보의 관련도를 증가시킨다.
개념 네트워크(100)는 일반적으로, 데이터의 구조적 정보(예를 들어, 포맷, 노드들 간의 링크 등)에 기초하여 도출되는 매우 많은 양의 정보를 디스플레이한다. 일 실시예에서, 회수된 정보에 대한 구조적 정보를 포함하는 임의의 장치가 사용될 수 있지만, 이 구조적 정보는 URL에 기초하여 획득된다. 인터넷에서, URL은 현재, 네비게이션을 위해 사용되어, 브라우저가 인터넷을 통해 특정 웹 페이지에 액세스하게 한다. URL은 또한, 개념 네트워크를 생성하기 위해, 본 명세서에서 설명되는 바와 같이 사용되는 구조적 정보(서로 다른 노드들 간의 관계를 설명함)를 제공하는 데 사용될 수 있다. 그러한 구조적 정보의 예는 예를 들어, 조상, 자 식, 형제, 또는 다른 노드에 대한 어떤 다른 관계가 되는 하나의 노드를 포함한다. 그러한 구조적 정보는 개념 네트워크(100)의 다양한 실시예에 의해 사용되며, 개념 네트워크 내의 서로 다른 노드들 간의 관계를 구조적으로 설명한다.
그러한 구조적 정보는 개념 네트워크(100)에서 단어의 분류(taxonomy) 또는 분급(classification)을 제공하는 데 사용된다. (종래 기술의 검색 엔진에서와 같이) 개념 네트워크의 분류는 특정 단어들의 의미와 관련된다. 종래 기술의 수동 검색 엔진은 의미를 변경하였거나 검색 엔진 내에서 추가 또는 삭제되는 많은 단어들을 고려하면서 현재의 분류를 유지하는 어려움을 갖는다. 개념 네트워크의 특정 실시예는 질의 동안 액세스된 웹 사이트들의 구조에 기초하여 도메인 및 사용자에 적용되는 자동으로 구성된 분류를 제공한다. 여기에서 설명되는 바와 같이, 개념 네트워크(100)가 데이터베이스, 온라인 쇼핑, 카메라, 개인용 컴퓨터, 핸드헬드 컴퓨터, 기계 학습 및 컴퓨터 제조를 포함한(이것으로 제한되지 않음) 매우 다양한 컴퓨터 시스템들에 적용될 수 있다는 것을 고려한다.
본 명세서는 인터넷 상에서 웹 사이트들을 분석하는 데 적용되는 개념 네트워크(100)를 설명하지만, 이러한 개념은 모든 네트워크화된, 독립형 및 다른 컴퓨터-기반의 검색 엔진에 적용될 수 있다는 것이 강조되어야 한다. 그러한 것으로서, 개념 네트워크를 인터넷, 또는 임의의 네트워크 또는 컴퓨터 시스템에 적용하는 것은 본 명세서의 의도된 범주 내에 포함된다.
본 명세서는 개념 네트워크(100)의 다양한 실시예, 및 그에 관련된 컴포넌트를 설명한다. 개념 네트워크(100)는 사용자 대신에 업데이트할 필요없이, 자동으 로 자신을 최신으로 유지하도록 설계된다. 질의들 사이에서, 컴퓨터 환경의 일 실시예는 연속적으로, 키워드 검색이 예를 들어, 웹 사이트 크롤러를 이용함으로써 인기있는 검색을 캐싱하는 유사한 방식으로 검색한다. 개념 네트워크(100)의 일 실시예는 수집된 개념에 관련된 모든 웹 사이트들을 크롤링하여, 개념 네트워크를 최신으로 유지할 것이다. 크롤링 프로세스는 전통적인 검색 엔진에 의해 수행되는 프로세스와 유사한 것으로 고려된다.
개념 네트워크(100)는 적당한 시간 내에서, 개념 네트워크를 이용하여 생성된 분류에 기초하여 (그 구조를 포함한) 일반적인 사용의 매우 많은 양의 키워드를 이해할 수 있다. 분류를 이용하여, 개념 네트워크는 구조화된 방식으로 키워드를 디스플레이한다. 그러한 것으로서, 개념 네트워크는 분류에 기초하여 단어의 의미를 해석할 수 있기 때문에, 개념 네트워크는 시소러스(thesaurus)로서 사용될 수 있다. 따라서, 개념 네트워크의 분류(즉, 사전) 내의 증가된 개수의 단어는 특히, 특정 기술, 법률 또는 그 외의 그러한 특수 단어를 찾기 위해 네트워크 또는 웹과 같은 컴퓨터 환경을 검색하는 사용자에게 유용하다.
거의 모든 전문직은 많은 개수의 특수 단어를 갖는데, 이들 중 다수는 해마다 연속적으로 업데이트된다. 예를 들어, 변호사, 세무사, 엔지니어 등과 같은 전문직 및 그룹은 각각 자신의 특정 분야의 사용 및 전문적 지식에 기초하여 자신의 분류를 갖는다. 수동 검색 엔진은 이러한 영역 각각에 대한 상대적으로 적은 개수의 사용자로 인해, 이러한 용어 다수를 업데이트하지 못한다. 개념 네트워크는 특수화되거나 흔하지 않거나 자주 업데이트되어 사용되는 이러한 용어 다수를 자동으 로 업데이트할 수 있다.
개념 네트워크(100)를 도출해내는 데 사용되는 웹 사이트 검색 부분(201)의 일 실시예가 도 2에 도시된다. 웹 사이트 검색 부분(201)의 실시예는 진입 페이지 및 크롤러 규칙 부분(202), 웹 사이트 구조 분석기(204), 웹 페이지 요약화 부분(206), 웹 사이트 구조 병합 도구(208) 및 개념 네트워크(100)를 포함한다. 웹 사이트 구조 분석기(204)는 하이퍼링크 큐(212), 웹 사이트 크롤러(214), HTML 파서(216), 함수-기반의 오브젝트 모델(Function-based Object Model; FOM) 분석기(218) 및 하이퍼링크 분석기(220)를 포함한다.
개념 네트워크(100)를 생성하기 위해, 웹 사이트 구조 분석기(204)는 웹 사이트들의 구조를 분석한다. 그 후, 웹 병합 도구{여기에서는 웹 사이트 구조 병합 도구(도 2의 208)라고도 불림}는 구조화된 웹 사이트들 중 서로 다른 사이트들로부터의 컨텐츠를 병합하여, 개념 네트워크를 이용하여 디스플레이될 수 있는 검색 결과를 산출한다.
링크는 전통적인 웹 사이트에서 네비게이트하는 데 사용된다. 각각의 개념 네트워크(100)를 생성하기 위해 웹 사이트 컨텐츠 구조를 분석하기 위해서, 링크는 네비게이션 용으로부터 컨텐츠 용으로 변환된다. 이러한 변환을 행하기 위해 다음의 단계가 수행된다.
a) 각각의 웹 사이트에 대한 구조화된 정보는 URL에서 인코딩된다. 그러한 것으로서, 특정 링크는 상향 링크, 하향 링크, 형제 링크 또는 십자형 링크인지에 상관없이, URL에서 인코딩된다. 이것은 종래 기술의 검색 엔진에 대해서는 행해지 지 않는다. 일 실시예에서, 링크 유형의 이러한 분별은 웹 사이트 크롤러의 방문 시퀀스를 고려함으로써 웹 사이트 크롤러(214)에 의해 수행된다.
b) 집합 및 연합 분석이 수행된다. 이 집합 및 연합 분석은 허브 및 서로 다른 기관의 위치를 결정하는 것을 포함한다. 일 실시예에서, 이것은 FOM 분석기(218)에 의해 수행될 수 있다.
c) 정보 링크와 네비게이션 링크가 분별된다. 이 식별은 함수-기반의 오브젝트 모드(FOM)를 이용하여 수행되어, 네비게이션 바, 네비게이션 목록 또는 독립 링크를 분석한다. 그러한 것으로서, 페이지 레이아웃은 웹 페이지를 분할하는 데 사용된다. 일 실시예에서, c)는 FOM 분석기(218)를 이용하여 수행될 수 있다.
종래 기술의 검색 엔진은 복수의 웹 사이트에 하나씩 액세스하는 것을 제공하지만, 개념 네트워크(100)는 다양한 웹 사이트로부터 동시에 획득된 구조적 정보를 포함하도록 형성된다. 이러한 다양한 웹 페이지로부터의 정보는 개념 네트워크(100) 상에서 사용자에 의해 쉽게 이해될 수 있는 방식으로 조직될 수 있다. 특히, 복수의 웹 사이트로부터 유사하게 구조화된 정보는 복수의 웹 페이지(종종 URL에 기초함)의 구조적 정보로부터 수량화가능한 값을 제공하는 방식으로 개념 네트워크(100)에서 디스플레이될 수 있다. 그 후, 복수의 웹 페이지로부터의 그러한 구조적 정보는 서로 다른 웹 페이지들의 주제들 간의 비교를 일으키는 방식으로 제공될 수 있다. 예를 들어, 특정 산업 또는 토픽을 다루는 복수의 동료 또는 그룹은 유사한 구조의 웹 페이지들 내에 유사한 유형의 정보를 포함하기 쉽다. 개념 네트워크는 서로 다른 웹 페이지들로부터 이러한 유사한 정보를 디스플레이하기 위 해 비클(vehicle)을 제공하거나, 다르게, 동일한 개념 네트워크로부터 서로 다른 웹 페이지들의 용이한 액세스를 허용하는 방식으로 사용자에게 제공되기 위해 서로 다르지만 관련있는 웹 페이지들을 제공한다.
특정 실시예에서, 웹 사이트 구조 분석기(240)는 입력으로서, 진입 페이지 및 크롤러 규칙 부분(202)으로부터 웹 사이트의 엔터-포인트 URL, 및 몇몇 웹 사이트 크롤러 규칙을 수용한다. URL은 특정 웹 페이지에 관련된 다양한 구조적 정보(예를 들어, 링크의 엔드 포인트, 웹 페이지의 유형 등)를 포함한다. URL에 의해 제공된 이러한 구조는 웹 페이지들에 관한 구조적 정보를 도출하기 위한 전통적인 검색 엔진에 의해서는 이용되지 않는다. 웹 사이트 구조 분석기(204)는 웹 사이트 구조를 분석하고, 웹 페이지에 깊이 정보(depth information)를 할당한다. 결과로서, 웹 사이트 구조 분석기(204)의 일 실시예는 웹 사이트의 계층 그래프를 생성하는데, 이 계층 그래프의 노드들은 개념을 포함한다. 개념 네트워크에 의해 도출된 개념은 본 명세서에서 설명되는 바와 같이 키워드에 의해 특징화될 수 있다. 웹 사이트 구조 분석기(204)는 구조화된 웹 사이트의 사용을 일으킨다.
웹 사이트 구조 분석기(204)의 일 실시예는 BFS(Breath Fisrt Search) 알고리즘에 기초한다. 웹 사이트 구조 분석기(204)는 하이퍼링크 큐(212)를 유지한다. 웹 사이트 크롤러(214)는 하이퍼링크 큐(212)로부터 URL을 패치하고, 그 후, 웹 사이트 크롤러(214)를 이용하여 인터넷으로부터 HTML(Hypertext Markup Language) 소스 코드를 크롤링하고, 그 후, HTML 소스 코드를 HTML 파서(216)에 전송한다. 하이퍼링크 큐(212)는 미분석된 하이퍼링크를 포함하는 큐이다. 분석이 시작되기 전 에, 웹 사이트 구조 분석기(204)는 엔터-포인트 URL을 첨부한다. 분석 동안, 웹 사이트 크롤러(214)만이 하이퍼링크 큐(212)로부터 URL을 패치한다. 하이퍼링크 분석기(220)만이 새로운 미분석된 하이퍼링크를 적용한다.
웹 사이트의 엔터-포인트 URL은 진입 페이지 및 크롤러 규칙 부분(202)으로부터 웹 사이트 구조 분석기(204)의 하이퍼링크 큐(212)에 진입한다. 웹 사이트 구조 분석기(204)가 자신의 분석을 시작할 때, 웹 사이트 크롤러(214)는 하이퍼링크 큐(212)로부터 URL을 패치하고, 그 후, 웹 사이트 크롤러는 인터넷으로부터 HTML 소스 코드를 크롤링하고, 그 후, HTML 소스 코드를 HTML 파서(216)에 전송한다. HTML 파서는 인터넷으로부터 크롤링된 HTML 소스 코드를 프로세싱한다.
HTML 파서(216)는 웹 사이트 크롤러(214)로부터의 입력인 HTML 소스 코드를 수용한다. 일 실시예에서, HTML 파서(216)의 활동은 URL 패치, URL 통합, URL 그룹핑을 포함한다. URL 패치에 있어서, HTML 파서(216)는 입력 웹 사이트 정의에 따라, 웹 페이지를 가리키고 그 웹 페이지 내에 있는 모든 URL을 패치한다. 모든 URL은 앵커(anchor) 텍스트와 함께 첨부된다. 이미지 링크에 있어서, 앵커는 주변 텍스트이다.
URL 통합에 있어서, HTML 파서(216)의 일 실시예는 a) 상대 URL 주소를 직접 URL주소로 변환하는 동작, (b)IP 주소를 도메인 이름으로 변경하는 동작, 및 (c) URL을 최종 타겟 URL 주소로 대체함으로써 재지정된 URL 문제를 해결하는 동작을 포함한 다양한 동작을 수행한다. URL 그룹핑에 있어서, 동일한 태그 구성요소 및 동일한 외관을 갖는 테이블 또는 목록 내의 하이퍼링크는 예를 들어, 관련된 노드 들로서 고려되기 쉽다. HTML 파서(216)로부터의 결과는 함수-기반의 오브젝트 모델(FOM) 분석기(218)에 전송된다.
함수-기반의 오브젝트 모델(FOM) 분석기(218)는 FOM의 기본적인 이상 및 알고리즘을 이용하여, 함수 정보를 하이퍼링크에 할당한다. 이 함수 정보는 각각의 웹 사이트의 구조를 분석하는 데 매우 유용하다. FOM은 웹 페이지에 대한 함수-기반의 오브젝트 모델을 나타낸다. 시멘틱 분석 대신에, FOM 분석기(218)는 각각의 오브젝트 함수 및 카테고리를 식별함으로써 제작자의 의도를 이해하려고 시도한다. 각각의 웹 페이지는 인덱스 페이지 또는 컨텐츠 페이지로서 기능할 수 있다. 네비게이션 오브젝트의 한 카테고리는 네비게이션 바이다. FOM 분석기(218)의 일 실시예는 후속하는 FOM 분석 태스크로서 인덱스/컨텐츠 페이지 인식 및 네비게이션 바 검출을 수행한다.
인덱스/컨텐츠 페이지 인식에 있어서, FOM 분석기(218)의 일 실시예는 웹 페이지 URL이 텍스트 "인덱스" 또는 "디폴트"를 포함하는지의 여부, 및 URL이 디렉토리인지 아니면 인덱스 페이지인지를 결정한다. 서브디렉토리에 대응하는 페이지 내에 링크가 존재하면, 이 링크는 인덱스 페이지로 향한다. 하이퍼링크와 컨텐츠 단어의 비율은 임계치에 비교된다. 이 비율이 임계치보다 더 크면, 웹 페이지는 인덱스-페이지이다. 임계치가 이 비율보다 크면, 웹 페이지는 컨텐츠-페이지이다.
FOM 분석기(218)의 일 실시예는 네비게이션 바 검출을 제공한다. 네비게이션 바 내의 아이템은 서로 내부-연결되고, 대응하는 링크 토폴로지는 완전히 연결된 그래프이다. FOM 분석기(218)의 출력은 하이퍼링크 분석기(220)에 전송되는 복 수의 하이퍼링크를 포함한다. FOM 분석기(218)는 웹 페이지에 대한 블럭 분할을 제공한다. 일 실시예에서, 분할 후에, 웹 페이지는 컨텐츠 블럭, 네비게이션 블럭, 광고 블럭 등과 같이 그 기능에 기초하여 몇몇의 작은 유닛들로 나뉘어 진다. 이러한 작은 유닛들은 사용자에 의해 개별적으로 액세스될 수 있다.
하이퍼링크 분석기(220)의 일 실시예는 웹 사이트 구조 분석 알고리즘을 이용하여, FOM 분석기(218)에 의해 분석된(및 그로부터 전송된) 각각의 하이퍼링크를 핸들링한다. 파싱된 소스 코드는 FOM 분석기(218)에 전송되어 함수 분석을 수행한다. 하이퍼링크 분석기(220)는 웹-사이트 구조 분석 규칙에 따라 각각의 하이퍼링크를 분석하고, 새로운 미분석된 하이퍼링크는 하이퍼링크 큐(212)에 삽입된다. 하이퍼링크 분석기(220)는 각각의 웹 페이지에 깊이 값을 할당한다(그리고, 웹 사이트의 임시 계층 그래프를 유지함). 깊이 값은 웹 사이트 크롤러(214)에 의해 출력될 수 있다. 일 실시예에서, 웹 사이트 크롤러(214)는 브리드-퍼스트(breath-first) 검색에 의해 웹 사이트를 방문한다. 진행 경로(traveling path)는 트리 포맷으로서 형성될 것이고, 트리의 노드는 웹 페이지이고 그 노드들 내의 링크는 웹 페이지 내의 하이퍼링크이다. 따라서, 트리 내의 노드의 깊이는 우리가 획득하기 원하는 값이다. 예를 들어, (URL http://www.microsoft.com에 의해 식별된 엔트리 포인트 페이지와 같은) 엔트리 포인트 웹 페이지에 대한 깊이는 0이다. URL http://www.microsoft.com/china에 의해 식별된 웹 페이지에 대한 깊이는 비교해 보면, 1이다.
웹 사이트 구조 분석기(204)는 하이퍼링크 큐(212)에서 시작 및 종료할 때 고려될 수 있는 루프를 형성한다. 웹 사이트 크롤러(214)는 하이퍼링크 큐(212)로부터 다음 URL을 패치하여 다음 루프를 시작한다. 이것은 하이퍼링크 큐(212)가 새로운 URL이 없을 때까지 수행된다. 분석 프로세스가 성취되고, 웹 사이트의 계층 그래프(구조화된 웹 사이트라고 불림)가 구성된다.
각각의 웹 사이트에 대한 구조화된 정보는 하이퍼링크 분석기(220)를 이용하여 검출될 수 있는 방식으로 URL에서 인코딩된다. 그러한 것으로서, 특정 링크가 상향 링크인지, 하향 링크인지, 형제 링크인지, 십자형 링크인지에 상관없이, 그것은 URL에서 인코딩된다{그리고, 하이퍼링크 분석기(220)를 이용하여 검출될 수 있음}. 일 실시예에서, 상향-링크 및 전송-링크를 검출하기 위해 URL 블럭-길이에 기초한 발견적 규칙이 사용된다. URL 블럭-길이는 다수의 블럭으로서 정의되는데, 블럭은 "/" 또는 "?"에 의해 분리된 URL의 일부분이다. 예를 들어, URL "http://www.sonystyle.com/digital/digital_camera.html"의 URL 블럭-길이는 "http://www.sonystyle.com", "digital" 및 "digital_camera.html"를 포함하여 3이다. 일 실시예에서, 제한된 규칙은 URL을 분석하는 데 적용된다. 그 후, 규칙에 의해 커버되지 않은 나머지 URL에 대해서, 상술된 전략이 분석에 사용된다. 하이퍼링크 검출 규칙의 일 실시예는 2가지 규칙에 따라 설명된다. 제1 규칙은, URL 블럭-길이(하이퍼링크)가 웹 페이지의 URL 블럭-길이 이하인 경우 하이퍼링크는 상향-링크라는 것이다. 제2 규칙은, URL 블럭-길이(하이퍼링크)에서 URL 블럭-길이(웹 페이지의 URL)를 뺀 것이 2 이상인 경우 하이퍼링크는 전송-링크라는 것이다.
현재의 웹 페이지 노드는 B이고 이것은 웹 페이지 C에 대한 하이퍼링크를 갖 는다고 가정하자. 웹 사이트 구조 분석기(204)의 하이퍼링크 분석기 부분(220)은 다음의 프로세스를 따른다.
Ⅰ. 하이퍼링크가 상향 링크인 경우, 드롭된다(더 이상 고려되지 않음).
Ⅱ. B 및 C가 네비게이션 바에 속하는 경우, B 및 C는 (여기에서 설명된) 형제 노드이다.
Ⅲ. C가 방문되었고, B의 URL 블럭-길이가 C이상인 경우:
B가 인덱스 페이지인 경우; C는 B의 (여기에서 설명된) 자식 노드이다.
B가 컨텐츠 페이지인 경우, C는 B의 형제 노드이다.
Ⅳ. C가 방문되지 않은 경우,
B가 컨텐츠 페이지인 경우 C는 B의 형제 노드이다.
그렇지 않으면, C는 B의 자식 노드이다.
그렇지 않고 C가 액세스되지 않은 경우,
B가 컨텐츠 페이지이거나 몇몇 페이지에 디스플레이되는 경우, 링크는 명백한 연합이다.
그렇지 않으면, 링크는 집합이다.
하이퍼링크 큐에서 URL을 분석한 후에, 웹 사이트 구조는 웹 페이지 요약화 부분(206)을 이용하여 도출된다. 예를 들어, 웹 페이지 내에 포함된 특정량의 데이터는 특정 사용자의 질의에 관련될 수 있지만, 다른 데이터는 관련없다. 웹 페이지 요약화는 관련있는 정보를 개념 네트워크(100) 내의 특정 개념 섹션을 통해 디스플레이될 수 있는 형태로 제공한다. 개념 네트워크를 통해 각각의 웹 페이지 전체가 도시되지는 않기 때문에, 개념 네트워크는 사용자에 의해 액세스될 수 있는 각각의 개념 또는 웹 페이지의 정보의 더 직접적인 요약을 제공할 수 있다. 웹 페이지 요약화 부분(206)으로부터 도출되는 서로 다른 웹 페이지(또는 다른 컨텐츠)의 다양한 컨텐츠는 웹 사이트 구조 병합 도구(208)를 이용하여 개념 네트워크(100)로 병합된다. 웹 사이트 구조는 계층 그래프를 이용하여 나타난다.
개념 네트워크(100)의 특정 실시예는 관련있는 웹 사이트의 구조를 분석하고, 거기서, 그 결과를 함께 병합한다. 복수의 웹 사이트로부터의 정보를 병합하는 것은 본 명세서에서, 도 2에서 도시되는 웹 사이트 구조 병합 도구(208)에 의해 수행되는 웹 병합으로서 불린다. 웹 사이트 구조 병합 도구(208)에 의해 수행되는 웹 병합은 개념 네트워크의 정밀도 및 속도를 향상시키고 다음과 같이 수행된다.
각각의 웹 사이트가 "트리-유사 그래프" 또는 "길이-레벨 그래프"로 구조화된 후, 다음 문제는 이러한 그래프들을 네트워크로 병합하는 것이다. 네트워크에서, 각각의 노드는 한 개념을 나타내고, 이 노드들 간의 링크는 이 개념들 간의 관계를 나타낸다. 기본적 관계는 상위어, 하위어, 동의어 등을 포함할 수 있지만, 이것으로 제한되지 않는다. 각각의 웹 사이트는 관련된 토픽에 대한 원래 편집기의 뷰(view)를 나타내기 때문에, 서로 다른 뷰를 하나의 뷰로 병합한다는 것은 약간 난해하다. 따라서, 다음에서, 우리는 모든 종류의 소스로부터 하나의 사용가능한 계층으로 개념 계층을 병합하는 해결책을 제공한다.
개념 네트워크의 계층을 병합하는 방법의 일 실시예를 설명하기 위해, 주어 진 개념 C에 대한 한 종류의 관계 R은 2가지 서로 다른 계층 H으로부터 병합된다. 이 문제를 해결하는 상세한 알고리즘은 다음과 같다.
다음의 기술은 온톨로지(ontology) 병합 프로시저를 수행하는 데 사용될 수 있는 일 실시예를 나타낸다.
a) 각각의 웹 블럭에 대하여, 개념은 도 2에 도시되어 있는 웹 페이지 요약화 부분(206)을 이용하여 웹 페이지에 대해 요약된다. 개념은 키워드들의 세트로서 해석된다.
b) 그 후, 개념은 토큰화되는데, 이에 의해, 개념 네트워크(100)를 통해 생성되고 디스플레이될 각각의 개념이 "토큰" 절 또는 키워드에 의해 나타난다. 그러한 것으로서, 키워드들의 세트는 개념 네트워크에 포함된 개념을 나타내고 설명하도록 설정된다.
다음의 수학식 1은 결국 개념을 산출하는 데 사용된다.
Figure 112005062806247-PCT00001
이 때, wi1, wi2, ..., wim은 단어를 나타내고, ni는 단어의 어레이를 나타낸다. ni는 개념 네트워크 내의 노드(웹 페이지)에 대한 요약이며, 그것은 몇몇 단어들/구문들 즉, wi1, wi2, ..., wim로 분해될 수 있다.
c) 다음의 수학식 2, 3 및 4를 각각 이용하여 자식, 조상 및 형제의 서브트리 ST를 생성하기 위해 계층 트리를 통해 글라이딩(gliding) 윈도우가 제공된다. 몇몇 단어는 서로 다른 윈도우들에서 나타난다고 가정한다.
Figure 112005062806247-PCT00002
Figure 112005062806247-PCT00003
Figure 112005062806247-PCT00004
이 때, STi(offspring), STi(ancestor) 및 STi(sibling)는 자식, 조상 및 형제 관계를 계산하기 위한 서브트리이며, sonsd, parentd 및 sibsd는 각각 노드 ni에 대해 d번째 레벨의 자식 노드, 부모 노드 및 형제 노드를 나타낸다.
d) 각각의 생성된 서브트리{예를 들어, STi(ancestor)}에 대해서, 용어쌍의 상호 정보는 수학식 5로서 간주된다. 각각의 단어 쌍 wi, wj에 대한 상호 정보 MI가 계산된다. 높은 값을 갖는 상호 정보는 단어의 쌍이 유사하다는 것을 나타낸다.
Figure 112005062806247-PCT00005
Figure 112005062806247-PCT00006
Figure 112005062806247-PCT00007
Figure 112005062806247-PCT00008
이 때, MI(wi, wj)은 용어 wi 및 wj의 상호 정보이며, Pr(wi, wj)은 용어 wi 및 wj가 서브트리에서 함께 나타날 가능성을 나타내고, Pr(x)(x는 wi 또는 wj일 수 있음)는 용어 x가 서브트리에 나타날 가능성을 나타낸다.
한쌍의 용어가 용어쌍의 분포인 경우 관련도를 결정하는 다른 요인이 있다. 더 많은 서브트리가 용어쌍을 포함할수록, 두 용어는 더 많이 유사하다. 우리의 구현예에서, 엔트로피는 단계 (d)에서 나타나는 바와 같이, 용어쌍의 분포를 측정하는 데 사용된다.
(d) 각각의 단어 쌍 wi 및 wj에 대한 엔트로피를 계산한다. 엔트로피 변환은 실제로 모든 웹 사이트에서 흔한 수학식 5에서 결정된 상호 정보에 기초하여, 흔한 것으로 결정된 단어들의 쌍 wi 및 wj의 측정이다. 엔트로피가 높을수록, 개념 네트워크가 모든 웹 사이트들 중의 단어쌍을 사용자에게 제공할 수 있다는 확실성이 높아진다.
Figure 112005062806247-PCT00009
Figure 112005062806247-PCT00010
e) 수학식 11에 따라 각각의 단어쌍에 대한 유사도(similarity) Sim을 계산한다.
Figure 112005062806247-PCT00011
수학식 11에서 밝혀진 유사도는 상호 정보 MI(wi, wj) 및 entropy(wi, wj)를 조합한다.
수학식 2, 3 및 4에 관련된 관련있는 개념(자식, 조상 및 형제)을 나타내기 위해, 개념 네트워크는 다양한 관련된 카테고리를 생성한다. 예를 들어, 표 1은 잘 알려진 개념에 대한 다양한 예시적인 자식 개념을 나타낸다.
자식 개념
원본 카테고리 자식
소프트웨어 유틸리티, 게임, 비지니스, 일반, 그래픽, 데이터베이스
비디오 DVD, TV, 프로젝션, 캠코더
픽션 스토리, 드라마, 공포, 시, 과학, 로맨스
의류 옷, 여성복, 셔츠, 신발, 액세서리, 남성복, 스포츠, 전통복, 아동복
신발 부츠, 힐, 샌들, 슬리퍼, 캐주얼
애완동물 보살핌, 공급, 새, 고양이, 개, 물고기, 먹이, 서비스
표 2는 다양한 예시적인 조상 개념을 도시한다.
조상 개념
원본 카테고리 조상
소프트웨어 컴퓨터
비디오 전자기기, 컴포넌트
픽션 책, 문학
의류 적용 불가능
신발 여성복, 남성복, 의류
애완동물 적용 불가능
표 3은 다양한 예시적인 형제 개념을 예시한다:
표 3: 형제 개념
원본 카테고리 형제
소프트웨어 하드웨어, 네트워크, 의류, 저장장치, 주변 장치, 메모리
비디오 오디오, 사진, 카메라, 액세서리
픽션 요리, 역사, 스포츠, 여행, 저자, 코믹
의류 패션, 소프트웨어, 뷰티, 음악, 애완동물
신발 의복, 시계, 외투, 셔츠, 수영복, 바지
애완동물 선물, 스포츠, 장난감, 보석, 책
도 2에 예시된 바와 같은 개념 네트워크(100)의 일 실시예가 도 3에서의 구조적 형태 및 임의 형태로 예시되는 통제된 그래프(directed graph)로서 제공되어서, 도 4의 사용자에게 제시될 수 있다. 개념 네트워크가 기초하고 있는 통제된 그래프 G(300)는,
G = (V,E)
와 같이 기술되며, V는 노드들의 컬렉션(collection)이고 E는 에지들 또는 링크들의 컬렉션이다. 이처럼, 통제된 그래프에 의해 제시된 대로 개념 네트워크(100)는 복수의 노드, 및 노드들을 연결하는 복수의 링크 혹은 에지를 포함한다. 노드는 개념을 제시한다. 에지 또는 링크는 개념 간 관계를 제시한다. 도 4에 도시된 바와 같이 개념 네트워크(100)의 통제된 그래프(300)는 이로써 컨텐츠 구조를 제공한다. 웹 페이지의 컨텐츠 구조는 개념 네트워크를 생성하는데 사용되는 정보를 산출하기 위해 검색된 정보이다.
도 3은 개념 네트워크(100)를 사용하여 특정 도메인에 대한 분류를 구성하는 기술의 일 실시예를 예시한다. 도 3은 하나 이상의 도메인 특정의 웹 사이트(302)의 파생체(derivation)로 시작된다. 이는 기존의 메타 검색 엔진을 확장하여 이런 작업을 하게 함으로써 달성될 수 있다. 예를 들어, 사용자가 "디지털 카메라" 도메인의 경우에 개념 네트워크를 구성하기를 원한다면, 사용자는 질의를 검색 엔진에 전송할 수 있고, 개념 네트워크를 구성하기 위해 상위 100개 웹 사이트를 사용할 수 있다. 각각의 도메인 특정의 웹 사이트(302)는 컨텐츠의 분석(노드들에 의해 제시됨) 및 링크 구조의 분석(링크 구조에 의해 제시됨)에 해당하는 구조를 포함한다.
개념 네트워크(100)를 생성하는 것은 하나 이상의 웹 사이트의 컨텐츠 구조에 대한 효율적인 검색에 의존한다. 이런 검색은 링크 타입을 분석함으로써 수행될 수 있는데, 이 검색은 도 2의 하이퍼링크 분석기(220)에 관해 기술된 바와 같이 그 링크가 자식 링크, 조상 링크, 또는 형제 링크인지 여부를 판정한다. 이런 링 크 타입들 중 한 타입이 각각의 링크에 할당된다. 그러면, 노드의 의미(semantic)는 도 2에 도시된 바와 같이 웹 페이지 요약화 부분(206)을 사용하여 요약된다. 도 3에서, 도메인 특정 분류는 이런 정보 검색에 기초하여 도출된다. 도메인 특정 분류의 도출은 본원의 개시에서는 자동으로 수행되는데, 분류를 위해 수동 편집기 입력을 요구하는 WordNet®과 같은 종래의 도구에 대비된다. 일반적인 도메인의 경우 Wordnet은 수동으로 구성된 분류이다. 이런 분류는 최종 사용자 대신에 편집기에 의해 구성된다. 이런 정보 검색은 링크 구조, 및 도메인 특정 웹 사이트의 컨텐츠에 의존한다. 이는 정보가 링크 구조 대신에 컨텐츠로부터 검색되는 소정의 종래의 자동화된 시소러스(thesaurus) 구조와는 다르다.
개념 네트워크(100)는 형이상학 교훈을 사용하여 구성된다. 형이상학 교훈에 기초하여, 자동으로 구성된 개념 네트워크는 그 자신의 분류를 발전시킨다. 형이상학 교훈은 통계적 프레임워크에 기초하고 있으며, 복수의 편집기의 뷰(view)를 산출할 수 있다. 통계적 프레임워크는 많은 통계적 응용에 쉽게 적용된다. 도 3에 도시된 바와 같이 구성된 개념 네트워크(100)는 전자기기에 대한 다양한 개념 네트워크를 기술한다. 개념 네트워크(100)는 전자기기의 다른 카테고리(예를 들면, 전자 제품, 전자기기 카테고리, 및 전자 장치 제조업체 등)를 제시하는 각각의 웹 블럭과 함께 다양한 웹 블럭들(450)을 포함한다.
각각의 웹 블럭은 사용자에 의해 인식될 수 있는 키워드로써 기술된다. 각각의 서브 웹 블럭(454)은 일차적인 웹 블럭에 관련되는 것으로 고려될 수 있다. 예를 들면, 도 3에서, 단어 "전자기기"은 일차적인 웹 블럭(452)을 제시한다. 용어 "전자기기"은 양호한 일차적인 웹 블럭(452)을 제시하는데, 왜냐하면 이 용어가 다양한 제품에 관련되어 많은 웹 사이트에서 나타나기 때문이다(각각의 다양한 제품들은 서브 웹 블럭으로서 고려될 수 있음). 예를 들어, 도 3에서, 다양한 서브 웹 블럭(454)(카메라와 사진, 오디오와 비디오, 휴대형, 셀룰러 폰, 컴퓨터, Sony®, iPAQ®, Palm®, 액세서리, 및 다양한 Compaq® 제품)이 전자기기의 일차적인 웹 블럭 아래에 예시된다. 각각의 웹 블럭은 본원의 개시 내에서 동종의 정보를 포함하는 개념인 것으로 고려된다. 그러므로, 용어 "개념 네트워크"는 복수의 개념들, 또는 웹 블럭들의 네트워크를 기술한다.
각각의 웹 블럭은 키워드(도 3에 예시된 바와 같이, 카메라, 컴퓨터, 및 "Sony" 등)로써 요약될 수 있다. 도 3의 각각의 서브 웹 블럭의 주제는 일차적인 웹 블럭 전자기기에 매우 관련되어 있으므로, 개념 "전자기기" 아래에서 광범위하게 분류될 수 있다. 개념 네트워크(100)의 웹 블럭들의 구조, 검색 및 도메인 특정 분류에 기초하여, 도 3에 예시된 바와 같이 전자기기의 경우 개념 네트워크는 이런 많은 용어들을 포함한다. 도 3에 예시되는 산출된 개념 네트워크(100)는 자동으로 구성된 최종 결과로서 고려될 수 있다.
예시적인 개념 네트워크(100)의 일 실시예가 평면 패널 디스플레이 또는 CRT 모니터 등의 컴퓨터 디스플레이(200) 상에 나타날 경우에 대해 도 4에 예시되어 있다. 이처럼, 도 4는 다양한 개념들(402)을 포함하여 생성된 개념 네트워크(100)( 도 2 및 도 3에 예시된 기술들을 사용함)를 예시한다. 각각의 개념(402)은 도 3에 예시된 소정의 실시예의 방식대로 생성되었던 웹 블럭들(450) 중 적어도 하나에 속하는 정보를 포함한다. 그러므로 도 4에 예시된 개념 네트워크(100)는 디스플레이 상에서 타일처럼 이어진 수많은 개념들(402)을 포함한다. 개념 네트워크에 관한 상세는 관심 있는 분야(이런 "전자기기" 경우)로서 상대적으로 상세히 기술된다. 예를 들면, 몇몇 개념들이, 사용자에 의해 선택되는 경우, 사용자는 현재 디스플레이되는 개념 네트워크보다 넓거나 좁을 수 있는 또 다른 개념 네트워크로 이동된다. 예를 들면, 사용가 전자기기 개념 네트워크에서 컴퓨터 개념 네트워크로 이동할 수 있다.
개념 네트워크의 분석은 다양한 웹 사이트를 통한 검색에 의해 수행되었다. 이 분석에 의해 개념 네트워크의 소정의 구현에서 올바르게 위치찾기 되었던 웹 사이트들의 백분율에 있어서 (75%까지) 개선됨이 나타난다. 이는 정확도를 고려하는 한 종래 기술보다 상당히 개선됨을 나타낸다.
예시적인 질의 "디지털 카메라 제조업체"를 고려해보자. 전형적인 종래 기술 검색 엔진은 전체 웹을 검색하고, 중심 용어인, "디지털" 및/또는 "카메라" 및/또는 "제조업체"를 포함하는 이런 웹 페이지들을 반환한다. 그러므로, 이런 종래의 검색 엔진은 매우 많은 관련없는 웹 페이지들을 반환할 것이다.
개념 네트워크(100)는 단지 노드 "디지털 카메라"로부터 확장되는 서브 그래프만 검색할 필요가 있다. 이처럼, 개념 네트워크는 더 빨라지고, 관련없는 반환된 웹 페이지의 개수는 현저하게 감소하게 된다.
개념 네트워크(100)는 질의에 대한 원하는 응답의 신뢰성, 속도, 용이성을 증가시킨다. 먼저, 용어 "디지털 카메라"는 개념 네트워크(100)에 위치되어 있다. 노드 "디지털 카메라"로부터 지적된 또는 이를 지적하는 모든 노드들이 추출된다. 그러면, "제조업체"들인 속성을 가진 노드들이 선택되고 배열된다(예컨대, 히트 번호(hit number)에 기초함). 이처럼, 웹 페이지의 임의 카테고리 중 상위 N개(최대 회사, 최대 생산자, 최고 사업소, 가장 가까운 위치 등)를 위한 질의가 검색될 수 있고, 적절한 개수의 정확한 히트들을 네팅(netting)할 확률이 상당히 증가한다.
개념 네트워크에 의해 이런 개선된 검색 특징이 생성되는데, 왜냐하면 질의가 검색된 웹 사이트의 구조에서 통제되기 때문이다(URL 내에 포함될 경우). 도 5에 관련하여 기술된 바와 같은 개념 네트워크(100)의 소정의 실시예에서는 다양한 검색 서비스들을 제공할 수 있어서, 이런 서비스들은 인터넷의 웹 사이트상에서 목록화된, 상위 "N"(여기서 N은 일부 양수)개의 기관, 회사, 품목, 그룹, 제품 등의 일부 계량할 수 있는 파라미터를 검색할 수 있게 한다. 예를 들면, 소정의 실시예에서는 전세계에서 상위 5개의 디지털 카메라 제조업체를 찾기 위한 질의에 검색 결과를 제공하는 개념 네트워크(100)를 생성한다. 다른 질의는 그 검색 결과를 유럽에서 상위 5개의 철강 생산 회사를 지시하는 등의 또 다른 복잡한 질의에 제공한다. 개념 네트워크가 매우 유익해지는 한가지 타입의 질의는 웹 사이트의 구조에 기초하여(예컨대, URL에 의해 제공된 구조에 기초함) 데이터를 액세스하는 것에 의존하는 경우이다. "상위 N개" 타입 질의는 복수의 웹 사이트의 구조에 기초하여 정보를 분석하고 반환한다. 예를 들면, 한가지 기술이 미국에서 상위 3개의 자동 차 생산자가 누구인지를 판정하기 위해서, 모든 잠재적인 자동차 생산자들의 웹 사이트들을 액세스하고, 각각의 웹 사이트로부터 유사한 생산 정보를 도출하고, 여러 가지 다른 웹 사이트들로부터 도출된 생산 정보를 비교하는 것을 포함한다. 이처럼, 개념 네트워크(100)의 소정의 실시예에서는 웹 페이지 내에서 상세한 특징들을 검색할 수 있다.
데이터 마이닝은 이런 웹 사이트 분석으로 통제된다. 일반적으로, 데이터 마이닝(때때로 데이터 또는 지식 발견으로 명명됨)은 여러 관점으로부터 데이터를 분석하고, 데이터를 질의에 기초하여 사용자에게 유용한 정보로 요약하는 프로세스이다. 데이터 마이닝 소프트웨어는 데이터를 분석하는 수많은 분석 도구 중 하나이다. 이는 사용가가 여러 다른 차원에서 데이터를 분석하거나 각도를 맞추고, 이를 분류하고, 식별된 관계들을 요약하게 한다. 기술적으로, 데이터 마이닝은 넓은 관계형 데이터베이스 내의 수십 개의 분야 중에서 상관성 또는 패턴을 찾아내는 프로세스이고, 일반적으로 질의들에서 잘 알려진 것이다. 이처럼, 개념 네트워크의 소정의 실시예에서는 도메인 특정 분류(304)를 도출하기 위해서, 도 3에 의해 제공된 바와 같은 데이터 마이닝(306)을 사용할 수 있다.
도 5는 개념 네트워크를 생성하는 프로세스(600)의 일 실시예이다. 프로세스(600)는 사용자가 질의를 컴퓨터 환경(50)(도 1에 도시된 바와 같음)에 입력하는 단계(602)를 포함한다. 질의는 개념 네트워크가 생성되게 하고 사용자에게 디스플레이되게 한다. 단계(604)에서, 질의는 도 3에 관련하여 기술된 바와 같은 복수의 도메인 특정의 웹 사이트(302)에 제출된다. 이런 웹 사이트는 인기있는 메타 검색 엔진 또는 인간에 의해 구축된 웹 계층구조에 의해 반환된 것이다. 단계(606)에서, 컴퓨터 환경은 관련 웹 사이트의 URL을 고려하는 것 등에 의해 웹 사이트 구조를 분석한다. 단계(608)에서, 정보는 웹 사이트의 구조 및 컨텐츠에 기초하여 마이닝된다. 단계(610)에서, 마이닝된 정보는 도메인 특정 분류(도 3에서 도메인 특정 분류(304)에 관련되어 기술된 바와 같음)를 생성하기 위해 사용된다. 프로세스(600)는 단계(612)로 진행하고, 개념 네트워크가 생성되어 사용자에게 디스플레이된다.
개념 네트워크(100)는 "단어를 설명하시오: 전자기기" 등의 이런 질의들(종래의 검색 엔진은 수행하지 못함)에 대한 정확한 응답을 반환하기 위해 생성될 수 있다. 이런 개념 네트워크(100)는 또한 다양한 웹 사이트들과 웹 페이지들의 구조를 분석함으로써(도 5의 질의의 경우에서와 같음) 생성된다. 개념 네트워크의 일 실시예에서는 편집자의 뷰를 개념의 계층구조상에 제시하는 웹 사이트의 구조 정보를 저장한다. 개념 네트워크(100)에서, 여러 편집자의 뷰들이 함께 병합되어서, 사용자들이 어떤 것이 가장 인기있는 설명인지를 판정할 수가 있다.
개념 네트워크(100)의 소정의 다른 실시예에서는 단어 "전자기기"을 설명하는 것 등의 작업을 수행하기 위한 최상의 웹 사이트들을 판정했던 질의를 제공할 수 있다. 이런 타입의 질의는 설명 및/또는 비교하는 질의로서 고려될 수 있다. 이처럼, 수많은 웹 사이트들은 개념 네트워크에 의해 평가 및 비교되어야 한다. 이런 개념 네트워크(복잡한 쟁점들을 설명할 수 있는 개념 네트워크 등)를 생성하는데 관련된 한가지 메커니즘은 질의에 의해 제기된 쟁점에 관련된 수많은 웹 사이 트들을 고려하는 단계, 종래의 검색 엔진에 의해 수행된 바와 같이 각각의 웹 사이트의 관련도(relevancy)를 그런대로 적당하게 고려하는 단계, 및 웹 페이지의 관련 부분을 개념 네트워크의 사용자에게 디스플레이하는 단계를 포함한다. 마찬가지로 프로세스(600)의 도 5의 실시예에서는 이런 타입의 질의를 수행하는데 사용될 수 있다.
이런 타입의 상대적으로 복잡한 질의(상위-N개 타입의 질의, 또는 복수의 웹 사이트를 평가 및 비교해야 하는 질의 중 어느 하나 등)에 응답하여, 개념 네트워크(100)는 고려되는 각각의 웹 페이지 또는 웹 사이트의 구조를 평가함으로써 구성된다. 종래의 검색 엔진은 이런 분석을 수행하기 위해 웹 사이트로부터 구조를 도출할 수 없다(그러므로, 이런 질의들에 응답할 수 없다). 예를 들면, 전자기기의 예에 관련하여, 개념 네트워크는 전자기기 주제를 정확하게 충분히 기술하도록 통제된 정보를 충분하게 제공하는 구조를 가진 이런 웹 페이지들을 고려한다.
개념 네트워크(100)는 또한 질의 확장시 매우 유용하다. 현재, 많은 인터넷 어플리케이션들이 기존의 검색 엔진의 정확도를 개선하기 위해 사용자의 질의를 확장하는 종래의 수동 도구 WordNet를 이용한다. 그러나, WordNet은 (시소러스를) 수동으로 구성하기 위해 노동 집약적인 작업으로 구축된다. 거의 어떤 웹 사이트도 시소러스를 수동으로 구성하는 것을 선호하지 않는다. 웹 사이트 운영자는 시소러스 구성을 자동화하는 것을 선호한다. 사용자에 의한 수동의 시소러스 구성은 인터넷의 빠른 성장에 적합하지 않다. 인터넷 등의 이런 네트워크에서의 문서 개수는 계속 증가하고 있다. 보다 많은 새로운 단어 및 개념들이 계속 출현하여 본 원의 개시에 기술된 바와 같은 개념 네트워크의 유용성을 강조한다. 개념 네트워크는 키워드 비교에 의존하는 종래의 검색 엔진에 비하여 보다 적은 그러나 보다 통제된 결과를 반환해 준다. 이처럼, 사용자는 개념 네트워크에 의해 반환된 각각의 결과를 보다 쉽게 평가하게 된다. 그에 더하여, 사용자는 질의가 원하는 타입의 결과를 반환하지 않는지를 쉽게 평가하게 되므로, 사용자가 원본 질의를 보다 통제될 수 있도록 수정할 수 있을 것이다.
활성 시소러스(개념 네트워크가 기능할 수 있는 것임)는 인터넷 및 기타 네트워크 검색에 유용하다. 또한, 개념 네트워크(100)는 개념들의 계층구조를 포함할 뿐만 아니라, 그런 개념들의 통계적 정보도 포함한다. 그래서, 개념 네트워크는 조사 등의 인기에 관한 일부 특정 질문에 쉽게 적용될 수 있다.
개념 네트워크(100)의 일 실시예에서는 인터넷 및 기타 네트워크 환경의 경우에 모든 저자들로부터 뷰를 단어 및 개념들 상에서 병합하기 때문에, 개념 네트워크(100)는 대안적인 시소러스를 네트워크 사용자에게 제공하는 것으로 고려될 수 있다. 개념 네트워크(100)는 개인용 시소러스로서 클라이언트 측에 적응될 수 있다. 사용자의 브라우징 경로는 웹의 서브 공간을 생성할 것이다. 유사한 방법이 자주 사용되는 개인적인 개념들의 관계를 생성하기 위해, 웹의 서브 공간을 분석하는데 적용될 수 있다.
그러므로, 개념 네트워크는 웹 페이지에 대한 요약을 제공한다. 하이퍼링크 및 페이지 제목에 있는 텍스트가 웹 페이지의 요약으로서 사용될 수 있다. 다른 실시예에서, NLP(natural language parse) 기술이 일부 지배적인 키워드를 사용하 여 문서를 요약하는 (HTML 파서(216)로서) 웹 사이트 검색 부분(201)에 통합될 수 있다.
본원의 개시는 다양한 개념 네트워크(100)를 기술한다. 개념 네트워크는 복수의 웹 사이트의 구조를 분석하고 그 분석 결과를 병합함으로써 웹 사이트로부터 구축된 인터넷 개념 네트워크로서 고려될 수 있다. 개념 네트워크(100)는 본질적으로 검색 엔진의 정확성과 속도를 개선하는데 유용할 수 있다. 개념 네트워크는 웹 사이트 내에 포함된 오직 단순한 텍스트보다는 웹 사이트 구조로부터 지식을 추출한다. 개념 네트워크는 자동 구성을 도메인에 제공한다. 개념 네트워크로부터의 통계적 결과는 다양한 웹 사이트에 포함된 일반적인 지식을 드러낸다.
이처럼, 개념 네트워크는 특정 웹 사이트로부터 정보를 얻을 뿐 아니라, 네트워크를 통해 매우 다양한 웹 사이트들로부터 지식을 얻는다. 개념 네트워크는 웹 사이트에 관련된 구조 정보를 유지하기 위해 형이상학 교훈을 사용할 수 있다. 그러므로 새로운 웹 페이지와 개념이 인터넷에 적용될 때, 형이상학에 의해 웹 페이지로부터의 구조적인 정보가 개념 네트워크로 자동으로 통합되게 된다. 또한, 개념 네트워크(100)는 일반적인 검색 엔진이 행할 수 없는 "전세계에서 상위 N개의 디지털 카메라 제조업체를 찾아라", 및 "단어를 설명하여라: 전자기기" 등의 일부 서비스를 제공할 수 있다. 개념 네트워크는 또한 질의 확장의 경우에 생동하는 인터넷 시소러스로서 기능할 수 있는데, 왜냐하면 개념 네트워크가 도 3에 예시된 바와 같은 일차적인 웹 블럭을 통해 서로 관련된 다양한 서브 웹 블럭들을 제공하기 때문이다.
도 6은 개념 네트워크를 생성할 수 있는 사용자 인터페이스를 포함하는 적합한 컴퓨터 환경(500) 또는 네트워크의 예를 예시한다. 컴퓨터 환경은 도 1에 예시된 컴퓨터 환경(50)의 일 실시예를 제시한다. 유사한 자원(resource)이 본원에 기술된 컴퓨터 환경 및 프로세스들을 사용할 수 있다.
도 6에 예시된 컴퓨터 환경(500)은 본원에 기술된 개념 네트워크 기술을 구현하는데 사용될 수 있는 일반적인 컴퓨터 환경이다. 컴퓨터 환경(500)은 컴퓨터 및 네트워크 아키텍처의 사용 또는 기능의 범위에 대한 어떤 제한을 가하려는 의도는 아니다. 컴퓨터 환경(50)은 예시적인 컴퓨터 환경(500)에 예시된 컴포넌트들 중 임의 하나 또는 그 조합에 관련하여 어떤 의존성 또는 요건을 가지는 것으로 해석되어서는 안 된다.
컴퓨터 환경(500)은 컴퓨터(502) 형태의 범용 컴퓨팅 장치를 포함한다. 컴퓨터(502)는 예컨대, 독립형 컴퓨터, 네트워크화된 컴퓨터, 메인프레임 컴퓨터, PDA, 전화기, 마이크로컴퓨터, 또는 마이크로프로세서, 또는 메모리와 결합하여 프로세서를 사용하는 임의 기타 컴퓨터 장치를 포함하는 그룹 중 하나 이상을 포함할 수 있다. 컴퓨터(502)의 컴포넌트는 하나 이상의 프로세서 또는 프로세싱 유닛(504)(선택적으로 암호 프로세서 또는 코프로세서를 포함함), 시스템 메모리(506), 및 프로세서(504)와 시스템 메모리(506)를 포함하여 다양한 시스템 컴포넌트들을 결합시키는 시스템 버스(508)를 포함할 수 있으나, 이에만 한정되지 않는다.
시스템 버스(508)는 메모리 버스 또는 메모리 컨트롤러, 주변 장치 버스, 가속화된 그래픽 포트, 및 다양한 버스 아키텍처 중 임의 것을 사용하는 프로세서 또 는 로컬 버스를 포함하여 여러 타입의 버스 구조 중 하나 이상을 제시한다. 예로서, 이런 아키텍처는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standard Association) 로컬 버스, 및 메자닌(Mezzanine) 버스라고 알려진 PCI(Peripheral Component Interconnects) 버스를 포함할 수 있다.
컴퓨터(502)는 전형적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 이런 매체는 컴퓨터(502)에 의해 액세스되는 임의 이용가능한 매체일 수 있으며, 휘발성 혹은 비휘발성 매체, 및 분리형 혹은 비분리형 매체를 포함한다.
시스템 메모리(506)는 판독 전용 메모리(512:ROM) 등의 비휘발성 메모리, 및/또는 임의 접근 메모리(510:RAM) 등의 휘발성 메모리 형태의 컴퓨터 판독가능 매체를 포함한다. 시작할 때 등의 컴퓨터(502) 내의 구성요소 간의 정보 전달을 돕는 기본 루틴을 포함하는 기본 입/출력 시스템(514:BIOS)은 ROM(512)에 저장된다. RAM(510)은 전형적으로 프로세싱 유닛(504)에 의해 즉시 액세스될 수 있고/거나 현재 프로세서 유닛상에서 동작되는 데이터 및/또는 프로그램 모듈을 포함한다.
컴퓨터(502)는 또한 기타 분리형/비분리형, 휘발성/비휘발성 컴퓨터 저장 매체를 포함할 수 있다. 예로서, 도 6은 비분리형 비휘발성 자기 매체(도시 생략)로부터 판독하거나 이에 기입하는 하드 디스크 드라이브(515), 분리형 비휘발성 자기 디스크(520)로부터 판독하거나 이에 기입하는 자기 디스크 드라이브(518), 및 CD-ROM, DVD-ROM, 또는 기타 광 매체 등의 분리형 비휘발성 광디스크(524)로부터 판독하거나 이에 기입하는 광디스크 드라이브(522)를 예시한다. 하드 디스크 드라이브 (515), 자기 디스크 드라이브(518), 및 광 디스크 드라이브(522)는 각각 하나 이상의 데이터 매체 인터페이스(527)에 의해 시스템 버스(508)로 연결된다. 대안으로서, 하드 디스크 드라이브(515), 자기 디스크 드라이브(518), 및 광디스크 드라이브(522)가 하나 이상의 인터페이스(도시 생략)에 의해 시스템 버스(508)로 연결될 수 있다.
디스크 드라이브들 및 그 관련 컴퓨터 판독가능 매체는 컴퓨터 판독가능 명령어, 제어 노드 데이터 구조, 프로그램 모듈, 및 기타 데이터의 비휘발성 저장소를 컴퓨터(502)에 제공한다. 하드 디스크 드라이브(515) 내의 하드 디스크, 분리형 자기 디스크(520), 및 비휘발성 광디스크(524)를 예시하고 있으나, 컴퓨터에 의해 액세스될 수 있는 데이터를 저장할 수 있는 기타 타입의 컴퓨터 판독가능 매체인, 예컨대, 자기 카세트 또는 기타 자기 저장 장치, 플래시 메모리 카드, CD-ROM, DVD, 또는 기타 광 저장장치, ROM, ROM, EEPROM(electrically erasable programmable read-only memory) 등이 또한 예시적인 컴퓨터 환경(500)을 구현하는데 이용될 수 있음을 인식하게 된다.
예로서, OS(526), 하나 이상의 어플리케이션 프로그램(528), 기타 프로그램 모듈(530), 및 프로그램 데이터(532)를 포함하여 임의 개수의 프로그램 모듈이 하드 디스크 드라이브(515)에 포함된 하드 디스크, 자기 디스크(520), 비휘발성 광디스크(524), ROM(512), 및/또는 RAM(510)에 저장될 수 있다. 각각의 OS(526), 하나 이상의 어플리케이션 프로그램(528), 기타 프로그램 모듈(530), 및 프로그램 데이터(532)(또는 그것들의 조합)가 분산 파일 시스템을 지원하는 상주하는 컴포넌트의 모든 또는 일부를 구현할 수 있다.
사용자는 키보드(534) 및 포인팅 장치(536)(예컨대, "마우스") 등의 입력 장치를 통해 명령 및 정보를 컴퓨터(502)에 입력할 수 있다. 기타 입력 장치(538)(명확하게 도시 생략)는 마이크로폰, 조이스틱, 게임 패드, 위성 접시형 안테나, 직렬 포트, 스캐너 등을 포함할 수 있다. 이런 장치들과 기타 입력 장치들은 시스템 버스(508)에 결합된 입/출력 인터페이스(540)를 통해 프로세싱 유닛(504)에 연결되나, 병렬 포트, 게임 포트, 또는 범용 직렬 버스(USB) 등의 기타 인터페이스 및 버스 구조에 의해 연결될 수도 있다.
모니터, 평면 패널 디스플레이, 또는 기타 타입의 컴퓨터 디스플레이(200)가 또한 비디오 어댑터(544) 등의 인터페이스를 통해 시스템 버스(508)에 연결될 수 있다. 컴퓨터 디스플레이(200) 이외에, 기타 주변 출력 장치는 입/출력 인터페이스(540)를 통해 컴퓨터(502)에 연결될 수 있는 스피커(도시 생략)와 프린터(546) 등의 컴포넌트들을 포함할 수 있다.
컴퓨터(502)는 원격 컴퓨터 장치(548) 등의 하나 이상의 원격 컴퓨터들로의 논리적 연결을 사용하여 네트워크화된 환경에서 동작할 수 있다. 예로서, 원격 컴퓨터 장치(548)는 개인용 컴퓨터, 휴대형 컴퓨터, 서버, 라우터, 네트워크 컴퓨터, 피어 장치, 또는 기타 공통 네트워크 노드, 게임 콘솔 등일 수 있다. 원격 컴퓨터 장치(548)는 컴퓨터(502)에 관련되어 본원에 기술된 구성요소와 특징 중 다수 혹은 모두를 포함할 수 있는 휴대형 컴퓨터로서 예시된다.
컴퓨터(502)와 원격 컴퓨터 장치(548) 간의 논리적 연결은 근거리 통신망 (LAN:550)과 광역 통신망(WAN:552)으로 도시된다. 이런 네트워킹 환경들은 사무실, 기업 규모 컴퓨터 네트워크, 인트라넷 및 인터넷에서 흔한 것이다.
LAN 네트워킹 환경에서 사용될 때, 컴퓨터(502)는 네트워크 인터페이스 또는 어댑터(554)를 통해 LAN(550)으로 연결된다. WAN 네트워킹 환경에서 사용될 때, 컴퓨터(502)는 전형적으로 인터넷(552) 등의 WAN을 거쳐 통신을 설정하기 위한 모뎀(556) 또는 기타 수단을 포함한다. 내장 또는 외장될 수 있는 모뎀(556)은 입/출력 인터페이스(540) 또는 기타 적절한 메커니즘을 통해 시스템 버스(508)로 연결될 수 있다. 예시된 네트워크 연결들은 예시적인 것이며, 컴퓨터들(502 및 548) 간의 통신 링크(들)을 설정하기 위한 기타 수단이 이용될 수 있음을 인식할 것이다.
네트워크화된 환경에서, 컴퓨터 환경(500)과 함께 예시된 바와 같이, 컴퓨터(502)에 관련하여 도시된 프로그램 모듈, 또는 그 일부는 원격 메모리 저장 장치에 저장될 수 있다. 예로서, 원격 어플리케이션 프로그램(558)은 원격 컴퓨터(548)의 메모리 장치에 상주한다. 예시적인 목적을 위해, 운영 체제 등의 기타 실행가능 프로그램 컴포넌트들 및 어플리케이션 프로그램이 본원에서 분리된 웹 블럭으로 예시되어 있으나, 이런 프로그램 및 컴포넌트들이 시시각각 컴퓨터(502)의 여러 가지 저장 컴포넌트들에 상주하여, 컴퓨터(502)의 데이터 프로세서(들)에 의해 실행된다는 점을 인식하게 된다. 도시 및 기술된 네트워크 연결은 예시적이며, 컴퓨터 간에 통신 링크를 설정하기 위한 기타 수단이 사용될 수 있음을 인식할 것이다.
다양한 모듈 및 기술들이 하나 이상의 컴퓨터 또는 기타 장치에 의해 실행되 는 프로그램 모듈 등의 컴퓨터 실행가능 명령어의 일반적인 문맥에서 기술될 수 있다. 일반적으로, 프로그램 모듈은 특정 작업을 수행하거나 특정 추상화 데이터 타입을 구현하는 루틴, 프로그램, 제어 오브젝트(650), 컴포넌트, 제어 노드 데이터 구조(654) 등을 포함한다. 전형적으로, 프로그램 모듈의 기능은 다양한 환경에서 원하는 대로 결합되거나 분산될 수 있다.
이런 모듈 및 기술의 구현은 컴퓨터 판독가능 매체의 일부 형태를 통해 저장 또는 전송될 수 있다. 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의 이용가능한 매체일 수 있다. 예로서, 컴퓨터 판독가능 매체는 "컴퓨터 저장 매체" 및 "통신 매체"를 포함할 수 있으나, 이에만 한정되지 않는다.
"컴퓨터 저장 매체"는 컴퓨터 판독가능 명령어, 제어 노드 데이터 구조, 프로그램 모듈, 또는 기타 데이터 등의 정보를 저장하기 위한 프로세스 또는 기술로 구현된 휘발성 혹은 비휘발성, 분리형 혹은 비분리형 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리, 또는 기타 메모리 기술, CD-ROM, DVD, 또는 기타 광 저장장치, 자기 카세트, 자기 테이프, 자기 디스크 저장장치, 또는 기타 자기 저장 장치, 또는 원하는 정보를 저장하는데 사용될 수 있고, 컴퓨터에 의해 액세스될 수 있는 임의 기타 매체를 포함하나, 이에만 한정되지 않는다.
"통신 매체"는 전형적으로 컴퓨터 판독가능 명령어, 제어 노드 데이터 구조, 프로그램 모듈, 또는 기타 데이터를 반송파 또는 기타 전송 메커니즘 등의 변조된 데이터 신호에 구현한 것이다. 통신 매체는 또한 임의 정보 전달 매체를 포함한다. "변조된 데이터 신호"란 용어는 신호의 하나 이상의 특성을 그 신호에 실린 정보를 부호화하는 방식으로 설정 또는 변경시킨 신호를 의미한다. 예로서, 통신 매체는 유선 네트워크 또는 직접 유선 연결 등의 유선 매체와, 음향, RF, 적외선, 및 기타 무선 매체 등의 무선 매체를 포함하나, 이에만 한정되지 않는다. 상기 것들의 임의 조합도 컴퓨터 판독가능 매체의 범위 내에 포함된다.
시스템, 매체, 방법, 접근법, 프로세스 등이 구조적 및 기능적 특징 및/또는 방법에 특정한 언어로 기술되었으나, 첨부된 청구항에 정의된 본 발명은 기술된 특정한 특징 또는 방법에 본질적으로 한정되지는 않음을 이해할 것이다. 오히려, 특정한 특징 또는 방법은 주장한 본 발명을 구현하기 위한 예시적인 형태로서 개시되어 있다.
개념 네트워크는 종래 기술의 검색 엔진과 비교하여 사용자 질의에 대한 응답의 정확도를 증가시킨다. 또한, 개념 네트워크는 키워드 질의에 의존하는 종래 기술의 검색 엔진들 사이에서 우세한 매우 많은 관련없는 검색 결과들을 제한한다.

Claims (50)

  1. 복수의 데이터 저장 위치에 대한 검색 도구-각각의 데이터 저장 위치는 노드로 배열되고, 소정의 노드들은 적어도 하나의 링크에 의해 연결됨-, 및
    상기 링크에 기초하여 복수의 노드 중 소정의 노드들 중 일부를 고려하는 개념 네트워크-상기 적어도 하나의 링크는 컨텐츠용으로 사용됨-
    를 포함하는 장치.
  2. 제1항에 있어서,
    상기 링크는 컨텐츠용뿐만 아니라 네비게이션용으로 사용되는 장치.
  3. 제1항에 있어서,
    상기 개념 네트워크는 상기 복수의 노드 중 소정의 노드들을 디스플레이하는 장치.
  4. 제1항에 있어서,
    상기 개념 네트워크는 상기 복수의 노드 중 소정의 노드들 중 일부를 선택하기 위해 도메인 특정 분류 부분(domain-specific taxonomy portion)에 의존하는 장치.
  5. 제4항에 있어서,
    상기 도메인 특정 분류 부분은 복수의 도메인 특정 데이터 저장 위치로부터의 입력을 선택하는 장치.
  6. 제4항에 있어서,
    상기 도메인 특정 분류는 정보 마이닝 부분으로부터 입력을 수신하는 장치.
  7. 제6항에 있어서,
    상기 정보 마이닝 부분은 링크 구조에 기초하는 장치.
  8. 제1항에 있어서,
    상기 복수의 노드 중 소정의 노드들 중 일부를 선택하는 상기 개념 네트워크는 상기 데이터 저장 위치의 구조에 의존하는 장치.
  9. 제8항에 있어서,
    상기 구조는 URL(Universal Resource Locator)에 기초하는 장치.
  10. 제9항에 있어서,
    상기 URL은 복수의 데이터 저장 위치에 대한 구조를 얻는 장치.
  11. 제1항에 있어서,
    데이터 저장 위치를 병합하는 것을 더 포함하는 장치.
  12. 제11항에 있어서,
    상기 병합은 웹 사이트 구조 병합 도구(Web site structure Merging Tool)에 의해 수행되는 장치.
  13. 제11항에 있어서,
    웹 사이트 구조 분석기(Web site analyzer)를 더 포함하는 장치.
  14. 제13항에 있어서,
    상기 웹 사이트 구조 분석기는 하이퍼링크 큐를 포함하는 장치.
  15. 제13항에 있어서,
    상기 웹 사이트 구조 분석기는 웹 사이트 크롤러(Web site crawler)를 포함하는 장치.
  16. 제13항에 있어서,
    상기 웹 사이트 구조 분석기는 HTML 파서(HTML parser)를 포함하는 장치.
  17. 제13항에 있어서,
    상기 웹 사이트 구조 분석기는 함수-기반의 오브젝트 모델(FOM:Function-based Object Model) 분석기를 포함하는 장치.
  18. 제13항에 있어서,
    상기 웹 사이트 구조 분석기는 하이퍼링크 분석을 포함하는 장치.
  19. 제1항에 있어서,
    상기 개념 네트워크는 상기 데이터 저장 위치에 이미 포함된 구조에 의존하는 장치.
  20. 제1항에 있어서,
    상기 개념 네트워크는 상호 정보를 이용하는 장치.
  21. 제1항에 있어서,
    상기 개념 네트워크는 엔트로피를 이용하는 장치.
  22. 제1항에 있어서,
    상기 개념 네트워크는 여러 단어 쌍 간의 유사도(similarity)를 이용하는 장치.
  23. 제1항에 있어서,
    상기 데이터 저장 위치는 웹 사이트를 포함하는 장치.
  24. 제1항에 있어서,
    상기 개념 네트워크는 3가지 관계, 즉 자식, 조상, 및 형제를 포함하는 장치.
  25. 복수의 데이터 저장 위치에 대한 검색 도구-각각의 데이터 저장 위치는 복수의 노드를 포함함-, 및
    상기 복수의 노드의 구조에 기초하여 상기 복수의 노드 중 소정의 노드들 중 일부를 선택하는 개념 네트워크
    를 포함하는 장치.
  26. 제25항에 있어서,
    상기 복수의 데이터 저장 위치의 구조는 상기 데이터 저장 위치의 URL에 기초하여 도출되는 장치.
  27. 제25항에 있어서,
    상기 개념 네트워크는 웹 병합에 기초하여 복수의 노드 중 소정의 노드들 중 일부를 선택하는 장치.
  28. 제25항에 있어서,
    상기 개념 네트워크는 복수의 웹 블럭을 포함하는 구조를 디스플레이하는 장치.
  29. 제25항에 있어서,
    상기 데이터 저장 위치는 웹 페이지를 포함하는 장치.
  30. 제25항에 있어서,
    상기 개념 네트워크는 3가지 관계, 즉 자식, 부모, 및 형제를 포함하는 장치.
  31. 복수의 웹 페이지에 해당하는 복수의 URL을 수신하는 단계,
    상기 복수의 URL을 상기 복수의 URL의 컨텐츠를 판정하기 위해 분석하는 단계, 및
    상기 분석된 복수의 URL에 기초하여 복수의 웹 블럭을 개념 네트워크로 구조화하는 단계
    를 포함하는 방법.
  32. 제31항에 있어서,
    상기 개념 네트워크를 디스플레이하는 단계를 더 포함하는 방법.
  33. 제32항에 있어서,
    상기 디스플레이된 개념 네트워크에 응답하여 사용자 입력을 수신하는 단계를 더 포함하는 방법.
  34. 제31항에 있어서,
    특정 링크가 상향 링크, 하향 링크, 형제 링크, 또는 십자형(crosswise) 링크인지 URL에 기초하여 판정하는 단계를 더 포함하는 방법.
  35. 복수의 도메인 특정 웹 사이트를 고려하는 단계,
    상기 복수의 도메인 특정 웹 사이트의 관련있는 컨텐츠를 분석함으로써 도메인 특정 분류를 도출해내는 단계, 및
    상기 도메인 특정 분류에 기초하여 개념 네트워크를 공식화하는 단계
    를 포함하는 방법.
  36. 제35항에 있어서,
    상기 도메인 특정 분류는 정보 마이닝에 기초하여 도출되는 방법.
  37. 제36항에 있어서,
    상기 정보 마이닝은 링크 구조 및 컨텐츠에 기초하는 방법.
  38. 제35항에 있어서,
    상기 개념 네트워크는 엔트로피에 기초하여 공식화되는 방법.
  39. 제35항에 있어서,
    상기 개념 네트워크는 상호 정보(mutual information)에 기초하여 공식화되는 방법.
  40. 제35항에 있어서,
    상기 개념 네트워크는 유사도에 기초하여 공식화되는 방법.
  41. 개념 네트워크의 생성 단계를 포함하며, 상기 개념 네트워크 생성 단계는
    사용자로부터 제출된 질의에 기초하여 복수의 웹 사이트에 관한 구조 정보를 분석하는 단계,
    상기 복수의 웹 사이트의 구조 정보에 기초하여 "상위 N개" 타입 질의에 대한 응답을 판정하는 단계, 및
    상기 판정된 응답에 관련하는 정보를 상기 사용자에게 반환하는 단계를 포함하는 방법.
  42. 제41항에 있어서,
    상기 구조 정보는 URL에 기초하는 방법.
  43. 제41항에 있어서,
    상기 구조 정보는 각각의 웹 페이지 내의 은폐된 개념에 기초하는 방법.
  44. 개념 네트워크의 생성 단계를 포함하며, 상기 개념 네트워크 생성 단계는
    사용자로부터 제출된 질의에 기초하여 복수의 데이터 저장 위치에 관한 구조 정보를 분석하는 단계,
    상기 복수의 데이터 저장 위치의 구조 정보에 기초하여 관련성(relevancy) 타입 질의에 대한 응답을 판정하는 단계, 및
    상기 판정된 응답에 관련하는 정보를 상기 사용자에게 반환하는 단계를 포함하는 방법.
  45. 제44항에 있어서,
    상기 구조 정보는 URL에 기초하는 방법.
  46. 제44항에 있어서,
    상기 구조 정보는 각각의 데이터 저장 위치 내의 은폐된 개념에 기초하는 방 법.
  47. 제44항에 있어서,
    상기 데이터 저장 위치는 웹 페이지를 포함하는 방법.
  48. 개념 네트워크를 생성하는 컴퓨터 실행가능 명령어를 가진 컴퓨터 판독가능 매체로서,
    사용자로부터 제출된 질의에 기초하여 복수의 웹 사이트에 관한 구조 정보를 분석하고,
    상기 복수의 웹 사이트의 구조 정보에 기초하여 관련성 타입 질의에 대한 응답을 판정하고,
    상기 판정된 응답에 관련하는 정보를 상기 사용자에게 반환하는 것을 포함하는
    컴퓨터 판독가능 매체.
  49. 사용자로부터 제출된 질의에 기초하여 복수의 데이터 저장 위치에 관한 구조 정보를 분석하는 단계와,
    상기 복수의 데이터 저장 위치의 구조 정보에 기초하여 관련성 타입 질의에 대한 응답을 판정하는 단계에 의해,
    자동으로 도메인 특정 분류를 도출해내는 단계를 포함하는 방법.
  50. 제49항에 있어서,
    상기 도메인 특정 분류를 사용하여 개념 네트워크를 생성하는 단계를 더 포함하는 방법.
KR1020057020733A 2003-05-01 2004-04-12 개념 네트워크 KR20060017765A (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
US10/427,550 2003-05-01
US10/427,550 US7406459B2 (en) 2003-05-01 2003-05-01 Concept network

Publications (1)

Publication Number Publication Date
KR20060017765A true KR20060017765A (ko) 2006-02-27

Family

ID=33310182

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020057020733A KR20060017765A (ko) 2003-05-01 2004-04-12 개념 네트워크

Country Status (7)

Country Link
US (2) US7406459B2 (ko)
EP (1) EP1618503A4 (ko)
JP (1) JP2006525601A (ko)
KR (1) KR20060017765A (ko)
CN (2) CN100476806C (ko)
TW (1) TW200502800A (ko)
WO (1) WO2004099901A2 (ko)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852174B1 (ko) * 2006-05-23 2008-08-13 한국전자통신연구원 계층적 분류에 의한 정보 표시 방법 및 장치
KR101441099B1 (ko) * 2007-05-01 2014-11-03 구글 인코포레이티드 광고주와 사용자 연관

Families Citing this family (148)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6952691B2 (en) * 2002-02-01 2005-10-04 International Business Machines Corporation Method and system for searching a multi-lingual database
US7854009B2 (en) * 2003-06-12 2010-12-14 International Business Machines Corporation Method of securing access to IP LANs
US20050065774A1 (en) * 2003-09-20 2005-03-24 International Business Machines Corporation Method of self enhancement of search results through analysis of system logs
US8014997B2 (en) * 2003-09-20 2011-09-06 International Business Machines Corporation Method of search content enhancement
US7240049B2 (en) * 2003-11-12 2007-07-03 Yahoo! Inc. Systems and methods for search query processing using trend analysis
US7181447B2 (en) * 2003-12-08 2007-02-20 Iac Search And Media, Inc. Methods and systems for conceptually organizing and presenting information
US7451131B2 (en) 2003-12-08 2008-11-11 Iac Search & Media, Inc. Methods and systems for providing a response to a query
US20060230040A1 (en) * 2003-12-08 2006-10-12 Andy Curtis Methods and systems for providing a response to a query
US7243099B2 (en) * 2003-12-23 2007-07-10 Proclarity Corporation Computer-implemented method, system, apparatus for generating user's insight selection by showing an indication of popularity, displaying one or more materialized insight associated with specified item class within the database that potentially match the search
US8335753B2 (en) * 2004-11-03 2012-12-18 Microsoft Corporation Domain knowledge-assisted information processing
US7620628B2 (en) * 2004-12-06 2009-11-17 Yahoo! Inc. Search processing with automatic categorization of queries
US7685195B2 (en) * 2005-03-24 2010-03-23 Sas Institute Inc. Systems and methods for analyzing web site search terms
US20110153509A1 (en) 2005-05-27 2011-06-23 Ip Development Venture Method and apparatus for cross-referencing important ip relationships
US7490289B2 (en) * 2005-06-09 2009-02-10 International Business Machines Corporation Depth indicator for a link in a document
US7739218B2 (en) * 2005-08-16 2010-06-15 International Business Machines Corporation Systems and methods for building and implementing ontology-based information resources
JP4756953B2 (ja) * 2005-08-26 2011-08-24 富士通株式会社 情報検索装置および情報検索方法
US20070083671A1 (en) * 2005-10-11 2007-04-12 International Business Machines Corporation Servlet filters to decode encoded request parameters
US9953032B2 (en) 2005-10-26 2018-04-24 Cortica, Ltd. System and method for characterization of multimedia content signals using cores of a natural liquid architecture system
US10380267B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for tagging multimedia content elements
US8818916B2 (en) * 2005-10-26 2014-08-26 Cortica, Ltd. System and method for linking multimedia data elements to web pages
US10621988B2 (en) 2005-10-26 2020-04-14 Cortica Ltd System and method for speech to text translation using cores of a natural liquid architecture system
US10614626B2 (en) 2005-10-26 2020-04-07 Cortica Ltd. System and method for providing augmented reality challenges
US11620327B2 (en) 2005-10-26 2023-04-04 Cortica Ltd System and method for determining a contextual insight and generating an interface with recommendations based thereon
US10193990B2 (en) 2005-10-26 2019-01-29 Cortica Ltd. System and method for creating user profiles based on multimedia content
US10191976B2 (en) 2005-10-26 2019-01-29 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US10635640B2 (en) 2005-10-26 2020-04-28 Cortica, Ltd. System and method for enriching a concept database
US10380623B2 (en) 2005-10-26 2019-08-13 Cortica, Ltd. System and method for generating an advertisement effectiveness performance score
US9529984B2 (en) 2005-10-26 2016-12-27 Cortica, Ltd. System and method for verification of user identification based on multimedia content elements
US11032017B2 (en) 2005-10-26 2021-06-08 Cortica, Ltd. System and method for identifying the context of multimedia content elements
US10848590B2 (en) 2005-10-26 2020-11-24 Cortica Ltd System and method for determining a contextual insight and providing recommendations based thereon
US9477658B2 (en) 2005-10-26 2016-10-25 Cortica, Ltd. Systems and method for speech to speech translation using cores of a natural liquid architecture system
US11361014B2 (en) 2005-10-26 2022-06-14 Cortica Ltd. System and method for completing a user profile
US8266185B2 (en) 2005-10-26 2012-09-11 Cortica Ltd. System and methods thereof for generation of searchable structures respective of multimedia data content
US11216498B2 (en) 2005-10-26 2022-01-04 Cortica, Ltd. System and method for generating signatures to three-dimensional multimedia data elements
US10535192B2 (en) 2005-10-26 2020-01-14 Cortica Ltd. System and method for generating a customized augmented reality environment to a user
US9767143B2 (en) 2005-10-26 2017-09-19 Cortica, Ltd. System and method for caching of concept structures
US9031999B2 (en) 2005-10-26 2015-05-12 Cortica, Ltd. System and methods for generation of a concept based database
US9372940B2 (en) 2005-10-26 2016-06-21 Cortica, Ltd. Apparatus and method for determining user attention using a deep-content-classification (DCC) system
US9747420B2 (en) 2005-10-26 2017-08-29 Cortica, Ltd. System and method for diagnosing a patient based on an analysis of multimedia content
US11003706B2 (en) 2005-10-26 2021-05-11 Cortica Ltd System and methods for determining access permissions on personalized clusters of multimedia content elements
US9256668B2 (en) 2005-10-26 2016-02-09 Cortica, Ltd. System and method of detecting common patterns within unstructured data elements retrieved from big data sources
US9466068B2 (en) 2005-10-26 2016-10-11 Cortica, Ltd. System and method for determining a pupillary response to a multimedia data element
US11403336B2 (en) 2005-10-26 2022-08-02 Cortica Ltd. System and method for removing contextually identical multimedia content elements
US11604847B2 (en) 2005-10-26 2023-03-14 Cortica Ltd. System and method for overlaying content on a multimedia content element based on user interest
US10698939B2 (en) 2005-10-26 2020-06-30 Cortica Ltd System and method for customizing images
US9396435B2 (en) 2005-10-26 2016-07-19 Cortica, Ltd. System and method for identification of deviations from periodic behavior patterns in multimedia content
US8312031B2 (en) 2005-10-26 2012-11-13 Cortica Ltd. System and method for generation of complex signatures for multimedia data content
US10691642B2 (en) 2005-10-26 2020-06-23 Cortica Ltd System and method for enriching a concept database with homogenous concepts
US10360253B2 (en) 2005-10-26 2019-07-23 Cortica, Ltd. Systems and methods for generation of searchable structures respective of multimedia data content
US9558449B2 (en) 2005-10-26 2017-01-31 Cortica, Ltd. System and method for identifying a target area in a multimedia content element
US8326775B2 (en) 2005-10-26 2012-12-04 Cortica Ltd. Signature generation for multimedia deep-content-classification by a large-scale matching system and method thereof
US10180942B2 (en) 2005-10-26 2019-01-15 Cortica Ltd. System and method for generation of concept structures based on sub-concepts
US10585934B2 (en) 2005-10-26 2020-03-10 Cortica Ltd. Method and system for populating a concept database with respect to user identifiers
US7627548B2 (en) * 2005-11-22 2009-12-01 Google Inc. Inferring search category synonyms from user logs
US20070198504A1 (en) * 2006-02-23 2007-08-23 Microsoft Corporation Calculating level-based importance of a web page
US7853555B2 (en) * 2006-04-19 2010-12-14 Raytheon Company Enhancing multilingual data querying
US7991608B2 (en) * 2006-04-19 2011-08-02 Raytheon Company Multilingual data querying
WO2008108857A1 (en) * 2006-06-05 2008-09-12 Askmenow System for presentation of content and advertising in wireless internet-enabled mobile device
US10733326B2 (en) 2006-10-26 2020-08-04 Cortica Ltd. System and method for identification of inappropriate multimedia content
US7822734B2 (en) * 2006-12-12 2010-10-26 Yahoo! Inc. Selecting and presenting user search results based on an environment taxonomy
WO2008076438A1 (en) * 2006-12-18 2008-06-26 Mind Fund Llc Augmenting individual and collective human thinking and knowledge navigation and creation
NZ578672A (en) * 2006-12-29 2012-08-31 Thomson Reuters Glo Resources Information-retrieval systems, methods, and software with concept-based searching and ranking
US8473845B2 (en) * 2007-01-12 2013-06-25 Reazer Investments L.L.C. Video manager and organizer
US7844602B2 (en) * 2007-01-19 2010-11-30 Healthline Networks, Inc. Method and system for establishing document relevance
JP2008204444A (ja) * 2007-01-23 2008-09-04 Just Syst Corp データ処理装置、データ処理方法及び検索装置
US7890549B2 (en) * 2007-04-30 2011-02-15 Quantum Leap Research, Inc. Collaboration portal (COPO) a scaleable method, system, and apparatus for providing computer-accessible benefits to communities of users
US20090112865A1 (en) * 2007-10-26 2009-04-30 Vee Erik N Hierarchical structure entropy measurement methods and systems
US7987194B1 (en) 2007-11-02 2011-07-26 Google Inc. Targeting advertisements based on cached contents
US10733223B2 (en) * 2008-01-08 2020-08-04 International Business Machines Corporation Term-driven records file plan and thesaurus design
US8326847B2 (en) * 2008-03-22 2012-12-04 International Business Machines Corporation Graph search system and method for querying loosely integrated data
KR100987330B1 (ko) * 2008-05-21 2010-10-13 성균관대학교산학협력단 사용자 웹 사용 정보에 기반한 멀티 컨셉 네트워크 생성시스템 및 방법
CN101615178B (zh) * 2008-06-26 2013-01-09 日电(中国)有限公司 用于建立对象层次结构的方法和系统
US8180771B2 (en) 2008-07-18 2012-05-15 Iac Search & Media, Inc. Search activity eraser
US20100131513A1 (en) 2008-10-23 2010-05-27 Lundberg Steven W Patent mapping
US20100211533A1 (en) * 2009-02-18 2010-08-19 Microsoft Corporation Extracting structured data from web forums
US9171077B2 (en) 2009-02-27 2015-10-27 International Business Machines Corporation Scaling dynamic authority-based search using materialized subgraphs
CN101840402B (zh) * 2009-03-18 2014-05-07 日电(中国)有限公司 从多语言网站构建多语言的对象层次结构的方法和系统
US20100274807A1 (en) * 2009-04-23 2010-10-28 Frank John Williams Method and system for representing information
US8185432B2 (en) 2009-05-08 2012-05-22 Sas Institute Inc. Computer-implemented systems and methods for determining future profitability
US8150843B2 (en) 2009-07-02 2012-04-03 International Business Machines Corporation Generating search results based on user feedback
US9430521B2 (en) * 2009-09-30 2016-08-30 Microsoft Technology Licensing, Llc Query expansion through searching content identifiers
JP2011118770A (ja) * 2009-12-04 2011-06-16 Sony Corp 情報処理装置、情報処理方法、プログラムおよび情報処理システム
US8577915B2 (en) 2010-09-10 2013-11-05 Veveo, Inc. Method of and system for conducting personalized federated search and presentation of results therefrom
CN102063468B (zh) * 2010-12-03 2014-04-16 百度在线网络技术(北京)有限公司 一种用于确定查询序列的查询类别的设备及其方法
JP5969502B2 (ja) * 2011-01-05 2016-08-17 プライマル フュージョン インコーポレイテッド 1人以上のユーザに関心ある情報を提供する方法及び装置
CN102129472B (zh) * 2011-04-14 2012-12-19 上海红神信息技术有限公司 面向语义搜索引擎的高效混合存储结构的构建方法
US9904726B2 (en) 2011-05-04 2018-02-27 Black Hills IP Holdings, LLC. Apparatus and method for automated and assisted patent claim mapping and expense planning
US8799412B2 (en) 2011-06-30 2014-08-05 Amazon Technologies, Inc. Remote browsing session management
US8706860B2 (en) 2011-06-30 2014-04-22 Amazon Technologies, Inc. Remote browsing session management
US9621406B2 (en) 2011-06-30 2017-04-11 Amazon Technologies, Inc. Remote browsing session management
US8577963B2 (en) 2011-06-30 2013-11-05 Amazon Technologies, Inc. Remote browsing session between client browser and network based browser
US9037696B2 (en) 2011-08-16 2015-05-19 Amazon Technologies, Inc. Managing information associated with network resources
US9195768B2 (en) 2011-08-26 2015-11-24 Amazon Technologies, Inc. Remote browsing session management
US10089403B1 (en) 2011-08-31 2018-10-02 Amazon Technologies, Inc. Managing network based storage
US9298843B1 (en) 2011-09-27 2016-03-29 Amazon Technologies, Inc. User agent information management
US9178955B1 (en) 2011-09-27 2015-11-03 Amazon Technologies, Inc. Managing network based content
US9641637B1 (en) 2011-09-27 2017-05-02 Amazon Technologies, Inc. Network resource optimization
US8849802B2 (en) 2011-09-27 2014-09-30 Amazon Technologies, Inc. Historical browsing session management
US9152970B1 (en) 2011-09-27 2015-10-06 Amazon Technologies, Inc. Remote co-browsing session management
US10693991B1 (en) 2011-09-27 2020-06-23 Amazon Technologies, Inc. Remote browsing session management
US9383958B1 (en) 2011-09-27 2016-07-05 Amazon Technologies, Inc. Remote co-browsing session management
US8914514B1 (en) 2011-09-27 2014-12-16 Amazon Technologies, Inc. Managing network based content
US8589385B2 (en) 2011-09-27 2013-11-19 Amazon Technologies, Inc. Historical browsing session management
US8615431B1 (en) 2011-09-29 2013-12-24 Amazon Technologies, Inc. Network content message placement management
US20130086093A1 (en) * 2011-10-03 2013-04-04 Steven W. Lundberg System and method for competitive prior art analytics and mapping
US9313100B1 (en) 2011-11-14 2016-04-12 Amazon Technologies, Inc. Remote browsing session management
US8972477B1 (en) 2011-12-01 2015-03-03 Amazon Technologies, Inc. Offline browsing session management
US9009334B1 (en) 2011-12-09 2015-04-14 Amazon Technologies, Inc. Remote browsing session management
US9117002B1 (en) 2011-12-09 2015-08-25 Amazon Technologies, Inc. Remote browsing session management
CN103999082B (zh) 2011-12-19 2017-09-12 国际商业机器公司 用于检测社交媒体中的社区的方法、计算机程序和计算机
US9330188B1 (en) 2011-12-22 2016-05-03 Amazon Technologies, Inc. Shared browsing sessions
US9092405B1 (en) * 2012-01-26 2015-07-28 Amazon Technologies, Inc. Remote browsing and searching
US9336321B1 (en) 2012-01-26 2016-05-10 Amazon Technologies, Inc. Remote browsing and searching
US8839087B1 (en) 2012-01-26 2014-09-16 Amazon Technologies, Inc. Remote browsing and searching
US8627195B1 (en) 2012-01-26 2014-01-07 Amazon Technologies, Inc. Remote browsing and searching
US9509783B1 (en) 2012-01-26 2016-11-29 Amazon Technlogogies, Inc. Customized browser images
US9087024B1 (en) 2012-01-26 2015-07-21 Amazon Technologies, Inc. Narration of network content
US9183258B1 (en) 2012-02-10 2015-11-10 Amazon Technologies, Inc. Behavior based processing of content
US9037975B1 (en) 2012-02-10 2015-05-19 Amazon Technologies, Inc. Zooming interaction tracking and popularity determination
US9137210B1 (en) 2012-02-21 2015-09-15 Amazon Technologies, Inc. Remote browsing session management
US9374244B1 (en) 2012-02-27 2016-06-21 Amazon Technologies, Inc. Remote browsing session management
US10296558B1 (en) 2012-02-27 2019-05-21 Amazon Technologies, Inc. Remote generation of composite content pages
US9208316B1 (en) 2012-02-27 2015-12-08 Amazon Technologies, Inc. Selective disabling of content portions
WO2013130066A1 (en) 2012-02-29 2013-09-06 Hewlett-Packard Development Company, L.P. Network service interface analysis
US9286391B1 (en) 2012-03-19 2016-03-15 Amazon Technologies, Inc. Clustering and recommending items based upon keyword analysis
US9460220B1 (en) 2012-03-26 2016-10-04 Amazon Technologies, Inc. Content selection based on target device characteristics
US9307004B1 (en) 2012-03-28 2016-04-05 Amazon Technologies, Inc. Prioritized content transmission
US9159056B2 (en) * 2012-07-10 2015-10-13 Spigit, Inc. System and method for determining the value of a crowd network
US20140040233A1 (en) * 2012-07-31 2014-02-06 Mehmet Kivanc Ozonat Organizing content
US9772979B1 (en) 2012-08-08 2017-09-26 Amazon Technologies, Inc. Reproducing user browsing sessions
US8943197B1 (en) 2012-08-16 2015-01-27 Amazon Technologies, Inc. Automated content update notification
CN103729768B (zh) * 2012-10-15 2018-10-19 北京京东尚科信息技术有限公司 一种电子交易信息处理方法和装置
US9578137B1 (en) 2013-06-13 2017-02-21 Amazon Technologies, Inc. System for enhancing script execution performance
US10152463B1 (en) 2013-06-13 2018-12-11 Amazon Technologies, Inc. System for profiling page browsing interactions
US10545938B2 (en) 2013-09-30 2020-01-28 Spigit, Inc. Scoring members of a set dependent on eliciting preference data amongst subsets selected according to a height-balanced tree
KR102244298B1 (ko) * 2014-04-30 2021-04-23 삼성전자주식회사 의미를 기반으로 웹 페이지 접근 기록을 구조화하는 장치 및 방법
US9635041B1 (en) 2014-06-16 2017-04-25 Amazon Technologies, Inc. Distributed split browser content inspection and analysis
JP6900190B2 (ja) * 2016-01-14 2021-07-07 キヤノン株式会社 認識学習装置、認識学習方法及びプログラム
US9721026B1 (en) 2016-07-27 2017-08-01 Searchmetrics Gmbh Systems for topic exploration and related methods
CN107402766B (zh) * 2017-07-31 2020-08-04 武汉斗鱼网络科技有限公司 页面布局管理方法及装置
US10726095B1 (en) 2017-09-26 2020-07-28 Amazon Technologies, Inc. Network content layout using an intermediary system
US10664538B1 (en) 2017-09-26 2020-05-26 Amazon Technologies, Inc. Data security and data access auditing for network accessible content
US10997259B2 (en) * 2017-10-06 2021-05-04 Realpage, Inc. Concept networks and systems and methods for the creation, update and use of same in artificial intelligence systems
JP6435467B1 (ja) * 2018-03-05 2018-12-12 株式会社テンクー 検索システム及び検索システムの動作方法
KR20200094853A (ko) 2019-01-25 2020-08-10 삼성전자주식회사 전자 장치 및 이의 제어 방법
US11625426B2 (en) 2019-02-05 2023-04-11 Microstrategy Incorporated Incorporating opinion information with semantic graph data
US11829417B2 (en) 2019-02-05 2023-11-28 Microstrategy Incorporated Context-based customization using semantic graph data
US11941020B2 (en) * 2021-02-26 2024-03-26 Micro Focus Llc Displaying query results using machine learning model-determined query results visualizations

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6182062B1 (en) 1986-03-26 2001-01-30 Hitachi, Ltd. Knowledge based information retrieval system
US6286002B1 (en) 1996-01-17 2001-09-04 @Yourcommand System and method for storing and searching buy and sell information of a marketplace
JP4481370B2 (ja) * 1996-05-06 2010-06-16 アドビ システムズ, インコーポレイテッド インターネットハイパーリンクドラッグ及びドロップ
US6098081A (en) * 1996-05-06 2000-08-01 Microsoft Corporation Hypermedia navigation using soft hyperlinks
US5842206A (en) * 1996-08-20 1998-11-24 Iconovex Corporation Computerized method and system for qualified searching of electronically stored documents
US5870559A (en) 1996-10-15 1999-02-09 Mercury Interactive Software system and associated methods for facilitating the analysis and management of web sites
US6389436B1 (en) * 1997-12-15 2002-05-14 International Business Machines Corporation Enhanced hypertext categorization using hyperlinks
JP2002521753A (ja) * 1998-07-24 2002-07-16 ジャーグ コーポレーション 複数のオントロジーに基づく検索システム及び検索方法
US6356910B1 (en) * 1998-08-07 2002-03-12 Paul Zellweger Method and apparatus for a self-service content menu
US6385579B1 (en) * 1999-04-29 2002-05-07 International Business Machines Corporation Methods and apparatus for forming compound words for use in a continuous speech recognition system
US6691108B2 (en) * 1999-12-14 2004-02-10 Nec Corporation Focused search engine and method
US7376635B1 (en) * 2000-07-21 2008-05-20 Ford Global Technologies, Llc Theme-based system and method for classifying documents
US6823491B1 (en) * 2000-08-31 2004-11-23 International Business Machines Corporation System and method for a dynamically integrated search engine
US20030020749A1 (en) * 2001-07-10 2003-01-30 Suhayya Abu-Hakima Concept-based message/document viewer for electronic communications and internet searching

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100852174B1 (ko) * 2006-05-23 2008-08-13 한국전자통신연구원 계층적 분류에 의한 정보 표시 방법 및 장치
KR101441099B1 (ko) * 2007-05-01 2014-11-03 구글 인코포레이티드 광고주와 사용자 연관

Also Published As

Publication number Publication date
US20040220905A1 (en) 2004-11-04
US20080281821A1 (en) 2008-11-13
JP2006525601A (ja) 2006-11-09
CN101256581A (zh) 2008-09-03
EP1618503A2 (en) 2006-01-25
EP1618503A4 (en) 2009-10-21
CN1799050A (zh) 2006-07-05
TW200502800A (en) 2005-01-16
WO2004099901A3 (en) 2005-10-06
US7406459B2 (en) 2008-07-29
WO2004099901A2 (en) 2004-11-18
CN100476806C (zh) 2009-04-08
US8065298B2 (en) 2011-11-22

Similar Documents

Publication Publication Date Title
US7406459B2 (en) Concept network
US7415469B2 (en) Method and apparatus for searching network resources
US8560532B2 (en) Determining concepts associated with a query
US7783668B2 (en) Search system and method
US8315849B1 (en) Selecting terms in a document
US7756855B2 (en) Search phrase refinement by search term replacement
US8255786B1 (en) Including hyperlinks in a document
US8954440B1 (en) Selectively delivering an article
US20150074102A1 (en) Generation of refinement terms for search queries
US20040215663A1 (en) Media agent
US20070078889A1 (en) Method and system for automated knowledge extraction and organization
US20060047649A1 (en) Internet and computer information retrieval and mining with intelligent conceptual filtering, visualization and automation
US8930822B2 (en) Method for human-centric information access and presentation
Liakos et al. Focused crawling for the hidden web
Zhuge Retrieve images by understanding semantic links and clustering image fragments
Chen et al. A unified framework for web link analysis
WO2012091541A1 (en) A semantic web constructor system and a method thereof
Song et al. A semantic similarity approach to electronic document modeling and integration
Gong et al. An implementation of web image search engines
McCurley et al. Mining and knowledge discovery from the Web
Zhang Search term selection and document clustering for query suggestion
Modi et al. A Comparative Study of Various Page Ranking Algorithms
Lin Intelligent Internet Information Systems in Knowledge Acquisition: Techniques and Applications
Lieberam-Schmidt et al. Web Structure
Saxena Improving Web Recommendations Using Web Usage Mining and Web Semantics

Legal Events

Date Code Title Description
A201 Request for examination
E701 Decision to grant or registration of patent right
NORF Unpaid initial registration fee