KR100601578B1

KR100601578B1 - 문서를 개념적으로 분류하기 위한 요약 및 클러스터링

Info

Publication number: KR100601578B1
Application number: KR1020037017262A
Authority: KR
Inventors: 에이미 떠블유. 초우; 마이클 제이. 댄크; 줄리 제이. 피에트르작; 레리 엘. 프록터; 에드워드 엘. 스미어치아크; 테리 케이. 튤리스
Original assignee: 인터내셔널 비지네스 머신즈 코포레이션
Priority date: 2001-08-13
Filing date: 2002-08-13
Publication date: 2006-07-14
Also published as: WO2003017142A8; EP1423801A1; EP1423801A4; CN1288583C; CA2451693A1; IL160072A0; CN1539112A; WO2003017142A1; US6609124B2; JP2005500624A; US20030033274A1; KR20040020954A

Abstract

본발명은 웹 크롤러를 사용하여 문서를 포함하는 데이터베이스의 컴퓨터화된 네트워크(100)를 서치하는 방법에 관한 것이다. 상기 웹 크롤러에는 서치 전에 개념적인 가이드라인이 제공된다. 본발명은 소스 콘텐트를 요약하고(300) 상기 요약에 관해서 텍스트 클러스터링(31)을 수행하여 분류를 생성한다(330). 상기 텍스트 클러스터링은 해당 개념적인 가이드라인에 근거한 시드를 사용하여 수행된다. 사용자 인터페이스를 통해 쿼리 엔트리와 해당 분류가 사용자에게 제공되어 해당 분류를 검색하고 사용자를 하나이상의 해당 분류로 향하게 하며, 사용자는 해당 분류(및 문서에 대한 하이퍼링크)로 향하게 되고 사용자에게 문서자체가 제공되지는 않는다.

분류, 데이터베이스 서치, 클러스터링, 요약

Description

문서를 개념적으로 분류하기 위한 요약 및 클러스터링{Summarizing and Clustering to Classify Documents Conceptually}

본발명은 일반적으로는 정보를 제공하는 방법과 시스템에 관한 것이고, 구체적으로는 이전에 카테고리화된 데이터 리소스에 따라 링크를 분류하는 개선된 인덱스에 관한 것이다.

본발명은 전자 상거래 전략 및 디자인 컨설턴트들이 그들의 외부 고객을 위한 전자상거래 전략을 개발하기 위하여, 평가되고 분석되어야 하는 정보를 수집하는데 있어서 가지고 있는 문제점을 해결하고자 고안되었다. 예를들어, 업무시간의 상당 부분이 정보를 평가하고 분석하는 데 소모되는 대신 정보를 수집하는데 소모될 수 있다.

정보를 수집하는 일반적인 프로세스는 본질상 대단히 임기 응변식이므로 컨설턴트들은 그들의 필요와 관련된 최근의 확실한(robust) 정보를 수집하기 위해서, 웹, 사적인 연구 소스(sources), 내부 데이터베이스를 찾아 헤매고 개인적인 연줄(contacts)을 이용한다. 여태까지는 그와같은 소스에 진입하기 위한 단일점(single point)으로 작용하는 어떠한 방법이나 통상적인 툴(tool)도 없었을 뿐만 아니라, 그러한 데이터를 수집하기에 효율적인 최상의 실행 방법에 관한 분명한 이해조차 없었다. 또한, 어떠한 정보가(발견되었을 때) 인도품목(deliverable)의 영역으로 적용될 수 있는지도 명확하지 않다. "인도품목(deliverable)"이란 소비자가 필요로 하는 최종 문서 또는 제품이다. 따라서, 컨설턴트들은 프로젝트 팀에게 정보를 공급하는 것을 돕기 위하여, 정보를 수집하는 그들 자신의 방법을 발견하고 그들 자신이 선호하는 서치 툴과 그들 자신의 조직 역량을 이용해왔다.

따라서, 디자인 컨설턴트들이 정보를 수집하는데 소모하는 시간의 양을 감소시키고 해당하는 리소스를 가장 최근의 형태로 공급하는 시스템을 제공하기 위하여, 전자상거래 전략과 디자인 컨설턴트들에게 유용한 리소스를 조직화하는 방법 및 시스템에 관한 요구가 있다. 후술되는 본 발명은 이러한 문제를 해결하고, 컨설턴트들이 정보를 수집하는데 소모하는 시간을 감소시키는 신규한 방법 및 시스템을 제공한다.

본발명은, 사용자가 중요한 데이터에 임계속도(critical speed)로 접근할 수 있는 툴을 제공하고, 전자상거래 전략 업무(engagement)를 위해 정보를 수집하는 표준 방법/프로세스를 제공하고, 전자상거래 전략 업무에 적용할 수 있는 관련있는 최근의 확실한 문서 및 데이터에 진입하기 위한 단일점을 제공하며, 표준이 되는 통일된(corporate) 방법 및 고객 인도품목에 관한 서치 기준을 체계화함으로써 프로세스를 수집하는 연구에 가치를 부가하고, 서치 프로세스를 목표로 정하는데 있어서 도움이 되는 인텔리젠트 소프트웨어로 컨설턴트를 지원하며, 흥미있는 문서를 분석에 적용할 수 있게 될 때까지 흥미있는 문서를 유지하기 위하여 컨설팅 팀에게 네트워크화된 공간을 제공한다.

한실시예에 따르면, 본발명은 웹 크롤러(web crawler)를 이용하여, 문서를 포함한 데이터베이스의 컴퓨터화된 네트워크를 서치하는 방법을 포함한다. 웹 크롤러에는 서치를 하기전에 개념적인 가이드라인이 제공된다. 본발명은 요약을 행하고 요약에 대하여 텍스트 클러스터링을 수행하여 분류를 생성한다. 텍스트 클러스터링은 개념적인 가이드라인에 근거하여 시드(seed)를 사용하여 수행된다. 본발명은 사용자 인터페이스를 통해 분류와, 분류를 서치하기 위한 쿼리 엔트리(query entry)를 제공하고 (쿼리 엔트리에 응답하여) 사용자를 하나이상의 분류로 향하게 한다(direct). 이렇게 하여 사용자는 분류(문서에 대한 하이퍼링크)로 향하게 되고 사용자에게 문서자체가 제공되지는 않는다.

본발명은 문서를 제공하는 대신에 문서에 하이퍼링크된다. 요약은 문서와 연관된 확장가능한 마크업 언어 택(extensible markup language tags)에 근거한다. 문서 각각에 대한 링크는 분류의 적어도 두개의 클래스(class)로 나타날 수 있다. 본발명은 사용자 서치에 각각 응답하는 다수 클래스의 공통부분(intersection)을 식별한다. 그와같은 공통부분은 사용자 서치에 응답하여 하나의 문서에 대한 링크를 별개로 리턴하는 다른 클래스가 존재(occurence)한다는 것을 나타낸다. 개념적인 가이드라인은 서치와 텍스트 클러스터링을 세분하여 구체적인 결과로 분류를 향하게 한다(direct).

본발명을 사용함으로써 컨설턴트가 얻는 추가적인 이점(이는 본명세서내에서 "허브 콘텐트 관리 툴(Hub Content Management Tool)", "HCMT" 또는 단순히 "Hub" 로 언급됨)에는, 현재 개별적으로 구입하기에 고가인 사적인 연구 소스에 대한 액세스를 제공하고, 무엇을 연구하여야 하고 무엇을 찾아낼 필요가 있는 지에 대한 명백한 이해를 가능하게 하는 전자상거래 전략 방법론에 대한 밀착성(close adherence)을 제공하며, 다른 방법이라면 수백 내지 수천 시간 동안 집중적으로 읽어야 하는 노력을 들여야 가능했을 것을 서치 프로세스동안 발견할 수 있게 하는 데이터의 자동화된 분류학적 표현(representation)을 제공하고, 마지막으로 시스템 관리자가 아니라 원 소스(original source)에 의해 진정한 것으로 간주되는 최근의 정보에 액세스하고 있다는 확신을 사용자에게 제공하기 위해서, 전체 문서보다는 문서에 대한 링크를 저장하는 것이 포함된다.

이와 같은 이점은, 정보를 사용자에게 제공하고 조직화하기 위해서, 구체적으로는 컨설턴트들이 작업하는 방식에 있어서, 본발명에서 사용된 기술에 의해서 양질의 정보를 조사하는데 소모되는 시간이 극적으로 감소하는 궁극적인 이익이 있다.

본발명의 바람직한 실시예에 대한 후술하는 상세한 설명과 도면을 참조하면 본발명의 전술한 목적 또는 다른 목적, 측면 및 이점이 더 잘 이해될 것이다.

도 1은 본발명의 시스템 실시예의 구조적 다이아그램이다.

도 2는 본발명의 실시예에 따른 정보 처리를 나타내는 플로우차트이다.

도 3은 도 2에 나타난 실시예의 상호관계를 나타내는 다이아그램이다.

도 4는 본 발명을 작동하기 위한 하드웨어 실시예의 구조적 다이아그램이다.

본발명은 완전한 콘텐트(content)를 수집, 요약, 인덱싱, 분류, 서치 및 제시(presentation)하는 애플리케이션을 포함한다. 종래의 서치 및 검색(retrieval) 시스템의 예에는, 텍스트 HTML(하이퍼텍스트 마크업 언어) 또는 웹 서치를 위해 일반적으로 사용되는 키워드 서치 애플리케이션이 포함되는데, 문서 콘텐트에 나타나는 키워드가 문서를 검색하기 위해 사용된다. 다른 종래의 애플리케이션으로는 SQL(Structured Query Language)이 있고, 일반적으로 숫자 데이터베이스(재무정보와 같은)에 사용되며, 전문화된 언어가 구체적인 숫자 데이터를 검색하기 위해서 사용된다. 다른 잘 알려진 애플리케이션에는 자연언어(Natural Language)라 불리는 것이 있는데, 일반적으로 텍스트 서치를 위해 사용되며 시스템이 의미를 해석하기 위해서 질문을 분석하고 이를 근거로 관련 문서를 검색한다.

전략 지능(intelligence) 시스템을 위한 허브(Hub)는, 텍스트 클러스터링을 이용하여 컨설턴트가 데이터용 비즈니스-주도형 분류(taxonomies)를 생성하는 것을 돕는다는 것과 이러한 분류를 제시하여 히트리스트(hitlist)의 제공을 지원한다는 점에서 모든 상술한 시스템과는 다르다.

도 1에 나타난 바와 같이, 전략 컨설턴트에게 유용한 대량의 콘텐트 소스(100)가 있다. 예를들면 이러한 리소스에는 공적 및 사적 데이터베이스 뿐만 아니라, 공적 및 사적 데이터베이스(이들중 일부는 요금 기반형임), 공적 및 사적 네트워크(인터넷 또는 기업 네트워크)가 포함될 수 있다. 이러한 리소스는 프록시 문서(110), 로터스 노츠(120), 알카이브(archive) 및/또는 미러 사이트(130) 및 인터넷(140)을 포함하는 다양한 기술적 포맷이 될수 있다. 바람직한 실시예에서, 본발명은 발명이 크롤링(crawing)하는 소스가 비즈니스 컨설턴트와 관련이 있는지를 확인하기 위하여 사전에(ahead of time) 일부 선택을 한다. 예를들어, 이러한 사전 선택(pre-selection) 단계(phase)에서 본발명은 컨설턴트(사용자)에게 실행시에 어떤 고객이나 고객의 그룹과 관련되리라고 컨설턴트가 알고 있는 용어/카테고리로 들어가는(enter) 인터페이스를 제공하여 웹 크롤러를 보조한다. 일부 데이터베이스의 경우에는 라이센스를 얻는것이 필요할 수도 있다.

항목 200은 툴의 사용에 있어서 수집하는 단계를 나타낸다. 여기서, 관련된 리소스는 크롤링되고 텍스트 클러스터링 툴에 대해 수용가능한 포맷으로 변경된다. 바람직한 실시예에서, 컨설턴트에게 흥미가 있는 문서를 인터넷 서치하기 위해 웹 크롤러를 사용한다. 이러한 형태의 웹 크롤링 및 인덱싱을 위한 후속 변환(translation)은 매우 일반적이며 예를 들어, 본발명은 특정된 소스의 웹사이트 또는 데이터베이스(예를들면, 로터스 노츠)를 크롤링하여 유용한 리소스로부터 텍스트를 추출하는 툴인 그랜드 센트럴 스테이션(Grand Central Station, GCS)(미합중국, 뉴욕, 아몽크, 인터내셔널 비즈네스 머신즈 사로부터 구입가능함)을 사용할 수 있다. 따라서, 항목 220은 대체(alternate) 콘텐트 전달을 나타내고 항목 210은 GCS 콘텐트 전달을 나타낸다. 크롤러는 아티클(article) 텍스트에 근거하여 문서의 요약서(예를들면, 요약)를 생성한다. 본발명의 중요한 측면은, 단순히 메타 택(meta tags)을 읽는 것보다 더욱 신뢰할 만한 요약에 근거한 분류를 생성한다는 것이다. 더우기 본발명은 각각의 문서를 더욱 완전히 분리하기 위하여 각각의 문서내에서 패러그래프와 섹션을 별개로 분리한다. 정보가 문서 콘텐트와 관련없다 하더라도, 웹 개발자가 어떤 형태의 정보도 메타 텍에 입력할 수 있기 때문에 이러한 프로세스는 더욱 신뢰할만 하다. 모든 콘텐트 리소스로부터 요약된 텍스트의 컴비네이션 또는 전체 자료가 분류 프로세스를 위해 준비된다.

항목 300은 콘텐트 요약, 인덱싱 및 분류 프로세스를 나타낸다. 웹 크롤러에 의해 수집된 요약서가 콘텐트 요약기(310)에 의해 요약된다. 더욱 구체적으로, 콘텐트 요약기는 중복된 단어/구를 제거하고 콘텐트에 관련되지 않은 단어/구(예를들어, 부사, 형용사, 불변화사(particles) 등)를 제거하기 위하여 요약서를 추출한다(distill). 이어서 추출된 요약서(요약)는 이클래시파이어 320(eClaassifier 320, 미합중국, 뉴욕, 아몽크, 인터내셔널 비즈네스 머신즈 사로부터 구입가능함)과 같은 분류(텍스트 클러스터링) 애플리케이션으로 임포트(import)되며, 수학적 알고리즘으로 작업하여 센트로이드(centroids) 또는 완벽한/이상적인 개념을 개발하여 이들과 크롤링된 문서를 자동적으로 연관시킨다. 이러한 연관은 분류화라고 부르며 업무에서의 실용성을 평가한다.

본발명에서는 컨설턴트가 텍스트 클러스터링 애플리케이션을 제어할 수 있다. 이로써 컨설턴트는, 어떠한 카테고리가 식별되었는지를 관찰할 수 있을 뿐만 아니라 과거에 전자상거래 전략 업무에 유용했었던 추가적인 토픽/주제의 카테고리를 사용할 수 있고, 텍스트 클러스터링 애플리케이션의 성능을 사용하여 센트로이드(centroids)를 개발한다. 따라서, 본발명은 클러스터링 애플리케이션을 위해 임의의 개시점(starting point)(시드)을 이용한다는 점이 현재의 실행방법(practice)과 다른데 이는 본발명이 가능한 한 별개로 일련의 클래스를 식별하도록 한다. 컨설턴트의 한가지 목표는 데이터 스페이스에서 광범위하게 분산된 포인트를 선택함으로써 명확한 그룹핑(distinct grouping)을 생성하는 것이며 이러한 목표는 본발명에 의해 달성된다. 본발명은 컨설턴트가 유용하다고 여기게 될 비즈니스 개념에 근거하여 클래스에 대한 개시점에 진입하는 것을 컨설턴트에게 허락함으로써 분류를 생성한다. 유사한 단어/개념을 가진 문서는 함께 클러스터링된다. 다른 방식으로 말하면, 본발명은 컨설턴트의 관심 및 컨설턴트의 방법론에 적합한 하이퍼플레인(hyperplane)상에서 문서를 클러스터링한다. 본발명은 사용자 인터페이스를 통해서 유용한 카테고리를 생성하는 최적의 클러스터링을 달성하는 여러가지 방법을 컨설턴트에게 제공한다. 이에는 초기 분류를 생성하는 방법으로서 컨설턴트가 "키워드"를 사용하고 더 큰 데이터세트로 확장되는 자연 및 컨설턴트 주도형 분류를 생성하기 위하여 트레이닝(training) 문서의 서브셋을 사용하도록 하는 것과, 텍스트 클러스터링 알고리즘 후에 분류를 조정하는 것이 포함된다. 이러한 접근법은 동일한 데이터 세트에 대해서 다수의 동일하게 가치있는 분류를 이끌어낸다.

개시 시드 위치를 주의깊게 구성함으로써 본발명을 이용하는 컨설턴트는 종래의 접근법을 실제적으로 개선할 수 있다. 개시점은 카테고리화할 토픽에 대한 컨설턴트의 지식에 의존한다. 컨설턴트가 친숙하지 않은 개념적인 영역에 대하여는 전체적인 이해를 돕기 위해 자연적인 분류가 행하여질 수 있으며 이어서 고객과 컨설턴트가 흥미를 가지는 방법론에 근거한 분류가 생성된다. 이 애플리케이션의 목적을 위하여 분류는 텍스트 클러스터링 프로그램이 데이터를 조직화(체계화)할 수 있는 한 방법이다. "자연" 분류는 임의의 개시점에서 시작하는 클러스터링하는 텍스트에서 발생하고 전체자료에 의존한다. "컨설턴트-주도형(consultant-driven)"분류는 컨설턴트가 가이드하는 텍스트 클러스터링으로부터 발생한다. 분류는 "자연"과 "컨설턴트-주도형" 클러스터링의 조합일 수 있다. 본발명의 목적을 위해 "콘텐트"라는 용어에는 연구 보고서, 뉴스 기사, 분석 보고서, 프록시 문서등을 포함하는 많은 다른 형태의 문서가 포함될 수 있다.

결국, 만약 본발명이 관련이 더 적은 문서를 만들어낸다면, 컨설턴트는 본발명을 이용하여 클러스터로부터 아티클(및 대응하는 데이터포인트)을 수동적으로 이동시킬 수 있다. 항목 400은, 본발명(430, SI 허브 웹 애플리케이션)의 서치 엔진(410)의 애플리케이션 엔진(420)을 포함하는 웹 애플리케이션을 나타낸다. 웹 애플리케이션은 분류 프로세스의 결과를 취하여 항목 500의 웹 브라우저 인터페이스(510)를 통해 컨설턴트에게 동일한 것을 제시한다.

본발명으로 만들어진 분류는 상이한 관점으로부터 동일한 데이터세트를 나타내며 이는 컨설턴트에게 본발명을 이용하여 그들이 원하는 개념에 집중하여 클래스를 "스택(stack)" 하도록 한다(예를들어, 이러한 상이한 뷰포인트간의 공통부분을 관찰함). 각각의 데이터세트는 다수의 분류를 가질 수 있으며, 이는 클래스가 상이함(개시점이 상이함으로 인하여)을 의미한다. 본발명의 중요한 특징은 각각의 문서가 다른 클래스에 나타날 수 있다는 것이다. 각각의 아티클이 모든 분류의 적어도 하나의 클래스에 나타나기 때문에, 문서는 두개 이상의 클래스에 나타날 수 있는데 이는 종래의 클러스터 분석을 무너뜨리는 것이다. 예를들어 셀 폰에 관한 아티클은 "무선"이라는 분류 내의 "액세스 디바이스" 클래스 하에서 나타날 수 있다. 다른 분류는 "인프라스트럭처" 또는 "프로토콜"이 될 수 있다. 동일한 아티클은 "소비자 전자기기(Consumer Electronics)"라는 분류 내의 "셀 폰"이라는 클래스에 나타날 수 있다. 다른 클래스는 "스테레오" 또는 "MP3 플레이어"를 포함할 수 있다. 동일한 아티클이 "소비자 행동"이라는 분류 내의 "구매행동" 클래스에 나타날 수 있다. 다른 클래스는 "브랜드 로얄티" 또는 "조회의 이용(Use of References)"을 포함할 수 있다. 따라서, 본발명은 텍스트 클러스터링을 이용하여 생성되는 카테고리를 인터섹트함으로써 인터섹팅(intersecting) 카테고리의 개념을 넘어선다.

본발명의 이러한 특징은 "분류의 스택킹(stacking)" 또는 더 정확하게 "클래스의 스택킹"으로 언급된다. 상술한 실시예를 이용하여 컨설턴트는 그들의 셀 폰을 애용하는 소비자에 관한 아티클을 발견하기를 희망할 수 있다. 이것은 정확한 단어가 아니라 실제로 중요하다고 여겨지는 개념이기 때문에 종래의 서치 엔진에서는 어려운 서치이다. 이러한 경우에 컨설턴트는 다음 클래스(전술된 본발명의 클러스터링 프러세스에 의해 만들어짐), "소비자 행동:브랜드 로얄티" 및 "소비자 전자기기:셀 폰"를 선택할 수 있다. 본발명의 또 다른 특징은 전체 문서 (또는 전체 문서의 요약)를 리턴하는 것이 아니라 대신에 두 개념에 관련된 아티클에 대한 하이퍼링크를 리턴한다. 이 두 클래스는 다른 두가지 방식으로 동일한 아티클 세트를 찾기 때문에 그들의 공통부분은 매우 가치있는 것으로 증명된다. 본발명을 이용하면, 컨설턴트의 요청을 서치하는데 소모되는 시간이 약 4분의 3(75％)으로 감소된다.

더우기, 사용자 인터페이스는 각각의 분류에서 가장 통상적인 단어의 리스트를 컨설턴트에게 제공한다. "분류의 탐색(explore)(520)" 이라고 불리는 사용자 인터페이스의 영역은 전술된 자동화된 요약 프로세스에 의해 결정되는 관련 개념의 세트를 나타냄으로써 컨설턴트의 서치 프로세스를 돕는다.

텍스트 인터페이스에 덧붙여서, 본발명은 분류를 나타내기 위해 "마인드맵(530)"으로 언급된 특성을 이용한다. 이 시각적으로 지향된(visually oriented) 인터페이스는 분류(히트리스트가 아니라)를 탐색(exploration)의 수단으로 제시한다. 마인드 맵은 본발명에 의해 만들어진 분류 및 컨설턴트가 입력하는 개념(또는 키워드) 사이의 관계의 강도(예를들어, 위치, 색, 밝기 등을 통해)를 나타낸다.

항목 510은 사용자 인터페이스를 나타내는데 이는 웹 브라우저에 액세스된다. 본발명은 본발명의 분류내의 클래스를 문의하는 사용자의 키워드를 비교하고 가장 관련있는 클래스를 리턴한다. 따라서, 본 발명은 쿼리에 응답하여 분류(히트리스트가 아니라)를 제공한다. 따라서, 클래스나 분류 각각은 참고 자료(reference)로부터 카피된 데이터를 포함하지 않는다. 그러나, 대신에 단순히 참고 자료에 대한 하이퍼링크를 포함한다. 본발명은 한 분류의 클래스로부터 다른 분류의 가장 가까운(수학적으로 결정되는) 클래스로 사용자를 이동시킨다.

항목 600은 온라인 분석 프로세싱(on line analytical processing : OLAP) 엔진(620) 및 구조화된 데이터(610)를 가진 웹 OLAP 서버를 나타낸다. 웹을 통해 데이터에 액세스하는 많은 표준 접근법이 있다. 이러한 경우에, 본발명은 일부 구조화되고 텍스트 형태가 아닌(non-text) 데이터(610)를 검색하기 위해서 웹 OLAP 엔진(620)에 액세스하는 웹 인터페이스(510)의 일반적으로 표현(generic representation)된다. 임의의 텍스트를 포함하지 않는 문서(610)가 있으며 결과적으로, 이 문서들은 다른 텍스트 문서와 데이터세트내에 위치될 수 없다. 본발명은 데이터의 분류에 도움이 되게 하기 위하여 XML(확장가능한 마크업 언어) 파생어(HubML이라 불림)로 프록시 문서를 포맷함으로써 이 문제를 해결한다.

요약은 XML 요약이다. XML은 웹페이지에서 데이터 구성요소 및 기업 간 전자상거래(business-to-business) 문서를 정의하기 위해 사용된 오픈 표준이다. XLM은 HTML과 같은 유사한 택 구조를 사용하지만, HTML은 어떻게 구성요소가 디스플레이되는지를 정의하고 XML은 그러한 구성요소가 엄격한 규칙안에서 무엇을 포함하고 있는지 정의한다. HTML은 미리 정해진 택을 사용한다. 그러나, XML은 페이지의 개발자가 택을 정의할 수 있다. 데이터를 식별하기 위한 통상의 방법을 제공함으로써 XML은 기업간 전자상거래 트랜잭션을 지원한다. 본발명은 XML에 포함된 메타데이터를 사용하여 HubML을 셋 업(set up)한다. 허브ML 문서가 텍스트 기반이기 때문에 이는 숫자 데이터를 대신하고, 본발명은 "크롤할수 없는(uncrawlable)" 파일을 분류하고 이를 결과에 포함시킨다. 추가로, 본발명은 (XML 택으로부터 사용된) 서베이(survey) 질문을 이용하여 컨설턴트에게 요약뿐만 아니라 서베이 질문에 대한 서치를 할 수 있게 한다.

각각의 HubML 문서는 다양한 소스로부터의 정보를 이용하여 수동으로 생성된다. 현 실시예에서 이러한 수동으로 만들어진 HubML(크롤러에 의해 생성된 것과는 반대되는 것으로서)는 "큐브(cubes)"로 기술되는 상이한 소스로부터 정보를 이끌어낸다. 큐브는 스프레드쉬트(spreadsheet)와 유사하지만 구조적으로 훨씬 더 복잡하다. 컴패니온(companion) 문서는 무엇이 스프레드쉬트(큐브) 상에 있는지를 기술한다. 따라서 HubML 컴패니온 문서는 허브(스타일 쉬트를 배치할 위치); 큐브 그 자체(제목, 요약서, 화일명, 화일 크기, 생성된 시점); 서베이(사용된 질문 및 텍스트, 데이터가 수집된 시점 등) 및 서베이에 의해 커버되는 토픽에 대한 개념에 관한 많은 정보를 포함한다.

이와같은 "개념"은 서치하는 동안 발생하는 아이디어이다. 예를들어, 어떤 사람은 주어진 토픽 "크루즈(cruises)"에 흥미를 가지고 있다면 그 단어 "크루즈"를 포함하는 HubML 문서가 직접 히트(direct hit)가 될 것이다. 본발명의 주요한 특징은 직접적인 히트를 찾아낼 수 있을 뿐만 아니라 개념의 분류에 근거하여 근접한 히트도 또한 찾는다는 것이다. 예를들어, 어떤 사람은 "여행"에 관심을 가질 수 있다. 여행이 개념 섹션에서 명확하게 리스트 되지는 않지만, 크루즈와 여행은 종종 동일한 아티클에 나타나기 때문에, 상술한 분류 방법을 이용하여 그러한 개념은 동일한 클래스에 해당된다. 따라서, 특정 HubML 문서가 그 안에 "여행"이란 단어를 가지지는 않지만 "여행"을 서치하는 컨설턴트는 그들의 결과내에서 이 문서를 발견할 수도 있다.

다양한 서비스가, 데이터 소스를 액세스하는 포탈(portals)을 제공한다. 그러나, 그들은 데이터베이스에 대한 액세스를 제한하거나 또는 요금을 청구한다. 다른 오퍼링(offering)을 연구하는데 있어서, 이러한 문제에 대한 대부분의 해결책은, 예를들어 "회사 고유의(specific)" 또는 "시장 지능(intelligence)" 정보를 제공하기 위해 데이터베이스에 함께 종합함으로써(compiling) 실현될 수 있다. 본발명에서 포탈의 양상(aspect)은 많은 소스에 진입하기 위한 단일 포인트를 제공하는 것으로 고려되는데, 본발명은 이러한 부분에서 추가적인 가치가 존재한다. 특히, 본발명은 컨설턴트가 고객 인도품목에 의해 서치하는 것을 가능하게 한다. 이러한 일예로서, "와이어리스 스페이스(wireless space)"로 이동하는 것에 흥미가 있는 고객으로서 소비자 제품 회사를 들 수 있다. 컨설턴트는 이러한 맥락에서 신속히 속도를 내어 도달하기를 원할 것이다. 본발명의 다른 이점은 대단히 감소된 서치 시간, 대단히 감소된 분류 생성 시간, 토픽에 대한 더욱 포괄적인 적용범위(coverage), 정확하게 키워드에 매치될 필요는 없으나 "밀접(close)"한 아티클에서 토픽을 발견함으로써 추가적인 아이디어 발생과 시간 절약을 포함한다.

본발명은 기업 전략 모니터링, 사인포스트(signpost) 모니터링, 기업 내 지식관리, 온라인 강좌(e-learning) 환경, 클러스터 분석을 사용하는 다른 데이터뿐만 아니라 일반적인 공용 서치 엔진을 포함한다.

개시점은 카테고리화되는 토픽에 대한 컨설턴트의 지식에 의존한다. "양호한(good)" 개시점을 선택하는데는 상당한 기술을 필요로 한다.

본발명은 네트워크 기술을 이용하여 복잡한 프로세스를 단순화하고 통합하여 웹 크롤러 및 서치 분류기의 능력을 통합하고 레버리지(leverage) 한다. 도 2 및 도 3은 본발명의 추가적인 특징을 더욱 분명하게 예시하기 위해서 플로우 차트 형태로 본발명의 주요한 프로세싱 포인트를 예시하고 다른 관점에서 본발명을 나타낸다. 도 2에서, 본발명은 항목 30에서 먼저 정보를 수집하고 31에서 정보를 처리하고 32에서 정보를 패키지(pakage)하고 33에서 정보를 분리하며 34에서 정보를 배포한다. 이러한 기능은 아래에서 도 3과 관련하여 상세하게 기술된다.

도 3에 나타난 바와 같이, 수집 기능(30)에서 본발명은 소스로부터 텍스트를 획득하고(305), 이를 요약하고(304), 이 요약을 원래의 소스 위치로 다시 하이퍼링크함으로써 소스(305)로부터 콘텐트(메타데이터)를 수집한다. 식별되는 소스(305)는 GCS 노트 요약(301), GCS HTML 요약(302) 또는 HCMT 요약(303)과 같은 임의의 형태일 수 있다.

프로세스 기능(31)과 관련하여 본발명은 텍스트 클러스터링 프로그램을 사용하여 모든 필요한 오퍼레이션을 수행하여, 서치 분류기에 의해 필요로 되는 모든 데이터 세트 컴포넌트를 얻는다. 상기 프로세싱에는 매터(matter) 데이터의 콘텐트, 소스 위치에 대한 링크 및 콘텐트의 다른 측면을 식별하는 것뿐만 아니라 텍스트, 일자, 저장(stores) 등의 콘텐트를 식별하기 위해, 분류기가 콘텐트 저장에 따라서 데이터를 편성(organizing)하는 것이 포함된다. 따라서, 본발명은 XSL 변환(313)과 상술한 "허브(Hub)" 프로세싱을 수행하여(313) 데이터세트 컴포넌트(312)를 생성한다.

패키징 기능(32)과 관련하여, 본발명은 다양한 조합으로 콘텐트를 조직화하여 상이한 애플리케이션에서 이용할 수 있게 한다. 패키징(312)은 분류기와 허브 모두를 위해 프로세스 데이터를 취하여 동일한 수집 및 프로세싱 오퍼레이션과는 다른 포맷으로 전달된 콘텐트를 "믹스와 매치(mix and match)" 하여 SI Hub 데이터세트(322)를 얻는다.

분류기 오퍼레이션(33)에서 본발명은, 최종 사용자의 요구(needs)에 따라 콘텐트를 조직화하여 SI Hub 분류기(330)를 생성하기 위해서 컨설턴트에 의해 커스터마이즈된 시드(seeds)를 사용하며, 텍스트 클러스트링 애플리케이션(321)에 의존한다. 위에서 논의된 바와 같이, 서치되는 콘텐트를 명확하게 조직화하여 사용자에게 제시하기 위하여, 분류화는 고객의 요구를 잘 알고 있는 주제(subject-matter)의 전문가(컨설턴트)에 의해 행하여진다. 기존의 자문(consultations)은 새로운 콘텐트가 패키지화되는 때에 자동적으로 업데이트된다. 최종적으로, "배치(deploy)" 오퍼레이션(34)에서 개발된 분류(341) 및 계산된 키워드 인덱스(340)는, 풀 다운 메뉴와 개념 서치 경로(342)를 구비한 인터페이스로 사용자에게 제시된다.

본발명을 실행하기 위한 대표적인 하드웨어 환경은 도 4에 도시되어 있으며, 적어도 하나의 프로세서 또는 중앙 처리 장치(CPU, 10)를 구비한 본발명에 따른 정보 처리/컴퓨터 시스템의 일반적인 하드웨어 구성을 도시한다. CPU(10)는 시스템 버스(12)를 경유하여 랜덤 액세스 메모리(RAM, 14)와, 읽기 전용 메모리(ROM, 16)와, 디스크 유닛(11)과 테이프 드라이브(13)와 같은 주변장치를 버스(12)에 접속하기 위한 입력/출력(I/O) 어댑터(18)와, 키보드(15), 마우스(17), 스피커(103), 마이크로폰(104) 및/또는 버스(12)에 대한 터치 스크린 디바이스(도시되지 않음)와 같은 다른 사용자 인터페이스 디바이스를 버스(12)에 접속하기 위한 사용자 인터페이스 어댑터(19)와, 데이터 프로세싱 네트워크에 정보 처리 시스템을 접속하기 위한 통신 어댑터(105)와, 디스플레이 디바이스(102)에 버스(12)를 접속하기 위한 디스플레이 어댑터(101)가 접속된다. 디스크 또는 테이프 유닛에 의해 판독 가능한 프로그램 저장장치 디바이스는 유선 상호접속 설계에서 동작하고 컴퓨터 시스템 상에서 로딩되는 명령을 로딩하기 위해 사용된다.

전술한 바와 같이, 본발명은 고객을 위한 전자 상거래 전략을 개발하기 위해서 정보를 수집하고 처리하는 컨설팅 산업에서 유리하게 이용될 수 있다. 본발명은 연구 소스에 대한 액세스를 제공하고, 무엇이 연구되어지고 무엇이 회복되어질 필요가 있는지를 명백하게 이해하기 위해서 전자상거래 전략 방법론에 충실한 지지(close adherence)를 제공하고, 다른 방법이라면 수백 내지 수천 시간동안 잡중적으로 읽는 노력일 필요했을 것을 서치 과정 동안 발견하는 것을 가능하게 하는 데이터의 자동화된 분류 표시를 제공하고, 결국 전체 문서 자체보다 문서에 대한 링크를 저장하여 시스템 관리자가 아닌 원 소스에 의해 참인 것으로 간주되는 최근의 정보를 액세스하고 있다는 확신을 사용자에게 제공한다. 그러한 이점은, 컨설턴트가 일하는 방식에 있어서, 본원발명의 기술에 의하면 정보를 조직화하고 사용자에게 제시하기 위해서 양질의 정보를 연구하는데 소요되는 시간을 극적으로 감소시키는 궁극적인 이익이 있다.

본발명은 바람직한 실시예의 관점에서 기재되었으나, 당분야의 통상의 지식을 가진 자들은 첨부된 특허청구범위의 정신 및 범주내에서 본발명을 변형하여 실행할 수 있음을 인식할 것이다.

Claims

데이터베이스를 서치(searching)하는 방법에 있어서,

웹 크롤러-상기 웹 크롤러에는 서치 전에 개념적인 가이드라인이 제공됨-를 사용하여 문서를 포함하는 데이터베이스(100)의 컴퓨터화된 네트워크를 서치-상기 서치는 서치 결과를 생성함-하는 단계(200)와,

상기 서치 결과를 요약하여(300) 요약을 생성하는(304) 단계와,

상기 요약에 관해서 텍스트 클러스터링(31)-상기 텍스트 클러스터링은 개념적인 가이드라인에 근거한 시드를 사용하여 수행됨-을 수행하여 분류를 생성하는(330) 단계와,

사용자 인터페이스(510)를 통해 상기 분류와 상기 분류를 서치하는 쿼리 엔트리(entry)를 제공하는 단계

를 포함하는, 데이터베이스 서치 방법.
제 1 항에 있어서, 상기 문서를 제공하는 대신에 상기 문서에 대한 하이퍼링크를 제공하는 단계를 더 포함하는, 데이터베이스 서치 방법.
제 1 항에 있어서, 상기 요약은 상기 문서와 연관된 확장가능한 마크업 언어 택에 근거하는, 데이터베이스 서치 방법.
제 1 항에 있어서, 상기 문서 각각에 대한 링크는 상기 분류의 적어도 두개의 클래스에 나타날 수 있는, 데이터베이스 서치 방법.
제 4 항에 있어서, 상기 쿼리 엔트리에서 사용자 서치에 응답하는 다수 클래스의 공통부분(intersection)을 식별하는 단계를 더 포함하는, 데이터베이스 서치 방법.
제 5 항에 있어서, 상기 공통부분은 상기 사용자 서치에 응답하여 하나의 문서에 대한 링크를 별개로 리턴하는 다른 클래스가 존재한다는 것을 나타내는, 데이터베이스 서치 방법.
제 1 항에 있어서, 상기 개념적인 가이드라인은 상기 서치 및 상기 텍스트 클러스터링을 세분화하여 상기 분류를 특정 결과로 향하게 하는(direct), 데이터베이스 서치 방법.
제 1 항 내지 제 7항 중 어느 한 항에 있어서, 상기 쿼리 엔트리에 응답하여, 상기 사용자를 하나 이상의 상기 분류로 향하게 하여(direct) 상기 사용자가 상기 문서가 아닌 상기 분류로 향하게 하는(direct) 하는 단계를 더 포함하는, 데이터베이스 서치 방법.