KR20090010185A

KR20090010185A - 싱글 및 멀티플 택소노미 관리 방법 및 시스템

Info

Publication number: KR20090010185A
Application number: KR1020087027149A
Authority: KR
Inventors: 필리스 루터
Original assignee: 모바일 컨텐트 네트웍스, 인크.
Priority date: 2006-04-19
Filing date: 2007-04-20
Publication date: 2009-01-29
Also published as: JP5150871B2; WO2007119250A1; RU2008145578A; EP2011039A1; US7974984B2; JP2009534735A; US20070250487A1

Abstract

적어도 하나의 카테고리를 포함하는 제1 택소노미, 및 하나 또는 그 이상의 제2 택소노미 -단, 적어도 하나의 제2 카테고리가 상기 하나 또는 그 이상의 제2 택소노미에 연관됨 - 를 포함할 수 있는 시스템 및 방법이 제공된다. 상기 시스템 및 방법은, 상기 적어도 하나의 제1 카테고리의 제1 카테고리 프로필과 상기 적어도 하나의 제2 카테고리의 제2 카테고리 프로필을 비교한 유사도에 기초하여 상기 제1 택소노미를 상기 제2 택소노미와 병합함으로써, 새로운 택소노미를 생성하는 단계를 더 포함한다.

택소노미, 범주화, 검색 엔진, Taxonomy, categorization.

Description

싱글 및 멀티플 택소노미 관리 방법 및 시스템{Method and System for Managing Single and Multiple Taxonomies}

본 출원은 2006년 4월 19일 출원된, 미국 임시 출원 60/745,155호, " Methods and Apparatus for managing single and multiple taxonomies"을 기초로 한다. 본 발명은, 컴퓨터에 사용되어, 정보 탐색과 검색, 콘텐트 분석, 및 전자적 가용 콘텐트(텍스트, 데이터, 및 (이를 테면 이미지, 소프트웨어, 멀티미디어와 같은) "디지털 콘텐트")의 분류 또는 범주화를 제공하거나 개선하도록 하는, 싱글 및 멀티플 택소노미를 생성하고, 유지하고, 관리하기 위한 방법 및 장치에 연관될 수 있다.

본 네트워크를 통한 전자적 가용 디지털 콘텐트의 양을 점점 더 늘려왔으며, 정보의 범람을 초래해서, 유저가 일관적이고 신뢰할 수 있을 정도로 발견하는 정도보다 과도하게 많은 정보에 액세스하게 되기에 이르렀다.

이전에는, (책을 포함하는, 단, 책에만 한정되는 것은 아님)프린트된 출판물, 코인(coins), 지도(maps), 및 그림(drawings)의 사설 및 공공 도서관과 같은, 물리적 콘텐트 콜렉션(content collections)이, 그 콜렉션의 콘텐트를 설명하는 택소노믹 구조(taxonomic structure)를 개발해온 사서(human librarians)에 의해 관 리되어왔으며, 이러한 사서들은 각 콘텐트 아이템에 상대적인 카테고리 또는 카테고리들을 검토하고 할당함으로써 상기 물리적 콜렉션을 구조화 했다(impose the structure). 이러한 수작업(manual process)은 상기 콘텐트 콜렉션이 서서히 증가하는 경우에 관리 가능한데, 현재의 빠른 디지털 콘텐트 확산은, 텍스트나 미디어 어느 면에서든, 콘텐트 콜렉션 보유자의 편집 관리(editorial staffing) 수준을 압도한다.

결과적인 정보 탐색 및 검색 기술의 확산과 거래(commoditization)는, 콘텐트 소스에 의한 많은 수의 상업적 데이터, 미디어, 및 텍스트 콜렉션을 생성해왔고, 독립적으로 인덱스화 하고 관리해왔다. 이러한 콘텐트 소스는 그것들의 디지털 콘텐트를 공공 서치 엔진(search engines)에 의해 인덱싱하기 위해 완전히 액세스 가능하게 만드는 경제적 동인(economic incentive)을 제한해왔고, 상기 공공 서치 엔진은, 서치 엔진 유저가 실제 콘텐트에 직접 액세스하도록 하기 보다는, 광고자가 상기 소스를 가지게 함으로써 더 많은 경제적 이득을 취하였다.

정적인(stationary) 컴퓨터를 경유한 통상적인 콘텐트 액세스에 더하여, 랩탑, PDA(personal digital assistants), 및 이동전화와 같은 모바일 컴퓨팅 기기(mobile computing devices)를 사용한 인터넷 액세스는 폭발적으로 확산되어왔다. 이러한 모바일 기기의 확산에 따라 제공자(publishers)는 콘텐트를 모바일 인터넷 액세스를 위해 재구성하고 재편하게 되어 콘텐트 가용성의 속성(the nature of content availability)이 변화되었다.

데스크탑 컴퓨터 유저는 다양한 시도와 브라우징을 사용해서 편안하게 정보 검색을 수행할 수 있는 반면, 모바일 컴퓨팅 유저는 좁은 스크린, 입력 체계, 위치적 특성, 및 스스로의 움직임에 의해 제한을 받는다. 이러한 제약 때문에, 모바일 컴퓨팅 유저는 가능한 한 모든 연관된 결과를 기대하기 보다는, 특정 정보에 대한 즉시성을 기대한다.

모바일 인구에 의한 콘텐트 액세스의 변화하는 속성은, 결과 세트의 5 내지 10 개 엔트리의 가능한 가장 높은 정확도를 강조하는 새로운 탐색 및 검색 프로세스의 리콜에 걸친 정보 검색 정확성의 가치가 증가하는 데에 큰 부분을 차지한다. 같은 이유에서, 모바일 유저는 또한 원하는 콘텐트에의 가장 짧은 경로를 요구한다. 따라서, 제공자(publishers)에게는 콘텐트 그룹 또는 카테고리에 대한 액세스를 용이하게 하는 정보 구조 내의 콘텐트를 조직화할 필요가 커지고 있다.

싱글 제공자 서치 엔진 또는 대규모 공공 서치 엔진에 대한 대안으로서, 다양한 콘텐트 소스에 걸친 페더레이티드 서칭(federated searching)이 유저가 쿼리에 상대적인 응답을 얻을 수 있는 기회를 증가시키고 있다. 그러나, 콘텐트 제공자들은 그들의 콘텐트를 다른 정보 구조 또는 “택소노미”를 사용하여 구성해왔을 수 있다.

일반적으로, 택소노미는 제어된 단어 내의 용어들(terms in the controlled vocabulary) 사이의 관계를 나타내기 위해 계층화되어 구성된, 제어된 단어일 수 있다. 택소노미 카테고리는 라벨된 단어 용어(labeled vocabulary term) 또는 단어 용어에 연관되는 그룹일 수 있다. 예를 들어, 제품 판매자 이름(product vender name)의 세트가 백화점을 위한 제어된 단어가 될 수 있고, 카테고리는 백화 점의 이름일 수 있다(예를 들어, Shoes, Housewares, Appliances).

서로 다른 택소노미가 동일한 제어된 단어로부터 생성될 수 있고, 이것은 상기 단어가 어떻게 카테고리로 그룹화되는지, 그리고 상기 결과 카테고리가 어떻게 서로에 대해 정렬되는 지에 달려있다.

중요한 실질적이고 상업적인 가치는, 자동화된 택소노미 개발 및 분류 기술에 의해 제공되어 왔으며, 그것의 목표는 주어진 콘텐트 콜렉션 내의 정보를 비슷한 콘텐트 그룹으로 조직화하고, 각 그룹을 적당하게 라벨링하고 정렬하며, 상기 콜렉션에 액세스하는 유저에게 가장 유용한 그룹 조직(the group organization of greatest utility)을 디스플레이 하는 것이다.

택소노미 관리 및 분류 기술의 결과적인 확산은 증가하는 수의 공공 택소노미를 생성해왔고, 이는 대부분 내비게이션 디렉토리 또는 “브라우징 서치”로 사용되었는데, 이를테면 Yahoo!, Amazon, 및 eBay 웹사이트와 같은 곳에서 발견되며, 콘텐트 제공자로부터 사용 가능한 개인적 콘텐트(proprietary content)에 액세스하는 것을 용이하게 하고, 공공 서치 엔진 또는 콘텐트를 통합하는 이(content aggregators)에게 집중된다.

본 발명은 특히, 미리-존재하는 택소노미(pre-existing taxonomies) 및 분류된 콘텐트에 영향을 주어, 새로운 택소노미를 정보 구조 및 콘텐트 제공자에 의해 최소한의 노력과 우수한 제어와 함께, 자동적으로 생성하고, 유지하고, 및 관리하는 개선된 택소노미 관리 시스템을 위한 방법 및 시스템에 연관된다.

본 발명의 일 측에 따르면, 상기한 이슈의 하나 또는 그 이상의 것을 해결할 수 있다. 본 발명의 일 실시예에 따르면, 제1 복수 개의 카테고리를 포함하는 제1 택소노미를 검색하는 단계, 제2 복수 개의 카테고리가 연관되는 하나 또는 그 이상의 제2 택소노미를 검색하는 단계, 제1 복수 개의 카테고리 각각의 카테고리 프로필과 제2 복수 개의 카테고리 각각의 카테고리 프로필을 비교하여 매칭 카테고리와 논-매칭 카테고리를 식별하는 단계, 및 상기 매칭 카테고리 및 상기 논-매칭 카테고리를 포함하는 제3 택소노미를 생성하는 단계를 포함하는 컴퓨터에서 수행되는 방법이 제공된다.

본 발명의 다른 일 실시예에 따르면, 적어도 하나의 제1 카테고리를 포함하는 제1 택소노미, 및 하나 또는 그 이상의 제2 택소노미 - 적어도 하나의 제2 카테고리가 상기 하나 또는 그 이상의 제2 택소노미 중 적어도 하나에 연관됨 - 를 검색하는 단계, 및 적어도 하나의 제1 카테고리의 제1 카테고리 프로필과 적어도 하나의 제2 카테고리의 제2 카테고리 프로필을 비교한 유사도에 기초하여 상기 제1 택소노미와 상기 제2 택소노미를 병합함으로써 새로운 택소노미를 생성하는 단계를 포함하는 컴퓨터에서 수행되는 방법이 제공된다.

본 발명의 다른 일 실시예에 따르면, 네트워크에 통신적으로 커플링되는 제1 콘텐트 소스 - 상기 제1 콘텐트 소스는 적어도 하나의 제1 카테고리를 갖는 제1 택소노미를 저장함 - , 상기 네트워크에 통신적으로 커플링되는 제2 콘텐트 소스 - 상기 제1 콘텐트 소스는 적어도 하나의 제2 카테고리를 갖는 제2 택소노미를 저장함 - , 네트워크에 통신적으로 연결되는 클라이언트 장치 - 상기 클라이언트 장치는 제1 택소노미 및 제2 택소노미를 식별하는 데이터를 생성함 - , 및 상기 네트워크에 통신적으로 커플링되는 서버 - 상기 서버는 적어도 하나의 제1 카테고리의 제1 카테고리 프로필과 적어도 하나의 제2 카테고리의 제2 카테고리 프로필을 비교한 유사도에 기초하여 상기 제1 택소노미와 상기 제2 택소노미를 병합함으로써 새로운 택소노미를 생성하도록 조정됨 - 를 포함하는 컴퓨터로 구현되는 시스템이 제공된다.

본 발명의 다른 일 실시예에 따르면, 하나 또는 그 이상의 콘텐트 소스로부터 제1 택소노미 및 제2 택소노미를 검색하는 소스 커넥터 모듈 - 상기 제1 택소노미는 적어도 하나의 제1 카테고리를 갖고, 상기 제2 택소노미는 적어도 하나의 제2 카테고리를 가짐 - , 상기 적어도 하나의 제1 카테고리 및 상기 적어도 하나의 제2 카테고리를 위한 콘텐트 카테고리 프로필을 생성하는 카테고리 콘텐트 모듈, 및 적어도 하나의 제1 카테고리의 제1 카테고리 프로필 및 적어도 하나의 제2 카테고리의 제2 카테고리 프로필을 비교한 유사도에 기초하여 상기 제1 택소노미와 상기 제2 택소노미를 병합함으로써 새로운 택소노미를 생성하는 택소노미 병합 프로그램 모듈을 포함하는, 컴퓨터로 구현되는 쿼리 처리 장치가 제공된다.

본 발명에 대한 이해를 돕기 위해, 하기 도면을 참조하여 서술한다. 그러나 본 발명이 특정 도면에 의해 제한되는 것은 아니며, 예시적인 것으로만 이해되어야 한다.

도 1은, 본 발명의 일 실시예에 따른 싱글 및 멀티플 택소노미를 관리하기 위한 시스템을 도시한다.

도 2는 본 발명의 일 실시예에 따라, 확장된 택소노미가 검색되고 처리되어 택소노미 카테고리 프로필 및 콘텐트 프로필을 생성하는 프로세스를 도시하는 흐름도이다.

도 3은 본 발명의 일 실시예에 따라, 하나 또는 그 이상의 택소노미들이 병합되어 새로운 택소노미 T'을 생성하는 택소노미 병합 프로그램 모듈에 의해 수행되는 택소노미 병합 과정을 나타내는 흐름도이다.

도 4는 본 발명의 일 실시예에 따라, 하나 또는 그 이상의 택소노미들이 병합되어 새로운 택소노미 T' 를 생성하는 택소노미 병합 프로그램 모듈에 의해 수행되는 인트라-택소노미 카테고리 맵핑 과정을 나타내는 흐름도이다.

도 5는, 본 발명의 일 실시예에 따른, 제어된 단어의 일 예와, 두 개의 서로 다른 예시적 택소노미를 도시한다.

도 6은 두 개의 서로 다른 본 발명의 일 실시예의 수퍼셋(superset)으로써 생성되는 예시적 택소노미의 일 예를 도시한다.

이하에서는 본 발명의 일부 실시예들을 도면을 참조하여 설명하지만, 본 발명의 청구된 범위의 발명 사상을 변경하지 않는 다양한 추가, 개조, 및 대체가 가능하며, 이러한 것 또한 본 발명의 범위 이내인 것으로 이해되어야 한다. 특히, 본 발명의 기술 분야에서 통상의 지식을 가진 자라면, 본 발명이 다른 특정 형태, 구조, 배열, 비율, 및 다른 구성요소, 물질, 및 성분에 의해, 본 발명의 핵심 사상 을 유지한 체로 구현될 수 있음은 명확하다. 따라서 이하의 실시예들은 한정적인 것이 아닌, 전적으로 예시적인 것으로 간주되어야 하며, 이하의 서술이 본 발명을 제한해서는 안 된다. 나아가, 본 발명의 일부 실시예에 따른 프로세스의 순서를 바꾸어 수행하더라도 결과를 크게 바꾸지 않는 변형이 가능함을 알 수 있다.

따라서 본 발명의 실시예들은 한정적인 것이 아니라 예시적인 것으로 간주되어야 한다. 그리고 본 발명의 범위는 실시예들의 기재가 아닌 특허청구범위에 기재된 바에 따라 결정되어야 하며, 본 발명과 균등한 범위 내의 변경은 본 발명의 권리 범위 내에 속하는 것으로 보아야 한다.

이하에서는, 몇몇 용어의 정의가 제시되지만, 하기 정의는 단순히 예시적인 것에 불과하며, 이곳에서 도시되고 참조되는 본 발명의 다양한 실시예는 예시에 참조되기 위한 것에 불과하다. 본 발명의 범위는 하기 정의에 의해 제한되지 않는다.

서치 엔진(Search engine)은: 쿼리를 통한 유저로부터의 명령에 기초하여 정보를 인덱스하고, 저장하고, 및 검색하도록 디자인된 컴퓨터 프로그램을 가리킬 수 있다. 싱글 콜렉션에 대응하여 개별 검색을 수행하는 과정이 서치 엔진으로 불린다. 멀티플 서치 엔진 및/또는 데이터베이스 및 이들의 결합 결과에 대응하여 검색을 수행하는 과정은 페더럴 또는 메타-서치 엔진으로 알려져 있다.

콘텐트 소스(Content Source) 또는 콘텐트 제공자(Content Publisher)는: 네트워크를 통해 이용 가능한 디지털 또는 논-디지털 콘텐트의 콜렉션을 구비하는 제공자를 가리킬 수 있다.

쿼리(Query)는: 유저 또는 택소노미 관리 시스템에 의해 요구되는 정보 또는 데이터를 서술하거나 식별하는 요청을 가리킬 수 있다. 상기 쿼리는 텍스트, 논-텍스트, 및/또는 카테고리들의 다양한 조합을 포함할 수 있다. 이를테면, 쿼리는 키워드들(예를 들어, 단어(terms), 문구(phrase), 자연어 문장(natural-language sentences)), 논-텍스트 쿼리들(예를 들어, 사진, 음악 클립과 같은 멀티미디어, 및/또는 경매 입찰가, 구매 가격 또는 여행 날짜와 같은 수학적 쿼리), 및/또는 (예를 들어, 록, 팝, 또는 어반(Urban)과 같은 음악 장르)카테고리를 포함할 수 있다.

쿼리 타입이나 포맷의 다양한 조합이 적용될 수 있다. 이를테면, 여행 예약의 경우에, 쿼리는 날짜 범위, 출발 및 도착 도시 쌍, 및/또는 여행하는 사람 수를 포함할 수 있다. 오디오 파일의 경우, 쿼리는 아티스트 이름, 곡명 등 뿐만 아니라, 버발(verbal) 또는 뮤지컬 문구(musical phrases)를 포함할 수 있다. 보다 복잡한 시나리오에서는, 쿼리는 주식 시세, 주식 가격 변화, 신호 패턴, 또는 등고선(isobars)으로 특성화될 수 있다.

상기 유저 또는 택소노미 관리 시스템은 네트워크를 통해 쿼리를 전송할 수 있다. 나아가, 상기 유저는 쿼리를 전송하기 위해 컴퓨터 또는 다른 통신 기기를 이용할 수 있다.

저장된 쿼리(Stored Query)는: 상기 유저 또는 택소노미 관리 시스템이 자주 검색하는 것을 미리 프로그램할 수 있고, 이를테면 언더라잉 기술(underlying technology)에 변경이 없는 서브젝트 카테고리 또는 소스 택소노미와 같은 것이다.

결과 아이템(Results Item)은: 정보의 기본 조각(Atomic piece)이다. 상기 결과 아이템은 쿼리에 대한 응답으로 반환되며, 특정 문서를 참조하는 데에 사용된다. 결과 아이템은 정보 리소스의 위치를 포함할 수도 있고, 서술내용, 타이틀, 가격 등과 같은 다른 다양한 메타데이터 값을 포함할 수도 있다.

결과 세트(Results Set)는: 쿼리에 대한 응답으로서 반환되는 결과 아이템의 리스트이다.

범주화(Categorization)는: 그룹 내에서, 잠재적으로는 택소노미로 계층적 구조화된 상태로, 따라서 같은 곳에 속한 멤버들은 서로 유사성을 갖게 되도록, 엔티티들의 위치를 지정하는 것으로 정의될 수 있다. 범주화 시스템은 리소스의 콘텐트를 지식적, 기능적, 또는 개념적으로 대표하도록, 하나 또는 그 이상의 그룹의 상기 리소스에 라벨을 할당하는 것을 수반할 수 있다. 이러한 라벨은, 통상 제어된 단어(controlled vocabulary)로부터 얻어지고, 상기 제어된 단어는 터미놀로지(terminology)를 평준화 하고, 서치 쿼리(search queries)를 제기하기 위해 사용될 수 있는 인증된(authorized) 단어 또는 라벨의 세트를 특정화 함으로써, 정보 검색 시스템과 개인 또는 몇몇 정보 검색 시스템 간의 통신을 제공한다.

택소노미(Taxonomy)는: 콜렉션 내의 콘텐트 아이템을 조직화하도록 사용되는, 계층적으로 정렬된 제어된 단어(a hierarchically-arranged controlled vocabulary)일 수 있다. 인터넷 서치 엔진은 하나 또는 그 이상의 연관된 택소노미를 구비하여 콘텐트 콜렉션의 브라우징 서치를 용이하게 할 수 있다. 웹 어플리케이션 개발자 및 마케팅은 리소스의 조직을 두 개의 분리된 대표로 분할하여, 서 로 다른 스택홀더(stakeholders)의 조직적 사용을 만족시킨다. 내비게이션의(Navigational) 또는 브라우징 서치 기술은 택소노미를 조직적 매체(the organizational medium)로써 사용하여 유저가 저장된 디지털 정보에 액세스하게 할 수 있다. 연관된 택소노미의 멀티-레벨 세트는 종종 엔드 유저(end user)에게 단순한 구조를 디스플레이 하는 것과, 정확한 범주화를 위해 요구되는 상세한 구조를 제공하는 것과 같이 이질적인 요구를 충족시키는 데에 사용된다.

레퍼런스 택소노미(Reference Taxonomy)는: 로컬 콜렉션 내에 저장되어 있는 콘텐트 아이템의 수동 또는 기계적 분류를 위한 구조로서 사용되는, 결이 곱고(fine-grained), 단조 증가하는 택소노미일 수 있다. 레퍼런스 택소노미는 저장된 콘텐트를 범주화하기 위한 기초로서 사용되는 구조일 수 있다. 유사한 타입의 콘텐트 또는 유사한 서브젝트 영역으로부터의 콘텐트는 동일한 레퍼런스 택소노미 내에 조직화될 수 있다. 멀티-택소노미 시스템 내에서, 상기 레퍼런스 택소노미는 많은 소스 택소노미 내에 대표되는 모든 카테고리의 콜렉션이 될 수 있다.

디스플레이 택소노미(Display Taxonomy)는: 레퍼런스 택소노미의 부분집합(subset)일 수 있으며, 상기 콘텐트에 액세스하는 개인들을 디스플레이 하기 위해 사용된다. 디스플레이 택소노미는 엔드 유저에 의해 조정되고 엔드 유저에게 제시되는 간결하고(concise), 매우 변화기 쉬운(highly-mutable) 택소노미일 수 있고, 시장의 요구에 부응하기 위해 빈번히 변화할 수 있다. 디스플레이 택소노미는 레퍼런스 택소노미 보다 더 변하기 쉬울 수 있는데, 이는 디스플레이 택소노미가 개별적 브라우징 서치를 위한 카테고리를 디스플레이하기 위해 사용되고 콘텐트 제 공 스태프는 서로 다른 지역의 콘텐트를 서로 다른 시간 주기에 서로 다른 타깃 유저(target user)를 위해 강조하는 것이 매우 어렵기 대문이다. 디스플레이 택소노미의 변화는 거의 발생되지 않고, 따라서 레퍼런스 택소노미의 변화는 레퍼런스 택소노미 내의 변화를 거의 만들지 않아서, 콘텐트 재범주화(content recategorization)을 최소화 한다. 멀티-택소노미 시스템 내에서, 상기 디스플레이 택소노미는 먼저 또는 전체적으로 많은 소스 택소노미 내에 대표되는 카테고리의 교집합(intersection)일 수 있다.

소스 택소노미(Source Taxonomy)는: 콘텐트 제공자가 액세스 가능한 콘텐트를 대표하는 공공적으로 사용 가능한 택소노미이다. 패더레이티드 서치 시스템에서, 콘텐트 조직화는 데 개의 레벨이 있을 수 있다. 이를테면, 개별적으로 볼 수 있는 디스플레이 택소노미에 더해서 메타-콜렉션 내에 상기 리소스를 조직하기 위한 레퍼런스 택소노미 레벨, 상기 콘텐트 제공자 디스플레이 택소노미는 집적적으로 상기 사용자 브라우징을 위해 사용 가능하다.

본 발명의 일 실시예에 따르면, 싱글 및 멀티플 택소노미를 관리하기 위한 방법 및 장치가 제공된다. 본 발명의 일 실시예에 따른 방법 및 장치는 미리 존재하는 싱글 및 멀티플 택소노미를 활용하여 수동적으로 및 자동적으로 택소노미를 생성하고 관리하는 것을 가능하게 할 수 있다.

자동적으로 생성되는 택소노미는 매우 다양한 주제의 대용량 콘텐트 콜렉션의 조직에는 상식과 맞지 않을 수 있기 때문에, 본 발명의의 일 실시예에 따르면, 수종적으로 택소노미를 편집하는 데에 사용되는 관리자 툴이 제공되며, 택소노미 사용의 분류 및 안내의 용이성(navigational ease)를 향상시키는 명백한 구조 및 메타 데이터가 제공된다.

본 발명의 일 실시예에 따르면, 네트워크로 액세스 가능한 텍스트, 데이터, 및 디지털 콘텐트 콜렉션을 위한 분류 및 범주화 엔진을 위해, 그리고 정보 탐색 및 검색 플랫폼을 위해, 컴퓨터 소프트웨어 및 하드웨어에 의해 사용되는 택소노미 관리 방법 및 장치가 제공된다. 본 발명의 일 실시예는, 범주화 과정을 위한 카테고리 프로필로서 필요한 명백한 구조에 연관되는 개발을 포함하는, 카테고리 입상(category granularity)의 다른 레벨에서, 소규모 또는 대규모 택소노미를 생성하고 관리하는 것을 용이하게 한다. 본 발명의 일 실시예는, 또한 미리-범주화된 콘텐트 및 액세스 사용 패턴 모두를 분석한 것에 기초하여 관리 및 에러 처리를 제공할 수도 있다.

나아가, 본 발명의 일 실시예는, 그래픽 유저 인터페이스(GUI), 택소노미 가져오기(import) 및 내보내기(export), 지역화 및 번역, 유저 및 롤 프로세싱, 에러 분석, 및 보고를 포함하는 택소노미 관리를 위한 관리자 프로세스 및 툴을 포함할 수 있다. 상기 GUI는 수동적 또는 자동적 택소노미 편집을 제공할 수 있으며, 이는 승인 사이클, 자동 변화 히스토리, 및 택소노미 에러 교정 기능, 이를테면 새로운 카테고리 생성, 명백한 구조의 범주화 강화, 및 자동과 수동 인터- 및 인트라- 택소노미 맵핑을 포함한다.

도 1은, 본 발명의 일 실시예에 따른 싱글 및 멀티플 택소노미 관리 시스템(100)을 도시한다. 도 1은 네트워크로 연결된 시스템 레벨 다이어그램 및 구성 요소(component) 레벨의 프로세싱 모듈을 도시한다. 모듈이라는 단어는 컴퓨터 하드웨어, 소프트웨어, 펌웨어, 기타 명령어 프로세싱 기기, 및/또는 그들의 조합을 가리킬 수 있다. 시스템(100)의 구성요소는, 나아가 복제되고(duplicated), 결합되고, 및/또는 분리되어 본 발명의 실시예들의 다양한 어플리케이션을 보조할 수 있다. 다양한 어플리케이션을 위해 추가적인 요소가 상기 시스템 내에 구현될 수도 있다.

택소노미 관리 클라이언트(The Taxonomy Management Client)(110)는 유저가 싱글 및 멀티플 택소노미를 관리하도록 가능하게 한다. 상기 택소노미 관리 클라이언트(110)는 모바일 장치 또는 기타 통신 기기를 포함할 수 있고, 여기에는 터미널(terminal), 이를테면(단, 본 발명은 여기에 제한되지는 않음), 키오스크(kiosk) 또는 데스크탑 컴퓨터와 같은 것이 포함된다. 상기 택소노미 관리 클라이언트(110)는, 멀티플 택소노미 인풋 및 택소노미 콘텐트 저장소(Taxonomy Management Client)(110)를 관리하기 위해, 지역에 관련하는 데이터베이스(local relational database)와 상호 반응하는 그래픽 유저 인터페이스 어플리케이션을 포함할 수 있다. 상기 택소노미 관리 클라이언트(110)는 (사용가능성 테스트 및 분배 채널 수요를 위한)디스플레이 택소노미 및 레퍼런스 택소노미의 빠른 개발을 용이하게 할 수 있고, 또한 인트라- 및 인터-택소노미 맵핑을 생성할 수 있다. 상기 택소노미 관리 클라이언트(110)는 또한 카테고리 및 에비던스 생성(evidence creation), 택소노미 관리, 저장, 에러 분석, 및 번역을 용이하게 할 수 있다. 게다가 상기 택소노미 관리 클라이언트(110)는, 에비던스 단어 웨이트(evidence term weights)를 포함하는 카테고리 프로필을 입력하고 저장할 수 있고, 리뷰 및 승인을 포함하는 택소노미 워크플로우를 관리할 수 있으며, 벌크 택소노미를 파일로부터 가져오기/파일로 내보내기를 제공할 수 있다. 상기 택소노미 관리 클라이언트(110)은 택소노미 콘텐트 저장소(144)에 연결될 수 있고, 및/또는 후술하는 바와 같이 네트워크(120)을 통해 택소노미 관리 서버 시스템(130)의 택소노미 관리 프로세싱 모듈에 연결될 수 있다.

택소노미 관리 클라이언트(110)은 그래픽 유저 인터페이스 모듈(111), 워크플로우 엔진 모듈(112), 택소노미 가져오기/내보내기 모듈(113), 지역화 모듈(114), 로컬 데이터 스토어(115), 및 네트워크 연결(116)을 포함할 수 있다.

그래픽 유저 인터페이스 모듈(111)은 택소노미 관리 클라이언트(110)의 유저에게 그래픽 유저 인터페이스를 제공하여, 택소노미 내의 다양한 기능을 수행할 수 있도록 가능하게 한다. 상기 그래픽 유저 인터페이스 모듈(111)은, 이를테면, 드래그 앤 드롭(drag and drop) 그래픽 유저 인터페이스 어플리케이션을 수행할 수 있다. 상기 그래픽 유저 인터페이스 모듈(111)은 유저에게 택소노미 편집 툴을 제공할 수 있다. 상기 택소노미 편집 툴은 유저, 롤 프로세싱(role processing), 인증(authentication), 변경 히스토리, 스테이징/프로덕션 사이클 인식(staging/production cycle awareness), 리뷰, 승인, 및 주석을 포함하는 워크플로우(workflow)와 콘텐트 관리 기능(content management functionality)을 제공할 수 있다. 택소노미 편집의 분리된 버전은 특정 유저 롤(user roles)을 위한 읽기/쓰기/승인 기능을 강화할 수 있다.

상기 유저 롤은 디스플레이 에디터 롤(Display Editor Role), 도메인 에디터 롤(Domain Editor Role), 메니져 롤(Manager Role), 및 관리자 롤(Administrator Role)을 포함할 수 있다. 상기 관리자 롤은, 이를테면, 유저가 택소노미를 개발하고, 멀티플 택소노미들 사이를 맵핑하거나 및/또는 번역하고(to map and/or translate), 유저를 생성하고, 및 유저 롤과 허용(permissions)을 세팅할 수 있다. 상기 디스플레이 에디터 롤은, 유저가 그 스스로의 디스플레이 택소노미를 생성하고, 업데이트 하고, 및 삭제하는 것, 그리고 레퍼런스 택소노미로부터 제한된 셀렉션을 읽는 것을 가능하게 할 수 있다. 상기 도에인 에디터 롤은, 온톨로지스트 롤(Ontologist Role) 또는 라이브러리언 롤(Librarian Role)이라고도 할 수 있는데, 유저가 디스플레이 택소노미와 레퍼런스 택소노미를 개발하는 것을 가능하게 하고, 멀티플 택소노미들 사이를 맵핑하거나 및/또는 번역하는 것을 가능하게 할 수 있다. 택소노미 편집 기능(Taxonomy editing functionality)은, 상기 도메인 에디터 롤의 서브젝트 도메인, 이를테면 자연사(Natural History) 또는 음악과 같은 것에 제한될 수 있다. 상기 매니져 롤은 사용자가 어떠한 택소노미라도 개발하는 것, 택소노미 사이를 맵핑하거나 및/또는 번역하는 것, 및 도메인 에디터 롤과 디스플레이 에디터 롤에 의해 변경을 승인하는 것을 가능하게 할 수 있다.

워크플로우 엔진 모듈(112)는, 택소노미 생성 및 유지관리 과정의 동작 측면을 관리할 수 있으며, 리뷰 및 승인 작업을 조직하는 것, 누가 어떤 작업을 수행하는 지, 그들 간의 상대적인 순서(order)가 어떻게 되는지, 작업들이 어떻게 동기화될 지, 상기 작업을 보조하기 위해 정보가 어떻게 전달되어야 하는지, 및 작업이 어떻게 기록될지(be tracked) 조직화하는데, 다만 본 발명이 상기한 사항에 한정되는 것은 아니다.

상기 가져오기/내보내기 택소노미 모듈(113)은, 이를테면(단, 본 발명은 본 서술에 의해 한정되지 않음), XML(eXtensible Markup Language), 웹 OWL(Web Ontological Language), 엑셀, 평범한 텍스트 포맷의 파일, 및 다른 가능한 데이터 파일 과 같은, 다양한 데이터 파일 포맷으로부터 택소노미의 벌크 업로드를 용이하게 하는, 가져오기/내보내기 기능을 수행할 수 있다. 상기 가져오기 기능은, 이를테면(단, 본 발명은 본 서술에 의해 한정되지 않음) 메타데이터, 카테고리, 에비던스 단어(evidence terms), 및 데이터 파일로부터의 인터-택소노미와 인트라-택소노미 맵핑을 포함하는, 택소노미 세부사항(taxonomy specifics)을 읽을 수 있다. 상기 가져오기 기능은 택소노미 관리 서버 시스템(Taxonomy Management Server System)(130) 내의 택소노미의 표현(representation )을 생성할 수 있고, 택소노미 콘텐트 저장소(Taxonomy Content Repository)(144) 내에 상기 택소노미의 표현을 저장할 수 있다. 상기 택소노미 내보내기 기능은, 상기 택소노미 관리 서버 시스템(130) 또는 상기 택소노미 콘텐트 저장소(144)로부터 택소노미 표현을 읽을 수 있고, 메타데이터, 카테고리, 에비던스 단어, 및 외부 파일로의 맵핑을 포함하는 택소노미를 기록할 수 있다. 택소노미 가져오기 및 내보내기 기능은, 이를테면(단, 본 발명은 본 서술에 의해 한정되지 않음) 마이크로소프트 엑셀 스프레드시트, 평범한 텍스트, OWL 및 XML 파일을 포함하는 다른 포맷(alternate formats)으로 가져오고/내보내는 것을 허용하도록 확장 가능하며, 이 경우 개인 소유 의(proprietary) 스탠다드 택소노미 스키마(schemas) (예를 들면, DMOZ(Open Directory Project) 및 UNSPSC(Universal Standard Products and Services Classification) 택소노미에 의해 보조되는 것)를 사용해서, 택소노미스트, 온톨로지스트, 번역자, 편집자, 및 제공자로부터 수동 업데이트를 용이하게 한다. 나아가, 상기 택소노미 가져오기/내보내기 모듈(113)은, (이를 테면, SKOS(Simple Knowledge Organisation System) 및 NISO thesaurus creation standard Z39.19 인) 스탠다드 시소러스(thesaurus) 포맷 내에서, 디스플레이하고, 가져오고, 또는 내보내기 위해, 택소노미로부터 시소러스 모드(thesaurus mode)로 전환할 수 있다.

상기 지역화 모듈(localization module)(114)은, 택소노미 지역화를 수행할 수 있다. 각 택소노미 메타데이터, 카테고리 라벨, 및 범주화 에비던스 단어(categorization evidence term)는, 이를테면(단, 본 발명은 본 서술에 의해 한정되지 않음) 언어, 국가, 및 캐릭터 세트 인코딩(character set encoding)과 같은 지역적 특성(regional characteristics)을 세부화하는 성질을 갖는다. 상기 지역화 모듈(114)는 수동 및 자동 프로세스의 조합에 의해 유저가 직접 상기 택소노미를 편집하고, 메타데이터, 카테고리 라벨, 및 단어 번역을 추가하는 것을 가능하게 할 수 있다. 상기 지역화 모듈(114)은, 상기 택소노미를 수작업으로 지역화하거나, 또는 외부 번역자에 의해 지역화 파일을 거져오고/내보내도록 하거나, 또는 인간의 리뷰 사이클과 함께 자동 번역을 관리하는 것에 사용될 수 있다. 상기 택소노미 카테고리 라벨은, 가능한 곳에서, 베이스 언어와 타깃 언어(target language) 모두의 버전을 갖는 소스 택소노미로부터의 터미놀로지(terminology)를 사용하여 번역될 수 있다. 게다가, 사익 지역화 모듈(114)는, 번역 사전, 자동화 기계 번역 프로세스, 수작업 번역, 및/또는 그들의 결합을 사용하여, 택소노미 지역화에 착수하는 자동화된 방법을 수행할 수 있다.

상기 로컬 데이터 스토어(local data store)(115)는, 생성, 유지, 및 리뷰 사이클 동안 택소노미의 작업 카피(working copies)의 저장을 가능하게 할 수 있다.

상기 네트워크 연결(network connection)(116)은, 상기 네트워크 연결(network connection)(116)은, 상기 택소노미 관리 클라이언트(110)이, 인터넷 또는 다른 네트워크를 포함하는 네트워크(120)를 통해, 택소노미 관리 서버 시스템(Taxonomy Management Server System)(130)과 통신하는 것을 가능하게 할 수 있다.

상기 택소노미 관리 클라이언트(130)은, 유선 또는 무선 네트워크 연결에 의한 네트워크(120)을 통해 상기 택소노미 관리 클라이언트(110)과 통신할 수 있고, (이를 테면 외부 콘텐트 소스 150a, 150b, … 150k,인) 콘텐트 소스, (데이터베이스에 의해 표현된 바와 같이) 저장된 콘텐트 콜렉션(Stored Content Collection modules)(170), 및/또는 다른 소스들, 이를테면 "온-데크(on-deck)" 콘텐트 소스와도 네트워크(124)를 통해 통신할 수 있다.

상기 택소노미 관리 서버 시스템(130)는 쿼링(querying), 검색(retrieving) 및/또는 다른 프로세싱에 연관되는 기능을 수행하는 다양한 모듈을 포함할 수 있다. 예를 들어, 상기 택소노미 관리 서버 시스템(130)은 네트워크 연결 모 듈(Network Connection module)(132), 택소노미 프로세서 모듈(Taxonomy Processor module)(134), 카테고리 콘텐트 프로세서 모듈(Category Content Processor module)(136), 택소노미 병합 프로그램 모듈(Taxonomy Merge Program module)(138), 소스 커넥터 모듈(Source Connector module)(140), 하나 또는 그 이상의 소스 택소노미 캐시(Source Taxonomies Caches)(142a…142n) 및/또는 다른 모듈(들)을 포함할 수 있다. 택소노미 관리 서버 시스템(130)의 다양한 구성요소는, 더 중복되고, 결합되고, 및/또는 집적되어 다양한 어플리케이션과 플랫폼을 보조할 수 있다. 나아가, 상기 모듈, 캐시, 및 다른 구성요소는, 멀티플 시스템, 플랫폼, 어플리케이션 등에 걸쳐 상기 모듈, 캐시 및 다른 구성요소가 제공될 수 있다. 다양한 어플리케이션을 보조하기 위해, 시스템 내에 추가적 구성 성분이 제공될 수도 있다.

상기 네트워크 연결 모듈(Network Connection module)(132)은, 네트워크(120)를 통한 데이터의 발란스드 교환(balanced exchange)를 관리할 수 있다.

상기 택소노미 프로세서 모듈(Taxonomy Processor module)(134)은, 소스 택소노미 및 콘텐트를 쿼링(querying source taxonomies and content)해서 카테고리 콘텐트 프로필을 생성하고, 에비던스 단어를 쿼링해서 새로운 택소노미 를 생성하고 이미 존재하는 택소노미를 관리하는 것을 포함하는, 저장된 택소노미 또는 택소노미들을 마인할 수 있다(may mine). 상기 택소노미 프로세서 모듈(134)는 또한, 히스토리와 유저 쿼리를 브라우징하여 택소노미 오토매이션 프로세스(automation process)를 증대시키고(augment) 향상시키게 하고(improve), 상기 유저를 위한 개 인화 서비스(personalization services)를 제공하는, 저장된 택소노미를 마인할 수도 있으며(may mine), 상기 유저를 위한 개인화 서비스는 검색, 서비스, 및 카테고리 및 쿼리 명확화(query disambiguation)에 연관되는 광고 추천(advertising recommendations)을 포함한다.

상기 카테고리 콘텐트 프로세서 모듈(Category Content Processor module)(136)은, 콘텐트 콜렉션에 저장된 콘텐트 소스(Content Source)(150)을 마인할 수 있고, 카테고리 프로필 및 에비던스 단어 리스트를, 콘텐트 타입 및 가능한 메타데이터에 따라, SVM(Single Vector Machines) 또는 knn(k-Nearest Neighbor) 분류와 같은 어떠한 상응하는 머신 러닝 프로세스 및 알고리즘이라도 사용하는(using any relevant machine learning process and algorithms) 웨이트(weights)와 함께 생성할 수 있다. 상기 카테고리 콘텐트 프로세서(136)는 택소노미 병합 프로그램 모듈(Taxonomy Merge Program module)(138)에 의해 사용되기 위해 소스 택소노미를 사용하는 콘텐트 소스(150)에서 미리-분류된 문서를 분석하여, 택소노미 카테고리 사이의 맵핑을 제안할 수 있다.

상기 택소노미 병합 프로그램 모듈(138)은, 이를테면(단, 본 발명은 여기에 제한되지는 않음) 넓이 우선 탐색(bredth-first search)과 같은 트리 탐색 알고리즘(tree traversal algorithm)과 같은 것들을 사용하는 하나 또는 그 이상의 존재하는 택소노미를 병합함으로써, 그리고 상기 카테고리 콘텐트 프로세서 모듈(136)에 의해 생성되는 카테고리 콘텐트 프로필을 비교함으로써 새로운 택소노미의 생성 프로세스를 관리할 수 있다.

상기 소스 커넥터 모듈(Source Connector module)(140)은, 콘텐트 제공자에게 택소노미 및 콘텐트를 쿼링하고, 소스 요구에 적당하게 요청(request)을 포맷팅하고, 상기 소스로부터의 응답을 프로세싱 하고, 그것을 제공자 측 포맷(publisher-specific formats)으로부터 인터널 XML 포맷으로 리포맷팅 하기 위한 프레임워크(framework)를 보유한다.

상기 콘텐트 소스(Content Sources)(150a...150k)는, 몇몇 모듈을 사용하는 상기 콘텐트 소스의 콘텐트 콜렉션으로부터의 정보 검색을 용이하게 한다. 상기 콘텐트 소스(150)는 상기 택소노미 관리 클라이언트(110)로, 그리고 상기 택소노미 관리 서버 시스템(130) 또는 다른 프로그램으로의 유선 또는 무선 네트워크 연결에 의한 네트워크 연결(Network Connections)(160a…160k)을 통해 통신할 수 있다. 서치 엔진 액세스 모듈(Search Engine Access modules)(164a…164k)은, 서치 엔진 개인 인덱싱 알고리즘(the search engine proprietary indexing algorithm)을 사용하는 인커밍 쿼리를 파싱(parsing)하고, 상기 쿼리를 콘텐트 인텍스에 매칭하고, 상기 매칭 콘텐트 아이템의 서술(description) 및 위치(location)와 같은 메타데이터를 포함하는 결과 세트를 반환하기 위해 제공할 수 있다. 콘텐트 인다이스(Content Indices)(166a…166k)는, 스토리지 메커니즘, 및 상기 콘텐트 소스(150)의 콘텐트 콜렉션 내에 보유되는 리소스(resources)로부터의 메타데이터, 텍스트 및/또는 다른 아트리뷰트(attributes)를 포함할 수 있는 컴퓨터 프로그램을 포함할 수 있다. 상기 저장된 콘텐트 콜렉션 모듈(Stored Content Collection modules)(170a…170k)은, 리소스(resources), 멀티미디어, 및/또는 상기 메타데이 터에 의해 참조되는, 상기 서치 엔진에 의해 인덱스되는 다른 콘텐트를 포함할 수 있으며, 및 결과 세트 내에 리스트되는 위치(the location)을 통해 액세스 가능하다.

상기 서치 엔진 액세스 모듈(164a…164k)은, 콘텐트 아이템(이를 테면, 문서, 이미지, 웹 사이트)의 콜렉션을 프리-인덱스 할 수 있고(may pre-index), 쿼리에 응답하여, 상기 쿼리를 만족하는 콘텐트 아이템을 위해 단일 또는 그룹의 컴퓨터 내에서 콜렉션을 검사하고, 가능한 매치의 정렬된 리스트(ordered list of possible matches)를 카테고리 콘텐트 아이템 결과 세트로 반환할 수 있다. 콘텐트 아이템이 상기 쿼리와 얼마나 가깝게 매칭되는가를 나타낼 수 있는, 관련도 랭킹(relevance ranking)을 가리키는 결과 아이템 메타데이터(result item metadata)는, 명시적으로 반환될 수 있고 또는 상기 카테고리 콘텐트 아이템 결과 세트 내의 아이템 순서에 함축적으로 주어질 수도 있는데, 이 경우 통상적으로 가장 관련도가 높은 콘텐트 아이템이 정렬된 리스트의 탑(top)에 있게 된다. 랭킹은, 수치적인 유사도 스코어링 값 또는 풀텍스트 또는 데이터베이스 인텍스 또는 콘텐트 제공자에 의한 인덱스와 함께 저장되고 상기 콘텐트에 대해 미리 계산된 많은 가능한 메트릭(metrics) 중의 하나에 기초하는 것일 수 있다.

상기 서치 엔진 액세스 모듈(164a…164k)은, 변할 수 있고, 적어도 세 가지 타입을 포함할 수 있는데, 중앙화된 인덱싱(centralized indexing), 메타서치(metasearch), 및 연합 서치 엔진(federated search engines)이 그것이다. 각 타입은 서로 다른 타입의 콘텐트 아이템 콜렉션에 대한 서치를 수행하는 데에 사용 될 수 있다. 예를 들어, 상기 중앙화된 인덱스는, 완전히 액세스 가능하고(fully accessible), 동질인(homogeneous) 콘텐트, 이를테면 싱글 엔터프라이즈 콘텐트 관리 시스템 내에서 발견되거나, 또는 공공적 사용가능성의 과다(plethora of publicly available)이거나, 인터넷 가능한 웹사이트 내에서 발견되는 것과 같은 콘텐트 사이에서의 서치를 용이하게 하는 데에 사용될 수 있다.

서로 다른 콘텐트 소스(150)는, 서로 다른 알고리즘을 사용하거나, 또는 동일한 알고리즘이라도 텍스트 및/또는 메타데이터의 서로 다른 섹션에 대한 프로세싱에 의해서 콘텐트 아이템 콜렉션을 인덱싱 할 수 있다. 따라서, 어떤 경우는, 로컬 소스가 계산된 랭킹 통계(ranking statistics)와 분류(classifications)는 카테고리를 결합하는 경우는 직접 비교되지 않는다.

콘텐트 소스(150)의 모듈이나 다른 구성 요소는, 멀티플 시스템, 플랫폼, 어플리케이션 등에 걸쳐 제공될 수 있다. 추가적인 구성이 또한 상기 콘텐트 소스 시스템에 제공되어 다양한 어플리케이션을 보조할 수도 있다.

상기 저장된 콘텐트 콜렉션 모듈(Stored Content Collection modules)(170)은, 콜렉션 아이템(170a-a…170a-e), 및 콜렉션 아이템(170a-a, 170a-b, 170b-a, 170b-b, 170b-e)와 같은 데이터 아이템을 포함할 수 있다. 그러나, 콘텐트 아이템은, 상기 저장된 콘텐트 콜렉션 모듈(170a 및 170b) 내의 콘텐트 세트(170a-a, 170a-b)의 오버랩에 의해 묘사됨으로써(depicted by the overlap), 하나의 콜렉션 이상에서 나타날 수도 있다.

본 발명의 일 실시예에 따르면, 상기 소스 커넥터 모듈(Source Connector module)(140)은, 상기 개별적 콘텐트 소스(150)(이를 테면, 서치 엔진, 데이터베이스, 기타 데이터 소스 등)로부터 소스 택소노미(162)를 수신할 수 있으며, 다른 모듈에 의한 프로세싱을 기다리는 동안 상기 소스 택소노미 캐시(Source Taxonomy Caches)(142a… 142n) 내에 상기 소스 택소노미(162)를 저장할 수도 있다. 소스 택소노미 캐시(142)는 쿼리에 대응하여, 콘텐트 소스(150)으로부터 반환되는 소스 택소노미(162)를 보유할 수 있다. 소스 택소노미 캐시(142)는 연관된 유니크한 캐시 키(associated unique cache key)를 구비하며, 이는 소스 식별(source identification), 쿼리, 또는 카테고리 단어, 및/또는 재사용을 용이하게 하는 다른 팩터를 포함할 수 있다.

쿼리-특성 소스 택소노미 캐시(Query-specific Source Taxonomy Caches)(이를 테면, 소스 택소노미 캐시 142a…142n)는, 택소노미, 및/또는 카테고리 콘텐트 프로세서 모듈(Category Content Processor module 136)에서 프로세싱 하기 위해 콘텐트 소스(150a…150k)로부터 반환되는 콘텐트를 저장할 수 있다. 그러면, 상기 카테고리 콘텐트 프로세서 모듈(136)은, 상기 콘텐트를 분석하고, 카테고리 콘텐트 프로필을 생성하고, 및 택소노미 병합 프로그램 모듈(Taxonomy Merge Program module)(138)에 의해 재사용하기 위한 택소노미 콘텐트 저장소(144) 내에 프로필을 저장할 수 있다.

상기 택소노미 병합 프로그램 모듈(The Taxonomy Merge Program Module)(138)은, 하나 또는 그 이상의 소스 택소노미로부터 새로운 택소노미를 생성할 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은, 또한 하나 또는 그 이 상의 콘텐트 소스 택소노미로부터 택소노미를 추출하고, 유효하게 하고, 및 업데이트기 위한 프로세스를 포함할 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은, 또한, 두 개 또는 그 이상의 택소노미의 콘텐트를 자동적으로 비교하기 위한 프로세스를 포함할 수도 있고, 새로운 택소노미 내에 매칭 카테고리를 제안할 수도 있다. 이러한 프로세스는, 이를테면, 인터넷을 기어다니며(crawl), 유사한 콘텐트를 보유하는 새로운 콘텐트 소스(150)를 위치시키는(locate) 웹 스파이더(web spiders)에 첨부될 수도 있다.

상기 택소노미 병합 프로그램 모듈(138)은, 택소노미의 생성 및 유지를 제공할 수 있으며, (이것은 멀티플 한 미리-존재하는 택소노미 및 그것들과 연관된 문서로부터 제공됨), (같은 택소노미 내의 카테고리 사이의) 인트라-택소노미 맵핑을 제공할 수 있고, (서로 다른 택소노미 내의 카테고리 사이의) 인터-택소노미 맵핑을 제공할 수도 있고, 범주화 관리(categorization maintenance): 미터게이트 카테고리(mitigate category), 그리고 에비던스 드리프트(evidence drift), 그리고 퇴화(obsolescence), 택소노미 확장 생성(generate taxonomy extension), 범주화 에러 분석(categorization error analysis), 및 택소노미 확인, 카테고리, 에비던스, 및 메타데이터 생성, 업데이트 및 번역을 위한 리뷰 및 승인 워크플로우(review and approval workflow for verifying taxonomy, category, evidence, and metadata creation, update, and translation)를 제공할 수도 있다. 상기 택소노미 병합 프로그램 모듈(138)은 또한 콘테트 소스(150)에서 미리 분류된 문서를 소스 택소노미를 사용하여 분석해서, 택소노미 카테고리 사이의 맵핑을 제안할 수 있 다. 이러한 프로세스 각각은 도 2 내지 도 4를 참조하여 후술한다.

도 2 내지 도 4는, 본 발명의 일부 실시예에 따른 방법을 도시하는 흐름도이다. 본 실시예에 따른 방법은, 예시적인 것이며, 본 발명에 따른 방법을 수행하는 데는 많은 방법이 있다. 도 2 내지 도 4에서 도시되는 방법은, 하나 또는 여러 가지 시스템의 조합에 의해 실행되거나 또는 동작될 수 있다. 하기 방법은 도 1에서 도시된 시스템(100)에 의해 수행되는데, 이것은 예시적인 것이며, 시스템(100)의 다양한 구성요소가 도 2 내지 도 4의 실시예를 설명하기 위해 참조된다. 도 2 내지 도 4에서 도시되는 각 블록은, 본 발명의 실시예에 따른, 하나 또는 그 이상의 프로세스, 방법, 또는 서브루틴(subroutines )를 나타낸다.

도 2는, 본 발명의 일 실시예에 다른, 프로세스의 예시적인 흐름 도를 도시하며, 상기 프로세스에 의해 확장 택소노미(extant taxonomies)가 검색되고 프로세스되어 택소노미 카테고리 프로필 및 콘텐트 프로필을 생성한다. 흐름도(200)는 블록(212)에서 시작할 수도 있다.

블록(210)에서, 상기 소스 커넥터 모듈(140)은, 상기 콘텐트 소스(150)로부터의 소스 택소노미를 요청할 수 있다. 블록(212)에서, 상기 콘텐트 소스(150)는, 상기 요청을 수신하여, 요청된 소스 택소노미를 상기 소스 커넥터 모듈(140)으로 반환할 수 있다. 블록(214)에서, 상기 소스 커넥터 모듈(140)은 소스 택소노미 캐시(Source Taxonomy Cache)(142) 내에 상기 소스 택소노미를 저장할 수 있다.

블록(232) 내에서, 상기 택소노미 프로세서 모듈(134)는 상기 제공자가 선호하는 포맷으로부터 택소노미 관리 서버 시스템(130)에서 사용되는 포맷으로, 상기 소스 택소노미를 리포맷(reformat)할 수 있다. 예를 들어, 상기 택소노미 프로세서 모듈)134)는, 상기 소스 택소노미를 OWL(Web Ontology Language) 표현으로 리포맷 해서, 택소노미 카테고리, 메타데이터, 및 인트라-택소노미 맵핑을 일치하는 포맷으로 캡쳐할 수 있다.

한 번 리포맷되면, 블록(234)에서, 상기 택소노미 프로세서 모듈(134)는 상기 리포맷된 소스 택소노미를 상기 택소노미 콘텐트 저장소(144) 내에 저장할 수 있다.

블록(236) 내에서, 상기 택소노미 프로세서 모듈(134)는 상기 리포맷된 소스 택소노미를 상기 카테고리 콘텐트 프로세서 모듈(136)에 제출(submit)할 수 있다.

루트 카테고리에서 출발해서, 상기 카테고리 콘텐트 프로세서 모듈(136)은, 상기 소스 택소노미 내에서 각 카테고리를 처리하며(proceeds), 후술하는 블록(241) 내지 블록(245)의 각각을 완성할 수 있다. 블록(241) 내에서, 상기 카테고리 콘텐트 프로세서 모듈(136)은 카테고리 아이템 결과 세트를 위한 상기 소스 택소노미와 연관되는 상기 콘텐트 소스(150)를 쿼리할 수 있다. 상기 카테고리 콘텐트 아이템 결과 세트는 특정 카테고리에 연관되는 소스 택소노미 내의 모든 콘텐트 아이템을 식별할 수 있다. 예를 들어, 상기 카테고리 콘텐트 아이템 결과 세트는 현재의 뉴스 헤드라인 또는 모든 다운로드 가능 팝 뮤직 링톤(ringtones)의 리스트를 포함할 수 있다. 카테고리 콘텐트 아이템 결과 내의 각 콘텐트 아이템에 있어서, 상기 카테고리 콘텐트 프로세서 모듈(136)은 택소노미 카테고리 라벨, 각 콘텐트 아이템과 연관되는 메타데이터를 식별할 수 있고, 또한 웹사이트/페이지로 부터 관심 있는 콘텐트를 스크랩할 수도 있다.

블록(242)에서, 상기 카테고리 콘텐트 프로세서 모듈(136)은, 상기 콘텐트 소스(150)으로부터, 상기 카테고리 콘텐트 아이템 결과 세트 내에 식별되는 콘텐트 아이템 각각을 검색할 수 있다.

블록(243)에서, 상기 카테고리 콘텐트 프로세서 모듈(136)은 검색된 콘텐트 아이템 각각으로부터 특징을 추출(extract features) 할 수 있다. 상기 추출된 특징(extracted features)은, 택소노미의 특정 카테고리 내에 콘텐트 아이템을 범주화하는 데에 사용될 수 있는 상기 콘텐트 아이템으로부터 적절한 에비던스 단어(relevant evidence terms)를 결정함으로써 카테고리 콘텐트 프로필을 생성하는 데에 사용될 수 있다. 상기 에비던스 단어(The evidence terms)는, 예를 들어, 어떠한 논-스톱워드 단어(non-stopword terms)(이를 테면, “a,” “the,” “but,” 등 외의 단어); n-단어 구문(n-term phrases)(이를 테면, “random terms” 이라는 단어를 위해 “ran dom ter ms”으로 되는 것과 같은 3 자 텍스트 쪼개기); 적당한 명사(proper nouns)(이를테면, people, places, things); 메타데이터(이를테면, 아티스트 이름, 파일 사이즈, 이미지 디멘젼, 가격, 컬러, 위치); 구조적 강조 지시자(structural emphasis indicators)(이를테면, 헤드라인, 타이틀, 또는 요약); 및/또는 구해진 통계(derived statistics)와 같은 것을 포함할 수 있다. 상기 구해진 통계는, 이를테면, 텍스트 내의 단어 수에 대한 이미지 수의 비율; 콘텐트 아이템 내에 특정 단어가 나타나는 횟수; 또는 콘텐트 아이템 내에 포함되는 단어, 이미지 쪼는 다른 측정 가능한 아이템이 있거나 없음을 나타내는 다른 통계치일 수 있다.

블록(244)에서, 택소노미 내에서 특정 카테고리에 연관되는 콘텐트 아이템의 대표 세트(representative set of the content items)(이를 테면, 콘텐트 아이템의 일부 또는 전부)에 있어서, 상기 카테고리 콘텐트 프로세서 모듈(136)은 상기 추출된 특징을 처리해서 택소노미 내의 카테고리 각각을 위한 카테고리 프로필을 생성할 수 있다. 예를 들어, 상기 카테고리 콘텐트 프로세서 모듈(136)은 "염증을 줄이는 것이 암을 예방하는 데에 도움을 준다고, 월요일에, 로스앤젤레스에서 열린 미국 암 리서치 협회의 연례 미팅에서 두 Mayo Clinic 연구가 발표했다"라는 구문을 보유하는, "질병"이라는 카테고리로부터 텍스트 페이지를 읽을 수 있다. 이 페이지를 위한 콘텐트 프로필인 "질병" 카테고리는, (염증 감소 1, 암 2, 리서치 1, Mayo Clinic 1, 연구 2)과 같이 생성될 수 있다. 카테고리 프로필은 카테고리 내의 모든 콘텐트를 위한 콘텐트 프로필의 세트를 분석함으로써, 그리고 가장 유용한 특징(features)을 보유하는 프로필을, 웨이트와 함께(with weights), 그 카테고리 내의 텍스트의 식별 멤버십을 위해 생성함으로써 생성된다. 예를 든 "질병" 카테고리에 있어서, 상기 프로필은 (염증 0.5, 암 1, 자살 0.5, 연구 1.5)로 결정될 수 있다.

상기 카테고리 콘텐트 프로세서 모듈(136)은, 특정 콘텐트 아이템에 연관되는 단어 리스트를 생성함으로써, 단어/콘텐트 아이템 빈도 매트릭스에 의한 문서를 생성함으로써, 상기 매트릭스를 프로세싱 하여 정규화된(0과 1 사이로) 유사 매트릭스를 생성함으로써, 상기 매트릭스를 프로세싱 하여 상기 단어 내의 단어 계수를 분석함으로써, 및/또는 단어 웨이트를 특징 분석의 결과로서 생성하는 기계 언어 프로세싱 알고리즘(이를 테면 SVM 또는 knn)중 어떤 것에 의해서라도, 에비던스 단어 웨이트를 결정할 수 있다.

블록(245)에서, 상기 카테고리 콘텐트 프로세서 모듈(136)은, 상기 택소노미 콘텐트 저장소(144) 내에 택소노미 카테고리 각각을 위한 카테고리 프로필을 저장할 수 있다. 상기 카테고리 콘텐트 프로세서 모듈(136)은, 상기 택소노미 내에서 각 카테고리를 위해 블록(241) 내지 블록(245)를 반복할 수 있다. 한번 상기 카테고리 콘텐트 프로세서 모듈(136)이 상기 택소노미 내의 모든 카테고리를 처리하면, 블록(260)에서, 상기 카테고리 콘텐트 프로세서 모듈(136)은 상기 택소노미 병합 프로그램 모듈(138) 알림을 할 수 있다(may notify).

도 3은 본 발명의 일 실시예에 따라, 새로운 택소노미 T'을 생성하도록, 하나 또는 그 이상의 택소노미가 병합되는, 택소노미 병합 프로그램 모듈(138)에 의해 수행되는 택소노미 병합 프로세스를 도시하는 흐름도이다. 상기 택소노미 병합 프로그램 모듈(138)은 효율적인 트리 탐색 알고리즘, 이를테면(단, 본 발명은 여기에 제한되지는 않음) 깊이-우선 탐색 또는 넓이 우선 탐색(depth-first or breadth-first search)과 같은 것을 사용하여, 제1 택소노미를 워크하고(to walk the first taxonomy) 및 각 카테고리를 방문한다. 상기 흐름도는 블록(310)에서 시작할 수 있다.

블록(310)에서, 새로운 택소노미 T'을 생성하기 위해, 상기 택소노미 병합 프로그램 모듈(138)은, 유저를 프롬프트 해서 새로운 택소노미 T'의 택소노미 타입 을 선택할 수 있다. 택소노미 타입은, 이를테면, 레퍼런스 택소노미, 디스플레이 택소노미, 로케이션 택소노미(location taxonomy), 서브젝트 택소노미, 등 상기한 것들을 포함할 수 있다.

블록(320)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 유저를 프롬프트 해서 비교기 함수(comparator function)를 선택 및/또는 빌드(select and/or build)할 수 있다. 상기 비교기 함수는 택소노미 병합 프로그램 모듈(138)에 의해 사용되어 매치를 식별할 수 있다. 매치(a match)는 미리 결정되는 임계 값(pre-specified threshold) 이상의 콘텐트 프로필들 사이의 관계로 정의될 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은, 제1 카테고리 프로필과 제2 카테고리 프로필을 비교해서 매치가 존재하는지의 여부를 결정하는데, 상세한 것은 후술한다.

블록(330)에서, 상기 택소노미 병합 프로그램 모듈(138)은 유저를 프롬프트 해서 병합할 N 개 택소노미를 선택하는데, 여기서 N은 양의 정수(이를 테면, 1, 2, 3, …)일 수 있다.

블록(334)에서, 상기 택소노미 병합 프로그램 모듈(138)은 N = 1이 참인지 결정한다. N = 1이 참이라면, 흐름도(300)은 블록(338)으로 진행한다. 그러나 N이 1과 같지 않다면, 흐름도(300)는 블록(340)으로 진행한다.

블록(338)에서, 상기 택소노미 병합 프로그램 모듈(138)은 새로운 택소노미 T'이 오리지널 택소노미 T_N과 일치하는 지를 결정할 수 있고, 상기 택소노미 콘텐트 저장소 내의 오리지널 택소노미 T_N=1 을 새로운 택소노미 T'으로 저장할 수 있다.

블록(340)에서, 상기 택소노미 병합 프로그램 모듈(138)은, N 개의 서로 다른 택소노미들 T_i 를 각 택소노미 내의 카테고리 수인 M의 크기대로 정렬한다(order). 예를 들어, 택소노미 T₁은 M₁ = 5 카테고리를 포함할 수 있고, T₂는 M₂ = 3 카테고리를 포함할 수 있다.

블록(350)은, 상기 택소노미 병합 프로그램 모듈(138)에 의해 수행되는 택소노미 병합 프로세스를 도시하는 예시적 흐름도인데, 본 발명의 일 실시예에 따르면, 이것에 의해 두 개 또는 그 이상의 택소노미들이 많은 택소노미의 연합(union)으로 병합되어 새로운 택소노미 T'을 생성한다. 이 새로운 택소노미는, 상기한 바와 같이, 많은 소스 택소노미의 수퍼세트(superset)로서 생성되는, 레퍼런스 택소노미일 수 있다. 다른 택소노미는 소스 택소노미의 교집합(intersection)으로서 생성될 수 있고, 또는 상기 비교기 함수에 의해 나타내어지는(expressed) 소스 택소노미들의 유사성에 기초하여 생성될 수 있다.

블록(350)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 상기 새로운 택소노미 T'을 위한 카테고리 리스트 t'을 생성할 수 있다. 상기 카테고리 리스트 t'은 모든 N 택소노미의 모든 카테고리의 수퍼세트일 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은 각 택소노미 T_i 내의 각 카테고리 t_ij를 병합해서(단, i =1…N 이고 j = 1...M_i) 새로운 택소노미 T'을 생성할 수 있다.

블록(351)에서, 상기 택소노미 병합 프로그램 모듈(138)은 새로운 택소노미 T'이 상기 카테고리들 및 T1의 맵핑을 포함하도록 세트할 수 있고(may set), 인트 라-카테고리 맵핑 웨이트(the intra-category mapping weights)를 1과 같도록 세트할 수 있다.

블록(352)에서, 각 택소노미 Ti(단, i = 2…N)를 위해, 그리고 상기 새로운 택소노미 T' 내의 각 카테고리 t'_k (단, k = 1. . . M')를 위해, 또 각 카테고리 t_ij(단, j = 1…Mi)를 위해, 상기 택소노미 병합 프로그램 모듈(138)은 후술하는 블록 (360, 362, 364, 및 366)을 수행할 수 있다.

블록(360)에서, 블록(360)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 상기 비교기 함수를 적용하여 상기 카테고리 t_ij 의 카테고리 프로필을 택소노미 T' 내의 카테고리 t'_k카테고리 프로필 모두와 비교함으로써 카테고리들 t_ij를 택소노미T' 으로 병합할 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은 t'_k의 카테고리 프로필을 택소노미 T_i 내의 카테고리 t_ij 각각의 카테고리 프로필과 비교할 수 있다.

블록(361)에서, 상기 택소노미 병합 프로그램 모듈(138)이 카테고리 t_ij의 카테고리 프로필과 택소노미 T' 내의 카테고리 t'_k의 카테고리 프로필 사이의 매치를 식별하는 경우, 상기 흐름도(300)은 블록(362)으로 진행한다.

블록(362)에서, 상기 택소노미 병합 프로그램 모듈(138)은 카테고리 t_k와 택소노미 T' 내의 부모 카테고리(parent category) 사이의 카테고리 맵핑 웨이트를 증가시킬 수 있고(may increment), 상기 맵핑 웨이트를 상기 택소노미 콘텐트 저장소(144) 내에 저장할 수 있다.

블록(364)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 상기 새로운 택소노미 T'에 카테고리 t_ij를 더할 수 있고, 블록(366)에서는, 상기 카테고리 t_ij를 t'_k+l로서 언매치드 맵핑 리스트(unmatched mapping list) 내에 둘 수 있는데, 여기서 “l”은 T'에 더해지는 새로운 카테고리들의 개수일 수 있다. 다음 언매치드 카테고리들은, 어느 것이라도 식별된다면, t'_k+2, t'_k+3, 등으로서 상기 언매치드 맵핑 리스트에 더해질 수 있다. 그러면 상기 택소노미 병합 프로그램 모듈(138)은 카테고리 t_ij를 상기 택소노미 콘텐트 저장소(144) 내에 저장할 수 있다. 그러면 흐름도(300)는 택소노미 T₂, . . ., T_N 각각의 모든 카테고리 t_ij가 택소노미 T'의 카테고리들 t'_k+l등과 비교될 때까지 블록(352)를 진행한다.

블록(370)에서, 상기 택소노미 병합 프로그램 모듈(138)은 인트라-택소노미 맵핑을 생성할 수 있다.

도 4는 상기 택소노미 병합 프로그램 모듈(138)에 의해 수행되는 인트라-택소노미 카테고리 맵핑 프로세스의 예시적 흐름도인데, 이에 의해서 하나 또는 그 이상의 택소노미가 본 발명의 일 실시예에 따라 병합되어 새로운 택소노미 T'을 생성한다.

인트라-택소노미 맵핑은 동일한 택소노미 내의 카테고리들을 연관시켜 택소 노미를 계층적 트리로 생성할 수 있고, 여기서 카테고리는 부모-자식 관계를 갖게 된다. 이러한 관계는 제어된 단어(the controlled vocabulary)를 카테고리의 서브-트리로 분할할 수 있고, 이것은 범주화를 용이하게 할 수 있고 정보 검색을 위한 사용성(usability)을 향상시킬 수 있다.

상기 택소노미 병합 프로그램 모듈(138)은, 예를 들어, 두 개의 택소노미를 워크 다운해서(walk down), 동일하거나 거의 동일한 카테고리 프로필을 갖는 서로 다른 소스 택소노미로부터의 카테고리들로부터의 새 택소노미 내의 카테고리들 사이에 관계(associations)을 생성할 수 있다.

블록(400)은, 상기 택소노미 병합 프로그램 모듈(138)에 의해 수행되는 인트라-택소노미 맵핑 프로세스의 예시적 흐름도인데, 이에 의해 상기 맵핑이 생성되어 두 개 또는 그 이상의 택소노미가 많은 택소노미의 연합으로서 병합되고, 본 발명의 일 실시예에 따라 새로운 택소노미 T'을 생성하게 된다.

블록(410)에서, 상기 택소노미 병합 프로그램 모듈(138)은 새로운 택소노미 T'으로부터 카테고리 리스트 t'_k(단, k=1..M1)를 검색한다. 상기 카테고리 리스트 t'_k는 상기 택소노미 T'으로부터의 모든 카테고리의 집합(set)일 수 있다.

블록(420)에서, 상기 택소노미 병합 프로그램 모듈(138)은 상기 새로운 택소노미 T'으로부터 언매치드 맵핑 리스트 t'_i(단, i=(M'-M₁)..M')을 검색할 수 있다. 상기 언매치드 맵핑 리스트 t'_i는 택소노미 T_i(단, i=2..N)로부터의 언매치드 카테고리 모두의 집합(set)일 수 있다.

블록(421)에서, 상기 택소노미 병합 프로그램 모듈(138)은 비교기 함수를 사용하여 카테고리 t'_i의 카테고리 프로필을 카테고리 t'_k의 카테고리 프로필과 비교할 수 있다. 본 발명의 일 실시예에 따르면, 상기 택소노미 병합 프로그램 모듈(138)은, 상기 비교기 함수를 적용하여 카테고리 t'_i의 카테고리 프로필을 카테고리 t'_k의 카테고리 프로필과 비교함으로써, 1의 웨이트를 갖는 맵핑을 생성할 수 있다.

블록(422)에서, 상기 택소노미 병합 프로그램 모듈(138)이 카테고리 t'_i의 카테고리 프로필을 카테고리 t'_k의 카테고리 프로필 사이에 니어 매치를 식별하는 경우(identifies a near match), 상기 흐름도는 블록(424)를 진행할 수 있다. 상기 택소노미 병합 프로그램 모듈(138)은, 상기 비교기 함수의 결과가 블록(320)에서 특정되는 니어 매치 임계 치(near match threshold) 보다 큰 경우 니어 매치를 식별할 수 있다.

상기 택소노미 병합 프로그램 모듈(138)이 카테고리 t'_i의 카테고리 프로필을 카테고리 t'_k의 카테고리 프로필 사이에 니어 매치를 식별하지 않는 경우, 상기 택소노미 병합 프로그램 모듈(138), 상기 흐름도는 블록(426)을 진행할 수 있다.

블록(424)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 카테고리 t'_k와 택소노미 T' 내의 부모 카테고리(parent category) 사이의 카테고리 맵핑 웨이트를 인크리멘트할 수 있고(may increment), 상기 맵핑 웨이트를 상기 택소노미 콘텐트 저장소(144) 내에 저장할 수 있다.

블록(426)에서, 상기 택소노미 병합 프로그램 모듈(138)은, 동일한 부모 카테고리를 갖는 택소노미 T' 내의 카테고리 t'_k 모두의 카테고리 프로필을 비교한 비교 함수 결과의 평균과 같은, 카테고리 t'_i의 카테고리 프로필을 카테고리 그룹의 함수와 비교할 수 있다. 상기 비교 함수 결과가 니어 매치인 경우, 상기 택소노미 병합 프로그램 모듈(138)은 블록(424)로 진행할 수 있다. 상기 비교 함수 결과가 니어 매치가 아닌 경우, 상기 택소노미 병합 모듈(138)은 i를 인크리멘트 하고, 블록(420)의 시작으로 돌아갈 수 있다.

도 5는, 예시적인 제어된 단어(controlled vocabulary)(500)와 두 개의 서로 다른 예시적 택소노미(501 및 502)를 도시한다. 상기 제어된 단어(500)은 벤더 브랜드 명(vendor brand names)으로 구성되고, 상기 택소노미(501 및 502)는 서로 다른 계층 구조로 조직화된 두 개의 예시적인 제어된 단어(500)를 나타낸다. 택소노미(501 및 502)는 상기 제어된 단어(500)의 카테고리 및 상기 카테고리 내의 서브 카테고리를 도시한다. 예를 들어, 택소노미(501)은 카테고리 “Fashion” 및 “Kitchenware”를 포함하고, 택소노미(502)는 카테고리 “Men's Fashion”, “Women's Fashion”, “Kitchenware”, 및 “Consumer Electronics”를 포함한다. 상기 카테고리 “Kitchenware”는 서브 카테고리인 "Pots & Pans" 및 "Knives”를 포함한다.

도 6은, 본 발명의 일 실시예에 따른 방법 및 장치에 의해, 상기 택소노 미(501) 및 상기 택소노미(502)의 수퍼세트(superset)로써 생성되는 예시적인 택소노미(601)를 도시한다. 예를 들어, 택소노미(601)은 택소노미(501)으로부터 가져온 상기 카테고리 “Fashion” 및 “Kitchenware”를 포함하고, 상기 택소노미(502)로부터 가져온 상기 카테고리 “Men's Fashion”, “Women's Fashion”, “Kitchenware”, 및 “Consumer Electronics”를 포함한다.

따라서, 예시적인 실시예들은, 본 발명의 일 실시예에 따른 싱글 및 멀티플 택소노미에 연관되는 관리를 위한 방법 및 장치를 제시한다. 상기 예시적인 실시예들은, 멀티플이고, 유사한 택소노미로부터 생성되는 싱글이고, 동질인(homogeneous) 택소노미를 관리하는 데에 사용된다. 상기 예시적인 프로세스 및 툴(tools)은, 택소노미 범주화, 매뉴얼 택소노미 범주화 및 오토매틱 정보 쿼리 범주화, 관리자 기능 택소노미 툴, 자동화된 택소노미 생성, 및 범주화 택소노미 맵핑 및 에러 분석, 그리고 택소노미 히스토리 생성 및 모바일 기기에서의 관리를 통해, 택소노미를 관리하는 데에 적용될 수 있다. 상기 예시적인 택소노미 관리 방법 및 장치는 정보를 분석하고 범주화 하는 쿼리를 사용하는, 컴퓨터 소프트웨어 및 하드웨어 정보 검색, 및 모바일 기기의 검색 플랫폼을 사용하여 제공될 수 있다.

상기 예시적인 실시예들은 택소노미의 생성, 유지, 및 관리를 보조할 수 있다(may aide). 상기 예시적인 실시예들은, (단, 본 발명이 이에 한정되지는 않음) 주제와 기능 택소노미(이를 테면 뮤직 장르 또는 물건 타입), 사전의 번역, 적당한 명사 사전(proper noun dictionaries)(이를 테면 사람, 장소, 및 물건), 및 지리적 택소노미(이를 테면, 국가, 주, 국가, 도시 택소노미)를 개발하는 데에 사용될 수 있다. 상기 예시적인 실시예의 관리 기능(Administrative functions)은, 택소노미 및 카테고리(특히, 택소노미 노드) 생성, 버져닝(versioning), 업데이트, 메타데이터 생성, 및 주석달기(annotation)을 포함할 수 있다. 워크플로우 기능은 자동화된 또는 매뉴얼 택소노미 및 카테고리 생성 리뷰 및 승인을 포함할 수 있다.

상기 예시적인 실시예는, 또한 유저의 생성 및 유지관리를 용이하게 할 수 있고, 롤 액세스 컨트롤 리스트를 용이하게 해서 보안 변경 동작(secure change operations)을 제공할 수 있다.

본 발명의 일 실시예에 따르면, 상기 시스템 및 프로세스는 어떠한 일반적인 또는 특별한 목적의 컴퓨팅 장치에도 제공될 수 있으며, 단일 어플리케이션(standalone application) 또는 어플리케이션들에 제공될 수 있고, 클라이언트-서버 모드 내에서 그룹 오퍼레이팅으로써 그리고 네트워크를 통해 연결되는 몇몇 일반적 또는 특별한 목적의 컴퓨팅 장치에도 제공될 수 있다. 본 발명의 다른 일 실시예에 따르면, 컴퓨터에서 사용가능하고, 기록 가능한 매체에서 본 발명의 프로세스를 수행하기 위해 제공되는 판독 가능한 복수 개의 프로그램 코드를 갖도록 제공되는 것도 가능하다. 본 발명의 일부 실시예에 따른 프로세스 및 시스템, 이를테면 Windows® 운영체제, 다양한 버전의 유닉스 기반의 운영체제(이를 테면, 리눅스 기반의 Hewlett Packard 버전 또는 Red Hat Linux 버전), 또는 다양한 버전의 AS/500 기반 운영체제에 제공될 수 있다. 예를 들어, 컴퓨터에 사용 가능하고 기록 가능한 매체는, CD ROM, 플로피 디스크, 하드 디스크, 또는 다른 어떤 컴퓨터에 사용 가능한 매체일 수 있다. 본 발명의 실시예에 따른 시스템 또는 시스템들의 하나 또는 그 이상의 구성요소는, 컴퓨터에 사용 가능한 매체가 상기 시스템 또는 시스템들에 인스톨되는 경우 그러한 컴퓨터 사용 가능한 매체에 저장되는 기능적 명령(functional instructions)의 형태의 판독 가능한 프로그램 코드를 포함할 수 있고, 상기 구성요소는 상기 시스템이 상기한 바를 수행하도록 한다. 본 발명의 일 실시예에 따른 컴퓨터 판독 가능한 프로그램은 또한, 다른 컴퓨터 판독 가능한 프로그램에 번들로 제공될 수 있다. 또한, 상기 구성 중 단지 일부만이라도 컴퓨터 판독 가능한 코드에 제공될 수 있다.

나아가, 다양한 엔티티 및 엔티티의 조합이, 상기 기능을 수행하는 구성을 제공하도록 컴퓨터에 적용될 수 있다. 본 발명의 일 실시예에 따르면, 상기 컴퓨터는 입력 장치, 출력 장치, 프로세서 장치, 및 데이터 저장 장치를 포함하는 표준 컴퓨터일 수 있다. 본 발명의 다른 실시예에 따르면, 상기 다양한 구성요소는, 동일한 협력 또는 엔티티 내의 서로 다른 부분에 있는 컴퓨터일 수 있다. 본 발명의 또 다른 실시예에 따르면, 상기 다양한 구성요소는, 협력하거나 또는 제한적으로 의존하는 회사와 같은 분리된 엔티티일 수 있다. 다른 실시예는, 법령에 맞게 사용되도록 조정될 수 있다.

본 발명의 특정한 일 실시예에 따르면, 상기 시스템은 소프트웨어 시스템의 구성요소를 포함할 수 있다. 상기 시스템은 네트워크 상에서 구동될 수 있고, 다른 컴퓨터에 연결되어, 공통 데이터베이스 및 추가적인 데이터 또는 어플리케이션 서비스를 운영하는 공통 서버를 공유할 수도 있다. 다른 하드웨어 배열이 제공될 수도 있다.

다른 실시예에서는, 본 발명의 용도 및 장점을 당업자 기술 수준에서 상기한 실시예 이외의 응용에도 적용할 수 있다. 본 명세서와 일부 실시예는 단지 예시적인 것으로 간주되어야만 하며, 본 발명의 의도된 범위는 하기 특허청구범위에 의해 해석되어야 한다.

그리고 비록 청구된 프로세싱의 프레임워크 내에서, 본 발명에 관해 특정한 서술이 제공되지만, 본 기술 분야의 통상의 기술자라면 본 발명의 기술 사상을 변형하지 않는 변경이나 개조도 가능함을 알 수 있다. 나아가, 상기 통상의 기술자라면, 상기한 내용들이 특정한 실시예에 국한되는 것이 아님을 명백히 알 수 있다.

Claims

제1 복수 개의 카테고리를 포함하는 제1 택소노미를 검색하는 단계;

하나 또는 그 이상의 제2 택소노미 - 단, 제2 복수 개의 카테고리가 상기 하나 또는 그 이상의 제2 택소노미에 연관됨 - 를 검색하는 단계;

상기 제1 복수 개의 카테고리 각각의 카테고리 프로필을 상기 제2 복수 개의 카테고리 각각의 카테고리 프로필과 비교하여, 매칭 카테고리 및 논-매칭 카테고리를 식별하는 단계; 및

상기 매칭 카테고리 및 상기 논-매칭 카테고리를 포함하는 제3 택소노미를 생성하는 단계

를 포함하는 컴퓨터에서 수행되는(computer implemented) 방법.
제1항에 있어서,

상기 제1 복수개의 카테고리 각각 및 상기 제2 복수개의 카테고리 각각은, 하나 또는 그 이상의 콘텐트 아이템에 연관되는 컴퓨터에서 수행되는 방법.
제1항에 있어서,

상기 비교하는 단계는, 카테고리 프로필 간의 유사도(comparison)가 임계 값 이상인 경우, 매치를 식별하는 컴퓨터에서 수행되는 방법.
적어도 하나의 제1 카테고리를 포함하는 제1 택소노미, 및 하나 또는 그 이상의 제2 택소노미 - 단, 적어도 하나의 제2 카테고리가 상기 하나 또는 그 이상의 제2 택소노미 중 적어도 하나에 연관됨 - 를 검색하는 단계; 및

상기 적어도 하나의 제1 카테고리의 제1 카테고리 프로필과 상기 적어도 하나의 제2 카테고리의 제2 카테고리 프로필 사이를 비교한 유사도(comparison)에 기초하여, 상기 제1 택소노미와 상기 제2 택소노미를 병합함으로써 새로운 택소노미를 생성하는 단계

를 포함하는 방법.
제4항에 있어서,

택소노미 타입의 선택을 수신하는 단계를 더 포함하는 방법.
제4항에 있어서,

상기 비교를 수행하기 위한 카테고리 비교 함수(category comparator function)를 식별하는 단계를 더 포함하는 방법.
제6항에 있어서,

상기 비교 함수를 상기 제1 카테고리 프로필 및 상기 제2 카테고리 프로필에 적용하여, 적어도 하나의 제1 카테고리가 적어도 하나의 제2 카테고리에 매치하는지 여부를 결정하는 단계를 더 포함하는 방법.
제7항에 있어서,

상기 비교 함수는, 상기 유사도가 임계 값 이상인 경우 매치를 식별하는 방법.
제8항에 있어서,

상기 유사도가 상기 임계 값 이상이 아닌 경우, 상기 적어도 하나의 제1 카테고리 및 상기 적어도 하나의 제2 카테고리를 상기 새로운 택소노미에 추가하여 포함하는 단계를 더 포함하는 방법.
제8항에 있어서,

상기 유사도가 상기 임계 값 이상인 경우,

상기 적어도 하나의 제1 카테고리를 상기 새로운 택소노미에 추가하는 단계; 및

상기 적어도 하나의 제1 카테고리 및 상기 적어도 하나의 제2 카테고리 사이의 관계(association)을 생성하는 단계

를 더 포함하는 방법.
제4항에 있어서,

상기 제1 택소노미와 상기 제2 택소노미 중 어느 것이 더 큰 수의 카테고리 를 포함하는 지에 기초하여, 상기 제2 택소노미에 대응하여 상기 제1 택소노미를 정렬(ordering)하는 단계를 더 포함하는 방법.
제4항에 있어서,

상기 적어도 하나의 제1 카테고리 및 상기 적어도 하나의 제2 카테고리를 포함하는 카테고리 리스트를 생성하는 단계를 더 포함하는 방법.
제4항에 있어서,

인트라-택소노미 맵핑을 생성하여, 상기 새로운 택소노미 내에서 상기 적어도 하나의 제1 카테고리를 상기 적어도 하나의 제2 카테고리에 연관시키는 단계를 더 포함하는 방법.
제4항에 있어서,

SVM(Single Vector Machines)을 사용하여 카테고리 프로필들이 생성되는 방법.
제4항에 있어서,

knn 분류(k-Nearest Neighbor classification)를 사용해서 카테고리 프로필들이 생성되는 방법.
제4항에 있어서,

상기 새로운 택소노미를 위한 인트라-택소노미 맵핑을 생성하는 단계를 더 포함하는 방법.
제16항에 있어서,

상기 인트라-택소노미 맵핑은, 상기 새로운 택소노미 내의 카테고리들 사이에 부모-자식 관계를 생성하는 방법.
제16항에 있어서,

상기 인트라-택소노미 맵핑은 상기 새로운 택소노미 내에 트리 구조를 생성하는 방법.
네트워크에 통신적으로 연결되는 제1 콘텐트 소스 - 단, 상기 제1 콘텐트 소스는 적어도 하나의 제1 카테고리를 갖는 제1 택소노미를 저장함 -;

상기 네트워크에 통신적으로 연결되는 제2 콘텐트 소스 - 단, 상기 제1 콘텐트 소스는 적어도 하나의 제2 카테고리를 갖는 제2 택소노미를 저장함 -;

네트워크에 통신적으로 연결되는 클라이언트 장치 - 단, 상기 클라이언트 장치는 제1 택소노미 및 제2 택소노미를 식별하는 데이터를 생성함 -; 및

상기 네트워크에 통신적으로 연결되는 서버 - 단, 상기 서버는, 상기 적어도 하나의 제1 카테고리의 제1 카테고리 프로필과 상기 적어도 하나의 제2 카테고리의 제2 카테고리 프로필을 비교한 유사도에 기초하여 상기 제1 택소노미를 상기 제2 택소노미와 병합함으로써, 새로운 택소노미를 생성하도록 더 조정됨 -

를 포함하는 시스템.
하나 또는 그 이상의 콘텐트 소스로부터 제1 택소노미 및 제2 택소노미를 검색하는 소스 커넥터 모듈 - 단, 상기 제1 택소노미는 적어도 하나의 제1 카테고리를 갖고, 상기 제2 택소노미는 적어도 하나의 제2 카테고리를 가짐 -;

상기 적어도 하나의 제1 카테고리를 위한 제1 카테고리 프로필, 및 상기 적어도 하나의 제2 카테고리를 위한 제2 카테고리 프로필을 생성하는 카테고리 콘텐트 모듈; 및

상기 제1 카테고리 프로필과 상기 제2 카테고리 프로필을 비교한 유사도에 기초하여, 상기 제1 택소노미와 상기 제2 택소노미를 병합함으로써 새로운 택소노미를 생성하는 택소노미 병합 프로그램 모듈

을 포함하는 장치.