KR101668506B1

KR101668506B1 - 자동 분류 규칙을 포함하는 데이터 분류 파이프라인

Info

Publication number: KR101668506B1
Application number: KR1020117024712A
Authority: KR
Inventors: 폴 아드리안 올틴; 클라이드 로우; 주드 할디; 니르 벤즈비; 란 칼라흐
Original assignee: 마이크로소프트 테크놀로지 라이센싱, 엘엘씨
Priority date: 2009-04-22
Filing date: 2010-04-14
Publication date: 2016-10-21
Also published as: CN102414677B; JP2012524941A; EP2422279A4; KR20120030339A; EP2422279A2; RU2544752C2; RU2011142778A; WO2010123737A3; CN102414677A; US20100274750A1; BRPI1012011A2; WO2010123737A2; JP5600345B2

Abstract

데이터 항목의 분류를 기반으로 데이터 항목의 관리를 용이하게 하기 위하여 분류 파이프라인을 포함한 확장가능 데이터 처리 파이프라인을 통해 데이터 항목(예를 들면 파일)을 처리하는 기술을 개시한다. 발견 모듈은 처리할 데이터 항목의 위치를 알아낸다. 독립적인 분류 파이프라인은 발견된 각 데이터 항목과 관련된 메타데이터(특성)을 얻고, 하나 이상의 분류기는 메타데이터를 기반으로 데이터 항목을 분류한다. 독립적인 정책 모듈은 각 데이터 항목으로 그의 분류를 기반으로 정책을 적용한다. 다양한 표준을 기반으로 다수의 분류기를 호출할 수 있다. 분류기의 사전정의된 순서화, 권위적 분류기 및/또는 수집 메카니즘은 임의 분류 충돌을 처리한다. 상이한 유형의 분류기를 제공할 수 있고, 각 분류기는 자동 분류 규칙에 대응할 수 있고, 분류기는 특성을 직접 변경할 수 있거나(예를 들면 분류 설정), 또는 특성을 변경하기 위한 대응한 규칙 메카니즘으로 결과를 반환할 수 있다.

Description

자동 분류 규칙을 포함하는 데이터 분류 파이프라인{DATA CLASSIFICATION PIPELINE INCLUDING AUTOMATIC CLASSIFICATION RULES}

전형적인 기업 환경에서 유지 및 처리되는 데이터량은 상당하며 급속히 증가하고 있다. 예를 들면 IT(information technology) 부서에서 수십 포맷의 수백만 또는 심지어 수억의 파일을 처리해야 하는 일은 일반적인 현상이다. 게다가, 기존의 수도 상당한(예를 들면 두자리 수 연간 성장) 속도로 성장하는 경향이 있다. 이 데이터의 대부분은 적극적으로 관리되지 않고 있으며, 파일 공유에서 구조화되지 않은 형태로 유지되고 있다.

기존의 데이터 관리 도구와 실행은 있을 수 있는 다양하고 복잡한 시나리오를 따라잡을 수가 없다. 이러한 시나리오는 컴플라이언스(compliance), 보안 및 저장을 포함하며, 비구조화 데이터(예를 들면 파일), 반구조화 데이터(예를 들면 파일에 추가 특성/메타데이터(properties/metadata)를 더함), 그리고 (예를 들면 데이터베이스에서) 구조화 데이터에 적용된다. 따라서 관리 비용과 위험을 감소시키는 임의 기술이 바람직하다.

이 요약은 상세한 설명에서 더 후술되는 개념 선택을 간단한 형태로 소개하기 위해 제공된다. 이 요약은 청구 주제의 주요 특징 또는 핵심적 특징을 확인하려는 것이 아니며, 또한 청구 주제의 범주를 제한하는 임의 방식에 사용하려는 것도 아니다.

간단히 말하면, 여기에 기술된 주제의 다양한 양상은 분류 파이프라인(classification pipeline)을 구비한 데이터 처리 파이프라인을 통해 데이터 항목(예를 들면 파일)을 처리하여 그들의 분류를 기반으로 데이터 항목의 관리를 용이하게 하는 기술에 대한 것이다. 일 양상에서, 분류 파이프 라인은 발견된 각 데이터 항목과 관련된 메타데이터(예를 들면 업무 영향(business impact), 프라이버시 레벨 등)를 얻는다. 하나 이상의 분류기(classifiers) 집합은 호출(invoke)시에 데이터 항목을 분류 메타데이터(예를 들면 하나 이상의 특성)로 분류하고, 이는 그 후에 데이터 항목과 관련된다(관련하여 저장된다). 그 다음, 각 파일의 메타데이터를 기반으로 예를 들어 파일 만료, 파일의 보호/액세스 레벨 변경 등을 위하여 데이터 항목 관련 분류 메타데이터를 기반으로 각 데이터 항목에 정책(policy)을 적용할 수 있다.

일 양상에서, 데이터 항목 처리 파이프라인은 항목 발견(item discovery), 분류 및 정책 적용의 독립 단계를 위해 모듈 구성요소를 포함한다. 각 단계는 확장가능하며, 그 단계에서 작동하는 하나 이상의 모듈(또는 없음)을 포함할 수 있다. 각 항목의 분류 메타데이터/특성은 Set 또는 Get 인터페이스의 각각을 통해 외부적으로 설정되거나 또는 얻을 수 있다.

일 양상에서, 분류 단계에서 다수의 분류 모듈을 호출할 수 있다. 데이터 항목을 이미 분류하였는 지의 여부 및/또는 분류 때와 같이 다양한 표준을 기반으로 각 분류기를 호출할 것인지의 여부에 대해 결정할 수 있다. 분류기는 데이터 항목을 분류시에 데이터 항목과 관련된 임의 특성, 및/또는 데이터 항목 그 자체의 내용(conent)을 사용할 수 있다. 어떻게 다른 분류기가 동일 항목을 분류하는 지에 대하여 임의 충돌(conflicts)을 해결하는 데 사용될 수 있는 기법들중에는 사전정의된 분류기 순서, 권위적 분류기(authoritative classifiers) 및/또는 수집 메카니즘(aggregation mechanism)이 있다.

데이터 항목의 위치를 기반으로 데이터 항목을 분류하는 분류기, (소유자 및/또는 저자를 기반으로 한) 글로벌 리포지토리기반(global repository-based) 분류기, 그리고/또는 항목내 포함된 내용을 기반으로 항목을 분류하는 내용기반 분류기를 제공할 수 있다. 각 분류기는 자동 분류 규칙에 대응할 수 있고, 분류기는 특성값을 직접 변경할 수 있거나, 또는 대응한 규칙 메카니즘이 특성을 변경할 수 있도록 대응한 규칙으로 결과를 반환할 수 있다.

다른 이점은 도면과 함께 취할 시에 다음의 상세한 설명으로부터 명백해질 것이다.

도 1은 데이터 항목을 발견하고, 이들 데이터 항목을 분류하고, 그리고 분류를 기반으로 정책을 적용하는 것을 포함한 데이터 관리를 위해 데이터 항목을 자동으로 처리하기 위한 파이프라인 서비스에서 모듈 예를 도시하는 블록도.
도 2는 파일 서버의 파일을 파일과 관련된 특성으로 처리시에 파이프라인 서비스에 의해 수행되는 단계 예를 도시하는 도면.
도 3은 분류 실행시간을 통해 처리를 위한 모듈들 간에 데이터 항목의 특성을 전달할 수 있는 방법의 예를 드는 분류 서비스 구조의 예를 도시하는 도면.
도 4a 및 도 4b는 정책 적용을 위해 항목을 분류하기 위한 단계를 포함하여, 데이터 항목을 처리시에 취하는 단계 예를 도시하는 흐름도.
도 5는 본 발명의 다양한 양상을 구체화할 수 있는 컴퓨팅 환경의 설명 예를 도시하는 도면.

본 발명은 예로써 도시되고, 첨부 도면으로 제한되지 않으며, 도면내 동일 참조번호는 유사한 요소를 가리킨다.

여기에 설명된 기술의 다양한 양상은 일반적으로 데이터 항목(객체)을 분류하고, 분류를 기반으로 데이터 관리 정책을 적용함으로써 데이터(예를 들면 파일 서버 상의 파일 등)를 관리하는 것에 대한 것이다. 일 양상에서, 이것은 분류 파이프라인을 기반으로 데이터 분류가능한 해결방안을 위한 모듈 접근방안을 통해 성취된다. 통상, 파이프라인은 공통 인터페이스를 통해 통신하는 연속된 모듈 소프트웨어 구성요소를 포함한다. 다양한 시점에서, 데이터를 발견 및 분류하고, 데이터 분류를 기반으로 데이터로 정책을 적용한다.

파일 서버상에서 유지되는 파일/데이터를 분류하기 위한 상이한 파일 분류 유형과 같이 다양한 예를 여기에 사용하지만, 여기에 기술된 임의 예는 제한을 위한 예가 아니라는 것을 알아야 한다. 예를 들면 파일을 분류할 수 있을 뿐만 아니라 다른 데이터 구조를 관련된 분류 "유형"으로 분류할 수 있고, 예를 들어 구조화된 임의 데이터(예를 들어 데이터를 표현하고 액세스하는 방법을 기술한 추상 모델을 따르는 임의 데이터 피스)를 예를 들어 이메일 항목, 데이터베이스 테이블, 네트워크 데이터 등으로 분류할 수 있다. 게다가, 데이터를 저장하는 다른 방식을 사용할 수 있는데, 예를 들어 파일 서버 대신에, 또는 이에 추가하여, 로컬 저장소, 분산 저장소, 저장영역 네트워크, 인터넷 저장소 등에 데이터를 유지관리할 수 있다. 따라서 본 발명은 여기에 기술된 임의 특정 실시예, 양상, 개념, 구조, 기능성 또는 예로 제한되지 않는다. 오히려, 여기에 기술된 임의 실시예, 양상, 개념, 구조, 기능성 또는 예는 비제한적이며, 본 발명은 통상 컴퓨팅 및 데이터 관리시에 이점 및 장점을 제공하는 다양한 방식으로 사용될 수 있다.

도 1은 데이터 항목을 처리하기 위한 파이프라인을 포함하여 여기에서 서술된 기술에 관련된 다양한 양상을 도시하고, 여기에 예시된 바와 같이 파일을 처리하기 위해 사용될 수 있지만, 아는 바와 같이 이메일 항목과 같이 하나 이상의 다른 데이터 구조를 처리하는데 사용될 수 있다. 도 1의 예에서, 파이프라인은 데이터 저장소(104)로 표현되는 임의 데이터 집합상에서 동작하는 서비스(102)로서 구현된다.

통상, 파이프라인 서비스(102)는 발견 모듈(discovery module)(106), 분류 서비스(108) 및 정책 모듈(113)을 포함한다. 용어 "서비스"는 단일 머신과 반드시 관련있을 필요는 없으며, 대신에 소정 파이프라인 실행을 조정하는 메카니즘이라는 데에 주목한다. 이 예에서, 분류 서비스(108)는 다른 모듈, 즉 메타데이터 추출 모듈(또는 모듈들)(109), 분류 모듈(또는 모듈들)(110), 그리고 메타데이터 저장 모듈(또는 모듈들)(111)을 포함한다. 후술된 각 모듈은 단계로서 생각될 수 있고, 실제로 각 동작의 타임라인은 연속적일 필요가 없는데, 즉 각 단계는 비교적 독립적으로 수행될 수 있으며, 이전 단계를 바로 뒤따를 필요는 없다. 예를 들면 발견 단계는 분류 단계가 차후에 분류하는 항목을 발견 및 유지할 수 있다. 다른 예를 들면, 데이터를 매일 분류할 수 있고, 데이터 관리 애플리케이션을 주마다 한 번 실행할 수 있다(예를 들면 백업). 임의 단계는 전면 또는 배경(예를 들면 게으른) 동작으로, 또는 개별 머신상에서 분산 방식으로, 실시간 온라인 처리 또는 오프라인 처리로 독립적으로 수행될 수 있다.

통상, 발견 모듈(또는 모듈들)(106)은 분류할 항목(예를 들면 파일)을 발견하고, 분류를 위해 둘 이상의 메카니즘을 사용할 수 있다. 예를 들면 파일 서버 상에서 파일을 발견하는 두가지 방식이 있을 수 있는데, 하나는 파일 시스템을 스캐닝함으로써 동작하는 것이고, 다른 한 방식은 원격 파일 액세스 프로토콜로부터 파일에 행해진 새로운 변경을 검출하는 것이다. 일반적으로, 직접 또는 중간 저장소를 통하든지 간에, 분류를 위하여 분류 단계/서비스(108)에 발견한 데이터를 항목으로서 제공한다. 이런 식으로, 발견은 분류와 논리적으로 분리될 수 있다.

발견은 다수의 방식으로 개시될 수 있다. 일 방식은 주문식(on-demand)으로, 요청후에 항목을 발견한다. 다른 방식은 실시간으로서, 하나 이상의 항목에 대한 변경이 발견 동작을 유발한다. 또 다른 방식은 예정된 발견으로, 정상 작업 시간 후와 같이, 예를 들어 하루에 한 번 일어날 수 있다. 또 다른 방식은 게으른 발견(lazy discovery)으로서, 여기서 배경 처리 등은 예를 들어 네트워크 또는 서버 활용이 비교적 낮을 때에 항목을 발견하기 위해 낮은 우선순위로 동작한다. 게다가, 발견은 온라인 동작으로, 즉 실제 데이터상에서, 또는 원래 데이터의 특정 시기 스냅샷(point-in-time snapshot)과 같은 데이터의 오프라인 사본(offline copy)상에서 실행될 수 있다는 데에 주목한다(통상 스냅샷 사본은 정의된 어떤 시점에 있는 특정 데이터 항목의 사본을 언급하는데, 이로써 실시간으로 데이터를 변경할 수 있는 라이브 시스템(live system)에 비하여 스냅샷 사본상에서 작업함으로써 처리중인 데이터 항목을 일정 상태로 유지관리하도록 도울 수 있다는 데에 주목한다).

(후술하는 바와 같은) 분류 단계/서비스(108)에 뒤이어, 정책 모듈(또는 모듈들)(113)은 각 항목의 분류를 기반으로 정책을 적용한다. 예를 들면 정보 누설 보호 제품은 소정 파일을 "개인 식별 정보(Personal identifiable information)" 등을 가지는 것으로 분류할 수 있다. 파일 백업 제품은 "개인 식별 정보"를 가지는 것으로 분류된 임의 파일을 암호화된 저장소에 백업시키려고 하는 정책으로써 구성될 수 있다.

도 1에 도시된 바와 같이 분류와 관련된 다양한 양상을 참조하면, 메타데이터 추출 모듈(또는 모듈들)(109)은 데이터 항목과 관련된 메타데이터를 발견한다. 예를 들어 파일 시스템은 파일과 관련시킬 많은 속성(attributes)을 가지고 있으며, 이들은 기지의 방식으로 추출될 수 있다. 또한 메타데이터 추출 모듈(또는 모듈들)(109)은 분류 단계의 입력으로 사용될 수 있도록 분류 메타데이터의 현 값을 추출한다. 분류는 라이브 데이터 또는 백업 데이터상에서 실행될 수 있다는 데에 주목한다.

메타데이터의 일부 예는 특성 이름(또는 식별자), (실제 값의 데이터 유형, 예를 들면 값의 문자열, 날짜, 불리언(Boolean) 또는 순서화된 집합 또는 멀티 집합과 같은 간단한 데이터 유형을 식별하는) 특성 값 유형, 그리고 계층적 분류에 의해 기술된 데이터 유형(문서 유형, 구성 유닛 또는 지리적 위치)과 같은 복합 데이터 유형과 같은 다양한 요소를 가진 분류 특성 정의를 포함한다. ("특성 값" 또는 간단히 "특성"으로 불리는) 분류 특성값은 그 데이터 항목을 분류하기 위하여 그 데이터 항목으로 배정될 수 있는 소정 값이다. 이 값은 분류 특성과 관련있으며, 보통 관련된 특성 정의에 의해 부과된 제약을 준수한다.

다른 예는 우리가 파이프라인 실행 동안에 이러한 수집을 필요로 하는 경우에 (가능한 값에 더 많은 제약을 기술하는) 특성 개요, 그리고 다수의 값을 어떻게 단일 값으로 수집하는 지에 대하여 기술하는 수집 정책(aggregation policy)을 포함한다. 게다가, 메타데이터는 언어의존 정보, 부가적 식별자 등과 같은 특성과 관련된 추가 속성을 포함할 수 있다.

예를 들면 수집 정책에서 HBI(high business impact)가 MBI(medium business impact)에 우선하며, MBI는 LBI(low business impact)에 우선할 시, 값 HBI, MBI 및 LBI로 제한되는 유형 "순서화된 값 집합(ordered value set)"의 "업무 영향(Busimess impact)"으로 명명된 특성을 고려한다. 분류 처리에서, 특성 값을 데이터 항목으로 관련시키면 문서의 클래스(즉 범주)로 자동적으로 "바인딩(bind)"할 것이라는 데에 주목한다. 예를 들면 특성 "BusinessImpact=HBI"를 데이터 항목에 첨부함으로써, 이 데이터 항목은 문서 "BuinessImpact=HBI"의 "범주"로 암시적으로 배정된다.

또한 메타데이터는 외부 데이터 소스 또는 다른 캐시에서 유지관리될 수 있다. 일 예는 사용자 또는 클라이언트, 및/또는 하나 이상의 다른 메카니즘이 분류 메타데이터, 또는 분류 그자체를 설정할 수 있도록 하는 것을 포함하고, 이를 데이터베이스와 같은 데이터 저장소에서 유지관리하는 것을 포함한다. 따라서 예를 들면 사용자는 "개인 식별 정보" 등을 포함하는 것으로 파일을 수동으로 설정할 수 있다. 자동화된 프로세스는 파일을 포함한 폴더를 기반으로 메타데이터를 결정하는 것과 같은 유사한 동작을 수행할 수 있는데, 예를 들어 프로세스는 그 파일을 민감한 폴더에 추가할 때에 파일에 대한 관련 메타데이터를 자동적으로 설정할 수 있다.

게다가, 이전 추출 및/또는 분류 동작으로부터 항목에 대한 메타데이터를 유지관리(캐싱)할 수 있다. 따라서 메타데이터 추출은 예를 들면 기존 메타데이터 추출(검색)과 새 메타데이터 추출과 같이 다수 부분에 있을 수 있다. 쉽게 알 수 있는 바와 같이, 기존 메타데이터를 검색하면 변화가 거의 없는 파일에서와 같이 분류 효율성을 증가시킬 수 있다. 게다가, 효율성 메카니즘은 예를 들어 분류기로부터 수신한 타임스탬프(timestamp)를 기반으로 분류기 메타데이터를 갱신했던 마지막 시간을 기반으로 분류기를 호출할 것인지의 여부를 결정할 수 있다. 또한 규칙 변경 또는 분류기 변경과 같은 분류 서비스(108)의 구성의 변화가 새 분류를 유발할 수 있다.

일단 메타데이터를 항목으로부터 얻는다면, 분류 모듈 또는 모듈들(110)은 그의 메타데이터를 기반으로 항목을 분류한다. 또한 예를 들어 소정 키워드(예를 들면 "기밀(conficential)"), 태그 또는 분류하는데 사용될 수 있는 파일 특성에 관한 다른 지시자를 찾기 위하여 항목의 내용을 평가할 수 있다. 데이터를 분류하는 다양한 방식이 있다. 예를 들어 파일을 분류시에, 파일은 분류를 위해 사용자에 의해 수동으로 설정되었을 수도 있고, 그리고/또는 파일을 제어하는 LOB(line of business) 애플리케이션(예를 들면 인간 자원 애플리케이션)에 의해 분류되었을 수도 있다. 파일은 관리자 스크립트(administrator scripts)를 실행함으로써 분류를 위해 설정될 수 있고, 그리고/또는 분류 규칙 집합을 사용하여 자동으로 분류될 수 있다.

통상, 자동 분류 규칙은 분류 파이프라인 단계(108)의 일부인 일반적이고 확장가능한 메카니즘을 제공한다. 이로 인해, 관리자 등은 이들 항목을 분류시키기 위해 데이터 항목에 적용되는 자동 분류 규칙을 정의할 수 있다. 각 자동 분류 규칙은 소정의 데이터 객체 집합과 분류 특성 집합의 분류를 결정할 수 있는 분류 모듈(분류기)을 활성화시킨다. 일 분류기 모듈은 동일한 데이터 항목에 대한(또는 상이한 데이터 항목) 상이한 분류 특성을 결정하기 위해 몇몇 규칙을 포함할 수 있다는 데에 주목한다. 게다가 다수의 분류기를 동일한 데이터 항목으로 적용할 수 있는데, 예를 들어 두 상이한 분류기의 각각은 파일이 "개인 식별 정보"를 가지는 지의 여부를 결정할 수 있다. 두 분류기는 동일 파일을 평가하도록 전개될 수 있으며, 이로써 단지 하나의 분류기가 파일이 "개인 식별 정보"를 포함한다고 결정할 지라도, 파일은 그와 같이 분류된다.

예를 들면 규칙이 포함할 수 있는 몇몇 요소는 규칙 관리 정보(규칙 이름, 식별자 등), 규칙 범주("C:＼folder1에서 모든 파일"과 같이 규칙에 의해 관리할 데이터 항목 집합의 설명), 그리고 파이프라인 동안에 규칙을 실행하는 방법을 기술하는 규칙 평가 옵션을 포함한다. 다른 요소는 분류기 모듈(특성 값을 실제로 배정하기 위해 이 규칙에 의해 사용되는 분류기에 대한 참조), 특성(이 규칙에 의해 배정된 특성 집합을 정의하는 선택적 설명), 그리고 (파일의 내용 등을 분류하는데 사용되는 정규 표현처럼 추가 필터와 같은) 추가 실행 정책과 같은 추가 규칙 매개변수를 포함한다.

분류기 모듈의 예는 (1) 데이터 항목의 위치(예를 들면 파일 디렉토리)를 기반으로 항목을 분류하는 분류기, (2) 데이터 항목의 소정 특성을 기반으로 글로벌 리포지토리를 사용하여 분류하는 분류기(예를 들어 파일 소유자를 기반으로 Active Directory® 또는 AD에서 조직단위를 조회) , 그리고 (3) 데이터 내용과 데이터 특성을 기반으로 분류하는 분류기(예를 들어 항목의 데이터에서 패턴 찾기)를 포함한다. 이들은 단지 예이며, 당해 기술분야에서 통상의 지식을 가진 자는 항목의 다른 특성을 또한 사용하여 상이한 항목을 분류할 수 있다는 것을 알 수 있는데, 즉 사실상 항목들 간의 임의 상대적 차이를 분류를 위해 사용할 수 있다는 데에 주목한다.

일 구현에서, 분류기는 다양한 모드에서 동작할 수 있다. 예를 들면 분류기를 가진 일 "명시적 분류기(explicit classifier)" 동작 모드는 실제 특성 또는 특성들을 설정하는데, 예를 들면 개인 정보를 파일에서 발견할 때, 분류기는 대응한 특성 "PII" 내지 "Exists" 등을 설정한다. 다른 적당한 모드는 분류기로 하여금 예를 들어 파일이 c:＼debugger와 같은 특정 디렉토리에 있는 지의 여부에 관하여 TRUE 또는 FALSE를 반환하게 할 수 있는 "비명시적 분류기"이다. TRUE 또는 FALSE 모드에서, 자동 분류 규칙과 분류기가 TRUE를 반환할 때마다 설정할 값과 관련있다. 따라서 분류기는 특성 값 또는 값들을 설정할 수 있거나, 또는 분류기를 호출하는 규칙이 그렇게 할 수 있다. TRUE 또는 FALSE 유형외의 분류기, 예를 들면 보다 세분화된(granular) 분류와 분류 규칙을 제공하기 위해 수치값(예를 들면 확률값)을 반환하는 분류기를 사용할 수 있다는 것에 주목한다.

분류 후에, 분류 결과와 가능하다면 추출된 다른 메타데이터는 항목과 관련하여 선택적으로 저장된다. 도 1에 도시된 바와 같이, 메타데이터 저장 모듈(111)이 이 동작을 수행한다. 저장은 차후에 분류를 기반으로 정책을 적용할 수 있도록 해준다.

각 분류 파이프라인 모듈은 다양한 기업이 주어진 구현을 맞춤화할 수 있도록 확장될 수 있다는 데에 주목한다. 확장성으로 인하여, 둘 이상의 모듈이 파이프라인의 동일 단계로 연결될 수 있다. 게다가, 임의 단계가 병렬로, 또는 순차적으로, 예를 들면 (다수 머신을 거쳐) 분산 방식으로 수행될 수 있다. 예를 들면 분류가 계산상 고가라면, 항목은 상이한 머신상에서 실행되는 병렬인 분류기 집합으로 (예를 들어 부하 분산(load balancing) 기법을 사용하여) 분산될 수 있다.

정책에 관하여, (파이프라인으로 직접 연결되지 않은 애플리케이션을 포함한) 애플리케이션은 항목을 처리하는 방법에 대해 정책 결정을 하기 위하여 분류 메타데이터를 평가할 수 있다. 이러한 애플리케이션은 항목 만료, 감사(auditing), 백업, 보존(retention), 검색, 보안, 컴플라이언스, 최적화 등을 검사하기 위한 동작을 수행하는 애플리케이션을 포함한다. 이러한 임의 보류 동작은 데이터가 아직 분류되지 않았거나, 또는 보류 동작에 대하여 분류되지 않은 경우에 데이터의 분류를 유발할 수 있다는 데에 주목한다.

쉽게 알 수 있는 바와 같이, 상이한 분류기로 인하여 상이하고 어쩌면 충돌하는 분류기 결과를 가져올 수 있다. 일 양상에서, 특성을 위한 분류 값의 수집을 수행한다. 이를 위하여 각 데이터 항목에 대해, (예를 들어 관리자 또는 프로세스에 의해) 정의된 분류 규칙을 평가하여 분류 특성을 결정한다. 두 분류 규칙이 일 특정한 분류 특성에 대해 동일 값을 설정할 수 있다면, 수집 프로세스는 분류 특성의 최종 값을 결정한다. 따라서 예를 들면, 일 규칙이 특성이 "1"로 설정되는 결과를 초래하고, 다른 규칙이 동일한 특성을 "2"로 설정하는 결과를 초래한다면, 소정 실시예에서 정의된 수집 정책은 특성에 대한 실제 값이, 즉 "1" 또는 "2" 또는 다른 무엇이여야 하는지를 결정한다. 이 특정한 시나리오에서, 하나의 규칙은 다른 규칙의 특성 설정에 중복기록되지 않고, 대신에 수집 정책을 호출하여 충돌을 관리하도록 한다는 데에 주목한다.

다른 시나리오에서, 권위적 분류기를 사용할 수 있다. 권위적 분류기는 또 다른 유형의 분류기로서, 대개 수집 규칙을 활성화하지 않고서도 다른 분류기에 우선할 수 있는 분류기다. 이러한 분류기는 예를 들어 임의 충돌에서 이기기 위하여 그의 결과를 플래깅(flag)할 수 있다.

또 다른 양상에서, 분류 규칙을 위한 평가 순서를 자동으로 결정하기 위한 메카니즘을 제공한다. 이를 위하여, 규칙 평가 순서는 관리자에 의해 결정될 수 있고, 그리고/또는 상이한 규칙과 분류기 간의 임의 의존성을 자동으로 결정될 수 있다. 예를 들어 규칙 Rule-R1은 분류 특성 Property-P1를 설정하고, Rule-R2는 Property-P2의 값을 결정하기 위해 Property-P1을 사용하는 Classifier-C1을 사용한다면, Rule-R2에 앞서 Rule-R1를 평가할 필요가 있다.

게다가, 분류기 실행 여부는 이전 분류기의 결과에 달려 있을 수 있다. 따라서 예를 들면, 하나의 분류기는 드물게 긍정 오류(false positive)를 가지고, "TRUE"가 사용된 그 결과를 가질때 마다 사용될 수 있다. (예를 들면 부정 오류(false negative)를 제거하기 위해 설계된) 2차 분류기는 권위적 분류기가 TRUE"를 반환하지 않을 시에만(예를 들어 "FALSE" 또는 어쩌면 불확실성을 가리키는 결과를 반환) 단지 고려된다. 또 다른 예는 사전정의된 "고도(altitude)"를 기반으로 파이프라인에서 순서화된 소정의 분류기를 가지는 것이다. 예를 들면 보다 낮은 고도 분류기는 보다 높은 고도 분류기에 앞서 파이프라인에서 실행된다. 따라서 파이프라인에서, 분류기는 고도 증가순으로 정렬된다.

도 2는 파일 서버(220)상에서 확장가능한 자동 분류 규칙을 구현하는 것에 대하여 보다 특정한 예를 도시한다. 통상적으로, 도 2는 모듈 대신에 파이프라인 서비스의 다양한 단계(221-225)를 도시하며, 알 수 있는 바와 같이, 이들 단계/모듈(221-225)은 도 1의 모듈(106, 109-111, 113)의 각각에 대응한다. 따라서 분류 규칙은 분류 파이프라인 내에 적용되고, 하나 이상의 데이터 발견 모듈(221)(예를 들면 스캐너), 하나 이상의 메타데이터 판독 모듈(222)(예를 들면 추출기 및 검색기), 분류(분류기)를 결정하는 하나 이상의 모듈 집합(223), 메타데이터를 저장하는 하나 이상의 모듈(224)(설정기), 그리고 분류를 기반으로 정책을 적용하는 하나 이상의 모듈(225)을 포함한다(정책 모듈).

또한 도 2에 도시된 바와 같이, 임의 주어진 단계에서 모듈의 수를 확장할 수 있다. 예를 들면 분류 단계는 분류기를 위한 확장성 모델을 제공하고, 관리자는 새로운 분류기를 등록하고, 기존 분류기를 열거하고, 더 이상 바람직하지 않은 분류기를 등록해제할 수 있다.

여기에 일반적으로 기술된 바와 같이, 파일 서버상에서 파일을 관리하기 위한 단계는 파일을 분류하고, 각 파일의 분류를 기반으로 데이터 관리 정책을 적용하는 것을 포함한다. 적용할 정책이 없도록 파일을 분류할 수 있다는 데에 주목한다.

일 구현에서, 파일 서버(220)상에서 그 서버(220)상에 정의된 분류 규칙에 의해 파일을 위한 자동 분류 프로세스를 구동한다. 파일이 분류가 활성인 파일 서버상에 저장될 때, 자동으로 분류되는데, 즉 파일을 분류하기 위한 사용자로부터의 분명한 요청이 없다. 그 특정 파일 서버상에서 파일을 분류하는데 사용될 수 있는 다양한 분류 표준은 1) 파일 서버상에서 실행중인 분류 규칙과 분류기, (2) 파일과 관련하여 남아있는 이전 임의 분류 결과, 그리고/또는 (3) 파일(또는 그의 속성) 그자체에 저장된 특성(또는 그의 속성)을 포함한다. 이들 표준은 주어진 파일의 분류를 결정시에 평가됨으로써, 특성 저장소(234)에 저장된(그러나 파일 그자체에 저장될 수 있는) 결과적인 특성 집합(232)을 제공한다.

일 구현에서, 각 분류 규칙은 아래에 설명된 바와 같은 평가 옵션을 가질 수 있다:

파일이 아직 분류되지 않은 경우에만 평가:

파일이 이미 분류되었을지라도 평가하고, (예를 들어 존재한다면 동일 파일상에서 분류 프로세스의 이전 실행으로부터의) 이전 분류 특성 값 또는 값들을 고려함;

파일이 이미 분류되었을지라도 평가하고, 그렇지만 임의 이전 분류 특성 값을 고려하지 않음.

예를 들어 사용자에 의해 파일로서 서버상의 폴더로 저장된 (배정된 특성이 없는) 문서를 고려한다. 자동 분류 규칙은 MBI, 즉 BusinessImpact=MBI를 가지는 것으로 파일을 분류한다. 또한 이 분류는 (파일 서버가 이 유형의 문서를 위해 설치된 파서(parser)를 가지므로) 이 문서 내부에 저장될 수 있다.

그 후, 그 문서가 또 다른 서버(와 상이한 폴더)로 복사된다고 간주한다. 새 폴더가 실행되는 경우에, 아직 파일이 분류되지 않았다면, 폴더에서 파일을 높은 사업적 영향을 가지는 것으로(BusinessImpact=HBI) 분류하는 분류 규칙으로 들어간다. 그러나 이 파일내 특성이 BusinessImpact 분류를 이미 MBI로 설정됨을 가리키므로, 파일 BisinessImpact 특성은 MBI로 남아있다.

전술한 규칙은 파일이 이미 분류되었을 지라도 파일을 평가하기 위하여 변경될 수 있고, 파일에서 특성 값을 고려할 수도, 하지 않을 수도 있다. 이 후속된 분류 실행에서, 규칙을 평가하고, HBI가 MBI보다 높으므로, 수집 정책은 파일 특성을 HBI로 설정할 것을 결정한다.

알 수 있는 바와 같이, 각 분류 규칙은 그 규칙을 위해 사용되는 분류기에 의존한다. 다른 예를 들면, <scope>, <classifier>, <classification property>, <value>를 포함한 분류 규칙을 고려하고, 여기서 분류기는 파일을 분류하는데 사용되는 특정 구현을 포함한다. 예를 들면 "폴더에 의해 분류(classify by folder)" 분류기는 그들의 위치에 의해 파일의 분류를 가능하게 할 수 있다. 이 분류기는 파일의 현 경로를 검토하여, 이를 분류 규칙의 <scope>에 명시된 경로와 매칭시킨다. 경로가 <scope>내에 있다면, 규칙은 <classification property>가 규칙에 명시된 <value>을 가질 수 있다는 것을 나타낸다(분류 특성을 위한 실제 값이 무엇인지를 결정하기 위해 다수의 규칙을 수집할 필요가 있을 수 있으므로, 특성을 반드시 설정할 필요는 없다). 이것은 명시된 <value>를 요구하므로 명시적 분류기(explicit classifier)라는 데에 주목한다.

상이한 파일 분류기 유형의 예로서, "소유자에 의해 AD로부터 분류 검색(Retrieve classification from AD by owner)" 분류기는 파일의 소유자를 판독하고, 규칙에서 언급된 <classification property>에 대해 소유자에 의해 옳은 값이 무엇인지를 알아내기 위하여 활성 디렉토리를 질의한다. 이것은 <value>를 결정하고, 따라서 <value>는 규칙에 명시되지 않을 것이므로, 비명시적 분류기(non-explict classifier)라는데에 주목한다.

각 분류기는 분류 논리부에 사용하는 특성을 선택적으로 나타낼 수 있다. 이 정보는 분류기를 호출하기에 앞서 특성을 저장소(234)로부터 검색할 필요가 있다는 것을 가리키는 것뿐만 아니라, 분류 프로세스가 분류기를 호출하는 순서를 결정시에 유용하다.

또한 각 분류기는 설정을 위해 특성을 선택적으로 나타낼 수 있다. 이 정보는 이 분류기에 적절한 특성(언급된 특성이 없다면, 모든 특성이 적절함)을 보여주기 위해 사용자 인터페이스에 사용될 수 있을 뿐만 아니라, 이 정보가 분류기를 호출하기에 앞서 저장소로부터 검색할 특성을 나타내는 분류 프로세스에 사용될 수 있다. 이 정보는 명시적 및 비명시적 분류기에 적절하다. 예를 들면 "폴더에 의한 분류(Classify by folder)" 명시적 분류기는 표시된 특정 특성을 가지지 않고, 또한 "소유자에 의해 AD로부터 분류 검색(Retrieve classification from AD by owner)" 비명시적 분류기도 표시된 특정 특성을 가지지 않는다. 그러나 "조직단위 결정(Determine organization unit)" 비명시적 분류기는 단지 "조직단위(Organization Unit)" 특성을 설정하는 방법을 안다.

추가 식별을 위하여, 선택 정보를 사용하여 회사명과 버전 레이블과 같은 분류기를 기술할 수 있다.

또한 분류기는 추가 매개변수를 소비할 필요가 있을 수 있다. 예를 들면 분류기가 일부 세분화된 표현(granular expressions)을 기반으로 파일에서 개인 정보를 알아내기 위해 만들어진다면, 이들 세분화된 표현을 분류기로 하드코딩(hardcode)할 필요가 없으며, 오히려 규칙적으로 갱신되는 XML 파일과 같은 외부 소스로부터 제공할 수 있다. 이 경우에, 분류기는 그 XML 파일로의 포인터를 포함한다. FSRM(File Server Resource Manager)기반 분류는 분류기를 위한 추가 매개변수를 명시하도록 허용하고, 이들 매개변수는 호출될 시에 입력으로서 분류기로 전달된다.

게다가, 분류기가 실행되는 허용 레벨로 인하여, 분류기 실행시간 행동은 상이한 분류기들 간에 다를 수 있다. 하나의 허용 레벨은 "로컬 서비스(local service)"이지만, 예를 들어 "로컬 시스템" 또는 "네트워크 서비스처럼 보다 높거나 낮은 허용 레벨을 필요로 할 수 있다.

또 다른 양상은 분류기가 파일 내용을 액세스할 필요가 있는지의 여부이다. 예를 들면 전술한 폴더 분류기는 포함 폴더를 기반으로 분류하므로 파일 내용을 액세스할 필요가 없다. 대조적으로, 파일에서 특정한 텍스트 또는 패턴(예를 들면 신용카드번호)을 식별하는 분류기는 파일 내용을 처리할 필요가 있다. FSRM 분류가 분류기를 위해 파일 내용을 스트리밍(streaming)하므로, 파일 내용을 액세스해야하는 분류기는 높은 특권으로 실행될 필요는 없다는 데에 주목한다.

다음 표는 일 분류기 구현의 다양한 특징을 요약한다:

또한 도 2는 다른 외부 애플리케이션이 데이터 항목에 대한 특성을 설정하거나 얻도록 해주는 API(240, 242)를 나타낸다. 통상적으로, (실행시에 정책 모듈로 특성을 미는(push) 파이프라인과 대조적으로) Get 특성 API(240)는 임의 횟수로 특성을 "당기는데(pull)" 사용된다. 이 API(240)는 분류 데이터 단계(223) 동안에 설정되었던 임의 특성을 얻을 수 있도록 하기 위해 분류 및 저장 단계(223, 224)의 각각 후에 도시된다는 데에 주목한다.

(특성 저장 단계(224) 동안에 특성을 차후에 저장할 수 있도록 데이터 분류 단계(223)와 함께 동작하는 것으로 이 API(242)를 도시하였지만, 즉 Set 특성은 기본적으로 사용자 지시 수동 분류이라는 데에 주목해야 하지만) 이 Set 특성 API(242)는 임의 횟수로 특성을 시스템으로 "미는데(push)" 사용된다. 분류 프로세스의 일부로서, 분류기는 분류의 사용을 위해 파일로부터 추출된 추가적인 사전정의된 파일 특성에 대해 액세스할 수 있다(예를 들면 File.CreationTime...). 이들 특성은 분류 API를 통해 분류 특성으로서 노출되지 않을 수도 있다.

도 3을 참조하면, 폴더 분류기(363)를 포함한 분류 서비스(108)를 위한 일 구조 예는 공통 스트리밍 인터페이스를 통해, 예를 들어 (1) 내지 (10)으로 레벨링된 동작을 통해 분류 실행시간(370)과 통신하는 파이프라인 모듈(361-365)을 조합함으로써 만들어지는데, 예를 들어 실선 화살표는 DCOM 콜을 나타낸다. 이 예에서, 각 파이프라인 모듈(361-365)은 PropertyBag 객체 스트림을 처리하고(문서/파일당 일 특성 백), 각 PropertyBag 객체는 (만약 있다면) 이전 파이프라인 모듈로부터 누적된 특성 리스트를 보유한다. 통상적으로, 각 파이프라인 모듈(361-365)의 역활은 이들 파일 특성을 기반으로 소정 조치를 수행하기 위한 것이며(예를 들면 더 많은 특성 추가), 동일한 특성 백(property bag)을 실행시간(370)으로 되전달한다. 실행시간(370)은 완료할 때까지 다음 파이프라인 모듈로 특성 백 스트림을 전달한다.

일 FSRM기반 분류 서비스에서, 파이프라인 모듈은 감도에 따라 상이하게 관리된다. 특히, (AD 특성을 향해 지시된 "AD" 분류기 또는 파일 시스템 메타데이터를 해석하는 예시된 "폴더" 분류기와 같이) 사용자 콘텐츠를 해석/구문분석하지 않는 파이프라인 모듈은 해석/구문분석하지 않는 파이프라인 모듈은 FSRM 분류 서비스에서 직접 관리될 수 있다. (낮은 권리의 호스팅 프로세스에서 관리되는 워드 문서를 구문분석하는 것과 같이) 사용자 제공 콘텐츠 및/또는 제3자/외부 모듈을 다루는 파이프라인 모듈은 비관리자 사용자 계정하에서 실행된다.

도 4a 및 도 4b는 항목을 발견하는 것을 나타내는 단계(402)에서 시작하는, 흐름도의 단계 예에 의해 다양한 파이프라인 동작을 요약한다. 단계(402)로서 동작할 수 있는 단계(404)는 각 새로운 항목을 제공하거나, 또는 단계(402)후에 임의 시간에 적어도 일 항목을 제공하고 첫 항목을 선택한다.

단계(406)는 선택된 항목이 캐싱되고 캐시에서 갱신되는 지의 여부를 평가한다. 만약 그러하다면, 항목은 파이프라인의 나머지를 통해 처리될 필요가 없고, 따라서 원하는 대로 특성을 기반으로 임의 정책을 적용하기 위해 단계(407)로 분기하고, 적절한 대로 캐싱/갱신된 파일에 정책을 적용한다는 데에 주목한다. 단계(408)와 단계(409)는 남아있는 것이 없을 때까지 다른 항목에 대한 프로세스를 반복한다.

항목을 파이프라인의 나머지를 통해 처리할 것이라면, 단계(406)는 대신에 단계(410)로 분기하고, 여기서 항목의 기본 특성을 위해 항목을 스캐닝한다. 이들은 파일 메타데이터, 내장된 특성 등일 수 있다.

단계(412)는 항목과 관련된 기존의 임의 특성을 검색한다. 이들은 전술한 바와 같은 다양한 저장 모듈, 예를 들면 내장된 데이터베이스 모듈로부터 온 것일 수 있다.

단계(414)는 다양한 특성을 수집한다. 예를 들면 전술한 예에서, 특성이 충돌하는 것이 가능하고, 파일의 분류 특성은 파일에 내장될 수 있고, 외부적으로 파일과 관련될 수 있다는 데에 주목한다. 타임스탬프 또는 다른 충돌 해결방안 규칙이 승리자를 결정할 수 있거나, 또는 이와 달리 충돌하는 특성 값으로 인하여 분류를 건너 뛰도록 강요받을 수 있다. 단계(416)는 예를 들어 저장 모듈 권한(authority)을 기반으로 이러한 임의 충돌을 해결하는 것을 나타낸다.

프로세스는 도 4b의 단계(420)으로 계속되고, 여기서 전술한 바와 같이 분류기 순서화를 기반으로 제1 분류기를 선택하는 것을 나타낸다(단지 하나의 분류기가 있을 수 있다는 데에 주목한다). 단계(422)는 선택된 분류기를 불러올 것인지의 여부를 결정한다. 전술한 바와 같이, 예를 들어 이전 분류의 존재를 기반으로, 타임스탬프 또는 다른 표준을 기반으로 하는 등으로 특정한 분류기를 실행할 수 없을 수도 있는 다양한 이유가 있다. 호출하지 않는다면, 단계(422)는 단계(426)로 분기하고, 여기서 또 다른 분류기를 고려해야 하는 지의 여부를 검사한다.

선택된 분류기가 단계(422)에서 호출된다면, 단계(424)를 수행하고, 여기서, 분류기를 호출하고, 전술한 바와 같이 임의 매개변수를 전달하여 분류를 수행한다. 또한 전술한 바와 같이, 분류기가 특성을 직접 설정하지 않는다면, 분류기의 결과를 기반으로 대응 규칙을 사용한다.

단계(426)와 단계(427)는 임의 다른 분류기를 위해 단계(422, 424)의 프로세스를 반복한다. 각 다른 분류기는 고도 또는 다른 순서화 기법에 의해 지시되는 대로 평가 순서에 따라서 선택된다.

단계(430)는 분류를 기반으로 적절한 대로 특성을 수집한다. 전술한 바와 같이, 수집을 귄위적 임의 분류기의 분류 결과로 적용하지 않을 지라도, 이것은 임의 충돌을 처리한다.

단계(432)는 있다면 파일과 관련된 특성 변동을 저장한다. 파일의 특성이 변경되지 않았다면, 정책 모듈은 정책 적용을 건너뛸 수 있다는 데에 주목한다. 그 후, 프로세스는 도 4a의 단계(405)로 복귀할 수 있고, 남아있는 항목이 있다면 없을 때까지 임의 정책을 적용하고 다음 항목을 선택 및/또는 처리한다.

예시적인 동작 환경

도 5는 도 1 내지 도 4의 예를 구현할 수 있는 적당한 컴퓨팅과 네트워킹 환경(500)의 예를 도시한다. 컴퓨팅 시스템 환경(500)은 적당한 컴퓨팅 환경의 단지 일 예이며, 본 발명의 사용 또는 기능성의 범주에 관해 임의 제한을 하려는 것이 아니다. 컴퓨팅 환경(500)은 예시적 동작 환경(500)에 도시된 임의 하나 또는 결합된 구성요소와 관련하여 임의 의존성이나 요건을 가지는 것으로 해석되어서도 안된다.

본 발명은 다수의 다른 범용 또는 특용 컴퓨팅 시스템 환경 또는 구성과 동작할 수 있다. 본 발명과 사용하기에 적당할 수 있는 잘 알려진 컴퓨팅 시스템, 환경 및/또는 구성의 예는 퍼스널 컴퓨터, 서버 컴퓨터, 핸드헬드 또는 랩탑 장치, 태블릿 장치, 마이크로프로세서 시스템, 마이크로프로세서기반 시스템, 셋탑 박스, 프로그램가능 가전제품, 네트워크 PC, 미니컴퓨터, 메인프레임 컴퓨터, 전술한 임의 시스템 또는 장치를 포함한 분산 컴퓨팅 환경 등을 포함하는데, 이로 제한되지는 않는다.

본 발명은 컴퓨터에 의해 실행되는 프로그램 모듈과 같은 컴퓨터 실행가능 인스트럭션의 일반적 상황으로 기술될 수 있다. 통상적으로, 프로그램 모듈은 특정 작업을 수행하거나 또는 특정한 추상 데이터 유형을 구현하는 루틴, 프로그램, 객체, 구성요소, 데이터 구조 등을 포함한다. 또한 본 발명은 작업이 통신 네트워크를 통해 연결된 원격 처리 장치에 의해 수행되는 분산 컴퓨팅 환경에서 실행될 수 있다. 분산 컴퓨팅 환경에서, 프로그램 모듈은 메모리 저장 장치를 포함한 로컬 및/또는 원격 컴퓨터 저장 매체에 위치할 수 있다.

도 5를 참조하면, 본 발명의 다양한 양상을 구현하기 위한 예시적 시스템은 컴퓨터(510)의 형태인 범용 컴퓨팅 장치를 포함할 수 있다. 컴퓨터(510)의 구성요소는 처리 유닛(520), 시스템 메모리(530), 그리고 시스템 메모리를 포함한 다양한 시스템 구성요소를 처리 유닛(520)으로 연결하는 시스템 버스(521)를 포함할 수 있는데, 이로 제한되지는 않는다. 시스템 버스(521)는 메모리 버스 또는 메모리 제어기, 주변 버스, 그리고 다양한 버스 구조중의 임의 구조를 사용하는 로컬 버스를 포함한 몇몇 유형의 버스 구조중의 임의 구조일 수 있다. 예를 들면, 이러한 구조는 ISA(Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스, 그리고 메자닌(Mezzanine) 버스로도 알려진 PCI(Peripherial Component Interconnect) 버스를 포함하는데, 이로 제한되지는 않는다.

컴퓨터(510)는 전형적으로 다양한 컴퓨터 판독가능 매체를 포함한다. 컴퓨터 판독가능 매체는 컴퓨터(510)에 의해 액세스될 수 있는 임의 사용가능한 매체일 수 있고, 휘발성 및 비휘발성 매체, 그리고 분리식 및 비분리식 매체의 모두를 포함한다. 예를 들면, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체와 통신 매체를 포함하는데, 이로 제한되지는 않는다. 컴퓨터 저장 매체는 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈 또는 다른 데이터와 같은 정보의 저장을 위한 임의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리식 및 비분리식 매체를 포함한다. 컴퓨터 저장 매체는 RAM, ROM, EEPROM, 플래시 메모리 또는 다른 메모리 기술, CD-ROM, DVD(digital versatile disks) 또는 다른 광 디스크 저장소, 자기 카세트, 자기 테잎, 자기 디스크 저장소 또는 다른 자기 저장 장치, 혹은 원하는 정보를 저장하는데 사용될 수 있으며 컴퓨터(510)에 의해 액세스될 수 있는 임의 다른 매체를 포함하는데, 이로 제한되지는 않는다. 통신 매체는 전형적으로 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈, 또는 반송파 또는 다른 전송 메카니즘과 같은 변조 데이터 신호에서 다른 데이터를 구현하고, 임의 정보 전달 매체를 포함한다. 용어 "변조된 데이터 신호"는 신호에서 정보를 인코딩하는 것과 같은 방식으로 설정 또는 변경된 하나 이상의 그 특성을 가진 신호를 의미한다. 예를 들면, 통신 매체는 유선 네트워크 또는 직도선(direct-wired) 연결, 그리고 음향, RF, 적외선 및 다른 무선 매체와 같은 무선 매체를 포함하는데, 이로 제한되지는 않는다. 또한 전술한 바의 임의 결합은 컴퓨터 판독가능 매체의 범주내에 포함될 수 있다.

시스템 메모리(530)는 ROM(read only memory)(531) 및 RAM(random access memory)(532)과 같은 휘발성 및/또는 비휘발성 메모리의 형태인 컴퓨터 저장매체를 포함한다. 시동 동안과 같이 컴퓨터(510)내 요소들간에 정보 전송을 돕는 기본 루틴을 포함한 BIOS(basic input/output system)(533)는 전형적으로 ROM(531)에 저장된다. RAM(532)은 처리 유닛(520)을 직접 액세스할 수 있으며, 및/또는 처리 유닛상에서 바로 동작중인 데이터 및/또는 프로그램 모듈을 포함한다. 예를 들면, 도 5는 운영체제(534), 애플리케이션 프로그램(535), 다른 프로그램 모듈(536)과 프로그램 데이터(537)를 도시하는데, 이로 제한되지는 않는다.

또한 컴퓨터(510)는 다른 분리식/비분리식, 휘발성/비휘발성 컴퓨터 저장매체를 포함할 수 있다. 단지 예를 들면, 도 5는 비분리식, 비휘발성 자기매체로부터/로 판독 또는 기록하는 하드 디스크 드라이브(541), 분리식, 비휘발성 자기 디스크(552)로부터/로 판독 또는 기록하는 자기 디스크 드라이브(551), 그리고 CD ROM 또는 다른 광매체와 같은 분리식 비휘발성 광디스크(556)로부터/로 판독 또는 기록하는 광디스크 드라이브(555)를 도시한다. 예시적인 동작 환경에서 사용될 수 있는 다른 분리식/비분리식, 휘발성/비휘발성 컴퓨터 저장 매체는 자기 테잎 카세트, 플래시 메모리 카드, DVD(digital versatile disk), 디지털 비디오 테잎, 고체상태 RAM, 고체상태 RAM 등을 포함하는데, 이로 제한되지는 않는다. 하드디스크 드라이브(541)는 전형적으로 인터페이스(540)와 같은 비분리식 메모리 인터페이스를 통해 시스템 버스(521)로 연결되고, 자기디스크 드라이브(551)와 광디스크 드라이브(555)는 전형적으로 인터페이스(550)와 같은 분리식 메모리 인터페이스에 의해 시스템 버스(521)로 연결된다.

도 5에 도시되며 전술한 드라이브 및 그들의 관련 컴퓨터 저장매체는 컴퓨터 판독가능 인스트럭션, 데이터 구조, 프로그램 모듈, 그리고 컴퓨터(510)를 위한 다른 데이터의 저장을 제공한다. 예를 들면 도 5에서, 하드디스크 드라이브(541)는 운영체제(544), 애플리케이션 프로그램(545), 다른 프로그램 모듈(546) 및 프로그램 데이터(547)를 저장하는 것으로 도시된다. 이들 구성요소는 운영체제(534), 애플리케이션 프로그램(535), 다른 프로그램 모듈(536) 및 프로그램 데이터(537)와 동일하거나 또는 다를 수 있다는 데에 주목한다. 운영체제(544), 애플리케이션 프로그램(545), 다른 프로그램 모듈(546) 및 프로그램 데이터(547)는 최소한 그들이 상이한 사본들임을 설명하기 위해 여기서 다른 번호가 주어진다. 사용자는 태블릿(tablet) 또는 전자 디지타이저(564), 마이크로폰(563), 키보드(562), 그리고 마우스, 트랙볼 또는 터치패드로서 일반적으로 언급되는 포인팅 장치(561)와 같은 입력 장치를 통해 컴퓨터(510)로 명령어 및 정보를 입력할 수 있다. 도 5에 도시되지 않은 다른 입력 장치는 조이스틱, 게임 패드, 위성 수신안테나, 스캐너 등을 포함할 수 있다. 상기 및 다른 입력 장치는 시스템 버스에 연결된 사용자 입력 인터페이스(560)를 통해 처리 유닛(520)으로 종종 연결되지만, 병렬포트, 게임 포트 또는 USB(universal serial bus)와 같은 버스 구조 및 다른 인터페이스에 의해 연결될 수 있다. 또한 모니터(591) 또는 다른 유형의 디스플레이 장치가 비디오 인터페이스(590)와 같은 인터페이스를 통해 시스템 버스(521)에 연결된다. 모니터(591)는 또한 터치 스크린 패널 등과 통합될 수 있다. 모니터 및/또는 터치 스크린 패널은 태블릿 유형의 퍼스널 컴퓨터에서와 같이 컴퓨팅 장치(510)를 병합할 수 있는 하우징으로 물리적으로 연결될 수 있다는 데에 주목한다. 게다가, 컴퓨팅 장치(510)와 같은 컴퓨터는 또한 출력 주변 인터페이스(594) 등을 통해 연결될 수 있는 스피커(595) 및 프린터(596)와 같은 다른 주변 출력 장치를 포함할 수 있다.

컴퓨터(510)는 원격 컴퓨터(580)와 같은 하나 이상의 원격 컴퓨터로 논리적 연결부를 사용하여 네트워크 환경에서 동작할 수 있다. 도 5에 메모리 저장 장치(581)만을 도시하였지만, 원격 컴퓨터(580)는 퍼스널 컴퓨터, 서버, 라우터(router), 네트워크 PC, 피어 장치(peer device) 또는 다른 공통 네트워크 노드일 수 있고, 전형적으로 컴퓨터(510)와 관련하여 전술한 다수 또는 모든 요소를 포함한다. 도 5에 도시된 논리적 연결부는 하나 이상의 LAN(local area networks)(571)과 하나 이상의 WAN(wide area networks)(573)을 포함하지만, 또한 다른 네트워크를 포함할 수 있다. 이러한 네트워킹 환경은 사무실, 전사적(enterprise-wide) 컴퓨터 네트워크, 인트라넷(intranet) 및 인터넷에서 아주 흔하다.

컴퓨터(510)는 LAN 네트워킹 환경에서 사용될 때에 네트워크 인터페이스 또는 어댑터(570)를 통해 LAN(571)으로 연결된다. 컴퓨터(510)는 WAN 네트워킹 환경에 사용될 때에 전형적으로 인터넷과 같은 WAN(573)을 통해 통신을 설정하기 위한 모뎀(572) 또는 다른 수단을 포함한다. 내부형 또는 외부형일 수 있는 모뎀(572)은 사용자 입력 인터페이스(560) 또는 다른 적절한 메카니즘을 통해 시스템 버스(521)로 연결될 수 있다. 인터페이스 및 안테나와 같은 것을 구비한 무선 네트워킹 구성요소(574)는 액세스점 또는 피어 컴퓨터와 같은 적당한 장치를 통해 WAN 또는 LAN으로 연결될 수 있다. 네트워크 환경에서, 컴퓨터(510)에 대하여 묘사한 프로그램 모듈 또는 그의 일부는 원격 메모리 저장 장치에 저장될 수 있다. 예를 들면, 도 5는 메모리 장치(581)상에 상주하는 원격 애플리케이션 프로그램(585)을 도시하는데, 이로 제한되지는 않는다. 도시된 네트워크 연결은 예시적이며, 컴퓨터들 간의 통신 회선을 설정하기 위해 다른 수단을 사용할 수 있다는 것을 알 수 있다.

컴퓨터 시스템의 주된 부분이 저전력 상태에 있을 지라도, (예를 들면 예비 콘텐츠 디스플레이를 위한) 보조 서브시스템(599)은 프로그램 콘텐츠, 시스템 상태 및 이벤트 통지와 같은 데이터를 사용자에게 제공할 수 있도록 하기 위해 사용자 인터페이스(560)를 통해 연결될 수 있다. 주 처리 유닛(520)이 저전력 상태에 있는 동안에, 보조 서브시스템(599)은 이들 시스템들 간의 통신을 가능하게 하기 위하여 모뎀(572) 및/또는 네트워크 인터페이스(570)로 연결될 수 있다.

결론

본 발명은 다양한 변경 및 대안적 구조를 허용하면서, 이의 설명된 소정 실시예를 도면에 도시하고 상세히 기술하였다. 그러나 본 발명을 개시된 특정 형태로 제한하려는 의도는 없으며, 반대로 모든 변경, 대안적 구조, 그리고 본 발명의 사상 및 범주내에 있는 등가물을 포함하려고 한다는 것을 알아야 한다.

Claims

시스템으로서,
하나 이상의 프로세서와,
상기 하나 이상의 프로세서에 결합되고 명령어를 저장하는 메모리
를 포함하되,
상기 메모리는 상기 하나 이상의 프로세서에 의해 실행될 경우 상기 하나 이상의 프로세서로 하여금,
데이터 항목을 발견하게 하고,
상기 데이터 항목과 연관된 하나 이상의 특성을 사용해서 상기 데이터 항목을 분류하여 연관 분류 특성 집합을 생성하게 하고 - 상기 하나 이상의 특성은 상기 데이터 항목과 연관된 기존(existing) 분류 특성을 포함하고, 상기 기존 분류 특성은 상기 데이터 항목의 현재의 분류 값을 포함하고, 상기 데이터 항목의 상기 현재의 분류 값은 수집 분류(aggregate classification), 권위적 분류(authoritative classification) 및 고도 분류(altitude classification) 중 적어도 하나에 의해 결정되고 상기 데이터 항목 내에 저장되며, 상기 데이터 항목은 복수의 분류 구성요소에 의해 분류됨 -,
(i) 상기 분류 특성 집합과 (ii) 수집 분류, 권위적 분류 및 고도 분류 중 적어도 하나에 의해 할당된 값 중 적어도 하나에 기초하여 상기 데이터 항목에 정책을 적용하게 하는
시스템.
제 1 항에 있어서,
상기 데이터 항목과 연관된 하나 이상의 특성을 사용하는 것은, 적어도 하나의 분류기를 포함하는 분류기 집합으로부터의 분류 결과를 사용하여 분류 규칙을 자동으로 적용하는 것을 포함하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금, 사전정의된 순서로 둘 이상의 분류 구성요소를 불러오도록 하고, 상기 둘 이상의 분류 구성요소 중 하나가 특성 집합을 상기 둘 이상의 분류 구성요소 중 다른 하나에 전달할 수 있게 하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금, 사전정의된 순서로 둘 이상의 분류 구성요소를 불러오도록 하고, 상기 사전정의된 순서에서의 후속 분류 구성요소가 상기 사전정의된 순서에서의 이전 분류 구성요소의 특성 집합을 변경할 수 있게 하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금 하나 이상의 현재 정의된 분류 특성에 기초하여 상기 하나 이상의 분류 구성요소를 불러오도록 하는
시스템.
제 1 항에 있어서,
상기 데이터 항목을 분류하는 것은 (i) 참 또는 거짓 결과를 반환하는 것, (ii) 분류 메타데이터에 대응하는 적어도 하나의 특성 값을 명시적으로 세팅하는 것, 및 (iii) 참 또는 거짓 결과를 반환하면서 상기 분류 메타데이터에 대응하는 적어도 하나의 특성 값을 명시적으로 세팅하는 것 중 적어도 하나를 수행하는 것을 포함하는
시스템.
제 1 항에 있어서,
상기 데이터 항목을 분류하는 것은 (i) 상기 데이터 항목의 위치, (ii) 글로벌 리포지토리 기반(global repository-based) 분류기, 및 (iii) 항목 내에 포함된 내용에 기초하여 상기 항목을 분류하는 내용 기반(content-based) 분류기 중 적어도 하나에 기초하여 상기 데이터 항목을 분류하는 것을 포함하는
시스템.
제 1 항에 있어서,
상기 데이터 항목을 분류하는 것은 권위적 분류기를 사용하여 분류기 집합 내의 다른 분류기의 분류 메타데이터를 오버라이딩하는 것을 포함하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금 상기 데이터 항목과 연관된 분류 메타데이터를 평가하도록 하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금 상기 데이터 항목과 연관된 분류 메타데이터를 평가하여 상기 데이터 항목에 정책을 적용하게 하는
시스템.
제 1 항에 있어서,
상기 명령어는 또한 상기 하나 이상의 프로세서로 하여금 (i) 기존 분류 데이터 중 어느 하나와 (ii) 상기 데이터 항목에 대한 이전의 변경을 나타내는 타임스탬프 또는 다른 식별자 중 적어도 하나에 기초하여 상기 데이터 항목에 정책을 적용하게 하는
시스템.
컴퓨팅 환경에서 데이터 항목을 분류하기 위하여 하나 이상의 프로세서에 의해 실행되는 방법으로서,
데이터 항목을 발견하는 단계와,
상기 데이터 항목과 연관된 하나 이상의 특성을 사용해서 상기 데이터 항목을 상기 하나 이상의 프로세서에 의해 분류하여 연관 분류 특성 집합을 생성하는 단계 - 상기 하나 이상의 특성은 상기 데이터 항목과 연관된 기존(existing) 분류 특성을 포함하고, 상기 기존 분류 특성은 상기 데이터 항목의 현재의 분류 값을 포함하고, 상기 데이터 항목의 상기 현재의 분류 값은 수집 분류(aggregate classification), 권위적 분류(authoritative classification) 및 고도 분류(altitude classification) 중 적어도 하나에 의해 결정되고 상기 데이터 항목 내에 저장되며, 상기 데이터 항목은 복수의 분류 구성요소에 의해 분류됨 - 와,
(i) 상기 분류 특성 집합과 (ii) 수집 분류, 권위적 분류 및 고도 분류 중 적어도 하나에 의해 할당된 값 중 적어도 하나에 기초하여 상기 데이터 항목에 정책을 적용하는 단계
를 포함하는 데이터 항목 분류 방법.
제 12 항에 있어서,
상기 데이터 항목과 연관된 하나 이상의 특성을 사용하는 것은, 복수의 분류기를 포함하는 분류기 집합으로부터의 분류 결과를 사용하여 분류 규칙을 자동으로 적용하는 것을 포함하는
데이터 항목 분류 방법.
제 12 항에 있어서,
사전정의된 순서로 상기 복수의 분류 구성요소를 불러오는 단계와,
상기 복수의 분류 구성요소 중 하나가 특성 집합을 상기 복수의 분류 구성요소 중 다른 하나에 전달할 수 있게 하는 단계
를 더 포함하는 데이터 항목 분류 방법.
제 12 항에 있어서,
사전정의된 순서로 상기 복수의 분류 구성요소를 불러오는 단계와,
상기 사전정의된 순서에서의 후속 분류 구성요소가 상기 사전정의된 순서에서의 이전 분류 구성요소의 특성 집합을 변경할 수 있게 하는 단계
를 더 포함하는 데이터 항목 분류 방법.
제 12 항에 있어서,
하나 이상의 현재 정의된 분류 특성에 기초하여 상기 복수의 분류 구성요소를 불러올 것인지 여부를 결정하는 단계
를 더 포함하는 데이터 항목 분류 방법.
제 12 항에 있어서,
수집된 분류 특성 집합의 평가 순서를 결정하는 단계
를 더 포함하는 데이터 항목 분류 방법.
컴퓨터 실행가능 명령어를 포함하는 하나 이상의 컴퓨터 판독가능 매체로서, 상기 컴퓨터 실행가능 명령어는 하나 이상의 프로세서에 의해 실행될 경우 방법을 수행하되,
상기 방법은
하나 이상의 데이터 항목을 발견하는 단계와,
상기 데이터 항목과 연관된 특성들의 특성 집합을 획득하는 단계 - 상기 특성 집합은 상기 데이터 항목과 연관된 기존(existing) 분류 특성을 포함하고, 상기 기존 분류 특성은 상기 데이터 항목의 현재의 분류 값을 포함하고, 상기 데이터 항목의 상기 현재의 분류 값은 상기 데이터 항목 내에 저장됨 - 와,
분류기 집합의 복수의 분류기를 사용하여 상기 데이터 항목을 분류할지 여부를 결정하는 단계 - 상기 결정하는 단계는,
상기 복수의 분류기가 불려올 경우 상기 분류기 집합의 상기 복수의 분류기로부터의 분류 결과를 수집하는 단계와,
권위적 분류를 수행함으로써 상기 분류기 집합의 상기 복수의 분류기 중 하나가 그것의 결과를 플래깅하여 다른 분류기와의 충돌에서 이기도록 하는 단계와,
고도 분류를 수행함으로써 상기 복수의 분류기가 사전정의된 고도에 기초하여 파이프라인에서 순서화되어 더 낮은 고도의 분류기 각각이 더 높은 고도의 분류기 각각에 의해 실행되도록 하는 단계와,
상기 복수의 분류기에 기초하여 생성된 변경에 기초하여 상기 특성 집합을 업데이트하는 단계와,
상기 업데이트된 특성 집합에 기초하여 상기 데이터 항목에 정책을 적용하는 단계를 포함함 -
를 포함하는
하나 이상의 컴퓨터 판독가능 매체.
제 18 항에 있어서,
상기 특성 집합을 획득하는 단계는 (i) 상기 데이터 항목에 대응하는 메타데이터를 추출하는 것, (ii) 상기 데이터 항목과 연관된 기존(existing) 특성 집합을 찾는 것, 및 (iii) 상기 데이터 항목에 대응하는 메타데이터를 추출하면서 상기 데이터 항목과 연관된 기존 특성 집합을 찾는 것 중 적어도 하나를 포함하는
하나 이상의 컴퓨터 판독가능 매체.
제 18 항에 있어서,
상기 특성 집합을 업데이트하는 단계는 (i) 상기 복수의 분류기 및 (ii) 상기 복수의 분류기로부터 제공되는 결과에 기초하여 상기 특성 집합을 업데이트하도록 구성된 규칙 메카니즘 중 적어도 하나를 사용하여 상기 특성 집합을 업데이트하는 단계를 포함하는
하나 이상의 컴퓨터 판독가능 매체.