KR101991086B1

KR101991086B1 - 경험적 속성화를 통해 구조화되지 않은 데이터의 소스들을 분석, 한정 및 수집하기 위한 시스템 및 프로세스

Info

Publication number: KR101991086B1
Application number: KR1020177008662A
Authority: KR
Inventors: 안토니 제이. 스크리피냐노; 이엠 선브하니치; 로빈 프라이 데이비스; 워릭 매튜
Original assignee: 더 던 앤드 브래드스트리트 코포레이션
Priority date: 2014-09-03
Filing date: 2015-09-03
Publication date: 2019-06-20
Also published as: RU2674331C2; JP2017527913A; EP3189478A1; US10621182B2; RU2017110788A; BR112017004341A2; WO2016036940A1; AU2015311934B2; CA2959651A1; EP3189478A4; AU2015311934A1; SG11201701613YA; JP6605022B2; CN107077640A; PH12017500366A1; CN107077640B; US20160063001A1; KR20170046772A; CA2959651C; RU2017110788A3

Abstract

(a) 데이터 소스로부터 데이터를 수신하는 단계, (b) 규칙들에 따라 데이터 소스를 속성화시켜서 속성을 도출하는 단계, (c) 데이터에서 교란 특성을 식별하기 위해 데이터를 분석하는 단계, (d) 속성의 정성적인 측정치를 계산하여, 가중된 속성을 도출하는 단계, (e) 교란 특성의 정성적인 측정치를 계산하여, 가중된 교란 특성을 도출하는 단계, (f) 배치를 생성하기 위해, 가중된 속성 및 가중된 교란 특성을 분석하는 단계, (g) 배치에 따라 데이터를 필터링하여, 추출된 데이터를 도출하는 단계, 및 (h) 추출된 데이터를 다운 스트림 프로세스에 전송하는 단계를 포함하는 방법이 제공된다. 또한 상기 방법을 실행하는 시스템, 상기 방법을 수행하기 위해 프로세서를 제어하기 위한 명령들을 포함하는 저장 디바이스가 제공된다.

Description

경험적 속성화를 통해 구조화되지 않은 데이터의 소스들을 분석, 한정 및 수집하기 위한 시스템 및 프로세스{SYSTEM AND PROCESS FOR ANALYZING, QUALIFYING AND INGESTING SOURCES OF UNSTRUCTURED DATA VIA EMPIRICAL ATTRIBUTION}

본 발명은, 불량하게(poorly) 큐레이트(curated)되거나 또는 불량하게 구조화되거나, 구조화되지 않거나 또는 반-구조화된(semi-structured) 소스들, 및 특히 소셜 미디어 소스들로부터의 데이터의 설명적 및 콘텍스트(contextual) 속성들을 생성하기 위해, 또한 본원에서 능력들(capabilities)로 지칭되는, 새롭고 경험적인(empirical), 즉, 과학적이고 재생산가능한(reproducible) 속성화(attribution) 및 차별화 프로세스들을 이용하는 시스템에 관한 것이다. 그 다음, 속성들은 기존의 재귀-완전(recursive-perfective) 프로세스들 및 양식들을 넘어서는 방법들을 사용하여, 데이터의 가장 적절한 배치(disposition) 또는 처리(treatment)에 대해 특성화, 점검, 차별화 및 궁극적으로 판정들을 행하기 위해 사용된다. 본 개시(disclosure)에서 처리하는 고유한 문제는, 수집(ingestion) 및 큐레이션 프로세스를 구조화하기에 충분한 온톨로지(ontology) 또는 정규의 형태가 존재하지 않는 경우, 일관되게 데이터를 점검, 판단 및 대량으로 수집하는 것이 현재 불가능하다는 점이다.

본원에 설명된 능력(capability)은 온라인 소스들로부터 직접 다운로드되거나 또는 최종 사용자, 시스템, 애플리케이션, 또는 일부 목적으로 수집, 프로세싱 및 사용될 데이터를 제공하는 임의의 다른 방법에 의해 개시된 문의에 대한 응답으로 다운로드된 파일들로부터 포착된 데이터의 프로세싱에 활용될 수 있다. 이러한 경우, "일부 목적으로 프로세싱되고 사용되는 것"은, 데이터를 이용하고, 그 능력으로부터 이익을 얻을, 즉, 추론을 유도하고, 패턴들의 관찰을 돕고, 더 양호한(better), 더 신속한, 더 효율적인 또는 그 시스템 또는 기능의 상황에서 그 데이터의 가치를 증가시키는 경향이 있는 방식으로 수행할 임의의 하위 시스템 또는 기능일 수 있다.

이러한 기능은 콘텍스트 레벨(context level), 소스 파일 레벨 또는 컨텐츠 레벨에서 동작할 수 있고, 프로세스 자체의 이전 반복들의 수집된 경험에 의해 통지될 수 있다. "콘텍스트 레벨" 속성화는 데이터 소스의 포착(acquisition) 및 수집과 관련된 환경들의 레벨에서 동작한다. "소스 파일 레벨" 속성화는 통상적으로, 그러나 비배타적으로, 소스에 의해 공급되거나 소스로부터 포착되는 데이터 파일의 레벨에서 동작한다. "컨텐츠 레벨" 속성화는 기본 데이터 레벨에서 동작하고, 통상적으로, 그러나 비배타적으로, 개별적인 데이터 엘리먼트들(elements) 및/또는 이들 사이의 관계들의 분석에 기초한다.

"콘텍스트 레벨" 속성화의 예는, 특정 소스로부터의 데이터가 전달되는 빈도 및 그 소스의 데이터의 "유효 기간", 즉, 데이터가 통상적으로 얼마나 오래 "현재(current)"인 것으로 고려될 것인지를 설명하는 메타데이터의 생성일 것이다. "소스 파일 레벨" 속성화의 예는 파일 자체로부터의 메타데이터, 예를 들어, 생성 날짜를 검사하는 것일 것이다. "컨텐츠 레벨" 속성화의 예는 데이터를 표현하기 위해 사용되는 표기 체계, 예를 들어, 중국어 간체의 검출일 것이다.

업계 추정치는, 새로운 데이터 생성의 80% 이상이 구조화되지 않은 것을 나타낸다. 점점 더 구조화되지 않은 또는 오직 느슨하게(loosely) 이해되는 포맷들의 데이터로부터 충분한 가치를 유도하기 위해, 또는 반대로, 현존하는 데이터의 큐레이트된 코퍼스(corpus)에 추가되거나 특정 사용례, 예를 들어, 의사 결정 비즈니스 기능에 공급되면, 궁극적으로 부정확, 오인 또는 해로운 것으로 입증되는 데이터의 첨부를 방지하기 위해, 그 데이터를, 중요하지만 반드시 미리 결정된 것은 아닌 기준에 대해 사전 검사할 수 있고 그리고/또는 공지된 차원들을 따라 측정될 수 있는 것이 중요하다. 사전 검사의 이점은 특정 테스트에 실패하거나 충분히 높은 레벨의 품질을 기록하지 못한 데이터가 거부될 것이고, 해로운 영향의 위험이 완화된다는 것이다. 자원 제약들 또는 다른 고려사항들이 새로운 데이터의 모든 사용가능한 소스들의 수집을 허용하지 않는 경우, 큐레이션 노력들을 지원하거나 심지어 지시할 수 있는 것이 추가적인 이점일 것이다. 여기서 "품질(quality)"이라는 단어는 특정 목적에 대한 적합성의 임의의 측정치를 의미하기 위해 사용되고, 반드시 특정 고유 가치를 내포하지는 않음을 주목한다.

구조화되지 않은 데이터에 대해 명확성(disambiguation) 및 차별화 기능들(discrimination functions)을 수행하기 위해, 하기 기술을 포함하는 다양한 기술들이 등장하였다.

a) 개체 추출(Entity extraction) - 명사, 동사 및 수식어와 같은, 텍스트로부터 관심있는 개별 구성요소들을 유도한다.

b) 정서 분석(Sentiment analysis) - 컨텐츠의 의도된 톤 및 감정에 대해 속성화시킨다.

c) 의미론적 명확성(Semantic disambiguation) - 텍스트를 더 계산가능한 구조들로 축소시킨다(예를 들어, 토큰화(tokenization)).

d) 언어 변환(Linguistic transformation) - 자연 언어 프로세싱(NLP)을 통한 음역, 번역 및 해석을 포함한다.

특히 데이터 자체가, 중요한 구조화되지 않은 또는 "자유 텍스트(free text)" 구성요소를 확정적으로 갖고, 제한된 크기이고, "크라우드-소싱되고(crowd-sourced)", 즉, 미검증된 참여자들의 제한없는 집합으로부터 소싱되고, 하나 이상의 "교란 특성들(confounding characteristics)"을 포함할 가능성이 있는 소셜 미디어 데이터인 경우, 앞서 언급된 위험 및 완화 필요성이 적용된다.

이러한 교란 특성들 중 일부 예들은:

a) 풍자: 피상적인 해석에서 얻어지는 것과는 반대되는 숨겨진 의미를 전달하는 방식으로 병치된 단어들 또는 술어들.

· 예: 자연을 파괴하는 것을 좋아한다면, XYZ Oil Co.는 함께 비즈니스하기에 훌륭한 회사이다.

b) 신조어: 새로 구성되고 일부 공동 의미를 갖도록 집합적으로 취해진 단어들 또는 문구들

· 예: - 해시 태그들

c) 문법적 변형들 또는 부적절하게 표현된 텍스트: 의도적으로 또는 비의도적으로 부정확한 단어의 사용으로 모호하거나 비결정적 해석을 초래한다.

· 예: FBI는 폭발물을 갖는 사냥 테러범이다

d) 구두점: 비표준 또는 일관성없는 방식으로 구두점을 사용하거나 구두점이 없어서, 모호하거나 모순된 해석을 초래한다.

· 예: "Eats shoots and leaves" 대 "Eats, shoots, and leaves"

e) 다중 언어 데이터: 외국어로부터의 단어들 및 문구들의 삽입. 공식적, 약식 및 비공식 차용 단어들, 차용 문구들 및 모방(calque)들을 포함한다.

· 예: 그는 자신의 의미를 완전히 이해하기 어렵게 하는 어떠한 쥬느세콰(je ne sais quoi)를 가졌다.

f) 맞춤법 : 일관성이 없거나, 부정확하거나 또는 비결정적 해석을 초래하는 허구의, 부정확한 또는 채택된 맞춤법

· 예: RU There?

g) 난독화/암호화 : 추론 또는 해석을 교란시키는 데이터의 의도적 변형

h) 콘텍스트 : 데이터 자체에 제공된 콘텍스트의 결핍으로 인해 외부 연속성 또는 외부적으로 유지되는 콘텍스트에 대한 증가된 의존성.

· 예: "그는 굉장한 슬라이스를 가졌다!" [케이크? 피자? 테니스 샷?].

i) 멀티미디어 : 텍스트 및 다른 미디어 형식이 하나의 메시지 또는 데이터 조각에 결합되어 전체적 이해 없이 모호하거나 알 수 없는 의미를 생성한다.

· 예: "이것이 우리가 생각하는 XYZ 음료 회사의 새로운 맛!"이 수반되는 사진

이 섹션에서 설명된 접근법들은 추구될 수 있는 접근법들이지만, 반드시 이전에 착안되거나 추구된 접근법들인 것은 아니다. 따라서, 이 섹션에서 설명되는 접근법들은 본 출원의 청구항들에 대한 종래 기술이 아닐 수 있고, 이 섹션에 포함됨으로써 종래 기술로 인정되는 것도 아닐 수 있다.

기존 시스템들은 앞서 언급된 기능들(개체 추출, 정서 분석, 의미론적 명확성, 언어 변환 등)을 수행하려 할 수 있고, 따라서 데이터를 측정 및 테스트할 수 있지만, 특정 소스로부터의 데이터에 대해 선험적 경험 없이 어떤 테스트들 및 메트릭들을 이용할지를 아는 것은 매우 어렵다. 따라서, 충분히 효과적이고 재생성가능한 레벨의 차별화 및 의사 결정을 생성하기 위해, 구조화되지 않은 데이터, 소셜 미디어 및 다른 유사한 데이터를 수집하려는 시스템은 재귀적 방식(recursive manner)으로 이를 수행할 수 있고, 이러한 시스템은 이전 경험에 기초하여 재구성될 수 있다. 이러한 시스템들은 또한 장래의 결과들에 영향을 미치기 위해 사후 품질 피드백을 사용하는, "호스트(host)로의 피드백"으로 또한 공지된 폐쇄-루프(closed-loop) 시나리오를 구현할 수 있다. 그러나, 이러한 시스템들은 확장성 및 자동화에서의 제한에 직면하는데, 이는, 구현이 언제나 수동적(manual)이고, 심지어 "머신 학습(machine learning)"이 이용되는 경우에도, 오직 가장 기본적인 경험적 레벨, 즉 세부 데이터 자체의 빈도 및 의미론적 분석(semantic analysis)에 기초하기 때문이다. 제한들은 또한, 앞서 설명된 언어의 교란 특성들의 영향으로 인해 존재한다.

(a) 데이터 소스로부터 데이터를 수신하는 단계, (b) 규칙들에 따라 데이터 소스를 속성화(attributing)시켜서 속성(attribute)을 도출하는 단계, (c) 데이터에서 교란 특성(confounding characteristic)을 식별하기 위해 데이터를 분석하는 단계, (d) 속성의 정성적인 측정치(qualitative measure)를 계산하여, 가중된(weighted) 속성을 도출하는 단계, (e) 교란 특성의 정성적인 측정치를 계산하여, 가중된 교란 특성을 도출하는 단계, (f) 배치(disposition)를 생성하기 위해, 가중된 속성 및 가중된 교란 특성을 분석하는 단계, (g) 배치에 따라 데이터를 필터링하여, 추출된 데이터를 도출하는 단계, 및 (h) 추출된 데이터를 하위 프로세스에 전송하는 단계를 포함하는 방법이 제공된다. 또한 상기 방법을 실행하는 시스템, 상기 방법을 수행하기 위해 프로세서를 제어하기 위한 명령들을 포함하는 저장 디바이스가 제공된다.

본원에 설명되는 기술들은 종래 기술에 의해 처리되지 않는 능력들을 포함한다. 구체적으로, 본원에 설명된 기술들은 새로운 차원의 속성화를 사용하는 방법론을 제공하고, 이는 데이터 수집 의사 결정의 새로운 자동화된 구현들을 가능하게 하여, 종래 기술에 기초한 접근법들을 사용하여 가능한 것보다 더 신속하고, 더 확장가능하고, 더 유연하며 더 일관된 시스템들의 구성을 허용한다.

도 1은 배치 전략들을 수집, 속성화, 생성하고, 경험적 속성화를 통해 데이터 소스들을 엑스포팅(exporting)하기 위한 시스템의 블록도이다.
도 2는 도 1의 시스템에 의해 수행되는 방법의 기능 블록도이다.
도 3은 소스 속성화 레벨들 및 이들의 계층적 관계의 그래픽 표현이다.
도 4는 도 2에 도시된 방법의 일부인 프로세스의 기능 블록도이다.
하나보다 많은 도면들에 공통인 구성요소 또는 특징은 도면들 각각에서 동일한 참조 번호로 표시된다.

수집 전에 데이터 소스들을 분석하고 한정하려 하는 기존 프로세스들을 개선할 필요성이 존재한다. 이러한 필요성을 충족시키기 위해, (a) 소스로부터의 착신 데이터에 대한 속성들을 다수의 레벨들에서 속성화시키는 단계, (b) 다수의 차원들에 걸쳐 속성화된 속성들을 측정하는 기준에 기초하여, 소스로부터, 존재하는 경우, 한정된 데이터의 서브세트(subset)를 추출하기 위한 배치 규칙들을 생성하여, 자격이 부여된 데이터를 도출하는 단계, (c) 한정된 데이터를 수집하는 단계, 및 (d) 피드백을 획득하고, 피드백에 기초하여 시스템에서의 변경을 시행하는 단계를 포함하는 방법을 수행하는 시스템이 제공된다.

따라서, 본 문헌은, 소스 데이터에 대한 속성들을 속성화시키고, 무엇보다도 속성들에 기초하여 결정하고, 데이터를 수집하고, 시스템의 수집 경험에 기초한 피드백을 획득하기 위한 자동화된 시스템 및 방법을 개시한다(이러한 경험은 시스템에 의해 기록될 것이고, 프로세스 자체의 새로운 속성들로 저장될 것이다). 방법은 인간의 개입 없이 수행되어, 일관성 및 확장성을 허용하고, 인간이, 적절한 데이터 관리에 영향을 미치기 위해 통찰력 또는 추가적인 연구가 요구되는 상황들에 집중하도록 허용한다. 용어 "확장성(scalability)"은, 이러한 접근법이 특정한 기술 또는 기술적 솔루션에 제한되지 않음을 의미한다.

하기 몇몇 단락들에서, 본원에서 사용되고 있는 몇몇 용어들의 정의가 존재한다.

속성(Attribute): 동사로 사용되는 경우, 이 용어는, 메타데이터(즉, 설명된 데이터) 또는 다른 데이터(예를 들어, 경험적 데이터)의 계산 및 기존의 데이터와의 연관을 의미한다. 이러한 방식으로 첨부되는 데이터는 "속성들"이다.

코퍼스(Corpus): 생성된 날짜와 같은, 사물에 대한 데이터와는 구별되는, 데이터 파일과 같은, 그 사물의 실질적인 부분. 코퍼스는, 문맥상 달리 명확하지 않은 한, 사물 전체를 지칭한다.

큐레이션(Curation): 사물, 즉, 본 개시에서의 데이터의 분류, 변환, 저장 및 관리

수집(Ingestion): 데이터의 취득 및 저장. 수집 프로세스는 통상적으로 타겟 포맷 또는 분류 체계(taxonomy)로의 변환 또는 재팩터화(refactoring)를 수반한다.

경험적 속성화(Empirical attribution): 과학적 방법에 기초한 속성들의 속성화. 본 개시의 경우, 알고리즘적 및 수학적 프로세스들.

방법론(Methodology):

1. 다음과 같은 팩터들을 고려하여 설정되는 동의된 기준에 기초하여 다수의 데이터 소스들을 선택한다.

a. 비용 및 허용가능한 사용을 포함한 데이터의 이용가능성;

b. 컨텐츠의 풍부함, 경험적 결론들(empirical conclusions)을 형성하기에 충분한 예들을 관찰하는 능력;

c. 이미 연구에 포함된 기존의 소스들과의 중첩 정도; 및 d. 데이터 소스에서의 공지된 편향.

2. 다음과 같은 것들을 측정을 위해 자동화된 또는 수동/하이브리드 A/B/C 테스트를 구성한다:

a. 존재;

b. 결정적 속성화(Dispositive attribution); 및

c. 외삽된 유니버스(extrapolated universe)에 걸친 관찰 정도.

3. 테스트를 실행하고, 다음과 같은 것을 포함하는 결과들을 평가한다:

a. 간단한 설명적 통계; 및

b. 기본적 시각화들.

4. 평가자의 낙천성/비관성과 같은 편향의 측정치들.

5. 가설들 각각이 관찰되는 정도, 및 가설 기준을 나타내지 않는 유니버스의 나머지에 대한 전반적인 평가에 대한 영향에 대한 결론을 형성한다.

결과들의 평가:

a. 선택된 샘플들에 대한 가설들 각각의 영향을 평가한다.

b. 관련성을 입증할 수 있다고 가정하면, 가설의 차원들에 따라 상이한 소스들을 레이팅(rate)하기 위한 채점 시스템을 개발한다.

다음과 같은 관찰 기간 동안 등장하는 추가적인 교란 양상들이 존재할 수 있다:

a. 다른 언어들의 암시;

b. 그룹 스피킹의 동질성의 영향;

c. (환경에 의해 또는 공유된 경험에 의해 도입되는) 그룹 말하기 중 공유된 은유;

d. 하나의 언어로부터 다른 언어로 차용된 단어들; 및

e. 화자들의 다중양식(multimodality)(예를 들어, 원어민들 대 비원어민들, 디지털 원주민 대 디지털 이민자들).

소셜 미디어에 대한 연구는 구조화되지 않은 데이터에 대한 더 넓은 탐구의 일부이다. 전반적인 노력은 비즈니스 및 비즈니스 상황의 사람들과 관련된 데이터의 발견, 큐레이션 및 합성에서 능력들의 진행중인 개발의 일부이다.

본 개시의 주요 초점은 전체 위험 및/또는 전체 기회에 대한 전반적인 이해에 기여하는 능력들에 대한 것이다. 인접한 요구들은 법규 준수(statutory compliance), 독립 및 윤리, 불법 행위(malfeasance)의 검출과 관련된다.

도 1은 배치 전략들을 수집, 속성화, 생성하고, 경험적 속성화를 통해 데이터 소스들을 엑스포팅하기 위한 시스템(100)의 블록도이다. 시스템(100)은 네트워크(135)에 커플링된 컴퓨터(105)를 포함한다.

네트워크(135)는 데이터 통신 네트워크이다. 네트워크(135)는 사설 네트워크 또는 공공 네트워크일 수 있고, (a) 예를 들어, 방을 커버하는 개인 영역 네트워크, (b) 예를 들어, 건물을 커버하는 로컬 영역 네트워크, (c) 예를 들어, 캠퍼스를 커버하는 캠퍼스 영역 네트워크, (d) 예를 들어, 도시를 커버하는 대도시 영역 네트워크, (e) 예를 들어, 대도시, 지역 또는 국가 경계들에 걸쳐 연결된 영역을 커버하는 광역 네트워크 또는 (f) 인터넷 중 임의의 것 또는 이들 전부를 포함할 수 있다. 통신들은 전자 신호들 및 광 신호들을 사용하여 네트워크(135)를 통해 수행된다.

컴퓨터(105)는 프로세서(110) 및 프로세서(110)에 커플링된 메모리(115)를 포함한다. 컴퓨터(105)는 독립형 디바이스로서 본원에 표현되지만, 이에 제한되는 것이 아니라 그 대신 분산형 프로세싱 시스템의 다른 디바이스들(미도시)에 커플링될 수 있다.

프로세서(110)는 명령들에 응답하고 명령들을 실행하는 논리 회로로 구성된 전자 디바이스이다.

메모리(115)는 컴퓨터 프로그램으로 인코딩된 유형의 컴퓨터 판독가능 저장 매체이다. 이와 관련하여, 메모리(115)는 프로세서(110)의 동작을 제어하기 위해 프로세서(110)에 의해 판독가능 및 실행가능한 데이터 및 명령들, 즉 프로그램 코드를 저장한다. 메모리(115)는 랜덤 액세스 메모리(RAM), 하드 드라이브, 판독 전용 메모리(ROM), 또는 이들의 조합으로 구현될 수 있다. 메모리(115)의 구성요소들 중 하나는 프로그램 모듈(120)이다.

프로그램 모듈(120)은 프로세서(110)가 본원에 설명된 프로세스들을 실행하도록 제어하기 위한 명령들을 포함한다. 본 문헌에서, 컴퓨터(105)에 의해, 또는 방법 또는 프로세스 또는 그 종속 프로세스들에 의해 수행되는 동작들을 설명하지만, 동작들은 실제로는 프로세서(110)에 의해 수행된다.

"모듈(module)"이라는 용어는 독립형 구성요소로서 또는 복수의 하위 구성요소들의 통합된 구성으로서 구현될 수 있는 기능적 동작을 표시하기 위해 본원에서 사용된다. 따라서, 프로그램 모듈(120)은 단일 모듈로서 또는 서로 협력하여 동작하는 복수의 모듈들로서 구현될 수 있다. 또한, 프로그램 모듈(120)은 본원에서 메모리(115)에 설치되고 따라서 소프트웨어로 구현되는 것으로 설명되지만, 하드웨어(예를 들어, 전자 회로), 펌웨어, 소프트웨어 또는 이들의 조합 중 임의의 것으로 구현될 수 있다.

프로그램 모듈(120)은 메모리(115)에 미리 로드된 것으로 표시되지만, 메모리(115)로의 후속 로딩을 위해 저장 디바이스(140) 상에 구성될 수 있다. 저장 디바이스(140)는 프로그램 모듈(120)을 저장하는 유형의 컴퓨터 판독가능 저장 매체이다. 저장 디바이스(140)의 예들은 컴팩트 디스크, 자기 테이프, 판독 전용 메모리, 광 저장 매체, 하드 드라이브 또는 다수의 병렬적 하드 드라이브들로 이루어진 메모리 유닛, 및 범용 직렬 버스(USB) 플래시 드라이브를 포함한다. 대안적으로, 저장 디바이스(140)는 원격 저장 시스템(미도시)상에 위치되고 네트워크(135)를 통해 컴퓨터(105)에 커플링되는 랜덤 액세스 메모리 또는 다른 타입의 전자 저장 디바이스일 수 있다.

시스템(100)은 또한 데이터 소스(150A) 및 데이터 소스(150B)를 포함하며, 이들은 본원에서 데이터 소스들(150)로서 집합적으로 지칭되고 네트워크(135)에 통신가능하게 커플링된다. 실제로, 데이터 소스들(150)은 임의의 수의 데이터 소스들, 즉, 하나 이상의 데이터 소스들을 포함할 수 있다. 데이터 소스들(150)은 구조화되지 않은 데이터를 포함하고, 소셜 미디어를 포함할 수 있다.

시스템(100)은 또한 사용자(101)에 의해 동작되고 네트워크(135)를 통해 컴퓨터(105)에 커플링되는 사용자 디바이스(130)를 포함한다. 사용자 디바이스(130)는 사용자(101)가 정보 및 커맨드 선택들(command selections)을 프로세서(110)에 통신할 수 있게 하기 위해 키보드 또는 음성 인식 서브시스템과 같은 입력 디바이스를 포함한다. 사용자 디바이스(130)는 또한 디스플레이 또는 프린터와 같은 출력 디바이스 또는 음성 합성기를 포함한다. 마우스, 트랙-볼(track-ball) 또는 터치 감응 스크린(touch-sensitive screen)과 같은 커서 제어는 사용자(101)가 추가적인 정보 및 커맨드 선택들을 프로세서(110)에 통신하기 위해 디스플레이상의 커서를 조작하도록 허용한다.

프로세서(110)는 프로그램 모듈(120)의 실행 결과(122)를 사용자 디바이스(130)에 출력한다. 대안적으로, 프로세서(110)는 출력을 네트워크(135)를 통해 저장 디바이스(125), 예를 들어, 데이터베이스 또는 메모리, 또는 원격 디바이스(미도시)로 지향시킬 수 있다.

시스템(100)이 적용가능한 워크플로우(workflow)는 구조화되지 않은 데이터 소스들, 예를 들어, 데이터 소스들(150)의 수신, 발견 및 큐레이션과 관련된다. 이러한 수신, 발견 및 큐레이션은 소셜 미디어에서의 집단적 정서에 대한 의견들을 형성하는 것, 행해진 신청들에 대한 마케팅 태도에서의 변화들을 이해하는 것, 신원 도용 또는 다른 불법 행위의 발견을 도출하는 뉘앙스를 검출하는 것, 향후 이벤트 또는 행동의 전조인 소셜 신호들의 추론, 또는 단순히 새로운 구조화되지 않은 소스를 기존의 프로세스로 수집하는 것의 증분적 가치를 평가하는 것을 포함하지만 이에 제한되는 것은 아닌 임의의 수의 사용례들을 제공하는 연습의 일부일 수 있다.

도 2는 시스템(100)에 의해 그리고 더 구체적으로는 프로그램 모듈(120)에 따라 프로세서(110)에 의해 수행되는 방법(200)의 기능 블록도이다. 방법(200)은, 데이터를 수신하는 것, 데이터 소스들 및 이들의 데이터를 다수의 레벨들(즉, 전술된 콘텍스트 레벨, 소스 레벨 및 컨텐츠 레벨)로 속성화시키는 것, 및 데이터 소스들 및 데이터의 배치, 데이터, 예를 들어, 데이터의 특정 서브세트들의, 하나 이상의 하위 시스템들로의 송신, 배치에 대한 피드백을 제공하는 기능들의 개시 및 추가적인 데이터 소스들의 발견 및 취득을 개시하는 기능들에 대해 의사 결정하는 것의 전반적 프로세스이다. 방법(200)은 소스들(150) 중 하나 이상으로부터의 데이터에 액세스하고 프로세싱하지만, 설명의 용이함을 위해, 이하 단일 데이터 소스, 즉 데이터 소스(150A)의 예를 사용하여 방법(200)의 실행을 설명할 것이다. 방법(200)은 프로세스(205)로 시작한다.

프로세스(205)는 앞서 언급된 바와 같이, 데이터 소스(150A)를 다수의 레벨들, 즉, "콘텍스트", "소스 파일" 및 "컨텐츠" 레벨들에서 액세스, 분석 및 속성화시키고, 데이터 소스(150A)에 포함된 데이터의 가장 적절한 배치에 대해 판단하여 배치(212)를 도출한다.

도 3은 소스 속성화 레벨들 및 이들의 계층적 관계의 그래픽 표현이다.

임의의 소스 속성화 레벨, 및 특히 컨텐츠 레벨에서, 속성화는 앞서 설명된 차원들에서 동작하는 명확성 및 차별화 기능들, 즉 개체 추출, 정서 분석, 의미론적 명확성 및 언어 변환을 포함할 수 있다. 또한, 이러한 명확성 및 차별화 기능들을 사용하여, 프로세스(205)는 무엇보다도 앞서 설명된 교란 특성들, 즉 풍자, 신조어 등에 의해 초래된 속성화에 대한 난제들(challenges)을 해결하려고 시도할 것이다.

도 4는 프로세스(205)의 기능 블록도이다. 프로세스(205)는 프로세스들(405)로 시작한다.

프로세스(405)는 데이터 소스(150A)로부터 데이터를 수신하고 속성화 로직(410)에 저장된 규칙들 및 참조 정보를 사용하여 데이터 소스(150A)를 속성화시키고, 따라서 속성표(403)를 생성한다. 규칙들 및 참조 정보는, 예를 들어, 데이터를 스캐닝하여 데이터가 텍스트인지 또는 멀티미디어인지를 결정하는 알고리즘들의 세트이다. 예를 들어, 프로세스(405)는 데이터 소스(150A)를 분석하고, 이것이 제 3 자, 예를 들어, 구매된 데이터 소스이고 그 생성 날짜가 2015년 1월 1일이라고 결정한다.

표 1은 속성표(403)의 예시적인 표현이고, 몇몇 예시적인 속성들 및 값들을 포함한다.

[표 1]

(속성표(403)의 예)

"파일 타입"은 소스 레벨 속성이고, 파일의 데이터 타입을 특성화하기 위해 데이터 파일의 메타데이터 및 컨텐츠를 스캐닝하는 프로세스 결과들로 이루어진 결정이다. 다른 값들은 "이미지", "비디오", "2진수", "미지" 등일 수 있다.

"한정됨(Delimited)"은 데이터가 개별적으로 분리된 행들에 포함되어 있는지 결정하기 위해 파일의 스캐닝 시에 이루어진 결론을 표현하는 예/아니오 플래그이다.

"소스"는, 이 예에서, 파일의 공급자를 표현하고; 이 경우, 데이터 파일의 "작성자" 메타데이터(또는 "특성들")로부터 판독된다.

"생성 날짜"는 또한 파일의 메타데이터로부터 판독될 수 있다.

"웹 발견 ID"는 발견되지 않는 속성의 예로서 제시되며, 함수(210)(아래에서 설명됨)에 의해 개시되는 발견 프로세스에 의해 파일에 삽입되는 명시적 마커(marker)이다.

"인코딩"은 또한 파일 메타데이터로부터 판독되고, 파일이 구성된 방식의 특성화를 지칭한다. 다른 값들은 "ASCII", "BIG5", "SHIFT-JIS, "EBCDIC" 등을 포함할 수 있다.

이 예에서 "검출된 스크립트들"은, 파일에 어떤 유니코드 범위들이 존재하는지를 이해하기 위해, 메타데이터로부터 유도되는 것이 아니라 데이터 자체의 코퍼스의 스캐닝으로부터 유도되는 속성을 나타내기 위해 제공된다. "C0 제어들 및 기본적 라틴어"의 값은 실제로 표준 라틴어 데이터 세트이다.

표 1에 나타난 속성 타입들 및 값들은 단지 예들이고, 반드시 시스템(100)이 특정 파일 또는 데이터에 첨부할 속성 타입들 또는 값들을 표현하는 것은 아니다. 시스템(100)은 유용한 것으로 간주되는 임의의 메타데이터를 생성하도록 구성될 수 있다.

프로세스(415)는 다음의 것들을 포함하는(그러나, 이에 제한되는 것은 아님) 다수의 차원들에 걸쳐 속성들을 생성하기 위해 데이터 소스(150A)의 코퍼스를 분석한다:

a) 개체 추출

b) 의미론적 명확성

c) 정서 분석

d) 언어 추출

e) 기본적 메타데이터

프로세스(415)는 또한 데이터 소스(150A)에서의 "교란 특성들"의 존재 및 보편성을 속성화 및 측정하고, 그에 따라 교란 특성들 Q1, Q2, Q3 ... Qn을 나열하는 교란 특성표(420)를 생성한다. 교란 특성들의 몇몇 예들은 앞서 언급되었다.

표 2는 교란 특성표(420)의 예이고, 이들의 메트릭들 및 값들의 몇몇 예를 포함한다.

[표 2]

(교란 특성표(420)의 예)

표 2의 예에서, 값들의 스케일 및 범위는 독립적이다. 일부는 숫자일 수 있고, 다른 것은 동작가능한 점수를 생성하기 위해 비산술적 수단을 요구하는 코드일 수 있다.

여기에 나열되고 예시된 교란 특성들의 측정치들은 완전히 독립적이고, 새로운 교란 특성들이 식별될 때 시스템이 이를 추가할 능력을 가질 것이라는 점에서, 분류는 폐쇄적인 것이 아님을 주목한다. 예를 들어, 상기 표 2에서, 이러한 교란 특성에 대한 측정치들 및 영향은 시스템의 예시적인 구현에서 식별되지 않았기 때문에, "다중 언어 데이터(polylingual data)"에 대한 어떠한 엔트리도 존재하지 않는다.

"신조어 보편성(Neologism prevalence)"은, 데이터 소스(150A)의 인스턴스를 스캐닝하고, 데이터 소스(150A)의 코퍼스에 얼마나 많은 신조어들, 즉 새로운 및/또는 비통상적인 단어들이 존재하는지를 측정하는 점수를 생성하는 것으로부터 계산된 점수를 표현한다. 이 예에서, "AX2"는 잘 이해되는 신조어들의 압도적인 존재를 표현할 수 있고, "ZA9"는 신조어들의 희소성, 그러나 매우 특이하거나 인식되지 않는 신조어들의 그러한 세트 내에서의 보편성을 표현할 수 있다.

"문법적 변형(Grammar variance)"은 문법적 스타일의 균일성의 측정치이다. 메트릭을 설정하기 위해 사용되는 알고리즘은 Cocke-Younger-Kasami 알고리즘 또는 맞춤형 알고리즘 및 측정치들 또는 몇몇 측정치들을 결합한 알고리즘과 같은 산업 표준 접근법들일 수 있다. 이러한 하위 측정치들 자체는 교란 특성표(420)에 메트릭으로서 저장될 수 있고, 그 다음, 교란 특성표(420)에서 다른 엔트리들을 생성하기 위해 결합될 수 있다.

"구두점 점수(Punctuation score)"는 구두점의 존재의 측정치이다. 이 예에서, 검출된 구두점이 거의 없거나 무시할 수 있고, 따라서 이 메트릭에 대한 값은 0이다.

"정서(Sentiment)"는, 텍스트에서 "화자"가 주제(즉, 승인, 추천, 찬성 등)에 대해 긍정적인 정서를 전달하고 있는지 또는 부정적인 정서(즉, 비판 또는 불허)를 전달하고 있는지 또는 중립적인 정서(긍정도 부정도 아니거나, 또는 가능하게는 불확정)를 전달하고 있는지를 나타낸다. 음수는 부정적인 정서(비판)를 표시하고, 0은 중립적인 정서를 표시하고, 양수는 긍정적인 정서(지지)를 표시한다. 여기에서 정서에 대한 예시적인 값은, "중간 정도로 부정적인 정서"로서 설명될 수 있는 것을 표시하는 -0.5이다.

"맞춤법 특징(Spelling idiosyncrasy)"은 신조어들로 인식되지 않은 오탈자의 보편성의 측정치이다. 여기서 "낮음" 값은 낮은 비율의 오탈자들을 표시한다. 여기서 "오탈자"는 단순히 공지된 어휘로부터의 이탈을 표시하기 위해 사용되며; "높음" 점수는 예를 들어 진정한 오타 또는 맞춤법 오류보다는 인식되지 않은 적절한 명사의 높은 보편성을 표시할 수 있음을 주목한다.

"난독화 점수(Obfuscation score)"는 의미를 숨기기 위한 의도적인 시도들이 행해진 것으로 보이는 정도에 대한 측정치이고, 텍스트의 암호화가 이에 대한 간단한 예일 것이다. 여기서의 값은 0이어서, 어떠한 난독화도 검출되지 않음을 표시한다.

"미디어 균일성(Media homogeneity)"은 데이터가 단일 타입의 데이터(예를 들어, 텍스트)인지 또는 혼합된 미디어(예를 들어, 삽입된 이미지들 또는 하이퍼링크들을 갖는 텍스트)인지를 표시한다. 이 예에서, 점수는 1.0이고, 이는 파일이 오직 한가지 타입의 미디어임을 표시한다. 이 정보는 프로세스(435)(후술됨)에 의해, 프로세스(405)에 의해 유도된 속성들과 커플링되고 표 1에 제시되어, 예시적인 데이터 파일이 완전히 구조화된 컬럼형 텍스트로 이루어진 것으로 결론지을 수 있다.

"프래그먼트 분산(Fragment Variance)"은 파일의 이산적 단위들의 크기에서의 전반적인 일관성을 설명하는 0부터 1까지의 점수이다. 표 2에서, 0.01의 값은 프래그먼트들이 매우 균일함을 표시한다. 이 예는 매우 구조화된 데이터 파일이고, 따라서, 프래그먼트들이 파일의 라인들을 표현할 것이기 때문에, 이것은 예상되는 값이다. 프래그먼트들은 다양할 것이지만 약 128개의 문자들인 경향이 있기 때문에, 사용자들이 짧은, 예를 들어, 140개의 문자의 메시지들을 전송 및 판독할 수 있게 하는 온라인 소셜 네트워킹 서비스로부터의 메시지들로 가득찬 파일은 중간 점수를 가질 수 있다. 더 큰 게시물들을 허용하는 소셜 네트워킹 서비스로부터의 데이터의 경우, 이러한 종류의 데이터에는 매우 큰 변동성이 가능하기 때문에, 프래그먼트들은 매우 높은 점수를 가질 것으로 예상될 수 있다.

표 2에 나타난 메트릭들 및 값들은 단지 예들이고, 반드시 시스템(100)이 특정 파일 또는 데이터에 첨부할 값들을 표현하는 것은 아니다.

앞서 언급된 바와 같이, 프로세스(415)는 각각의 메트릭에 대한 다수의 측정치들을 고려할 수 있다. 예를 들어, 몇몇 알고리즘들은 "문법적 변형" 메트릭의 값을 측정하기 위해 이용될 수 있다. 예를 들어, 하나 이상의 측정치들은 실제로 교란 특성표(420)에서 다른 메트릭들일 수 있고, 다른 것들은 속성표(403)의 값들이거나 이를 사용하여 유도될 수 있다.

아래의 표 3은 정서의 알고리즘 측정치들의 3개의 예들을 나타낸다. 이러한 측정치들은 상기 표 2의 전체 정서 점수로 결합될 수 있다.

[표 3]

(정서 교란 특성의 알고리즘 측정치들의 예시적인 리스트)

프로세스들(405 및 415)을 완료한 이후, 프로세스(205)는 프로세스(425)로 진행한다.

프로세스(425)는, 속성표(403) 및 교란 특성표(420)를 수신하고, 속성표(403) 및 교란 특성표(420)에 나열된 속성들에 대한 정성적인 측정치들을 계산하고, 그에 따라 품질표(432)를 생성하는 휴리스틱(heuristic)/결정론적 가중 프로세스이다. 품질표(432)의 정성적인 측정치들은 가중 자원들(430)을 참조하여 생성되고, 다수의 차원들에 걸쳐 데이터 소스(150A)를 측정하는 점수들, 계수들 또는 가중치들일 수 있다.

표 4는 품질표(432)의 예시적인 표현이다. 표 4에서, "가중치"는 정성적인 측정치이고, 가중 자원들(430)로부터 획득된다. 프로세스(425)는 메트릭에 가중치를 할당한다.

[표 4]

(품질표(432)의 예)

표 4는 단순한 예이다. 실제 정성적인 측정들은 팩터들의 매우 복잡한 결합들을 고려할 수 있다.

표 4a는 결합된 팩터들의 사용례를 나타낸다.

[표 4a]

표 4a의 예에서, 소스의 메트릭은 공지된 데이터 소스들 및 이러한 데이터 소스들에 각각 할당된 가중치들을 나열하는 다른 표(미도시)에서 검색되었다. 소스 "S1"로 인식되고 이 경우 프로세스(425)에 의해 할당되는 이러한 소스에 대한 가중치는 10이다. 그러나, 프로세스(425)는 더 복잡한 성질의 가중치들을 계산할 수 있다. "소스>수명" 가중치("소스" 가중치 계열에 있음을 나타내기 위해 들여쓰기함)는, 소스 S1에 대해 동작하는 다른 가중치가 존재하는 것 및 소스 S1의 데이터의 수명(즉, 파일이 생성된지 얼마나 오래 지났는지 또는 대안적으로, 존재하는 경우 명시적으로 특정된 날짜)에 기초하여 특정 계수(즉 25)를 적용하여 76의 가중치를 도출하는 것을 나타낸다.

프로세스(425)를 완료한 이후, 프로세스(205)는 프로세스(435)로 진행한다.

프로세스(435)는, 품질표(432), 교란 특성표(420) 및 속성표(403)를 수신하고, 데이터 소스(150A)의 적절한 배치를 판단하기 위해 규칙들(440)을 사용하고, 그에 따라 배치(212)를 생성하는 점검/판단 프로세스이다. 규칙들(440)은 행렬들, 검색표, 스코어카드들, 비결정적 유한 상태 오토마타(automata), 판정 트리(tree)들 또는 이들 또는 다른 판정 로직의 임의의 조합의 형태를 취할 수 있다.

배치(212)(disposition)는,

a) 데이터 소스(150A)와 유사한 파일들이 전체적으로 수집되는 규칙을 설정하는 것.

b) 데이터 소스(150A)로부터의 파일들을 분할하고, 특정 기준을 충족시키는 부분들만 수집하는 것.

c) 데이터 소스(150A)로부터 전체 파일을 수집하지만, 소스-특정 품질 레벨 표시자로 데이터를 플래그하는 것.

d) 데이터 소스(150A)로부터의 파일들이 항상 거부되는 규칙을 설정하는 것.

e) 잠정적으로 데이터 소스(150A)로부터 파일들을 수집하지만 파일들을 보류중인 추가적인 보강으로 유지하고, 함수(210)를 통해 타겟팅된 웹 발견을 트리거링하는 것

을 위한 명령들 또는 충고들을 포함할 수 있다.

표 4에 제시된 표(432)의 예는 값들 및 가중치들을 갖는 2차원 기준 표이지만, 이는 단지 예시적인 것임을 또한 주목한다. 프로세스(435)는 규칙들(440)을 통해, 배치(212)를 달성하기 위해 표-구동 검색 및 비결정적 유한 상태 오토마타와 같은 다른 프로세스들을 이용할 수 있다.

도 2를 다시 참조하면, 프로세스(205)를 완료한 후, 방법(200)은 프로세스(215)로 진행한다.

프로세스(215)는 데이터 소스(150A) 및 배치(212) 형태로 데이터를 수신하고, 수신된 데이터를 세분화 및 필터링하는 프로세스들을 실행하여, 추출된 데이터(217)를 도출한다. 이와 관련하여, 프로세스(215)는,

a) 데이터 소스(150A)를 한정하는 것;

b) 데이터 소스(150A)의 컨텐츠를 의미있는 서브세트들로 분할하는 것; 및

c) 데이터 소스(150A)로부터의 데이터를, 데이터의 소비자(들)인 하위 프로세스(미도시)로 수집하는 것

을 위해 프로세스(205)에 의해 생성된 데이터, 즉, 배치(212)를 사용한다.

프로세스(220)는 추출된 데이터(217)를 수신하고, 추출된 데이터(217)를 하위 프로세스(미도시)에 송신한다.

방법(200)은 또한 프로세스(205)를 개선하기 위해 경험적, 예를 들어, 통계적 및 질적, 예를 들어, 사용자 허용, 피드백을 생성하고, 피드백을 프로세스(205)에 리턴시키는 함수(225)를 실행한다. 함수(225)는 배치(212), 품질표(432), 교란 특성표(420) 및 속성표(403)에 의해 통지된다(즉, 그로부터 입력을 취한다). 함수(225)는 프로세스(215)에 의한 배치(212)의 프로세싱에 의해 트리거링된다.

방법(200)은 또한 비동기식(asynchronous)이고 잠재적으로 연속적인 프로세스로서 함수(210)를 실행한다. 함수(210)는 프로세스(205)에서 생성된 데이터, 즉, 배치(212), 품질표(432), 교란 특성표(420) 및 속성표(403)를 사용하여, 예를 들어 자동화된 웹 발견을 통해 새로운 및 기존 데이터 소스들(150)을 검사한다. 이러한 데이터는 자동화된 데이터 소스 발견 프로세스들을 트리거링, 안내 또는 제한하기 위한 함수(210)에 대한 입력들일 것이다. 예를 들어, 이러한 지능은 "갭 식별(gap identification)"(지금까지 수집한 코퍼스의 데이터가 무엇보다도 불충분하거나, 낮은 품질이거나, "노화(aging out)"로 인해 가치가 감소한 것으로 관찰되는 영역들을 식별함), 또는 "아날로그 생성(analogue generation)"(유사하거나 비슷한 데이터 소스 클래스들의 식별 및 클래스들의 유효성, 일관성 또는 정확성에 대한 결정에 기초하여 데이터 소스 클래스들을 타겟팅함)의 형태를 취할 수 있다.

함수(210)는 외부 데이터 발견 루틴들, 애플리케이션들 및 함수들을 구성 및 실행한다. 함수(210)는 이러한 데이터 발견 프로세스들에 입력들을 제공하여, 입력들은 방법(200)에 의해 이전에 수신된 데이터를 증강시키는 기능을 한다. 이러한 입력들의 예는 원하는 데이터가 획득될 수 있는 웹 사이트의 URL(Uniform Resource Locator) 및 데이터 소스(150A)의 컨텐츠에 기초한 검색 용어들의 리스트이다.

시스템(100)은 새로운 데이터 소스들, 특히 구조화되지 않은 데이터에 대한 자동화되고, 구성가능하고, 반복가능하고, 적응적인 이용을 허용한다. 시스템(100)은 런타임에서 완전히 자동화되기 때문에, 확장가능하고, 따라서 데이터 취득 관리에서 매우 증가된 효율성, 속도 및 일관성을 허용한다.

방법(200)의 실행의 예를 예시하기 위해 아래의 표 5에 제시된 소스 파일 EX1로 시작할 것이다.

[표 5]

(소스 파일 EX1)

표 6은 소스 파일 EX1에 대한 속성표(403)를 나타낸다.

[표 6]

(소스 파일 EX1에 대한 속성표(403)의 예)

표 7은 소스 파일 EX1에 대한 교란 특성표(420)를 나타낸다.

[표 7]

(소스 파일 EX1에 대한 교란 특성표(420)의 예)

교란 특성표(420)의 집단에서, 데이터 프래그먼트 "Gonna try the new Coke flavor. NOT."에 대해, 프로세스(415)는 표 8에 제시된 라인들에 따라 컨텐츠의 의미론적 분석을 포함하는 분석을 수행할 것이다.

[표 8]

(교란 특성표(420)를 파퓰레이트하기 위해 수행되는 분석의 예)

표 8에 제시된 분석은 프로세스(415)에 의해 수행된 알고리즘 및 통계적 분석의 "평문 영어(plain English)" 분해이다. 이러한 분석은 신조어 보편성을 파퓰레이트(populate)하기 위해 사용되는데, 이는 단어들 "Gonna"와 "NOT"이 실제로 그 자체로는 새로운 단어들이 아니지만 이들이 사용되는 방식에서 신조어들이기 때문이다. 이는, 또한 신조어 보편성에 대한 점수가 단지 단순한 숫자가 아닌 이유를 제시한다. 신조어는 새로운 단어들 및 오래된 단어들의 새로운 사용들 둘 모두에 대한 것이다. 구두점 점수는 또한, 예에서 구두점의 사용, 즉, 마침표들 및 대문자가 일관되게 사용되는 것에 의해 영향받을 것이다. 풍자/진심 정도는 여기서 매우 관련되고, 선행 진술을 부정하는 것 및 풍자를 표시하는 것 둘 모두를 위해 "NOT"을 사용함으로써 크게 영향받는다. 이러한 데이터는, 전체 구성이 부정적 의도를 명백하게 전달하려 의도된다는 점에서는 "진심(sincere)"이지만, 전체적으로 매우 낮은 진심을 갖는다.

표 8에 제시된 분석은 이 예의 목적으로 생성된 "간략화(shorthand)"임을 주목한다. 프로세스(415)는 문구들을 분리시키고, 의미론적 분석을 수행하고, 교란 특성들을 보상하기 위해 다수의 정교한 함수들을 사용할 것이다. 또한 프로세스(415)는 분석을 수행하고 전체 파일 또는 데이터 소스에 걸쳐 결과들을 기록함을 주목한다.

표 9는 프로세스(435) 및 규칙들(440)의 실행에 대한 단순한 표현을 허용하기 위해 최우측 열에 제시된 소스 파일 EX1에 대한 결과적 "백분율 점수(percentage scores)"를 갖는 품질표(432)의 결과를 나타낸다. 실제로, 계산 프로세스 및 알고리즘들은 구성가능하고 일반적으로 표 9의 예보다 훨씬 더 복잡하다.

[표 9]

(소스 파일 EX1에 대한 품질표(432)의 예)

표 10은 배치(212)의 "평문 영어(plain English)" 해석을 나타낸다.

[표 10]

(소스 파일 EX1에 대한 배치(212)의 예)

표 10에서, 엔트리 6은 함수(210)가 이 데이터(또는 장래에 이 소스로부터의 데이터)에 의해 트리거링(triggered)되지 않을 것임을 표시하고, 엔트리 7은 함수(225)가 소스 파일 EX1을 프로세싱할 때 방법(100)에서 생성된 데이터에 의해 시드될 것임을 표시함을 주목한다.

본원에 설명된 기술들은 예시적인 것이며, 본 개시에 대한 어떠한 특정적 제한을 암시하는 것으로 해석되어서는 안 된다. 다양한 대안들, 조합들 및 변형들이 이 분야의 당업자에 의해 고안될 수 있음을 이해해야 한다. 예를 들어, 본원에서 설명된 프로세스들과 연관된 단계들은 달리 특정되거나 단계 자체들에 의해 지정되지 않는 한 임의의 순서로 수행될 수 있다. 본 개시는 첨부된 청구항들의 범위 내에 속하는 이러한 모든 대안들, 변형들 및 변경들을 포함하는 것으로 의도된다.

"포함한다(comprises)" 또는 "포함하는(comprising)"이라는 용어들은 언급된 특징들, 정수들, 단계들 또는 구성요소들의 존재를 특정하지만 하나 이상의 다른 특징들, 정수들, 단계들 또는 구성요소들 또는 이들의 그룹들의 존재를 배제하지 않는 것으로 해석되어야 한다. 단순히 단수로 표기된 용어라도 일반적으로 표기된 것이며, 복수의 물품들을 갖는 실시예들을 배제하지는 않는다.

Claims

프로세서(405)에 의해, 배치 전략들을 수집, 속성화, 생성하고, 데이터 소스들을 엑스포팅(exporting)하는 방법에 있어서,
상기 프로세서(405)에 의해,
데이터 소스로부터 데이터를 수신하는 단계;
속성화 로직(410)에 저장된 규칙들에 따라 상기 데이터 소스를 콘텍스트 레벨, 소스 파일 레벨, 및 컨텐츠 레벨들로 속성화시켜 속성표(403)를 생성하는 단계;
상기 데이터의 의미를 교란시키는 상기 데이터의 특성을 식별하기 위해 상기 데이터를 분석하고 교란 특성표(420)를 생성하는 단계;
상기 속성표 및 교란 특성표에 나열된 속성들의 정성적인 측정치를 계산하여, 가중치가 할당된 메트릭들의 품질표(432)를 생성하는 단계;
배치 규칙을 생성하기 위해, 상기 데이터 소스의 배치를 판단하기 위한 규칙(440)에 따라 상기 가중치가 할당된 메트릭들을 분석하는 단계;
상기 배치 규칙에 따라 상기 데이터를 처리하여, 추출된 데이터를 도출하는 단계; 및
상기 추출된 데이터를 하위 프로세스에 전송하는 단계를 포함하는, 방법.
제 1 항에 있어서,
상기 프로세서에 의해 수행되는 방법은,
상기 배치에 기초하여 피드백을 생성하는 단계; 및
상기 피드백에 기초하여 상기 방법을 개선시키는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 프로세서에 의해 수행되는 방법은,
새로운 데이터 소스를 발견하기 위해, 상기 배치에 기초하여 자동화된 데이터 발견 프로세스를 구성 및 실행하는 단계; 및
상기 새로운 데이터 소스를 검사(exploring)하는 단계를 더 포함하는, 방법.
제 1 항에 있어서,
상기 분석하는 단계는 개체 추출, 의미론적 명확성, 정서 분석, 언어 추출, 언어 변환 및 기본적 메타데이터로 이루어진 그룹으로부터 선택되는 차원에서 수행되는, 방법.
제 1 항에 있어서,
상기 교란 특성은 풍자, 신조어, 문법적 변형, 부적절한 문구의 텍스트, 구두점, 다중 언어 데이터, 맞춤법, 난독화, 암호화, 콘텍스트 및 미디어의 조합의 사용으로 이루어진 그룹으로부터 선택되는, 방법.
제 1 항에 있어서,
상기 배치 규칙은, (a) 상기 데이터 소스와 유사한 파일들이 전체적으로 수집되는 규칙을 설정하는 것, (b) 상기 데이터 소스로부터의 파일들을 분할하고, 특정 기준을 충족시키는 부분들만 수집하는 것, (c) 상기 데이터 소스로부터 전체 파일을 수집하지만, 소스-특정 품질 레벨 표시자로 데이터를 플래그하는 것, (d) 상기 데이터 소스로부터의 파일들이 항상 거부되는 규칙을 설정하는 것, (e) 잠정적으로 상기 데이터 소스로부터 파일들을 수집하지만 상기 파일들을 보류중인 추가적인 보강으로 유지하는 것으로 이루어진 그룹으로부터 선택되는, 방법.
시스템으로서,
프로세서; 및
메모리를 포함하고,
상기 메모리는, 상기 프로세서로 하여금,
데이터 소스로부터 데이터를 수신하게 하고;
속성화 로직에 저장된 규칙들에 따라 상기 데이터 소스를 콘텍스트 레벨, 소스 파일 레벨, 및 컨텐츠 레벨들로 속성화시켜서 속성표를 생성하고;
상기 데이터의 의미를 교란시키는 상기 데이터의 특성을 식별하기 위해 상기 데이터를 분석하게 하고 교란 특성표를 생성하고;
상기 속성표 및 교란 특성표에 나열된 속성들의 정성적인 측정치를 계산하여, 가중치가 할당된 메트릭들의 품질표(432)를 생성하고;
배치 규칙을 생성하기 위해, 상기 데이터 소스의 배치를 판단하기 위한 규칙(440)에 따라 상기 가중치가 할당된 메트릭들을 분석하고;
상기 배치 규칙에 따라 상기 데이터를 처리하여, 추출된 데이터를 도출하게 하고;
상기 추출된 데이터를 하위 프로세스에 전송하게 하기 위해 상기 프로세서에 의해 판독가능한 명령들을 포함하는, 시스템.
제 7 항에 있어서,
상기 명령들은 또한 상기 프로세서로 하여금 상기 배치 규칙에 기초하여 피드백을 생성하게 하는, 시스템.
제 7 항에 있어서,
상기 명령들은 또한 상기 프로세서로 하여금, 상기 배치 규칙에 기초하여 자동화된 데이터 발견 프로세스를 구성 및 실행하여 새로운 데이터 소스를 발견하게 하고;
상기 새로운 데이터 소스를 검사하게 하는, 시스템.
제 7 항에 있어서,
상기 프로세서로 하여금 상기 데이터를 분석하게 하는 상기 명령들은 상기 프로세서로 하여금, 개체 추출, 의미론적 명확성, 정서 분석, 언어 추출, 언어 변환 및 기본적 메타데이터로 이루어진 그룹으로부터 선택되는 차원에서 상기 데이터를 분석하게 하는, 시스템.
제 7 항에 있어서,
상기 교란 특성은 풍자, 신조어, 문법적 변형, 부적절한 문구의 텍스트, 구두점, 다중 언어 데이터, 맞춤법, 난독화, 암호화, 콘텍스트 및 미디어의 조합의 사용으로 이루어진 그룹으로부터 선택되는, 시스템.
제 7 항에 있어서,
상기 배치 규칙은, (a) 상기 데이터 소스와 유사한 파일들이 전체적으로 수집되는 규칙을 설정하는 것, (b) 상기 데이터 소스로부터의 파일들을 분할하고, 특정 기준을 충족시키는 부분들만 수집하는 것, (c) 상기 데이터 소스로부터 전체 파일을 수집하지만, 소스-특정 품질 레벨 표시자로 데이터를 플래그하는 것, (d) 상기 데이터 소스로부터의 파일들이 항상 거부되는 규칙을 설정하는 것, (e) 잠정적으로 상기 데이터 소스로부터 파일들을 수집하지만 상기 파일들을 보류중인 추가적인 보강으로 유지하는 것으로 이루어진 그룹으로부터 선택되는, 시스템.
프로세서에 의해 판독가능한 명령들을 포함하는 저장 디바이스로서,
상기 명령들은, 상기 프로세서로 하여금,
데이터 소스로부터 데이터를 수신하게 하고;
속성화 로직에 저장된 규칙들에 따라 상기 데이터 소스를 콘텍스트 레벨, 소스 파일 레벨, 및 컨텐츠 레벨들로 속성화시켜서 속성표를 생성하고;
상기 데이터의 의미를 교란시키는 상기 데이터의 특성을 식별하기 위해 상기 데이터를 분석하게 하고 교란 특성표를 생성하고;
상기 속성표 및 교란 특성표에 나열된 속성들의 정성적인 측정치를 계산하여, 가중치가 할당된 메트릭들의 품질표(432)를 생성하고;
배치 규칙을 생성하기 위해, 상기 데이터 소스의 배치를 판단하기 위한 규칙(440)에 따라 상기 가중치가 할당된 메트릭들을 분석하고;
상기 배치 규칙에 따라 상기 데이터를 처리하여, 추출된 데이터를 도출하게 하고; 및
상기 추출된 데이터를 하위 프로세스에 전송하게 하는, 저장 디바이스.
제 13 항에 있어서,
상기 명령들은 또한 상기 프로세서로 하여금,
상기 배치 규칙에 기초하여 피드백을 생성하게 하는, 저장 디바이스.
제 13 항에 있어서,
상기 명령들은 또한 상기 프로세서로 하여금,
새로운 데이터 소스를 발견하기 위해, 상기 배치 규칙에 기초하여 자동화된 데이터 발견 프로세스를 구성 및 실행하게 하고;
상기 새로운 데이터 소스를 검사하게 하는, 저장 디바이스.
제 13 항에 있어서,
상기 프로세서로 하여금 상기 데이터를 분석하게 하는 상기 명령들은 상기 프로세서로 하여금, 개체 추출, 의미론적 명확성, 정서 분석, 언어 추출, 언어 변환 및 기본적 메타데이터로 이루어진 그룹으로부터 선택되는 차원에서 상기 데이터를 분석하게 하는, 저장 디바이스.
제 13 항에 있어서,
상기 교란 특성은 풍자, 신조어, 문법적 변형, 부적절한 문구의 텍스트, 구두점, 다중 언어 데이터, 맞춤법, 난독화, 암호화, 콘텍스트 및 미디어의 조합의 사용으로 이루어진 그룹으로부터 선택되는, 저장 디바이스.
제 13 항에 있어서,
상기 배치 규칙은, (a) 상기 데이터 소스와 유사한 파일들이 전체적으로 수집되는 규칙을 설정하는 것, (b) 상기 데이터 소스로부터의 파일들을 분할하고, 특정 기준을 충족시키는 부분들만 수집하는 것, (c) 상기 데이터 소스로부터 전체 파일을 수집하지만, 소스-특정 품질 레벨 표시자로 데이터를 플래그하는 것, (d) 상기 데이터 소스로부터의 파일들이 항상 거부되는 규칙을 설정하는 것, (e) 잠정적으로 상기 데이터 소스로부터 파일들을 수집하지만 상기 파일들을 보류중인 추가적인 보강으로 유지하는 것으로 이루어진 그룹으로부터 선택되는, 저장 디바이스.