KR101983538B1 - 카테고리 비율들을 계산하기 위한 시스템들 및 방법들 - Google Patents

카테고리 비율들을 계산하기 위한 시스템들 및 방법들 Download PDF

Info

Publication number
KR101983538B1
KR101983538B1 KR1020147035901A KR20147035901A KR101983538B1 KR 101983538 B1 KR101983538 B1 KR 101983538B1 KR 1020147035901 A KR1020147035901 A KR 1020147035901A KR 20147035901 A KR20147035901 A KR 20147035901A KR 101983538 B1 KR101983538 B1 KR 101983538B1
Authority
KR
South Korea
Prior art keywords
digital documents
digital
content
category
training
Prior art date
Application number
KR1020147035901A
Other languages
English (en)
Other versions
KR20150016972A (ko
Inventor
에이쿳 피랫
미첼 브룩스
크리스토퍼 빙햄
아맥 허다그델렌
게리 킹
Original Assignee
크림손 헥사곤, 인코포레이티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 크림손 헥사곤, 인코포레이티드 filed Critical 크림손 헥사곤, 인코포레이티드
Publication of KR20150016972A publication Critical patent/KR20150016972A/ko
Application granted granted Critical
Publication of KR101983538B1 publication Critical patent/KR101983538B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/01Social networking
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F2216/00Indexing scheme relating to additional aspects of information retrieval not explicitly covered by G06F16/00 and subgroups
    • G06F2216/03Data mining

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Business, Economics & Management (AREA)
  • Medical Informatics (AREA)
  • Evolutionary Computation (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Economics (AREA)
  • Health & Medical Sciences (AREA)
  • General Health & Medical Sciences (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Strategic Management (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

언어에 기초하여 텍스트를 분류하기 위한 시스템들 및 방법들이 제공된다. 컴퓨터-구현 방법은 요소들의 트레이닝 세트를 수신하는 단계로서, 트레이닝 세트에서의 각각의 요소는 복수의 카테고리들 중 하나에 할당되고 이와 연관된 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 트레이닝 세트를 수신하는 단계; 요소들의 개체군 세트를 수신하는 단계로서, 개체군 세트에서의 각각의 요소는 이와 연관된 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 개체군 세트를 수신하는 단계; 및 트레이닝 세트에서의 요소들과 연관된 콘텐트 프로파일들 및 트레이닝 세트에서의 요소들에 할당된 카테고리들 및 개체군 세트의 요소들과 연관된 콘텐트 프로파일들에 기초하여, 적층된 회귀 알고리즘(stacked regression algorithm), 바이어스 포뮬러 알고리즘(bias formula algorithm), 잡음 소거 알고리즘(noise elimination algorithm), 및 그 결과들이 평균되는 복수의 알고리즘 방법들로 이루어진 앙상블 방법 중 적어도 하나를 이용하여 카테고리들에 걸쳐 개체군 세트의 요소들의 분포를 계산하는 단계를 포함한다.

Description

카테고리 비율들을 계산하기 위한 시스템들 및 방법들{SYSTEMS AND METHODS FOR CALCULATING CATEGORY PROPORTIONS}
관련 출원들
본 출원은, 2012년 5월 25일에 출원되고, 발명의 명칭이 "카테고리 비율들을 계산하기 위한 시스템들 및 방법들(Systems and Methods for Calculating Category Proportions)"인 미국 가 출원 제 61/651,703호에 대한 우선권을 주장하며, 이것은 본 명세서에 참조로서 포함된다.
본 발명은 데이터 마이닝 시스템들(data mining systems)의 분야에 관한 것이다. 특히, 비구조화된, 구조화된, 또는 부분적으로만 구조화된 소스 데이터의 소스를 입력 데이터로 취하는 카테고리들의 세트 중에서, 문서 콘텐트의 분포, 또는 문서 콘텐트로부터 도출된 결과들을 추정하기 위한 시스템 및 방법에 관한 것이다.
소스 데이터 - 문서들 및 텍스트, 오디오, 비디오 및 다른 통신 미디어들을 포함하는 파일들을 포함하는 - 로부터, 이들을 주어진 카테고리들로 분류함으로써, 의미를 추출하기 위한 노력들은 긴 역사를 가진다. 웹 페이지들, 블로그들, 이메일들, 디지털화된 도서들 및 기사들, 전자 버전들의 공식적인 정부 보고서들 및 입법 청문회들 및 기록들과 같은 디지털 콘텐트, 및 특히 트위터, 페이스북, 및 링크드인 포스트들과 같은 소셜 매체의 양적 증가들은 이러한 방대한 정보 소스들에서 유용한 의미를 채굴(mine)하기 원하는 자들에 대해 계산 도전들을 야기한다.
이 문제를 단순화하는 하나의 접근법은 콘텐트를 카테고리화하는 것이다. 즉, 다양한 조각들의 콘텐트를 복수의 카테고리들에 할당하는 것이다. 이러한 카테고리들에 걸친 콘텐트의 분포를 결정하기 위한 통상적인 기술들은 정확하게 분류된 개별 요소들의 퍼센티지를 증가시키는 것에 초점을 맞추었고, 이렇게 행하고, 그 후에 개별적으로 분류된 요소들의 총 비율을 가정하는 기술들은 미조사된 요소들의 더 광범위한 개체군의 분포를 나타낸다. 불행히도, 이들과 같은 총 비율들의 실질적인 바이어스들은 개별 요소들의 인상적인 분류 정확도를 가지더라도 여전히 남아있고, 데이터 세트의 크기 및 복잡도에 따라 도전이 증가하여, 이들 통상적인 기술들은 여전히 많은 애플리케이션들에 부적당하게 된다. 따라서, 대규모의 소스 데이터 - 자동화된 분석 또는 핸드 코딩에 의한 것을 포함하는 - 의 요소들의 개별 분류는 실행불가능하다.
먼저 특정 콘텐트 프로파일들을 가진 문서들의 라벨링된 세트를 평가하고, 라벨링된 세트의 문서들을 카테고리들에 할당한 다음, 문서들의 개체군 세트의 콘텐트 프로파일들로부터 문서들의 분포를 직접 계산하는 개선된 접근법이, King 등에 의한 US 제2009/0030862호(2008년 3월 19일에 출원되고 2009년 1월 29일에 공개된 "소스 데이터에서 메시지 콘텐트 카테고리들의 분포를 추정하기 위한 시스템(System for Estimating a Distribution of Message Content Categories in Source Data)")에서 개시되었다; 또한, Daniel Hopkins 및 Gary King에 의한, 2008년 3월에 공개되고 http://gking.harvard.edu/에서 이용가능한 "텍스트로부터의 체계적인 사회 과학 의미의 추출(Extracting systematic social science meaning from text)"를 참조하라. 이러한 접근법이 대량의 데이터를 분석하는 것을 가능하게 할지라도, 데이터를 분류할 때의 정확도의 개선들이 여전히 이루어질 수 있다.
본 발명은 개체군 세트에서 카테고리 비율들을 계산하기 위한 시스템들 및 방법들을 포함한다. 제 1 양태에서, 컴퓨터-구현 방법이 제공된다. 이 양태에서, 컴퓨터 처리기는 요소들의 트레이닝 세트를 수신한다. 트레이닝 세트에서의 각각의 요소는 복수의 카테고리들 중 하나에 할당되고 이와 연관된 콘텐트 프로파일을 가진다. 컴퓨터 처리기는 요소들의 개체군 세트를 추가로 수신하고, 개체군 세트에서의 각각의 요소는 콘텐트 프로파일을 가진다. 컴퓨터는 그 후에, 적층된 회귀 방법(stacked regression method)을 적용하여, 트레이닝 세트에서의 요소들과 연관된 콘텐트 프로파일들 및 트레이닝 세트에서의 요소들에 할당된 카테고리들 및 개체군 세트의 요소들과 연관된 콘텐트 프로파일들에 기초하여, 카테고리들에 걸쳐 개체군 세트의 요소들의 분포를 계산한다.
본 발명의 다른 양태에서, 바이어스 포뮬러 방법이 제 1 양태에서의 적층된 회귀 방법 대신에 적용된다. 본 발명의 또 다른 양태에서, 잡음 소거 방법이 제 1 양태에서의 적층된 회귀 방법 대신에 적용된다. 본 발명의 또 다른 양태에서, 그 결과들이 평균되는 복수의 알고리즘 방법들로 이루어진 앙상블 방법이 제 1 양태에서의 적층된 회귀 방법 대신에 적용된다.
본 발명의 또 다른 양태에서, 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템이 제공된다. 이 시스템은 트레이닝 모듈 및 개체군 세트 카테고리 추정 모듈을 구비한다. 트레이닝 모듈은 메모리에 결합된 트레이닝 처리기를 포함하고, 메모리는, 트레이닝 처리기로 하여금: (i) 복수의 트레이닝 텍스트 요소들을 포함하는 트레이닝 데이터를 수신하고; (ⅱ) 트레이닝 텍스트 요소들 중 적어도 일부를 사용자에게 제시하고, 사용자로부터 트레이닝 텍스트 요소들이 속하는 카테고리들의 표시들을 수신하고, 트레이닝 텍스트 요소들을 표시된 카테고리로 태깅(tagging)하고; (ⅲ) 카테고리 태깅된 트레이닝 텍스트 요소들을 저장하도록 하는 소프트웨어 지시들을 포함한다. 개체군 세트 카테고리 추정 모듈은 메모리에 결합된 추정 처리기를 포함하고, 메모리는 추정 처리기로 하여금: (i) 복수의 개체군 텍스트 요소들을 포함하는 개체군 데이터를 수신하고; (ⅱ) 트레이닝 세트에 표시된 각각의 카테고리에 대한 콘텐트 프로파일을 계산하고; (ⅲ) 개체군 세트에 대한 콘텐트 프로파일을 계산하고; (iv) 트레이닝 세트에서의 요소들에 대해 표시된 카테고리들과 연관된 콘텐트 프로파일들 및 개체군 세트의 콘텐트 프로파일에 기초하여, 각각의 카테고리에 속하는 개체군 세트의 비율들을 계산하도록 하는 소프트웨어 지시들을 포함한다. 이 계산을 수행할 때, 개체군 세트 카테고리 추정 모듈은 적층된 회귀 방법, 바이어스 포뮬러 방법, 및 잡음 소거 방법 중 적어도 하나를 적용한다.
도 1은 컴퓨터 시스템의 하나의 예시적 실시예의 개략도.
도 2는 본 발명의 시스템의 아키텍처 도면.
도 3은 본 발명에 따른 트레이닝 세트의 카테고리들로의 분류를 도시한 도면.
도 4a 및 도 4b는 본 발명에 따른 문서들에 대한 콘텐트 프로파일들의 생성을 도시한 도면들.
도 5a 및 도 5b는 본 발명에 따른 개체군 세트에 대한 콘텐트 프로파일들의 생성 및 카테고리들을 도시한 도면들.
도 6은 본 발명에 따른 개체군 세트에 걸친 카테고리 비율들에 대한 솔루션을 도시한 도면.
하나 이상의 컴퓨터 서버들 및 저장 디바이스들을 이용하여 데이터의 콘텐트에 기초하여 구조화된 비구조화된, 또는 부분적으로 구조화된 데이터를 카테고리화하기 위한 시스템들 및 방법들이 제공된다. 이것은 제 1 세트의 요소들을 수신하는 단계를 수반하고, 제 1 세트에서의 각각의 요소는 복수의 카테고리들 중 하나에 할당되고, 이와 연관된 복수의 콘텐트 프로파일들 중 하나를 가진다. 제 2 세트의 요소들이 그 후에 수신되고, 제 2 세트에서의 각각의 요소는 이와 연관된 콘텐트 프로파일들 중 하나를 가진다. 다음, 컴퓨터 처리기는 본 명세서에 기술된 알고리즘들을 이용하고 제 1 세트에서의 요소들과 연관된 콘텐트 프로파일들 및 제 1 세트에서의 요소들에 할당된 카테고리들 및 제 2 세트의 요소들과 연관된 콘텐트 프로파일들에 기초하여, 카테고리들에 걸친 제 2 세트의 요소들의 분포를 계산한다.
본 발명은 소셜 매체 분석들에서 특정 사용을 발견할 수 있고, 여기서 관리되는 기계 학습 알고리즘들은 통상적으로 포스트들을 긍정적, 부정적, 및 중립적 감정으로 분류하기 위해 이용된다. 이러한 유형의 분류는 고객 서비스를 제공하고 온라인 커뮤니티를 생성하기 위한 노력에서, 이러한 감정들을 가지고 견해들을 표현하는 자들과 상호작용하도록 추구하는 소셜 매체 매니저들에게 유용할 수 있다. 부가적으로, 이들 감정 카테고리들의 비율들이 시간에 걸쳐 어떻게 변하는지를 측정함으로써, 이들은 그들의 노력들의 유효성을 약간 통찰할 수 있다.
소셜 매체, 및 소셜 매체의 대응하는 분석이 발달하고 있고 분석가들은 복잡한 분석들을 요구하고 있다. 감정 카테고리들은 대부분의 사업 질문들이 일반적인 감정의 관점으로 표현될 수 있는 대답들을 가지지 않기 때문에 이들이 결정해야 하는 더 깊은 통찰들을 분석가들에게 제공할 수 없다. 본 발명은 하기에 개시되는 바와 같은 어드밴스드 알고리즘들 및 알고리즘들의 앙상블들을 이용하여 이들 사업 질문들을 처리할 수 있다. 이러한 기술들을 이용하여, 분석가들은 그들 사업에 중요한 카테고리들을 스스로 규정할 수 있고, 그들 카테고리들의 비율들이 시간에 걸쳐 어떻게 변하는지를 정확하게 측정할 수 있다.
모든 관리되는 기계 학습 알고리즘들과 같이, 본 발명은 각각의 카테고리에서 포스트들의 라벨링된 예들을 이용하여 주어진 데이터세트의 모델을 만듦으로써 동작할 수 있다. 이 모델은 그 후에 라벨링되지 않은 포스트들을 분석하기 위해 이용된다. 대부분의 소셜 매체 분석 도구들에 대해, 이러한 라벨링, 또는 "트레이닝(training)"은 엔지니어들에 의해 행해진다. 본 발명을 이용하여, 분석가가 그들 자신의 카테고리들을 규정하기 때문에, 이 트레이닝은 분석가에 의해 행해질 수 있다.
또한, 시간 제약들로 인해, 분석가들은 그들 모델을 트레이닝할 때 카테고리마다 수 십개의 포스트들만을 라벨링할 수 있다. 통상적인 알고리즘들과 함께 이용되는 트레이닝 세트들에 비해, 이 크기의 트레이닝 세트는 매우 적은 정보를 포함한다. 부가적으로, 분석가에 의해 트레이닝된 모델은 분석중인 라벨링되지 않은 포스트들이 트레이닝된 포스트들과는 매우 상이한 비율의 카테고리들을 가질 때에도 효과적으로 동작해야 한다. 이것은 기계 학습에서 잘 알려진 문제이다. 비율들이 이러한 방식으로 균형이 맞지 않을 때, 모델의 임의의 모호성은 오류를 도입할 것이다. 소량의 트레이닝이 모델의 모호성을 거의 보장하기 때문에, 작은 트레이닝 세트들과 균형이 맞지 않은 데이터의 조합은 정확한 분류와 양립할 수 없는 것으로 나타난다.
본 발명은 분류기가 아니므로 통상적인 알고리즘들이 실패하는 경우에 성공할 수 있다. 이것은, 포스트들을 전체적으로 분석하여, 개별 포스트들을 분류하려고 할 필요 없이 카테고리 비율들을 정확하게 측정하도록 허용하게 하기 위해, 어드밴스드 알고리즘, 또는 알고리즘들의 앙상블을 이용할 수 있다. 이것은 본 발명이 모델을 트레이닝하는데 있어서 비교적 적은 시간 투자로 분석가들에게 관련되는 통찰들을 드러내도록 허용한다.
본 명세서에 개시된 방법들, 시스템들, 및 디바이스들의 구조, 기능, 제조, 및 사용의 원리들의 전체적인 이해를 제공하기 위해 지금부터 특정 예시적 실시예들이 기술될 것이다. 이들 실시예들의 하나 이상의 예들은 첨부 도면들에 도시된다. 당업자들은 본 명세서에 명확히 기술되고 첨부 도면들에 예시된 방법들, 시스템들, 및 디바이스들이 비제한적인 예시적 실시예들이고, 본 발명의 범위가 특허청구범위들에 의해서만 정의되는 것임을 이해할 것이다. 하나의 예시적 실시예와 관련되어 예시되거나 기술되는 특징들은 다른 실시예들의 특징들과 조합될 수 있다. 이러한 수정들 및 변형들은 본 발명의 범위 내에 포함되는 것으로 의도된다.
컴퓨터 처리기
본 명세서에 개시된 시스템들 및 방법들은 도 1에 도시된 컴퓨터 시스템(100)의 예시적 실시예와 같은 하나 이상의 컴퓨터 시스템들을 이용하여 구현될 수 있다. 도시된 바와 같이, 컴퓨터 시스템(100)은 컴퓨터 시스템(100)의 동작을 제어할 수 있는 하나 이상의 처리기들(102)을 포함할 수 있다. 처리기(들)(102)는(은), 프로그래밍가능한 범용 또는 특수-목적 마이크로처리기들 및/또는 다양한 독점적 또는 상용의 단일 또는 다중처리기 시스템들 중 임의의 것을 포함하여, 임의 유형의 마이크로처리기 또는 중앙 처리 장치(CPU)를 포함할 수 있다. 컴퓨터 시스템(100)은 또한 하나 이상의 메모리들(104)을 포함할 수 있고, 이들은 처리기(들)(102)에 의해 실행되는 코드를 위한 또는 하나 이상의 사용자들, 저장 디바이스들, 및/또는 데이터베이스들로부터 획득되는 데이터를 위한 임시 저장장치를 제공할 수 있다. 메모리(104)는 판독 전용 메모리(ROM), 플래시 메모리, 하나 이상의 다양한 랜덤 액세스 메모리(RAM)(예를 들면, 정적 RAM(SRAM), 동적 RAM(DRAM), 또는 동기식 DRAM(SDRAM)), 및/또는 메모리 기술들의 조합을 포함할 수 있다.
컴퓨터 시스템(100)의 다양한 요소들은 버스 시스템(112)에 결합될 수 있다. 예시된 버스 시스템(112)은 임의의 하나 이상의 개별 물리적 버스들, 통신 회선들/인터페이스들, 및/또는 적합한 브리지들, 어댑터들, 및/또는 제어기들에 의해 접속되는 다분기 또는 포인트-투-포인트 접속들을 표현하는 추상적 개념이다. 컴퓨터 시스템(100)은 또한 하나 이상의 네트워크 인터페이스(들)(106), 하나 이상의 입력/출력(IO) 인터페이스(들)(108), 및 하나 이상의 저장 디바이스(들)(110)를(을) 포함할 수 있다.
네트워크 인터페이스(들)(106)는(은) 컴퓨터 시스템(100)이 네트워크를 통해 원격 디바이스들(예를 들면, 다른 컴퓨터 시스템들)과 통신할 수 있게 할 수 있고, 예를 들면 원격 데스트탑 접속 인터페이스들, 이더넷 어댑터들, 및/또는 다른 근거리 네트워크(LAN) 어댑터들일 수 있다. IO 인터페이스(들)(108)는(은) 컴퓨터 시스템(100)을 다른 전자 기기와 접속하기 위해 하나 이상의 인터페이스 구성요소들을 포함할 수 있다. 예를 들면, IO 인터페이스(들)(108)는(은) USB 포트들, 1394 포트들 등과 같은 고속 데이터 포트들을 포함할 수 있다. 부가적으로, 컴퓨터 시스템(100)은 인간 사용자에 액세스가능할 수 있고, 따라서 IO 인터페이스(들)(108)는(은) 디스플레이들, 스피커들, 키보드들, 포인팅 디바이스들, 및/또는 다양한 다른 비디오, 오디오, 또는 글자 숫자 인터페이스들을 포함할 수 있다. 저장 디바이스(들)(110)는(은) 비휘발성 및/또는 비-과도적 방식으로 데이터를 저장하기 위한 임의의 통상적인 매체를 포함할 수 있다. 저장 디바이스(들)(110)는(은) 따라서 데이터 및/또는 지시들을 지속 상태로(즉, 컴퓨터 시스템(100)에 대한 전력의 중단에도 불구하고 값이 유지됨) 유지할 수 있다. 저장 디바이스(들)(110)는(은) 하나 이상의 하드 디스크 드라이브들, 플래시 드라이브들, USB 드라이브들, 광학 드라이브들, 다양한 매체 카드들, 및/또는 이들의 임의의 조합을 포함할 수 있고 컴퓨터 시스템(100)에 직접 접속될 수 있거나 네트워크를 통해서와 같이 원격으로 이에 접속될 수 있다. 도 1에 도시된 요소들은 단일 물리적 기계의 요소들의 일부 또는 전부일 수 있다. 또한, 도시된 요소들의 전부가 동일한 물리적 또는 논리적 기계 상에 또는 내에 위치되어야 하는 것은 아니다. 오히려, 도시된 요소들은 예를 들면 서버 팜 또는 클라우드-기반 기술을 이용하여 현실적으로 분포될 수 있다. 예시적 컴퓨터 시스템들은 통상적인 데스크탑 컴퓨터들, 워크스테이션들, 미니컴퓨터들, 랩탑 컴퓨터들, 태블릿 컴퓨터들, PDA들, 모바일 폰들 등을 포함한다.
일 예시적 컴퓨터 시스템이 본 명세서에 도시되고 기술되었지만, 이것은 일반성 및 편의성을 위한 것임을 알 것이다. 다른 실시예들에서, 컴퓨터 시스템은 아키텍처 및 동작에 있어서 본 명세서에 도시되고 기술되는 것과 상이할 수 있다.
컴퓨터 시스템(100)에 의해 수행된 다양한 기능들은 하나 이상의 모듈들에 의해 수행된 것처럼 논리적으로 기술될 수 있다. 이러한 모듈들은 하드웨어, 소프트웨어, 또는 그 조합으로 구현될 수 있음을 알 것이다. 또한, 소프트웨어로 구현될 때, 모듈들은 단일 프로그램 또는 하나 이상의 개별 프로그램들의 일부일 수 있고, 다양한 콘텍스트(예를 들면, 운영 체제의 일부로서, 디바이스 구동기, 독립형 애플리케이션, 및/또는 그 조합들)로 구현될 수 있음을 알 것이다. 또한, 하나 이상의 모듈들을 구현하는 소프트웨어는 신호가 아니고 하나 이상의 비-일시적 컴퓨터-판독가능한 저장 매체들 상에서 실행가능한 프로그램으로서 저장될 수 있다. 본 명세서에서 특정 모듈에 의해 수행된 것으로서 개시된 기능들은 또한 임의의 다른 모듈 또는 모듈들의 조합에 의해 수행될 수 있다.
예시적 아키텍처
본 발명을 실행하기 위한 예시적 시스템(10)이 도 2에 개시된다. 여기서, 소셜 매체 콘텐트와 같은 콘텐트(12), 및 구체적으로 예시된 바와 같이, 트위터, 블로거들, 뉴스, 및 다른 소셜 매체로부터의 콘텐트 또는 다른 콘텐트가 시스템(10)으로 유입될 수 있다. 개별 콘텐트 항목들은 때때로 본 명세서에서 "문서들(documents)" 또는 "포스트들(posts)"로 칭해진다. 일반적으로, 이들 포스트들은 텍스트 입력들이다 - 즉, 이들은 구조화되지 않은 데이터를 포함한다. 그러나, 본 발명은 구조화된 포맷의 데이터베이스들 또는 스프레드시트들에 저장된 데이터와 같은 구조화된 데이터에도, 또는 구조화된 및 구조화되지 않은 데이터의 조합들에도 마찬가지로 적용될 수 있다. 콘텐트 유입기(14)는 문서들을 수신하고 이들을 분석할 준비한다. 하나의 예시적 사전-분석 단계에서, 문서들은 정규화된 16일 수 있다. 정규화 16은 다양한 소스들로부터의 모든 문서들을 콘텐트들, 데이터, 저자, 타이틀, 등과 같은, 필드들의 표준화된 세트로 변환하는 단계를 포함한다. 각각의 데이터 제공기들은 그 필드들에 대해 상이한 명칭들을 가질 수 있거나, 데이터를 포맷하는 상이한 방식들을 가질 수 있다. 정규화의 목적은 분석이 그들 원본에 상관없이 문서들 상에서 수행될 수 있도록 모든 것을 일관된 방식("정규(normal)" 형태)으로 저장하기 위한 것이다. 정규화는 또한, 사본들을 제거하고, 스팸이거나 위조 URL들을 가지는 포스트들을 제거하고, 모든 데이터들을 GMT로 변환하는 등과 같은 것들을 포함할 수 있다. 콘텐트 유입기는 또한 포스트들을 지오로케이션 18 데이터로 태깅할 수 있다. 즉, 가능하다면, 콘텐트 유입기는, 언어, IP 어드레스들, 태그들, 또는 지오로케이션 참조들을 실제로 포함하는 포스트와 같은 것들에 기초하여, 포스트에 대한 위치를 추정할 수 있고 포스트를 그 위치로 태깅할 수 있다. 이러한 방식으로, 분석은 또한 지리적-특정적일 수 있어서, 분석은 관련 지리학적 영역들에 기초하여 수행될 수 있게 한다. 또한, 유입 서버(Import Server)는 주어진 포스트에 대한 언어를 결정할 수 있고 포스트를 그 언어로 태깅할 수 있는 언어 분류기(20)를 적용할 수 있다. 위치와 마찬가지로, 이것은 나중에 분석이 언어에 기초하여 분리되도록 허용한다. 또한, 본 발명에 따른 분석을 위해 콘텐트에 대해 저장하기 전에 사전-분석의 다른 유형들이 수행될 수 있다.
시스템(10)은 또한, 분석을 위해 유입된 콘텐트를 저장하는 컴퓨터 저장장치(22)를 포함할 수 있다. 하나의 실시예에서, 콘텐트는 그 생성의 시간에 따라 저장될 수 있다(달에 따라 저장되는 것으로서 도 2에 도시됨). 분석이 흔히 데이터 특정적인 환경들인 경우에, 데이터에 따라 콘텐트를 저장장치에 배열하는 것은 분석을 위한 콘텐트의 효율적인 검색 및 편의를 허용할 수 있다.
시스템(10)은 또한 분석 섹션(24)을 포함한다. 하기에 기술되는 알고리즘들이 콘텐트를 분석하기 위해 이용되는 것은 분석 섹션에 있다. 분석은 대량의 분석을 포함할 수 있다 - 얼마나 많은 콘텐트가 아이폰 5를 참조하는지와 같은. 분석은 감정 분석을 추가로 포함할 수 있다 - 포스터들이 아이폰 5를 좋아하는지 싫어하는지와 같은. 분석은 분석가에 의해 선택된 카테고리들에 기초하여 포스터 견해를 바람직하게 포함한다. 분석 섹션은 마찬가지로 분석의 다른 유형들을 포함할 수 있다.
시스템(10)은 먼저 복수의 샘플링된 포스트들(40)을 도 3에 도시된 바와 같은 인간 사용자(42)에게 제시함으로써 동작할 수 있다. 임의 수의 카테고리들이 이용될 수 있을지라도, 인간 사용자는 포스트들을 도 3에서 3개의 카테고리들로서 도시된 사용자-정의된 카테고리들(44)로 분류한다. 인간 사용자에 의해 카테고리화되는 포스트들의 수집은 트레이닝 세트로 칭해질 수 있다. 나머지 포스트들은 시스템에 의해 분석될 것이지만, 개체군 세트로 칭해질 수 있다.
다음, 도 4a에 도시된 바와 같이, 콘텐트 프로파일은 각각의 포스트에 대해 생성될 수 있다. 프로파일은 특징의 존재 또는 부재를 표시할 수 있고, 여기서 특징은 글자들, 기호들, 단어들, 어근들, 또는 그들 중 임의의 조합들일 수 있다. 바람직한 실시예들에서, 프로파일은 단어 또는 어근의 존재 또는 부재를 표시한다. 도 4a에서 제 1 포스트(40)에 도시된 바와 같이, 포스트는 A, C, 및 D를 포함한다. 따라서, 차트에서, A, C, 및 D는 그 포스트에서 존재하는 것으로 표시되는 반면에, B 및 E는 부재이다. 다른 포스트들(40)은 다른 조합들을 가진다. 더욱 구체적인 예에서, 트위터 포스트는 어근들의 세트의 존재 또는 부재를 표시하기 위해 분석될 수 있다. 포스트에 대한 이 콘텐트 프로파일은 그 후에 하기에 기술된 다른 분석에 이용될 수 있다. 도 4b에 표시된 바와 같이, 이 부분의 분석의 결론에서, 트레이닝 세트에서 및 개체군 세트에서의 각각의 문서는 프로파일을 가진다.
이제 도 5a로 돌아가서, 분석 알고리즘은 단어 또는 어근 조합과 같은 랜덤한 특징 조합을 선택하고, 트레이닝 세트의 각각의 카테고리에서, 및 개체군 세트에서의 순열들의 빈도(frequency)를 측정한다. 이 처리는 그 후에, 도 5b에 도시된 바와 같이, 다양한 단어 조합들 및 순열들에 대해 반복된다. 이들 순열들의 조합된 발생률들은 개체군 세트 및 각각의 카테고리에 대한 고유한 콘텐트 프로파일을 유발한다.
이제, 개체군 세트 및 각각의 카테고리에 대한 콘텐트 프로파일들을 가지면, 알고리즘은, 조합시, 개체군 세트의 콘텐트 프로파일에 근접한 콘텐트 프로파일을 생성하는 카테고리 비율들에 대해 해결할 수 있다. 도 6의 에에 의해 도시된 결과는 각각의 개별 포스트를 분석해야 할 필요없이 각각의 카테고리 내에 있는 포스트들의 퍼센티지를 제공한다.
분석 모듈/알고리즘들
상기에 도시된 시스템 및 방법들에 유용한 알고리즘들이 이제 기술될 것이다. 제 1 경우에서, King 등에 의한 미국 공개 특허 출원 제2009/0030862호에 기술된 알고리즘들은 특히, 상이한 알고리즘들의 앙상블이 하기에 기술되는 바와 같이 이용되는 경우에, 시스템과 함께 이용될 수 있다. 그러나, 본 발명자들은 상술된 시스템 및 방법에 바람직하게 적용될 수 있는 광범위한 조건들에서 고도로 정확한 결과들을 제공할 수 있는 알고리즘들을 생성하였다.
상기에 주지된 바와 같이, 분석을 요구하는 문제는 시간에 걸친 텍스트 코퍼스(text corpus)의 견해 카테고리 비율들로의 양자화이다. 사용자들은 트레이닝(트레이닝 세트) 동안 각각의 카테고리에 대한 예시적 문서들을 제공함으로써 견해 카테고리 비율들을 정의한다. 카테고리 비율들을 양자화하기 위한 2개의 통상적인 솔루션들은 본 기술분야의 기술적 수준에서 문제를 예시하기 위한 목적으로 이제 기술될 것이다. 제 1 통상적인 솔루션은 회귀-기반이고 다음과 같이 동작한다:
먼저, 트레이닝 동안 라벨링된 두 텍스트 문서들 및 양자화될 문서들은 단어-문서 행렬(term-document matrix)로 바뀌며, 여기서, 예를 들면 도 4a 및 도 4b에 도시된 바와 같이, 로우들은 문서들에 대응하고, 컬럼들은 단어들에 대응하고, 셀들은 문서들에서의 단어들의 존재 또는 결여에 대응한다. 단어-문서 행렬은 예를 들면 도 5a 및 도 5b에 도시된 바와 같이 단어들의 세트를 랜덤하게 샘플링하고 모든 기존의 순열들의 단어-프로파일 빈도들을 계산함으로써 단어-프로파일 분포들로 추가로 변환될 수 있다.
X = P(S/D)를 트레이닝 샘플들로부터 구조화된 견해 카테고리가 주어진 단어-프로파일 분포들로 두고, Y = P(S)를 양자화될 문서들에서의 단어-프로파일 분포들로 둔다. 카테고리 비율들을 양자화하고, β = P(D), 그 후에는 다음의 수학식을 푸는 작업으로 감소된다:
Y = Xβ
독립 변수 X가 아무런 오류 없이 측정될 때, 이 수학식의 해는 고전적인 다중-회귀를 통해 달성될 수 있다. 우리의 문제에서, 독립 변수들은 샘플링을 통해 측정되고, 따라서 샘플링 오류들을 포함하고, 고전적인 회귀 접근법들은 바이어스되지 않은 결과들(unbiased results)을 생성하는데 이용될 수 없다.
이러한 바이어스는 다음의 모델링 접근법을 이용함으로써 양자화될 수 있다:
테스트 또는 개체군 세트에서 우리는 Y = Xβ를 가지고, 트레이닝-세트에서 우리는 Y* = X*β*를 가진다. 두 X 및 X*는 동일한 카테고리-특정적 단어-프로파일 분포로부터 나오지만, 그들 분포들은 샘플 크기들에 기초하여 변화하고 다음과 같은 정규 근사로 모델링될 수 있다:
Figure 112014124176921-pct00001
, 여기서
Figure 112014124176921-pct00002
Figure 112014124176921-pct00003
, 여기서
Figure 112014124176921-pct00004
일부 간단한 가정들로, 고전적인 다중-회귀 해,
Figure 112014124176921-pct00005
는 트리 카테고리 비율들 β의 함수인 바이어스 성분을 가지는 것으로 보여질 수 있다:
Figure 112014124176921-pct00006
간략하게, 독립 변수들에 오류들이 있을 때, 회귀 절차는 바이어스된 결과들을 생성하는 것으로 알려져 있다. 여기서 트레이닝 세트의 변환으로부터 나오는 독립 변수들이 샘플링을 통해 획득되기 때문에, 이들은 오류들을 포함한다. 본 발명의 임의의 특정 이론에 얽매이는 것을 원하지 않지만 본 발명자들이 믿는 이것은 오류를 유발한다. 이 문제는 본 명세서에서 "변수들에서의 오류(the error in variables)"로 칭해진다.
제 2 통상적인 솔루션은 라벨링된 예들(트레이닝)을 이용하여 분류 알고리즘들을 관심(테스트)의 코퍼스에 적용하고, 예측된 분류 라벨들을 간단히 계수함으로써 히스토그램을 구성하는 것에 기초한다. 이 접근법이 가진 기본 문제는 분류 알고리즘들의 정확도가 트레이닝 및 테스트 문서들이 동일한 분포를 가지는지의 여부에 실질적으로 의존한다는 점이다. 분류 알고리즘들은 테스트 및 트레이닝 분포들이 상이할 때 바이어스를 도입한다. 그러나, 테스트 및 트레이닝 분포들은 실질적으로 상이한 것으로 예상되고; 따라서 우리는 분류 기반 히스토그램 접근법들을 이용할 수 없다.
하나의 양태에서, 본 발명은 카테고리 비율들을 추정하기 위한 복수의 상이한 방법들의 평균을 이용하는 앙상블 유형 솔루션을 포함한다. 이 양태에서, 1보다 큰 임의 수의 방법들이 이용되고 평균될 수 있다 - 하나의 실시예에서, 카테고리 비율들을 추정하기 위한 5개의 방법들이 이용되고 평균된다. 선택된 방법들은 상기 참조된 King 등에 의한 공개 특허 출원에 기술된 것들, 하기에 기술되는 방법들, 또는 본 명세서 또는 King 등에 개시되지 않은 다른 방법들을 포함할 수 있다.
다른 양태에서, 본 발명은 카테고리 비율들을 추정하기 위한 3개의 신규 방법들 중 적어도 하나를 포함한다. 3개의 방법들 중 첫 번째는 "적층된 회귀(Stacked Regression)" 방법으로 칭해진다. 적층된 회귀는 상술된 회귀 방법의 변형이다. 3개의 방법들 중 두 번째는 "바이어스 포뮬러(Bias Formula)" 방법으로 칭해지고, 이것은 적층된 회귀를 입력으로 이용한다. 3개의 방법들 중 세 번째는 "잡음 소거(Noise Elimination)" 방법으로 칭해진다. 본 발명은 카테고리 비율들을 추정하기 위한 이들 방법들 중 하나의 적용을 포함할 수 있거나, 임의의 하나 이상의 방법이 앙상블 접근법에서 다른 방법과 함께 이용되거나 조합될 수 있다.
이들 방법들 중 어느 것은 예를 들면 상술된 모듈들을 이용하여 컴퓨터 시스템 상에서 소프트웨어로 구현될 수 있다.
적층된 회귀:
이전의 회귀 기반 방법들에서, 단어-문서 행렬 대 단어-프로파일 변환은 적은 수의 결과로서 생긴 데이터 로우들로 차례로 하나씩 수행된다. 각각의 회귀에서 낮은 수의 데이터 로우들을 보상하기 위해, 수백 회귀들이 행해지고 평균된다.
일 대안적인 접근법은 수백 회귀들에서 이용되는 데이터를 "적층(stack)"하는 것이고, 동시에 모든 데이터 로우들을 이용하여 단일 회귀를 대신 실행한다. 수학적으로, 적층만을 행하는 것은 변수들에 오류들이 존재할 때 최소 제곱들 추정은 불일치된 추정이므로, 바이어스를 제거하지 않는다. 우리는 적층된 접근법을 가중된 회귀와 연결하고, 여기서 각각의 데이터 로우에 대한 가중은 하기에 도시된 바와 같은 추정된 총 분산의 역이다.
Figure 112014124176921-pct00007
가중들을 이용함으로써, 우리는 고분산 로우들의 영향을 얻을 수 있고 따라서 예상된 바이어스를 감소시킬 수 있다.
바이어스 포뮬러:
우리는 단순한 추정으로부터 참 카테고리 비율들을 추정하는데 이용되는 통계적 근사들을 이용하여 바이어스 포뮬러를 도출했다. 바이어스 정정은 단순 최소 제곱들 추정
Figure 112014124176921-pct00008
를 조정하기 위해 다음의 수학식을 이용한다.
Figure 112014124176921-pct00009
여기서, A는 그람-슈미트 직교-정규화를 이용하여 다음과 같이(R-형 표기법으로) 획득된다:
Figure 112014124176921-pct00010
Figure 112014124176921-pct00011
잡음 소거:
우리의 문제에서, 두 Y = Xβ(테스트) 및 Z = X *β(트레이닝)(테스트 및 트레이닝 분포들 XX * 각각의 랜덤 변수들 및 임의의 주어진 β에 대해)는 동일한 의미이나 상이한 분산들을 가진 랜덤한 변수들로서 간주될 수 있다. 우리가 정규 근사를 이용하여 테스트 및 트레이닝 세트들에서 잡음을 모델링하는 경우, 우리는 다음을 가진다:
Figure 112014124176921-pct00012
, 여기서
Figure 112014124176921-pct00013
Figure 112014124176921-pct00014
, 여기서
Figure 112014124176921-pct00015
우리가 YX *β의 차를 다른 랜덤 변수로 정의하게 한다:
Figure 112014124176921-pct00016
.
이러한 새로운 랜덤 변수는 순수하게 잡음이고, 테스트 및 트레이닝 데이터에서 상이한 샘플 크기들을 이용한 결과이고, 우리는 우리의 제곱 오류 계산들의 합으로부터 이 잡음(제곱됨)의 예상 값을 차감하기를 원한다. 특히, 우리는 다음의 최소화 문제에 대한 솔루션인
Figure 112014124176921-pct00017
를 찾기를 원한다(굵은 변수들은 랜덤 변수들이고 평범한 변수들은 테스트 및 트레이닝에서 이들 랜덤 변수들의 관찰된 값들임을 유념한다):
Figure 112014124176921-pct00018
Figure 112014124176921-pct00019
Figure 112014124176921-pct00020
의 추정은:
Figure 112014124176921-pct00021
이 되도록 도출된다.
이것은 제곱된 오류들의 합의 예상 값이 다음과 같이 Pjk의 우리의 최상의 추정을 이용하여 추정될 수 있음을 의미한다:
Figure 112014124176921-pct00022
최적화 절차를 해결하기 위해 우리가 현재 수행하는 숫자상 절차는 다음과 같다:
1) 참 β, 즉 β0의 일부 추정을 생성한다.
2) 알파 = 25 * β0을 가진 5000개의 디리클레 변수들을 생성한다.
3) 5000개의
Figure 112014124176921-pct00023
값들의 각각에 대한 f(
Figure 112014124176921-pct00024
)를 계산하고 이들을 오름차순으로 정렬한다.
4) 단계 3으로부터 100개의
Figure 112014124176921-pct00025
값들을 평균한다.
당업자는 상술된 실시예들 및 목적들에 기초하여 본 발명의 다른 특징들 및 이점들을 알 것이다. 따라서, 본 발명은 첨부된 청구항들 또는 최종적으로 제공되는 것들에 의해 표시된 바를 제외하고, 특별히 도시되고 기술된 것에 의해 제한되는 것이 아니다. 본 명세서에 기재된 모든 공개들 및 참조들은 명백하게 본 명세서에 참조로서 명백하게 통합되고, 본 발명은 명백하게 통합된 참조들에서 및 상기에 포함된 특징들의 모든 조합들 및 부조합들을 포함한다.
100: 컴퓨터 시스템 102: 처리기
106: 네트워크 인터페이스 104: 메모리
108: I/O 인터페이스 110: 저장장치

Claims (12)

  1. 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법에 있어서:
    (a) 상기 컴퓨터 처리기에 의해 각각의 디지털 콘텐트를 포함하는 디지털 문서들의 트레이닝 세트를 수신하는 단계로서, 상기 트레이닝 세트에서의 각각의 디지털 문서들은 복수의 카테고리들 중 하나에 할당되고 복수의 콘텐트 프로파일들과 연관되고, 각각의 콘텐트 프로파일은 상기 디지털 문서들의 상기 디지털 콘텐트의 하나 이상의 특징들의 존재 또는 부재를 표시하는, 상기 트레이닝 세트를 수신하는 단계;
    (b) 상기 컴퓨터 처리기에 의해 각각의 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트(population set)를 수신하는 단계로서, 상기 개체군 세트에서의 각각의 디지털 문서들은 그 내부에 포함된 상기 디지털 콘텐트와 연관된 상기 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 개체군 세트를 수신하는 단계;
    (c) 상기 복수의 콘텐트 프로파일들을 이용하여 상기 트레이닝 세트의 상기 디지털 문서들과 상기 개체군 세트의 상기 디지털 문서들을 행렬(matrix)로 카테고리화하는 단계로서, 상기 행렬은 상기 디지털 문서들 각각에 대응하는 로우(row)들과 상기 디지털 문서들의 상기 디지털 콘텐트의 상기 하나 이상의 특징들의 존재 또는 부재를 표시하는 셀들을 갖는, 상기 카테고리화하는 단계;
    (d) 상기 행렬의 로우에 대해 추정된 총 분산을 이용하여 상기 행렬의 각각의 로우에 대한 가중을 결정하는 단계:
    (e) 상기 컴퓨터 처리기에 의해 가중된 회귀와 결합된 적층된 회귀를 상기 행렬에 적용하여, 상기 행렬의 상기 로우들에 대해 결정된 가중들을 이용하여 상기 가중된 회귀를 결정하는 단계로서, 상기 개체군 세트의 상기 디지털 문서들의 비율은 상기 복수의 카테고리들의 각 카테고리에 속하는, 상기 가중된 회귀를 결정하는 단계;
    (f) 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계로서, 각각은 각 카테고리에 속하는 상기 디지털 문서들의 부분을 포함하는, 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계; 및
    (g) 상기 디지털 문서들이 속하는, 상기 비율에 대응하는 상기 카테고리에 기초하여 상기 디지털 문서들을 라벨링(labeling)함으로써 상기 디지털 문서들을 카테고리화하는 단계를 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  2. 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법에 있어서:
    (a) 상기 컴퓨터 처리기에 의해 디지털 문서들의 트레이닝 세트를 수신하는 단계로서, 상기 트레이닝 세트에서의 디지털 문서들은 복수의 카테고리들 중 하나에 할당되고 그 내부의 하나 이상의 특징들의 존재 또는 부재를 표시하는 복수의 콘텐트 프로파일들 중 하나와 연관되는, 상기 트레이닝 세트를 수신하는 단계;
    (b) 상기 컴퓨터 처리기에 의해 디지털 문서들의 개체군 세트를 수신하는 단계로서, 상기 개체군 세트에서의 각각의 디지털 문서들은 이와 연관된 상기 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 개체군 세트를 수신하는 단계;
    (c) 상기 컴퓨터 처리기에 의해, 상기 트레이닝 세트에서의 디지털 문서들과 연관된 상기 콘텐트 프로파일들 및 상기 트레이닝 세트에서의 디지털 문서들에 할당된 상기 카테고리들 및 상기 개체군 세트의 디지털 문서들과 연관된 상기 콘텐트 프로파일들에 기초하여 바이어스 포뮬러 방법(bias formula method)을 적용하여, 상기 개체군 세트의 디지털 문서들의 비율이 속하는 상기 복수의 카테고리들의 각각의 카테고리를 결정하는 단계;
    (d) 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계로서, 각각은 각 카테고리에 속하는 상기 디지털 문서들의 부분을 포함하는, 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계; 및
    (e) 상기 디지털 문서들이 속하는, 상기 비율에 대응하는 상기 카테고리에 기초하여 상기 디지털 문서들을 라벨링(labeling)함으로써 상기 디지털 문서들을 카테고리화하는 단계를 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  3. 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법에 있어서:
    (a) 상기 컴퓨터 처리기에 의해 디지털 문서들의 트레이닝 세트를 수신하는 단계로서, 상기 트레이닝 세트에서의 각각의 디지털 문서들은 복수의 카테고리들 중 하나에 할당되고 그 내부의 하나 이상의 특징들의 존재 또는 부재를 표시하는 복수의 콘텐트 프로파일들 중 하나와 연관되는, 상기 트레이닝 세트를 수신하는 단계;
    (b) 상기 컴퓨터 처리기에 의해 디지털 문서들의 개체군 세트를 수신하는 단계로서, 상기 개체군 세트에서의 각각의 디지털 문서들은 이와 연관된 상기 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 개체군 세트를 수신하는 단계; 및
    (c) 상기 컴퓨터 처리기에 의해, 상기 트레이닝 세트에서의 디지털 문서들과 연관된 상기 콘텐트 프로파일들 및 상기 트레이닝 세트에서의 디지털 문서들에 할당된 상기 카테고리들 및 상기 개체군 세트의 디지털 문서들과 연관된 상기 콘텐트 프로파일들에 기초하여 잡음 소거 방법(noise elimination method)을 적용하여, 상기 개체군 세트의 디지털 문서들의 비율이 속하는 상기 복수의 카테고리들의 각각의 카테고리를 결정하는 단계;
    (d) 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계로서, 각각은 각 카테고리에 속하는 상기 디지털 문서들의 부분을 포함하는, 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계; 및
    (e) 상기 디지털 문서들이 속하는, 상기 비율에 대응하는 상기 카테고리에 기초하여 상기 디지털 문서들을 라벨링(labeling)함으로써 상기 디지털 문서들을 카테고리화하는 단계를 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  4. 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법에 있어서:
    (a) 상기 컴퓨터 처리기에 의해 디지털 문서들의 트레이닝 세트를 수신하는 단계로서, 상기 트레이닝 세트에서의 각각의 디지털 문서들은 복수의 카테고리들 중 하나에 할당되고 그 내부의 하나 이상의 특징들의 존재 또는 부재를 표시하는 복수의 콘텐트 프로파일들 중 하나와 연관되는, 상기 트레이닝 세트를 수신하는 단계;
    (b) 상기 컴퓨터 처리기에 의해 디지털 문서들의 개체군 세트를 수신하는 단계로서, 상기 개체군 세트에서의 각각의 디지털 문서들은 이와 연관된 상기 복수의 콘텐트 프로파일들 중 하나를 가지는, 상기 개체군 세트를 수신하는 단계;
    (c) 상기 컴퓨터 처리기에 의해 그 결과들이 평균되는 복수의 알고리즘 방법들로 이루어진 앙상블 방법을 적용하여, 상기 트레이닝 세트에서의 디지털 문서들과 연관된 상기 콘텐트 프로파일들 및 상기 트레이닝 세트에서의 디지털 문서들에 할당된 상기 카테고리들 및 상기 개체군 세트의 디지털 문서들과 연관된 상기 콘텐트 프로파일들에 기초하여, 상기 복수의 카테고리들의 각각의 카테고리에 속하는 상기 개체군 세트의 상기 디지털 문서들의 비율을 계산하는 단계로서, 상기 앙상블은 바이어스 포뮬러 방법(bias formula method)을 포함하는, 상기 복수의 카테고리들의 각각의 카테고리에 속하는 상기 개체군 세트의 상기 디지털 문서들의 비율을 계산하는 단계;
    (d) 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계로서, 각각은 각 카테고리에 속하는 상기 디지털 문서들의 부분을 포함하는, 상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하는 단계; 및
    (e) 상기 디지털 문서들이 속하는, 상기 비율에 대응하는 상기 카테고리에 기초하여 상기 디지털 문서들을 라벨링(labeling)함으로써 상기 디지털 문서들을 카테고리화하는 단계를 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  5. 제 4 항에 있어서,
    상기 앙상블은 가중된 회귀와 결합된 적층된 회귀 방법을 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  6. 삭제
  7. 제 4 항에 있어서,
    상기 앙상블은 잡음 소거 방법을 포함하는, 컴퓨터 처리기에 의해 수행되고, 디지털 콘텐트를 포함하는 디지털 문서들을 전체적으로 카테고리화하기 위한 컴퓨터-구현 방법.
  8. 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템에 있어서:
    메모리에 결합된 트레이닝 처리기를 포함하는 트레이닝 모듈로서, 상기 메모리는 상기 트레이닝 처리기로 하여금:
    복수의 트레이닝 텍스트 요소들을 포함하는 트레이닝 데이터를 수신하고;
    상기 트레이닝 텍스트 요소들 중 적어도 일부를 사용자에게 제시하고, 상기 사용자로부터 상기 트레이닝 텍스트 요소들이 속하는 카테고리들의 표시들을 수신하고, 상기 트레이닝 텍스트 요소들을 상기 표시된 카테고리로 태깅(tagging)하고;
    상기 카테고리 태깅된 트레이닝 텍스트 요소들을 저장하도록 하는 소프트웨어 지시들을 포함하는, 상기 트레이닝 모듈; 및
    메모리에 결합된 추정 처리기를 포함하는 개체군 세트 카테고리 추정 모듈로서, 상기 메모리는 상기 추정 처리기로 하여금:
    복수의 개체군 텍스트 요소들을 포함하는 개체군 데이터를 수신하고;
    트레이닝 데이터 세트에 표시된 각각의 카테고리에 대한 콘텐트 프로파일을 계산하고;
    상기 개체군 세트에 대한 콘텐트 프로파일을 계산하고;
    상기 텍스트 요소들의 하나 이상의 특징들의 존재 또는 부재를 표시하는 셀들을 갖는 행렬을 계산하고;
    상기 트레이닝 데이터 세트에서의 상기 요소들에 대해 표시된 상기 카테고리들과 연관된 상기 콘텐트 프로파일들 및 상기 개체군 세트의 콘텐트 프로파일에 기초하여, 각각의 카테고리에 속하는 상기 개체군 세트의 비율들을 계산하고;
    상기 디지털 문서들의 하나 이상의 카테고리 비율들을 결정하고, 각각은 각 카테고리에 속하는 상기 디지털 문서들의 부분을 포함하고;
    상기 디지털 문서들이 속하는, 상기 비율에 대응하는 상기 카테고리에 기초하여 상기 디지털 문서들을 라벨링(labeling)함으로써 상기 디지털 문서들을 카테고리화하도록 하는 소프트웨어 지시들을 포함하는, 상기 개체군 세트 카테고리 추정 모듈을 포함하고;
    상기 비율들을 계산하는 것은 상기 행렬의 로우들에 대해 결정된 가중들을 이용하는 가중된 회귀와 결합된 적층된 회귀 방법, 바이어스 포뮬러 방법, 및 잡음 소거 방법 중 적어도 하나를 적용하는 것을 포함하는, 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템.
  9. 제 8 항에 있어서,
    상기 비율들을 계산하는 것은 앙상블 방법들의 복수의 계산 방법들을 적용하고 상기 복수의 계산 방법들의 결과들을 평균하는 것을 포함하는, 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템.
  10. 제 8 항에 있어서,
    상기 비율들을 계산하는 것은 상기 적층된 회귀 방법을 포함하는, 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템.
  11. 제 8 항에 있어서,
    상기 비율들을 계산하는 것은 상기 바이어스 포뮬러 방법을 포함하는, 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템.
  12. 제 8 항에 있어서,
    상기 비율들을 계산하는 것은 상기 잡음 소거 방법을 적용하는 것을 포함하는, 디지털 콘텐트를 포함하는 디지털 문서들의 개체군 세트에 대한 카테고리 비율들을 계산하기 위한 시스템.
KR1020147035901A 2012-05-25 2013-05-22 카테고리 비율들을 계산하기 위한 시스템들 및 방법들 KR101983538B1 (ko)

Applications Claiming Priority (5)

Application Number Priority Date Filing Date Title
US201261651703P 2012-05-25 2012-05-25
US61/651,703 2012-05-25
US13/804,096 US9483544B2 (en) 2012-05-25 2013-03-14 Systems and methods for calculating category proportions
US13/804,096 2013-03-14
PCT/US2013/042223 WO2013177279A2 (en) 2012-05-25 2013-05-22 Systems and methods for calculating category proportions

Publications (2)

Publication Number Publication Date
KR20150016972A KR20150016972A (ko) 2015-02-13
KR101983538B1 true KR101983538B1 (ko) 2019-05-29

Family

ID=49624508

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020147035901A KR101983538B1 (ko) 2012-05-25 2013-05-22 카테고리 비율들을 계산하기 위한 시스템들 및 방법들

Country Status (8)

Country Link
US (2) US9483544B2 (ko)
EP (1) EP2856334A4 (ko)
JP (1) JP6320997B2 (ko)
KR (1) KR101983538B1 (ko)
CN (1) CN104364781B (ko)
HK (1) HK1205583A1 (ko)
SG (1) SG11201407609TA (ko)
WO (1) WO2013177279A2 (ko)

Families Citing this family (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP2744791B1 (en) * 2011-08-15 2015-10-28 Basf Se Fungicidal substituted 1-{2-[2-halo-4-(4-halogen-phenoxy)-phenyl]-2-alkoxy-3-methyl-butyl}-1h-[1,2,4]triazole compounds
EA030875B1 (ru) 2012-12-20 2018-10-31 Басф Агро Б.В. Композиции, содержащие триазольное соединение
BR122019013926B1 (pt) 2013-01-09 2019-10-29 Basf Agro Bv processo para preparar um composto de triazol de fórmula i
WO2015003908A1 (en) 2013-07-08 2015-01-15 Basf Se Compositions comprising a triazole compound and a biopesticide
EA036537B1 (ru) 2014-06-25 2020-11-20 Басф Агро Б.В. Пестицидные композиции
BR112017009282A2 (pt) 2014-11-07 2018-01-30 Basf Se misturas fungicidas, composição pesticida, métodos para controlar pragas fitopatogênicas, para melhorar a fitossanidade e para proteção de material de propagação de plantas contra pragas, e, material de propagação de plantas.
BR112018068705B1 (pt) 2016-03-16 2022-09-06 Basf Se Método para controlar fungos fitopatogênicos
US11425909B2 (en) 2016-03-16 2022-08-30 Basf Se Use of tetrazolinones for combating resistant phytopathogenic fungi on fruits
US10905122B2 (en) 2016-03-16 2021-02-02 Basf Se Use of tetrazolinones for combating resistant phytopathogenic fungi on cereals
US11514233B2 (en) 2016-11-22 2022-11-29 President And Fellows Of Harvard College Automated nonparametric content analysis for information management and retrieval
US11205103B2 (en) 2016-12-09 2021-12-21 The Research Foundation for the State University Semisupervised autoencoder for sentiment analysis
US20180315414A1 (en) * 2017-04-26 2018-11-01 International Business Machines Corporation Adaptive digital assistant and spoken genome
US10891539B1 (en) 2017-10-31 2021-01-12 STA Group, Inc. Evaluating content on social media networks

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030862A1 (en) * 2007-03-20 2009-01-29 Gary King System for estimating a distribution of message content categories in source data
US20090125463A1 (en) 2007-11-13 2009-05-14 Shohei Hido Technique for classifying data

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH10320370A (ja) * 1997-05-16 1998-12-04 Nippon Telegr & Teleph Corp <Ntt> 複数の識別関数の統合によるパターン認識方法
US7869647B2 (en) 2004-04-02 2011-01-11 Agilent Technologies, Inc. System and method for processing training data for a statistical application
DE102006010400B4 (de) 2006-03-03 2023-04-13 Dspace Gmbh Verfahren zur Erstellung eines optimierten Ablaufplans für ein zeitgesteuertes verteiltes Rechnersystem
CN101187937A (zh) 2007-10-30 2008-05-28 北京航空航天大学 网格环境下模式复用的异构数据库访问和集成方法
CN101561805B (zh) * 2008-04-18 2014-06-25 日电(中国)有限公司 文档分类器生成方法和系统
US8031110B2 (en) 2008-12-27 2011-10-04 Trimble Navigation Ltd. Position bias amelioration method and apparatus in GNSS receiver

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20090030862A1 (en) * 2007-03-20 2009-01-29 Gary King System for estimating a distribution of message content categories in source data
US20090125463A1 (en) 2007-11-13 2009-05-14 Shohei Hido Technique for classifying data
JP2009122851A (ja) 2007-11-13 2009-06-04 Internatl Business Mach Corp <Ibm> データを分類する技術

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
G. Bontempi, Resampling methods in statistical modeling, http://www.ulb.ac.be/di/map/gbonte/Stat104.html (2003.)*
Y. Raviv et al., Bootstrapping with Noise : An Effective Regularization Technique, Connection Science, Vol.8 Nos 3&4, pp.355-372 (1996)*

Also Published As

Publication number Publication date
HK1205583A1 (en) 2015-12-18
EP2856334A4 (en) 2016-01-20
CN104364781A (zh) 2015-02-18
US9483544B2 (en) 2016-11-01
WO2013177279A3 (en) 2014-01-16
JP6320997B2 (ja) 2018-05-09
EP2856334A2 (en) 2015-04-08
JP2015520901A (ja) 2015-07-23
CN104364781B (zh) 2017-07-14
KR20150016972A (ko) 2015-02-13
US20140012855A1 (en) 2014-01-09
US20170046630A1 (en) 2017-02-16
WO2013177279A2 (en) 2013-11-28
SG11201407609TA (en) 2014-12-30

Similar Documents

Publication Publication Date Title
KR101983538B1 (ko) 카테고리 비율들을 계산하기 위한 시스템들 및 방법들
Peling et al. Implementation of Data Mining To Predict Period of Students Study Using Naive Bayes Algorithm
Hillard et al. Computer-assisted topic classification for mixed-methods social science research
Lewis et al. Content analysis in an era of big data: A hybrid approach to computational and manual methods
Wu et al. Collaborative multi-domain sentiment classification
WO2021103401A1 (zh) 数据对象分类方法、装置、计算机设备和存储介质
Woltmann et al. Tracing university–industry knowledge transfer through a text mining approach
US20120316917A1 (en) Extracting dimensions of quality from online user-generated content
Diallo et al. On the application of the three-step approach to growth mixture models
Gupta et al. Deriving business intelligence from unstructured data
Suharjito et al. Implementation of classification technique in web usage mining of banking company
Truskinger et al. Decision support for the efficient annotation of bioacoustic events
Buehling et al. PhDs with industry partners–assessing collaboration and topic distribution using a text mining methodology
CN110895562A (zh) 反馈信息处理方法及装置
Gunu et al. Modern predictive models for modeling the college graduation rates
Dave et al. Identifying big data dimensions and structure
Anastasopoulos et al. Computational text analysis for public management research: An annotated application to county budgets
CN112418260A (zh) 模型训练方法、信息提示方法、装置、设备及介质
Fish Firat et al.
Talafidaryani et al. Digital transformation research: a bird's eye image of core knowledge and global trends
Tamasauskas et al. Research of conventional data mining tools for big data handling in finance institutions
Hansmann Empirical development and evaluation of a maturity model for big data applications
CN116542801B (zh) 一种财务数据分析方法及系统
Shamsudin et al. Improving learning style prediction using tree-based algorithm with hyperparameter optimization
Mubang Social Media Time Series Forecasting and User-Level Activity Prediction with Gradient Boosting, Deep Learning, and Data Augmentation

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant