KR20220050915A - 계층적 클러스터링을 사용한 희귀 토픽 탐지 - Google Patents

계층적 클러스터링을 사용한 희귀 토픽 탐지 Download PDF

Info

Publication number
KR20220050915A
KR20220050915A KR1020227008090A KR20227008090A KR20220050915A KR 20220050915 A KR20220050915 A KR 20220050915A KR 1020227008090 A KR1020227008090 A KR 1020227008090A KR 20227008090 A KR20227008090 A KR 20227008090A KR 20220050915 A KR20220050915 A KR 20220050915A
Authority
KR
South Korea
Prior art keywords
cluster
clusters
topic model
hierarchical
words
Prior art date
Application number
KR1020227008090A
Other languages
English (en)
Inventor
라구 키란 간티
머드하카르 슈리밧사
슈레란자니 스리랑암스리다란
연섭 임
닥쉬 아그라왈
Original Assignee
인터내셔널 비지네스 머신즈 코포레이션
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 인터내셔널 비지네스 머신즈 코포레이션 filed Critical 인터내셔널 비지네스 머신즈 코포레이션
Publication of KR20220050915A publication Critical patent/KR20220050915A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • G06F16/353Clustering; Classification into predefined classes
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/33Querying
    • G06F16/3331Query processing
    • G06F16/334Query execution
    • G06F16/3347Query execution using vector based model
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/04Inference or reasoning models
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • Databases & Information Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Machine Translation (AREA)

Abstract

계층적 클러스터링을 사용하는 희귀 토픽 탐지
계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 프로세서에 의해서 제공하기 위한 실시 예들이 제공된다. 계층적 토픽 모델은 하나 또는 그 이상의 데이터 소스들로부터 학습될 수 있다. 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들은 상기 계층적 토픽 모델을 사용하여 반복적으로 제거될 수 있다. 상기 지배적인 단어들은 상기 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련될 수 있다. 상기 학습된 계층적 토픽 모델은 상기 계층적 토픽 모델을 발전시키기 위해 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들, 또는 이들의 조합으로 시드 될 수 있고 상기 제거된 지배적인 단어들은 상기 시드 되는 것이 완료된 후 복원된다.

Description

계층적 클러스터링을 사용한 희귀 토픽 탐지
[0001] 본 발명은 일반적으로 컴퓨팅 시스템들에 관한 것이고, 더 구체적으로는 컴퓨팅 프로세서를 사용하는 계층적 클러스터링(hierarchical clustering)을 사용하여 희귀 토픽 탐지(rare topic detection)를 제공하는 다양한 실시 예들에 관한 것이다.
[0002] 컴퓨터들과 네트워킹 기술들의 출현은 삶의 질에 대한 향상을 가능하게 하였고 한편 일상적인(day-to-day) 활동들을 강화하고 정보의 공유를 단순화했다.
최근 정보기술의 발전과 인터넷의 인기 증가때문에, 방대한 양의 정보가 디지털 형태로 이제 이용 가능하게 되었다. 그러한 정보의 이용 가능성은 많은 기회들을 제공하였다. 예를 들어, 실시간(real-time) 커뮤니케이션 메시지와 같은, 디지털 및 온라인 정보가 최근 몇 년 동안 매우 인기를 누리고 있다. 기술들의 큰 발전들과 진보들이 결실을 맺을수록, 이들 시스템들에서의 진전이 효율성과 개선에 도움이 되게 해야 할 필요성이 커진다.
[0003] 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 제공하기 위해서 다양한 실시 예들이 제공된다. 하나의 계층적 토픽 모델은 하나 또는 그 이상의 데이터 소스들로부터 학습될 수 있다. 선택된 클러스터 내의 하나 또는 그 이상의 지배적인 단어들(dominant words)은 계층적 토픽 모델을 사용하여 반복적으로 제거될 수 있다. 지배적인 단어들은 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련될 수 있다. 학습된 계층적 토픽 모델에 계층적 토픽 모델을 발전시키기 위한 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들(snippets), 또는 이들의 조합이 파종될(seeded) 수 있고, 제거된 지배적인 단어들은 시딩 완료 후 복원된다(reinstated).
[0004] 발명의 장점들이 순조롭게 이해될 수 있도록, 위에서 간략히 기술된 발명에 대한 보다 특정적인 설명서는 첨부된 도면들에 예시된 구체적인 실시 예들에 참조하여 제시될 것이다. 이러한 도면들은 발명의 전형적인 실시 예들만을 오직 도시하므로 그것의 범위를 제한하는 것으로 고려되지 않는다는 점을 이해하면서, 본 발명은 첨부 도면들의 사용을 통해 구체적으로 상세하게 다음과 같이 기술되고 설명될 것이다:
도 1은 본 발명의 일 실시 예에 따라 예시적인 클라우드 컴퓨팅 노드를 도시한 블록도다;
도 2는 본 발명의 일 실시 예에 따라 예시적인 클라우드 컴퓨팅 환경을 도시한 추가적인 블록도다;
도 3은 본 발명의 일 실시 예에 따라 추상화 모델 층들을 도시한 추가적인 블록도다;
도 4는 본 발명의 실시 예들에 따라 실시간 대화 데이터를 분석하고 메시지들 간 도착(inter-arrival) 시간들을 기록하는 추가적인 도면이다;
도 5는 본 발명의 실시 예들에 따라 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 도시한 다이어그램이다; 그리고
도 6은, 다시 말해, 본 발명의 실시 예들이 실현될 수 있는, 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 프로세서에 의해 제공하기 위한 예시적인 방법을 도시한 플로차트이다.
[0005] 전자 정보의 양이 계속 증가함에 따라, 정교한 정보 액세스 시스템들에 대한 요구가 또한 증가하고 있다. 디지털 또는 "온라인" 데이터는 실시간, 글로벌 컴퓨터 네트워크들을 통해 점점 더 액세스 가능하게 되었다. 상기 데이터는 과학, 정치, 정부, 교육, 기업들, 등을 포함하는, 다양한 조직들과 그룹들 또는 개인들의 많은 정보들을 반영할 수 있다. 협업과 사회적 커뮤니케이션의 사용이 증가되고 있기 때문에, 텍스트-기반(text-based) 커뮤니케이션을 통한 커뮤니케이션도 또한 증가할 것이다. 비즈니스 및 레크리에이션 목적들 모두에서, 실시간 커뮤니케이션 메시지들(예: 실시간 채팅 담화들)은 현대 사회의 중요 부분(part and parcel)이다. 그러나, 크기에 관계없이, 다양한 주체들에서, 특히 대량의 텍스트-기반 데이터가 다양한 애플리케이션들 및 서비스들에 의해서 생성될 때, 커뮤니케이션의 그러한 협업 및 사회적 수단을 사용하는 것은 압도적인 경험일 수 있다.
[0006] 더욱이, 다양한 유형들의 주체들(예: 기업들, 조직들, 정부 기관들, 교육 기관들, 기타)은, "실제 사용" 텍스트의 코퍼스들(즉, 컬렉션들)로 표현된 언어의 연구인, 코퍼스 언어학(corpus linguistics)에 종종 관여한다. 표현의 분석은 그것의 자연적인 사용 내에서 가장 잘 수행된다는 것이 코퍼스 언어학의 핵심 아이디어이다. 글(writing)의 샘플들을 수집함으로써, 연구원들은 개인들이 서로 어떻게 대화하는지 이해할 수 있다. 그 결과, 본 발명은 메시지 기반 데이터를 이해하고 해석하는 데 도움이 되는 다양한 기술들을 채용한다.
[0007] 일 실시 예에서, 토픽 모델링(topic modeling)이 텍스트 코퍼스 내의 의미 구조(a semantic structure)를 발견하기 위해 사용될 수 있다. 토픽 모델링은 텍스트 기반 문서 및/또는 담화에서 토픽과 의미를 추론하기 위해 하나 또는 그 이상의 작업들(operations)을 채용할 수 있다. 토픽 모델링과 텍스트 마이닝은 다양한 커뮤니케이션들에 대한 통찰력들을 얻기 위해 사용될 수 있다. 예를 들어, 만약 기업이 특정 제품이나 서비스에 대한 고객의 피드백을 알아낼(mine) 수 있다면, 이 정보는 가치 있음이 입증될 것이다. 텍스트 마이닝/토픽 모델링 기법들을 채용할 때, 권장 사항들 중 하나는 분석에 이용할 수 있는 데이터가 많을수록, 전체적인 결과들이 더 좋다는 것이다. 그러나, 대량의 데이터를 사용할 수 있는 경우에도, 의미를 추론하기 위해서는 단일 대화 또는 작은 텍스트 코퍼스를 텍스트 마이닝해야(text mine) 할 수 있다.
[0008] 또한, 텍스트 형식(예: 문서들, 이메일들, 프레젠테이션들, 등) 및/또는 오디오/비디오 형식으로 진행될 수 있는 커뮤니케이션(예: 하나 또는 그 이상의 사용자들 간의 대화) 동안, 그러한 커뮤니케이션들/대화들의 토픽들에 관한 지적인 해석, 요약, 및/또는 이해를 제공하면서 커뮤니케이션/대화를 신속하고 적응적으로 이해해야 하는 것이 필요할 수 있다.
[0009] 일부 경우들에서, 예를 들어, 문서 클러스터링(document clustering)은 유사한 문서들 모두를 그룹화하여, 동일 의미의 토픽(the same implicit topic)에 그것들을 할당하는 것이다. 문서 클러스터링은 정보 검색의 효과를 개선시킬 수 있는 기능을 제공한다. 잠재 의미 분석 작업(Latent Semantic Analysis operation)과 계층적 집적 클러스터링(Agglomerative hierarchical clustering)은 유사성들에 기초하여 객체들을 클러스터링으로 그룹화하기 위해서 최근에 채용되었다. 예를 들어, 잠재 의미 분석에서, n개의 문장들이 주어지면, 프레임워크는 그러한 문장들에서 참조된 개념들을 나열한다. 즉, 토픽은 "단어들의 가방"이고, 각 문서는 (다항 분포(a multinomial distribution)를 갖는) 다수의 토픽들을 가지고 있고 각 토픽은 (디리클레 분포(a Dirichlet distribution)를 갖는) 단어들을 가지고 있다. 그러나, 잠재 의미 분석에서 과제(challenge)는 토픽에 있는 커뮤니케이션/대화(예: 대화/구어 영어) 단어들이 디리클레 발생 프로세스(a Dirichlet generative process)를 만족시키지 못하고 계층적 토픽들의 개념을 가지고 있지 않다는 것이다(예를 들어, 데이터는 한 클래스의 데이터 플랜이고 데이터 플랜은 한 클래스의 국제 데이터 플랜이다).
[0010] 계층적 집적 작업들(hierarchical agglomerative operations)에서, 문서들은 재귀적으로 상향 병합되어(recursively merged bottom up), 재귀적으로 분할된 클러스터들의 결정 트리를 생성한다. 유사성을 찾는 데 사용되는 거리 측정들은 단일-링크(single-link)로부터 계산상(computationally) 더 비싼 것들까지 변화할 수 있지만, 그것들은 가장 가까운-이웃(nearest-neighbor) 거리에 근접하게 정해진다(closely tied). 상기 계층적 집적 작업은 최상의 단일 쌍의 문서들 또는 클러스터들을 재귀적으로 병합함에 의해서 수행되는데, 이는 수만 개의 문서 수집들에 대해 엄청난 계산 비용들을 발생시킨다. 즉, 문서들은 그들 사이의 거리를 갖는 벡터들(예: 유클리디안)로서 표현된다. 그러나, 거리 측정(distance metrics)은 "지배적인(dominant)" 단어들이 더 낮은 레벨들의 계층에서 벡터들로부터 제거되지 않을 때 실패한다(예를 들어, 가장 높은 레벨에서 지배적인 데이터는 대화들의 30%를 차지하며, "국제적인 것"은 1% 내로만 차지한다). 따라서, 커뮤니케이션들/대화들의 코퍼스의 요약을 토픽들에 제공하는 것에 대한 과제들은 여전히 남아 있다(단순이 하나의 문서와 비교하여).
[0011] 따라서, 여기서 다양한 실시 예들이 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 프로세서에 의해서 제공하기 위해 예시된다. 계층적 토픽 모델은 하나 또는 그 이상의 데이터 소스들로부터 학습될 수 있다. 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들이 계층적 토픽 모델을 사용하여 반복적으로 제거될 수 있다. 상기 지배적인 단어들은 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련될 수 있다. 상기 학습된 계층적 토픽 모델은 계층적 토픽 모델을 발전시키기 위해 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들, 또는 이들의 조합으로 시드 될(seeded) 수 있으며, 상기 제거된 지배적인 단어들은 시드 되는 것이 완료된 후 복원된다(reinstated).
[0012] 일 실시 예에서, 본 발명은 다수의 토픽들로 클러스터 된 통화들의 요약된 버전(예: 고객-직원(customer-agent) 대화의 음성-텍스트(speech-to-text) 사본(transcript))을 제공함으로써 계층적 토픽 모델링을 제공한다. 즉, 계층적 토픽 모델링은 모든 유형의 텍스트 문서에 관해서 수행되고 긴 텍스트 문서는, 전형적으로 한 세트의 n그램들인, 요약으로 변환될 수 있다.
[0013] n그램들의 단어들의 요약은 단어 벡터들을 생성하기 위해 사용될 수 있고 상기 단어 벡터들은 하나 또는 그 이상의 할당된 스코어들에 따라 가중치가 부여될(weighted) 수 있다. K 민즈 클러스터들 작업(K means clusters operation)은 요약 단어 벡터들에 관한 한번의 반복을 K 클러스터들로 수행하는데 채용될 수 있고, 여기서"K"는 양의 정수 또는 정의된 값이다. K 클러스터들은 하나 또는 그 이상의 "킹 클러스터들(king clusters)"포함할 수 있다. 일 실시 예에서, 킹 클러스터는 총 수의 K 클러스터들에서 가장 큰 클러스터(예: 가장 많은 문서들 또는 데이터 소스들을 포함하는 클러스터)이다. 킹 클러스터는 복수의 클러스터들 내에서 가장 큰 클러스터일 수 있다.
[0014] 킹 클러스터인 각 클러스터에 대해, 계층적 토픽 모델링 작업은 이전 실행/수행으로부터 하나 또는 그 이상의 "관련" 단어들을 제거함에 의해서 수행을 반복한다(다음 계층적 토픽 모델링에 대해 더 이상 차별하지 않는다). 그렇게 함으로써, 지배적인 단어들이 제거됨에 따라 점진적인 드릴다운(drilldown) 작업을 통해(예를 들어, 계층적 토픽 모델링 작업을 반복적으로 실행하는 것으로 부터) 하나 또는 그 이상의 희귀 토픽들이 식별된다. 각각의 대표하는 클러스터에 대한 N그램들, 대화 토막들, 및 제안된 토픽 이름들이 식별될 수 있다. 제거된/숨겨진 하나 또는 그 이상의 단어들이 n그램/대화 토막 식별을 위해 사용될 수 있는데, 이는 하나 또는 그 이상의 사용자들을 위한 향상된 가독성/해석성을 개선하고 제공하기 위해서이다.
[0015] 예를 들어, 단어 "액세스(access)"가 제1 반복(예: 반복"0")에서 제거되는 계층적 토픽 모델링 작업을 살펴본다. 다음/후속의 반복적인 계층적 토픽 모델링 작업에서, 단어들 "브이피엔(vpn)," 및 "루트(root)"는, 하나 또는 그 이상 후속의, 반복적인 계층적 토픽 모델링 작업(예: 반복 "1" 및/또는 반복 "N")에서 제거될 수 있다. 반복적인 계층적 토픽 모델링 작업들이 종료되면, 지배적인 단어들은 복원되고/숨김 해제되며, 예를 들어, "vpn에 액세스할 수 없음" 및/또는 "루트 액세스 실패"와 같은, 하나 또는 그 이상의 인공지능("AI") 작업들을 사용하여 해석할 수 있는 설명(예를 들어, 사용자가 이해할 수 있는)을 제공한다. 또한, 본 발명은, 예를 들어, 다수의 반복들을 선택하도록 구성할 수 있는, "유사한" 클러스터들을 식별하기 위한 동의어들과 같은, 반복적인 계층적 토픽 모델링을 위한 자동화된 구성을 제공한다. 계층적 클러스터링을 사용하여 희귀 토픽 탐지를 제공하는 작업들은 또한 후-처리(post-processing)를 통해 하나 또는 그 이상의 클러스터들을 조합하거나 나눌 수 있게 하는데, 그렇게 하여 각 클러스터는 하나 또는 그 이상의 사용자들에 의해서 이해/해석할 수 있게 된다.
[0016] 일 실시 예에서, 증분 훈련(incremental training) 및 차이들 식별에 사용되는 하나 또는 그 이상의 계층적 토픽 모델이 학습될 수 있다. 학습된 계층적 토픽 모델(예: 새로운 트리 구조)은 기존의 계층적 토픽 모델(예: 기존의 트리 구조)을 사용하여 시드 될 수 있다. 각 트리 노드에서 각 클러스터링 모델은 기존의 계층적 토픽 모델에 기초하여 시드 될 수 있다. 계층적 토픽 모델은, 각 노드가 토픽을 의미하는, 트리 구조의 형태로 되어 있음에 유의해야 한다. 킹 클러스터에 대응하는 노드는 반복할 때마다 분해된다(gets broken down). 증분 훈련은 토픽 모델을 스크래치에서(from scratch) 훈련하는 대신, 훈련 절차가 오래된 모델에서 시작한 다음 새로운 데이터세트로 최적의 모델을 찾는 절차를 의미한다(denote). 학습된 기존의 계층적 토픽 모델은 새로운 데이터세트로 재훈련 되어 이전 솔루션 근처에서 클러스터링 문제에 대한 최적의 솔루션들을 찾아낼 수 있다. 추가적인 예시를 위해, 데이터세트 1에서 훈련된 토픽 모델 "v1"(예: 기존의 토픽 모델)과 시드 모델로서 토픽 모델 v1을 갖는 데이터세트 2에서 훈련된 토픽 모델 "v2"(예: 새로운 토픽 모델)를 살펴본다. 데이터세트 2는 새로운 데이터세트이다. 데이터세트 2에서, 본 발명은 최적의 토픽 모델을 찾거나 및/또는 식별하며, 상기 최적의 토픽 모델은 스크래치에서 토픽 모델을 학습하는 것과 비교하여 토픽 모델 v1에 가깝다. 상기 기본 K-민즈 클러스터링(The underlying K-means clustering)은 오래된 토픽 모델 v1으로 시드 되어 새로운 토픽 모델 v2를 획득한다. 상기 시드 모델은 특정 시간 윈도우 동안 훈련된 토픽 모델이고 새로운 모델은 새로운 데이터세트로 다음 시간 윈도우에서 훈련된다.
[0017] 일 실시 예에서, 하나 또는 그 이상의 계층적 토픽 모델들은 다음을 사용하는 클러스터들에서 변화를 식별/탐지 하기 위해 사용될 수 있는다: a) 가장 많이 드리프트 되어(drifted) 중요한 변화 후보들로 식별되는 클러스터 센터들, (b) 중요한 차이들을 갖는 클러스터 가중치들, (c) 심각하게 변화된 클러스터의 응집성 측정값(a cohesiveness measure of the cluster),, 및 (d) 변화된 트리 구조. 즉, "변화 탐지"는 새롭게 훈련된 토픽 모델이 시드 모델과 관련하여 어떻게 변화했는지를 탐지하는 것이며, 상기 변화들은 (a)-(d)에서 기술된 것을 사용하여 관찰될 수 있다.
[0018] 본 명세서에는 클라우드 컴퓨팅에 대한 자세한 설명이 포함되어 있지만, 본 명세서에서 설명한 기술들의 구현은 클라우드 컴퓨팅 환경에 국한되지 않음을 이해해야 한다. 오히려, 본 발명의 실시 예들은 현재 알려져 있거나 나중에 개발될 다른 유형의 컴퓨팅 환경과 함께 구현될 수 있다.
[0019] 클라우드 컴퓨팅은, 최소한의 관리 노력 또는 서비스 제공자와의 상호작용으로 빠르게 제공 및 해제될 수 있는, 구성 가능한(configurable) 컴퓨팅 자원들(예를 들어, 네트워크, 네트워크 대역폭, 서버, 처리, 메모리, 스토리지, 애플리케이션, 가상 머신, 및 서비스)의 공유 풀에 대한 편리한 주문형(on-demand) 네트워크 액세스를 가능하게 하는 서비스 전달 모델이다. 이 클라우드 모델은 적어도 5가지의 특성(characteristics), 적어도 3가지 서비스 모델(service models), 및 적어도 4가지 배치 모델(deployment models)을 포함할 수 있다.
[0020] 클라우드 컴퓨팅 특성들은 다음과 같다:
주문형 셀프-서비스(On-demand self-service): 클라우드 소비자는, 서비스 제공자와의 인적 상호작용을 필요로 하지 않고 필요한 만큼 자동적으로, 서버 시간(server time) 및 네트워크 스토리지 같은 컴퓨팅 기능들을 일방적으로 제공(provisioning)할 수 있다.
광역 네트워크 액세스(Broad network access): 이질적 씬 또는 씩 클라이언트 플랫폼들(heterogeneous thin or thick client platforms)(예를 들어, 모바일폰, 랩탑, 및 PDA)에 의한 사용을 장려하는 표준 메커니즘들을 통해 액세스되는 기능들을 네트워크을 통해서 이용할 수 있다.
자원 풀링(Resource pooling): 제공자의 컴퓨팅 자원들은 멀티-테넌트 모델(a multi-tenant model)을 이용하여, 각기 다른 물리적 및 가상 자원들을 요구(demand)에 따라 동적으로 할당 및 재할당하면서, 다수의 소비자들에게 서비스할 수 있도록 풀에 넣어둔다(pooled). 소비자는 일반적으로 제공된 자원들의 정확한 위치를 제어할 수 없거나 그에 대한 지식이 없지만 더 높은 추상 수준에서(예를 들어, 국가, 주, 또는 데이터센터) 위치를 명시할 수 있다는 점에서 위치 독립성이 있다.
기민한 탄력성(Rapid elasticity): 역량들(capabilities)이 기민하게 탄력적으로 제공되어 (어떤 경우엔 자동으로) 신속히 규모를 확장할 수도 있고(scale out) 그리고 탄력적으로 해제되어 신속히 규모를 축소할 수도 있다(scale in). 소비자에게는 제공할 수 있는 가능성이 종종 무제한인 것으로 보이고 언제든지 얼마든지 구매할 수 있다.
측정 가능한 서비스(Measured service): 클라우드 시스템들은 서비스 유형(예를 들어, 스토리지, 처리, 대역폭, 및 활성 사용자 계정)에 적절한 추상화 수준에서(at some level of abstraction) 계측 기능을 활용하여 자원 사용을 자동으로 제어하고 최적화한다. 자원 사용량은 모니터 되고, 제어되고, 그리고 보고될 수 있으며 이로써 이용하는 서비스의 제공자와 사용자 모두에게 투명성을 제공한다.
[0021] 서비스 모델들(Service Models)은 다음과 같다:
소프트웨어 서비스(Software as a Service)(SaaS): 소비자에게 제공되는 서비스는 클라우드 하부구조 상에서 실행되는 제공자의 애플리케이션들을 사용하게 해주는 것이다. 애플리케이션들은 웹 브라우저(예를 들어, 웹기반 이메일) 같은 씬(thin) 클라이언트 인터페이스를 통해 여러 클라이언트 장치들에서 액세스 가능하다. 소비자는 네트워크, 서버, 운영체제, 스토리지, 또는 개별 애플리케이션 성능을 포함하는 하부 클라우드 하부구조를 관리하거나 제어하지 않는다.
플랫폼 서비스(Platform as a Service)(PaaS): 소비자에게 제공되는 서비스는 제공자에 의해 지원되는 프로그래밍 언어들 및 도구들을 이용하여 생성된 소비자-생성 또는 획득 애플리케이션들을 클라우드 하부구조에 배치하게 해주는 것이다. 소비자는 네트워크, 서버, 운영체제, 또는 스토리지를 포함하는 하부 클라우드 하부구조를 관리하거나 제어하지 않지만, 배치된 애플리케이션들에 대해서 그리고 가능한 경우 애플리케이션 호스팅 환경 구성들에 대해서 제어할 수 있다.
하부구조 서비스(Infrastructure as a Service)(IaaS): 소비자에게 제공되는 서비스는 처리, 스토리지, 네트워크, 및 기타 기본 컴퓨팅 자원들을 제공하여 주는 것이며, 여기서 소비자는 임의의 소프트웨어를 배치 및 실행할 수 있고, 이 소프트웨어에는 운영체제와 애플리케이션들이 포함될 수 있다. 소비자는 하부 클라우드 하부구조를 관리하거나 제어하지 않지만, 운영체제, 스토리지, 배치된 애플리케이션들에 대해서 제어할 수 있고, 가능한 경우 선택된 네트워킹 컴포넌트들(예를 들어, 호스트 방화벽들)에 대해서 제한적으로 제어할 수 있다.
[0022] 배치 모델들(Deployment Models)은 다음과 같다:
사설 클라우드(Private cloud): 클라우드 하부구조는 오직 한 조직(an organization)을 위해서 운영되고, 그 조직 또는 제3자에 의해 관리될 수 있으며 옥내(on-premises) 또는 옥외(on-premises)에 위치할 수 있다.
커뮤니티 클라우드(Community cloud): 클라우드 하부구조는 여러 조직들에 의해 공유되고 관심사(예를 들어, 선교, 보안 요건, 정책, 및 규정 준수 심사)를 공유하는 특정 커뮤니티를 지원하며, 여러 조직들 또는 제3자에 의해 관리될 수 있으며 옥내(on-premises) 또는 옥외(on-premises)에 위치할 수 있다.
공공 클라우드(Public cloud): 클라우드 하부구조는 일반 대중 또는 대규모 산업 집단에서 이용할 수 있으며 클라우드 서비스를 판매하는 조직이 소유한다.
하이브리드 클라우드(Hybrid cloud): 클라우드 하부구조는 둘 또는 그 이상의 클라우드들(사설, 커뮤니티, 또는 공공)이 혼합된 구성이며, 이들은 고유한 독립체들로 있지만 데이터 및 애플리케이션 이식가능성(portability)을 가능하게 해주는 표준화된 또는 소유권 있는 기술(예를 들어, 클라우드들 사이의 부하 균형을 위한 클라우드 버스팅(cloud bursting))에 의해 서로 결합되어 있다.
[0023] 클라우드 컴퓨팅 환경은 무국적(statelessness), 낮은 결합(low coupling), 모듈 방식(modularity), 및 의미적 상호운용성(semantic interoperability)에 집중하는 서비스를 지향한다. 클라우드 컴퓨팅의 중심에는 상호 연결된 노드들의 네트워크을 포함하는 하부구조가 있다.
[0024] 이제 도 1를 참조하면, 클라우딩 컴퓨터 노드(10)의 예의 개략도가 도시된다. 클라우드 컴퓨팅 노드(10)는 적합한 클라우딩 컴퓨팅 노드의 하나의 예일뿐이며 여기에 설명된 본 발명의 실시예들의 사용 또는 기능의 범위에 관하여 어떠한 제한을 암시하려고 의도된 것이 아니다. 그럼에도 불구하고, 클라우드 컴퓨팅 노드(10)는 위에서 설명된 모든 기능을 구현할 수 있고 및/또는 수행할 수 있다. 
[0025] 클라우드 컴퓨팅 노드(10)에는, 수많은 다른 범용 또는 특수 목적 컴퓨팅 환경들 또는 구성들과 함께 운영되는, 컴퓨터 시스템/서버(12)가 있다. 컴퓨터 시스템 /서버(12)와 함께 사용하기에 적합할 수 있는 잘 알려진 컴퓨팅 시스템들, 환경들, 및/또는 구성들의 예들은, 개인용 컴퓨터 시스템들, 서버 컴퓨터 시스템들, 씬 클라이언트들, 씩 클라이언트들, 핸드헬드 또는 랩탑 디바이스들, 멀티-프로세서 시스템들, 마이크로프로세서-기반 시스템들, 셋톱 박스들, 프로그래밍 가능한 소비자 전자 제품들, 네트워크 PC들, 미니 컴퓨터 시스템들, 메인프레임 컴퓨터 시스템들, 및 상기 시스템들 또는 디바이스들 중 하나를 포함하는 분산 클라우드 컴퓨팅 환경들, 등을 포함하나, 이에 국한하는 것은 아니다. 
[0026] 컴퓨터 시스템/서버(12)는, 컴퓨터 시스템에 의해 실행되는, 프로그램 모듈들과 같은, 컴퓨터 시스템-실행 가능한 명령들의 일반적인 컨텍스트로 기술될 수 있다. 일반적으로 프로그램 모듈들은 특정 작업들을 수행하거나 또는 특정 추상 데이터 유형들을 구현하는 루틴들, 프로그램들, 객체들, 컴포넌트들, 논리, 데이터 구조들 등을 포함할 수 있다. 컴퓨터 시스템/서버(12)는 커뮤니케이션 네트워크을 통해 링크되는 원격 처리 디바이스들에 의해 작업들이 수행되는 분산 클라우드 컴퓨팅 환경에서 실시될 수 있다. 분산 클라우드 컴퓨팅 환경에서, 프로그램 모듈들은 메모리 스토리지 디바이스들을 포함하는 로컬 및 원격 컴퓨터 시스템 스토리지 매체 모두에 위치할 수 있다.
[0027] 도 1에서 도시된 바와 같이, 클라우드 컴퓨팅 노드(10)에서 컴퓨터 시스템/서버(12)는 범용 컴퓨터 디바이스의 형태로 도시된다. 컴퓨터 시스템/서버(12)의 컴포넌트들은 하나 또는 그 이상의 프로세서들 또는 처리 유닛들(16), 시스템 메모리(28), 및 시스템 메모리(28)를 포함하는 다양한 시스템 컴포넌트들을 프로세서(16)에 연결하는 버스(18)를 포함할 수 있지만, 이에 국한되지 않는다.
[0028] 버스(18)는, 다양한 버스 아키텍처들 중 하나를 사용하는, 메모리 버스 또는 메모리 컨트롤러, 주변 버스, 가속 그래픽 포트, 및 프로세서 또는 로컬 버스를 포함하는, 버스 구조들의 여러 유형들 중 하나 또는 그 이상을 나타낸다. 예를 들어, 그러한 아키텍처들은 ISA(include Industry Standard Architecture) 버스, MCA(Micro Channel Architecture) 버스, EISA(Enhanced ISA) 버스, VESA(Video Electronics Standards Association) 로컬 버스 및 PCI(Peripheral Component Interconnect) 버스를 포함하나, 이에 국한되지는 않는다.
[0029] 컴퓨터 시스템/서버(12)는 일반적으로 다양한 컴퓨터 시스템 판독 가능한 매체를 포함한다. 그러한 매체는 컴퓨터 시스템/서버(12)에 의해 액세스 가능한 모든 이용 가능한 매체일 수 있으며 , 휘발성 및 비휘발성 매체, 착탈식 및 비-착탈식 매체를 모두 포함한다. 
[0030] 시스템 메모리(28)은, 예컨대 랜덤 액세스 메모리(RAM)(30) 및/또는 캐시 메모리(32)와 같은, 휘발성 메모리의 형태의 컴퓨터 시스템 판독 가능한 매체를 포함할 수 있다. 컴퓨터 시스템/서버(12)는 또한, 다른 착탈식/비-착탈식, 휘발성/비휘발성 컴퓨터 시스템 스토리지 매체를 포함할 수 있다. 단지 예로서, 스토리지 시스템(34)이 비착탈식, 비휘발성 자기 매체(도시되지 않고 일반적으로 "하드 드라이브"라고 함)로부터 읽고 쓰기 위해 제공될 수 있다. 도시되지는 않았지만, 착탈가능 비휘발성 자기 디스크(예: "플로피 디스크") 에서 읽고 쓰기 위한 자기 디스크 드라이브 및, CD-ROM, DVD-ROM 또는 기타 광학 매체와 같은, 착탈가능 비휘발성 광학 디스크에서 읽거나 쓰기 위한 광학 디스크 드라이브가 제공될 수 있다. 그러한 경우에, 각각은 하나 또는 그 이상의 데이터 매체 인터페이스들에 의해 버스(18)에 연결될 수 있다. 아래에서 추가로 도시되고 설명되는 바와 같이, 메모리(28)는 본 발명의 실시예들의 기능들을 수행하도록 구성된 프로그램 모듈들의 세트(예를 들어, 적어도 하나)를 갖는 적어도 하나의 프로그램 제품을 포함할 수 있다.
[0031] 프로그램 모듈들의 (적어도 하나)세트(42)를 갖는, 프로그램/유틸리티(40)는, 예를 들어, 메모리(28)에 저장될 수 있지만, 이에 국한되는 것은 아니다. 운영 체제, 하나 또는 그 이상의 애플리케이션 프로그램들, 기타 프로그램 모듈들, 및 프로그램 데이터 또는 이들의 조합은 네트워킹 환경의 구현을 포함할 수 있다. 프로그램 모듈들(42)은 일반적으로 여기에 기술된 바와 같은 본 발명의 실시예의 기능들 및/또는 방법들을 수행한다.
[0032] 컴퓨터 시스템/서버(12)는 키보드, 포인팅 디바이스, 디스플레이(24) 등과 같은, 하나 또는 그 이상의 외부 디바이스들(14); 사용자가 컴퓨터 시스템/서버(12)와 상호작용할 수 있게 하는 하나 또는 그 이상의 디바이스들; 및/또는 컴퓨터 시스템/서버(12)가 하나 또는 그 이상의 다른 컴퓨팅 디바이스들과 커뮤니케이션할 수 있게 하는 모든 디바이스들(예를 들어, 네트워크 카드, 모뎀 등)과 커뮤니케이션 할 수 있다. 그러한 커뮤니케이션은 입/출력(I/O) 인터페이스(22)를 통해 발생할 수 있다. 또한, 컴퓨터 시스템/서버(12)는 근거리 커뮤니케이션망(LAN), 일반 광역 커뮤니케이션망(WAN), 및/또는 네트워크 어댑터(20)를 통한 공중 네트워크(예를 들어, 인터넷)와 같은, 하나 또는 그 이상의 네트워크들과 커뮤니케이션할 수 있다. 도시된 바와 같이, 네트워크 어댑터(20)는 버스(18)를 통해 클라우드 컴퓨팅 노드(10)의 다른 컴포넌트들과 커뮤니케이션한다. 도시되지는 않았지만, 다른 하드웨어 및/또는 소프트웨어 컴포넌트들이 컴퓨터 시스템/서버(12)와 함께 사용될 수 있음을 이해해야 한다. 이들의 예들에는: 마이크로코드, 디바이스 드라이버들, 리던던트 처리 유닛들, 외부 디스크 드라이브 어레이들, RAID 시스템들, 테이프 드라이브들 및 데이터 아카이벌 스토리지 시스템들이 포함되지만 이에 국한되지는 않는다.
[0033] 본 발명과 관련하여, 그리고 당업자가 이해할 수 있는 바와 같이, 도 1에 도시된 다양한 컴포넌트들은 움직이는 차량에 위치할 수 있다. 예를 들어, 예시된 실시 예들 중 메커니즘들과 관련된 일부 처리 및 데이터 스토리지 기능은 로컬 처리 컴포넌트들을 통해 로컬에서 수행될 수도 있고, 한편, 동일한 컴포넌트들은 네트워크를 통해 원격으로 위치한 분산 컴퓨팅 데이터 처리 및 스토리지 컴포넌트들에 연결되어 본 발명의 다양한 목적들을 달성할 수 있다. 또한, 당업자들이 이해할 수 있듯이, 본 발명의 예시는 본 발명의 다양한 실시 예들을 집합적으로 달성하는 분산 컴퓨팅 컴포넌트들의 전체 연결된 네트워크일 수 있는 것의 일부만을 전달하기 위한 것이다.
[0034] 이제 도 2을 참조하면, 예시적인 클라우드 컴퓨팅 환경(50)이 도시된다. 도시된 바와 같이, 클라우드 컴퓨팅 환경(50)은 하나 또는 그 이상의 클라우드 컴퓨팅 노드들(10)을 포함하며, 이들은 예를 들어 개인 휴대 정보 단말기(PDA) 또는 휴대폰(54A), 데스크탑 컴퓨터(54B), 랩탑 컴퓨터(54C), 및/또는 자동차용 컴퓨터 시스템(54N)과 같은, 클라우드 소비자가 사용하는 로컬 컴퓨팅 장치들과 커뮤니케이션할 수 있다. 노드들(10)은 서로 커뮤니케이션할 수 있다. 이들은 상기에서 기술된 바와 같은 사설, 커뮤니티, 공공, 또는 하이브리드 클라우드들 또는 이들의 조합 등의 하나 또는 그 이상의 네트워크들에서 물리적으로 또는 가상으로 그룹화될 수 있다(도시되지 않음). 이것은 클라우드 소비자가 로컬 컴퓨팅 장치 상에 자원들을 유지할 필요가 없게 클라우드 컴퓨팅 환경(50)이 하부구조, 플랫폼들 및/또는 소프트웨어를 서비스로서 제공할 수 있게 해준다. 도 2에 도시된 컴퓨팅 장치들(54A-N)의 유형들은 단지 예시의 목적으로 기술한 것이며 컴퓨팅 노드들(10)과 클라우드 컴퓨팅 환경(50)은 모든 유형의 네트워크 및/또는 네트워크 주소지정가능 연결을 통해서 (예를 들어, 웹 브라우저를 사용하여) 모든 유형의 컴퓨터화된 장치와 커뮤니케이션할 수 있다는 것을 이해해야 한다.
[0035] 이제 도 3를 참조하면, 클라우드 컴퓨팅 환경(50)(도 2)에 의해 제공되는 일 세트의 기능별 추상화 계층들이 도시된다. 도 3에 도시된 컴포넌트들, 계층들, 및 기능들은 단지 예시의 목적이며 본 발명의 실시예들은 이들에 한정되지 않는다는 것을 미리 이해해야 한다. 도시된 바와 같이, 다음의 계층들과 그에 대응하는 기능들이 제공된다.
[0036] 디바이스 계층(55)은 클라우드 컴퓨팅 환경(50)에서 다양한 작업들을 수행하기 위해 물리적 및/또는 가상 디바이스들, 임베드된 및/또는 독립형의 전자 장치들, 센서들, 액추에이터들 및 기타 객체들을 포함한다. 디바이스 계층(55)에서 디바이스들의 각각은 상기 디바이스들로부터 획득된 정보가 다른 기능적 추상화 계층들에 제공될 수 있고 및/또는 상기 다른 추상화 계층들로부터의 정보가 상기 디바이스들에 제공될 수 있도록 상기 다른 기능적 추상화 계층들에 대한 네트워킹 능력을 포함한다. 일 실시예에서, 디바이스 계층(55)을 포함하는 다양한 디바이스들은 집합적으로 "사물 인터넷"(IoT)으로 알려진 주체들의 네트워크를 포함할 수 있다. 그러한 주체들의 네트워크는, 당업자가 이해하는 바와 같이, 매우 다양한 목적들을 달성하기 위해 데이터의 상호 커뮤니케이션, 수집 및 보급을 허용한다.
[0037] 도시된 바와 같은 디바이스 계층(55)은 도시된 바와 같이 센서(52), 액추에이터(53), 집적된 처리, 센서 및 네트워킹 전자 장치를 갖는 "학습" 온도 조절기(56), 카메라(57), 제어 가능한 가정용 콘센트/리셉터클(58), 및 제어 가능한 전기 스위치(59)를 포함한다. 다른 가능한 디바이스들도 다양한 추가 센서 디바이스들, 네트워킹 디바이스들, 전자 디바이스들(예: 원격 제어 디바이스), 추가 액추에이터 디바이스들, 예를 들어 냉장고 또는 세탁기/건조기와 같은 소위 "스마트"가전제품들, 그리고 다양한 다른 가능한 상호 연결된 객체들을 포함할 수 있지만, 이에 국한하지는 않는다.
[0038] 하드웨어 및 소프트웨어 계층(60)은 하드웨어 및 소프트웨어 컴포넌트들을 포함한다. 하드웨어 컴포넌트들의 예들에는: 메인프레임들(61); RISC(Reduced Instruction Set Computer) 아키텍처 기반 서버들(62); 서버들(63); 블레이드 서버들(64); 스토리지 디바이스들(65); 그리고 네트워크 및 네트워킹 컴포넌트들(66)이 포함된다. 일부 실시 예들에서, 소프트웨어 컴포넌트들은 네트워크 애플리케이션 서버 소프트웨어(67) 및 데이터베이스 소프트웨어(68)를 포함한다.
[0039] 가상화 계층(70)은 추상화 계층을 제공하며 이로부터 다음의 가상 실체들의 예들이 제공될 수 있다: 가상 서버들(71); 가상 스토리지(72); 가상 사설 네트워크를 포함하는, 가상 네트워크들(73); 가상 애플리케이션들 및 운영체제들(74); 및 가상 클라이언트들(75).
[0040] 한 예에서, 관리 계층(80)은 아래에 기술하는 기능들을 제공한다. 리소스 제공(Resource provisioning)(81)은 클라우드 컴퓨팅 환경 내에서 작업들을 수행하는 데 이용되는 컴퓨팅 리소스들 및 기타 리소스들의 동적 조달을 제공한다. 계측 및 가격 책정(Metering and Pricing)(82)은 리소스들이 클라우드 컴퓨팅 환경 내에서 이용될 때 비용 추적, 및 이 리소스들의 소비에 대한 요금 청구 또는 송장을 제공한다. 한 예에서, 이 리소스들은 애플리케이션 소프트웨어 라이센스를 포함할 수 있다. 보안(Security)은 데이터 및 기타 리소스들에 대한 보호뿐 아니라 클라우드 소비자들과 작업들에 대한 신원 확인을 제공한다. 사용자 포털(User portal)(83)은 소비자들 및 시스템 관리자들에게 클라우드 컴퓨팅 환경에 대한 액세스를 제공한다. 서비스 수준 관리(Service level management)(84)는 요구되는 서비스 수준이 충족되도록 클라우드 컴퓨팅 리소스 할당 및 관리를 제공한다. 서비스 수준 협약서(SLA) 기획 및 충족(planning and fulfillment)(85)은 SLA에 부합하는 예상되는 미래 요건에 맞는 클라우드 컴퓨팅 리소스들의 사전-배치(pre-arrangement) 및 조달(procurement)을 제공한다.
[0041] 워크로드 계층(90)은 클라우드 컴퓨팅 환경이 이용될 수 있는 기능들의 예들을 제공한다. 이 계층에서 제공될 수 있는 워크로드들과 기능들의 예들은 다음과 같다: 맵핑 및 네비게이션(91); 소프트웨어 개발 및 라이프사이클 관리(92); 가상 교실 교육 전달(93); 데이터 분석 처리(94); 트랜잭션 처리(95); 및, 본 발명의 예시된 실시 예들의 맥락에서, 계층적 클러스터링(hierarchical clustering)을 사용하여 희귀 토픽 탐지(rare topic detection)를 제공하기 위한 다양한 워크로드들 및 기능들(96). 또한, 계층적 클러스터링을 사용하여 희귀 토픽 탐지를 제공하기 위한 워크로드 및 기능들(96)은 데이터 분석(조직 데이터베이스, 온라인 정보, 지식 도메인들, 데이터 소스들 및/또는 소셜 네트워크/매체 및 기타 데이터 스토리지 시스템들로부터의 데이터 수집 및 처리를 포함)과 같은 작업들(operations) 및 예측과 데이터 분석 기능들을 포함할 수 있다. 당업자들은 계층적 클러스터링을 사용하여 희귀한 토픽 탐지 기능을 제공하는 워크로드들 및 기능들(96)은 또한, 하드웨어 및 소프트웨어(60), 가상화(70), 관리(80) 및 기타 워크로드들(예를 들어, 분석 및/또는 대체(fungibility) 처리(94)와 같은)와 같은, 다양한 추상화 계층들의 다른 부분들과 함께 작동하여 본 발명의 예시된 실시 예들의 다양한 목적을 달성할 수 있다는 점을 이해할 것이다.
[0042] 이제 도 4를 참조하면, 블록도(400)은 계층적 클러스터링을 사용하여 희귀 토픽 탐지를 제공하기 위한 컴퓨팅 시스템을 도시한다. 일 실시 예에서, 도 1-3에 기술된 하나 또는 그 이상의 컴포넌트들, 모듈들, 서비스들, 애플리케이션들, 및/또는 기능들(functions)은 도 4에서도 사용될 수 있다. 예를 들어, 처리 유닛(16)을 포함하는, 도 1의 컴퓨터 시스템/서버(12)는, 본 발명의 다양한 실시 예들에 따라 다양한 계산, 데이터 처리 및 기타 기능(functionality)을 수행하는데 사용될 수 있다.
[0043] 도 4에서 도시된 바와 같이, 시스템(400)은 서버(402), 하나 또는 그 이상의 네트워크들(404), 및 데이터 소스들(406)을 포함할 수 있다. 서버(402)는 계층적 토픽 모델링 컴포넌트(408)를 포함할 수 있으며, 계층적 토픽 모델링 컴포넌트(408)는 학습 컴포넌트(410), 계층적 토픽 컴포넌트(412), 클러스터 컴포넌트(414), 식별 컴포넌트(415), 증강 컴포넌트(416), 및/또는 시딩 컴포넌트(418)를 포함할 수 있다. 서버(402)는 또한 적어도 하나의 메모리(420)를 포함하거나 그렇지 않으면 연관될 수 있다. 서버(402)는 시스템 버스(422)를 더 포함할 수 있으며, 시스템 버스(422)는 계층적 토픽 모델링 컴포넌트(408) 및 연관된 컴포넌트들, 메모리(420) 및/또는 프로세서(424)를 포함하나, 이들에 국한하지 않는 다양한 컴포넌트들을 결합할 수 있다. 서버(402)가 도 4에 도시되어 있지만, 다른 실시 예들에서는, 임의의 수의 다른 유형들의 디바이스들이, 계층적 토픽 모델링 컴포넌트(408)의 일부로서, 도 4에 도시된 컴포넌트들과 연관되거나 포함할 수 있다. 모든 그러한 실시 예들이 가능하다
[0044] 계층적 토픽 모델링 컴포넌트(408)는 하나 또는 그 이상의 데이터 소스들(406)에서 학습될 수 있는 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 용이하게 할 수 있다. 데이터 소스들(406)은 구조화된(structured) 및/또는 비-구조화된(unstructured) 데이터를 포함할 수 있다. "비-구조화된 데이터"라는 용어는 사람들이 사용하는 것을 의미하는 비제한적인 자연 언어로 제공된 데이터를 가리킨다. 비-구조화된 데이터는 다음을 포함하나, 이에 국한되지 않는다: 하나 또는 그 이상의 사용자들과의 커뮤니케이션을 위한 컴퓨팅 시스템/애플리케이션과 연관된 대화 데이터, 소셜 매체 포스트들 및/또는 해설(social media posts and/or commentary), 그리고, 하나 또는 그 이상의 사용자들에 의해 만들어진, 연관된 메타데이터, 뉴스 포스트들 및/또는 해설, 그리고 연관된 메타데이터, 및/또는 포스트들 및/또는 해설, 그리고, 논의를 조성하는 하나 또는 그 이상의 웹 사이트들에서, 연관된 메타데이터. 상기 비-구조화된 데이터는 하나 또는 그 이상의 주체들(예: 하나 또는 그 이상의 사용자들)에 의해서 생성될 수 있고 인간이 사용하는 비-수치(non-numerical) 언어(예: 음성 언어)의 코퍼스(예: 인터넷, 웹사이트, 네트워크, 등.)에 기여된 정보를 포함할 수 있다.
[0045] 다양한 실시 예들에서, 하나 또는 그 이상의 데이터 소스들(406)은 직접 또는 하나 또는 그 이상의 네트워크들(404)(예: 인트라넷, 인터넷, 커뮤니케이션 시스템, 및/또는 이들의 조합)을 통해 서버(402)에 액세스할 수 있는 데이터를 포함할 수 있다. 예를 들어, 하나 또는 그 이상의 데이터 소스들(406)은 사용자 생성의(user-generated) 데이터를 저장할 수 있는 컴퓨터-판독가능(computer-readable) 스토리지 디바이스(예: 1차 스토리지 디바이스, 2차 스토리지 디바이스, 3차 스토리지 디바이스 또는 오프라인(off-line) 스토리지 디바이스)가 포함될 수 있다. 다른 예에서, 하나 또는 그 이상의 데이터 소스들(406)은 커뮤니티 호스트를 포함할 수 있으며, 상기 커뮤니티 호스트는 네트워크(예: 인터넷)를 통해 사용자 생성의 데이터의 공유를 용이하게 하는 웹사이트 및/또는 애플리케이션을 포함한다.
[0046] 계층적 토픽 모델링 컴포넌트(408)를 포함한, 하나 또는 그 이상의 서버들(402)과 하나 또는 그 이상의 데이터 소스들(406)은 직접 또는 하나 또는 그 이상의 네트워크들을 통해 접속될 수 있다. 그러한 네트워크들(404)은 유선 및 무선 네트워크들을 포함할 수 있으며, 여기에는 셀룰러 네트워크, 광역 커뮤니케이션망(WAN)(예: 인터넷) 또는 근거리 커뮤니케이션망(LAN)이 포함되지만, 그러나 이것들에 국한되지는 않는다. 예를 들어, 서버(402)는 거의 모든 원하는 유선 또는 무선 기술을 사용하여 하나 또는 그 이상의 데이터 소스들(406)과 통신할 수 있으며(그 반대의 경우도 마찬가지이다), 이 기술에는 예를 들어, 셀룰러, WAN, 무선 충실도(Wi-Fi), Wi-Max, WLAN, 등이 포함될 수 있다. 또한, 비록 도시된 실시 예에서 계층적 토픽 모델링 컴포넌트(408)가 서버 디바이스(402)에 제공되지만, 시스템(400)의 아키텍처가 그렇게 제한되는 것이 아님을 이해해야 한다. 예를 들어, 계층 토픽 모델링 컴포넌트(408) 또는 계층 토픽 모델링 컴포넌트(408)의 하나 또는 그 이상의 컴포넌트들은 다른 서버 디바이스, 클라이언트 디바이스, 등과 같은, 다른 디바이스에 위치될 수 있다.
[0047] 일 실시 예에서, 학습 컴포넌트(410)는 하나 또는 그 이상의 데이터 소스들(406)로부터 계층적 토픽 모델을 학습할 수 있다. 학습 컴포넌트(410)는, 예를 들어, 자연 언어 처리("NLP")와 같은, 하나 또는 그 이상의 머신 러닝 작업들을 수행할 수 있다. 토픽 모델 데이터베이스(426)는 각 계층적 토픽 모델(새롭게 학습된 각 계층적 토픽 모델을 포함)을 저장, 유지, 및 액세스할 수 있으며, 상기 각 계층적 토픽 모델은 토픽 모델 데이터베이스(426)를 통해 메모리(420)에 보관/저장될 수도 있다.
[0048] 클러스터링 컴포넌트(414)는 하나 또는 그 이상의 데이터 소스들(406)로부터 획득된 데이터로부터 하나 또는 그 이상의 단어 벡터들을 생성하고 하나 또는 그 이상의 상기 단어 벡터들 각각을 스코어링 할 수 있다(score). 클러스터링 컴포넌트(414)는 하나 또는 그 이상의 단어 벡터들로부터 복수의 클러스터들을 또한 생성할 수 있다. 선택된 클러스터는 복수의 클러스터들로부터 식별될 수 있고 킹 클러스터로 식별/레이블 된다(identified/labled). 즉, K 민즈 클러스터링 작업(a K means clustering operation)이 단어 벡터들을 K 클러스터들로 요약할 때 각 반복에서 채용될 수 있으며, 여기서 "K"는 양의 정수 또는 정의된 값이다. K 클러스터들은 하나 또는 그 이상의 "킹 클러스터들"을 포함할 수 있다. 일 실시 예에서, 킹 클러스터는 총수의 K 클러스터들에서 가장 큰 클러스터(예: 가장 많은 문서들 또는 데이터 소스들을 포함하는 클러스터)이다. 킹 클러스터는 복수의 클러스터들 중에서 가장 큰 클러스터일 수 있다.
[0049] 클러스터링 컴포넌트(414)는 선택된 클러스터를 각 반복에서 복수의 클러스터들로 나눌 수 있다. 클러스터링 컴포넌트(414)는, 식별 컴포넌트(415)와 관련하여, 선택된 대체 클러스터(alternative selected cluster)(예: 제2 또는 대체 킹 클러스터)을 복수의 클러스터들로부터 식별할 수 있고, 동시에 선택된 대체 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거할 수 있다. 즉, 클러스터 컴포넌트(414)는, 식별 컴포넌트(415)와 관련하여, 상기 복수의 클러스터들 각각 사이에서의 하나 또는 그 이상의 차이들을 식별할 수 있는 동시에 선택된 클러스터의 하나 또는 그 이상의 지배적인 단어들을 각 반복에서 반복적으로 제거할 수 있다. 일 실시 예에서, 선택된 대체 클러스터는 또한 킹 클러스터일 수도 있고 대체 킹 클러스터는 상기 복수의 클러스터들의 후속의 클러스터링 반복에서 가장 큰 클러스터이다.
[0050] 계층적 토픽 컴포넌트(412)는 계층적 토픽 모델을 사용하여 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거할 수 있다. 일 실시 예에서, 상기 지배적인 단어들은 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련된다.
[0051] 시딩 컴포넌트(418)는 계층적 토픽 모델을 발전시키기 위해 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들 또는 이들의 조합으로 상기 학습된 계층적 토픽 모델을 시드할 수 있다. 계층적 토픽 컴포넌트(412)는, 시딩 컴포넌트(418) 및/또는 증강 컴포넌트(416)와 관련하여, 제거된 도메인 단어들을 시딩 완료 후 복원할 수 있다. 일 실시 예에서, 시딩 컴포넌트(418)는 기존의 토픽 모델로 계층적 토픽 모델을 시드 할 수 있다. 또한, 시딩 컴포넌트(418)는 하나 또는 그 이상의 클러스터 모델들에 따라 복수의 클러스터들의 각각을 시드 할 수 있다.
[0052] 따라서, 계층적 토픽 모델링 컴포넌트(408)는 도메인 전문가(a domain expert)에 의해서 토픽들이 해석될 수 있는(예를 들어, 토픽의 설명이 사용자에 의해서 판독가능한) 설명능력 및 해석능력(explainability, interpretability)을 제공한다. 계층적 토픽 모델링 컴포넌트(408)는 멀티-레벨(multi-level) 요약(예: 단어들, n그램들, 대화 토막들, 문서들)을 제공한다. 일 실시 예에서, 단어 및 n그램 레벨 표현들은 머신 러닝과 n그램에 사용될 수 있고 대화 토막 레벨 표현들은 도메인 전문가에 의해서 분석가 사용(analyst consumption)을 위한 것이다. 계층적 토픽 모델링 컴포넌트(408)는 훈련이 하나 또는 그 이상의 코퍼스들에서 발생할 수 있는 확장성과 실시간 스코어링을 제공하고(실시간으로) 따라서 상기 계층적 토픽 모델은 실시간으로 훈련될 수 있다.
[0053] 따라서, 여기에서 기술된 바와 같이, 계층적 토픽 모델링 컴포넌트(408)는 계층적 토픽 모델을 학습하기 위해서 제공하며, 상기 계층적 토픽 모델은 킹 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 계속해서 제거한다(숨기거나 또는 감춘다). 킹 클러스터는 (a) 크기(예: 킹 클러스터들은 클러스터의 크기에 의해서 결정됨) 및 (b) 응집력의 부족(lack of cohesiveness)(예: 커다란 클러스터들은 드문드문할 수록(more sparse) 응집력이 낮은 경향이 있음)으로 식별될 수 있다. 계층적 토픽 모델링 컴포넌트(408)는 학습된 계층적 토픽 모델을 인간이 해석할 수 있는 단어들, 구절들, 및 대화 토막들로 증강하는 기능을 제공한다. 제거된 단어들(예: 숨겨진 또는 감춰진 단어들)은 계층이 증가된 설명능력을 제공함에 따라 복원(예: 숨김 해제 및/또는 감춤 해제)될 수 있다. 계층적 토픽 모델링 컴포넌트(408)는 증강 훈련을 위해 토픽 모델의 시딩을 통한 토픽 발전(topic evolution)을 제공한다. 일련의 측정들이 차이들(예: 크기, 응집력, 중심들(centroids)로의 이동, 트리 구조에 대한 변화)을 캡처하기 위해 사용될 수 있다. 일 실시 예에서, 일련의 측정들을 사용하여 다음과 같은 새로운 토픽 모델과 오래된 토픽 모델 사이의 차이들을 캡처할 수 있다, 예를 들어: 1) 크기(예: 어떻게 클러스터(토픽)가, 예를 들어, 변화된 토픽에 해당하는 문서들의 수와 같은, 크기를 갖는가), 2) 응집력(예: 상기 클러스터가 드문드문 한가 아니면 빡빡 한가?), 3) 중심 이동(shift in centroids) (예: 어떻게 클러스터들의 센터들이 이동되었는가?), 및/또는 4) 트리 구조에 대한 변화(예: 토픽 모델의 전체 구조가 변화되었는가?).
[0054] 이제 도 5로 돌아가면, 다이어그램(500)은 계층적 토픽 모델링을 사용한 희귀 토픽 탐지를 도시한다. 즉, 다이어그램(500)은 문서 특징 벡터들(document feature vectors)이 2차원(2-dimensional)("2D") 공간에 있다고 가정하는 여러 개의 클러스터들을 도시한다. 일 실시 예에서, 도 1-5에 기술된 하나 또는 그 이상의 컴포넌트들, 모듈들, 서비스들, 애플리케이션들, 및/또는 기능들이 도 5에 사용될 수 있다. 여기에 기술된 비슷한 엘리먼트들, 컴포넌트들, 모듈들, 서비스들, 애플리케이션들, 및/또는 기능들의 반복적인 설명은 간결성을 위해 생략한다.
[0055] 예를 들어, 다이어그램(510)(예: 원래의 계층적 토픽 모델(510))는 클러스터들 1 내지 4를 갖는 원래/기존의 토픽 모델을 도시한다. 다이어그램(520)(예: 새로운 계층적 토픽 모델(520))는 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 제공함으로써 토픽 모델링의 발전을 도시한다. 즉, 새로운 계층적 토픽 모델(520)은 원래의 계층적 토픽 모델(510)을 시딩 한 후에 획득된다. 도시된 바와 같이, 새로운 계층적 토픽 모델(520)의 클러스터 1은 크기가 증가됐다. 클러스터 2의 센터는 이동됐고 새로운 계층적 토픽 모델(520)의 센터는 크기가 쪼그라들었다(shrunken). 새로운 계층적 토픽 모델(520)의 클러스터 3은 사라졌다(예: 제거됨). 클러스터 4는 크기가 감소됐다. 이것은 계층적 토픽 모델(520)이 오직 예시로만 사용되고 토픽 모델이 원래의 시드 모델에서 어떻게 발전되는지 예시한다는 점에 유의해야 한다. 따라서, 도시된 바와 같이, 새로운 데이터세트에 대한 계층적 토픽 모델(520)의 시딩 및 재훈련에 기초하여, 하나 또는 그 이상의 최적의 솔루션들이 점진적으로 클러스터링에 대해 식별되고, 상기 최적의 솔루션들에서 클러스터들은 하나 또는 그 이상의 서로 다른 모양들, 크기들로 발전하거나, 및/또는 존재가 결정되기도 한다.
[0056] 이제 도 6으로 돌아가면, 계층적 토픽 모델링을 사용한 희귀 토픽 탐지를 프로세서에 의해서 제공하는 방법(600)이 설명되며, 상기 방법은 다양한 실시 예들이 구현될 수 있다. 즉, 도 6은 본 발명의 일 예에 따라 컴퓨팅 환경에서 계층적 토픽 모델링을 사용한 희귀 토픽 탐지를 제공하는 추가적인 예의 방법(600)의 플로차트이다. 방법(600)은 머신에서 명령들로 실행되는 방법으로 구현될 수 있고, 상기 명령들은 적어도 하나의 컴퓨터 판독가능 매체 또는 하나의 비일시적(non-transitory) 머신-판독가능(machine-readable) 스토리지 매체 상에 포함될 수 있다. 방법(600)은 블록(602)에서 시작할 수 있다.
[0057] 계층적 토픽 모델은 블록(604)에서와 같이, 하나 또는 그 이상의 데이터 소스들로부터 학습될 수 있다. 선택된 클러스터 내의 하나 또는 그 이상의 지배적인 단어들은 블록(606)에서와 같이, 계층적 토픽 모델을 사용하여 반복적으로 제거될 수 있다. 지배적인 단어들은 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련될 수 있다. 상기 학습된 계층적 토픽 모델은 계층적 토픽 모델을 발전시키기 위해 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들, 또는 이들의 조합으로 시드될 수 있고 제거된 지배적인 단어들은, 블록(608)에서와 같이, 시드 완료 후 복원된다. 방법(600)은 블록(610)에서 종료될 수 있다.
[0058] 일 실시 예에서, 도 6의 적어도 하나의 블록과 결합 및/또는 블록의 일부로서, 방법(600)은 다음 중 하나 또는 그 이상을 포함할 수 있다. 방법(600)은 하나 또는 그 이상의 단어 벡터들을 생성하고 하나 또는 그 이상의 단어 벡터들 각각을 스코어링 할 수 있으며, 또한 하나 또는 그 이상의 단어 벡터들로부터 복수의 클러스터들을 생성할 수 있으며, 선택된 클러스터는 상기 복수의 클러스터들로부터 식별되어 킹 클러스터가 되며, 상기 킹 클러스터는 복수의 클러스터들에서 가장 큰 클러스터이다. 방법(600)은 선택된 클러스터를 각 반복에서 복수의 클러스터들로 나누거나, 및/또는 복수의 클러스터들로부터 선택된 대체 클러스터를 식별하고 동시에 선택된 대체 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거할 수 있다. 선택된 대체 클러스터는 킹 클러스터이고 상기 킹 클러스터는 복수의 클러스터들에서 가장 큰 클러스터이다.
[0059] 방법(600)은 계층적 토픽 모델을 기존의 토픽 모델로 시드하거나, 및/또는 하나 또는 그 이상의 클러스터 모델들에 따라 복수의 클러스터들의 각각을 시드할 수 있다.
[0060] 방법(600)은 복수의 클러스터들의 각각 사이의 하나 또는 그 이상의 차이들을 식별할 수 있는 동시에 선택된 클러스터에 있는 하나 또는 그 이상의 지배적인 단어들을 각 반복에 반복적으로 제거한다.
[0061] 본 발명의 실시 예들은 시스템, 방법, 및/또는 컴퓨터 프로그램 제품이 될 수 있다. 컴퓨터 프로그램 제품은 컴퓨터 판독 가능 스토리지 매체를 포함할 수 있으며, 이 매체 상에 프로세서가 본 발명의 실시 예들을 수행하도록 하는 컴퓨터 판독 가능 프로그램 명령들을 갖는다.
[0062] 상기 컴퓨터 판독 가능 스토리지 매체는 명령 실행 장치에 의해 사용될 명령들을 유지 및 저장할 수 있는 유형의(tangible) 디바이스일 수 있다. 상기 컴퓨터 판독 가능 스토리지 매체는, 예를 들면, 전자 스토리지 디바이스, 자기 스토리지 디바이스, 광 스토리지 디바이스, 전자기 스토리지 디바이스, 반도체 스토리지 디바이스, 또는 전술한 것들의 모든 적절한 조합일 수 있으며, 그러나 이에 한정되지는 않는다. 컴퓨터 판독 가능 스토리지 매체의 더 구체적인 예들의 비포괄적인 목록에는 다음이 포함될 수 있다: 휴대용 컴퓨터 디스켓, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독-전용 메모리(ROM), 소거 및 프로그램가능 판독-전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대용 컴팩트 디스크 판독-전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 천공-카드들 또는 명령들이 기록된 홈에 있는 융기된 구조들 같이 기계적으로 인코드 된 장치, 및 전술한 것들의 모든 적절한 조합. 본 명세서에서 사용될 때, 컴퓨터 판독 가능 스토리지 매체는 무선 전파들이나 다른 자유롭게 전파되는 전자기파들, 도파관이나 기타 전송 매체(예를 들어, 광섬유 케이블을 통해 전달되는 광 펄스들)를 통해 전파되는 전자기파들, 또는 선(wire)을 통해 전송되는 전기 신호들 같이 그 자체로 일시적인(transitory) 신호들로 해석되지는 않는다.
[0063] 여기에 기술되는 컴퓨터 판독 가능 명령들은, 예를 들어, 인터넷, 근거리 커뮤니케이션망, 광역 커뮤니케이션망 및/또는 무선 네트워크 등의 커뮤니케이션망(네트워크)을 통해 컴퓨터 판독 가능 스토리지 매체로부터 각각 컴퓨팅/처리 디바이스들로 또는 외부 스토리지 디바이스로부터 외부 컴퓨터로 다운로드 될 수 있다. 상기 커뮤니케이션망은 구리 전송 케이블들, 광 전송 섬유들, 무선 전송, 라우터들, 방화벽들, 스위치들, 게이트웨이 컴퓨터들 및/또는 엣지 서버들을 포함할 수 있다. 각 컴퓨팅/처리 장치 내 네트워크 어댑터 카드 또는 네트워크 인터페이스는 상기 커뮤니케이션망으로부터 컴퓨터 판독 가능 프로그램 명령들을 수신하고 그 컴퓨터 판독 가능 프로그램 명령들을 각각의 컴퓨팅/처리 디바이스 내의 컴퓨터 판독 가능 스토리지 매체에 저장하기 위해 전송한다.
[0064] 본 발명의 연산들을 실행하기 위한 컴퓨터 판독 가능 프로그램 명령들은 Smalltalk, C++ 또는 그와 유사 언어 등의 객체 지향 프로그래밍 언어와 "C" 프로그래밍 언어 또는 그와 유사한 프로그래밍 언어 등의 종래의 절차적 프로그래밍 언어들을 포함하여, 하나 또는 그 이상의 프로그래밍 언어들을 조합하여 작성된(written) 어셈블러 명령들, 명령-세트-아키텍처(ISA) 명령들, 머신 명령들, 머신 종속 명령들, 마이크로코드, 펌웨어 명령들, 상태-셋팅 데이터, 집적회로를 위한 구성 데이터, 또는 소스 코드나 목적 코드일 수 있다. 상기 컴퓨터 판독 가능 프로그램 명령들은 전적으로 사용자의 컴퓨터상에서, 부분적으로 사용자의 컴퓨터상에서, 독립형(stand-alone) 소프트웨어 패키지로서, 부분적으로 사용자의 컴퓨터상에서 그리고 부분적으로 원격 컴퓨터상에서 또는 전적으로 원격 컴퓨터나 서버상에서 실행될 수 있다. 위에서 마지막의 경우에, 원격 컴퓨터는 근거리 커뮤니케이션망(LAN) 또는 광역 커뮤니케이션망(WAN)을 포함한 모든 종류의 네트워크를 통해서 사용자의 컴퓨터에 접속될 수 있고, 또는 이 접속은 (예를 들어, 인터넷 서비스 제공자를 이용한 인터넷을 통해서) 외부 컴퓨터에 이루어질 수도 있다. 일부 실시 예들에서, 예를 들어 프로그램 가능 로직 회로, 필드-프로그램 가능 게이트 어레이들(FPGA), 또는 프로그램 가능 로직 어레이들(PLA)을 포함한 전자 회로는 본 발명의 실시 예들을 수행하기 위해 전자 회로를 맞춤화하도록 상기 컴퓨터 판독 가능 프로그램 명령들의 상태 정보를 활용하여 상기 컴퓨터 판독 가능 프로그램 명령들을 실행할 수 있다.
[0065] 여기에서는 본 발명의 실시 예들에 따른 방법들, 장치들(시스템들), 및 컴퓨터 프로그램 제품들의 플로 차트 예시도들 및/또는 블록도들을 참조하여 본 발명의 실시 예들이 기술된다. 플로 차트 예시도들 및/또는 블록도들의 각 블록과 플로 차트 예시도들 및/또는 블록도들 내 블록들의 조합들은 컴퓨터 판독 가능 프로그램 명령들에 의해 구현될 수 있다는 것을 이해할 수 있을 것이다.
[0066] 이들 컴퓨터 판독 가능 프로그램 명령들은 범용 컴퓨터, 특수목적용 컴퓨터, 또는 기타 프로그램가능 데이터 처리 장치의 프로세서에 제공되어 머신(machine)을 생성하고, 그렇게 하여 그 명령들이 상기 컴퓨터 또는 기타 프로그램가능 데이터 처리 장치의 프로세서를 통해서 실행되어, 상기 플로 차트 및/또는 블록도의 블록 또는 블록들에 명시된 기능들/동작들을 구현하기 위한 수단을 생성할 수 있다. 이들 컴퓨터 판독 가능 프로그램 명령들은 또한 컴퓨터 판독 가능 스토리지 매체에 저장될 수 있으며, 컴퓨터, 프로그램가능 데이터 처리 장치 및/또는 기타 디바이스들에 지시하여 명령들이 저장된 상기 컴퓨터 판독 가능 스토리지 매체가 상기 플로 차트 및/또는 블록도의 블록 또는 블록들에 명시된 기능/동작의 특징들을 구현하는 명령들을 포함하는 제조품(an article of manufacture)을 포함하도록 특정한 방식으로 기능하게 할 수 있다.
[0067] 상기 컴퓨터 판독 가능 프로그램 명령들은 또한 컴퓨터, 기타 프로그램가능 데이터 처리 장치, 또는 다른 디바이스에 로드 되어, 상기 컴퓨터, 기타 프로그램가능 장치 또는 다른 디바이스에서 일련의 동작 단계들이 수행되게 하여 컴퓨터 구현 프로세스를 생성하며, 그렇게 하여 상기 컴퓨터, 기타 프로그램가능 장치, 또는 다른 디바이스 상에서 실행되는 명령들이 플로 차트 및/또는 블록도의 블록 또는 블록들에 명시된 기능들/동작들을 구현할 수 있다.
[0068] 도면들 내 플로 차트 및 블록도들은 본 발명의 여러 실시 예들에 따른 시스템들, 방법들 및 컴퓨터 프로그램 제품들의 가능한 구현들의 아키텍처, 기능(functionality), 및 연산(operation)을 예시한다. 이와 관련하여, 상기 플로 차트 또는 블록도들 내 각 블록은 상기 명시된 논리적 기능(들)을 구현하기 위한 하나 또는 그 이상의 실행 가능한 명령들을 포함한 모듈, 세그먼트 또는 명령들의 일부분을 나타낼 수 있다. 일부 다른 구현들에서, 상기 블록에 언급되는 기능들은 도면들에 언급된 순서와 다르게 일어날 수도 있다. 예를 들면, 연속으로 도시된 두 개의 블록들은 실제로는 사실상 동시에 실행될 수도 있고, 또는 이 두 블록들은 때때로 관련된 기능에 따라서는 역순으로 실행될 수도 있다. 블록도들 및/또는 순서 예시도의 각 블록, 및 블록도들 및/또는 순서 예시도 내 블록들의 조합들은 특수목적용 하드웨어 및 컴퓨터 명령들의 명시된 기능들 또는 동작들, 또는 이들의 조합들을 수행하는 특수목적용 하드웨어-기반 시스템들에 의해 구현될 수 있다는 것에 또한 주목해야 한다.

Claims (20)

  1. 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 프로세서에 의해서 제공하는 방법에 있어서, 상기 방법은:
    하나 또는 그 이상의 데이터 소스들로부터 계층적 토픽 모델을 학습하는 단계;
    상기 계층적 토픽 모델을 사용하여 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들(dominant words)을 반복적으로 제거하는 단계 - 상기 지배적인 단어들은 상기 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련됨-; 및
    상기 계층적 토픽 모델을 발전시키기 위해 상기 학습된 계층적 토픽 모델에 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들(text snippets), 또는 이들의 조합을 시드하는 단계(seeding)를 포함하고, 상기 제거된 지배적인 단어들은 상기 시드하는 단계가 완료된 후 복원되는
    방법.
  2. 제 1항에 있어서, 상기 방법은 하나 또는 그 이상의 단어 벡터들을 발생시키는 단계(generating) 및 상기 하나 또는 그 이상의 단어 벡터들 각각을 스코어링하는 단계(scoring)를 더 포함하는
    방법.
  3. 제 1항에 있어서, 상기 방법은 상기 하나 또는 그 이상의 단어 벡터들로부터 복수의 클러스터들을 생성하는 단계를 더 포함하고, 상기 선택된 클러스터는 상기 복수의 클러스터들로부터 식별되어 킹 클러스터(a king cluster)가 되며, 상기 킹 클러스터는 상기 복수의 클러스터들에서 가장 큰 클러스터인
    방법.
  4. 제 1항에 있어서, 상기 방법은:
    상기 선택된 클러스터를 각 반복에서 복수의 클러스터들로 나누는 단계(splitting); 및
    선택된 대체 클러스터(an alternative selected cluster)에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거하는 동안 상기 선택된 대체 클러스터를 상기 복수의 클러스터들로부터 식별하는 단계를 더 포함하고, 상기 선택된 대체 클러스터가 킹 클러스터가 되며 상기 킹 클러스터가 상기 복수의 클러스터에서 가장 큰 클러스터인
    방법.
  5. 제 1항에 있어서, 상기 방법은 기존 토픽 모델에 상기 계층적 토픽 모델을 시드하는 단계를 더 포함하는
    방법.
  6. 제 1항에 있어서, 상기 방법은 하나 또는 그 이상의 클러스터 모델들에 따라 복수의 클러스터들의 각각을 시드하는 단계를 더 포함하는
    방법.
  7. 제 1항에 있어서, 상기 방법은 상기 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 각 반복에서 반복적으로 제거하는 동안 상기 복수의 클러스터들의 각각 사이에서 하나 또는 그 이상의 차이들(differences)을 식별하는 단계를 더 포함하는
    방법.
  8. 컴퓨팅 환경에서 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를 제공하는 시스템에 있어서, 상기 시스템은:
    실행 가능한 명령들을 갖는 하나 또는 그 이상의 컴퓨터들을 포함하고, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이:
    하나 또는 그 이상의 데이터 소스들로부터 계층적 토픽 모델을 학습하는 단계;
    상기 계층적 토픽 모델을 사용하여 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들(dominant words)을 반복적으로 제거하는 단계 - 상기 지배적인 단어들은 상기 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련됨-; 그리고
    상기 계층적 토픽 모델을 발전시키기 위해 상기 학습된 계층적 토픽 모델에 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들(text snippets), 또는 이들의 조합을 시드하는 단계를 수행하도록 하고, 상기 제거된 지배적인 단어들은 상기 시드하는 단계가 완료된 후 복원되는
    시스템.
  9. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이 하나 또는 그 이상의 단어 벡터들을 생성하는 단계(generating) 및 상기 하나 또는 그 이상의 단어 벡터들 각각을 스코어링하는 단계(scoring)를 더 수행하게 하는
    시스템.
  10. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이 상기 하나 또는 그 이상의 단어 벡터들로부터 복수의 클러스터들을 생성하는 단계를 더 수행하게 하고, 상기 선택된 클러스터는 상기 복수의 클러스터들로부터 식별되어 킹 클러스터(a king cluster)가 되며, 상기 킹 클러스터는 상기 복수의 클러스터들에서 가장 큰 클러스터인
    시스템.
  11. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이:
    상기 선택된 클러스터를 각 반복에서 복수의 클러스터들로 나누는 단계(splitting); 및
    선택된 대체 클러스터(an alternative selected cluster)에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거하는 동안 상기 대안으로 선택된 클러스터를 상기 복수의 클러스터들로부터 식별하는 단계를 더 수행하게 하고, 상기 선택된 대체 클러스터가 킹 클러스터가 되며 상기 킹 클러스터가 상기 복수의 클러스터에서 가장 큰 클러스터인
    시스템.
  12. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이 기존 토픽 모델에 상기 계층적 토픽 모델을 시드하는 단계를 더 수행하게 하는
    시스템.
  13. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이 하나 또는 그 이상의 클러스터 모델들에 따라 복수의 클러스터들의 각각을 시드하는 단계를 더 수행하게 하는
    시스템.
  14. 제 8항에 있어서, 상기 실행 가능한 명령들은 실행되었을 때 상기 시스템이 상기 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 각 반복에서 반복적으로 제거하는 동안 상기 복수의 클러스터들의 각각 사이에서 하나 또는 그 이상의 차이들(differences)을 식별하는 단계를 더 수행하게 하는
    시스템.
  15. 계층적 토픽 모델링을 사용하여 희귀 토픽 탐지를, 프로세서에 의해서, 제공하는 컴퓨터 프로그램 제품에 있어서, 상기 컴퓨터 프로그램 제품은 그 안에 저장된 컴퓨터-판독 가능 프로그램 코드 부분들을 갖는 비-일시적인 컴퓨터-판독 가능 스토리지 매체를 포함하고, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은:
    하나 또는 그 이상의 데이터 소스들로부터 계층적 토픽 모델을 학습하는 단계;
    상기 계층적 토픽 모델을 사용하여 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들(dominant words)을 반복적으로 제거하는 단계 - 상기 지배적인 단어들은 상기 클러스터의 하나 또는 그 이상의 초기의 토픽들과 관련됨-; 및
    상기 계층적 토픽 모델을 발전시키기 위해 상기 학습된 계층적 토픽 모델에 하나 또는 그 이상의 단어들, n-그램들, 구절들, 텍스트 토막들(text snippets), 또는 이들의 조합을 시드하는 단계(seeding)를 수행하는 실행 가능 부분(an executable portion)을 포함하고, 상기 제거된 지배적인 단어들은 상기 시드하는 단계가 완료된 후 복원되는
    컴퓨터 프로그램 제품.
  16. 제 15항에 있어서, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은 하나 또는 그 이상의 단어 벡터들을 생성하는 단계(generating) 및 상기 하나 또는 그 이상의 단어 벡터들 각각을 스코어링하는 단계(scoring)를 수행하는 실행 가능 부분을 더 포함하는
    컴퓨터 프로그램 제품.
  17. 제 15항에 있어서, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은 상기 하나 또는 그 이상의 단어 벡터들로부터 복수의 클러스터들을 발생시키는 단계를 수행하는 실행 가능 부분을 더 포함하고, 상기 선택된 클러스터는 상기 복수의 클러스터들로부터 식별되어 킹 클러스터(a king cluster)가 되며, 상기 킹 클러스터는 상기 복수의 클러스터들에서 가장 큰 클러스터인
    컴퓨터 프로그램 제품.
  18. 제 15항에 있어서, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은:
    상기 선택된 클러스터를 각 반복에서 복수의 클러스터들로 나누는 단계(splitting); 및
    선택된 대체 클러스터(an alternative selected cluster)에서 하나 또는 그 이상의 지배적인 단어들을 반복적으로 제거하는 동안 상기 선택된 대체 클러스터를 상기 복수의 클러스터들로부터 식별하는 단계를 수행하는 실행 가능 부분을 더 포함하고, 상기 선택된 대체 클러스터가 킹 클러스터가 되고 상기 킹 클러스터가 상기 복수의 클러스터에서 가장 큰 클러스터인
    컴퓨터 프로그램 제품.
  19. 제 15항에 있어서, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은:
    기존 토픽 모델에 상기 계층적 토픽 모델을 시드하는 단계 또는
    하나 또는 그 이상의 클러스터 모델들에 따라 복수의 클러스터들의 각각을 시드하는 단계를 수행하는 실행 가능 부분을 더 포함하는
    컴퓨터 프로그램 제품.
  20. 제 15항에 있어서, 상기 컴퓨터-판독 가능 프로그램 코드 부분들은 상기 선택된 클러스터에서 하나 또는 그 이상의 지배적인 단어들을 각 반복에서 반복적으로 제거하는 동안 상기 복수의 클러스터들의 각각 사이에서 하나 또는 그 이상의 차이들(differences)을 식별하는 단계를 수행하는 실행 가능 부분을 더 포함하는
    컴퓨터 프로그램 제품.
KR1020227008090A 2019-10-08 2020-09-29 계층적 클러스터링을 사용한 희귀 토픽 탐지 KR20220050915A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
US16/596,399 2019-10-08
US16/596,399 US20210103608A1 (en) 2019-10-08 2019-10-08 Rare topic detection using hierarchical clustering
PCT/IB2020/059112 WO2021070005A1 (en) 2019-10-08 2020-09-29 Rare topic detection using hierarchical clustering

Publications (1)

Publication Number Publication Date
KR20220050915A true KR20220050915A (ko) 2022-04-25

Family

ID=75273583

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020227008090A KR20220050915A (ko) 2019-10-08 2020-09-29 계층적 클러스터링을 사용한 희귀 토픽 탐지

Country Status (7)

Country Link
US (1) US20210103608A1 (ko)
JP (1) JP2022552140A (ko)
KR (1) KR20220050915A (ko)
CN (1) CN114424197A (ko)
AU (1) AU2020364386B2 (ko)
GB (1) GB2604276A (ko)
WO (1) WO2021070005A1 (ko)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354345B2 (en) * 2020-06-22 2022-06-07 Jpmorgan Chase Bank, N.A. Clustering topics for data visualization
US11941038B2 (en) 2022-05-19 2024-03-26 International Business Machines Corporation Transparent and controllable topic modeling

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7809704B2 (en) * 2006-06-15 2010-10-05 Microsoft Corporation Combining spectral and probabilistic clustering
US7912847B2 (en) * 2007-02-20 2011-03-22 Wright State University Comparative web search system and method
US20100153318A1 (en) * 2008-11-19 2010-06-17 Massachusetts Institute Of Technology Methods and systems for automatically summarizing semantic properties from documents with freeform textual annotations
US9031944B2 (en) * 2010-04-30 2015-05-12 Palo Alto Research Center Incorporated System and method for providing multi-core and multi-level topical organization in social indexes
US8843497B2 (en) * 2012-02-09 2014-09-23 Linkshare Corporation System and method for association extraction for surf-shopping
CN103927176B (zh) * 2014-04-18 2017-02-22 扬州大学 一种基于层次主题模型的程序特征树的生成方法
CN103970865B (zh) * 2014-05-08 2017-04-19 清华大学 基于种子词的微博文本层次主题发现方法及系统
WO2016057984A1 (en) * 2014-10-10 2016-04-14 San Diego State University Research Foundation Methods and systems for base map and inference mapping
US11645317B2 (en) * 2016-07-26 2023-05-09 Qualtrics, Llc Recommending topic clusters for unstructured text documents
US10997509B2 (en) * 2017-02-14 2021-05-04 Cognitive Scale, Inc. Hierarchical topic machine learning operation
CN109544632B (zh) * 2018-11-05 2021-08-03 浙江工业大学 一种基于层次主题模型的语义slam对象关联方法

Also Published As

Publication number Publication date
AU2020364386B2 (en) 2024-01-04
CN114424197A (zh) 2022-04-29
AU2020364386A1 (en) 2022-03-24
WO2021070005A1 (en) 2021-04-15
US20210103608A1 (en) 2021-04-08
GB2604276A (en) 2022-08-31
JP2022552140A (ja) 2022-12-15
GB202206094D0 (en) 2022-06-08

Similar Documents

Publication Publication Date Title
US11093707B2 (en) Adversarial training data augmentation data for text classifiers
US11269965B2 (en) Extractive query-focused multi-document summarization
US10614269B2 (en) Training data update
US10956684B2 (en) Topic kernelization for real-time conversation data
US11182557B2 (en) Driving intent expansion via anomaly detection in a modular conversational system
US10740380B2 (en) Incremental discovery of salient topics during customer interaction
US11189269B2 (en) Adversarial training data augmentation for generating related responses
US11645513B2 (en) Unary relation extraction using distant supervision
US11481442B2 (en) Leveraging intent resolvers to determine multiple intents
US11748393B2 (en) Creating compact example sets for intent classification
US20230092274A1 (en) Training example generation to create new intents for chatbots
US10671928B2 (en) Adaptive analytical modeling tool
AU2020364386B2 (en) Rare topic detection using hierarchical clustering
US20230186107A1 (en) Boosting classification and regression tree performance with dimension reduction
US11675856B2 (en) Product features map
US20220092403A1 (en) Dialog data processing
US11227127B2 (en) Natural language artificial intelligence topology mapping for chatbot communication flow
US20230078698A1 (en) Inter-training of pre-trained transformer-based language models using partitioning and classification
US20170116629A1 (en) System for searching existing customer experience information through cross-industries from text descriptions on a customer experience

Legal Events

Date Code Title Description
A201 Request for examination