KR102227593B1 - 학습-기반 그룹 태깅을 위한 시스템 및 방법 - Google Patents

학습-기반 그룹 태깅을 위한 시스템 및 방법 Download PDF

Info

Publication number
KR102227593B1
KR102227593B1 KR1020187038157A KR20187038157A KR102227593B1 KR 102227593 B1 KR102227593 B1 KR 102227593B1 KR 1020187038157 A KR1020187038157 A KR 1020187038157A KR 20187038157 A KR20187038157 A KR 20187038157A KR 102227593 B1 KR102227593 B1 KR 102227593B1
Authority
KR
South Korea
Prior art keywords
users
data
subset
platform
data fields
Prior art date
Application number
KR1020187038157A
Other languages
English (en)
Other versions
KR20190015410A (ko
Inventor
웬준 양
장 리
홍보 링
리펭 카오
지후아 창
판 양
Original Assignee
베이징 디디 인피니티 테크놀로지 앤드 디벨럽먼트 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 디디 인피니티 테크놀로지 앤드 디벨럽먼트 컴퍼니 리미티드 filed Critical 베이징 디디 인피니티 테크놀로지 앤드 디벨럽먼트 컴퍼니 리미티드
Publication of KR20190015410A publication Critical patent/KR20190015410A/ko
Application granted granted Critical
Publication of KR102227593B1 publication Critical patent/KR102227593B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/23Updating
    • G06F16/2379Updates performed during online database operations; commit processing
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/22Matching criteria, e.g. proximity measures
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/20Information retrieval; Database structures therefor; File system structures therefor of structured data, e.g. relational data
    • G06F16/28Databases characterised by their database models, e.g. relational or object models
    • G06F16/284Relational databases
    • G06F16/285Clustering or classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24147Distances to closest patterns, e.g. nearest neighbour classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F7/00Methods or arrangements for processing data by operating upon the order or content of the data handled
    • G06F7/06Arrangements for sorting, selecting, merging, or comparing data on individual record carriers
    • G06F7/20Comparing separate sets of record carriers arranged in the same sequence to determine whether at least some of the data in one set is identical with that in the other set or sets
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • G06N5/025Extracting rules from data

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Databases & Information Systems (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Computational Linguistics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)
  • Image Analysis (AREA)

Abstract

그룹 태깅을 위한 시스템들 및 방법들이 제공된다. 이러한 시스템은 복수의 사용자들 및 복수의 관련된 데이터 필드들을 포함하는 플랫폼 데이터에 액세스 가능한 프로세서들, 및 프로세서에 의해 실행될 때 시스템으로 하여금 방법을 수행하게 하는 명령들을 저장하는 메모리를 포함할 수 있다. 방법은 제 1 하위세트 사용자들 및 관련 제 1 태그들을 획득하는 단계; 관련된 데이터 필드들 각각에 대해, 제 1 하위세트 사용자들 및 복수의 사용자들 중 적어도 일부 사이에서 적어도 하나의 차이를 결정하는 단계; 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 데이터 필드를 키 데이터 필드로서 결정하는 단계; 제 1 하위세트 사용자들과 관련된 대응하는 키 데이터 필드들의 데이터를 긍정적인 샘플들로서 결정하는 단계; 키 데이터 필드들에 기초하여, 제 2 하위세트 사용자 및 관련 데이터를 부정적인 샘플들로서 획득하는 단계; 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련하는 단계를 포함할 수 있다.

Description

학습-기반 그룹 태깅을 위한 시스템 및 방법
본 개시사항은 일반적으로 사용자 태깅 및 학습-기반 태깅을 위한 접근법들 및 기술들에 관한 것이다.
플랫폼은 사용자들에게 다양한 서비스들을 제공할 수 있다. 사용자 서비스 및 관리를 가능하게 하기 위하여, 사용자들을 그룹들로 구성하는 것이 바람직하다. 이러한 프로세스는 특히 사용자들의 수가 많아지는 경우 많은 문제들을 야기할 수 있다.
본 개시사항의 다양한 실시예들은 그룹 태깅을 수행하도록 구성된 시스템들, 방법들 및 비-일시적 컴퓨터 판독 가능 매체를 포함할 수 있다. 그룹 태깅을 위한 컴퓨팅 시스템은 플랫폼 데이터에 액세스 가능한 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행될 때 컴퓨팅 시스템이 방법을 수행하게 하는 명령들을 저장하는 메모리를 포함할 수 있다. 플랫폼 데이터는 복수의 사용자들 및 복수의 관련 데이터 필드들을 포함할 수 있다. 이 방법은: 사용자들의 제 1 하위세트 및 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들을 획득하는 단계; 하나 이상의 관련된 데이터 필드들에 대해 각각, 적어도 사용자들의 제 1 하위세트와 상기 복수의 사용자들 중 적어도 일부 사이의 차이를 결정하는 단계; 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여 대응하는 데이터 필드를 키 데이터 필드로서 결정하는 단계; 사용자들의 제 1 하위세트와 관련된 대응하는 하나 이상의 키 데이터 필드들의 데이터를 긍정적인 샘플들로 결정하는 단계; 하나 이상의 키 데이터 필드들에 기초하여, 사용자들의 제 2 하위세트 및 플랫폼 데이터로부터 관련된 데이터를 부정적인 샘플들로서 획득하는 단계; 및 훈련된 그룹 태깅 규칙 모델을 획득하기 위해 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련시키는 단계를 포함할 수 있다.
일부 실시예들에서, 플랫폼 데이터는 복수의 사용자들 각각에 대응하는 테이블형 데이터를 포함할 수 있고, 데이터 필드들은 데이터 크기 또는 데이터 측정기준 중 적어도 하나를 포함할 수 있다.
일부 실시예들에서, 복수의 사용자들은 플랫폼의 사용자들일 수 있고, 플랫폼은 차량 정보 플랫폼일 수 있고, 데이터 필드들은 위치, 사용들의 횟수, 트랜잭션량, 또는 불만들의 횟수 중 적어도 하나를 포함할 수 있다.
일부 실시예들에서, 사용자들의 제 1 하위세트를 획득하는 단계는 플랫폼 데이터에 대한 완전한 액세스 없이 하나 이상의 분석가들로부터 사용자들의 제 1 하위세트의 신원확인들을 수신하는 단계를 포함할 수 있다.
일부 실시예들에서, 플랫폼 데이터는 서버가 사용자들의 제 1 하위세트를 획득하기 전에 제 1 태그들을 포함하지 않을 수 있다.
일부 실시예들에서, 차이는 쿨백-라이블러 발산(Kullback-Leibler divergence)일 수 있다.
일부 실시예들에서, 사용자들의 제 2 하위세트는, 하나 이상의 키 데이터 필드들에 대한 유사성 측정에 기초하여 제 3 임계값을 초과하는 사용자들의 제 1 하위세트와 상이할 수 있다.
일부 실시예들에서, 규칙 모델은 결정 트리 모델일 수 있다.
일부 실시예들에서, 훈련된 그룹 태깅 규칙 모델은 복수의 사용자들 중 하나 이상에 제 1 태그들을 할당할지를 결정할 수 있다.
일부 실시예들에서, 서버는 복수의 사용자들 및 복수의 사용자들에 추가된 새로운 사용자들을 태깅하기 위하여 훈련된 그룹 태깅 규칙 모델의 적용을 수행하도록 추가로 구성된다.
일부 실시예들에서, 그룹 태깅 방법은 플랫폼의 복수의 엔티티들의 제 1 하위세트를 획득하는 단계를 포함할 수 있다. 엔티티들의 제 1 하위세트는 제 1 태그들로 태깅될 수 있고, 플랫폼 데이터는 하나 이상의 데이터 필드들과 관련하여 복수의 엔티티들의 데이터를 포함할 수 있다. 그룹 태깅 방법은 엔티티들의 제 1 하위세트의 하나 이상의 데이터 필드들의 데이터와 복수의 엔티티들의 일부 다른 엔티티들의 데이터 사이의 적어도 하나의 차이를 결정하는 단계를 더 포함할 수 있다. 그룹 태깅 방법은, 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 엔티티들의 제 1 하위세트와 관련된 대응하는 데이터를 긍정적인 샘플들로서, 및 복수의 엔티티들의 제 2 하위세트와 관련된 대응하는 데이터를 부정적인 샘플들로서 획득하는 단계를 더 포함할 수 있다. 그룹 태깅 방법은 훈련된 그룹 태깅 규칙 모델을 획득하기 위해 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련시키는 단계를 추가로 포함할 수 있다. 훈련된 그룹 태깅 규칙 모델은 기존 또는 새로운 엔티티가 제 1 태그로 호칭되지를 결정할 수 있다.
본 명세서에 개시된 시스템들, 방법들 및 비-일시적 컴퓨터 판독 가능 매체의 이들 및 다른 특징들, 또한 구조의 관련 요소들의 동작 방법들 및 기능들, 및 부분들의 조합 및 제조 경제는 첨부된 도면을 참조하여 다음의 설명 및 첨부된 청구항들의 고려시 더욱 명백해질 것이며, 이들 모두는 본 명세서의 일부를 형성하고, 유사한 참조 번호들은 다양한 도면들에서 대응하는 부분들을 나타낸다. 그러나, 도면들이 단지 예시 및 설명의 목적을 위한 것이며, 본 발명의 한계들의 정의로서 의도되지 않는다는 것이 명시적으로 이해될 것이다.
본 기술의 다양한 실시예들의 특정 특징들은 첨부된 청구항들에서 상세하게 설명된다. 본 기술의 특징들 및 이점들의 더 나은 이해는 본 발명의 원리들이 이용되는 예시적인 실시예들을 설명하는 다음의 상세한 설명 및 첨부 도면들을 참조하여 획득될 것이다.
도 1은 다양한 실시예들에 따라, 그룹 태깅을 위한 예시적인 환경을 도시하는 도면.
도 2는 다양한 실시예들에 따라, 그룹 태깅을 위한 예시적인 시스템을 도시하는 도면.
도 3a는 다양한 실시예들에 따라, 예시적인 플랫폼 데이터를 도시하는 도면.
도 3b는 다양한 실시예들에 따라, 제 1 태그를 갖는 예시적인 플랫폼 데이터를 도시하는 도면.
도 3c는 다양한 실시예들에 따라, 결정된 긍정적인 및 부정적인 샘플들 및 키 데이터 필드들을 갖는 예시적인 플랫폼 데이터를 도시하는 도면.
도 3d는 다양한 실시예들에 따라, 태깅된 그룹들을 갖는 예시적인 플랫폼 데이터를 도시하는 도면.
도 4a는 다양한 실시예들에 따라, 그룹 태깅을 위한 예시적인 방법의 흐름도.
도 4b는 다양한 실시예들에 따라, 그룹 태깅을 위한 다른 예시적인 방법의 흐름도.
도 5는 본 명세서에 설명된 임의의 실시예들이 구현될 수 있는 예시적인 컴퓨터 시스템의 블록도.
그룹 태깅은 효과적인 사용자 관리에 필수적이다. 이 방법은 많은 양의 데이터를 순서대로 정렬시킬 수 있고, 추가 데이터 조작, 분석 유도, 및 값 생성을 위한 기초를 생성할 수 있다. 그룹 태깅 없이, 특히 데이터 볼륨이 커질 때 데이터 처리가 비효율적이 된다. 특정 "로컬 태깅 규칙들"을 기반으로 데이터의 작은 부분이 수동으로 태깅될 수 있다할지라도, 이러한 규칙들은 전역 데이터에 걸쳐 확인되지 않으며, 전역적으로 있는 그대로 사용하는 것은 적절하지 않을 수 있다. 또한, 데이터 보안, 제한된 업무 책임 및 기술 배경 부족과 같은 다양한 이유들 때문에, 직접 데이터(first-hand data)를 수집하고 수동 태깅을 수행하기 위하여 사용자 직접 상호작용들을 갖는 분석가들은 전역 데이터에 액세스하도록 허용되지 않을 수 있어, "전역 태깅 규칙들"에 대한 "로컬 태깅 규칙들"의 외삽을 더욱 제한한다.
예를 들어, 많은 사용자들에게 서비스들을 제공하는 온라인 플랫폼에서, 동작 및 고객 서비스 분석가들은 직접 고객들과 상호 작용하여 직접 데이터를 축적할 수 있다. 분석가들은 상호작용들을 기반으로 특정 "로컬 태깅 규칙들"을 또한 만들 수 있고, 예를 들어, 특정 유사한 배경 또는 특성의 사용자들을 함께 분류할 수 있다. 그러나, 분석가들은 전체 플랫폼 데이터에 대한 권한을 제한했고, 각 사용자와 관련된 모든 정보에 액세스하지 못할 수 있다. 반면에, 플랫폼 데이터에 액세스하는 엔지니어들에는 고객 상호작용 경험과 "전역 태깅 규칙들"을 생성하기 위한 기반들이 부족할 수 있다. 따라서, 직접 상호작용(first-hand interaction)을 이용하고, "로컬 태깅 규칙들"을 수정하고, 대규모의 플랫폼 데이터에 적절하고 적용 가능한 "전역 태깅 규칙들"을 얻는 것이 바람직하다.
아래에 기술된 다양한 실시예들은 그룹 태깅의 영역에서 발생하는 이러한 문제점들을 극복할 수 있다. 다양한 구현들에서, 컴퓨팅 시스템은 그룹 태깅 방법을 수행할 수 있다. 그룹 태깅 방법은 플랫폼의 복수의 엔티티들(예컨대, 사용자들, 객체들, 가상 표현들 등)의 제 1 하위세트를 획득하는 단계를 포함할 수 있다. 엔티티들의 제 1 하위세트는 "로컬 태깅 규칙"으로 간주될 수 있는 태깅 규칙에 따라 제 1 태그로 각각 태깅될 수 있고, 플랫폼 데이터는 하나 이상의 데이터 필드들에 관한 복수의 엔티티들의 데이터를 포함할 수 있다. 그룹 태깅 방법은 엔티티들의 제 1 하위세트의 하나 이상의 데이터 필드들의 데이터와 복수의 엔티티들의 일부 다른 엔티티들의 데이터 사이의 적어도 하나의 차이를 결정하는 단계를 더 포함할 수 있다. 그룹 태깅 방법은, 하나 이상의 데이터 필드들의 특정 데이터 필드(들)에서 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 엔티티들의 제 1 하위세트와 관련된 대응하는 데이터를 긍정적인 샘플들로서 획득하는 단계, 및 특정 데이터 필드(들) 내의 엔티티들의 상기 제 1 하위세트의 데이터와 실질적으로 상이한 데이터를 갖는 복수의 엔티티들의 제 2 하위세트와 관련된 대응하는 데이터를 부정적인 샘플들로서 획득하는 단계를 더 포함할 수 있다. 아래에서 논의되는 바와 같이, 실질적인 차이는 유사성 측정 방법에 기초하여 결정될 수 있다. 그룹 태깅 방법은 훈련된 그룹 태깅 규칙 모델을 획득하기 위해 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련시키는 단계를 더 포함할 수 있다. 훈련된 그룹 태깅 규칙 모델은, 기존 또는 새로운 엔티티가 제 1 태그로 호칭되는지의 여부를 결정하기 위하여, 플랫폼 데이터의 일부 또는 전부에 적용될 수 있다. 이러한 결정은 "전역 태깅 규칙"으로 간주될 수 있다.
일부 실시예들에서, 엔티티들은 플랫폼의 사용자들을 포함할 수 있다. 그룹 태깅을 위한 컴퓨팅 시스템은 플랫폼 데이터에 액세스 가능한 서버를 포함할 수 있다. 플랫폼 데이터는 복수의 사용자들 및 복수의 관련 데이터 필드들을 포함할 수 있다. 서버는 플랫폼 데이터에 액세스 가능한 하나 이상의 프로세서들, 및 하나 이상의 프로세서들에 의해 실행될 때 컴퓨팅 시스템으로 하여금 사용자들의 제 1 하위세트 및 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들을 획득하게 하는 명령들을 저장하는 메모리를 포함할 수 있다. 명령은 또한 컴퓨팅 시스템으로 하여금 관련 데이터 필드들 중 하나 이상에 대해 사용자들의 제 1 하위세트와 복수의 사용자들 중 적어도 일부 사이의 적어도 하나의 차이를 각각 결정하게 할 수 있다. 명령은 또한 컴퓨팅 시스템으로 하여금, 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 키 데이터 필드로서 대응하는 데이터 필드를 결정하게 할 수 있다. 명령은 또한 컴퓨팅 시스템으로 하여금 사용자들의 제 1 하위세트와 관련된 대응하는 하나 이상의 키 데이터 필드들의 데이터를 긍정적인 샘플들로서 결정하게 할 수 있다. 명령은 또한 컴퓨팅 시스템으로 하여금 하나 이상의 키 데이터 필드들에 기초하여, 플랫폼 데이터로부터 사용자들의 제 2 하위세트 및 관련 데이터를 부정적인 샘플들로서 획득하게 하는데, 사용자들의 제 2 하위세트의 관련 데이터는 엔티티들의 제 1 하위세트의 데이터와 실질적으로 상이하다. 명령은 또한 컴퓨팅 시스템으로 하여금, 훈련된 그룹 태깅 규칙 모델을 획득하기 위해, 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련시켜, 제 2 정확도 임계값(예를 들어, 미리 결정된 98% 정확도의 임계값)에 도달하게 할 수 있다.
일부 실시예들에 있어서, 플랫폼은 차량 정보 플랫폼일 수 있다. 플랫폼 데이터는 복수의 사용자들 각각에 대응하는 테이블형 데이터를 포함할 수 있고, 데이터 필드들은 데이터 크기 또는 데이터 측정기준 중 적어도 하나를 포함할 수 있다. 복수의 사용자들은 플랫폼의 사용자들일 수 있고, 데이터 필드들은 사용자의 위치, 사용자에 의한 플랫폼 서비스의 사용들의 횟수, 트랜잭션량 또는 불만들의 횟수 중 적어도 하나를 포함할 수 있다.
도 1은 다양한 실시예들에 따라 그룹 태깅을 위한 예시적인 환경(100)을 도시한다. 도 1에 도시된 바와 같이, 예시적인 환경(100)은 하나 이상의 프로세서들(104) 및 메모리(106)를 포함하는 적어도 하나의 컴퓨팅 시스템(102)을 포함할 수 있다. 메모리(106)는 비-일시적이고 컴퓨터 판독 가능할 수 있다. 메모리(106)는 하나 이상의 프로세서들(104)에 의해 실행될 때, 하나 이상의 프로세서들(104)로 하여금 본 명세서에 설명된 다양한 동작들을 수행하게 하는 명령들을 저장할 수 있다. 환경(100)은 또한 시스템(102)에 결합된 하나 이상의 컴퓨팅 디바이스들(110, 111, 112 및 120)(예를 들어, 휴대폰, 태블릿, 컴퓨터, 착용식 디바이스(스마트 워치) 등)을 포함할 수 있다. 컴퓨팅 디바이스들은 그들의 액세스 및 권한 레벨들에 따라 시스템(102)으로/로부터 데이터를 송/수신할 수 있다. 환경(100)은 시스템(102)에 액세스 가능한 하나 이상의 데이터 저장소들(예: 데이터 저장소들(108 및 109))를 더 포함할 수 있다. 데이터 저장소들 내의 데이터는 상이한 액세스 권한 레벨들과 관련될 수 있다.
일부 실시예들에서, 시스템(102)은 정보 플랫폼(예, 다른 당사자에게 서비스하기 위해 한 당사자에 의해 제공될 수 있고, 다수의 당사자들에 의해 공유될 수 있고, 다수의 당사자들 사이에서 교환될 수 있는, 차량들의 정보를 제공하는 차량 정보 플랫폼 등)으로 언급될 수 있다. 플랫폼 데이터는 데이터 저장소들(예, 데이터 저장소들(108,109) 등) 및/또는 메모리(106)에 저장될 수 있다. 컴퓨팅 디바이스(120)는 플랫폼의 사용자(예, 플랫폼의 애플리케이션이 설치된 사용자의 휴대폰)와 관련될 수 있다. 컴퓨팅 디바이스(120)는 플랫폼에 의해 처리되고 공급되는 것을 제외하고는 데이터 저장소에 대한 어떠한 액세스도 갖지 않을 수 있다. 컴퓨팅 디바이스들(110 및 111)은 플랫폼 데이터에 대한 제한된 액세스 및 권한을 갖는 분석가들과 관련될 수 있다. 컴퓨팅 디바이스(112)는 플랫폼 데이터에 대한 완전한 액세스 및 권한을 가진 엔지니어들과 관련될 수 있다.
일부 실시예들에서, 시스템(102) 및 하나 이상의 컴퓨팅 디바이스들(예를 들어, 컴퓨팅 디바이스(110, 111 또는 112))은 단일 디바이스 또는 시스템에 통합될 수 있다. 대안적으로, 시스템(102) 및 컴퓨팅 디바이스들은 개별 디바이스들로서 동작할 수 있다. 예를 들어, 컴퓨팅 디바이스들(110, 111 및 112)은 컴퓨터들 또는 모바일 디바이스들일 수 있고, 시스템(102)은 서버일 수 있다. 데이터 저장소(들)는 예를 들어 메모리(106) 내에서, 컴퓨팅 디바이스들(110, 111, 또는 112) 내에서, 시스템(102)에 결합된 다른 디바이스(예를 들어, 네트워크 저장 디바이스) 내에서, 또는 다른 저장 위치(예, 클라우드-기반 저장 시스템, 네트워크 파일 시스템 등) 등에서, 시스템(102)에 액세스할 수 있는 임의의 곳이 될 수 있다. 일반적으로, 시스템(102), 컴퓨팅 디바이스들(110, 111, 112 및 120), 및/또는 데이터 저장소들(108 및 109)은 데이터가 통신될 수 있는 하나 이상의 유선 또는 무선 네트워크들(예, 인터넷)을 통해 서로 통신할 수 있다. 환경(100)의 다양한 양태들은 도 2 내지 도 4b를 참조하여 아래에 기술된다.
도 2는 다양한 실시예들에 따라 그룹 태깅을 위한 예시적인 시스템(200)을 도시한다. 도 2에 도시되고 아래에 제시된 동작들은 설명을 위한 것이다. 다양한 실시예들에서, 컴퓨팅 디바이스(120)는 시스템(102)과 상호 작용할 수 있고(예를 들어, 새로운 사용자들을 등록하고, 서비스들을 주문하고, 지불들을 행하는 등), 대응하는 정보는 적어도 플랫폼 데이터(202)의 일부로서 데이터 저장소들(108, 109) 및/또는 메모리(106)에 저장될 수 있고, 시스템(102)에 액세스할 수 있다. 시스템(200) 중에서 추가의 상호작용들은 도 3a 내지 도 3d를 참조하여 아래에 기술된다.
도 3a를 참조하면, 도 3a는 다양한 실시예들에 따른 예시적인 플랫폼 데이터(300)를 도시한다. 도 3a의 설명은 예시적인 것으로 의도되고, 구현에 따라 다양한 방식들로 변형될 수 있다. 플랫폼 데이터는 테이블들, 객체들 등과 같은 하나 이상의 포맷들로 저장될 수 있다. 도 3a에 도시된 바와 같이, 플랫폼 데이터는 플랫폼의 복수의 엔티티들(예, 사용자 A, B, C와 같은 사용자들 등) 각각에 대응하는 테이블형 데이터를 포함할 수 있다. 시스템(102)(예, 서버)은 복수의 사용자들 및 복수의 관련된 데이터 필드들(예, "도시", "디바이스", "사용 횟수", "지불", "불만들" 등)을 포함하는 플랫폼 데이터에 액세스 가능할 수 있다. 예를 들어, 사용자가 플랫폼에 등록할 때, 사용자는 대응하는 계정 정보(예: 주소, 도시, 전화 번호, 지불 방법 등)를 제출할 수 있고, 플랫폼 서비스의 사용으로부터, 사용자 이력(예: 플랫폼에 액세스하는데 사용된 디바이스, 서비스 사용들의 횟수, 지불 트랜잭션, 행해진 불만 등)이 또한 플랫폼 데이터로서 기록될 수 있다. 계정 정보 및 사용자 이력은 사용자와 관련된 다양한 데이터 필드들에 저장될 수 있다. 테이블에서, 데이터 필드들은 데이터 열들로 제시될 수 있다. 데이터 필드들은 크기들 및 측정기준들을 포함할 수 있다. 크기들은 데이터의 속성들을 포함할 수 있다. 예를 들어, "도시"는 사용자의 도시 위치를 나타내고, "디바이스"는 플랫폼에 액세스하는 데 사용된 디바이스를 나타낸다. 측정 기준들은 양적 측정들을 포함할 수 있다. 예를 들어, "사용 횟수"는 사용자가 플랫폼 서비스를 사용한 횟수를 나타내고, "지불"은 사용자와 플랫폼 사이의 트랜잭션의 총량을 나타내고, "불만들"은 사용자가 플랫폼에 불평한 횟수를 나타낸다.
일부 실시예들에서, 권한 레벨들에 따라, 플랫폼의 분석가들 및 엔지니어들(또는 다른 그룹들의 사람들)은 플랫폼 데이터에 대해 상이한 액세스 레벨들을 가질 수 있다. 예를 들어, 분석가들은 동작, 고객 서비스, 및 기술 지원 팀들을 포함할 수 있다. 플랫폼 사용자들과의 상호 작용에서 분석가들은 "사용자들", "도시" 및 "불만들"의 열들의 데이터에만 액세스할 수 있고, "불만들"의 열을 편집할 수 있는 권한만을 갖는다. 엔지니어들은 데이터 과학자들, 백엔드 엔지니어들, 및 연구원 팀들을 포함할 수 있다. 엔지니어들은 플랫폼 데이터(300)의 모든 열들을 편집할 수 있는 완전한 액세스 및 권한을 가질 수 있다.
다시 도 2를 참조하면, 컴퓨팅 디바이스들(110 및 111)은 플랫폼 데이터에 대한 제한된 액세스 및 권한을 갖는 분석가들에 의해 제어 및 조작될 수 있다. 사용자 상호작용 또는 다른 경험들을 기초로, 분석가들은 일부 사용자를 태깅하기 위해 "로컬 규칙들"을 결정할 수 있다. 예를 들어, 분석가들은 플랫폼 사용자들의 제 1 사용자 하위세트를 태깅할 수 있고, 태그 정보(204)(예, 제 1 사용자 하위세트에 대한 사용자 ID들)를 시스템(102)에 제출할 수 있다. 도 3b를 참조하면, 도 3b는 다양한 실시예들에 따라 제 1 태그들을 갖는 예시적인 플랫폼 데이터(310)를 도시한다. 도 3b의 설명은 예시적인 것으로 의도되고, 구현에 따라 다양한 방식으로 변형 될 수 있다. 플랫폼 데이터(310)는 제 1 태그들(C1)의 추가를 제외하고 위에서 기술한 플랫폼 데이터(300)와 유사하다. 시스템(102)은 (예를 들어, 제 1 사용자 하위세트 및 태그 정보(204)를 수신함으로써) 복수의 사용자들로부터 사용자들의 제 1 하위세트 및 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들을 획득할 수 있다. 플랫폼 데이터는 시스템(102)(예, 서버)이 사용자들의 제 1 하위세트를 획득하기 전에 제 1 태그들을 포함하지 않을 수 있다. 시스템(102)은 (예컨대, "그룹 태그" 열을 플랫폼 데이터(300)에 부가함으로써) 획득된 정보(예, 태그 정보(204))를 플랫폼 데이터에 통합할 수 있다. 분석가들에 의해 식별된 제 1 사용자 하위세트는 "14" 불만들에 대응하는 "사용자 A"와 "19" 불만들에 대응하는 "사용자 B"를 포함할 수 있다. 분석가들은 "사용자 A"와 "사용자 B"를 모두 "C1"로 태깅할 수 있다. 이 단계에서 "사용자 A"와 "사용자 B"를 "C1"로 태깅하는 것은 "로컬 규칙"으로 언급될 수 있고, 이러한 "로컬 규칙"이 어떻게 합성되어 다른 플랫폼 사용자들에게 "전역 규칙"으로 외삽될 수 있는지가 결정되어야 한다.
다시 도 2를 참조하면, 컴퓨팅 디바이스(112)는 플랫폼 데이터에 대한 완전한 액세스 및 권한을 가진 엔지니어들에 의해 제어 및 조작될 수 있다. "로컬 규칙들" 및 플랫폼 데이터에 기초하여, 엔지니어들은 학습-기반 그룹 태깅을 수행하기 위해 조회들(206)(예, 명령들, 명령어들 등)을 시스템(102)에 전송할 수 있다. 도 3c를 참조하면, 도 3c는 다양한 실시예들에 따라, 결정된 긍정적인 및 부정적인 샘플들 및 키 데이터 필드들을 갖는 예시적인 플랫폼 데이터(320)를 도시한다. 도 3c의 설명은 예시적인 것으로 의도되고, 구현에 따라 다양한 방식들로 변형될 수 있다. 플랫폼 데이터(320)는 상술한 플랫폼 데이터(310)와 유사하다. 제 1 사용자 하위세트 및 태그 정보(204)를 일단 획득하면, 시스템(102)은 관련된 데이터 필드들 중 하나 이상에 대해 각각, 사용자들의 제 1 하위세트와 복수 사용자들 중 적어도 일부 사이의 적어도 하나의 차이를 결정할 수 있다. 예를 들어, 시스템(102)은 "도시", "디바이스", "사용 횟수", "지불", 및 "불만들"의 열들 중 하나 이상에 대해 각각, 사용자들(예, 사용자 A 및 사용자 B)의 제 1 하위세트의 데이터와 플랫폼 사용자들(예, 모든 플랫폼 사용자들, 사용자 A 및 사용자 B를 제외한 모든 플랫폼 사용자들, 다음의 500명의 사용자들 등)의 적어도 일부의 데이터 사이의 적어도 하나의 차이(예, 쿨백-라이블러 발산)를 결정할 수 있다.
제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 시스템(102)은 대응하는 데이터 필드를 키 데이터 필드로서 결정하고, 사용자들의 제 1 하위세트와 관련된 대응하는 하나 이상의 키 데이터 필드들의 데이터를 긍정적인 샘플들로 결정할 수 있다. 이러한 제 1 임계값은 미리 결정될 수 있다. 본 개시사항에서, 미리 결정된 임계값 또는 다른 속성은 시스템(예, 시스템(102)) 또는 시스템과 관련된 운영자들(예, 분석가들, 엔지니어들 등)에 의해 사전-설정될 수 있다. 예를 들어, 제 1 사용자 하위세트의 "지불" 데이터를 다른 플랫폼 사용자들(예, 다른 모든 플랫폼 사용자들)의 "지불" 데이터에 대해 분석함으로써, 시스템(102)은 그 차이가 제 1 미리 결정된 임계값을 초과하는(예, 모든 다른 플랫폼 사용자들 중 500명의 평균을 초과하는) 것을 결정할 수 있다. 따라서, 플랫폼(102)은 "지불" 데이터 필드를 키 데이터 필드로 결정할 수 있고, "사용자 A-지불 1500-그룹 태그 C1" 및 "사용자 B-지불 823-그룹 태그 C1"을 긍정적인 샘플들로서 획득할 수 있다. 일부 실시예들에서, 키 데이터 필드들은 하나보다 많은 데이터 필드를 포함할 수 있고, 데이터 필드들은 "도시" 및 "지불"과 같은 크기 및/또는 측정기준을 포함할 수 있다. 이 경우, "사용자 A-도시 XYZ-지불 1500-그룹 태그 C1" 및 "사용자 B-도시 XYZ-지불 823-그룹 태그 C1"이 긍정적인 샘플들로서 사용될 수 있다. 여기서, 데이터 필드 "도시"에 대한 제 1 미리 결정된 임계값은 상이한 지역들 또는 상태들의 도시들일 수 있다.
하나 이상의 키 데이터 필드들에 기초하여, 시스템(102)은 복수의 사용자들로부터 사용자들의 제 2 하위세트 및 플랫폼 데이터로부터 사용자들의 제 2 하위세트의 관련 데이터를 부정적인 샘플들로서 획득할 수 있다. 시스템(102)은 훈련을 위해 부정적인 샘플들에 태그를 할당할 수 있다. 예를 들어, 시스템(102)은 부정적인 샘플들로서 "사용자 C-도시 KMN-지불 25-그룹 태그 NC1" 및 "사용자 D-도시 KMN-지불 118-그룹 태그 NC1"을 획득할 수 있다. 일부 실시예들에서, 사용자들의 제 2 하위세트는 하나 이상의 키 데이터 필드들에 관한 유사성 측정에 기초하여 제 3 임계값(예, 제 3 미리 결정된 임계값)을 초과하여 사용자들의 제 1 하위세트와 다를 수 있다. 유사성 측정은, 상이한 사용자들 또는 사용자 그룹들과 관련된 하나 이상의 키 데이터 필드들 사이의 "거리"를 획득하고, 거리 임계값들과 비교함으로써, 사용자들의 한 그룹이 다른 그룹과 얼마나 유사한지를 결정할 수 있다. 유사성 측정은, (표준화된) 유클리드 거리 방법, 맨해튼 거리 방법, 체비셰프(Chebyshev) 거리 방법, 민코브스키(Minkowski) 거리 방법, 마할라노비스(Mahalanobis) 거리 방법, 코사인 방법, 해밍 거리 방법, 자카드(Jaccard) 유사성 계수 방법, 상관 계수 및 거리 방법, 정보 엔트로피 방법 등과 같은 다양한 방법들에 의해 구현될 수 있다.
유클리드 거리 방법을 구현하는 일 예에서, 사용자 S가 데이터 필드에 대한 속성 m1을 가지며 사용자 T가 동일한 데이터 필드에 대한 속성 m2를 갖는다면, 두 사용자들 S 및 T 사이의 "거리"는
Figure 112018131958000-pct00001
이다. 유사하게, 사용자 S가 두개 데이터 필드들 각각에 대한 속성들 m1 및 n1을 가지며, 다른 사용자 T가 대응하는 데이터 필드들에 대한 속성들 m2 및 n2을 갖는다면, 두 사용자들 S 및 T 사이의 "거리"는
Figure 112018131958000-pct00002
이다. 동일한 원리가 심지어 더 많은 데이터 필드들에도 적용된다. 또한, 사용자들의 두 그룹들 사이의 "거리"를 획득하기 위하여 많은 방법들이 사용될 수 있다. 예컨대, 두 그룹으로부터 모든 쌍의 사용자들이 비교될 수 있고, 각 그룹 내의 사용자들의 사용자 속성들은, 사용자를 나타내는 다른 속성 등과 비교하기 위하여, 평균화될 수 있거나, 그렇지 않을 경우 사용자를 나타내는 하나의 특성에 의해 표시될 수 있다. 이와 같이, 복수의 사용들 또는 사용자 그룹들 사이의 거리들이 결정될 수 있고, 사용자들의 제 1 하위세트로부터 충분히 멀리 떨어져 있는(사전설정된 임계값을 초과하는 "거리"를 갖는) 사용자들의 제 2 하위세트가 결정될 수 있다. 사용자들의 제 2 하위세트와 관련된 데이터는 부정적인 샘플들로서 사용될 수 있다.
코사인 방법을 구현하는 다른 예에서, 사용자 S의 다양한 속성들(m1, n1, ...) 및 다른 사용자 T의 다양한 속성들(m2, n2, ...)은 벡터들로서 취급될 수 있다. 두 사용자들 간의 "거리"는 두 벡터들 사이의 각도이다. 예를 들어, 사용자들 S(m1, n1) 및 T(m2, n2) 사이의 "거리"는 θ이고, 여기서
Figure 112018131958000-pct00003
이다. cosθ는 -1과 1 사이의 범위이다. cosθ가 1에 가까울수록, 2명의 사용자들은 서로 더 유사하게 된다. 동일한 원리가 심지어 더 많은 데이터 필드들에 적용된다. 또한, 사용자들의 두 그룹들 사이의 "거리"를 획득하기 위하여, 많은 방법들이 사용될 수 있다. 예컨대, 두 그룹으로부터 모든 쌍의 사용자들이 비교될 수 있고, 각 그룹 내의 사용자들의 사용자 속성들은, 사용자를 나타내는 다른 속성 등과 비교하기 위하여, 평균화될 수 있거나, 그렇지 않을 경우 사용자를 나타내는 하나의 속성에 의해 표시될 수 있다. 이와 같이, 복수의 사용들 또는 사용자 그룹들 사이의 거리들이 결정될 수 있고, 사용자들의 제 1 하위세트로부터 충분히 멀리 떨어져 있는(사전설정된 임계값을 초과하는 "거리"를 갖는) 사용자들의 제 2 하위세트가 결정될 수 있다. 사용자들의 제 2 하위세트와 관련된 데이터는 부정적인 샘플들로서 사용될 수 있다.
유클리드 거리 방법, 코사인 방법, 또는 다른 유사성 측정 방법은 또한 직접 사용될 수 있거나, k-최근접 이웃 방법으로 변경될 수 있다. 당업자는 k-최근접 이웃 결정이 "거리" 결정에 기초한 분류 또는 회귀를 위해 사용될 수 있다는 것을 인식할 것이다. 예시적인 분류 모델에서, 객체(예를 들어, 플랫폼 사용자)는 그 이웃들의 다수결 투표에 의해 분류될 수 있고, 객체는 k개의 최인접 이웃 사이에서 가장 공통적인 클래스에 할당된다. 1-D 예에서, 측정기준 열에 대해, 제 1 하위세트 사용자들의 데이터와 다른 사용자들의 데이터 사이의 제곱근 차이들이 계산될 수 있고, 제 3 미리 결정된 임계값을 초과하는 제 1 하위세트 사용자들로부터의 차이에 대응하는 사용자들은 부정적인 샘플들로서 사용될 수 있다. 키 데이터 필드들의 수가 증가함에 따라 복잡성이 커진다. 따라서, 단일 열 데이터를 단순하게 정렬하고 임계값 지정하는 것은 "전역 태깅 규칙"을 합성하는데 부적합하게 되고, 모델 훈련이 적용된다. 이를 위해, 객체들(예: 플랫폼 사용자들)은 속성들(예: 데이터 필드들)에 따라 매핑될 수 있다. 집합된 데이터 포인트들의 각 부분은 k-최근접 이웃 방법에 의해 분류된 그룹으로서 결정될 수 있어서, 부정적인 샘플들에 대응하는 그룹은 제 3 미리 결정된 임계값 이상의 긍정적인 샘플에 대응하는 다른 그룹으로부터 멀리 떨어져 있게 된다. 예를 들어, 사용자가 두 개의 데이터 필드들에 대응하는 경우, 사용자는 각 축이 데이터 필드에 해당하는 x-y 평면상에 매핑될 수 있다. x-y 평면상의 긍정적인 샘플들에 대응하는 영역은 제 3의 미리 결정된 임계값을 초과하는 거리에 대해 부정적인 샘플들에 대응하는 다른 영역으로부터 떨어진다. 유사하게, 더 많은 데이터 필드들이 있는 경우, 데이터 포인트들은 k-최근접 이웃 방법에 의해 분류될 수 있고, 부정적인 샘플들은 긍정적인 샘플들과의 실질적인 차이에 기초하여 결정될 수 있다.
일부 실시예들에서, 시스템(102)은 훈련된 그룹 태깅 규칙 모델을 획득하기 위해 제 2 정확도 임계값에 도달할 때까지 긍정적인 및 부정적인 샘플들로 규칙 모델(예, 결정 트리 규칙 모델)을 훈련시킬 수 있다. 다수의 파라미터들이 규칙 모델 훈련을 위해 구성될 수 있다. 예를 들어, 제 2 정확도 임계값이 사전설정될 수 있다. 다른 예로서, 결정 트리 모델의 깊이가 사전설정될 수 있다(예를 들어, 복잡성을 제한하기 위해 깊이의 3개의 레벨들). 또 다른 예를 들어, 결정 트리들의 수는 결정을 위해 "or" 조건들을 부가하기 위하여 사전설정될 수 있다(예: 병렬 결정 트리들은 "or" 조건들을 나타낼 수 있고, 동일한 결정 트리에서 분기들(branches)은 그룹 태깅 결정들을 위한 "and" 조건들을 나타낼 수 있다). 따라서 "and" 및 "or" 조건들 모두를 통해, 결정 트리 모델은 결정시 더 많은 유연성을 가질 수 있고, 따라서 그 정확성을 향상시킨다.
당업자는 결정 트리 규칙 모델이 결정 트리를 예측 모델로 사용하는 결정 트리 학습에 기초할 수 있다는 것을 이해할 것이다. 예측 모델은 항목(예를 들어, 플랫폼 사용자의 데이터 필드 값들)에 대한 관찰을 항목의 타깃 값(예를 들어, 태그 C1)의 결론들로 매핑할 수 있다. 긍정적인 샘플들(예를 들어, C1으로 태깅되어야 하는 샘플들) 및 부정적인 샘플들(예컨대, C1으로 태깅되지 않아야 하는 샘플들)을 통해 훈련함으로써, 훈련된 규칙 모델은 다른 샘플들을 자동으로 태깅하기 위한 논리 알고리즘을 포함할 수 있다. 논리 알고리즘들은 각 트리의 각 레벨 또는 깊이에서 이루어진 결정들에 적어도 부분적으로 기초하여 통합될 수 있다. 훈련된 그룹 태깅 규칙 모델은, 복수의 사용자들 중 하나 이상에 제 1 태그를 할당하고, 하나 이상의 플랫폼 사용자들 및/또는 플랫폼에 추가된 새로운 사용자들에 도 3d에 도시된 바와 같이 태깅할지를 결정할 수 있다. 도 3d의 설명은 예시적인 것으로 의도되고, 구현에 따라 다양한 방식들로 변형될 수 있다. 예를 들어, 훈련된 규칙 모델을 플랫폼 사용자들에 적용하면, 시스템(102)은 "사용자 C" 및 "사용자 D"를 "C2"로 태깅할 수 있고, "사용자 E"를 "C1"로 태깅할 수 있다. 또한, 훈련 모델은 "지불"보다 더 중요한 가중치를 갖는 키 데이터 필드로서 "도시"를 포함할 수 있다. 따라서, 심지어 새로운 사용자가 아직 플랫폼과의 어떠한 트랜잭션도 갖지 않는다 하더라도, 시스템(102)은 새로운 사용자 "사용자 F"를 "C1"으로 태깅할 수 있다. 따라서, 그룹 태깅 규칙은, 기존 데이터를 분석하고 새로운 데이터에 대한 그룹 태그들을 예측하기 위하여, 사용될 수 있다.
훈련되어 플랫폼 데이터에 적용된 그룹 태깅 규칙을 갖는 도 2를 다시 참조하면, 컴퓨팅 디바이스(111)(또는 컴퓨팅 디바이스(110))는 조회(208)를 전송하고 태깅된 사용자(210)를 수신함으로써 그룹 태그들을 볼 수 있다. 또한, 컴퓨팅 디바이스는 예를 들어, 하나 이상의 사용자들에 대한 태그들을 정정함으로써, 조회(208)를 통해 훈련된 그룹 태깅 규칙 모델을 정제할 수 있다. 컴퓨팅 디바이스(120)가 새로운 사용자를 시스템(102)에 등록하면, "전역 태깅 규칙"은 새로운 사용자를 예측적으로 태깅하기 위해 적용될 수 있다.
위의 관점에서, 높은 레벨의 신뢰도 및 정확도를 갖는 "로컬 태깅 규칙들"은 "전역 태깅 규칙들"을 획득하기 위해 다른 플랫폼 데이터와 비교함으로써 합성될 수 있다. "전역 태깅 규칙들"은 "로컬 태깅 규칙"에서 한정된 특징들을 통합하고, 플랫폼 데이터에 걸쳐 적용될 수 있다. 프로세스는 상술된 학습 프로세스에 의해 자동화될 수 있고, 따라서 분석가들에 의해 얻을 수 없는 그룹 태깅 작업을 높은 효율성으로 달성한다.
도 4a는 본 개시사항의 다양한 실시예들에 따른 예시적인 방법(400)의 흐름도를 도시한다. 방법(400)은 예컨대, 도 1의 환경(100)을 포함하는 다양한 환경들에서 구현될 수 있다. 이하 제시되는 방법(400)의 동작들은 예시적인 것으로 의도된다. 구현에 따라, 예시적인 방법(400)은 다양한 순서 또는 병렬로 수행되는 추가적인, 더 적은, 또는 대안적인 단계들을 포함할 수 있다. 예시적인 방법(400)은 하나 이상의 서버들의 하나 이상의 프로세서들을 포함하는 다양한 컴퓨팅 시스템들 또는 디바이스들에서 구현될 수 있다.
블록(402)에서, 사용자들의 제 1 하위세트는 복수의 사용자들로부터 획득될 수 있고, 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들이 획득될 수 있다. 복수의 사용자들 및 복수의 관련된 데이터 필드들은 플랫폼 데이터의 일부일 수 있다. 제 1 하위세트는 분석가들 또는 운영자들로부터 직접 획득될 수 있다. 블록(404)에서, 사용자들의 제 1 하위세트와 복수의 사용자들의 적어도 일부 사이의 적어도 하나의 차이는 하나 이상의 관련된 데이터 필드들에 대해 각각 결정될 수 있다. 블록(406)에서, 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 대응하는 데이터 필드는 키 데이터 필드로서 결정될 수 있다. 블록(406)은 하나 이상의 키 데이터 필드들을 획득하기 위하여 하나 이상의 관련된 데이터 필드들에 대해 수행될 수 있다. 블록(408)에서, 사용자들의 제 1 하위세트와 관련된 대응하는 하나 이상의 키 데이터 필드들의 데이터는 긍정적인 샘플들로서 획득될 수 있다. 블록(410)에서, 하나 이상의 키 데이터 필드들에 기초하여, 사용자들의 제 2 하위세트는 복수의 사용자들로부터 획득될 수 있고, 플랫폼 데이터로부터의 관련 데이터는 부정적인 샘플들로서 획득될 수 있다. 부정적인 샘플들은 긍정적인 샘플들과 실질적으로 상이할 수 있고, 위에서 논의한 바와 같이 획득될 수 있다. 블록(412)에서, 훈련된 그룹 태깅 규칙 모델을 획득하기 위해, 규칙 모델은 긍정적인 및 부정적인 샘플들로 훈련되어 제 2 정확도 임계값에 도달할 수 있다. 훈련된 그룹 태깅 규칙 모델은 복수의 사용자들 및 복수의 사용자들에 추가된 새로운 사용자들을 태깅하기 위하여 적용될 수 있어서, 사용자들은 원하는 카테고리들로 자동적으로 구성될 수 있다.
도 4b는 본 개시사항의 다양한 실시예들에 따른 예시적인 방법(420)의 흐름도를 도시한다. 방법(420)은, 예를 들어, 도 1의 환경(100)을 포함하는 다양한 환경들에서 구현될 수 있다. 이하 제시되는 방법(420)의 동작들은 예시적인 것으로 의도된다. 구현에 따라, 예시적인 방법(420)은 다양한 순서들 또는 병렬로 수행되는 추가적인, 더 적은 또는 대안적인 단계들을 포함할 수 있다. 예시적인 방법(420)은 하나 이상의 서버들의 하나 이상의 프로세서들을 포함하여 다양한 컴퓨팅 시스템들 또는 디바이스들에서 구현될 수 있다.
블록(422)에서, 플랫폼의 복수의 엔티티들의 제 1 하위세트가 획득된다. 엔티티들의 제 1 하위세트는 제 1 태그들로 태깅되고, 플랫폼 데이터는 하나 이상의 데이터 필드들에 관한 복수의 엔티티들의 데이터를 포함한다. 블록(424)에서, 엔티티들의 제 1 하위세트의 하나 이상의 데이터 필드들의 데이터와 복수의 엔티티들의 일부 다른 엔티티들의 데이터 사이에서 적어도 차이가 결정된다. 블록(426)에서, 제 1 임계값을 초과하는 차이를 결정하는 것에 응답하여, 엔티티들의 제 1 하위세트와 관련된 대응하는 데이터가 긍정적인 샘플들로서 획득되고, 복수의 엔티티들의 제 2 하위세트와 관련된 대응하는 데이터가 부정적인 샘플들로서 획득된다. 부정적인 샘플들은 긍정적인 샘플들과 실질적으로 상이할 수 있으며, 위에서 논의한 바와 같이 획득될 수 있다. 블록 428에서, 훈련된 그룹 태깅 규칙 모델을 획득하기 위해 규칙 모델은 긍정적인 및 부정적인 샘플들로 훈련된다. 훈련된 그룹 태깅 규칙 모델은 기존 또는 새로운 엔티티가 제 1 태그로 호칭되는지를 결정한다.
본 명세서에 기술된 기술들은 하나 이상의 특수-목적 컴퓨팅 디바이스들에 의해 구현된다. 특수-목적 컴퓨팅 디바이스들은 기술들을 수행하기 위해 하드-와이어(hard-wired)될 수 있거나, 또는 기술들을 수행하도록 영구적으로 프로그램되는 하나 이상의 주문형 집적 회로들(ASICs) 또는 필드 프로그램 가능 게이트 어레이들(FPGAs)과 같은 회로 또는 디지털 전자 디바이스들을 포함할 수 있거나, 또는 펌웨어, 메모리, 다른 저장 장치, 또는 조합의 프로그램 명령들에 따라 기술들을 수행하도록 프로그램된 하나 이상의 하드웨어 프로세서들을 포함할 수 있다. 이러한 특수-목적 컴퓨팅 디바이스들은 또한 맞춤형 하드-와이어드 논리, ASIC들, 또는 FPGA들을 맞춤형 프로그래밍과 결합하여 기술들을 수행할 수 있다. 특수-목적 컴퓨팅 디바이스들은 데스크탑 컴퓨터 시스템들, 서버 컴퓨터 시스템들, 휴대용 컴퓨터 시스템들, 핸드헬드 디바이스들, 네트워킹 디바이스들 또는 기술들을 구현하기 위한 하드-와이어드 및/또는 프로그램 논리를 통합하는 임의의 다른 디바이스 또는 디바이스들의 조합일 수 있다. 컴퓨팅 디바이스(들)는 일반적으로 운영 체계 소프트웨어에 의해 제어 및 조정된다. 종래의 운영 체계들은 특히, 실행을 위한 컴퓨터 프로세스들을 제어 및 스케줄링하고, 메모리 관리를 수행하고, 파일 시스템, 네트워킹, I/O 서비스들을 제공하고, 그래픽 사용자 인터페이스("GUI")와 같은 사용자 인터페이스 기능을 제공한다.
도 5는 본 명세서에 기술된 임의의 실시예들이 구현될 수 있는 컴퓨터 시스템(500)을 도시하는 블록도이다. 시스템(500)은 상술한 시스템(102)에 대응할 수 있다. 컴퓨터 시스템(500)은 정보를 통신하기 위한 버스(502) 또는 다른 통신 메커니즘, 정보를 처리하기 위해 버스(502)와 결합된 하나 이상의 하드웨어 프로세서들(504)을 포함한다. 하드웨어 프로세서(들)(504)는 예를 들어, 하나 이상의 범용 마이크로프로세서들일 수 있다. 프로세서(들)(504)는 상술한 프로세서(104)에 대응할 수 있다.
컴퓨터 시스템(500)은 프로세서(504)에 의해 실행될 명령들 및 정보를 저장하기 위해 버스(502)에 결합된 랜덤 액세스 메모리(RAM), 캐시 및/또는 다른 동적 저장 디바이스들과 같은 메인 메모리(506)를 또한 포함한다. 메인 메모리(506)는 또한 프로세서(504)에 의해 실행될 명령들의 실행 동안 임시 변수들 또는 다른 중간 정보를 저장하기 위하여 사용될 수 있다. 프로세서(504)에 액세스 가능한 저장 매체에 저장될 때, 그러한 명령들은 컴퓨터 시스템(500)이 명령들에 지정된 작업들을 수행하도록 맞춤화된 특수-목적 머신이 되게 한다. 컴퓨터 시스템(500)은 정적 정보 및 프로세서(504)에 대한 명령들을 저장하기 위해 버스(502)에 결합된 판독 전용 메모리(ROM)(508) 또는 다른 정적 저장 디바이스를 더 포함한다. 자기 디스크, 광학 디스크, 또는 USB 썸 드라이브(플래시 드라이브) 등과 같은 저장 디바이스(510)가 제공되고, 정보 및 명령들을 저장하기 위해 버스(502)에 결합된다. 메인 메모리(506), ROM(508), 및/또는 저장 장치(510)는 상술한 메모리(106)에 대응할 수 있다.
컴퓨터 시스템(500)은, 컴퓨터 시스템과 조합하여 컴퓨터 시스템(500)이 특수-목적 머신이 되도록 유도하거나 프로그램하는, 맞춤화된 하드-와이어드 논리, 하나 이상의 ASIC들 또는 FPGA들, 펌웨어 및/또는 프로그램 논리를 사용하여, 본 명세서에 기술된 기술을 구현할 수 있다. 일 실시예에 따라, 본 명세서의 기술들은 메인 메모리(506)에 포함된 하나 이상의 명령들의 하나 이상의 시퀀스들을 실행하는 프로세서(들)(504)에 응답하여 컴퓨터 시스템(500)에 의해 수행된다. 이러한 명령들은 저장 디바이스(510)와 같은 다른 저장 매체로부터 메인 메모리(506)에 판독된다. 메인 메모리(506)에 포함된 명령들의 시퀀스들의 실행은 프로세서(들)(504)로 하여금 본 명세서에 설명된 처리 단계들을 수행하게 한다. 대안적인 실시예들에서, 하드-와이어드 회로가 소프트웨어 명령들 대신 또는 소프트웨어 명령들과 조합하여 사용될 수 있다.
메인 메모리(506), ROM(508), 및/또는 저장 장치(510)는 비-일시적인 저장 매체를 포함할 수 있다. 본 명세서에서 사용되는 용어 "비-일시적 매체" 및 유사한 용어들은 기계로 하여금 특정 방식으로 동작하게 하는 데이터 및/또는 명령들을 저장하는 임의의 매체를 지칭한다. 이러한 비-일시적인 매체는 비-휘발성 매체 및/또는 휘발성 매체를 포함할 수 있다. 비-휘발성 매체는 예컨대 저장 디바이스(510)와 같은 광학 또는 자기 디스크들을 포함한다. 비-휘발성 매체는 메인 메모리(506)와 같은 동적 메모리를 포함한다. 일반적인 형태들의 비-일시적인 매체는 예를 들어 플로피 디스크, 플렉시블 디스크, 하드 디스크, 고체 상태 드라이브, 자기 테이프, 또는 임의의 다른 자기 데이터 저장 매체, CD-ROM, 임의의 다른 광 데이터 저장 매체, 홀들의 패턴들을 갖는 임의의 물리적 매체, RAM, PROM, 및 EPROM, FLASH-EPROM, NVRAM, 임의의 다른 메모리 칩 또는 카트리지, 및 상기 메체들의 네트워크 버전들을 포함할 수 있다.
또한, 컴퓨터 시스템(500)은 버스(502)에 결합된 통신 인터페이스(518)를 포함한다. 통신 인터페이스(518)는 하나 이상의 로컬 네트워크들에 연결된 하나 이상의 네트워크 링크들에 양방향 데이터 통신 커플링을 제공한다. 예를 들어, 통신 인터페이스(518)는 집적된 서비스들 디지털 네트워크(ISDN) 카드, 케이블 모뎀, 위성 모뎀, 또는 대응하는 유형의 전화선에 데이터 통신 연결을 제공하는 모뎀일 수 있다. 다른 예로서, 통신 인터페이스(518)는 데이터 통신 연결을 호환 가능한 LAN(또는 WAN과 통신하기 위한 WAN 구성요소)에 제공하기 위한 근거리 통신망(LAN) 카드일 수 있다. 무선 링크들이 또한 구현될 수 있다. 임의의 이러한 구현에서, 통신 인터페이스(518)는 다양한 유형의 정보를 나타내는 디지털 데이터 스트림들을 운반하는 전기, 전자기 또는 광학 신호들을 전송 및 수신한다.
컴퓨터 시스템(500)은 네트워크(들), 네트워크 링크 및 통신 인터페이스(518)를 통해 메시지들을 전송하고 프로그램 코드를 포함하는 데이터를 수신할 수 있다. 인터넷 예에서, 서버는 애플리케이션 프로그램에 대해 요청된 코드를 인터넷, ISP, 로컬 네트워크 및 통신 인터페이스(518)를 통해 송신할 수 있다.
수신된 코드는 프로세서(504)가 수신할 때 및/또는 이후의 실행을 위해 저장 디바이스(510) 또는 다른 비-휘발성 저장 장치에 저장될 때 프로세서(504)에 의해 실행될 수 있다.
선행하는 섹션들에서 설명된 프로세스들, 방법들, 및 알고리즘들 각각은 컴퓨터 하드웨어를 포함하는 하나 이상의 컴퓨터 시스템들 또는 컴퓨터 프로세서들에 의해 실행되는 코드 모듈들로 구현될 수 있고, 코드 모듈들에 의해 완전히 또는 부분적으로 자동화될 수 있다. 프로세스들 및 알고리즘들은 애플리케이션-특정 회로에서 부분적으로 또는 전체적으로 구현될 수 있다.
상술한 다양한 특징들 및 프로세스들은 서로 독립적으로 사용될 수 있거나, 다양한 방식들로 결합될 수 있다. 모든 가능한 조합들 및 하위-조합들은 본 개시사항의 범주 내에 속하도록 의도된다. 또한, 일부 구현들에서 특정 방법 또는 프로세스 블록들이 생략될 수 있다. 본 명세서에 기술된 방법들 및 프로세스들은 또한 임의의 특정 시퀀스들로 제한되지 않으며, 그에 관련된 블록들 또는 상태들은 적절한 다른 시퀀스들로 수행될 수 있다. 예를 들어, 기술된 블록들 또는 상태들은 구체적으로 개시된 순서 이외의 순서로 수행될 수 있거나, 다수의 블록들 또는 상태들이 단일 블록 또는 상태로 결합될 수 있다. 예시적인 블록들 또는 상태들은 직렬, 병렬 또는 일부 다른 방식으로 수행될 수 있다. 블록들 또는 상태들은 개시된 예시적인 실시예들에 추가되거나 이들로부터 제거될 수 있다. 본 명세서에 기술된 예시적인 시스템들 및 구성요소들은 설명된 것과 다르게 구성될 수 있다. 예를 들어, 요소들이 개시된 예시적인 실시예에 추가되거나, 이들로부터 제거되거나 또는 이들과 비교하여 재배치될 수 있다.
본 명세서에 설명된 예시적인 방법들의 다양한 동작들은 관련 동작들을 수행하도록 일시적으로(예를 들어, 소프트웨어에 의해) 구성되거나 영구적으로 구성된 하나 이상의 프로세서들에 의해 적어도 부분적으로 수행될 수 있다. 일시적으로 또는 영구적으로 구성되는지에 관계없이, 이러한 프로세서들은 본 명세서에 설명된 하나 이상의 동작들 또는 기능들을 수행하도록 동작하는 프로세서-구현 엔진들을 구성할 수 있다.
유사하게, 본 명세서에 설명된 방법들은 하드웨어의 일 예인 특정 프로세서 또는 프로세서들을 통해 적어도 부분적으로 프로세서-구현될 수 있다. 예를 들어, 방법의 동작들 중 적어도 일부는 하나 이상의 프로세서들 또한 프로세서-구현 엔진들에 의해 수행될 수 있다. 또한, 하나 이상의 프로세서들은 "클라우드 컴퓨팅" 환경에서 관련 동작들의 성능을 지원하기 위해 또는 "서비스로서의 소프트웨어"(SaaS)로서 동작할 수 있다. 예를 들어, 동작들 중 적어도 일부는 컴퓨터들의 그룹(예컨대, 프로세서들을 포함하는 머신들)에 의해 수행될 수 있고, 이들 동작들은 네트워크(예를 들어, 인터넷)를 통해 및 하나 이상의 적절한 인터페이스들(예를 들어, 애플리케이션 프로그램 인터페이스(API))를 통해 액세스 될 수 있다.
특정 동작들의 성능은 단일 기계 내에 상주할 뿐만 아니라 다수의 기계들에 걸쳐 배치되는 프로세서들 사이에서 분산될 수 있다. 일부 예시적인 실시예들에서, 프로세서들 또는 프로세서-구현 엔진들은 단일 지리적 위치(예를 들어, 가정 환경, 사무실 환경, 또는 서버 팜 내에서)에 배치될 수 있다. 다른 예시적인 실시예들에서, 프로세서들 또는 프로세서-구현 엔진들은 다수의 지리적 위치들에 걸쳐 분산될 수 있다.
본 명세서 전반에 걸쳐, 복수의 경우들은 단일 경우로 기술된 구성요소들, 동작들, 또는 구조들을 구현할 수 있다. 하나 이상의 방법들의 개별 동작들이 별도의 동작들로 도시되고 기술되었지만, 하나 이상의 개별 동작들은 동시에 수행될 수 있고, 어떠한 것도 동작들이 기술된 순서로 수행되는 것을 필요로 하지 않는다. 예시된 구성들에서 별개의 구성요소들로서 제시된 구조들 및 기능들은 결합된 구조 또는 구성요소로서 구현될 수 있다. 마찬가지로, 단일 구성 요소로서 제시된 구조들 및 기능은 별개의 구성요소들로서 구현될 수 있다 이들 및 다른 변동들, 변형들, 추가들 및 개선들은 본 명세서의 요지의 범주 내에 든다.
요지의 개요가 특정 예시적인 실시예들을 참조하여 설명되었지만, 본 개시사항의 실시예들의 더 넓은 범주를 벗어나지 않으면서 이들 실시예들에 다양한 변형들 및 변경들이 이루어질 수 있다. 요지의 이러한 실시예들은 본 명세서에서, 단순히 편의상 그리고 만약 하나 이상이 실제 개시되었다면 본 출원의 범주를 단일의 개시사항 또는 개념으로 자발적으로 제한하려 의도하지 않으면서, 개별적으로 또는 집합적으로 "발명"이라는 용어로 언급될 수 있다.
본 명세서에 도시된 실시예들은 당업자가 개시된 교시내용을 실시할 수 있도록 충분히 상세하게 설명된다. 다른 실시예들이 그로부터 이용 및 파생될 수 있으므로, 본 개시사항의 범주를 벗어나지 않고도, 구조적 및 논리적 대체물 및 변경들이 이루어질 수 있다. 따라서, 상세한 설명은 제한적인 의미로 받아들이지 않아야 되고, 다양한 실시예들의 범주는, 첨부된 청구항들에 부여되는 등가물의 전체 범위와 함께, 오로지 첨부된 청구항들에 의해서만 한정된다.
본 명세서에서 설명되거나 및/또는 첨부된 도면들에 도시된 흐름도들의 임의의 프로세스 설명들, 요소들, 또는 블록들은, 프로세스 내에서 특정 논리 기능들 또는 단계들을 구현하기 위한 하나 이상의 실행 가능 명령들을 포함하는, 모듈들, 세그먼트들, 또는 코드의 부분들을 잠재적으로 나타내는 것으로 이해되어야 한다. 다른 구현들이 본 명세서에 기술된 실시예들의 범주 내에 포함되고, 이러한 구현들에서, 당업자들에 의해 이해될 수 있는 바와 같이, 포함된 기능에 따라, 요소들 또는 기능들은 삭제될 수 있거나, 실질적으로 동시에 또는 반대 순서를 포함하여, 도시되거나 논의된 것과 다른 순서로 실행될 수 있다.
본 명세서에서 사용되는 "또는"이라는 용어는 포괄적이거나 배타적인 의미로 해석될 수 있다. 또한, 본 명세서에서 단일 경우로서 기술된 자원, 동작 또는 구조에 대해 복수의 경우들이 제공될 수 있다. 추가적으로, 다양한 자원들, 동작들, 엔진들, 및 데이터 저장소들 사이의 경계들은 다소 임의적이며, 특정 동작들은 특정 예시적인 구성들의 맥락에서 설명된다. 기능의 다른 할당이 계획되고 본 개시사항의 다양한 실시예들의 범주 내에 들 수 있다. 일반적으로, 예시적인 구성들에서 별도의 자원들로서 제시된 구조들 및 기능은 결합된 구조 또는 자원으로 구현될 수 있다. 마찬가지로, 단일 자원으로 제시되는 구조들 및 기능은 별도의 자원들로 구현될 수 있다. 이들 및 다른 변동들, 변형들, 추가들, 및 개선들은 첨부된 청구항들에 의해 표시되는 본 개시사항의 실시예들의 범주 내에 든다. 따라서, 명세서 및 도면들은 제한적인 의미라기보다는 예시적인 것으로 간주되어야 한다.
달리 특별히 언급하지 않거나, 사용된 맥락에서 달리 이해되지 않는 한, 특히 "할 수 있다", "할 것이다"와 같은 조건 언어는 일반적으로 다른 실시예들이 포함하지 않지만, 특정 실시예들이 특정 특징들, 요소들 및/또는 단계를 포함한다는 것을 전달하려 의도된다. 따라서, 그러한 조건 언어는 일반적으로 하나 이상의 실시예들에 대해 임의의 방식으로 특징들, 요소들 및/또는 단계들이 요구된다는 것, 또는 하나 이상의 실시예들이, 사용자 입력 또는 촉구를 통해 또는 이들 없이, 이들 특징들, 요소들 및/또는 단계들이 임의의 특정 실시예에 포함되는지 또는 특정 실시예에 내에서 수행되어야 하는지를 결정하기 위한 논리를 반드시 포함한다는 것을 의미하려는 것은 아니다.

Claims (20)

  1. 그룹 태깅을 위한 컴퓨팅 시스템에 있어서:
    플랫폼의 플랫폼 데이터에 액세스 가능한 하나 이상의 프로세서들로서, 상기 플랫폼 데이터는 복수의 사용자들 및 복수의 관련된 데이터 필드들을 포함하고, 상기 복수의 사용자들은 상기 플랫폼의 사용자들이고, 상기 플랫폼은 차량 정보 플랫폼인, 상기 하나 이상의 프로세서들; 및
    명령들을 저장하는 메모리를 포함하고,
    상기 명령들은 상기 하나 이상의 프로세서들에 의해 실행될 때, 상기 컴퓨팅 시스템으로 하여금,
    사용자들의 제 1 하위세트 및 상기 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들을 획득하고, 상기 하나 이상의 제 1 태그들은 상기 플랫폼 데이터에 대한 완전한 액세스 없이 하나 이상의 분석가들에 의해 추가되고;
    상기 관련된 데이터 필드들 중 하나 이상에 대해 각각, 상기 사용자들의 제 1 하위세트의 데이터 필드의 데이터와 상기 복수의 사용자들 중 적어도 일부의 데이터 필드의 데이터 사이의 적어도 하나의 차이를 결정하고;
    상기 관련된 데이터 필드들 중 하나 이상의 각각에 대해, 제 1 임계값을 초과하는 상기 관련된 데이터 필드에 대응하는 상기 차이를 결정하는 것에 응답하여, 상기 관련된 데이터 필드를 키 데이터 필드로서 결정하고;
    상기 사용자들의 제 1 하위세트와 관련된 하나 이상의 키 데이터 필드들의 데이터를 긍정적인 샘플들로서 결정하고;
    상기 하나 이상의 키 데이터 필드들에 기초하여, 상기 플랫폼 데이터로부터 사용자들의 제 2 하위세트의 관련 데이터를 부정적인 샘플들로서 획득하고, 상기 사용자들의 제 2 하위세트는 상기 하나 이상의 키 데이터 필드들에 관한 유사성 측정에 기초하여 제 2 임계값을 초과하여 상기 사용자들의 제 1 하위세트와 다르고;
    상기 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련하여 훈련된 그룹 태깅 규칙 모델을 획득하는 것을 포함하는 동작들을 수행하게 하고,
    상기 하나 이상의 키 데이터 필드들은 복수의 키 데이터 필드들을 포함하고, 상기 플랫폼 데이터로부터 상기 사용자들의 제 2 하위세트의 관련 데이터를 부정적인 샘플들로서 획득하는 것은:
    상기 플랫폼 데이터에 기초하여, 상기 복수의 키 데이터 필드들에 대해 다차원 공간 상의 복수의 데이터 포인트들로서 상기 복수의 사용자들을 매핑하는 것;
    k-최근접 이웃 방법에 의해 상기 복수의 데이터 포인트들을 복수의 그룹들로 그룹화하는 것; 및
    상기 복수의 사용자들로부터, 상기 복수의 그룹들에 기초하여 상기 사용자들의 제 2 서브세트를 식별하는 것을 포함하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  2. 제 1 항에 있어서,
    상기 플랫폼 데이터는 상기 복수의 사용자들 각각에 대응하는 테이블형 데이터를 포함하고;
    상기 데이터 필드들은 데이터 크기 또는 데이터 측정기준 중 적어도 하나를 포함하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  3. 제 1 항에 있어서,
    상기 데이터 필드들은 위치, 사용들의 횟수, 트랜잭션량 또는 불만들의 횟수 중 적어도 하나를 포함하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  4. 제 1 항에 있어서,
    상기 사용자들의 제 1 하위세트를 획득하는 것은, 상기 플랫폼 데이터에 대한 완전한 액세스 없이 상기 하나 이상의 분석가들로부터 상기 사용자들의 제 1 하위세트의 신원확인들을 수신하는 것을 포함하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  5. 제 1 항에 있어서,
    상기 플랫폼 데이터는 상기 사용자들의 제 1 하위세트를 획득하기 전에 상기 제 1 태그들을 포함하지 않는, 그룹 태깅을 위한 컴퓨팅 시스템.
  6. 제 1 항에 있어서,
    상기 차이는 쿨백-라이블러 발산(Kullback-Leibler divergence)인, 그룹 태깅을 위한 컴퓨팅 시스템.
  7. 삭제
  8. 제 1 항에 있어서,
    상기 규칙 모델은 결정 트리 모델인, 그룹 태깅을 위한 컴퓨팅 시스템.
  9. 제 1 항에 있어서,
    상기 훈련된 그룹 태깅 규칙 모델은 상기 복수의 사용자들 중 하나 이상에 상기 제 1 태그들을 할당할지를 결정하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  10. 제 1 항에 있어서,
    상기 명령은 시스템으로 하여금,
    상기 복수의 사용자들 및 상기 복수의 사용자들에 추가된 새로운 사용자들을 태깅하기 위하여 상기 훈련된 그룹 태깅 규칙 모델을 적용하는 것을 포함하는 동작을 또한 수행하게 하는, 그룹 태깅을 위한 컴퓨팅 시스템.
  11. 그룹 태깅 방법에 있어서:
    플랫폼의 복수의 사용자들로부터 사용자들의 제 1 하위세트 및 상기 사용자들의 제 1 하위세트와 관련된 하나 이상의 제 1 태그들을 획득하는 단계로서, 상기 복수의 사용자들 및 복수의 관련된 데이터 필드들은 상기 플랫폼의 플랫폼 데이터의 일부이고, 상기 플랫폼은 차량 정보 플랫폼이고, 상기 하나 이상의 제 1 태그들은 상기 플랫폼 데이터에 대한 완전한 액세스 없이 하나 이상의 분석가들에 의해 추가되는, 상기 사용자들의 제 1 하위세트 및 제 1 태그들을 획득하는 단계;
    상기 관련된 데이터 필드들 중 하나 이상에 대해 각각, 상기 사용자들의 제 1 하위세트의 데이터 필드의 데이터와 상기 복수의 사용자들 중 적어도 일부의 데이터 필드의 데이터 사이의 적어도 하나의 차이를 결정하는 단계;
    상기 관련된 데이터 필드들 중 하나 이상의 각각에 대해, 제 1 임계값을 초과하는 상기 관련된 데이터 필드에 대응하는 상기 차이를 결정하는 것에 응답하여, 상기 관련된 데이터 필드를 키 데이터 필드로서 결정하는 단계;
    상기 사용자들의 제 1 하위세트와 관련된 하나 이상의 키 데이터 필드들의 데이터를 긍정적인 샘플들로서 결정하는 단계;
    상기 하나 이상의 키 데이터 필드들에 기초하여, 상기 플랫폼 데이터로부터 사용자들의 제 2 하위세트의 관련 데이터를 부정적인 샘플들로서 획득하는 단계로서, 상기 사용자들의 제 2 하위세트는 상기 하나 이상의 키 데이터 필드들에 관한 유사성 측정에 기초하여 제 2 임계값을 초과하여 상기 사용자들의 제 1 하위세트와 다른, 상기 획득하는 단계; 및
    훈련된 그룹 태깅 규칙 모델을 획득하기 위하여, 상기 긍정적인 및 부정적인 샘플들로 규칙 모델을 훈련시키는 단계를 포함하고,
    상기 하나 이상의 키 데이터 필드들은 복수의 키 데이터 필드들을 포함하고, 상기 플랫폼 데이터로부터 상기 사용자들의 제 2 하위세트의 관련 데이터를 부정적인 샘플들로서 획득하는 단계는:
    상기 플랫폼 데이터에 기초하여, 상기 복수의 키 데이터 필드들에 대해 다차원 공간 상의 복수의 데이터 포인트들로서 상기 복수의 사용자들을 매핑하는 단계;
    k-최근접 이웃 방법에 의해 상기 복수의 데이터 포인트들을 복수의 그룹들로 그룹화하는 단계; 및
    상기 복수의 사용자들로부터, 상기 복수의 그룹들에 기초하여 상기 사용자들의 제 2 서브세트를 식별하는 단계를 포함하는, 그룹 태깅 방법.
  12. 제 11 항에 있어서,
    상기 플랫폼 데이터는 상기 복수의 사용자들 각각에 대응하는 데이블형 데이터를 포함하고;
    상기 데이터 필드들은 데이터 크기 또는 데이터 측정 기준 중 적어도 하나를 포함하는, 그룹 태깅 방법.
  13. 제 11 항에 있어서,
    상기 데이터 필드는, 위치, 사용들의 횟수, 트랜잭션량 또는 불만들의 횟수 중 적어도 하나를 포함하는, 그룹 태깅 방법.
  14. 제 11 항에 있어서,
    사용자들의 제 1 하위세트를 획득하는 단계는, 상기 플랫폼 데이터에 대한 완전한 액세스 없이 상기 하나 이상의 분석가들로부터 상기 사용자들의 제 1 하위세트의 식원 확인들을 수신하는 단계를 포함하는, 그룹 태깅 방법.
  15. 제 11 항에 있어서,
    상기 플랫폼 데이터는 상기 사용자들의 제 1 하위세트를 획득하기 전에 상기 제 1 태그들을 포함하지 않는, 그룹 태깅 방법.
  16. 제 11 항에 있어서,
    상기 차이는 쿨백-라이블러 발산인, 그룹 태깅 방법.
  17. 삭제
  18. 제 11 항에 있어서,
    상기 규칙 모델은 결정 트리 모델인, 그룹 태깅 방법.
  19. 제 11 항에 있어서,
    상기 복수의 사용자들 및 상기 복수의 사용자들에 추가된 새로운 사용자들을 태깅하기 위하여 상기 훈련된 그룹 태깅 규칙 모델을 적용하는 단계를 더 포함하는, 그룹 태깅 방법.
  20. 삭제
KR1020187038157A 2017-04-20 2017-04-20 학습-기반 그룹 태깅을 위한 시스템 및 방법 KR102227593B1 (ko)

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/CN2017/081279 WO2018191918A1 (en) 2017-04-20 2017-04-20 System and method for learning-based group tagging

Publications (2)

Publication Number Publication Date
KR20190015410A KR20190015410A (ko) 2019-02-13
KR102227593B1 true KR102227593B1 (ko) 2021-03-15

Family

ID=63853929

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187038157A KR102227593B1 (ko) 2017-04-20 2017-04-20 학습-기반 그룹 태깅을 위한 시스템 및 방법

Country Status (12)

Country Link
US (1) US20180307720A1 (ko)
EP (1) EP3461287A4 (ko)
JP (1) JP2019528506A (ko)
KR (1) KR102227593B1 (ko)
CN (2) CN109690571B (ko)
AU (1) AU2017410367B2 (ko)
BR (1) BR112018077404A8 (ko)
CA (1) CA3029428A1 (ko)
PH (1) PH12018550213A1 (ko)
SG (1) SG11201811624QA (ko)
TW (1) TW201843609A (ko)
WO (1) WO2018191918A1 (ko)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11354351B2 (en) * 2019-01-31 2022-06-07 Chooch Intelligence Technologies Co. Contextually generated perceptions
CN114430489A (zh) * 2020-10-29 2022-05-03 武汉斗鱼网络科技有限公司 一种虚拟道具的补偿方法以及相关设备
CN112559900B (zh) * 2021-02-26 2021-06-04 深圳索信达数据技术有限公司 产品推荐方法、装置、计算机设备和存储介质
CN115604027B (zh) * 2022-11-28 2023-03-14 中南大学 网络指纹识别模型训练方法、识别方法、设备及存储介质
CN115859118B (zh) * 2022-12-23 2023-08-11 摩尔线程智能科技(北京)有限责任公司 数据的获取方法、装置、电子设备及存储介质

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157606A (ja) 2007-12-26 2009-07-16 Toyota Central R&D Labs Inc ドライバ状態推定装置及びプログラム
JP2011254084A (ja) 2011-06-27 2011-12-15 Hitachi High-Technologies Corp 欠陥分類方法及びその装置
JP2016197423A (ja) * 2016-06-16 2016-11-24 株式会社Zmp サーバシステム

Family Cites Families (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US6963870B2 (en) * 2002-05-14 2005-11-08 Microsoft Corporation System and method for processing a large data set using a prediction model having a feature selection capability
US20090077081A1 (en) * 2007-09-19 2009-03-19 Joydeep Sen Sarma Attribute-Based Item Similarity Using Collaborative Filtering Techniques
US9053185B1 (en) * 2012-04-30 2015-06-09 Google Inc. Generating a representative model for a plurality of models identified by similar feature data
DE202013100073U1 (de) * 2012-12-21 2014-04-01 Xerox Corp. Benutzerprofilerstellung zum Schätzen der Druckleistung
US20140310277A1 (en) * 2013-04-15 2014-10-16 Flextronics Ap, Llc Suspending user profile modification based on user context
CN104111946B (zh) * 2013-04-19 2018-08-07 腾讯科技(深圳)有限公司 基于用户兴趣的聚类方法和装置
US9870465B1 (en) * 2013-12-04 2018-01-16 Plentyoffish Media Ulc Apparatus, method and article to facilitate automatic detection and removal of fraudulent user information in a network environment
CN104090888B (zh) * 2013-12-10 2016-05-11 深圳市腾讯计算机系统有限公司 一种用户行为数据的分析方法和装置
JP2015184823A (ja) * 2014-03-20 2015-10-22 株式会社東芝 モデルパラメータ算出装置、モデルパラメータ算出方法およびコンピュータプログラム
US10193775B2 (en) * 2014-10-09 2019-01-29 Splunk Inc. Automatic event group action interface
CN104504460A (zh) * 2014-12-09 2015-04-08 北京嘀嘀无限科技发展有限公司 预测叫车平台的用户流失的方法和装置
US9558344B2 (en) * 2015-03-18 2017-01-31 International Business Machines Corporation Proximity based authentication for striped data
JP6383688B2 (ja) * 2015-03-23 2018-08-29 日本電信電話株式会社 データ解析装置、方法、及びプログラム
US10037506B2 (en) * 2015-04-27 2018-07-31 Xero Limited Benchmarking through data mining
US10097973B2 (en) * 2015-05-27 2018-10-09 Apple Inc. Systems and methods for proactively identifying and surfacing relevant content on a touch-sensitive device
CN105488697A (zh) * 2015-12-09 2016-04-13 焦点科技股份有限公司 一种基于客户行为特征的潜在客户挖掘方法
CN105631749A (zh) * 2015-12-24 2016-06-01 成都陌云科技有限公司 基于统计数据的用户画像计算方法
CN105354343B (zh) * 2015-12-24 2018-08-14 成都陌云科技有限公司 基于远程对话的用户特征挖掘方法
CN105608194A (zh) * 2015-12-24 2016-05-25 成都陌云科技有限公司 社交媒体中用于主体特征分析的方法
CN106250382A (zh) * 2016-01-28 2016-12-21 新博卓畅技术(北京)有限公司 一种元数据管理引擎系统及实现方法
CN105959745B (zh) * 2016-05-25 2019-10-22 北京铭嘉实咨询有限公司 广告投放方法和系统
CN106296343A (zh) * 2016-08-01 2017-01-04 王四春 一种基于互联网和大数据的电子商务交易监测方法
CN106296305A (zh) * 2016-08-23 2017-01-04 上海海事大学 大数据环境下的电商网站实时推荐系统与方法
US20180157663A1 (en) * 2016-12-06 2018-06-07 Facebook, Inc. Systems and methods for user clustering

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009157606A (ja) 2007-12-26 2009-07-16 Toyota Central R&D Labs Inc ドライバ状態推定装置及びプログラム
JP2011254084A (ja) 2011-06-27 2011-12-15 Hitachi High-Technologies Corp 欠陥分類方法及びその装置
JP2016197423A (ja) * 2016-06-16 2016-11-24 株式会社Zmp サーバシステム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Hwanjo Yu et al., PEBL: Positive Example Based Learning for Web Page Classification Using SVM, SIGKDD '02, July 2002. Pages 239-248. 1부.*
이재식 외 1인, 불균형 데이터 집합의 분류를 위한 하이브리드 SVM 모델, 지능정보연구 제19권 제2호 2013년 6월. 125-140페이지. 1부.*

Also Published As

Publication number Publication date
WO2018191918A1 (en) 2018-10-25
CA3029428A1 (en) 2018-10-25
CN111931845A (zh) 2020-11-13
EP3461287A4 (en) 2019-05-01
US20180307720A1 (en) 2018-10-25
AU2017410367A1 (en) 2019-01-31
TW201843609A (zh) 2018-12-16
CN109690571A (zh) 2019-04-26
BR112018077404A2 (pt) 2019-04-09
BR112018077404A8 (pt) 2023-01-31
PH12018550213A1 (en) 2019-10-28
EP3461287A1 (en) 2019-04-03
KR20190015410A (ko) 2019-02-13
AU2017410367B2 (en) 2020-09-10
SG11201811624QA (en) 2019-01-30
JP2019528506A (ja) 2019-10-10
CN109690571B (zh) 2020-09-18

Similar Documents

Publication Publication Date Title
KR102227593B1 (ko) 학습-기반 그룹 태깅을 위한 시스템 및 방법
US11295215B2 (en) Automated dynamic data quality assessment
US20200356901A1 (en) Target variable distribution-based acceptance of machine learning test data sets
TWI718643B (zh) 異常群體識別方法及裝置
US11734233B2 (en) Method for classifying an unmanaged dataset
US11899747B2 (en) Techniques to embed a data object into a multidimensional frame
US20150278813A1 (en) Determining a temporary transaction limit
US20210042628A1 (en) Building a federated learning framework
US11232017B2 (en) System for refreshing and sanitizing testing data in a low-level environment
US20190258648A1 (en) Generating asset level classifications using machine learning
TW201737072A (zh) 一種對應用程序進行項目評估的方法及系統
CN110679114B (zh) 一种估计数据对象可删除性的方法
US11570214B2 (en) Crowdsourced innovation laboratory and process implementation system
CN112818162A (zh) 图像检索方法、装置、存储介质和电子设备
US20140172874A1 (en) Intelligent analysis queue construction
US11755775B2 (en) Upload management
US20150106301A1 (en) Predictive modeling in in-memory modeling environment method and apparatus
US20200272852A1 (en) Clustering
CN114416735A (zh) 数据存储方法、查询方法及系统
CN116383154A (zh) 文件处理方法、文件处理装置、电子设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
X091 Application refused [patent]
AMND Amendment
X701 Decision to grant (after re-examination)
GRNT Written decision to grant