KR102250728B1 - 샘플 처리 방법, 장치, 기기 및 저장 매체 - Google Patents

샘플 처리 방법, 장치, 기기 및 저장 매체 Download PDF

Info

Publication number
KR102250728B1
KR102250728B1 KR1020190106197A KR20190106197A KR102250728B1 KR 102250728 B1 KR102250728 B1 KR 102250728B1 KR 1020190106197 A KR1020190106197 A KR 1020190106197A KR 20190106197 A KR20190106197 A KR 20190106197A KR 102250728 B1 KR102250728 B1 KR 102250728B1
Authority
KR
South Korea
Prior art keywords
sample
cluster
samples
purity
category
Prior art date
Application number
KR1020190106197A
Other languages
English (en)
Other versions
KR20200029351A (ko
Inventor
민 자오
지안이 청
후아펭 친
Original Assignee
바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드 filed Critical 바이두 온라인 네트웍 테크놀러지 (베이징) 캄파니 리미티드
Publication of KR20200029351A publication Critical patent/KR20200029351A/ko
Application granted granted Critical
Publication of KR102250728B1 publication Critical patent/KR102250728B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/906Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/211Selection of the most significant subset of features
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/30Information retrieval; Database structures therefor; File system structures therefor of unstructured textual data
    • G06F16/35Clustering; Classification
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0418Architecture, e.g. interconnection topology using chaos or fractal principles
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/048Activation functions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/762Arrangements for image or video recognition or understanding using pattern recognition or machine learning using clustering, e.g. of similar faces in social networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V10/00Arrangements for image or video recognition or understanding
    • G06V10/70Arrangements for image or video recognition or understanding using pattern recognition or machine learning
    • G06V10/77Processing image or video features in feature spaces; using data integration or data reduction, e.g. principal component analysis [PCA] or independent component analysis [ICA] or self-organising maps [SOM]; Blind source separation
    • G06V10/771Feature selection, e.g. selecting representative features from a multi-dimensional feature space

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Databases & Information Systems (AREA)
  • Mathematical Physics (AREA)
  • Medical Informatics (AREA)
  • Health & Medical Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Evolutionary Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Multimedia (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Image Analysis (AREA)

Abstract

본 개시의 예시적 실시예에 따르면, 샘플 처리 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체를 제공한다. 샘플 처리 방법은, 샘플 집합 중의 샘플의 특징 표현을 결정하는 단계 - 각 샘플은 미리 주석된 카테고리를 구비함 - ; 특징 표현에 따라 샘플 집합을 클러스터링하여 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하는 단계; 클러스터 중의 샘플의 카테고리에 따라 클러스터의 순도를 결정하는 단계 - 순도는 클러스터의 샘플 무질서 정도를 지시함 - ; 순도에 따라 클러스터 중의 샘플에서 선별된 샘플을 결정하는 단계; 를 포함한다. 이러한 방식으로, 전체 샘플 집합에 대한 선별을 구현 가능하여 고품질의 주석된 샘플을 획득하게 된다.

Description

샘플 처리 방법, 장치, 기기 및 저장 매체{SAMPLE PROCESSING METHOD AND DEVICE, RELATED APPARATUS AND STORAGE MEDIUM}
본 개시의 실시예는 주요하게 컴퓨터 분야에 관한 것이고, 더 구체적으로, 샘플 처리 방법, 장치, 기기 및 컴퓨터 판독 가능 저장 매체에 관한 것이다.
인공 지능이 보급됨에 따라, 기계 학습 기술은 점점 더 광범위하게 응용되고 있다. 기계 학습은 통계적 기술을 사용하여 컴퓨터 시스템에 데이터를 이용하여 '학습'(예를 들어, 특정 태스크의 성과를 점차 제고)하는 능력을 부여한다. 지도 학습은 유형에 대한 기계 학습 태스크로, 이는 예시적 입력-출력 쌍의 학습에 따라 입력을 출력에 매핑하는 함수이다. 지도 학습에서는, 한 그룹의 트레이닝 예시로 구성되는 주석된 트레이닝 데이터(즉, 주석된 샘플)로부터 이러한 함수를 얻을 수 있다.
지도 학습 태스크는 통상적으로 대규모, 고정밀도의 주석된 샘플이 필요하고, 그리고 주석된 샘플의 품질은 지도 학습의 효과에 영향 준다. 수동으로 주석된 샘플은 대가가 크고 효율이 낮기 때문에 많은 응용에서는 기계가 자동으로 샘플을 주석하는 방식을 취한다. 기계가 자동으로 주석한 샘플은 비록 매우 큰 규모에 도달할 수는 있으나 흔히는 정밀도가 수동 주석보다 훨씬 낮으므로, 이는 기계 학습 모델의 트레이닝 효과를 제약하게 된다. 때문에 고효율의 샘플 정제 및 선별 방법이 필요하게 되는바, 이는 기계 학습, 특히는 지도 학습에 사용되는 주석된 샘플의 품질을 제고하기 위한 것이다.
본 개시의 예시적 실시예에 따르면, 샘플 처리 방안을 제공한다.
본 개시의 제1 측면에는, 샘플 처리 방법이 제공된다. 당해 방법은, 샘플 집합 중의 샘플의 특징 표현을 결정하는 단계 - 각 샘플은 미리 주석된 카테고리를 구비함 - ; 특징 표현에 따라 샘플 집합을 클러스터링하여 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하는 단계; 클러스터 중의 샘플의 카테고리에 따라 클러스터의 순도를 결정하는 단계 - 순도는 클러스터의 샘플 무질서 정도를 지시함 - ; 및 순도에 따라 클러스터 중의 샘플에서 선별된 샘플을 결정하는 단계; 를 포함한다.
본 개시의 제2 측면에는, 샘플 처리 장치가 제공된다. 당해 장치는, 샘플 집합 중의 샘플의 특징 표현을 결정하도록 구성되는 제1 표현 결정 모듈 - 각 샘플은 미리 주석된 카테고리를 구비함 - ; 특징 표현에 따라 샘플 집합에 대한 클러스터링을 진행하여 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하도록 구성되는 제1 클러스터링 모듈; 클러스터 중의 샘플의 카테고리에 따라 클러스터의 순도를 결정하도록 구성되는 제1 순도 결정 모듈 - 순도는 클러스터의 샘플 무질서 정도를 지시함 - ; 및 순도에 따라 클러스터 중의 샘플에서 선별된 샘플을 결정하도록 구성되는 샘플 선별 모듈; 을 포함한다.
본 개시의 제3 측면에는, 기기가 제공되는바, 이는, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하고, 하나 또는 복수의 프로그램이 하나 또는 복수의 프로세서에 의해 실행될 시, 한 또는 복수의 프로세서가 본 개시의 제1 측면에 따른 방법을 구현한다.
본 개시의 제4 측면에는, 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체가 제공되는바, 당해 프로그램이 프로세서에 의해 실행될 시 본 개시의 제1 측면에 따른 방법이 구현된다.
발명 내용 부분에서 설명하는 내용은 본 개시의 실시예의 핵심 또는 중요 특징을 한정하기 위한 것이 아니며 본 개시의 범위를 제한하기 위한 것도 아님을 이해하여야 한다. 본 개시의 기타 특징은 이하의 설명을 통해 이해하기 쉽게 될 것이다.
첨부 도면을 결부하고 이하 상세한 설명을 참조하면, 본 개시의 각 실시예의 상술한 및 기타의 특징, 이점 및 측면은 더욱 분명해질 것이다. 첨부 도면에서, 동일 또는 유사한 도면 지시는 동일 또는 유사한 요소를 표시하는바, 여기서:
도1은 본 개시의 복수 개 실시예가 구현될 수 있는 예시 환경의 개략도를 도시한다.
도2는 본 개시의 실시예에 따른 샘플 처리 과정의 흐름도를 도시한다.
도3은 본 개시의 일부 실시예에 따른 특징 표현을 결정하기 위한 신경망의 개략도를 도시한다.
도4는 본 개시의 일부 실시예에 따른 클러스터링 결과의 개략도를 도시한다.
도5는 본 개시의 일부 실시예에 따른 선별된 샘플을 결정하는 과정의 흐름도를 도시한다.
도6은 본 개시의 복수 개 실시예에 따른 샘플 처리 장치의 개략적 블록도를 도시한다.
도7은 본 개시의 복수 개 실시예를 구현 가능한 컴퓨팅 기기의 블록도를 도시한다.
아래 첨부 도면을 참조하여 본 개시의 실시예에 대해 더 상세하게 설명하고자 한다. 비록 첨부 도면에 본 개시의 어떤 실시예가 도시되었지만, 본 개시는 여러 가지 형식을 통해 구현할 수 있는 것으로, 여기서 서술하는 실시예에 한정되는 것으로 해석되어서는 안되고, 반대로, 이러한 실시예를 제공하는 것은 본 개시를 더욱 철저하고 완전하게 이해시키기 위한 것임을 이해하여야 한다. 본 개시의 첨부 도면 및 실시예는 예시적 작용을 위한 것으로, 본 개시의 보호 범위를 제한하기 위한 것이 아님을 이해하여야 한다.
본 개시의 실시예의 설명에서, 전문 용어 ‘포함’ 및 그 유사 용어는 개방적 포괄, 즉, ‘포함하나 이에 한정되지 않음’으로 이해하여야 한다. 전문 용어 ‘기초하여’는 '적어도 부분적으로 기초하여’로 이해하여야 한다. 전문 용어 '하나 실시예' 또는 '당해 실시예'는 '적어도 하나의 실시예'로 이해하여야 한다. 전문 용어 '제1', ‘제2’ 등은 부동한 또는 동일한 대상을 지칭할 수 있다. 본 발명에서는 또한, 기타의 명확한 및 묵시적인 정의를 포함할 수 있다.
본 개시의 실시예의 설명에서, 본 기술 분야의 당업자가 이해하는 바와 같이, 전문 용어 '클러스터링'은 샘플 집합 중의 샘플을 통상적으로는 교차되지 않은 서브집합으로 분할하려는 과정을 가리키는 것으로, 여기서 획득된 각 서브집합은 하나의 '클러스터'로 호칭된다. 각 클러스터는 일부 잠재적 개념에 대응될 수 있다. 설명해야 할 것은, 비록 본 발명에서 샘플 집합 중의 샘플은 미리 주석된 카테고리를 구비하지만 클러스터링 과정에서는 이러한 카테고리 정보를 사용하지 않는다. 이 외에, 일부 상황에서는 획득된 클러스터(다른 한 샘플 집합으로 간주할 수 있음)에 대해 재차 클러스터링을 진행하여 당해 클러스터 중의 샘플 중의 하나 또는 복수의 샘플을 포함하는 서브집합(부분 클러스터로 호칭될 수도 있음)을 획득할 수 있다.
본 개시의 실시예의 설명에서, 본 기술 분야의 당업자가 이해하는 바와 같이, 전문 용어 '신경망'는 적응성을 구비하는 단순 유닛으로 구성되는 광범위하고 병렬되고 상호 연결되는 네트워크를 가리키는 것으로, 그 조직은 생체 신경계가 진실 세계의 물체에 대한 인터랙션 반응을 모사할 수 있다. 신경망에서, 가장 기본적인 성분은 '뉴런' 모델, 즉 상술한 정의에서의 '단순 유닛'이다.
종래로는, 상기에서 언급한 바와 같이, 샘플 데이터를 정제 또는 선별하는 방안은 주요하게 두 가지 존재하는바, 즉 수동 규칙에 기초한 샘플 선별 및 준지도 학습(semi-supervised learning)에 기초한 샘플 선별이다. 수동 규칙에 기초한 방안에서는, 수동으로 오류 샘플의 규율을 발견하고 오류 샘플의 템플릿을 구축하는 것이 필요한바, 모델 매칭의 방식을 통해 오류 또는 노이즈 또는 샘플을 제거함으로써 선별된 샘플을 획득한다. 이러한 방안은 규칙 구축 비용이 높고 적용 범위가 유한한 것인바, 명시적 규율이 있고 템플렛으로 표시 가능한 샘플에만 적용된다.
준지도 학습에 기초한 방안에서는, 미리 선택된 소량의 고품질 샘플을 통해 기계 학습 모델을 트레이닝하고, 다음, 트레이닝 획득된 모델을 사용하여 전체 수의 샘플을 예측하고, 예측 신뢰도가 높은 샘플을 선택하여 고품질 샘플 집합에 추가한다. 이러한 방안은 한 측면으로는 초기 트레이닝 샘플의 품질에 의존하고, 다른 한 측면으로는 선택된 샘플이 초기 트레이닝 샘플에 편향 적합되므로 전체 샘플 공간을 커버하기 어렵다.
본 개시의 실시예에 따르면, 샘플 처리 방안이 제공되는바, 미리 주석된 카테고리를 구비하는 전체 수의 샘플에서 우수한 품질의 샘플을 선별하기 위한 것이다. 당해 방안에서는, 샘플의 특징 표현에 따라 샘플 집합 중의 샘플을 클러스터링하고, 샘플의 카테고리에 따라 클러스터링 획득된 각 클러스터의 순도를 결정한다. 각 클러스터에 대하여 순도에 따라 부동한 후처리 책략을 취하여 선별된 샘플을 결정한다. 이러한 방식으로, 노이즈가 있는 전체 수의 샘플로부터 우수한 품질의 샘플을 선별해낼 수 있고, 후속의 지도 학습 태스크에 사용한다. 때문에, 본 개시의 방안은 자동, 유효, 저비용의 샘플 선별을 유익하게 구현할 수 있다.
이하, 첨부 도면을 참조하여 본 개시의 실시예를 구체적으로 설명하고자 한다.
도1은 본 개시의 복수 개 실시예가 구현될 수 있는 예시 환경(100)의 개략도를 도시한다. 당해 예시 환경(100)에서는, 컴퓨팅 기기(102)에 의해 샘플 집합(101)을 처리하여 이로부터 선별된 샘플을 결정하는바, 예를 들어 이로부터 우수한 품질의 샘플을 선별한다. 도1에 도시한 환경(100)은 단지 예시적인 것으로, 복수의 컴퓨팅 기기를 사용하여 샘플 집합(101)에 대한 결정 및 처리를 할 수 있음을 이해하여야 한다. 또한, 컴퓨팅 기기(102)는 고정형 컴퓨팅 기기일 수도 있고, 모바일 폰, 태블릿 컴퓨터 등과 같은 휴대형 컴퓨팅 기기일 수도 있다.
샘플 집합(101)(본 발명에서는 종종 초기 샘플 집합(101)으로 호칭되기도 함)은 복수의 샘플을 포함한다. 도1에 도시한 바와 같이, 샘플 집합(101)은 샘플(110-1) 내지 샘플 (110-9)(설명의 편의를 위하여, 샘플(110)로 통일하여 호칭함)를 포함할 수 있다. 비록 도1은 샘플 집합(101) 중의 아홉 개 샘플(110)을 도시하지만 샘플 집합(101)은 샘플(110)을 더 많이 또는 더 적게 포함할 수 있음을 이해하여야 한다. 일부 실시예에서, 샘플 집합(101)은 대규모의 샘플(110), 예를 들어, 수천 내지 수만 개 샘플을 포함할 수 있다.
샘플(110)은 여러 가지 유형의 샘플일 수 있는바, 텍스트, 이미지, 비디오, 오디오 등을 포함하나 이에 한정되지 않는다. 예를 들어, 샘플(110-1) 내지 샘플(110-9)는 각각 한 편 또는 복수 편의 문장, 한 단락 또는 복수 단락의 글 , 하나 또는 복수의 문구일 수 있다. 샘플(110-1) 내지 샘플(110-9)는 각각 하나 또는 복수의 이미지, 한 클립 또는 복수 클립의 비디오일 수 있다. 본 개시의 실시예는 이러한 측면에서 제한을 받지 않는다.
샘플(110)은 미리 주석(또는 표기)된 카테고리를 구비하는바, 예를 들어, 도1에 도시한 바와 같은 카테고리A, B 및 C이다. 도1의 예시에서, 샘플(110-1) 내지 샘플(110-4)는 카테고리A를 구비하고, 샘플(110-5) 내지 샘플(110-7)은 카테고리B를 구비하고, 샘플(110-8) 및 샘플(110-9)는 카테고리C를 구비한다. 도1에 도시한 샘플(110)이 세 가지 카테고리A, B 및 C를 구비하는 것은, 단지 예시적인 것으로, 본 개시의 범위를 제한하려는 의도가 아님을 이해하여야 한다. 본 개시의 실시예는 이진 분류, 다중 분류 상황과 같은 여러 가지 분류 상황에 응용할 수 있다.
본 발명에서는, 카테고리는 샘플이 어느 한 측면에서 동일 또는 유사한 속성을 구비하도록 지시하기 위한 것일 수 있다. 예로 들어 말하면, 샘플(110)이 문장인 상황에서, 카테고리는 문장의 유형을 표시할 수 있다. 예를 들어, 카테고리A, B 및 C는 대응되는 샘플이 각각 뉴스 류의 문장, 논평 류의 문장 및 대중 과학 류의 문장으로 주석됨을 지시한다. 샘플(110)이 이미지인 상황에서, 카테고리는 이미지에 포함된 대상의 유형을 표시할 수 있다. 예를 들어, 카테고리A, B 및 C는 대응되는 샘플이 각각 사람, 동물 및 식물을 포함하여 주석되도록 지시한다. 카테고리는 필요에 따라 샘플의 여러 가지 동일 또는 유사 속성을 지시할 수 있는바, 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.
샘플(110)의 카테고리A, B 및 C는 여러 가지 방법을 통해 주석된 것일 수가 있다. 예를 들어, 수동에 의해 주석할 수 있다. 샘플(110)은 데이터 마이닝을 통해 획득한, 소정 카테고리를 구비하는 샘플일 수도 있다. 샘플(110)의 카테고리는 또한 기타 모델 또는 시스템에 의해 생성된 것일 수도 있다. 본 개시의 범위는 이러한 측면에서 제한을 받지 않는다.
일반적으로, 이러한 미리 주석된 카테고리는 완전 정확한 것이 아닐 수도 있는데, 이는 샘플 집합(101)의 노이즈를 초래하게 되는바, 즉 노이즈 샘플이 존재하게 된다. 예를 들면, 도1에서 카테고리B로 미리 주석된 샘플(110-7)은 실제로는 카테고리C이어야 하는바, 이러한 샘플(110-7)은 바로 노이즈 샘플 또는 오류 샘플이고, 제거 또는 정정되어야 한다.
컴퓨팅 기기(102)는 본 발명에서 개시한 방법을 이용하여 샘플 집합(101)을 처리할 수 있는바, 이로써 샘플(110)에서 적어도 일부 샘플을 선별된 샘플로 결정한다. 예를 들어, 도1에 도시한 바와 같이, 컴퓨팅 기기(102)는 샘플 집합(101)에서 샘플(110-1), (110-2), (110-5), (110-6) 및 (110-9)를 포함하는 샘플을 선별된 샘플로 결정할 수 있다. 이러한 선별된 샘플(110-1), (110-2), (110-5), (110-6) 및 (110-9)는, 예를 들어, 선별된 샘플 집합(103)을 구성할 수 있는바, 이는 샘플 집합(101)의 서브집합이다. 선별된 샘플은 본 발명에서 샘플 집합에서 선택된 또는 기타 방식으로 결정된 샘플을 지칭하기 위한 것이다.
비록 도1은 샘플(110-1), (110-2), (110-5), (110-6) 및 (110-9)를 선별된 샘플로 도시하지만, 선별된 샘플은 샘플(110)을 더 많이 또는 더 적게 포함할 수 있음을 이해하여야 한다. 일부 실시예에서, 컴퓨팅 기기(102)는 또한 본 발명에서 개시한 방법을 이용하여 선별된 샘플 집합(103)을 처리함으로써 진일보 샘플을 선별할 수 있다.
본 개시의 실시예가 제공하는 샘플 처리 방안을 더 또렷하게 이해하기 위해, 도2를 참조하여 본 개시의 실시예를 진일보 설명하고자 한다. 도2는 본 개시의 실시예에 따른 샘플 처리 과정(200)의 흐름도를 도시한다. 과정(200)은 도1의 컴퓨팅 기기(102)에 의해 구현될 수 있다. 토론의 편의를 위하여, 도1을 결부하여 과정(200)을 설명하고자 한다.
단계210에서, 컴퓨팅 기기(102)는 샘플 집합(101) 중의 샘플(110)의 특징 표현을 결정한다. 각 샘플(110)은 모두 미리 주석된 카테고리를 구비하는바, 예를 들어, 샘플(110-1) 내지 샘플(110-4)는 카테고리A를 구비하고, 샘플(110-5) 내지 샘플(110-7)은 카테고리B를 구비하고, 그리고 샘플(110-8) 및 샘플(110-9)는 카테고리C를 구비한다. 특징 표현은 본 발명에서 샘플(110)의 하나 또는 복수의 속성과 상호 관련되는 특징의 서브집합을 지시하기 위한 것으로, 이는 추상적으로 또는 수학적 방식으로 샘플(110)을 설명할 수가 있다. 특징 표현은 통상적으로 다차원 벡터 또는 행렬이다. 컴퓨팅 기기(102)는 초기의 샘플(110)을 특징 공간에서의 특징 벡터로 매핑 가능한 임의의 방법을 사용하여 특징 표현을 결정할 수 있다.
일부 실시예에서는, 미리 정의된 특징 공간을 사용할 수 있다. 컴퓨팅 기기(102)는 샘플 집합(101) 중의 샘플(110)이 미리 정의된 특징 공간에서의 특징 값을 결정하고, 이러한 특징 값이 구성하는 특징 벡터를 특징 표현으로 할 수 있다. 예를 들어, 샘플(110)이 텍스트인 상황에서, 만약 특징 공간이 사전 내의 각 글자라면, 샘플(110)의 특징 표현은 글자 벡터일 수 있다. 만약 특징 공간이 사전 내의 각 단어라면, 샘플(110)의 특징 표현은 단어 벡터일 수 있다.
일부 실시예에서는, 기계 학습 방법을 사용하여 샘플의 특징 표현을 학습할 수 있다. 컴퓨팅 기기(102)는 특징 추출 모델을 사용하여 특징 표현을 결정할 수 있고, 당해 특징 추출 모델은 임의의 기계 학습 방법에 기초할 수 있다. 예를 들어, 특징 추출 모델은 합성곱 신경망CNN, 재귀 신경망 등과 같은 신경망을 포함할 수 있다.
컴퓨팅 기기(102)는 샘플 집합(101)을 특징 추출 모델에 응용할 수 있는바, 즉 신경망에 응용하여 샘플 집합(101) 중의 샘플(110)과 상호 관련되는 은닉층(hidden layer) 뉴런을 획득한다. 다음, 컴퓨팅 기기(102)는 획득한 은닉층 뉴런에 따라 샘플 집합(101) 중의 샘플(110)의 특징 표현을 결정할 수 있다. 즉, 컴퓨팅 기기(102)는 생성된 은닉층 벡터를 샘플(110)의 특징 표현으로 할 수 있다. 예를 들어, 샘플(110)이 텍스트 데이터인 상황에서, 합성곱 신경망CNN 분류기를 사용하여 트레이닝을 진행할 수 있는바, 모델 트레이닝 과정에서 생성된 은닉층 벡터를 샘플의 특징 벡터로 출력한다.
아래 도3을 결부하여 어떻게 신경망을 통해 샘플(110)의 특징 표현을 결정하는지를 설명하고자 한다. 도3은 본 개시의 일부 실시예에 따른 특징 표현을 결정하기 위한 신경망(300)을 개략적으로 도시한다. 신경망(300)은 입력층(310)을 포함할 수 있는바, 이는 입력층 뉴런(311), 뉴런(312) 및 뉴런(313)을 포함한다. 입력층(310)의 각 뉴런(311), 뉴런(312) 및 뉴런(313)은 샘플(110) 중의 각 샘플의 상응하는 특징 값을 입력으로 하여 수신한다. 은닉층 뉴런(321), 은닉층 뉴런(322), 은닉층 뉴런(323) 및 은닉층 뉴런(324)를 포함하는 은닉층(320)은 입력층(310)에서 오는 출력을 수신하고 일정한 연산을 거쳐 그 다음층(330)으로 출력할 수 있다. 뉴런(331), 뉴런(332) 및 뉴런(333)을 포함하는 층(330)은 출력층일 수도 있고 다음 은닉층일 수도 있다.
컴퓨팅 기기(102)는 예를 들어 은닉층 뉴런(321), 은닉층 뉴런(322), 은닉층 뉴런(323) 및 은닉층 뉴런(324)에 따라 샘플(110)의 특징 표현을 결정할 수 있다. 컴퓨팅 기기(102)는 은닉층 뉴런(321), 은닉층 뉴런(322), 은닉층 뉴런(323) 및 은닉층 뉴런(324)의 출력 값을 특징 벡터가 상응하는 차원에서 취한 값으로 결정하고 당해 특징 벡터를 특징 표현으로 할 수 있다. 도3의 예시에서, 특징 표현으로 사용되는 특징 벡터는 4개 차원을 구비한다. 층(330)이 은닉층인 상황에서, 뉴런(331), 뉴런(332) 및 뉴런(333)에 따라 특징 표현을 결정할 수도 있다.
도3에 도시한 신경망(300)은 단지 예시적인 것으로, 본 개시의 범위를 제한하려는 의도가 아님을 이해하여야 한다. 컴퓨팅 기기(102)는 임의 수량의 은닉층 및 임의 수량의 은닉층 뉴런을 구비하는 신경망을 사용할 수 있다. 이 외에 컴퓨팅 기기(102)는 실제 필요(예를 들어, 샘플 유형, 태스크 수요)에 근거하여 어느 한 은닉층의 뉴런을 사용할지를 결정할 수 있다.
이러한 실시예에서, 특징 표현은 트레이닝 가능한 신경망이 생성하는 은닉층 데이터에 의해 결정되는 것으로, 샘플 특징에 대한 직접 표현인 것은 아니다. 이러한 특징 표현은 목표와의 관련이 더욱 밀접한 표현을 나타낼 수 있고, 후속의 클러스터링에 유익하다. 이 외에, 이러한 실시예에서, 신경망을 사용하는 목표는 샘플(110)의 은닉층 벡터 표현을 획득하는 것이기 때문에 신경망 모델에 대한 분류 정밀도에는 엄격한 요구가 없으며 직접 전체 수의 노이즈 샘플을 사용하여 트레이닝을 진행할 수 있음을 유의하여야 한다.
계속하여 도2를 참조하면, 단계220에서, 컴퓨팅 기기(102)는 단계210에서 결정된 특징 표현에 따라 샘플 집합(101)을 클러스터링하여 샘플(110) 중의 하나 또는 복수의 샘플을 포함하는 클러스터를 획득한다. 클러스터링은 임의의 적합한 클러스터링 알고리즘을 사용할 수 있는바, 예를 들어, k-평균(K-Means) 클러스터링 알고리즘, DBSCAN와 같은 밀도 기반 클러스터링 알고리즘 등이다.
클러스터링 결과는 통상적으로 n개 클러스터이고, 각 클러스터는 통상적으로 부동한 수량의 샘플(110)을 포함한다. 도4는 본 개시의 일부 실시예에 따른 클러스터링 결과(400)의 개략도를 도시한다. 도4는 샘플 집합(101)을 클러스터링하여 획득된 클러스터(401), 클러스터(402) 및 클러스터(403)를 개략적으로 도시한다. 클러스터(401)에는 적어도 샘플(110-1) 및 샘플(110-2)가 포함되고; 클러스터(402)에는 적어도 샘플(110-3), 샘플(110-5), 샘플(110-6) 및 샘플(110-8)가 포함되고; 클러스터(403)에는 적어도 샘플(110-4), 샘플(110-7) 및 샘플(110-9)가 포함된다. 도4에 도시한 클러스터링 결과(400)는 단지 예시적인 것으로, 본 개시의 범위를 제한하려는 의도가 아님을 이해하여야 한다. 클러스터링 결과(400)는 또한 클러스터를 더 많이 또는 더 적게 포함할 수 있고, 클러스터(401), 클러스터(402) 및 클러스터(403)은 또한 샘플(110)을 더 많이 또는 더 적게 포함할 수 있다.
계속하여 도2를 참조하면, 단계230에서, 컴퓨팅 기기(102)는 클러스터 중의 샘플의 카테고리에 따라 클러스터의 순도를 결정하는바, 순도는 클러스터의 샘플 무질서 정도를 지시하기 위한 것이다. 클러스터 중 샘플의 카테고리가 많을 수록 그리고 각 카테고리의 샘플 수량이 근접할 수록 클러스터의 순도가 더 낮게 되고; 반대로, 클러스터 중 어느 한 카테고리의 샘플 점유 비율이 높을 수록 클러스터의 순도가 더 높게 된다. 순도는 0 내지 1사이에 있는 숫자를 사용하거나 또는 백분율로 표시할 수도 있고, 임의의 적합한 숫자를 사용하여 표시할 수도 있다. 컴퓨팅 기기(102)는 클러스터(401), 클러스터(402) 및 클러스터(403)에 대해 각각 순도를 결정할 수 있다. 부동한 응용 수요에 근거하여 부동한 순도 계산 방법을 설계할 수 있다.
일부 실시예에서는, 클러스터에서 최대 수량 카테고리인 샘플이 전체 클러스터의 샘플에서 점유하는 비율을 클러스터의 순도로 사용할 수 있다. 도4에 도시한 클러스터(402)를 예로 들면, 컴퓨팅 기기(102)는 클러스터(402)에서 각 카테고리(즉, 카테고리A, B 및 C)의 샘플 수량을 결정할 수 있다. 예를 들어, 컴퓨팅 기기(102)는 다음을 결정할 수 있는바: 클러스터(402)에서, 카테고리A의 샘플 수량은 30이고, 카테고리B의 샘플 수량은 60이고, 카테고리C의 샘플 수량은 10이다.
그리고, 컴퓨팅 기기(102)는 카테고리A, B 및 C의 샘플 수량에 따라 최대 샘플 수량을 결정할 수 있다. 예를 들어, 컴퓨팅 기기(102)는 클러스터(402)에서 카테고리B의 샘플이 가장 많고, 최대 샘플 수량은 60임을 결정할 수가 있다. 컴퓨팅 기기(102)는 나아가 결정된 최대 샘플 수량 및 클러스터(402) 중의 샘플의 총 수량에 근거하여 클러스터(402)의 순도를 결정할 수 있다. 예를 들어, 클러스터(402)의 샘플 총 수량이 100이라면, 클러스터(402)의 순도가 60/100=0.6임을 결정할 수가 있다. 클러스터링 결과(400) 중의 기타 클러스터(예를 들어, 클러스터(401) 및 (403)에 대해서는 동일한 방식을 사용하여 순도를 결정할 수 있다.
일부 실시예에서는, 정보 엔트로피를 사용하여 클러스터의 순도를 결정할 수 있다. 식(1)을 사용하여 각 클러스터(401), 클러스터(402) 및 클러스터(403)의 정보 엔트로피(H)를 계산할 수 있다.
Figure 112019088824093-pat00001
(1)
여기서 pi는 제i카테고리의 샘플 수량이 클러스터의 샘플 총 수량에서 점유하는 비율을 표시하고, k는 클러스터 중의 샘플의 전체 카테고리 수를 표시한다. 예를 들어, 도4에 도시한 클러스터(402)에 대하여, k가 3이고, p1은 카테고리A의 샘플의 비율 0.6을 표시하고, p2는 카테고리B의 샘플의 비율 0.3을 표시하고, p3은 카테고리C의 샘플의 비율 0.1을 표시한다.
클러스터 중의 샘플이 무질서할수록 상응하는 정보 엔트로피(H)가 더 크게 되므로 정보 엔트로피의 역수 1/H을 클러스터(402)의 순도로 사용할 수 있음을 유의하여야 한다. 클러스터링 결과(400) 중의 기타 클러스터(예를 들어, 클러스터(401) 및 클러스터(403))에 대하여서는 동일한 방식을 사용하여 순도를 결정할 수가 있다.
단계240에서, 컴퓨팅 기기(102)는 단계230에서 결정된 순도에 따라 클러스터 중의 샘플에서 선별된 샘플을 결정한다. 컴퓨팅 기기(102)는 부동한 순도에 대해 부동한 후처리 책략을 적용하여 각 클러스터(401), 클러스터(402) 및 클러스터(403)로부터 우수한 품질의 샘플을 선별할 수 있다. 예를 들어, 순도에 따라 세 가지 상황으로 나누어 부동한 후처리 책략을 취할 수 있다. 제1 종류 상황에서 클러스터는 한가지 카테고리(예를 들어, 카테고리A)의 샘플만 포함하고; 제2 종류 상황에서 클러스터는 복수의 카테고리의 샘플을 포함하나, 당해 클러스터의 순도가 비교적 높고(예를 들어, 역치 순도보다 높음); 제3 종류 상황에서 클러스터는 복수의 카테고리의 샘플을 포함하나, 당해 클러스터의 순도가 비교적 낮다(예를 들어, 역치 순도보다 낮음). 본 발명에서는 도5를 참조하여 순도에 따라 선별된 샘플을 결정하는 과정을 상세히 설명하고자 한다.
이상은 본 개시의 실시예에 따른 샘플 처리 과정(200)을 설명하였다. 이러한 방식으로는, 전체 샘플 집합에 대한 여과 및 정제를 구현 가능하여 고품질의 주석된 샘플을 획득하게 된다. 때문에, 본 개시의 방안은 샘플에 대한 정제 및 여과가 가능하고, 특히는, 노이즈가 있는 대규모 샘플에 대한 전체 수의 정제 및 여과가 가능하여, 노이즈 샘플을 효과적으로 제거하고, 샘플 품질을 향상시키므로, 대규모의 지도적 기계 학습 태스크의 효과를 제고하는데 도움이 된다.
일부 실시예에서, 컴퓨팅 기기(102)는 또한 획득한 선별된 샘플에 대해 도2 중의 과정(200) 또는 과정(200)의 일부를 중복함으로써 샘플을 진일보 선별하여 더욱 우수한 품질의 샘플을 획득할 수 있다. 구체적으로, 컴퓨팅 기기(102)는 클러스터(401), 클러스터(402), 클러스터(403)에서 획득한 선별된 샘플에 따라 샘플 집합(102)의 하나의 서브집합을 결정할 수 있다. 상기에서 도1에 관하여 언급한 것과 같이, 본 발명에서는 이러한 서브집합을 선별된 샘플 집합으로 호칭할 수 있는바, 예를 들어 도1에서 도시한 선별된 샘플 집합(103)이다. 선별된 샘플 집합(103)은 샘플 집합(101)과 상관되는 클러스터(401), 클러스터(402), 클러스터(403)에서 획득한 선별된 샘플을 포함할 수 있다.
상기에서 설명된 신경망을 기반으로 특징 표현을 결정하는 실시예에서는, 선별된 샘플 집합(103)에 대해 도2 중의 단계210 내지 단계240을 중복함으로써 선별된 샘플을 업데이트할 수 있다. 컴퓨팅 기기(102)는 선별된 샘플 집합(103)을 단계210에서 사용하는 특징 추출 모델(즉, 신경망)에 응용하여 선별된 샘플 집합(103) 중의 샘플의 업데이트 특징 표현을 획득할 수 있다. 단계210에서 사용하는 신경망은 학습 가능한 것이므로 초기 샘플 집합(101)과 부동한 선별된 샘플 집합(103)을 응용할 시, 동일 샘플(예를 들어, 샘플(110-1)에 대하여 이전과 부동한 특징 표현을 획득할 수 있는바, 즉, 업데이트 특징 표현을 획득할 수 있다.
컴퓨팅 기기(102)는 그리고나서 업데이트 특징 표현에 따라 선별된 샘플 집합(103)을 클러스터링함으로써, 새로운 클러스터링 결과(즉, 생성된 클러스터 및 클러스터의 순도)에 따라 선별된 샘플을 업데이트할 수 있다. 즉, 컴퓨팅 기기(102)는 도2 중의 단계230 및 단계240을 중복할 수 있다.
상기에서 설명된 미리 정의된 특징 공간에 따라 특징 표현을 결정하는 실시예에서, 선별된 샘플 집합(103)에 대해 도2 중의 단계220 내지 단계240을 중복함으로써, 선별된 샘플을 업데이트할 수 있다. 컴퓨팅 기기(102)는 이전에 단계210에서 결정된 특징 표현에 따라 선별된 샘플 집합(103)을 클러스터링할 수 있다. 이러한 실시예에서, 특징 표현은 미리 정의된 특징 공간에서 결정된 것이므로 동일 샘플(예를 들어, 샘플(110-1))에 대하여 특징 표현은 변하지 않는다.
초기 샘플 집합(101)에 대한 클러스터링과 비교하면, 선별된 샘플 집합(103)에 대한 클러스터링은 부동한 클러스터링 알고리즘을 적용하거나, 또는 부동한 클러스터링 파라미터(예를 들어, 클러스터링 거리)를 적용하거나, 또는 양자의 결합을 적용할 수 있다. 컴퓨팅 기기(102)는 이러한 방법을 통해 획득된 클러스터에 따라 샘플을 더 선별할 수 있는바, 즉 선별된 샘플을 업데이트할 수 있다.
이러한 상황에서, 선별해낸 우수한 품질의 샘플을 통해 더욱 양호한 클러스터링 결과를 획득할 수 있고, 더욱 양호한 클러스터링 결과를 통해, 종료 조건이 만족될 때까지, 더욱 우수한 품질의 샘플을 진일보 선별한다. 구체 응용 장면에 근거하여 종료 조건을 설계할 수 있다. 예를 들어, 종료 조건은, 클러스터링 결과에서 저순도 클러스터의 샘플 수량이 샘플 집합(101)의 샘플 총 수량에서 점유하는 비율이 소정 역치보다 작은 것일 수가 있다. 종료 조건은 또한 선별된 샘플의 수량이 소정 수량보다 작은 것일 수가 있다.
이러한 실시예에서, 이터레이션을 통해 더욱 우수한 품질의 샘플을 더 선별할 수 있는바, 이로써 최종 획득한 샘플 품질을 제고한다. 이러한 방식으로 샘플 품질이 더 제고되어 후속의 지도 학습 태스크의 효과를 향상시키는데 유익하게 된다.
상기에서 도2를 참조하여 언급한 바와 같이, 컴퓨팅 기기(102)는 순도에 따라 선별된 샘플을 결정할 수 있다. 아래 도4 및 도5를 참조하여 이러한 과정을 설명하고자 한다. 도5는 본 개시의 일부 실시예에 따른 선별된 샘플을 결정하는 과정(500)의 흐름도를 도시한다. 과정(500)은 도2의 단계240의 구현으로 간주할 수 있다.
도5를 참조하면, 단계510에서, 컴퓨팅 기기(102)는 클러스터의 순도가 역치 순도보다 높은지 여부를 결정할 수 있다. 역치 순도는 구체 응용 장면에 의해 결정될 수 있는바, 예를 들어, 샘플(110)의 유형, 후속의 지도적 학습 태스크의 샘플 정밀도에 대한 요구 등이다. 만약 컴퓨팅 기기(102)가 단계510에서 결정한 클러스터의 순도가 역치 순도보다 높다면 클러스터 중의 샘플의 카테고리에 따라 선별된 샘플을 결정할 수 있는바, 즉, 과정(500)는 단계520으로 진입될 수 있다. 예를 들어, 클러스터(401) 또는 클러스터(402)에 대하여, 컴퓨팅 기기(102)는 그 순도가 역치 순도보다 높음을 결정할 수 있다.
단계520에서, 컴퓨팅 기기(102)는 클러스터(401) 또는 클러스터(402) 중의 샘플의 카테고리가 동일한지 여부를 결정할 수 있다. 만약 컴퓨팅 기기(102)가 단계520에서 결정한 클러스터 중의 샘플의 카테고리가 동일하다면, 과정(500)은 단계530으로 진입될 수 있다. 예를 들어, 클러스터(401)에 대하여, 컴퓨팅 기기(102)는 단계520에서 클러스터(401) 중의 샘플이 모두 카테고리A라고 결정할 수 있다. 그러면 단계530에서, 컴퓨팅 기기(102)는 클러스터(401)에 포함되는 모든 샘플을 선별된 샘플로 결정할 수 있는바, 예를 들어 클러스터(401) 중의 샘플(110-1), 샘플(110-2) 등을 선별된 샘플로 결정할 수 있다.
만약 컴퓨팅 기기(102)가 단계520에서 결정한 클러스터 중의 샘플의 카테고리가 부동하다면, 즉, 클러스터 중의 샘플이 복수의 카테고리를 구비한다면 과정(500)은 단계540으로 진입될 수 있다. 예를 들어, 클러스터(402)에 대하여, 컴퓨팅 기기(102)는 클러스터(402) 중의 샘플이 복수의 카테고리A, B 및 C를 구비함을 결정할 수 있다. 이러한 상황에서, 클러스터(402)는 복수의 카테고리의 샘플을 구비하나 순도가 역치 순도보다 높은바, 이는 클러스터(402)에서 일종의 카테고리의 샘플이 지배적임을 의미한다.
단계540에서, 컴퓨팅 기기(102)는 클러스터(402) 중 각 카테고리의 샘플의 수량을 결정할 수 있다. 예를 들어, 상기에서 설명된 바와 같이, 컴퓨팅 기기(102)는 클러스터(402)에서 카테고리A의 샘플 수량을 30으로, 카테고리B의 샘플 수량을 60으로, 카테고리C의 샘플 수량을 10으로 결정할 수 있다. 단계550에서, 컴퓨팅 기기(102)는 각 카테고리의 샘플 수량에 따라 클러스터(402)에서 최대 샘플 수량을 구비하는 카테고리를 결정할 수 있다. 예를 들어, 컴퓨팅 기기(102)는 클러스터(402)에서 카테고리B의 샘플이 최대 샘플 수량을 구비함을 결정할 수 있다.
단계560에서, 컴퓨팅 기기(102)는 결정된 카테고리를 구비하는 샘플을 선별된 샘플로 결정할 수 있다. 예를 들어, 컴퓨팅 기기(102)는 클러스터(402) 중 카테고리B의 샘플(예하면, 샘플(110-5), 샘플(110-6))을 선별된 샘플로 결정할 수 있다.
카테고리B 이외의 기타 카테고리의 샘플(예하면, 샘플(110-3), 샘플(110-8) 등)은, 부동한 응용 장면, 태스크 수요 등에 의해 부동한 처리를 취할 수 있다. 예를 들어, 만약 기타 카테고리의 샘플 수량이 샘플 집합(101)의 샘플 총 수량에서 점유하는 비율이 비교적 작다면, 이러한 기타 카테고리의 샘플을 직접 폐기할 수 있다. 만약 후속의 지도적 학습 태스크가 샘플 품질에 대한 요구가 비교적 높다면, 이러한 기타 카테고리의 샘플을 출력하여 수동 주석을 진행할 수 있다.
일부 상황에서, 또한 클러스터(402) 중의 기타 카테고리의 샘플에 대해 자동 오류 정정을 진행할 수 있다. 예를 들어, 만약 클러스터(402)에서 일정 비율(예를 들어, 95%)을 초과하는 샘플(110)이 모두 카테고리B이라면, 클러스터(402) 중 카테고리A 및 C를 구비하는 샘플을 카테고리B로 정정할 수 있고, 그리고 또한 이러한 정정을 거친 샘플도 선별된 샘플로 할 수 있다.
계속하여 단계510을 참조하면, 만약 컴퓨팅 기기(102)가 단계510에서 결정한 클러스터의 순도가 역치 순도보다 높지 않다면 러스터 중 샘플의 수량에 따라 부동한 처리를 취할 수 있는바, 즉, 과정(500)은 단계570으로 진입될 수 있다. 예를 들어, 클러스터(403)에 대하여, 컴퓨팅 기기(102)는 단계510에서 클러스터(403)의 순도가 역치 순도보다 낮다고 결정할 수 있는바, 이는 클러스터(403)에서 여러 가지 카테고리의 샘플 분포가 비교적 균일한 것을 의미한다.
단계570에서, 컴퓨팅 기기(102)는 클러스터(403) 중의 샘플 수량이 샘플 집합(101) 중의 샘플 총 수량에서 점유하는 비율을 결정할 수 있다. 단계580에서, 컴퓨팅 기기(102)는 당해 비율이 역치 비율을 초과하는지 여부를 결정할 수 있는바, 당해 역치 비율은 본 발명에서 상한 역치 비율로 호칭되기도 한다. 만약 당해 비율이 상한 역치 비율을 초과한다고 결정된다면, 이는 클러스터(403) 중의 샘플 수량이 비교적 큼을 의미하는바, 과정(500)은 단계590으로 진입될 수 있다.
단계590에서, 컴퓨팅 기기(102)는 클러스터(403) 중의 샘플(예하면, 샘플(110-4), 샘플(110-7), 샘플(110-9) 등)에 대해 재차 클러스터링하여 클러스터링 결과를 획득할 수 있다. 당해 클러스터링 결과는 클러스터(403) 중의 샘플(110-4), 샘플(110-7), 샘플(110-9)의 하나 또는 복수의 서브집합(하나 또는 복수의 서브클러스터로 호칭될 수도 있음)을 포함한다. 단계595에서, 컴퓨팅 기기(102)는 당해 클러스터링 결과에 따라 클러스터(403) 중의 샘플 중의 적어도 일부를 선별된 샘플로 결정할 수 있다. 예를 들어, 컴퓨팅 기기(102)는 획득한 서브클러스터에 대해 도2 중의 단계230 및 단계240을 중복함으로써, 선별된 샘플을 결정할 수 있다.
만약 컴퓨팅 기기(102)가 단계580에서, 단계570에서 획득한 비율이 상한 역치 비율을 초과하지 않는다고 결정한다면 컴퓨팅 기기(102)는 나아가 클러스터(403) 중의 샘플 수량에 따라 부동한 처리를 취할 수 있다. 만약 클러스터(403) 중의 샘플 수량이 비교적 적다면 클러스터(403) 중의 샘플을 폐기할 수 있다. 예를 들어, 만약 단계570에서 결정된 클러스터(403)의 샘플 비율이 다른 한 역치 비율(토론의 편의를 위하여, 하한 역치 비율로 호칭될 수도 있음)보다 작다면 클러스터(403)에 포함되는 전부의 샘플을 폐기할 수 있다.
만약 클러스터(403) 중의 샘플 수량이 적당하다면, 예를 들어 단계570에서 결정된 클러스터(403)의 샘플 비율이 하한 역치 비율보다 크다면 구체 응용 장면에 따라 부동한 처리를 취한다. 예를 들어, 샘플 정밀도에 대한 요구가 높고 샘플 총 수량이 충분히 크지 않은 상황에서는, 클러스터(403) 중의 샘플을 출력하여 수동 주석을 진행할 수 있다. 클러스터(403) 중의 샘플에 대해 소규모 샘플링을 진행할 수도 있는바, 수동에 의해 후속의 처리를 판정한다. 또한 클러스터(403) 중의 샘플을 전부 폐기하거나, 또는 전부 보유함으로써 다음 회의 이터레이션 시 최적화하도록 남겨 둘수 있다.
도6은 본 개시의 실시예에 따른 대상 결정에 사용되는 장치(600)의 개략적 블록도를 도시한다. 장치(600)는 도1의 컴퓨팅 기기(102)에 포함되거나 또는 컴퓨팅 기기(102)로 구현될 수 있다. 도6에 도시한 바와 같이, 장치(600)는, 샘플 집합 중의 샘플의 특징 표현을 결정하도록 구성되는 제1 표현 결정 모듈(610) - 각 샘플은 미리 주석된 카테고리를 구비함 - ; 특징 표현에 따라 샘플 집합을 클러스터링하여 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하도록 구성되는 제1 클러스터링 모듈(620); 클러스터 중의 샘플의 카테고리에 따라 클러스터의 순도를 결정하도록 구성되는 제1 순도 결정 모듈(630) - 순도는 클러스터의 샘플 무질서 정도를 지시함 - ; 순도에 따라 클러스터 중의 샘플에서 선별된 샘플을 결정하도록 구성되는 샘플 선별 모듈(640); 을 포함한다.
일부 실시예에서, 샘플 선별 모듈(640)은, 순도가 역치 순도보다 높은 것에 응답하여, 클러스터 중의 샘플의 카테고리에 따라 선별된 샘플을 결정하도록 구성되는 제1 샘플 결정 모듈을 포함한다.
일부 실시예에서, 제1 샘플 결정 모듈은, 클러스터 중의 샘플의 카테고리가 동일한 것에 응답하여, 클러스터 중의 샘플을 선별된 샘플로 결정하도록 구성되는 제2 샘플 결정 모듈을 포함한다.
일부 실시예에서, 제1 샘플 결정 모듈은, 클러스터 중의 샘플이 복수의 카테고리를 구비한 것에 응답하여 각 카테고리의 샘플 수량을 결정하도록 구성되는 제1 수량 결정 모듈; 각 카테고리의 샘플 수량에 따라 클러스터에서 최대 샘플 수량을 구비하는 카테고리를 결정하도록 구성되는 최대 카테고리 결정 모듈; 및 결정된 카테고리를 구비하는 샘플을 선별된 샘플로 결정하도록 구성되는 제3 샘플 결정 모듈을 포함한다.
일부 실시예에서, 샘플 선별 모듈(640)은, 순도가 역치 순도보다 낮은 것에 응답하여, 클러스터 중의 샘플 수량이 샘플 집합 중의 샘플 총 수량에서 점유하는 비율을 결정하도록 구성되는 샘플 비율 결정 모듈; 비율이 역치 비율을 초과한 것에 응답하여, 클러스터 중의 샘플을 클러스터링하여 클러스터링 결과를 획득하도록 구성되는 제2 클러스터링 모듈; 및 적어도 클러스터링 결과에 따라 클러스터 중의 샘플 중의 적어도 일부를 선별된 샘플로 결정하도록 구성되는 제4 샘플 결정 모듈을 포함한다.
일부 실시예에서, 제1 표현 결정 모듈(610)은, 샘플 집합을 특징 추출 모델에 응용하여 샘플 집합과 상호 관련되는 은닉층 뉴런을 획득하도록 구성되는 샘플 응용 모듈; 및 은닉층 뉴런에 따라 샘플 집합 중의 샘플의 특징 표현을 결정하도록 구성되는 제2 표현 결정 모듈을 포함한다.
일부 실시예에서, 장치(600)는 적어도 선별된 샘플에 따라 샘플 집합의 하나의 서브집합을 결정하도록 구성되는 제1 서브집합 결정 모듈 - 서브집합은 샘플 집합과 상호 관련되는 적어도 하나의 클러스터에서 획득한 선별된 샘플을 포함함 - ; 서브집합을 특징 추출 모델에 응용하여, 서브집합 중의 샘플의 업데이트 특징 표현을 획득하도록 구성되는 제1 서브집합 응용 모듈; 및 업데이트 특징 표현에 따라 서브집합을 클러스터링하여 클러스터링 결과에 따라 선별된 샘플을 업데이트하도록 구성되는 제1 샘플 업데이트 모듈; 을 더 포함한다.
일부 실시예에서, 제1 표현 결정 모듈(610)은, 샘플 집합 중의 샘플이 미리 정의된 특징 공간에서의 특징 값을 결정하여, 특징 표현으로 하도록 구성되는 제3 표현 결정 모듈을 포함한다.
일부 실시예에서, 장치(600)는, 적어도 선별된 샘플에 따라 샘플 집합의 하나의 서브집합을 결정하도록 구성되는 제2 서브집합 결정 모듈 - 서브집합은 샘플 집합과 상호 관련되는 적어도 하나의 클러스터에서 획득한 선별된 샘플을 포함함 - ; 및 특징 표현에 따라 서브집합을 클러스터링하여 클러스터링 결과에 따라 선별된 샘플을 업데이트하도록 구성되는 제2 샘플 업데이트 모듈; 을 더 포함한다.
일부 실시예에서, 제1 순도 결정 모듈(630)은, 클러스터 중 각 카테고리의 샘플 수량을 결정하도록 구성되는 제2 수량 결정 모듈; 각 카테고리의 샘플 수량에 따라 최대 샘플 수량을 결정하도록 구성되는 최대 수량 결정 모듈; 및 최대 샘플 수량 및 클러스터 중의 샘플 총 수량에 따라 순도를 결정하도록 구성되는 제2 순도 결정 모듈; 을 포함한다.
도7은 본 개시의 실시예를 구현하는데 사용 가능한 예시 기기(700)의 개략적 블록도를 도시한다. 기기(700)는 도1의 컴퓨팅 기기(102)를 구현하는데 사용될수 있다. 도시한 바와 같이, 기기(700)는 중앙 처리 유닛(CPU)(701)을 포함하는바, 이는 읽기 전용 메모리(ROM)(702)에 저장된 컴퓨터 프로그램 명령어 또는 저장 유닛(708)으로부터 랜덤 액세스 메모리(RAM)(703)에 로딩된 컴퓨터 프로그램 명령에 근거하여 여러 가지 적당한 작동과 처리를 실행할 수 있다. RAM(703)에는, 또한 기기(700)의 조작에 필요한 여러 가지 프로그램 및 데이터가 저장될 수 있다. CPU(701), ROM(702) 및 RAM(703)은 버스(704)를 통해 서로 연결된다. 입력/출력(I/O) 인터페이스(705)도 버스(704)에 연결된다.
기기(700) 중의 복수의 부품은 I/O 인터페이스(705)에 연결되는바, 입력 유닛(706), 예를 들어 키보드, 마우스 등; 출력 유닛(707), 예를 들어 여러 가지 유형의 디스플레이, 스피커 등; 저장 유닛(708), 예를 들어 자기 디스크, 광디스크 등; 및 통신 유닛(709), 예를 들어 네트워크 카드, 모뎀, 무선 통신 송수신기 등을 포함한다. 통신 유닛(709)은 기기(700)가 인터넷과 같은 컴퓨터 네트워크 및/또는 여러 가지 전기 통신 네트워크를 통해 기타 기기와 정보/데이터를 교환하도록 허용한다.
처리 유닛(701)은 상기에서 설명된 각 방법 및 처리를 실행하는바, 예를 들어 과정(200) 및 과정(500) 중의 임의의 하나이다. 예를 들어, 일부 실시예에서, 과정(200)컴퓨터 소프트웨어 프로그램으로 구현될 수 있는바, 이는 기계 판독 가능 매체, 예를 들어 저장 유닛(708)에 유형적으로 포함된다. 일부 실시예에서, 컴퓨터 프로그램의 일부 또는 전부가 ROM(702) 및/또는 통신 유닛(709)을 통하여 기기(700)에 로딩 및/또는 설치될 수 있다. 컴퓨터 프로그램이 RAM(703)에 로딩되어 CPU(701)에 의해 실행될 시, 상기에서 설명된 과정(200)의 하나 또는 복수의 단계를 실행할 수 있다. 대안적으로, 기타 실시예에서, CPU(701)는 기타 임의의 적당한 방식을 통해(예를 들어, 펌웨어의 도움으로) 과정(200) 및 과정(500) 중의 임의의 하나를 실행하도록 구성될 수 있다.
본 발명에서, 이상에서 설명된 기능은 적어도 부분적으로 하나 또는 복수의 하드웨어 논리 부품에 의해 실행될 수 있다. 예를 들어, 비제한적으로, 사용 가능한 시범 유형의 하드웨어 논리 부품은 필드 프로그램 가능 게이트 어레이(FPGA), 주문형 반도체(ASIC), 특정 용도 표준 제품(ASSP), 시스템 온 칩(SOC), 복합 프로그래머블 논리 소자(CPLD) 등을 포함한다.
본 개시의 방법을 구현하기 위한 프로그램 코드는 하나 또는 복수의 프로그래밍 언어의 임의의 조합을 적용하여 작성할 수 있다. 이러한 프로그램 코드는 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그램 가능 데이터 처리 장치의 프로세서 또는 제어기에 제공되어 프로그램 코드가 프로세서 또는 제어기에 의해 실행될 시 흐름도 및/또는 블록도에 규정한 기능/조작이 구현되도록 할 수 있다. 프로그램 코드는 기계에서 전부 실행되거나, 기계에서 일부 실행되거나, 독립적인 소프트웨어 패키지로서 일부는 기계에서 실행되고 일부는 원격 기계에서 실행되거나, 혹은 원격 기계 또는 서버에서 전부 실행될 수 있다.
본 개시의 전반 설명에서, 기계 판독 가능 매체는 유형의 매체일 수 있는바, 이는, 명령어 실행 시스템, 장치 또는 기기에 사용하기 위한, 또는 명령어 실행 시스템, 장치 또는 기기와 결합하여 사용하기 위한 프로그램을 포함 또는 저장할 수 있다. 기계 판독 가능 매체는 기계 판독 가능 신호 매체 또는 기계 판독 가능 저장 매체일 수 있다. 기계 판독 가능 매체는 전자의, 자성의, 광학의, 전자기의, 적외선의 또는 반도체의 시스템, 장치 또는 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함할 수 있으나 이에 한정되지 않는다. 기계 판독 가능 저장 매체의 더 구체적인 예시는 하나 또는 복수의 라인에 기초하는 전기 연결, 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 읽기 전용 메모리(ROM), 소거 및 프로그램 가능 읽기 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 콤팩트 디스크 읽기 전용 메모리(CD-ROM), 광학 저장 기기, 자기 저장 기기, 또는 상술한 내용의 임의의 적합한 조합을 포함하게 된다.
이 외에, 비록 각 조작을 묘사함에 있어서 특정 순서를 적용하였지만, 이러한 조작이 도시된 특정 순서로 또는 순차적 순서로 실행되어야 하거나, 또는 모든 도시한 조작이 실행되어야 하는 것으로, 이로써 기대하는 결과를 취득하기 위한 것임을 이해하여야 한다. 일정한 환경에서는, 멀티태스크 및 병렬 처리가 유익할 수 있다. 마찬가지로, 비록 위의 서술에는 약간의 구체 구현 디테일이 포함되지만, 이러한 것은 본 개시의 범위에 대한 제한으로 해석되어서는 안된다. 단독의 실시예의 전반 서술에서 설명되는 어떤 특징 또한, 조합 가능하게 하나의 구현에 구현될 수 있다. 반대로, 하나의 구현의 전반 서술에서 설명되는 여러 가지 특징도 단독으로 또는 임의의 적합한 서브조합의 방식으로 복수 개 구현에 구현될 수 있다.
비록 이미 구조적 특징 및/또는 방법론적 작동에 특정된 언어를 적용하여 본 주제에 대해 설명하였지만, 첨부된 특허청구범위가 한정하는 주제는 위에서 설명한 특정 특징 또는 작동에 한정되는 것이 아님을 이해하여야 한다. 반대로, 위에서 설명한 특정 특징 및 작동은 단지 특허청구범위의 예시 형식을 구현하는 것일 뿐이다.

Claims (22)

  1. 샘플 처리 방법에 있어서,
    샘플 집합 중의 샘플의 특징 표현을 결정하는 단계 - 각 샘플은 미리 주석된 카테고리를 구비함 - ;
    상기 특징 표현에 따라 상기 샘플 집합을 클러스터링하여, 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하는 단계;
    상기 클러스터 중의 샘플의 카테고리에 따라 각 클러스터의 순도를 결정하는 단계 - 상기 순도는 상기 클러스터의 샘플 무질서 정도를 지시함 - ; 및
    각 클러스터의 순도에 따라 부동한 후처리 책략을 취하여 선별된 샘플을 결정하는 단계; 를 포함하고,
    각 클러스터의 순도에 따라 부동한 후처리 책략을 취하여 선별된 샘플을 결정하는 단계는,
    상기 순도가 역치 순도보다 낮은 것에 응답하여, 상기 클러스터 중의 샘플 수량이 상기 샘플 집합 중의 샘플 총 수량에서 점유하는 비율을 결정하는 단계;
    상기 비율이 역치 비율을 초과한 것에 응답하여, 상기 클러스터 중의 샘플을 클러스터링하여 클러스터링 결과를 획득하는 단계; 및
    적어도 상기 클러스터링 결과에 따라, 상기 클러스터 중의 샘플 중의 적어도 일부를 선별된 샘플로 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  2. 제1항에 있어서,
    각 클러스터의 순도에 따라 부동한 후처리 책략을 취하여 선별된 샘플을 결정하는 단계는,
    상기 순도가 역치 순도보다 높은 것에 응답하여, 상기 클러스터에서 최대 샘플 수량을 구비하는 카테고리에 따라 상기 선별된 샘플을 결정하는 단계를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  3. 제2항에 있어서,
    상기 선별된 샘플을 결정하는 단계는,
    상기 클러스터 중의 샘플의 카테고리가 전부 동일한 것에 응답하여, 상기 클러스터에 포함되는 전부의 샘플을 상기 선별된 샘플로 결정하는 단계를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  4. 제2항에 있어서,
    상기 선별된 샘플을 결정하는 단계는,
    상기 클러스터 중의 샘플이 복수의 카테고리를 구비한 것에 응답하여, 각 카테고리의 샘플 수량을 결정하는 단계;
    각 카테고리의 샘플 수량에 따라 상기 클러스터에서 최대 샘플 수량을 구비하는 카테고리를 결정하는 단계; 및
    결정된 상기 카테고리를 구비하는 샘플을 상기 선별된 샘플로 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  5. 제1항에 있어서,
    상기 특징 표현을 결정하는 단계는,
    상기 샘플 집합을 특징 추출 모델에 응용하여, 상기 샘플 집합과 상호 관련되는 은닉층 뉴런을 획득하는 단계; 및
    상기 은닉층 뉴런에 따라, 상기 샘플 집합 중의 샘플의 특징 표현을 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  6. 제5항에 있어서,
    적어도 상기 선별된 샘플에 따라 상기 샘플 집합의 하나의 서브집합을 결정하는 단계 - 상기 서브집합은 상기 샘플 집합과 상호 관련되는 적어도 하나의 클러스터에서 획득한 선별된 샘플을 포함함 - ;
    상기 서브집합을 상기 특징 추출 모델에 응용하여, 상기 서브집합 중의 샘플의 업데이트 특징 표현을 획득하는 단계; 및
    상기 업데이트 특징 표현에 따라 상기 서브집합을 클러스터링하여, 클러스터링 결과에 따라 상기 선별된 샘플을 업데이트하는 단계; 를 더 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  7. 제1항에 있어서,
    상기 특징 표현을 결정하는 단계는,
    상기 샘플 집합 중의 샘플이 미리 정의된 특징 공간에서의 특징 값을 결정하여, 상기 특징 표현으로 하는 단계를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  8. 제7항에 있어서,
    적어도 상기 선별된 샘플에 따라 상기 샘플 집합의 하나의 서브집합을 결정하는 단계 - 상기 서브집합은 상기 샘플 집합과 상호 관련되는 적어도 하나의 클러스터에서 획득한 선별된 샘플을 포함함 - ; 및
    상기 특징 표현에 따라 상기 서브집합을 클러스터링하여, 클러스터링 결과에 따라 상기 선별된 샘플을 업데이트하는 단계; 를 더 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  9. 제1항에 있어서,
    상기 클러스터의 상기 순도를 결정하는 단계는,
    상기 클러스터 중 각 카테고리의 샘플 수량을 결정하는 단계;
    각 카테고리의 샘플 수량에 따라 최대 샘플 수량을 결정하는 단계; 및
    상기 최대 샘플 수량 및 상기 클러스터 중의 샘플 총 수량에 따라, 상기 순도를 결정하는 단계; 를 포함하는,
    것을 특징으로 하는 샘플 처리 방법.
  10. 샘플 처리 장치에 있어서,
    샘플 집합 중의 샘플의 특징 표현을 결정하도록 구성되는 제1 표현 결정 모듈 - 각 샘플은 미리 주석된 카테고리를 구비함 - ;
    상기 특징 표현에 따라 상기 샘플 집합을 클러스터링하여 하나 또는 복수의 샘플을 포함하는 클러스터를 획득하도록 구성되는 제1 클러스터링 모듈;
    상기 클러스터 중의 샘플의 카테고리에 따라 각 클러스터의 순도를 결정하도록 구성되는 제1 순도 결정 모듈 - 상기 순도는 상기 클러스터의 샘플 무질서 정도를 지시함 - ; 및
    각 클러스터의 순도에 따라 부동한 후처리 책략을 취하여 선별된 샘플을 결정하도록 구성되는 샘플 선별 모듈; 을 포함하고,
    상기 샘플 선별 모듈은,
    상기 순도가 역치 순도보다 낮은 것에 응답하여, 상기 클러스터 중의 샘플 수량이 상기 샘플 집합 중의 샘플 총 수량에서 점유하는 비율을 결정하도록 구성되는 샘플 비율 결정 모듈;
    상기 비율이 역치 비율을 초과한 것에 응답하여, 상기 클러스터 중의 샘플을 클러스터링하여 클러스터링 결과를 획득하도록 구성되는 제2 클러스터링 모듈; 및
    적어도 상기 클러스터링 결과에 따라, 상기 클러스터 중의 샘플 중의 적어도 일부를 선별된 샘플로 결정하도록 구성되는 제4 샘플 결정 모듈; 을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  11. 제10항에 있어서,
    상기 샘플 선별 모듈은,
    상기 순도가 역치 순도보다 높은 것에 응답하여, 상기 클러스터에서 최대 샘플 수량을 구비하는 카테고리에 따라 상기 선별된 샘플을 결정하도록 구성되는 제1 샘플 결정 모듈을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  12. 제11항에 있어서,
    제1 샘플 결정 모듈은,
    상기 클러스터 중의 샘플의 카테고리가 전부 동일한 것에 응답하여, 상기 클러스터에 포함되는 전부의 샘플을 상기 선별된 샘플로 결정하도록 구성되는 제2 샘플 결정 모듈을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  13. 제11항에 있어서,
    상기 제1 샘플 결정 모듈은,
    상기 클러스터 중의 샘플이 복수의 카테고리를 구비한 것에 응답하여, 각 카테고리의 샘플 수량을 결정하도록 구성되는 제1 수량 결정 모듈;
    각 카테고리의 샘플 수량에 따라, 상기 클러스터에서 최대 샘플 수량을 구비하는 카테고리를 결정하도록 구성되는 최대 카테고리 결정 모듈; 및
    결정된 상기 카테고리를 구비하는 샘플을 상기 선별된 샘플로 결정하도록 구성되는 제3 샘플 결정 모듈; 을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  14. 제10항에 있어서,
    상기 제1 표현 결정 모듈은,
    상기 샘플 집합을 특징 추출 모델에 응용하여 상기 샘플 집합과 상호 관련되는 은닉층 뉴런을 획득하도록 구성되는 샘플 응용 모듈; 및
    상기 은닉층 뉴런에 따라 상기 샘플 집합 중의 샘플의 특징 표현을 결정하도록 구성되는 제2 표현 결정 모듈; 을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  15. 제14항에 있어서,
    적어도 상기 선별된 샘플에 따라 상기 샘플 집합의 하나의 서브집합을 결정하도록 구성되는 제1 서브집합 결정 모듈 - 상기 서브집합은 상기 샘플 집합과 상호 관련되는 적어도 하나의개 클러스터에서 획득한 선별된 샘플을 포함함 - ;
    상기 서브집합을 상기 특징 추출 모델에 응용하여, 상기 서브집합 중의 샘플의 업데이트 특징 표현을 획득하도록 구성되는 제1 서브집합 응용 모듈; 및
    상기 업데이트 특징 표현에 따라 상기 서브집합을 클러스터링하여, 클러스터링 결과에 따라 상기 선별된 샘플을 업데이트하도록 구성되는 제1 샘플 업데이트 모듈; 을 더 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  16. 제10항에 있어서,
    상기 제1 표현 결정 모듈은,
    상기 샘플 집합 중의 샘플이 미리 정의된 특징 공간에서의 특징 값을 결정하여, 상기 특징 표현으로 하도록 구성되는 제3 표현 결정 모듈을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  17. 제16항에 있어서,
    적어도 상기 선별된 샘플에 따라 상기 샘플 집합의 하나의 서브집합을 결정하도록 구성되는 제2 서브집합 결정 모듈 - 상기 서브집합은 상기 샘플 집합과 상호 관련되는 적어도 하나의 클러스터에서 획득한 선별된 샘플을 포함함 - ; 및
    상기 특징 표현에 따라 상기 서브집합을 클러스터링하여, 클러스터링 결과에 따라 상기 선별된 샘플을 업데이트하도록 구성되는 제2 샘플 업데이트 모듈; 을 더 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  18. 제10항에 있어서,
    상기 제1 순도 결정 모듈은,
    상기 클러스터 중 각 카테고리의 샘플 수량을 결정하도록 구성되는 제2 수량 결정 모듈;
    각 카테고리의 샘플 수량에 따라 최대 샘플 수량을 결정하도록 구성되는 최대 수량 결정 모듈; 및
    상기 최대 샘플 수량 및 상기 클러스터 중의 샘플 총 수량에 따라, 상기 순도를 결정하도록 구성되는 제2 순도 결정 모듈; 을 포함하는,
    것을 특징으로 하는 샘플 처리 장치.
  19. 기기에 있어서,
    하나 또는 복수의 프로세서; 및
    하나 또는 복수의 프로그램을 저장하기 위한 저장 장치를 포함하고,
    상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 시, 상기 하나 또는 복수의 프로세서가 제1항 내지 제9항 중 어느 한 항의 방법을 구현하는,
    것을 특징으로 하는 기기.
  20. 컴퓨터 프로그램이 저장되어 있는 컴퓨터 판독 가능 저장 매체에 있어서,
    상기 프로그램이 프로세서에 의해 실행될 시, 제1항 내지 제9항 중 어느 한 항의 방법이 구현되는,
    것을 특징으로 하는 컴퓨터 판독 가능 저장 매체.
  21. 삭제
  22. 삭제
KR1020190106197A 2018-09-07 2019-08-29 샘플 처리 방법, 장치, 기기 및 저장 매체 KR102250728B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201811043185.9 2018-09-07
CN201811043185.9A CN109242106B (zh) 2018-09-07 2018-09-07 样本处理方法、装置、设备和存储介质

Publications (2)

Publication Number Publication Date
KR20200029351A KR20200029351A (ko) 2020-03-18
KR102250728B1 true KR102250728B1 (ko) 2021-05-11

Family

ID=65060243

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190106197A KR102250728B1 (ko) 2018-09-07 2019-08-29 샘플 처리 방법, 장치, 기기 및 저장 매체

Country Status (5)

Country Link
US (1) US20200082213A1 (ko)
EP (1) EP3620982B1 (ko)
JP (1) JP6980728B2 (ko)
KR (1) KR102250728B1 (ko)
CN (1) CN109242106B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111783518A (zh) * 2020-05-14 2020-10-16 北京三快在线科技有限公司 训练样本生成方法、装置、电子设备及可读存储介质
CN111507428B (zh) * 2020-05-29 2024-01-05 深圳市商汤科技有限公司 数据处理方法及装置、处理器、电子设备、存储介质
CN112132173B (zh) * 2020-08-10 2024-05-14 贵州电网有限责任公司 一种基于聚类特征树的变压器无监督运行状态识别方法
CN113988176A (zh) * 2021-10-27 2022-01-28 支付宝(杭州)信息技术有限公司 样本标注方法和装置
CN114444619B (zh) * 2022-04-02 2022-07-26 北京百度网讯科技有限公司 样本生成方法、训练方法、数据处理方法以及电子设备
CN118152826A (zh) * 2024-05-09 2024-06-07 深圳市翔飞科技股份有限公司 基于行为分析的摄像机智能报警系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030157A1 (en) * 2009-04-15 2012-02-02 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2002183171A (ja) * 2000-12-12 2002-06-28 Matsushita Electric Ind Co Ltd 文書データ・クラスタリングシステム
US10503756B2 (en) * 2011-01-03 2019-12-10 The Board Of Trustees Of The Leland Stanford Junior University Cluster processing and ranking methods including methods applicable to clusters developed through density based merging
CN103870751B (zh) * 2012-12-18 2017-02-01 中国移动通信集团山东有限公司 入侵检测方法及系统
CN104392253B (zh) * 2014-12-12 2017-05-10 南京大学 一种草图数据集的交互式类别标注方法
CN106469276B (zh) * 2015-08-19 2020-04-07 阿里巴巴集团控股有限公司 数据样本的类型识别方法及装置
US11216491B2 (en) * 2016-03-31 2022-01-04 Splunk Inc. Field extraction rules from clustered data samples
CN106528417A (zh) * 2016-10-28 2017-03-22 中国电子产品可靠性与环境试验研究所 软件缺陷智能检测方法和系统
WO2018154900A1 (ja) * 2017-02-22 2018-08-30 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
US10025813B1 (en) * 2017-04-13 2018-07-17 Sas Institute Inc. Distributed data transformation system
CN107194430B (zh) * 2017-05-27 2021-07-23 北京三快在线科技有限公司 一种样本筛选方法及装置,电子设备
CN107463953B (zh) * 2017-07-21 2019-11-19 上海媒智科技有限公司 在标签含噪情况下基于质量嵌入的图像分类方法及系统

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20120030157A1 (en) * 2009-04-15 2012-02-02 Nec Corporation Training data generation apparatus, characteristic expression extraction system, training data generation method, and computer-readable storage medium
US20180174001A1 (en) * 2016-12-15 2018-06-21 Samsung Electronics Co., Ltd. Method of training neural network, and recognition method and apparatus using neural network

Also Published As

Publication number Publication date
KR20200029351A (ko) 2020-03-18
US20200082213A1 (en) 2020-03-12
CN109242106B (zh) 2022-07-26
JP2020042797A (ja) 2020-03-19
EP3620982B1 (en) 2023-12-06
JP6980728B2 (ja) 2021-12-15
CN109242106A (zh) 2019-01-18
EP3620982A1 (en) 2020-03-11

Similar Documents

Publication Publication Date Title
KR102250728B1 (ko) 샘플 처리 방법, 장치, 기기 및 저장 매체
JP6928371B2 (ja) 分類器、分類器の学習方法、分類器における分類方法
WO2022042123A1 (zh) 图像识别模型生成方法、装置、计算机设备和存储介质
CN109726391B (zh) 对文本进行情感分类的方法、装置及终端
WO2022257453A1 (zh) 释义分析模型训练方法、装置、终端设备及存储介质
CN113434683B (zh) 文本分类方法、装置、介质及电子设备
CN111914159A (zh) 一种信息推荐方法及终端
CN112418320A (zh) 一种企业关联关系识别方法、装置及存储介质
CN113011532A (zh) 分类模型训练方法、装置、计算设备及存储介质
CN110929532B (zh) 数据处理方法、装置、设备及存储介质
CN113342799B (zh) 一种数据修正方法及系统
CN114065915A (zh) 网络模型的构建方法、数据处理方法、装置、介质及设备
CN112132281B (zh) 一种基于人工智能的模型训练方法、装置、服务器及介质
CN112560463B (zh) 文本多标注方法、装置、设备及存储介质
CN111126501B (zh) 一种图像识别方法、终端设备及存储介质
CN115376195B (zh) 训练多尺度网络模型的方法及人脸关键点检测方法
CN111062477B (zh) 一种数据处理方法、装置及存储介质
CN111401069A (zh) 会话文本的意图识别方法、意图识别装置及终端
CN111767710B (zh) 印尼语的情感分类方法、装置、设备及介质
CN114238798A (zh) 基于神经网络的搜索排序方法、系统、设备及存储介质
CN110059180B (zh) 文章作者身份识别及评估模型训练方法、装置及存储介质
CN116431757B (zh) 基于主动学习的文本关系抽取方法、电子设备及存储介质
CN116975298B (zh) 一种基于nlp的现代化社会治理调度系统及方法
CN113505783B (zh) 基于少次学习的甲骨文单字识别方法和装置
CN112347196B (zh) 基于神经网络的实体关系抽取方法及装置

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant