KR102104193B1 - 서비스 파라미터 선택 방법 및 관련된 디바이스 - Google Patents

서비스 파라미터 선택 방법 및 관련된 디바이스 Download PDF

Info

Publication number
KR102104193B1
KR102104193B1 KR1020187025885A KR20187025885A KR102104193B1 KR 102104193 B1 KR102104193 B1 KR 102104193B1 KR 1020187025885 A KR1020187025885 A KR 1020187025885A KR 20187025885 A KR20187025885 A KR 20187025885A KR 102104193 B1 KR102104193 B1 KR 102104193B1
Authority
KR
South Korea
Prior art keywords
sample
scheduled
sample set
samples
variables
Prior art date
Application number
KR1020187025885A
Other languages
English (en)
Other versions
KR20180108810A (ko
Inventor
웨이 쩡
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20180108810A publication Critical patent/KR20180108810A/ko
Application granted granted Critical
Publication of KR102104193B1 publication Critical patent/KR102104193B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor

Landscapes

  • Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Pure & Applied Mathematics (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Mathematical Optimization (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computational Mathematics (AREA)
  • Mathematical Analysis (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)
  • Algebra (AREA)
  • Artificial Intelligence (AREA)
  • Software Systems (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

서비스 파라미터 선택 방법 및 관련된 디바이스가 본 출원의 실시예들에서 소개된다. 방법은: 첫째 제1 후보 샘플 세트를 구성하는 단계 - 제1 후보 샘플 세트는 복수의 후보 샘플을 포함함 -; 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV 값을 획득하는 단계; 제1 후보 샘플 세트 내에서, IV 값이 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 일차 선택 샘플로서 결정하며, 제1 일차 선택 샘플을 선택될 제2 샘플 세트에 저장하는 단계; 중요한 표준을 갖는 타깃 샘플을 획득하기 위해 단계식 판별 분석 및/또는 클러스터 분석을 사용하여 선택될 제2 샘플 세트를 처리하는 단계 - 타깃 샘플은 서비스 파라미터를 결정하는데 사용됨 -; IV 값을 사용하여 중요하지 않은 변수를 제거하여 선택될 제2 샘플 세트를 얻는 단계; 및 중요한 표준을 갖는 타깃 샘플을 얻기 위해 선택될 제2 샘플 세트에 대해 단계식 판별 분석 및 클러스터 분석을 수행하는 단계를 포함한다. 이 방법에 의해, 변수들의 다양성이 보장되고 기존의 변수 선택 프로세스가 최적화되며, 차원 감소 프로세스 동안 변수 정보를 잃어버리는 문제가 줄어든다.

Description

서비스 파라미터 선택 방법 및 관련된 디바이스
본 출원은 2016년 3월 3일자로 중국 특허청에 제출된 "SERVICE PARAMETER SELECTION METHOD AND RELATED DEVICE(서비스 파라미터 선택 방법 및 관련된 디바이스)"라는 명칭의 중국 특허출원 제201610120612.3호의 우선권을 주장하며, 이 중국 특허출원은 그 전체가 본 명세서에서 참조로 포함된다.
본 개시내용은 데이터 처리 분야에 관한 것으로, 특히 서비스 파라미터를 선택하기 위한 방법 및 관련된 디바이스에 관한 것이다.
인터넷상의 데이터를 가지고 수행되는 모델링에서, 모델링에 유용한 서비스 파라미터들은 방대한 데이터로부터 선택될 필요가 있다. 변수 선택 프로세스에서, 대량의 데이터가 발생된다. 데이터가 서비스들을 처리하는데 직접 사용되는 경우, 계산에 많은 시간이 걸린다. 또한, 통계적으로 가치 있는 서비스 파라미터들의 손실은 부적절한 서비스 파라미터 선택 방법으로 인해 유발될 수 있다.
이를 고려하여, 본 개시내용의 실시예들에 따라 서비스 파라미터를 선택하기 위한 방법 및 관련된 디바이스가 제공된다.
제1 양태에서, 본 개시내용의 실시예에 따라 서비스 파라미터를 선택하기 위한 방법이 제공된다. 방법은: 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트를 구성하는 단계; 제1 후보 샘플 세트 내의 후보 샘플들 각각의 정보 값(information value)(IV)을 획득하는 단계 - IV는 변수 대 이항 종속 변수(binary dependent variable)의 비율임 -; 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 예비 선택 샘플로서 결정하며, 제1 예비 선택 샘플을 제2 선택 예정 샘플 세트(second to-be-selected sample set)에 저장하는 단계; 및 단계식 판별 분석(stepwise discriminant analysis) 또는 클러스터 분석(cluster analysis)을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계를 포함한다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다.
가능한 구현에서, 중요성 기준을 충족하는 타깃 샘플에서, 동일한 유형을 갖는 변수들 간의 상관 관계들 및 상이한 유형들을 갖는 변수들 간의 상관 관계들은 중요성 기준을 충족한다.
가능한 구현에서, 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV를 획득하는 단계는: 미리 구성된 바이너리 파일들의 수에 기초하여 후보 샘플을 분할하는 단계; 및 바이너리 파일들과 IV 사이의 대응관계(correspondence)에 기초하여 후보 샘플의 IV를 획득하는 단계를 포함한다.
가능한 구현에서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는: 단계식 판별 분석과 클러스터 분석의 조합을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계를 포함한다.
가능한 구현에서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는: 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트(to-be-processed sample set)를 획득하거나 또는 제2 선택 예정 샘플 세트에 대해 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계; 및 제3 처리 예정 샘플 세트 또는 제4 처리 예정 샘플 세트를 타깃 샘플로서 결정하는 단계를 포함한다.
가능한 구현에서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는: 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하며 제2 선택 예정 샘플 세트에 대해 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계; 및 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트를 타깃 샘플로서 결정하는 단계를 포함한다.
가능한 구현에서, 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하는 단계는: 단계식 판별 분석을 사용함으로써 제2 선택 예정 샘플 세트 내에서 중요성 기준을 충족하는 다수의 제1 변수를 선택하며, 제3 처리 예정 샘플 세트에 입력될, 중요성 기준을 충족하는 다수의 제1 변수 중 N 개의 변수를 획득하는 단계 - N은 양의 정수임 -; 또는 제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플들을 다수의 전진 선택(forward selection) 서브세트로 동일하게 나누며, 제3 처리 예정 샘플 세트에 입력될, 전진 선택 서브세트들 각각으로부터 중요성 기준을 충족하는 M 개의 변수를 선택하는 단계를 포함하고, M은 양의 정수이다.
가능한 구현에서, 제2 선택 예정 샘플 세트에 대해 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계는: 클러스터 분석을 사용함으로써 제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플들을 분류하여 클래스들이 상이한 다수의 클러스터 분석 세트를 획득하는 단계; 및 클러스터 분석 세트들 각각 내에서 중요성 기준을 충족하는 변수들을 획득하여 제4 처리 예정 샘플 세트를 형성하는 단계를 포함한다.
가능한 구현에서, 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트가 타깃 샘플로서 결정되는 경우, 방법은: 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트에 대해 중복 제거 동작(duplication eliminating operation)을 수행하는 단계를 더 포함한다.
제2 양태에서, 본 개시내용의 실시예에 따라 서비스 파라미터를 선택하기 위한 디바이스가 제공된다. 서비스 파라미터를 선택하기 위한 디바이스는 제1 양태의 서비스 파라미터를 선택하기 위한 장치에서의 동작들을 수행하기 위한 기능들을 갖는다. 기능들은 하드웨어에 의해 구현될 수 있으며, 또한 대응하는 소프트웨어를 하드웨어에 의해 실행함으로써 구현될 수도 있다. 하드웨어 또는 소프트웨어는 기능들에 대응하는 하나 이상의 모듈을 포함한다. 가능한 구현에서, 서비스 파라미터를 선택하기 위한 디바이스는 프로세서 및 메모리를 포함한다. 메모리는 서비스 파라미터를 선택하기 위한 디바이스에 의해 위의 방법을 수행하기 위한 프로그램을 저장하도록 구성되며, 프로세서는 메모리에 저장된 프로그램을 실행하도록 구성된다. 서비스 파라미터를 선택하기 위한 디바이스는 서비스 파라미터를 선택하기 위한 디바이스가 다른 디바이스들 또는 통신 네트워크와 통신하는 통신 인터페이스를 더 포함할 수 있다.
제3 양태에서, 본 개시내용의 실시예에 따라 컴퓨터 저장 매체가 제공된다. 컴퓨터 저장 매체는 위에서 설명한 서비스 파라미터를 선택하기 위한 디바이스에 의해 사용되는 컴퓨터 소프트웨어 명령어들을 저장하도록 구성되고, 컴퓨터 소프트웨어 명령어들은 위에서 설명한 서비스 파라미터를 선택하기 위한 디바이스 용으로 설계된 위의 양태들을 수행하기 위한 프로그램을 포함한다. 위의 기술적 해결책들로부터, 본 개시내용의 실시예들은 다음과 같은 장점들을 갖는 것을 알 수 있다. 본 개시내용의 실시예들에 따른 서비스 파라미터를 선택하기 위한 방법 및 관련된 디바이스에서, 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트가 구성되고, 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV가 획득되고, 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플이 제1 예비 선택 샘플로서 결정되며, 제1 예비 선택 샘플이 제2 선택 예정 샘플 세트에 저장되며, 제2 선택 예정 샘플 세트는 단계식 판별 분석 및/또는 클러스터 분석을 사용하여 처리되어 중요성 기준을 충족하는 타깃 샘플을 획득한다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다. 중대한 영향을 미치지 않는 변수들은 IV에 기초하여 제거되어 제2 선택 예정 샘플 세트를 획득하며, 중요성 기준을 충족하는 타깃 샘플은 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석 및 클러스터 분석을 실시함으로써 획득되어, 변수 다양성을 보장하고, 기존의 선택 프로세스를 최적화하며 그리고 차원 감소 프로세스 동안 변수 정보 손실을 줄인다. 본 개시내용의 이들 및 다른 양태들은 간결하며 다음과 같은 실시예들의 설명으로부터 용이하게 이해될 수 있다.
도 1은 본 개시내용의 실시예에 따른 서비스 파라미터를 선택하기 위한 방법의 흐름도이다.
도 2는 본 개시내용의 다른 실시예에 따른 서비스 파라미터를 선택하기 위한 방법의 흐름도이다.
도 3은 본 개시내용의 일 실시예에 따른 서비스 파라미터를 선택하기 위한 디바이스의 구조도이다.
도 4는 본 개시내용의 일 실시예에 따른 서비스 파라미터를 선택하기 위한 장치의 구조도이다.
본 개시내용의 기술적 해결책들이 관련 기술분야에서 통상의 기술자들에게 더 잘 이해될 수 있도록 하기 위해, 본 개시내용의 실시예들에서의 기술적 해결책들은 본 개시내용의 실시예들의 도면들과 함께 명확하고 완벽하게 설명된다.
본 개시내용의 명세서, 청구범위 및 도면들에서 설명된 설명된 일부 흐름들에서, 다수의 동작들이 특정 순서로 나타날 수 있다. 그러나, 동작들은 그 동작들이 본 명세서에서 나타나는 순서와 다른 순서로 수행될 수도 있거나, 병렬로 수행될 수도 있음을 분명히 이해하여야 한다. (101) 및 (102)와 같은 동작들의 일련 번호들은 어떤 동작을 다른 동작과 단지 구별하는데 사용되며, 일련 번호들은 어떠한 실행 순서도 표시하지 않는다. 또한, 흐름들은 더 많거나 적은 동작들을 포함할 수 있으며, 동작들은 순차적으로 또는 병렬로 수행될 수 있다. 본 명세서에서 "제1 ...", "제2 ..." 등의 용어들은 메시지, 디바이스, 모듈 등을 또 다른 메시지, 디바이스, 모듈 등과 구별하기 위해서만 사용된다는 것을 유의하여야 하며, 용어들은 어떠한 순서도 표시하지 않으며 "제1 ..." 및 "제2 ..."는 동일한 유형 또는 상이한 유형들을 가질 수 있다.
상세한 설명에 앞서, 아마도 사용될 몇몇 용어들은 다음과 같이 소개된다.
분산 팽창 계수(Variance Inflation Factor)(VIF)는 설명 변수(explanatory variable)들 중에 다중공선성(multicollinearity)이 존재하는 경우의 분산 대 설명 변수들 중에 다중공선성이 존재하지 않는 경우의 분산의 비율을 나타낸다. VIF는 허용 오차의 역수이다. VIF가 클수록 더 심각한 다중공선성을 나타낸다. 경험적 결정 방법으로부터 0<VIF<10의 경우에는 다중공선성이 존재하지 않고, 10≤VIF<100의 경우에는 심각한 다중공선성이 존재하며, VIF≥100의 경우에는 더욱 심각한 다중공선성이 존재한다는 것을 알 수 있다.
정보 값(information value)(IV)은 변수가 이항 종속 변수(binary dependent variable)에서 충분한 판별 능력(discrimination ability)을 갖는지를 결정하는데 사용된다.
단계식 판별 분석 프로세스(stepwise discriminant analysis process)(STEPDISC)는 판별 분석 전에 데이터를 판별하기 위한 중요성 기준(significance criterion)을 충족하는 변수들을 선별하기 위해 수행된다. 단계식 판별 분석은 전진 선택 방식(forward selection manner), 후진 제거 방식(backward elimination manner) 및 단계식 선택 방식(stepwise selection manner)으로 수행되어, 클래스 들간의 차이들을 충분히 나타낼 수 있는 변수들의 세트를 선택하며 보다 적은 정보를 포함하는 다른 변수들을 폐기할 수 있다.
클러스터 분석(Cluster analysis)(Proc Varclus)은 주성분 분석(principal component analysis)과 유사하며, 일반적으로는 변수 차원 감소(variable dimensionality reduction)에서 중복 변수들을 제거하기 위해 적용된다. 이러한 유형의 변수 분류 방법을 이용하면, 동일한 클래스에 속한 변수들은 가능한 한 서로 상관되며, 서로 다른 클래스 간의 변수들은 가능한 한 서로 상관되지 않게 된다. 특정 클래스의 제2 특성 루트가 문턱 값을 초과하는 경우, 클래스는 두 개의 상이한 클래스로 더 나누어진다.
중요성 기준은 하나 이상의 랜덤 변수들(Y1, Y2, ..., Yi)과 다른 변수들(X1, X2, ..., Xk) 사이의 관계들을 연구하기 위한 통계적 방법에서 사용되며, 다중 회귀 분석이라고도 지칭될 수 있다. 일반적으로 (Y1, Y2, ..., Yi)는 종속 변수들이라고 지칭되며, (X1, X2, ..., Xk)는 독립 변수들이라고 지칭된다. 회귀 분석은 수학적 모델이다. 특히, 회귀 분석은 종속 변수들 및 독립 변수들이 선형 관계에 있는 경우의 특수한 선형 모델이다. 이 경우에, 다수의 독립 변수는 집합적으로 하나의 종속 변수에 영향을 준다. 그러므로, 어떤 독립 변수(들)가 종속 변수에 중대한 영향을 미치는지를 결정하고, 어떤 독립 변수(들)가 종속 변수에 중대한 영향을 미치지 않는지를 결정해야 하며, 중대한 영향을 미치는 독립 변수들은 모델에 도입되고, 중대한 영향을 미치지 않는 독립 변수들은 제거된다. 프로세스는 일반적으로 단계식 회귀 방식(stepwise regression manner), 전방향 회귀 방식(forward regression manner) 또는 역방향 회귀 방식(backward regression manner)에서 수행될 수 있다.
도 1을 참조하면, 본 개시내용의 실시예에 따라 서비스 파라미터를 선택하기 위한 방법이 제공된다. 이 방법은 다음과 같은 단계들(S101 내지 S104)를 포함한다.
(S101)에서, 제1 후보 샘플 세트가 구성된다. 제1 후보 샘플 세트는 다수의 후보 샘플을 포함한다.
제1 후보 샘플 세트는 다수의 후보 샘플을 포함할 수 있다. 후보 샘플들은 변수들일 수 있으며, 구체적으로는 상이한 유형들의 변수들일 수 있다. 변수들 중 일부는 다른 변수들과 상관 관계들이 있거나 아니면 다른 변수들과 아무런 상관 관계가 없으며, 필요한 변수들은 변수들에 포함된다. 본 개시내용의 목적은 필요한 변수들을 선택하는 것이다. 제1 후보 샘플 세트 내의 후보 샘플들의 수는 방대하며, 부적절한 선택 방법으로 인해 유용한 변수들의 손실 및 많은 시간 소모가 유발될 수 있음을 알아야 한다. 후보 샘플들은 후속 단계들에서 선택을 위해 제1 후보 샘플 세트에 포함된다.
(S102)에서, 제1 후보 샘플 세트 내 후보 샘플들 각각의 IV가 획득된다.
IV(정보 값)는 변수가 이항 종속 변수에서 충분한 판별 능력을 갖는지를 결정하는데 사용된다. IV의 값은 평가 기준에 기초하여 변수 Y에 대한 변수 X의 판별을 나타낼 수 있다. 즉, 1) 값≤0.02인 경우 판별력이 없음을 나타내고; 2) 값이 (0.02, 0.1] 의 범위에 있는 경우에는 약한 판별력을 나타내고; 3) 값이 (0.1, 0.3]의 범위에 있는 경우에 보통의 판별을 나타내며; 4) 값≥0.3인 경우 강한 판별력을 나타낸다. 이러한 실시예에서, IV에 기초하여 수행된 예비 선별 프로세스(preliminary screening process)에서 조건들을 적절히 완화하기 위해 0.01을 초과하는 IV가 선택될 수 있다. 실제적으로, 관련 기술분야에서 통상의 기술자들이라면 본 명세서에 제한되지 않는 다른 수치를 선택할 수 있다.
IV는 독립 변수 X가 종속 변수 Y에 대해 판별력을 갖는지를 결정하기 위한 기준들 중의 하나로서만 고려될 수 있다는 것을 알아야 한다. 구체적으로, 실제 모델링 프로세스에서, 변수가 모델에 궁극적으로 도입되는지는 P-Value 및 Bivar 지수와 같은 많은 다른 고려 요인들에 기초하여 결정되고, 이는 본 명세서에 제한되지 않는다.
(S103)에서, 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플은 제1 예비 선택 샘플(preliminary selection sample)로 결정되며, 제1 예비 선택 샘플은 제2 선택 예정 샘플 세트(to-be-selected sample set)에 저장된다.
미리 설정된 문턱 값은 0.01일 수 있다. 후보 샘플의 IV가 0.01을 초과하는 경우, 후보 샘플은 제1 예비 선택 샘플로 결정되고, 즉, 후보 샘플은 IV에 기초하여 수행된 일차 선택을 통과한다. 예비 선택을 통해 획득된 제1 예비 선택 샘플은 후속 단계들에 동안 제2 선택 예정 샘플 세트에 저장되며, IV가 미리 설정된 문턱 값을 초과하지 않는 후보 샘플은 제거된다.
(S104)에서, 단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용함으로써 제2 선택 예정 샘플 세트가 처리되어 중요성 기준을 충족하는 타깃 샘플을 획득한다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다.
단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용함으로써 제2 선택 예정 샘플 세트에 대해 제2 라운드의 선별(screening)이 수행될 수 있다. 즉, 단계식 판별 분석과 클러스터 분석을 따로 따로 채택될 수 있거나, 단계식 판별 분석과 클러스터 분석 둘 모두가 채택될 수 있다. 중요성 기준은 변수가 통계에서 중요성을 갖는다는 것을 나타낸다. 중요성 기준에 관한 체크 결과는 분산 분석 테이블을 통해 출력되며, 회귀 방정식의 선형 관계가 중요한지는 중요성 기준에 기초하여 체크된다. 임의로, 중요성 기준은 0.05 초과이다. 단계식 판별 분석은 전진 선택 방식, 후진 제거 방식 및 단계식 선택 방식으로 수행되어, 클래스들 간의 차이들을 충분히 나타낼 수 있는 변수들의 세트를 선택하며 보다 적은 정보를 포함하는 다른 변수들은 폐기한다.
변수가 선택되는 동안 변수 파라미터 및 각종 통계 값들이 계산되어야 하는 단계식 회귀 분석과 비교하여, 단계식 판별 분석에서는 변수가 선택되는 동안 판별 함수가 계산될 필요가 없고, 따라서, 단계식 판별 분석의 효율성이 크게 개선된다. 그러므로 단계식 판별 분석은 방대한 데이터를 가지고 모델링하는 동안 변수 사전 선별(variable pre-screening)에 적용된다. 단계식 판별 분석은 일반적으로 판별 분석 동안 변수 사전 선별에 적용된다. 그러나, 이 실시예에서, 단계식 판별 분석은 단계식 회귀 분석 이전에 변수 사전 선별에 혁신적으로 적용되며, 단계식 선택 방식은 단일 방식으로 인한 과도한 정보 손실을 방지하기 위해 전진 선택 방식과 조합되어 채택된다.
모델링 데이터 세트가 수천 개의 변수를 포함하는 경우, 일부 변수들 사이에는 명백한 상관 관계들이 존재하며, 예를 들면 변수들은 동일한 유형에 속하며, 변수들은 제거될 필요가 있다. 독립 변수들은 클러스터 분석을 사용하여 상이한 클래스들로 분류될 수 있으며, 대표적인 변수들은 클래스들 각각으로부터 선택된다. 이러한 방식으로, 모델링을 위해 조작자에 의해 변수의 수가 신속하게 줄어들어, 전체 모델링 프로세스의 속도를 높일 수 있다.
클러스터 분석(Proc Varclus)은 주 성분 분석과 유사하며, 일반적으로는 변수 차원 감소에서 중복 변수들을 제거하기 위해 적용된다. 이러한 유형의 변수 분류 방법을 사용하면, 동일한 클래스에 속한 변수들은 가능한 한 서로 상관되며, 상이한 클래스들 간의 변수들은 가능한 한 서로 상관되지 않게 된다. 특정 클래스의 제2 특성 루트가 문턱 값을 초과하는 경우, 클래스는 두 개의 상이한 클래스로 더 나누어진다.
본 개시내용의 실시예에 따른 서비스 파라미터를 선택하기 위한 방법에서, 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트가 구성되고, 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV가 획득되고, 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플이 제1 예비 선택 샘플로 결정되고, 제1 예비 선택 샘플이 제2 선택 예정 샘플 세트에 저장하며, 제2 선택 예정 샘플 세트는 단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용하여 처리되어 중요성 기준을 충족하는 타깃 샘플을 획득한다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다. 중대한 영향을 미치지 않는 변수들은 IV에 기초하여 제거되어 제2 선택 예정 샘플 세트를 획득하며, 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석 및 클러스터 분석을 수행함으로써 중요성 기준을 충족하는 타깃 샘플이 획득되어, 변수 다양성을 보장하고, 기존의 변수 선택 프로세스를 최적화하며, 차원 감소 프로세스 동안 정보 손실을 줄인다.
도 2를 참조하면, 본 개시내용의 다른 실시예에 따른 서비스 파라미터를 선택하기 위한 방법이 제공된다. 방법은 다음의 단계들(S201 내지 S205)을 포함한다.
(S201)에서, 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트가 구성된다.
(S202)에서, 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV가 획득된다.
제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV를 획득하는 프로세스는 다음과 같이 수행될 수 있다.
후보 샘플은 미리 구성된 바이너리 파일의 수에 기초하여 분할된다.
후보 샘플의 IV는 바이너리 파일들과 IV 사이의 대응관계(correspondence)에 기초하여 획득된다. 구체적으로, IV는 다음 수학식으로부터 계산된다:
Figure 112018088746219-pct00001
IV 계산 프로세스에서, 독립 변수 X는 계산을 위해 상이한 빈(bin)들(바이너리 파일들)로 분할되어야 하는데, 여기서 n은 분할된 바이너리 파일들의 수를 나타내며,
Figure 112018088746219-pct00002
Figure 112018088746219-pct00003
는 각각의 바이너리 파일들 내의 양호한 샘플들 및 불량한 샘플들의 수를 각각 나타낸다. 연속 변수의 경우, 변수는 먼저 바이너리 파일들로 분할되며, 변수의 IV는 바이너리 파일의 수에 따라 변한다. IV는 바이너리 파일의 수가 증가함에 따라 증가하며, 그 증가율은 점차적으로 작아진다. 연속 변수의 경우, 바이너리 파일들의 수는 20개일 수 있으며, 이는 본 명세서에서 제한되지 않는다.
(S203)에서, 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플은 제1 예비 선택 샘플로서 결정되며, 제1 예비 선택 샘플은 제2 선택 예정 샘플 세트에 저장된다.
단계(S203)는 이전 실시예의 단계(S103)와 유사하기에, 여기서는 상세히 설명하지 않는다.
(S204)에서, 제2의 선택 예정 샘플 세트는 단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용하여 처리되어 중요성 기준을 충족하는 타깃 샘플을 획득한다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다.
단계식 판별 분석만이 사용되는 경우, 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석이 수행되어 제3 처리 예정 샘플 세트(to-be-processed sample set)를 획득하며, 제3 처리 예정 샘플 세트 및/또는 제4 처리 예정 샘플 세트는 타깃 샘플로서 결정된다.
단계식 판별 분석에서, 한 라운드의 전진 선택이 수행될 수 있고, 다섯 라운드의 단계식 선택이 수행될 수 있다.
단계식 선택이 사용되는 경우, 단계식 회귀 분석 방법이 채택되어 제2의 선택 예정 샘플 세트 중의 중요성 기준을 충족하는 다수의 제1 변수를 선택한다.
중요성 기준을 충족하는 다수의 제1 변수 중 N 개의 변수가 획득되어 제3 처리 예정 타깃 샘플 세트에 입력되고, 여기서 N은 양의 정수이다.
단계식 선택에 의해, 특정된 중요성 기준을 충족하는 모든 변수가 선택되고 특정된 데이터 세트에 출력된다. 그런 다음 선택된 상위 N 개의 변수가 선택된다. 실제로 중요성 기준을 충족하는 변수들의 수가 N에 도달할 수 없는 경우가 발생할 수 있다. 이 경우, 중요성 기준 및 출력될 변수들의 수가 조정할 수 있다. 이 실시예에서, N은 500일 수 있으며, 이는 본 명세서에서 제한되지 않는다.
전진 선택이 사용되는 경우, 제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플은 다수의 전진 선택 서브세트로 동일하게 나누어진다.
전진 선택 서브세트들 각각으로부터 중요성 기준을 충족하는 M개의 변수가 선택되어 제3 처리 예정 타깃 샘플 세트에 입력되는데, 여기서 M은 양의 정수이다.
변수들은 5개의 그룹으로 동일하게 무작위로 그룹화된다. 각 그룹에서, 특정된 중요성 기준을 충족하는 변수들 중 M개의 변수는 전진 선택을 사용하여 선택된다. 이 실시예에서, M은 100일 수 있으며, 이는 본 명세서에서 제한되지 않는다.
클러스터 분석만이 사용되는 경우, 제2 선택 예정 샘플 세트에 대해 클러스터 분석이 수행되어 제4 처리 예정 샘플 세트를 획득하며, 제3 처리 예정 샘플 세트 및/또는 제4 처리 예정 샘플 세트는 타깃 샘플로서 결정된다.
제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플들은 클러스터 분석을 사용하여 분류되어 클래스들이 상이한 다수의 클러스터 분석 세트를 획득한다.
클러스터 분석 세트들 각각 내에서 중요성 기준을 충족하는 변수들이 획득되어 제4 처리 예정 샘플 세트를 형성한다.
분류는 제2 특성 루트를 설정함으로써 수행될 수 있다. 예를 들어, 제2 특성 루트는 0.7을 초과하도록 설정할 수 있다. 분류 이후, 중요성 기준을 충족하는 변수들은 각 클래스로부터 선택되어야 한다. 선택된 변수는 다음의 조건들을 충족해야 된다: 1) 변수는 그 변수가 속한 클래스 내의 변수들과 높은 상관 관계를 갖는다; 2) 변수는 다른 클래스들 내의 변수들과 낮은 상관 관계를 갖는다. 변수가 위의 두 조건을 충족하는지는 다음과 같이 표현될 수 있는 인덱스(1 - R2)에 기초하여 결정될 수 있다.
Figure 112018088746219-pct00004
출력된 제4 처리 예정 샘플 세트 내의 변수는 인덱스(1 - R2)이다. 인덱스의 값은 변수 선택에서 제한되지 않으며, 인덱스의 값에 대응하는 변수들의 수는 그 값에 기초하여 각 클래스에서 선택될 수 있다. 선택 기준은 값이 가능한 한 작은 것이다.
단계식 판별 분석 및 클러스터 분석 둘 모두가 이용되는 경우, 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석이 수행되어 제3 처리 예정 샘플 세트를 획득하며, 그리고 제2 선택 예정 샘플 세트에 대해 클러스터 분석이 수행되어 제4 처리 예정 샘플 세트를 획득하며, 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트는 타깃 샘플로서 결정된다.
(S205)에서, 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트에 대해 중복 제거 동작(duplication eliminating operation)이 수행된다.
제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트가 타깃 샘플로 결정된 경우, 단계식 판별 분석 및 클러스터 분석을 사용함으로써 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트를 각각 획득하는 선별이 제2 선택 예정 샘플 세트에 대해 수행된다. 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트는 따로 따로 선택되기 때문에, 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트에는 동일한 변수가 존재할 수 있다. 모델링 프로세스에서, 중복 변수들은 관련 기술분야에서 통상의 기술자들이 이해하여야 하는 중복 제거 동작에 의해 제거되어야 하며, 특정 세부 사항은 생략된다.
용이한 이해를 위해, 예로서 제1 후보 샘플 세트(a1, a2, a3, ... a10000)를 취한다. IV가 0.01을 초과하는 조건에 기초하여 예비 선택이 수행되며, 제2 선택 예정 샘플 세트(a1, a2, a3, ...a8000)가 획득된다. 변수 선택을 위해 제2 선택 예정 샘플 집합에 대해 한 라운드의 전진 선택이 수행되며, (a1, a5, a16, ... a5977)을 포함하는 500 개의 변수가 획득되며 제3 처리 예정 샘플 세트에 입력된다. 또한, 변수 선택을 위해 제2 선택 예정 샘플 세트에 대해 다섯 라운드의 단계식 분석이 수행되며, (a1, a5, a7, ... a7201)을 포함하는 500 개의 변수가 획득되어 제3 처리 예정 샘플 세트에 입력된다. 변수 선택을 위해 제2 선택 예정 샘플 세트에 대해 클러스터 분석이 수행되며, (a1, a52, a103, ... a7050)을 포함하는 200 개의 변수가 획득되어 제4 처리 예정 샘플 세트에 입력된다. 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트 내의 1200 개의 변수가 타깃 샘플들로서 결정된다. 1200 개의 변수 중에는 중복 변수들이 존재한다는 것을 이해하여야 한다. 최종 변수 풀(variable pool)은 중복 제거 동작에 의해 획득될 수 있으며 모델링에 사용될 수 있다.
도 3을 참조하면, 위에서 설명한 서비스 파라미터를 선택하기 위한 방법에 기초하여, 본 개시내용의 실시예에 따른 서비스 파라미터를 선택하기 위한 디바이스가 더 제공되며, 이것은 다음과 같이 상세히 설명된다.
디바이스는 구성 유닛(301), 획득 유닛(302), 결정 유닛(303) 및 처리 유닛(304)을 포함한다.
구성 유닛(301)은 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트를 구성하도록 구성된다.
획득 유닛(302)은 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV를 획득하도록 구성된다.
결정 유닛(303)은: 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 예비 선택 샘플로서 결정하며, 제1 예비 선택 샘플을 제2 선택 예정 샘플 세트에 저장하도록 구성된다.
처리 유닛(304)은 단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하도록 구성된다. 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다.
임의로, 획득 유닛(302)은: 미리 구성된 바이너리 파일들의 수에 기초하여 후보 샘플을 분할하며; 바이너리 파일들과 IV 사이의 대응관계에 기초하여 후보 샘플의 IV를 획득하도록 추가로 구성된다.
임의로, 처리 유닛(304)은 제2 선택 예정 샘플 세트에 대해 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하고 및/또는 제2 선택 예정 샘플 세트에 대해 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하며; 제3 처리 예정 샘플 세트 및/또는 제4 처리 예정 샘플 세트를 타깃 샘플로서 결정하도록 추가로 구성된다.
임의로, 처리 유닛(304)은: 단계식 판별 분석을 사용함으로써 제2 선택 예정 샘플 세트 내에서 중요성 기준을 충족하는 다수의 제1 변수를 선택하며, 제3 처리 예정 샘플 세트에 입력될, 중요성 기준을 충족하는 다수의 제1 변수 중에서 N 개의 변수를 획득하고 - 여기서 N은 양의 정수임 -; 및/또는 제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플들을 다수의 전진 선택 서브세트로 동일하게 나누며, 제3 처리 예정 선택 서브 세트에 입력될, 전진 선택 서브 세트들 각각으로부터 중요성 기준을 충족하는 M 개의 변수를 선택하도록 추가로 구성되고, 여기서 M은 양의 정수이다.
임의로, 처리 유닛(304)은: 클러스터 분석을 사용함으로써 제2 선택 예정 샘플 세트 내의 제1 예비 선택 샘플을 분류하여 클래스들이 상이한 다수의 클러스터 분석 세트를 획득하며; 클러스터 분석 세트들 각각 내에서 중요성 기준을 충족하는 변수들을 획득하여 제4 처리 예정 샘플 세트를 형성하도록 추가로 구성된다.
임의로, 처리 유닛(304)은 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트가 타깃 샘플로서 결정되는 경우에 제3 처리 예정 샘플 세트 및 제4 처리 예정 샘플 세트에 대해 중복 제거 동작을 수행하도록 추가로 구성된다.
도 4에 도시된 바와 같이, 위의 방법을 구현하기 위해, 본 개시내용의 실시예에 따른 서비스 파라미터를 선택하기 위한 장치가 더 제공된다. 디바이스는 프로세서(401) 및 메모리(403)를 포함한다.
메모리(403)는 컴퓨터 판독 가능 프로그램들을 저장하도록 구성된다.
프로세서(401)는 메모리 내의 프로그램들을 실행하여: 다수의 후보 샘플을 포함하는 제1 후보 샘플 세트를 구성하고; 제1 후보 샘플 세트 내의 후보 샘플들 각각의 IV를 획득하고; 제1 후보 샘플 세트 내에서 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 예비 선택 샘플로서 결정하고, 제1 예비 선택 샘플을 제2 선택 예정 샘플 세트에 저장하며; 단계식 판별 분석, 클러스터 분석, 또는 단계식 판별 분석과 클러스터 분석의 조합을 사용함으로써 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하도록 구성되고, 타깃 샘플은 서비스 파라미터를 결정하는데 사용된다.
도 4는 본 개시내용의 일 실시예에 따른 서비스 파라미터를 선택하기 위한 장치의 개략도이다. 서비스 파라미터를 선택하기 위한 장치(200)는 적어도 하나의 프로세서(401), 통신 버스(402), 메모리(403) 및 적어도 하나의 통신 인터페이스(404)를 포함한다.
프로세서(401)는 범용 중앙 처리 유닛(central processing unit)(CPU), 마이크로 프로세서, 주문형 집적 회로(application-specific integrated circuit)(ASIC), 또는 본 개시내용의 해결책들에서 프로그램들의 실행을 제어하기 위한 하나 이상의 집적 회로일 수 있다.
통신 버스(402)는 정보가 위의 구성요소들 사이에서 전송되는 채널을 포함할 수 있다. 통신 인터페이스(404)는 송수신기와 같은 임의의 디바이스를 통해, 다른 디바이스들 또는 이더넷, 무선 액세스 네트워크(radio access network)(RAN), 무선 근거리 네트워크(wireless local area network)(WLAN)와 같은 통신 네트워크들과 통신하도록 구성된다.
메모리(403)는 정적 정보 및 명령어들을 저장할 수 있는 판독 전용 메모리(read-only memory)(ROM) 또는 다른 유형들의 정적 저장 디바이스들, 및 동적 정보 및 명령어들을 저장할 수 있는 랜덤 액세스 메모리(dynamic random access memory)(RAM) 또는 다른 유형들의 동적 저장 디바이스들일 수 있다. 메모리(403)는 또한 전기적으로 소거 가능한 프로그램 가능한 판독 전용 메모리(electrically erasable programmable read-only memory)(EEPROM), 콤팩트 디스크 판독 전용 메모리(compact disc read-only memory)(CD-ROM) 또는 다른 광학 디스크 저장소들, (콤팩트 디스크들, 레이저 디스크들, 디지털 다기능 디스크들, 블루-레이 디스크들 등을 비롯한) 디스크 저장소들, 자기 디스크 저장 매체 또는 다른 자기 저장 디바이스들, 또는 원하는 프로그램 코드들을 명령어들 또는 데이터 구조들의 형태로 반송 또는 저장하는데 사용될 수 있으며 컴퓨터들에 의해 액세스될 수 있는 임의의 다른 매체일 수 있고, 이는 본 명세서에서 제한되지 않는다. 메모리는 독립적으로 존재할 수 있으며 버스를 통해 프로세서에 연결된다. 메모리는 또한 프로세서와 통합될 수도 있다.
메모리(403)는 본 개시내용의 해결책들을 실행하기 위한 프로그램 코드들을 저장하도록 구성되며, 그 실행은 프로세서(401)에 의해 제어된다. 프로세서(401)는 메모리(403)에 저장된 프로그램 코드들을 실행하도록 구성된다.
특정 구현에서, 실시예로서, 프로세서(401)는 도 4의 CPU0 및 CPU1과 같은 하나 이상의 CPU를 포함할 수 있다.
특정 구현에서, 일 실시예로서, 서비스 파라미터를 선택하기 위한 장치(400)는 도 4의 프로세서(401) 및 프로세서(408)와 같은 다수의 프로세서를 포함할 수 있다. 다수의 프로세서 각각은 단일 CPU 프로세서 또는 다중 CPU 프로세서일 수 있다. 본 명세서에서 프로세서는 데이터(예를 들어, 컴퓨터 프로그램 명령어들)를 처리하기 위한 하나 이상의 디바이스, 회로 및/또는 프로세싱 코어를 지칭할 수 있다.
특정 구현에서, 일 실시예로서, 서비스 파라미터를 선택하기 위한 장치(400)는 출력 디바이스(405) 및 입력 디바이스(406)를 더 포함할 수 있다. 출력 디바이스(405)는 프로세서(401)와 통신하며, 다양한 방식으로 정보를 표시할 수 있다. 예를 들어, 출력 디바이스(405)는 액정 디스플레이(liquid crystal display)(LCD), 발광 다이오드(light emitting diode)(LED) 디스플레이 디바이스, 음극선관(cathode ray tube)(CRT) 디스플레이 디바이스, 프로젝터 등일 수 있다. 입력 디바이스(406)는 프로세서(401)와 통신하며, 다양한 방식으로 사용자 입력을 수신할 수 있다. 예를 들어, 입력 디바이스(406)는 마우스, 키보드, 터치 스크린 디바이스, 센서 디바이스 등일 수 있다.
위에서 언급한 서비스 파라미터를 선택하기 위한 장치(400)는 범용 컴퓨터 디바이스 또는 특수 목적 컴퓨터 디바이스일 수 있다. 특정 구현예에서, 서비스 파라미터를 선택하기 위한 장치(400)는 가상 현실 디바이스, 데스크톱, 랩톱, 네트워크 서버, 개인 휴대 정보 단말기(personal digital assistant)(PDA), 이동 전화, 태블릿 컴퓨터, 무선 단말 디바이스, 통신 디바이스, 내장형 디바이스, 또는 도 4의 디바이스와 유사한 구조를 갖는 디바이스일 수 있다. 서비스 파라미터를 선택하기 위한 장치(400)의 유형은 본 개시내용의 실시예들에 제한되지 않는다.
관련 기술분야에서 통상의 기술자들이라면 설명의 편의함 및 간결함을 위해, 위에서 설명한 시스템들, 디바이스들 및 유닛들의 특정 동작 프로세스들은 본 명세서에서 상세히 설명되지 않은 방법 실시예들의 대응하는 프로세스들을 참조할 수 있음을 분명히 이해하여야 한다.
본 개시내용의 실시예들에서 제공된 시스템들, 디바이스들 및 방법들은 다른 방식들로 구현될 수 있음을 이해하여야 한다. 예를 들면, 위에서 설명한 디바이스 실시예들은 단지 예시적일 뿐이다. 예를 들어, 유닛을 나누는 것은 논리적인 기능을 나누는 것일 뿐이며, 실제로 다른 분할 방식들로 구현될 수 있다. 예를 들어, 다수의 유닛 또는 구성요소가 조합될 수 있거나 다른 시스템에 통합될 수 있고, 또는 일부 기능이 무시되거나 수행되지 않을 수 있다. 또한, 도시되거나 논의된 상호 결합 또는 직접 결합 또는 통신 접속은 일부 인터페이스들, 디바이스들 또는 유닛들을 통한 간접 결합 또는 통신 접속일 수 있으며, 전기적, 기계적 또는 다른 형태들일 수 있다.
별도의 부품들로서 설명된 유닛들은 물리적으로 분리될 수도 있거나 분리되지 않을 수도 있으며, 유닛들로서 도시된 부품들은 물리적 유닛들일 수도 있거나 아닐 수도 있고, 즉, 하나의 장소에 위치될 수 있거나 또는 다수의 네트워크 유닛 상에 분산될 수 있다. 유닛들 중 일부 또는 전부는 실시예들의 해결책들의 목적을 달성하기 위해 실제 요건들에 따라 선택될 수 있다.
또한, 본 개시내용의 실시예들의 기능 유닛들은 하나의 처리 유닛에 통합될 수 있거나, 기능 유닛들 각각이 물리적으로 단독으로 존재할 수 있거나, 또는 두 개 이상의 기능 유닛이 하나의 유닛으로 통합될 수도 있다. 통합된 유닛은 하드웨어에 의해 또는 소프트웨어 기능 유닛에 의해 구현될 수 있다.
본 개시내용에 따른 서비스 파라미터를 선택하기 위한 방법 및 관련된 디바이스가 상세하게 설명되었다. 관련 기술분야에서 통상의 기술자들은 본 개시내용의 실시예들의 사상에 기초하여 특정 실시예들 및 적용 범위를 변경할 수 있다. 요약하면, 본 명세서의 내용은 본 개시내용을 제한하는 것으로 해석되지 않아야 한다.

Claims (16)

  1. 프로세서에 의해 수행되는 서비스 파라미터를 선택하기 위한 방법으로서,
    복수의 후보 샘플을 포함하는 제1 후보 샘플 세트를 구성하는 단계;
    상기 제1 후보 샘플 세트 내의 상기 후보 샘플들 각각의 정보 값(information value)(IV)을 획득하는 단계 - 상기 IV는 변수 대 이항 종속 변수(binary dependent variable)의 비율임 -;
    상기 제1 후보 샘플 세트 내에서 상기 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 예비 선택 샘플(preliminary selection sample)로서 결정하며, 상기 제1 예비 선택 샘플을 제2 선택 예정 샘플 세트(second to-be-selected sample set)에 저장하는 단계; 및
    단계식 판별 분석(stepwise discriminant analysis) 또는 클러스터 분석(cluster analysis)을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계
    를 포함하고,
    상기 타깃 샘플은 상기 서비스 파라미터를 결정하는데 사용되는, 서비스 파라미터를 선택하기 위한 방법.
  2. 제1항에 있어서, 상기 중요성 기준을 충족하는 상기 타깃 샘플에서, 동일한 유형을 갖는 변수들 간의 상관 관계들 및 상이한 유형들을 갖는 변수들 간의 상관 관계들은 상기 중요성 기준을 충족하는, 서비스 파라미터를 선택하기 위한 방법.
  3. 삭제
  4. 제1항에 있어서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는:
    상기 단계식 판별 분석과 상기 클러스터 분석의 조합을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 상기 중요성 기준을 충족하는 상기 타깃 샘플을 획득하는 단계를 포함하는, 서비스 파라미터를 선택하기 위한 방법.
  5. 제1항에 있어서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는:
    상기 제2 선택 예정 샘플 세트에 대해 상기 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하거나 또는 상기 제2 선택 예정 샘플 세트에 대해 상기 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계; 및
    상기 제3 처리 예정 샘플 세트 또는 상기 제4 처리 예정 샘플 세트를 상기 타깃 샘플로서 결정하는 단계
    를 포함하는, 서비스 파라미터를 선택하기 위한 방법.
  6. 제4항에 있어서, 단계식 판별 분석 또는 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하는 단계는:
    상기 제2 선택 예정 샘플 세트에 대해 상기 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하며, 상기 제2 선택 예정 샘플 세트에 대해 상기 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계; 및
    상기 제3 처리 예정 샘플 세트 및 상기 제4 처리 예정 샘플 세트를 상기 타깃 샘플로서 결정하는 단계
    를 포함하는, 서비스 파라미터를 선택하기 위한 방법.
  7. 제5항에 있어서, 상기 제2 선택 예정 샘플 세트에 대해 상기 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하는 단계는:
    상기 단계식 판별 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트 내에서 상기 중요성 기준을 충족하는 복수의 제1 변수를 선택하며, 상기 제3 처리 예정 샘플 세트에 입력될, 상기 중요성 기준을 충족하는 상기 복수의 제1 변수 중 N 개의 변수를 획득하는 단계 - N은 양의 정수임 -; 또는
    상기 제2 선택 예정 샘플 세트 내의 상기 제1 예비 선택 샘플들을 복수의 전진 선택(forward selection) 서브세트로 동일하게 나누며, 상기 제3 처리 예정 샘플 세트에 입력될, 상기 전진 선택 서브세트들 각각으로부터 상기 중요성 기준을 충족하는 M 개의 변수를 선택하는 단계
    를 포함하고, M은 양의 정수인, 서비스 파라미터를 선택하기 위한 방법.
  8. 제5항에 있어서, 상기 제2 선택 예정 샘플 세트에 대해 상기 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하는 단계는:
    상기 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트 내의 상기 제1 예비 선택 샘플들을 분류하여 클래스들이 상이한 복수의 클러스터 분석 세트를 획득하는 단계; 및
    상기 클러스터 분석 세트들 각각 내에서 상기 중요성 기준을 충족하는 변수들을 획득하여 상기 제4 처리 예정 샘플 세트를 형성하는 단계를 포함하는, 서비스 파라미터를 선택하기 위한 방법.
  9. 서비스 파라미터를 선택하기 위한 디바이스로서,
    복수의 후보 샘플을 포함하는 제1 후보 샘플 세트를 구성하도록 구성된 구성 유닛;
    상기 제1 후보 샘플 세트 내의 상기 후보 샘플들 각각의 IV를 획득하도록 구성된 획득 유닛 - 상기 IV는 변수 대 이항 종속 변수의 비율임 -;
    상기 제1 후보 샘플 세트 내에서 상기 IV가 미리 설정된 문턱 값을 초과하는 후보 샘플을 제1 예비 선택 샘플로서 결정하며, 상기 제1 예비 선택 샘플을 제2 선택 예정 샘플 세트에 저장하도록 구성된 결정 유닛; 및
    단계식 판별 분석 또는 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 중요성 기준을 충족하는 타깃 샘플을 획득하도록 구성된 처리 유닛
    을 포함하고,
    상기 타깃 샘플은 상기 서비스 파라미터를 결정하는데 사용되는, 서비스 파라미터를 선택하기 위한 디바이스.
  10. 삭제
  11. 제9항에 있어서, 상기 획득 유닛은:
    상기 단계식 판별 분석과 상기 클러스터 분석의 조합을 사용함으로써 상기 제2 선택 예정 샘플 세트를 처리하여 상기 중요성 기준을 충족하는 상기 타깃 샘플을 획득하도록 추가로 구성되는, 서비스 파라미터를 선택하기 위한 디바이스.
  12. 제9항에 있어서, 상기 처리 유닛은:
    상기 제2 선택 예정 샘플 세트에 대해 상기 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하거나 또는 상기 제2 선택 예정 샘플 세트에 대해 상기 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하며;
    상기 제3 처리 예정 샘플 세트 또는 상기 제4 처리 예정 샘플 세트를 상기 타깃 샘플로서 결정하도록
    추가로 구성되는, 서비스 파라미터를 선택하기 위한 디바이스.
  13. 제9항에 있어서, 상기 처리 유닛은:
    상기 제2 선택 예정 샘플 세트에 대해 상기 단계식 판별 분석을 수행하여 제3 처리 예정 샘플 세트를 획득하며, 상기 제2 선택 예정 샘플 세트에 대해 상기 클러스터 분석을 수행하여 제4 처리 예정 샘플 세트를 획득하며;
    상기 제3 처리 예정 샘플 세트 및 상기 제4 처리 예정 샘플 세트를 상기 타깃 샘플로서 결정하도록
    추가로 구성되는, 서비스 파라미터를 선택하기 위한 디바이스.
  14. 제12항에 있어서, 상기 처리 유닛은:
    상기 단계식 판별 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트 내에서 상기 중요성 기준을 충족하는 복수의 제1 변수를 선택하며, 상기 제3 처리 예정 샘플 세트에 입력될, 상기 중요성 기준을 충족하는 상기 복수의 제1 변수 중 N 개의 변수를 획득하며 - N은 양의 정수임 -; 또는
    상기 제2 선택 예정 샘플 세트 내의 상기 제1 예비 선택 샘플들을 복수의 전진 선택 서브세트로 동일하게 나누며, 상기 제3 처리 예정 샘플 세트에 입력될, 상기 전진 선택 서브세트들 각각으로부터 상기 중요성 기준을 충족하는 M 개의 변수를 선택하도록
    추가로 구성되고, M은 양의 정수인, 서비스 파라미터를 선택하기 위한 디바이스.
  15. 제12항에 있어서, 상기 처리 유닛은:
    상기 클러스터 분석을 사용함으로써 상기 제2 선택 예정 샘플 세트 내의 상기 제1 예비 선택 샘플들을 분류하여 클래스들이 상이한 복수의 클러스터 분석 세트를 획득하며;
    상기 클러스터 분석 세트들 각각 내에서 상기 중요성 기준을 충족하는 변수들을 획득하여 상기 제4 처리 예정 샘플 세트를 형성하도록
    추가로 구성되는, 서비스 파라미터를 선택하기 위한 디바이스.
  16. 서비스 파라미터를 선택하기 위한 장치로서,
    컴퓨터 판독 가능 프로그램들을 저장하도록 구성된 메모리; 및
    상기 메모리 내의 프로그램들을 실행하여 제1항, 제2항 및 제4항 내지 제6항 중 어느 한 항에 따른 상기 방법을 수행하도록 구성된 프로세서
    를 포함하는, 서비스 파라미터를 선택하기 위한 장치.
KR1020187025885A 2016-03-03 2017-02-24 서비스 파라미터 선택 방법 및 관련된 디바이스 KR102104193B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610120612.3A CN107153836A (zh) 2016-03-03 2016-03-03 一种业务参数选取方法及相关设备
CN201610120612.3 2016-03-03
PCT/CN2017/074674 WO2017148327A1 (zh) 2016-03-03 2017-02-24 一种业务参数选取方法及相关设备

Publications (2)

Publication Number Publication Date
KR20180108810A KR20180108810A (ko) 2018-10-04
KR102104193B1 true KR102104193B1 (ko) 2020-04-23

Family

ID=59743488

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187025885A KR102104193B1 (ko) 2016-03-03 2017-02-24 서비스 파라미터 선택 방법 및 관련된 디바이스

Country Status (5)

Country Link
EP (1) EP3425528A4 (ko)
JP (1) JP6657417B2 (ko)
KR (1) KR102104193B1 (ko)
CN (1) CN107153836A (ko)
WO (1) WO2017148327A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107886198B (zh) * 2017-11-13 2023-04-07 创新先进技术有限公司 一种风控决策临界值的确定方法及装置
CN110059244A (zh) * 2019-02-01 2019-07-26 阿里巴巴集团控股有限公司 受众扩展方法及装置
CN110209732A (zh) * 2019-04-25 2019-09-06 深圳壹账通智能科技有限公司 关系型数据库到Hadoop数据库的数据同步方法和装置
KR102237399B1 (ko) * 2019-07-18 2021-04-07 정화민 인공지능 기반의 쇼핑몰 상품구매 예측 플랫폼 제공 장치 및 방법
CN111899092B (zh) * 2020-08-28 2022-05-20 上海冰鉴信息科技有限公司 基于二道模型的业务数据筛选方法及装置
CN113610636A (zh) * 2021-08-12 2021-11-05 百融云创科技股份有限公司 一种迭代特征筛选方法及系统
CN114547532B (zh) * 2022-03-04 2023-10-27 西安惠普生物科技有限公司 一种获取海参多肽制备工艺的数据处理方法、设备及介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048429A (ja) 2004-08-05 2006-02-16 Nec Corp 解析エンジン交換型システム及びデータ解析プログラム
JP2007250647A (ja) 2006-03-14 2007-09-27 Omron Corp モデル作成装置およびモデル作成方法
US20100153456A1 (en) 2008-12-17 2010-06-17 Taiyeong Lee Computer-Implemented Systems And Methods For Variable Clustering In Large Data Sets
US20120078681A1 (en) 2010-09-24 2012-03-29 Fair Isaac Corporation Multi-hierarchical customer and product profiling for enhanced retail offerings

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5011830B2 (ja) * 2006-06-09 2012-08-29 富士通セミコンダクター株式会社 データ処理方法、データ処理プログラム、該プログラムを記録した記録媒体およびデータ処理装置
CA3020551C (en) * 2010-06-24 2022-06-07 Arbitron Mobile Oy Network server arrangement for processing non-parametric, multi-dimensional, spatial and temporal human behavior or technical observations measured pervasively, and related method for the same

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2006048429A (ja) 2004-08-05 2006-02-16 Nec Corp 解析エンジン交換型システム及びデータ解析プログラム
JP2007250647A (ja) 2006-03-14 2007-09-27 Omron Corp モデル作成装置およびモデル作成方法
US20100153456A1 (en) 2008-12-17 2010-06-17 Taiyeong Lee Computer-Implemented Systems And Methods For Variable Clustering In Large Data Sets
US20120078681A1 (en) 2010-09-24 2012-03-29 Fair Isaac Corporation Multi-hierarchical customer and product profiling for enhanced retail offerings

Also Published As

Publication number Publication date
JP6657417B2 (ja) 2020-03-04
KR20180108810A (ko) 2018-10-04
EP3425528A1 (en) 2019-01-09
EP3425528A4 (en) 2019-10-09
CN107153836A (zh) 2017-09-12
JP2019511773A (ja) 2019-04-25
WO2017148327A1 (zh) 2017-09-08

Similar Documents

Publication Publication Date Title
KR102104193B1 (ko) 서비스 파라미터 선택 방법 및 관련된 디바이스
CN109035013B (zh) 检测异常金融交易的设备和方法及计算机可读存储介质
US8160975B2 (en) Granular support vector machine with random granularity
US20200057958A1 (en) Identification and application of hyperparameters for machine learning
CN108108384B (zh) 一种数据存储方法及装置
US20230360513A1 (en) Adaptive severity functions for alerts
US20170201566A1 (en) File downloading method, apparatus, and terminal device
CN102708183A (zh) 数据压缩的方法和装置
CN107784195A (zh) 数据处理方法及装置
CN113378093A (zh) 资源发布策略的确定方法、装置、电子设备及存储介质
CN111158595B (zh) 企业级异构存储资源调度方法及系统
CN116578558A (zh) 一种数据处理方法、装置、设备及存储介质
CN106970837B (zh) 一种信息处理方法及电子设备
CN116955271A (zh) 一种数据副本存储的方法、装置、电子设备及存储介质
CN105468603B (zh) 数据选择方法及装置
CN105144139A (zh) 生成特征集
KR102225820B1 (ko) 악성코드 분석용 머신러닝을 위한 하이브리드 피처 벡터 생성 장치 및 방법
CN113590447A (zh) 埋点处理方法和装置
CN111061712A (zh) 一种数据连接操作的处理方法及装置
CN106776598B (zh) 一种信息处理方法及装置
CN104317666B (zh) 一种异常处理方法及装置
CN112905587B (zh) 数据库的数据管理方法、装置及电子设备
US20220391808A1 (en) Data processing method, electronic device and storage medium
CN111144509B (zh) 用于系统应用程序分类的方法、装置及计算机
CN110825924B (zh) 一种数据检测方法、装置及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right