KR102178295B1 - 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체 - Google Patents

결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체 Download PDF

Info

Publication number
KR102178295B1
KR102178295B1 KR1020187015350A KR20187015350A KR102178295B1 KR 102178295 B1 KR102178295 B1 KR 102178295B1 KR 1020187015350 A KR1020187015350 A KR 1020187015350A KR 20187015350 A KR20187015350 A KR 20187015350A KR 102178295 B1 KR102178295 B1 KR 102178295B1
Authority
KR
South Korea
Prior art keywords
characteristic
variable object
cluster
sample
variable
Prior art date
Application number
KR1020187015350A
Other languages
English (en)
Other versions
KR20190019892A (ko
Inventor
셩셩 우
리앙 쉬
징 샤오
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20190019892A publication Critical patent/KR20190019892A/ko
Application granted granted Critical
Publication of KR102178295B1 publication Critical patent/KR102178295B1/ko

Links

Images

Classifications

    • G06K9/6272
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/08Insurance
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/214Generating training patterns; Bootstrap methods, e.g. bagging or boosting
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/23Clustering techniques
    • G06F18/232Non-hierarchical techniques
    • G06F18/2323Non-hierarchical techniques based on graph theory, e.g. minimum spanning trees [MST] or graph cuts
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • G06F18/24133Distances to prototypes
    • G06F18/24137Distances to cluster centroïds
    • G06K9/6256
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/06Resources, workflows, human or project management; Enterprise or organisation planning; Enterprise or organisation modelling
    • G06Q10/067Enterprise or organisation modelling
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q40/00Finance; Insurance; Tax strategies; Processing of corporate or income taxes
    • G06Q40/02Banking, e.g. interest calculation or account maintenance

Abstract

결정 모델 구성 방법은 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.

Description

결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
본 출원은 2016년 6월 14일 출원된 제목이 "결정 모델 구성 방법 및 장치"인 중국 특허출원 제201610423436.0호에 우선권을 주장한 출원으로, 그 전체 내용은 여기에 참고로서 포함된다.
본 발명은 컴퓨터 기술 분야에 관한 것으로서, 보다 상세하게는 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체에 관한 것이다.
보험 산업 및 의료 산업에서, 보험 회사 인수의 초기 검토, 은행 대출 자격 심사, 의료 보험 사기 사례 검토 등과 같은 많은 서류 또는 프로젝트 검토가 있다. 이러한 서류 또는 프로젝트는 대부분 수동 작업에 의존하거나 복잡한 규칙을 기반으로 한 검토가 필요하다.
수동 검토에는 인력과 시간이 많이 필요하며 복잡한 규칙은 일반적으로 다차원 및 복잡한 분류 레벨의 판단 요소를 포함한다. 따라서, 모델링 프로세스가 어렵고 업데이트가 느리며 유연성이 떨어지고, 데이터와 관련된 차원과 레벨이 너무 깊어서 모델의 성능에 영향을 미치고, 비즈니스 결정에 도움이 되지 않는다.
본 발명의 다양한 실시예에 따르면, 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체가 제공된다.
결정 모델 구성 방법은 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.
결정 모델 구성 장치는 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하도록 구성되는 추출 모듈; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하도록 구성되는 클러스터 모듈; 상기 매치된 클러스터링 결과를 제1 특성으로 제공하도록 구성된 제1 특성 모듈; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된 제2 특성 모듈; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하도록 구성된 구성 모듈을 포함한다.
컴퓨터 실행 가능 명령들을 저장하는 메모리 및 상기 컴퓨터 실행 가능 명령들을 실행함으로써 단계들을 수행하는 프로세서를 포함하는 컴퓨터 장치로서, 상기 단계들은: 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.
컴퓨터 판독 가능 명령을 저장하는 적어도 하나의 저장 매체로서, 상기 컴퓨터 판독 가능 명령은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가 단계들을 수행하도록 하며, 상기 단계들은: 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.
본 발명의 적어도 하나의 실시예에 대한 설명은 다음의 도면 및 설명을 참조하여 설명될 것이다. 본 발명의 다른 특성, 목적 및 장점은 상세한 설명, 도면 및 청구 범위로부터 더욱 명백해질 것이다.
데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성(매치된 클러스터링 결과) 및 제2 특성(각 변수 오브젝트의 블랙 샘플 확률)에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.
본 발명의 실시예 또는 기존 기술의 기술적 해결책을 더 명확하게 설명하기 위해, 다음에 실시예 또는 기존 기술을 설명하는 데 필요한 첨부 도면을 간략하게 설명한다. 명백하게, 다음의 설명에서 첨부된 도면은 단지 본 발명의 일부 실시예를 도시하는 것이며, 본 기술 분야의 통상의 기술자는 창의적 노력 없이 다른 도면을 안출할 수 있다.
도 1은 일 실시예에 따른 컴퓨터 장치의 블록도이다.
도 2는 일 실시예에 따른 결정 모델을 구성하는 방법의 흐름도이다.
도 3은 다른 실시예 따른 결정 모델을 구성하는 방법의 흐름도이다.
도 4는 일 실시예에 따른 결정을 구성하는 방법에 대한 흐름도.
도 5는 일 실시예에 따른 변수 오브젝트를 클러스터링하고 분석하는 흐름도이다.
도 6은 일 실시예에 따른 결정 모델을 구성하는 장치의 블록도이다.
도 7은 다른 실시예에 따른 결정 모델을 구성하는 장치의 블록도이다.
도 8은 다른 실시예에 따른 구성 모듈의 블록도이다.
도 9는 다른 실시예에 따른 클러스터 모듈의 블록도이다.
본 개시내용의 목적들, 기술적 해결책들, 및 장점들을 보다 명확히 하기 위해, 본 개시내용이 첨부 도면 및 실시예들을 참조하여 아래에 상세히 설명된다. 여기에 설명된 특정한 실시예들은 단지 본 개시내용을 설명하고자 하는 것이지, 본 개시내용을 제한하려는 것은 아니다.
도 1은 일 실시예에 따른 컴퓨터 장치의 블록도이다. 도 1을 참조하면, 컴퓨터 장치는 시스템 버스를 통해 연결된 프로세서, 메모리 및 네트워크 인터페이스를 포함한다. 프로세서는 계산 및 제어 기능을 제공하여 전체 컴퓨터 장치의 작동을 지원하도록 구성된다. 메모리는 데이터, 명령 코드 등을 저장하도록 구성된다. 일 실시예에서, 메모리는 비-일시적 저장 매체 및 RAM(Random Access Memory)을 포함할 수 있다. 비-일시적 저장 매체는 운영 체제 및 컴퓨터 실행 가능 명령을 저장한다. 컴퓨터 실행 가능 명령들은 본 실시예에서 제공되는 컴퓨터 장치에 적용되는 결정 모델의 구성 방법을 구현하도록 구성될 수 있다. RAM은 운영 체제에 대한 실행 환경 및 비 - 일시적 저장 매체의 컴퓨터 실행 가능 명령을 제공한다. 네트워크 인터페이스는 규칙 템플릿 데이터 등을 얻기 위해 다른 컴퓨터 장치와 네트워크 통신을 수행하도록 구성된다. 컴퓨터 장치는 이동 전화, 태블릿 컴퓨터 및 PC(개인용 컴퓨터), 서버 등과 같은 단말일 수 있다. 당업자는 도 1에 도시된 구조가 본 해결책과 관련된 부분 구조의 단지 블록도이며, 본 해결책이 적용되는 컴퓨터 장치를 제한하지 않는 것을 이해할 것이다. 특정 컴퓨터 장치는 도면에 도시된 더 많거나 적은 수의 부품, 또는 특정 부품을 조합하거나 상이한 부품 배치를 가질 수 있다.
도 2를 참조하면, 일 실시예에서, 도 1에 도시된 컴퓨터 장치에 적용될 수 있는 결정 모델의 구성 방법이 제공된다. 상기 방법은 다음의 단계들을 포함한다.
단계(S210)에서, 규칙 템플릿 데이터가 획득되고, 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 각 템플릿 샘플이 추출된다.
상기 규칙 템플릿은 검토 결과를 결정하기 위한 기준 세트를 나타낸다. 문서 또는 항목에 대한 검토는 하나 이상의 규칙 템플릿에 대응할 수 있다. 예를 들어, 대출 기관에 대한 검토는 "대출 기관이 대출 신청을 한 지점", "대출 기관이 불량 기록을 가진 관련 기관"등과 같은 규칙 템플릿을 포함할 수 있다. 각 상이한 규칙 템플릿은 이에 대응하는 규칙 템플릿 데이터를 가진다. 그 중에서, 규칙 템플릿 데이터는 각 변수 오브젝트, 각 템플릿 샘플 및 상기 각 변수 오브젝트와 상기 각 템플릿 샘플 사이의 매칭 관계를 포함할 수 있다. 상기 변수 오브젝트는 질적 유형의 변수이고, 각 변수 오브젝트는 상기 규칙 템플릿의 상이한 클래스에 대응한다. 예를 들어, 규칙 템플릿이 "대출 기관이 대출 신청을 한 지점”이고, 대응하는 규칙 템플릿 데이터는 "사용자 1이 지점 A에 대출 신청", "사용자 2가 지점 B에 대출 신청", "사용자 3이 지점 C에 대출 신청" 등을 포함할 수 있다. 여기서, 지점 A, 지점 B, 지점 C 등과 같은 각 지점은 변수 오브젝트이고, 사용자 1, 사용자 2, 사용자 3 등과 같은 사용자는 템플릿 샘플이다.
단계(S220)에서, 클러스터링 결과를 획득하기 위해 변수 오브젝트가 클러스터되고 분석된다.
컴퓨터 장치는 각 변수 오브젝트의 다차원 데이터를 추출할 수 있고, 다차원 데이터에 따른 변수 오브젝트를 클러스터하고 분석할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 각 지점(branch)인 경우, 다차원 데이터는 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 각 지점의 지리적 위치 등을 포함할 수 있다. 상기 클러스터 및 분석은 물리적 오브젝트 또는 추상적 오브젝트의 세트를 각각 유사한 오브젝트로 구성된 복수의 클래스로 그룹화하는 분석 프로세스를 의미한다. 변수 오브젝트를 클러스터링하고 분석함으로써, 유사한 변수 오브젝트는 무리를 이룰 수 있어 변수 오브젝트의 레벨을 감소시킬 수 있다. 예를 들어, 변수 오브젝트가 지점 A, 지점 B, 지점 C, 지점 D 등을 포함할 때, 다음과 같이 클러스터링되고 분석된다. 지점 A는 지점 B와 유사하고, 유사한 지점 A, B는 그룹 A로 그룹화된다. 지점 C는 지점 D와 유사하고, 유사한 지점 C, D는 그룹 B로 그룹화된다. 변수 오브젝트의 레벨은 각 지점(branch)의 원래 레벨(original level)로부터 각 그룹의 레벨로 감소된다. 변수 오브젝트가 클러스터링되고 분석된 이후, 각 클러스터로 구성된 클러스터링 결과가 획득될 수 있다.
단계(S230)에서, 상기 규칙 템플릿 데이터에 따라 클러스터링 결과가 각 템플릿 샘플과 매치되고, 상기 매치된 클러스터링 결과가 제1 특성으로 제공된다.
변수 오브젝트가 컴퓨터 장치에 의해 클러스터링되고, 분석된 이후, 클러스터링 결과가 획득된다. 상기 클러스터링 결과는 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매칭 관계에 따라 각 템플릿 샘플과 매치될 수 있다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”에 해당하고; 규칙 템플릿 데이터가 "사용자 1은 FK 기관에 불량 기록을 가지고 있다”, "사용자2는 CE 기관에 불량 기록을 가지고 있다”, "사용자 3은 KD 기관에 불량 기록을 가지고 있다” 등을 포함하고 있을 때, "FK 기관”, "CE 기관”, "KD 기관” 등의 변수 오브젝트는 클러스터링되고 분석되어 그룹 A, 그룹 B, 그룹 C 등으로 각각 명칭되는 클러스터가 획득된다. 그리고 클러스터링 결과는 "사용자 1", "사용자 2", "사용자 3" 등의 템플릿 샘플과 매치된다. 다음 표 1, 표 2를 참조하면, 표 1은 규칙 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매치 관계를 나타낸다. 표 2는 클러스터링 결과와 각 템플릿 샘플 사이의 매치 관계를 나타낸다. 숫자 "1"은, 제한 없이, 클러스터링 결과 또는 템플릿 샘플과 변수 오브젝트 사이의 매치 관계를 표시하는 데 사용될 수 있다.
[표 1]
Figure 112018053161830-pct00001
[표 2]
Figure 112018053161830-pct00002
변수 오브젝트를 클러스터링하고 분석함으로써, 변수 오브젝트의 레벨은 상당히 감소될 수 있고, 이는 결정 모델의 모델링을 용이하게 할 수 있다.
단계(S240)에서, 블랙 샘플 확률이 각 변수 오브젝트에 대해 계산되고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공한다.
일 실시예에서, 결정 모델의 출력은 보통 블랙 샘플 또는 화이트 샘플이다. 상기 블랙 샘플은 검토를 통과하지 못한 샘플을 나타내고, 상기 화이트 샘플은 상기 검토를 통과한 샘플을 나타낸다. 예를 들어, 결정 모델이 은행 대출의 자격을 검토하도록 구성될 때, 블랙 샘플은 대출 자격 검토를 통과하지 못한 사용자를 나타내고, 화이트 샘플은 대출 자격 검토를 통과한 사용자를 나타낸다. 컴퓨터 디바이스는 각 변수 오브젝트의 블랙 샘플 확률을 각각 계산한다. 즉, 컴퓨터 디바이스는 규칙 템플릿 데이터로부터 각 변수 오브젝트에 대해 계산을 하며, 템플릿 샘플의 결과 유형이 블랙 샘플이 될 확률을 계산한다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”일 때, KD 기관에 대해 불량 기록을 가지는 사용자가 최종적으로 블랙 샘플일 확률 등이 계산될 수 있다.
변수 오브젝트에 대한 블랙 샘플 확률의 계산 공식은 다음과 같다.
블랙 샘플 확률 = 변수 오브젝트의 블랙 샘플 수 / 변수 오브젝트에 대한 전체 템플릿 샘플의 전체 수
컴퓨터 장치는 각 변수 오브젝트의 계산된 블랙 샘플 확률을 연속 변수의 형태의 제 2 특성으로 사용할 수 있다.
다른 실시예에서, 각 변수 오브젝트의 WOE(증거 비중, weight-of-evidence) 값도 각각 계산될 수 있다. WOE 값을 계산하는 공식은 다음과 같다.
WOE = ln (블랙 샘플 전체 수에 대한 변수 오브젝트의 블랙 샘플 수의 비율 / 화이트 샘플 전체 수에 대한 변수 오브젝트의 화이트 샘플 수의 비율)
WOE 값이 높을수록, 변수 오브젝트의 템플릿 샘플이 블랙 샘플인 확률이 낮아진다.
단계(S250)에서, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델이 구성된다.
현재, 결정 모델을 구성하는 방법은 입력한 모든 규칙 템플릿 데이터에 의해 모델링 작업을 수행하는 것이다. 규칙 템플릿 데이터가 많아질수록 그들의 레벨은 복잡해진다. 이는 모델링 작업을 용이하게 하지 못하고 및 모델의 성능에 부정적인 영향을 끼친다. 매치된 클러스터링 결과를 제1 특성으로 제공함으로써, 컴퓨터 장치는 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하여 입력 규칙 템플릿 데이터를 대체하여 결정 모델을 구성할 수 있다. 이에 따라, 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 그대로 유지할 수 있다. 따라서 결정 결과가 보다 정확해진다. 결정 모델은 결정 트리, GBDT(Gradient Boosting Decision Tree) 모델, LDA(Linear Discriminant Analysis) 모델과 같은 기계 학습 모델을 포함할 수 있다. 특정 문서 또는 특정 프로젝트에 대한 검토 결정 모델을 구성하는 경우, 각각의 규칙 템플릿에 대응하는 제1 특성 및 제2 특성은 원래 입력한 규칙 템플릿 데이터 대신 결정 모델을 구성하기 위해 획득된다. 특정 규칙 템플릿에 변수 오브젝트가 적은 경우, 규칙 템플릿 데이터는 모델을 구성하기 위해 직접 입력될 수도 있다.
상기 결정 모델을 구성하는 방법에서, 각 변수 오브젝트 및 각 템플릿 샘플은 상기 규칙 템플릿 데이터로부터 추출된다; 클러스터링 결과를 획득하기 위해 변수 오브젝트는 클러스터되고 분석된다; 상기 클러스터링 결과는 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치된다; 매치된 클러스터링 결과를 제1 특성으로 제공한다; 각 변수 오브젝트의 블랙 샘플 확률이 각각 계산된다; 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하고, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델은 구성된다. 데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성 및 제2 특성에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.
도 3을 참조하면, 결정 모델을 구성하는 상기 방법은 다음 단계를 더 포함한다.
단계(S310)에서, 각 변수 오브젝트는 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑된다.
레이블은 각 변수 오브젝트를 매핑한 후 대응하는 구성을 나타내도록 구성된다. 각 레이블은 미리 정의될 수 있으며, 변수 오브젝트는 미리 정의된 레이블에 매핑될 수 있다. 상기 미리 설정된 알고리즘은 MD5 (Message-Digest Algorithm 5), SHA (Secure Hash Algorithm, 보안 해시 알고리즘) 등과 같은 해시 방정식을 포함할 수 있지만, 이에 한정되는 것은 아니다. 일 실시예에서, 컴퓨터 장치는 미리 설정된 알고리즘에 따라 각 변수 오브젝트를 미리 정의된 레이블에 매핑할 수 있다. 예를 들어, 변수 오브젝트는 A 지점, B 지점, C 지점 등이고, 지점 A 및 지점 C는 SHA 알고리즘을 사용하여 레이블 A에 매핑된다. 지점 B는 레이블 K에 매핑된다. 실제 상황에 따라 레이블의 수는 설정될 수 있다. 레이블은 많은 변수 오브젝트에 대응하지 않으며, 데이터의 차원과 레벨을 감소시킬 뿐만 아니라, 원래 정보의 부분을 보유할 수 있다.
단계(S320)에서, 레이블은 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치되고, 매치된 레이블을 제3 특성으로 제공한다.
컴퓨터 장치는 규칙 템플릿 데이터로부터 템플릿 샘플 및 변수 오브젝트 사이의 매치 관계에 따라 각 템플릿 샘플과 레이블을 매치할 수 있고, 상기 매치된 레이블을 모델링 작업을 수행하는 세 번째 특성으로 제공할 수 있다.
단계(S330)에서, 결정 모델은 상기 제1 특성, 상기 제2 특성, 상기 제3 특성에 따라 구성된다.
컴퓨터 장치는 제1 특성으로 매치된 클러스터링 결과, 제2 특성으로 각 변수 오브젝트의 블랙 샘플 확률 및 제3 특성으로 매치된 레이블을 제공할 수 있다. 컴퓨터 장치는 모든 입력 규칙 템플릿 데이터를 제 1 특성, 제 2 특성 및 제 3 특성으로 대체하여 결정 모델을 구성할 수 있다. 이는 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 유지하므로 결정 결과가 보다 정확해질 수 있다.
실시예에서, 결정 모델은 제1 특성, 제2 특성 및 제3 특성에 따라 구성된다. 변수 오브젝트는 미리 정의된 레이블에 클러스터링되고, 분석되며, 매핑되어, 데이터의 차원과 레벨을 감소시키고, 결정 모델 구성을 용이하게 하며, 모델의 성능에 부정적인 영향을 감소시키고, 모델의 성능을 보다 정확하게 만들며, 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하고, 효율적인 결정을 향상시킨다.
도 4를 참조하면, 일 실시예에서, 제1 특성, 제2 특성 및 제3 특성에 따라 결정 모델을 구성하는 단계(S330)는 다음 단계를 포함한다.
단계(S402)에서, 원래 노드(original node)가 구축된다.
일 실시예에서, 결정 모델은 결정 트리 모델일 수 있고, 상기 결정 트리의 원래 노드는 먼저 구축될 수 있다.
단계(S404)에서, 각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터에 따라 획득된다.
템플릿 샘플의 결과 유형은 블랙 샘플, 화이트 샘플 등과 같은 템플릿 샘플의 최종 결과를 나타낸다.
각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터로부터 획득될 수 있다.
단계(S406)에서, 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성은 각각 편력(traverse)되고 판독된다.
컴퓨터 장치는 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력하고, 판독한다. 즉, 각각의 가능한 결정 트리 지점이 편력된다. 예를 들어, 제1 특성은 편력되고 판독되고, "사용자 1에게는 A 그룹에 대한 불량 대출 기록이 있다", "사용자 2에게는 A 그룹에 대한 불량 대출 기록이 있다"와 같은 판독 기록이 생성된다. 제2 특성은 편력되고 판독되고 "FK 기관의 블랙 샘플 확률은 20 %이다", "CE 기관의 블랙 샘플 확률은 15 %이다"등과 같은 판독 기록이 생성된다. 각 판독 기록은 결정의 한 지점일 수 있다.
단계(S408)에서, 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도가 계산되고, 상기 분할 순도에 따라 분할 포인트가 결정된다.
컴퓨터 장치는 지니 불순도(Gini impurity), 엔트로피(entropy), 정보 이득(information gain) 등을 계산함으로써 각 판독 기록의 분할 순도를 결정할 수 있다. 여기서 지니 불순도는 집합의 특정 결과가 집합의 데이터 항목에 임의로 적용되는 예상 에러율을 나타낸다. 엔트로피는 시스템의 혼란 정도를 측정하는 데 사용되며, 정보 이득은 판독 기록이 템플릿 샘플을 구별하는 능력을 측정하는데 사용된다. 각 판독 기록의 분해 순도의 계산은 템플릿 샘플을 판독 레코드에 따라 나눈 결과에 의해 설명될 수 있다. 예상 결과 유형 및 실제 결과 유형의 차이가 작을수록 분할 순도는 커지고, 판독 기록은 더 순수해진다. 예를 들어, 지니 불순도의 계산 공식은 다음과 같다.
Figure 112018053161830-pct00003
분할 순도 = 1 - 지니 불순도(Gini), 여기서 i∈ {1,2, ......, m}, m은 결정 모델의 최종 결과를 나타내고,
Figure 112018053161830-pct00004
는 템플릿 샘플이 판독 기록을 판정 조건으로 사용할 때 결과 유형이 최종 결과인 비율을 나타낸다.
컴퓨터 장치는 각 판독 기록의 분할 순도의 크기에 따라 최적의 분할 포인트를 결정할 수 있다. 더 큰 분할 순도의 판독 조건은 바람직하게 지점으로 제공하고, 원래 노드가 분할된다.
단계(S410)에서, 분할 포인트에 대응하는 특성이 획득되고, 새로운 노드가 구축된다.
컴퓨터 장치는 분할 포인트에 대응하는 특성을 획득하고 새로운 노드를 구축할 수 있다. 예를 들어, 분할 순도는 각 판독 기록에 대해 계산될 수 있다. 최대 분할 순도를 가지는 판독 기록 "사용자 1은 그룹 A에 대해 불량 대출을 가진다”이 획득되고, 원래 노드는 두 개의 지점으로 분할될 수 있다. 여기서, 하나의 지점은 "그룹 A에 대해 불량 대출 기록이 있음"을 나타내고, 다른 지점은 "A 그룹에 대해 불량 대출 기록이 없음"을 나타낸다. 대응하는 노드가 생성되고, 모든 판독 기록이 결정 트리에 추가될 때까지 분할 작업을 수행하도록 다음 분할 포인트는 새로운 노드를 위해 탐색된다.
단계(S412)에서, 미리 설정된 조건이 충족되면, 새로운 노드의 구축이 중단되고, 결정 트리의 구성이 완료된다.
미리 설정된 조건은 "모든 판독 기록이 노드로 결정 트리에 추가되었다"는 것일 수 있으며, 결정 트리의 노드 데이터도 미리 설정될 수 있다. 결정 트리의 노드 데이터가 노드 데이터의 상기 설정된 양에 도달하면, 제한 없이, 새로운 노드의 구축이 중단된다. 결정 트리 모델이 구성된 이후, 컴퓨터 장치는 결정 트리를 트리밍하고 사전 설정된 순도 값보다 작은 분할 순도의 판독 기록에 대응하는 노드를 차단할 수 있다. 이에 따라 결정 트리의 각 지점은 더 높은 분할 순도를 가질 수 있다.
실시예에서, 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성은 각각 편력(traverse)되고 판독된다. 각 판독 기록의 분할 순도는 각 템플릿 샘플의 결과 유형에 따라 계산된다. 분할 포인트는 결정 모델을 구축하기 위해 분할 순도의 크기에 따라 결정되고, 결정 모델의 성능을 보다 정확하게 만들 수 있고 복잡한 규칙을 검토해야 하는 비즈니스를 신속하게 처리하고 결정의 효율성을 높일 수 있게 한다.
도 5를 참조하면, 일 실시예에서, 클러스터링 결과를 획득하기 위해 변수 오브젝트를 클러스터링 및 분석하는 단계(S220)는 다음 단계를 포함한다.
단계(S502)에서, 복수의 변수 오브젝트가 하나의 클러스터의 제1 클러스터 중심으로 변수 오브젝트로부터 랜덤하게 선택된다.
컴퓨터 장치는 모든 변수 오브젝트로부터 복수의 변수 오브젝트를 선택할 수 있다. 컴퓨터 장치는 선택된 각 변수 오브젝트를 각 클러스터의 제1 클러스터 중심으로 제공하고, 각 클러스터를 명명할 수 있다. 각 제1 클러스터 중심은 클러스터에 대응한다. 즉, 클러스터의 수는 선택된 변수 오브젝트의 수와 같다.
단계(S504)에서, 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리가 각각 계산된다.
일 실시예에서, 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계(S504)는 하기 (a) 단계와 (b) 단계를 포함한다.
(a) 각 변수 오브젝트의 다차원 데이터가 규칙 템플릿 데이터에 따라 획득된다.
컴퓨터 장치는 규칙 템플릿 데이터로부터 각 변수 오브젝트의 다차원 데이터를 획득할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 "각 지점”인 경우, 다차원 데이터는 각 지점의 총 대출 금액, 총 대출 금액, 평균 대출 기간, 지점 규모, 지리적 위치 등을 포함할 수 있다.
(b) 각 변수 오브젝트의 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리가 각각 계산된다.
각 변수 오브젝트의 획득된 다차원 데이터에 따라, 컴퓨터 장치는 유클리드 거리(Euclidean distance) 및 코사인 유사성(cosine similarity)과 같은 공식을 이용하여 2개의 변수 오브젝트 간의 거리 및 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 계산할 수 있다. 예를 들어, 4개의 클러스터가 4 개의 제 1 클러스터 중심에 각각 대응하는 경우, 각 변수 오브젝트에서 첫 번째 클러스터 중심까지의 거리, 각 변수 오브젝트에서 두 번째 클러스터 중심까지의 거리 등을 계산할 수 있다.
단계(S506)에서, 각 변수 오브젝트는 상기 계산 결과에 분할된다. 각 변수 오브젝트는 가장 짧은 거리를 가지는 상기 제1 클러스터 중심에 대응하는 클러스터로 분할된다.
각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 계산한 이후, 컴퓨터 장치는 상기 변수 오브젝트를 상기 제1 클러스터 중심에 대응하는 클러스터로 분할할 수 있다. 컴퓨터 장치는 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할한다. 다른 실시예에서, 계산된 거리는 미리 설정된 거리 임계치와 비교될 수 있다. 변수 오브젝트와 특정 제1 클러스터 중심 사이의 거리가 상기 거리 임계치보다 작은 경우, 변수 오브젝트는 상기 특정 제1 클러스터 중심에 대응하는 클러스터로 분할된다.
단계(S508)에서, 각 클러스터의 제2 클러스터 중심이 변수 오브젝트의 분할 이후 각각 계산된다.
분할 작업이 완료된 이후, 각 클러스터는 하나 이상의 변수 오브젝트를 포함할 수 있다. 컴퓨터 장치는 평균 공식을 사용하여 각 클러스터의 제2 클러스터 중심을 재계산하고, 각 클러스터의 센터를 재선택할 수 있다.
단계(S510)에서, 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계 값보다 작은 지 여부가 결정된다.
컴퓨터 장치는 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리를 계산하고 상기 거리가 미리 설정된 임계치보다 작은 지 여부를 결정한다. 모든 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작으면 각 클러스터가 안정적이고 더 이상 변경되지 않으려는 경향이 있음을 나타내며, 각 클러스터가 클러스터링 결과로 출력될 수 있다. 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않으면 각 클러스터의 변수 오브젝트를 다시 분할할 필요가 있다.
단계(S512)에서, 대응하는 클러스터의 제1 클러스터 중심이 제2 클러스터 중심으로 대체되고, 단계(S504)를 계속 수행한다.
클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않은 경우, 제1 클러스터 중심은 클러스터의 제2 클러스터 중심으로 대체되고, 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계가 다시 수행된다. 단계(S404) 내지 단계(S412)는 각 클러스터가 안정화되어 더 이상 변화하지 않을 때까지 반복된다.
단계(S514)에서, 각 클러스터는 상기 클러스터 결과로 출력된다.
실시예에서, 변수 오브젝트는 클러스터링되고 분석된다. 그리고 유사한 변수 오브젝트가 클러스터에 병합되어 데이터의 레벨과 결정 모델의 구성을 용이하게 한다.
도 6을 참조하면, 일 실시예에서, 결정 모델의 구성 장치가 제공된다. 상기 장치는 추출 모듈(610), 클러스터 모듈(620), 제1 특성 모듈(630), 제2 특성 모듈(640) 및 구성 모듈(650)을 포함한다.
추출 모듈(610)은 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 각 템플릿 샘플이 추출하도록 구성된다.
상기 규칙 템플릿은 검토 결과를 결정하기 위한 기준 세트를 나타낸다. 문서 또는 항목에 대한 검토는 하나 이상의 규칙 템플릿에 대응할 수 있다. 예를 들어, 대출 기관에 대한 검토는 "대출 기관이 대출 신청을 한 지점", "대출 기관이 불량 기록을 가진 관련 기관"등과 같은 규칙 템플릿을 포함할 수 있다. 각 상이한 규칙 템플릿은 이에 대응하는 규칙 템플릿 데이터를 가진다. 그 중에서, 규칙 템플릿 데이터는 각 변수 오브젝트, 각 템플릿 샘플 및 상기 각 변수 오브젝트와 상기 각 템플릿 샘플 사이의 매칭 관계를 포함할 수 있다. 상기 변수 오브젝트는 질적 유형의 변수이고, 각 변수 오브젝트는 상기 규칙 템플릿의 상이한 클래스에 대응한다. 예를 들어, 규칙 템플릿이 "대출 기관이 대출 신청을 한 지점”이고, 대응하는 규칙 템플릿 데이터는 "사용자 1이 지점 A에 대출 신청", "사용자 2가 지점 B에 대출 신청", "사용자 3이 지점 C에 대출 신청" 등을 포함할 수 있다. 여기서, 지점 A, 지점 B, 지점 C 등과 같은 각 지점은 변수 오브젝트이고, 사용자 1, 사용자 2, 사용자 3 등과 같은 사용자는 템플릿 샘플이다.
클러스터 모듈(620)은 클러스터링 결과를 획득하기 위해 변수 오브젝트를 클러스터하고 분석하도록 구성된다.
컴퓨터 장치는 각 변수 오브젝트의 다차원 데이터를 추출할 수 있고, 다차원 데이터에 따른 변수 오브젝트를 클러스터하고 분석할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 각 지점(branch)인 경우, 다차원 데이터는 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 각 지점의 지리적 위치 등을 포함할 수 있다. 상기 클러스터 및 분석은 물리적 오브젝트 또는 추상적 오브젝트의 세트를 각각 유사한 오브젝트로 구성된 복수의 클래스로 그룹화하는 분석 프로세스를 의미한다. 변수 오브젝트를 클러스터링하고 분석함으로써, 유사한 변수 오브젝트는 무리를 이룰 수 있어 변수 오브젝트의 레벨을 감소시킬 수 있다. 예를 들어, 변수 오브젝트가 지점 A, 지점 B, 지점 C, 지점 D 등을 포함할 때, 다음과 같이 클러스터링되고 분석된다. 지점 A는 지점 B와 유사하고, 유사한 지점 A, B는 그룹 A로 그룹화된다. 지점 C는 지점 D와 유사하고, 유사한 지점 C, D는 그룹 B로 그룹화된다. 변수 오브젝트의 레벨은 각 지점의 원래 레벨(original level)로부터 각 그룹의 레벨로 감소된다. 변수 오브젝트가 클러스터링되고 분석된 이후, 각 클러스터로 구성된 클러스터링 결과가 획득될 수 있다.
제1 특성 모듈(630)은 상기 규칙 템플릿 데이터에 따라 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공한다.
변수 오브젝트가 컴퓨터 장치에 의해 클러스터링되고, 분석된 이후, 클러스터링 결과가 획득된다. 상기 클러스터링 결과는 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매칭 관계에 따라 각 템플릿 샘플과 매치될 수 있다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”에 해당하고; 규칙 템플릿 데이터가 "사용자 1은 FK 기관에 불량 기록을 가지고 있다”, "사용자2는 CE 기관에 불량 기록을 가지고 있다”, "사용자 3은 KD 기관에 불량 기록을 가지고 있다” 등을 포함하고 있을 때, "FK 기관”, "CE 기관”, "KD 기관” 등의 변수 오브젝트는 클러스터링되고 분석되어 그룹 A, 그룹 B, 그룹 C 등으로 각각 명칭되는 클러스터가 획득된다. 그리고 클러스터링 결과는 "사용자 1", "사용자 2", "사용자 3" 등의 템플릿 샘플과 매치된다. 표 1, 표 2를 참조하면, 표 1은 규칙 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매치 관계를 나타낸다. 표 2는 클러스터링 결과와 각 템플릿 샘플 사이의 매치 관계를 나타낸다. 숫자 "1"은, 제한 없이, 클러스터링 결과 또는 템플릿 샘플과 변수 오브젝트 사이의 매치 관계를 표시하는 데 사용될 수 있다. 변수 오브젝트가 클러스터되고 분석되어, 변수 오브젝트의 레벨은 상당히 감소될 수 있고 모델링 작업이 용이해질 수 있다.
제2 특성 모듈(640)은 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고, 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된다.
결정 모델의 출력은 보통 블랙 샘플 또는 화이트 샘플이다. 상기 블랙 샘플은 검토를 통과하지 못한 샘플을 나타내고, 상기 화이트 샘플은 상기 검토를 통과한 샘플을 나타낸다. 예를 들어, 결정 모델이 은행 대출의 자격을 검토하도록 구성될 때, 블랙 샘플은 대출 자격 검토를 통과하지 못한 사용자를 나타내고, 화이트 샘플은 대출 자격 검토를 통과한 사용자를 나타낸다. 각 변수 오브젝트의 블랙 샘플 확률은 각각 계산된다. 즉, 규칙 템플릿 데이터로부터 각 변수 오브젝트, 템플릿 샘플의 결과 유형이 블랙 샘플이 될 확률을 계산한다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”일 때, KD 기관에 대해 불량 기록을 가지는 사용자가 최종적으로 블랙 샘플일 확률 등이 계산될 수 있다.
변수 오브젝트에 대한 블랙 샘플 확률의 계산 공식은 다음과 같다.
블랙 샘플 확률 = 변수 오브젝트의 블랙 샘플 수 / 변수 오브젝트에 대한 전체 템플릿 샘플의 전체 수
각 변수 오브젝트의 계산된 블랙 샘플 확률은 연속 변수의 형태의 제 2 특성으로 사용될 수 있다.
다른 실시예에서, 각 변수 오브젝트의 WOE(증거 비중, weight-of-evidence) 값도 각각 계산될 수 있다. WOE 값을 계산하는 공식은 다음과 같다.
WOE = ln (블랙 샘플 전체 수에 대한 변수 오브젝트의 블랙 샘플 수의 비율 / 화이트 샘플 전체 수에 대한 변수 오브젝트의 화이트 샘플 수의 비율)
WOE 값이 높을수록, 변수 오브젝트의 템플릿 샘플이 블랙 샘플인 확률이 낮아진다.
구성 모듈(650)은 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하도록 구성된다.
현재, 결정 모델을 구성하는 방법은 입력한 모든 규칙 템플릿 데이터에 의해 모델링 작업을 수행하는 것이다. 규칙 템플릿 데이터가 많아질수록 그들의 레벨은 복잡해진다. 이는 모델링 작업을 용이하게 하지 못하고 및 모델의 성능에 부정적인 영향을 끼친다. 매치된 클러스터링 결과를 제1 특성으로 제공함으로써, 각 변수 오브젝트의 블랙 샘플 확률은 제2 특성으로 제공하여 입력 규칙 템플릿 데이터를 대체하여 결정 모델을 구성할 수 있다. 이에 따라, 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 그대로 유지할 수 있다. 따라서 결정 결과가 보다 정확해진다. 결정 모델은 결정 트리, GBDT(Gradient Boosting Decision Tree) 모델, LDA (Linear Discriminant Analysis) 모델과 같은 기계 학습 모델을 포함할 수 있다. 특정 문서 또는 특정 프로젝트에 대한 검토 결정 모델을 구성하는 경우, 각각의 규칙 템플릿에 대응하는 제1 특성 및 제2 특성은 원래 입력한 규칙 템플릿 데이터 대신 결정 모델을 구성하기 위해 획득된다. 특정 규칙 템플릿에 변수 오브젝트가 적은 경우, 규칙 템플릿 데이터는 모델을 구성하기 위해 직접 입력될 수도 있다.
상기 결정 모델을 구성하는 장치에서, 각 변수 오브젝트 및 각 템플릿 샘플은 상기 규칙 템플릿 데이터로부터 추출된다; 클러스터링 결과를 획득하기 위해 변수 오브젝트는 클러스터되고 분석된다; 상기 클러스터링 결과는 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치된다; 매치된 클러스터링 결과를 제1 특성으로 제공한다; 각 변수 오브젝트의 블랙 샘플 확률이 각각 계산된다; 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하고, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델은 구성된다. 데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성 및 제2 특성에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.
도 7을 참조하면, 일 실시 예에서, 상기 장치는 추출 모듈(610), 클러스터 모듈(620), 제1 특성 모듈(630), 제2 특성 모듈(640) 및 구성 모듈(650) 이외에, 맵핑 모듈(660) 및 제3 특성 모듈(670)을 더 포함한다.
맵핑 모듈(660)은 각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하도록 구성된다.
레이블은 각 변수 오브젝트를 매핑한 후 대응하는 구성을 나타내도록 구성된다. 각 레이블은 미리 정의될 수 있으며, 변수 오브젝트는 미리 정의된 레이블에 매핑될 수 있다. 상기 미리 설정된 알고리즘은 MD5 (Message-Digest Algorithm 5), SHA (Secure Hash Algorithm, 보안 해시 알고리즘) 등과 같은 해시 방정식을 포함할 수 있지만, 이에 한정되는 것은 아니다. 일 실시예에서, 컴퓨터 장치는 미리 설정된 알고리즘에 따라 각 변수 오브젝트를 미리 정의된 레이블에 매핑할 수 있다. 예를 들어, 변수 오브젝트는 A 지점, B 지점, C 지점 등이고, 지점 A 및 지점 C는 SHA 알고리즘을 사용하여 레이블 A에 매핑된다. 지점 B는 레이블 K에 매핑된다. 실제 상황에 따라 레이블의 수는 설정될 수 있다. 레이블은 많은 변수 오브젝트에 대응하지 않으며, 데이터의 차원과 레벨을 감소시킬 뿐만 아니라, 원래 정보의 부분을 보유할 수 있다.
제3 특성 모듈(570)은 레이블을 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 매치된 레이블을 제3 특성으로 제공하도록 구성된다.
컴퓨터 장치는 규칙 템플릿 데이터로부터 템플릿 샘플 및 변수 오브젝트 사이의 매치 관계에 따라 각 템플릿 샘플과 레이블을 매치할 수 있고, 상기 매치된 레이블을 모델링 작업을 수행하는 세 번째 특성으로 제공할 수 있다.
구성 모듈(650)은 상기 제1 특성, 상기 제2 특성, 상기 제3 특성에 따라 결정 모델을 구성하도록 더 구성된다.
컴퓨터 장치는 제1 특성으로 매치된 클러스터링 결과, 제2 특성으로 각 변수 오브젝트의 블랙 샘플 확률 및 제3 특성으로 매치된 레이블을 제공할 수 있다. 컴퓨터 장치는 모든 입력 규칙 템플릿 데이터를 제 1 특성, 제 2 특성 및 제 3 특성으로 대체하여 결정 모델을 구성할 수 있다. 이는 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 유지하므로 결정 결과가 보다 정확해질 수 있다.
실시예에서, 결정 모델은 제1 특성, 제2 특성 및 제3 특성에 따라 구성된다. 변수 오브젝트는 미리 정의된 레이블에 클러스터링되고, 분석되며, 매핑되어, 데이터의 차원과 레벨을 감소시키고, 결정 모델 구성을 용이하게 하며, 모델의 성능에 부정적인 영향을 감소시키고, 모델의 성능을 보다 정확하게 만들며, 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하고, 효율적인 결정을 향상시킨다.
도 8을 참조하면, 일 실시예에서, 구성 모듈(650)은 구축 유닛(652), 획득 유닛(654), 편력 유닛(656) 및 순도 계산 유닛(658)을 포함한다.
구축 유닛(652)은 원래 노드(original node)를 구축하도록 구성된다.
일 실시예에서, 결정 모델은 결정 트리 모델일 수 있고, 상기 결정 트리의 원래 노드는 먼저 구축될 수 있다.
획득 유닛(654)는 각 템플릿 샘플의 결과 유형을 규칙 템플릿 데이터에 따라 획득하도록 구성된다.
템플릿 샘플의 결과 유형은 블랙 샘플, 화이트 샘플 등과 같은 템플릿 샘플의 최종 결과를 나타낸다. 각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터로부터 획득될 수 있다.
편력 유닛(656)은 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력(traverse)하고 판독하도록 구성된다. 컴퓨터 장치는 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력하고, 판독한다. 즉, 각각의 가능한 결정 트리 지점이 편력된다. 예를 들어, 제1 특성은 편력되고 판독되고, "사용자 1에게는 A 그룹에 대한 불량 대출 기록이 있다", "사용자 2에게는 A 그룹에 대한 불량 대출 기록이 있다"와 같은 판독 기록이 생성된다. 제2 특성은 편력되고 판독되고 "FK 기관의 블랙 샘플 확률은 20%이다", "CE 기관의 블랙 샘플 확률은 15%이다"등과 같은 판독 기록이 생성된다. 각 판독 기록은 결정의 한 지점일 수 있다.
순도 계산 유닛(658)은 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도를 계산하고, 상기 분할 순도에 따라 분할 포인트를 결정하도록 구성된다.
컴퓨터 장치는 지니 불순도(Gini impurity), 엔트로피(entropy), 정보 이득(information gain) 등을 계산함으로써 각 판독 기록의 분할 순도를 결정할 수 있다. 여기서 지니 불순도는 집합의 특정 결과가 집합의 데이터 항목에 임의로 적용되는 예상 에러율을 나타낸다. 엔트로피는 시스템의 혼란 정도를 측정하는 데 사용되며, 정보 이득은 판독 기록이 템플릿 샘플을 구별하는 능력을 측정하는데 사용된다. 각 판독 기록의 분해 순도의 계산은 템플릿 샘플을 판독 레코드에 따라 나눈 결과에 의해 설명될 수 있다. 예상 결과 유형 및 실제 결과 유형의 차이가 작을수록 분할 순도는 커지고, 판독 기록은 더 순수해진다. 예를 들어, 지니 불순도의 계산 공식은 다음과 같다.
Figure 112018053161830-pct00005
분할 순도 = 1 - 지니 불순도(Gini), 여기서 i∈ {1,2, ......, m}, m은 결정 모델의 최종 결과를 나타내고,
Figure 112018053161830-pct00006
는 템플릿 샘플이 판독 기록을 판정 조건으로 사용할 때 결과 유형이 최종 결과인 비율을 나타낸다.
컴퓨터 장치는 각 판독 기록의 분할 순도의 크기에 따라 최적의 분할 포인트를 결정할 수 있다. 더 큰 분할 순도의 판독 조건은 바람직하게 지점으로 제공하고, 원래 노드가 분할된다.
구축 유닛(652)은 분할 포인트에 대응하는 특성을 획득하고, 새로운 노드를 구축하도록 더 구성된다.
컴퓨터 장치는 분할 포인트에 대응하는 특성을 획득하고 새로운 노드를 구축할 수 있다. 예를 들어, 분할 순도는 각 판독 기록에 대해 계산될 수 있다. 최대 분할 순도를 가지는 판독 기록 "사용자 1은 그룹 A에 대해 불량 대출을 가진다”이 획득되고, 원래 노드는 두 개의 지점으로 분할될 수 있다. 여기서, 하나의 지점은 "그룹 A에 대해 불량 대출 기록이 있음"을 나타내고, 다른 지점은 "A 그룹에 대해 불량 대출 기록이 없음"을 나타낸다. 대응하는 노드가 생성되고, 모든 판독 기록이 결정 트리에 추가될 때까지 분할 작업을 수행하도록 다음 분할 포인트는 새로운 노드를 위해 탐색된다.
구축 유닛(652)은 새로운 노드의 구축을 중단하고, 결정 트리의 구성을 완료하도록 더 구성된다.
미리 설정된 조건은 "모든 판독 기록이 노드로 결정 트리에 추가되었다"는 것일 수 있으며, 결정 트리의 노드 데이터도 미리 설정될 수 있다. 결정 트리의 노드 데이터가 노드 데이터의 상기 설정된 양에 도달하면, 제한 없이, 새로운 노드의 구축이 중단된다. 결정 트리 모델이 구성된 이후, 컴퓨터 장치는 결정 트리를 트리밍하고 사전 설정된 순도 값보다 작은 분할 순도의 판독 기록에 대응하는 노드를 차단할 수 있다. 이에 따라 결정 트리의 각 지점은 더 높은 분할 순도를 가질 수 있다.
실시예에서, 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성은 각각 편력(traverse)되고 판독된다. 각 판독 기록의 분할 순도는 각 템플릿 샘플의 결과 유형에 따라 계산된다. 분할 포인트는 결정 모델을 구축하기 위해 분할 순도의 크기에 따라 결정되고, 결정 모델의 성능을 보다 정확하게 만들 수 있고 복잡한 규칙을 검토해야 하는 비즈니스를 신속하게 처리하고 결정의 효율성을 높일 수 있게 한다.
도 9를 참조하면, 일 실시예에서, 클러스터 모듈(620)은 선택 유닛(621), 거리 계산 유닛(623), 분할 유닛(625), 중심 계산 유닛(627) 및 결정 유닛(629)을 포함한다.
선택 유닛(621)은 복수의 변수 오브젝트를 하나의 클러스터의 제1 클러스터 중심으로 변수 오브젝트로부터 랜덤하게 선택하도록 구성된다. 각 제1 클러스터 중심은 상기 클러스터의 하나와 대응된다.
컴퓨터 장치는 모든 변수 오브젝트로부터 복수의 변수 오브젝트를 선택할 수 있다. 컴퓨터 장치는 선택된 각 변수 오브젝트를 각 클러스터의 제1 클러스터 중심으로 제공하고, 각 클러스터를 명명할 수 있다. 각 제1 클러스터 중심은 클러스터에 대응한다. 즉, 클러스터의 수는 선택된 변수 오브젝트의 수와 같다.
거리 계산 유닛(623)은 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하도록 구성된다.
거리 계산 유닛(623)은 획득 서브 유닛(910) 및 계산 서브 유닛(920)을 포함한다.
획득 서브 유닛(910)은 각 변수 오브젝트의 다차원 데이터를 규칙 템플릿 데이터에 따라 획득하도록 구성된다.
컴퓨터 장치는 규칙 템플릿 데이터로부터 각 변수 오브젝트의 다차원 데이터를 획득할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 "각 지점”인 경우, 다차원 데이터는 각 지점에 대한 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 지리적 위치 등을 포함할 수 있다.
계산 서브 유닛(920)은 각 변수 오브젝트의 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하도록 구성된다.
각 변수 오브젝트의 획득된 다차원 데이터에 따라, 컴퓨터 장치는 유클리드 거리(Euclidean distance) 및 코사인 유사성(cosine similarity)과 같은 공식을 이용하여 2개의 변수 오브젝트 간의 거리 및 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 계산할 수 있다. 예를 들어, 4개의 클러스터가 4 개의 제 1 클러스터 중심에 각각 대응하는 경우, 각 변수 오브젝트에서 첫 번째 클러스터 중심까지의 거리, 각 변수 오브젝트에서 두 번째 클러스터 중심까지의 거리 등을 계산할 수 있다.
분할 유닛(625)는 상기 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할하도록 구성된다.
각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 계산한 이후, 컴퓨터 장치는 상기 변수 오브젝트를 상기 제1 클러스터 중심에 대응하는 클러스터로 분할할 수 있다. 컴퓨터 장치는 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할한다.
다른 실시 예에서, 계산된 거리는 미리 설정된 거리 임계치와 비교될 수 있다. 변수 오브젝트와 특정 제1 클러스터 중심 간의 거리가 거리 임계치보다 작은 경우, 변수 오브젝트는 상기 특정 제1 클러스터 중심에 대응하는 클러스터로 분할된다.
중심 계산 유닛(627)은 변수 오브젝트의 분할 이후 각 클러스터의 제 2 클러스터 중심을 각각 계산하도록 구성된다.
분할 작업이 완료된 이후, 각 클러스터는 하나 이상의 변수 오브젝트를 포함할 수 있다. 컴퓨터 장치는 평균 공식을 사용하여 각 클러스터의 제2 클러스터 중심을 재계산하고, 각 클러스터의 센터를 재선택할 수 있다.
결정 유닛(629)은 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 지 여부를 결정하도록 구성된다. 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 경우(Yes), 각 클러스터는 클러스터링 결과로서 출력된다. 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작지 않은 경우, 제1 클러스터 중심이 제2 클러스터 중심으로 대체되고, 거리 계산부(523)는 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각의 계산하는 것을 계속한다.
컴퓨터 장치는 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리를 계산하고 상기 거리가 미리 설정된 임계치보다 작은 지 여부를 결정한다. 모든 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작으면 각 클러스터가 안정적이고 더 이상 변경되지 않으려는 경향이 있음을 나타내며, 각 클러스터가 클러스터링 결과로 출력될 수 있다. 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않으면 각 클러스터의 변수 오브젝트를 다시 분할할 필요가 있다. 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않은 경우, 제1 클러스터 중심은 클러스터의 제2 클러스터 중심으로 대체되고, 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계가 다시 수행된다. 단계(S404) 내지 단계(S412)는 각 클러스터가 안정화되어 더 이상 변화하지 않을 때까지 반복된다.
실시예에서, 변수 오브젝트는 클러스터링되고 분석된다. 그리고 유사한 변수 오브젝트가 클러스터에 병합되어 데이터의 레벨과 결정 모델의 구성을 용이하게 한다.
결정 모델을 구성하는 상기 장치 내의 각각의 모듈은 소프트웨어, 하드웨어 및 이들의 조합에 의해 전체적으로 또는 부분적으로 구현될 수 있다. 예를 들어, 하드웨어의 구현에서, 클러스터 모듈(620)은 컴퓨터 디바이스의 프로세서에 의해 변수 오브젝트를 클러스터링하고 분석할 수 있다. 상기 프로세서는 중앙 처리 장치(CPU), 마이크로 프로세서, 단일 칩 등일 수 있다. 추출 모듈(610)은 컴퓨터 디바이스의 네트워크 인터페이스에 의해 규칙 템플릿 데이터를 획득할 수 있다. 상기 네트워크 인터페이스는 이더넷 카드 또는 무선 네트워크 카드 등일 수 있다. 전술한 모듈들은 서버의 프로세서 내에 및 하드웨어의 형태로 내장되거나 독립될 수 있거나, 또는 서버의 메모리에 소프트웨어의 형태로 저장될 수 있어, 프로세서가 전술한 다양한 모듈의 대응하는 동작을 호출 및 실행하는 것을 용이하게 한다.
당업자는 상기 실시예에서 방법의 프로세스가 전체 또는 일부가 하부 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해해야 하며, 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 프로그램 실행될 때 다양한 방법의 실시예에 프로세스를 포함 할 수 있다. 저장 매체는 디스크, CD, ROM (Read-Only Memory) 및 RAM (Random Access Memory) 등이 될 수 있다.
상기 실시예의 다른 기술적 특징은 간결성을 목적으로 기술되지 않은 다양한 조합을 가질 수 있다. 그럼에도 불구하고, 상이한 기술적 특징들의 결합이 서로 충돌하지 않는 한, 그러한 모든 조합은 개시의 범위 내에 있는 것으로 간주되어야 한다.
상기 구현예는 본 발명의 특정 실시예일뿐이며, 본 발명의 보호 범위를 제한하려는 것은 아니다. 본 게시물에 개시된 기술적 범위 내에서 당업자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 모두 본 개시 내용의 보호 범위에 속한다는 것을 알아야 한다. 따라서, 본 개시 내용의 보호 범위는 청구 범위의 보호 범위를 따라야 한다.
610: 추출 모듈
620: 클러스터 모듈
621: 선택 유닛
623: 거리 계산 유닛
625: 분할 유닛
627: 중심 계산 유닛
629: 결정 유닛
630: 제1 특성 모듈
640: 제2 특성 모듈
650: 구성 모듈
652: 구축 유닛
654: 획득 유닛
656: 편력 유닛
658: 순도 계산 유닛
660: 맵핑 모듈
670: 제3 특성 모듈
910: 획득 서브 유닛
920: 계산 서브 유닛

Claims (20)

  1. 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
    클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
    상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
    블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
    각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
    상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
    상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 결정 모델 구성 방법.
  2. 삭제
  3. 제1 항에 있어서,
    상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 상기 결정 모델을 구성하는 단계는,
    원래 노드를 구축하는 단계;
    각 템플릿 샘플의 결과 유형을 상기 규칙 템플릿 데이터에 따라 획득하는 단계;
    판독 기록을 생성하기 위해 상기 제1 특성, 상기 제2 특성 및 상기 제3 특성을 각각 편력하고 판독하는 단계;
    상기 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도를 계산하고, 상기 분할 순도에 따라 분할 포인트를 결정하는 단계; 및
    상기 분할 포인트에 대응하는 특성을 획득하고, 새로운 노드를 구축하는 단계를 포함하는 결정 모델 구성 방법.
  4. 제1 항에 있어서,
    상기 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계는,
    상기 변수 오브젝트로부터 복수의 변수 오브젝트를 하나의 클러스터의 제1 클러스터 중심으로 랜덤하게 선택하는 단계로서, 각 제1 클러스터 중심은 상기 클러스터의 하나와 대응하는, 선택하는 단계;
    각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계;
    상기 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할하는 단계;
    상기 변수 오브젝트의 분할 이후 각 클러스터의 제2 클러스터 중심을 각각 계산하는 단계; 및
    각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 지 여부를 결정하는 단계로서, 작은 경우 각 클러스터를 상기 클러스터링 결과로서 출력하고, 작지 않은 경우 상기 제1 클러스터 중심을 상기 제2 클러스터 중심으로 대체하고 각 가변 오브젝트로부터 각 제1 클러스터 중심까지의 상기 거리를 각각 계산하는 것을 계속하는, 결정하는 단계를 포함하는 결정 모델 구성 방법.
  5. 제4 항에 있어서,
    상기 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계는,
    각 변수 오브젝트의 다차원 데이터를 상기 규칙 템플릿 데이터에 따라 획득하는 단계; 및
    각 변수 오브젝트의 상기 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계를 포함하는 결정 모델 구성 방법.
  6. 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하도록 구성되는 추출 모듈;
    클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하도록 구성되는 클러스터 모듈;
    상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하도록 구성된 제1 특성 모듈;
    블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된 제2 특성 모듈;
    각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하도록 구성되는 맵핑 모듈;
    상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하도록 구성된 제3 특성 모듈; 및
    상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하도록 구성된 구성 모듈을 포함하는 결정 모델 구성 장치.
  7. 컴퓨터 실행 가능 명령들을 저장하는 메모리 및 상기 컴퓨터 실행 가능 명령들을 실행함으로써 단계들을 수행하는 프로세서를 포함하는 컴퓨터 장치로서, 상기 단계들은:
    규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
    클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
    상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
    블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
    각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
    상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
    상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 컴퓨터 장치.
  8. 삭제
  9. 컴퓨터 판독 가능 명령을 저장하는 적어도 하나의 저장 매체로서, 상기 컴퓨터 판독 가능 명령은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가 단계들을 수행하도록 하며, 상기 단계들은:
    규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
    클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
    상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
    블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
    각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
    상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
    상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 저장 매체.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 삭제
  14. 삭제
  15. 삭제
  16. 삭제
  17. 삭제
  18. 삭제
  19. 삭제
  20. 삭제
KR1020187015350A 2016-06-14 2017-05-09 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체 KR102178295B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610423436.0 2016-06-14
CN201610423436.0A CN106384282A (zh) 2016-06-14 2016-06-14 构建决策模型的方法和装置
PCT/CN2017/083632 WO2017215370A1 (zh) 2016-06-14 2017-05-09 构建决策模型的方法、装置、计算机设备及存储设备

Publications (2)

Publication Number Publication Date
KR20190019892A KR20190019892A (ko) 2019-02-27
KR102178295B1 true KR102178295B1 (ko) 2020-11-13

Family

ID=57916659

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187015350A KR102178295B1 (ko) 2016-06-14 2017-05-09 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체

Country Status (8)

Country Link
US (1) US20180307948A1 (ko)
EP (1) EP3358476A4 (ko)
JP (1) JP6402265B2 (ko)
KR (1) KR102178295B1 (ko)
CN (1) CN106384282A (ko)
AU (2) AU2017101866A4 (ko)
SG (1) SG11201709934XA (ko)
WO (1) WO2017215370A1 (ko)

Families Citing this family (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置
CN107785058A (zh) * 2017-07-24 2018-03-09 平安科技(深圳)有限公司 反欺诈识别方法、存储介质和承载平安脑的服务器
CN109426700B (zh) * 2017-08-28 2023-04-25 腾讯科技(北京)有限公司 数据处理方法、装置、存储介质和电子装置
CN107992295B (zh) * 2017-12-29 2021-01-19 西安交通大学 一种面向粒的动态算法选择方法
CN108763171B (zh) * 2018-04-20 2021-12-07 中国船舶重工集团公司第七一九研究所 一种基于格式模板的文档自动化生成方法
CN109064343B (zh) * 2018-08-13 2023-09-26 中国平安人寿保险股份有限公司 风险模型建立方法、风险匹配方法、装置、设备及介质
CN109670971A (zh) * 2018-11-30 2019-04-23 平安医疗健康管理股份有限公司 异常就诊费用的判断方法、装置、设备及计算机存储介质
KR102419481B1 (ko) 2019-02-20 2022-07-12 주식회사 엘지화학 올레핀계 중합체
CN110335134A (zh) * 2019-04-15 2019-10-15 梵界信息技术(上海)股份有限公司 一种基于woe转换实现信贷客户资质分类的方法
CN110083815B (zh) * 2019-05-07 2023-05-23 中冶赛迪信息技术(重庆)有限公司 一种同义变量识别方法和系统
CN110245186B (zh) * 2019-05-21 2023-04-07 深圳壹账通智能科技有限公司 一种基于区块链的业务处理方法及相关设备
CN110298568A (zh) * 2019-06-19 2019-10-01 国网上海市电力公司 一种基于数字化审查规范条文的审查方法
CN110322142A (zh) * 2019-07-01 2019-10-11 百维金科(上海)信息科技有限公司 一种大数据风控模型及线上系统配置技术
CN110929752B (zh) * 2019-10-18 2023-06-20 平安科技(深圳)有限公司 基于知识驱动和数据驱动的分群方法及相关设备
CN110851687A (zh) * 2019-11-11 2020-02-28 厦门市美亚柏科信息股份有限公司 一种数据识别方法、终端设备及存储介质
CN111091197B (zh) * 2019-11-21 2022-03-01 支付宝(杭州)信息技术有限公司 在可信执行环境中训练gbdt模型的方法、装置及设备
CN111125448B (zh) * 2019-12-23 2023-04-07 中国航空工业集团公司沈阳飞机设计研究所 一种大规模空中任务决策方法及系统
CN111652278B (zh) * 2020-04-30 2024-04-30 中国平安财产保险股份有限公司 用户行为检测方法、装置、电子设备及介质
CN112929916B (zh) * 2021-03-19 2023-04-07 中国联合网络通信集团有限公司 无线传播模型的构建方法和装置
KR102571826B1 (ko) * 2022-07-14 2023-08-29 (주)뤼이드 사용자의 검색 정보에 기초하여 웹 페이지를 추천하는 방법, 장치, 및 시스템
CN116737940B (zh) * 2023-08-14 2023-11-07 成都飞航智云科技有限公司 一种智能决策方法、决策系统

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065635A1 (en) * 1999-05-03 2003-04-03 Mehran Sahami Method and apparatus for scalable probabilistic clustering using decision trees
US20090306933A1 (en) * 2008-06-05 2009-12-10 Bank Of America Corporation Sampling Sufficiency Testing

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4538757B2 (ja) * 2007-12-04 2010-09-08 ソニー株式会社 情報処理装置、情報処理方法、およびプログラム
CN103795612B (zh) * 2014-01-15 2017-09-12 五八同城信息技术有限公司 即时通讯中的垃圾和违法信息检测方法
CN103793484B (zh) * 2014-01-17 2017-03-15 五八同城信息技术有限公司 分类信息网站中的基于机器学习的欺诈行为识别系统
CN105279382B (zh) * 2015-11-10 2017-12-22 成都数联易康科技有限公司 一种医疗保险异常数据在线智能检测方法
CN106384282A (zh) * 2016-06-14 2017-02-08 平安科技(深圳)有限公司 构建决策模型的方法和装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030065635A1 (en) * 1999-05-03 2003-04-03 Mehran Sahami Method and apparatus for scalable probabilistic clustering using decision trees
US20090306933A1 (en) * 2008-06-05 2009-12-10 Bank Of America Corporation Sampling Sufficiency Testing

Also Published As

Publication number Publication date
EP3358476A1 (en) 2018-08-08
KR20190019892A (ko) 2019-02-27
JP2018522343A (ja) 2018-08-09
AU2017268626A1 (en) 2018-01-04
SG11201709934XA (en) 2018-05-30
WO2017215370A1 (zh) 2017-12-21
AU2017101866A4 (en) 2019-11-14
CN106384282A (zh) 2017-02-08
EP3358476A4 (en) 2019-05-22
US20180307948A1 (en) 2018-10-25
JP6402265B2 (ja) 2018-10-10

Similar Documents

Publication Publication Date Title
KR102178295B1 (ko) 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체
TWI718643B (zh) 異常群體識別方法及裝置
US10572822B2 (en) Modular memoization, tracking and train-data management of feature extraction
CN106598999B (zh) 一种计算文本主题归属度的方法及装置
CN110928992B (zh) 文本搜索方法、装置、服务器及存储介质
US20160379011A1 (en) Anonymization apparatus, and program
US20150032708A1 (en) Database analysis apparatus and method
CN109508879B (zh) 一种风险的识别方法、装置及设备
CN107622080B (zh) 一种数据处理方法及设备
CN110825894A (zh) 数据索引建立、数据检索方法、装置、设备和存储介质
JP6637968B2 (ja) ガイド付きデータ探索
JPWO2013105505A1 (ja) インデックス走査装置及びインデックス走査方法
US20170185671A1 (en) Method and apparatus for determining similar document set to target document from a plurality of documents
CN110083731B (zh) 图像检索方法、装置、计算机设备及存储介质
US9213759B2 (en) System, apparatus, and method for executing a query including boolean and conditional expressions
CN108681490B (zh) 针对rpc信息的向量处理方法、装置以及设备
KR101948603B1 (ko) 데이터의 유용성 보존을 위한 익명화 장치 및 그 방법
CN113641785B (zh) 基于多维度的科技资源相似词检索方法及电子设备
CN111241103B (zh) 数据存储方法、数据查询方法及相关装置
CN115082999A (zh) 合影图像人物分析方法、装置、计算机设备和存储介质
CN111460325B (zh) Poi搜索方法、装置与设备
JP2021152751A (ja) 分析支援装置及び分析支援方法
CN111143626A (zh) 团伙识别方法、装置、设备及计算机可读存储介质
JP6167531B2 (ja) 領域検索方法、領域インデックス構築方法および領域検索装置
CN112801221B (zh) 一种数据分类方法、装置、设备及存储介质

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right