KR102178295B1

KR102178295B1 - 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체

Info

Publication number: KR102178295B1
Application number: KR1020187015350A
Authority: KR
Inventors: 셩셩 우; 리앙 쉬; 징 샤오
Original assignee: 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date: 2016-06-14
Filing date: 2017-05-09
Publication date: 2020-11-13
Also published as: EP3358476A1; KR20190019892A; JP2018522343A; AU2017268626A1; SG11201709934XA; WO2017215370A1; AU2017101866A4; CN106384282A; EP3358476A4; US20180307948A1; JP6402265B2

Abstract

결정 모델 구성 방법은 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.

Description

결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체

본 출원은 2016년 6월 14일 출원된 제목이 "결정 모델 구성 방법 및 장치"인 중국 특허출원 제201610423436.0호에 우선권을 주장한 출원으로, 그 전체 내용은 여기에 참고로서 포함된다.

본 발명은 컴퓨터 기술 분야에 관한 것으로서, 보다 상세하게는 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체에 관한 것이다.

보험 산업 및 의료 산업에서, 보험 회사 인수의 초기 검토, 은행 대출 자격 심사, 의료 보험 사기 사례 검토 등과 같은 많은 서류 또는 프로젝트 검토가 있다. 이러한 서류 또는 프로젝트는 대부분 수동 작업에 의존하거나 복잡한 규칙을 기반으로 한 검토가 필요하다.

수동 검토에는 인력과 시간이 많이 필요하며 복잡한 규칙은 일반적으로 다차원 및 복잡한 분류 레벨의 판단 요소를 포함한다. 따라서, 모델링 프로세스가 어렵고 업데이트가 느리며 유연성이 떨어지고, 데이터와 관련된 차원과 레벨이 너무 깊어서 모델의 성능에 영향을 미치고, 비즈니스 결정에 도움이 되지 않는다.

본 발명의 다양한 실시예에 따르면, 결정 모델 구성 방법 및 장치, 컴퓨터 장치 및 저장 매체가 제공된다.

결정 모델 구성 장치는 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하도록 구성되는 추출 모듈; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하도록 구성되는 클러스터 모듈; 상기 매치된 클러스터링 결과를 제1 특성으로 제공하도록 구성된 제1 특성 모듈; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된 제2 특성 모듈; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하도록 구성된 구성 모듈을 포함한다.

컴퓨터 실행 가능 명령들을 저장하는 메모리 및 상기 컴퓨터 실행 가능 명령들을 실행함으로써 단계들을 수행하는 프로세서를 포함하는 컴퓨터 장치로서, 상기 단계들은: 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.

컴퓨터 판독 가능 명령을 저장하는 적어도 하나의 저장 매체로서, 상기 컴퓨터 판독 가능 명령은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가 단계들을 수행하도록 하며, 상기 단계들은: 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계; 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계; 상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계; 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계; 및 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하는 단계를 포함한다.

본 발명의 적어도 하나의 실시예에 대한 설명은 다음의 도면 및 설명을 참조하여 설명될 것이다. 본 발명의 다른 특성, 목적 및 장점은 상세한 설명, 도면 및 청구 범위로부터 더욱 명백해질 것이다.

데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성(매치된 클러스터링 결과) 및 제2 특성(각 변수 오브젝트의 블랙 샘플 확률)에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.

본 발명의 실시예 또는 기존 기술의 기술적 해결책을 더 명확하게 설명하기 위해, 다음에 실시예 또는 기존 기술을 설명하는 데 필요한 첨부 도면을 간략하게 설명한다. 명백하게, 다음의 설명에서 첨부된 도면은 단지 본 발명의 일부 실시예를 도시하는 것이며, 본 기술 분야의 통상의 기술자는 창의적 노력 없이 다른 도면을 안출할 수 있다.
도 1은 일 실시예에 따른 컴퓨터 장치의 블록도이다.
도 2는 일 실시예에 따른 결정 모델을 구성하는 방법의 흐름도이다.
도 3은 다른 실시예 따른 결정 모델을 구성하는 방법의 흐름도이다.
도 4는 일 실시예에 따른 결정을 구성하는 방법에 대한 흐름도.
도 5는 일 실시예에 따른 변수 오브젝트를 클러스터링하고 분석하는 흐름도이다.
도 6은 일 실시예에 따른 결정 모델을 구성하는 장치의 블록도이다.
도 7은 다른 실시예에 따른 결정 모델을 구성하는 장치의 블록도이다.
도 8은 다른 실시예에 따른 구성 모듈의 블록도이다.
도 9는 다른 실시예에 따른 클러스터 모듈의 블록도이다.

본 개시내용의 목적들, 기술적 해결책들, 및 장점들을 보다 명확히 하기 위해, 본 개시내용이 첨부 도면 및 실시예들을 참조하여 아래에 상세히 설명된다. 여기에 설명된 특정한 실시예들은 단지 본 개시내용을 설명하고자 하는 것이지, 본 개시내용을 제한하려는 것은 아니다.

도 1은 일 실시예에 따른 컴퓨터 장치의 블록도이다. 도 1을 참조하면, 컴퓨터 장치는 시스템 버스를 통해 연결된 프로세서, 메모리 및 네트워크 인터페이스를 포함한다. 프로세서는 계산 및 제어 기능을 제공하여 전체 컴퓨터 장치의 작동을 지원하도록 구성된다. 메모리는 데이터, 명령 코드 등을 저장하도록 구성된다. 일 실시예에서, 메모리는 비-일시적 저장 매체 및 RAM(Random Access Memory)을 포함할 수 있다. 비-일시적 저장 매체는 운영 체제 및 컴퓨터 실행 가능 명령을 저장한다. 컴퓨터 실행 가능 명령들은 본 실시예에서 제공되는 컴퓨터 장치에 적용되는 결정 모델의 구성 방법을 구현하도록 구성될 수 있다. RAM은 운영 체제에 대한 실행 환경 및 비 - 일시적 저장 매체의 컴퓨터 실행 가능 명령을 제공한다. 네트워크 인터페이스는 규칙 템플릿 데이터 등을 얻기 위해 다른 컴퓨터 장치와 네트워크 통신을 수행하도록 구성된다. 컴퓨터 장치는 이동 전화, 태블릿 컴퓨터 및 PC(개인용 컴퓨터), 서버 등과 같은 단말일 수 있다. 당업자는 도 1에 도시된 구조가 본 해결책과 관련된 부분 구조의 단지 블록도이며, 본 해결책이 적용되는 컴퓨터 장치를 제한하지 않는 것을 이해할 것이다. 특정 컴퓨터 장치는 도면에 도시된 더 많거나 적은 수의 부품, 또는 특정 부품을 조합하거나 상이한 부품 배치를 가질 수 있다.

도 2를 참조하면, 일 실시예에서, 도 1에 도시된 컴퓨터 장치에 적용될 수 있는 결정 모델의 구성 방법이 제공된다. 상기 방법은 다음의 단계들을 포함한다.

단계(S210)에서, 규칙 템플릿 데이터가 획득되고, 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 각 템플릿 샘플이 추출된다.

상기 규칙 템플릿은 검토 결과를 결정하기 위한 기준 세트를 나타낸다. 문서 또는 항목에 대한 검토는 하나 이상의 규칙 템플릿에 대응할 수 있다. 예를 들어, 대출 기관에 대한 검토는 "대출 기관이 대출 신청을 한 지점", "대출 기관이 불량 기록을 가진 관련 기관"등과 같은 규칙 템플릿을 포함할 수 있다. 각 상이한 규칙 템플릿은 이에 대응하는 규칙 템플릿 데이터를 가진다. 그 중에서, 규칙 템플릿 데이터는 각 변수 오브젝트, 각 템플릿 샘플 및 상기 각 변수 오브젝트와 상기 각 템플릿 샘플 사이의 매칭 관계를 포함할 수 있다. 상기 변수 오브젝트는 질적 유형의 변수이고, 각 변수 오브젝트는 상기 규칙 템플릿의 상이한 클래스에 대응한다. 예를 들어, 규칙 템플릿이 "대출 기관이 대출 신청을 한 지점”이고, 대응하는 규칙 템플릿 데이터는 "사용자 1이 지점 A에 대출 신청", "사용자 2가 지점 B에 대출 신청", "사용자 3이 지점 C에 대출 신청" 등을 포함할 수 있다. 여기서, 지점 A, 지점 B, 지점 C 등과 같은 각 지점은 변수 오브젝트이고, 사용자 1, 사용자 2, 사용자 3 등과 같은 사용자는 템플릿 샘플이다.

단계(S220)에서, 클러스터링 결과를 획득하기 위해 변수 오브젝트가 클러스터되고 분석된다.

컴퓨터 장치는 각 변수 오브젝트의 다차원 데이터를 추출할 수 있고, 다차원 데이터에 따른 변수 오브젝트를 클러스터하고 분석할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 각 지점(branch)인 경우, 다차원 데이터는 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 각 지점의 지리적 위치 등을 포함할 수 있다. 상기 클러스터 및 분석은 물리적 오브젝트 또는 추상적 오브젝트의 세트를 각각 유사한 오브젝트로 구성된 복수의 클래스로 그룹화하는 분석 프로세스를 의미한다. 변수 오브젝트를 클러스터링하고 분석함으로써, 유사한 변수 오브젝트는 무리를 이룰 수 있어 변수 오브젝트의 레벨을 감소시킬 수 있다. 예를 들어, 변수 오브젝트가 지점 A, 지점 B, 지점 C, 지점 D 등을 포함할 때, 다음과 같이 클러스터링되고 분석된다. 지점 A는 지점 B와 유사하고, 유사한 지점 A, B는 그룹 A로 그룹화된다. 지점 C는 지점 D와 유사하고, 유사한 지점 C, D는 그룹 B로 그룹화된다. 변수 오브젝트의 레벨은 각 지점(branch)의 원래 레벨(original level)로부터 각 그룹의 레벨로 감소된다. 변수 오브젝트가 클러스터링되고 분석된 이후, 각 클러스터로 구성된 클러스터링 결과가 획득될 수 있다.

단계(S230)에서, 상기 규칙 템플릿 데이터에 따라 클러스터링 결과가 각 템플릿 샘플과 매치되고, 상기 매치된 클러스터링 결과가 제1 특성으로 제공된다.

변수 오브젝트가 컴퓨터 장치에 의해 클러스터링되고, 분석된 이후, 클러스터링 결과가 획득된다. 상기 클러스터링 결과는 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매칭 관계에 따라 각 템플릿 샘플과 매치될 수 있다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”에 해당하고; 규칙 템플릿 데이터가 "사용자 1은 FK 기관에 불량 기록을 가지고 있다”, "사용자2는 CE 기관에 불량 기록을 가지고 있다”, "사용자 3은 KD 기관에 불량 기록을 가지고 있다” 등을 포함하고 있을 때, "FK 기관”, "CE 기관”, "KD 기관” 등의 변수 오브젝트는 클러스터링되고 분석되어 그룹 A, 그룹 B, 그룹 C 등으로 각각 명칭되는 클러스터가 획득된다. 그리고 클러스터링 결과는 "사용자 1", "사용자 2", "사용자 3" 등의 템플릿 샘플과 매치된다. 다음 표 1, 표 2를 참조하면, 표 1은 규칙 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매치 관계를 나타낸다. 표 2는 클러스터링 결과와 각 템플릿 샘플 사이의 매치 관계를 나타낸다. 숫자 "1"은, 제한 없이, 클러스터링 결과 또는 템플릿 샘플과 변수 오브젝트 사이의 매치 관계를 표시하는 데 사용될 수 있다.

[표 1]

[표 2]

변수 오브젝트를 클러스터링하고 분석함으로써, 변수 오브젝트의 레벨은 상당히 감소될 수 있고, 이는 결정 모델의 모델링을 용이하게 할 수 있다.

단계(S240)에서, 블랙 샘플 확률이 각 변수 오브젝트에 대해 계산되고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공한다.

일 실시예에서, 결정 모델의 출력은 보통 블랙 샘플 또는 화이트 샘플이다. 상기 블랙 샘플은 검토를 통과하지 못한 샘플을 나타내고, 상기 화이트 샘플은 상기 검토를 통과한 샘플을 나타낸다. 예를 들어, 결정 모델이 은행 대출의 자격을 검토하도록 구성될 때, 블랙 샘플은 대출 자격 검토를 통과하지 못한 사용자를 나타내고, 화이트 샘플은 대출 자격 검토를 통과한 사용자를 나타낸다. 컴퓨터 디바이스는 각 변수 오브젝트의 블랙 샘플 확률을 각각 계산한다. 즉, 컴퓨터 디바이스는 규칙 템플릿 데이터로부터 각 변수 오브젝트에 대해 계산을 하며, 템플릿 샘플의 결과 유형이 블랙 샘플이 될 확률을 계산한다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”일 때, KD 기관에 대해 불량 기록을 가지는 사용자가 최종적으로 블랙 샘플일 확률 등이 계산될 수 있다.

변수 오브젝트에 대한 블랙 샘플 확률의 계산 공식은 다음과 같다.

블랙 샘플 확률 = 변수 오브젝트의 블랙 샘플 수 / 변수 오브젝트에 대한 전체 템플릿 샘플의 전체 수

컴퓨터 장치는 각 변수 오브젝트의 계산된 블랙 샘플 확률을 연속 변수의 형태의 제 2 특성으로 사용할 수 있다.

다른 실시예에서, 각 변수 오브젝트의 WOE(증거 비중, weight-of-evidence) 값도 각각 계산될 수 있다. WOE 값을 계산하는 공식은 다음과 같다.

WOE = ln (블랙 샘플 전체 수에 대한 변수 오브젝트의 블랙 샘플 수의 비율 / 화이트 샘플 전체 수에 대한 변수 오브젝트의 화이트 샘플 수의 비율)

WOE 값이 높을수록, 변수 오브젝트의 템플릿 샘플이 블랙 샘플인 확률이 낮아진다.

단계(S250)에서, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델이 구성된다.

현재, 결정 모델을 구성하는 방법은 입력한 모든 규칙 템플릿 데이터에 의해 모델링 작업을 수행하는 것이다. 규칙 템플릿 데이터가 많아질수록 그들의 레벨은 복잡해진다. 이는 모델링 작업을 용이하게 하지 못하고 및 모델의 성능에 부정적인 영향을 끼친다. 매치된 클러스터링 결과를 제1 특성으로 제공함으로써, 컴퓨터 장치는 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하여 입력 규칙 템플릿 데이터를 대체하여 결정 모델을 구성할 수 있다. 이에 따라, 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 그대로 유지할 수 있다. 따라서 결정 결과가 보다 정확해진다. 결정 모델은 결정 트리, GBDT(Gradient Boosting Decision Tree) 모델, LDA(Linear Discriminant Analysis) 모델과 같은 기계 학습 모델을 포함할 수 있다. 특정 문서 또는 특정 프로젝트에 대한 검토 결정 모델을 구성하는 경우, 각각의 규칙 템플릿에 대응하는 제1 특성 및 제2 특성은 원래 입력한 규칙 템플릿 데이터 대신 결정 모델을 구성하기 위해 획득된다. 특정 규칙 템플릿에 변수 오브젝트가 적은 경우, 규칙 템플릿 데이터는 모델을 구성하기 위해 직접 입력될 수도 있다.

상기 결정 모델을 구성하는 방법에서, 각 변수 오브젝트 및 각 템플릿 샘플은 상기 규칙 템플릿 데이터로부터 추출된다; 클러스터링 결과를 획득하기 위해 변수 오브젝트는 클러스터되고 분석된다; 상기 클러스터링 결과는 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치된다; 매치된 클러스터링 결과를 제1 특성으로 제공한다; 각 변수 오브젝트의 블랙 샘플 확률이 각각 계산된다; 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하고, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델은 구성된다. 데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성 및 제2 특성에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.

도 3을 참조하면, 결정 모델을 구성하는 상기 방법은 다음 단계를 더 포함한다.

단계(S310)에서, 각 변수 오브젝트는 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑된다.

레이블은 각 변수 오브젝트를 매핑한 후 대응하는 구성을 나타내도록 구성된다. 각 레이블은 미리 정의될 수 있으며, 변수 오브젝트는 미리 정의된 레이블에 매핑될 수 있다. 상기 미리 설정된 알고리즘은 MD5 (Message-Digest Algorithm 5), SHA (Secure Hash Algorithm, 보안 해시 알고리즘) 등과 같은 해시 방정식을 포함할 수 있지만, 이에 한정되는 것은 아니다. 일 실시예에서, 컴퓨터 장치는 미리 설정된 알고리즘에 따라 각 변수 오브젝트를 미리 정의된 레이블에 매핑할 수 있다. 예를 들어, 변수 오브젝트는 A 지점, B 지점, C 지점 등이고, 지점 A 및 지점 C는 SHA 알고리즘을 사용하여 레이블 A에 매핑된다. 지점 B는 레이블 K에 매핑된다. 실제 상황에 따라 레이블의 수는 설정될 수 있다. 레이블은 많은 변수 오브젝트에 대응하지 않으며, 데이터의 차원과 레벨을 감소시킬 뿐만 아니라, 원래 정보의 부분을 보유할 수 있다.

단계(S320)에서, 레이블은 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치되고, 매치된 레이블을 제3 특성으로 제공한다.

컴퓨터 장치는 규칙 템플릿 데이터로부터 템플릿 샘플 및 변수 오브젝트 사이의 매치 관계에 따라 각 템플릿 샘플과 레이블을 매치할 수 있고, 상기 매치된 레이블을 모델링 작업을 수행하는 세 번째 특성으로 제공할 수 있다.

단계(S330)에서, 결정 모델은 상기 제1 특성, 상기 제2 특성, 상기 제3 특성에 따라 구성된다.

컴퓨터 장치는 제1 특성으로 매치된 클러스터링 결과, 제2 특성으로 각 변수 오브젝트의 블랙 샘플 확률 및 제3 특성으로 매치된 레이블을 제공할 수 있다. 컴퓨터 장치는 모든 입력 규칙 템플릿 데이터를 제 1 특성, 제 2 특성 및 제 3 특성으로 대체하여 결정 모델을 구성할 수 있다. 이는 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 유지하므로 결정 결과가 보다 정확해질 수 있다.

실시예에서, 결정 모델은 제1 특성, 제2 특성 및 제3 특성에 따라 구성된다. 변수 오브젝트는 미리 정의된 레이블에 클러스터링되고, 분석되며, 매핑되어, 데이터의 차원과 레벨을 감소시키고, 결정 모델 구성을 용이하게 하며, 모델의 성능에 부정적인 영향을 감소시키고, 모델의 성능을 보다 정확하게 만들며, 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하고, 효율적인 결정을 향상시킨다.

도 4를 참조하면, 일 실시예에서, 제1 특성, 제2 특성 및 제3 특성에 따라 결정 모델을 구성하는 단계(S330)는 다음 단계를 포함한다.

단계(S402)에서, 원래 노드(original node)가 구축된다.

일 실시예에서, 결정 모델은 결정 트리 모델일 수 있고, 상기 결정 트리의 원래 노드는 먼저 구축될 수 있다.

단계(S404)에서, 각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터에 따라 획득된다.

템플릿 샘플의 결과 유형은 블랙 샘플, 화이트 샘플 등과 같은 템플릿 샘플의 최종 결과를 나타낸다.

각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터로부터 획득될 수 있다.

단계(S406)에서, 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성은 각각 편력(traverse)되고 판독된다.

컴퓨터 장치는 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력하고, 판독한다. 즉, 각각의 가능한 결정 트리 지점이 편력된다. 예를 들어, 제1 특성은 편력되고 판독되고, "사용자 1에게는 A 그룹에 대한 불량 대출 기록이 있다", "사용자 2에게는 A 그룹에 대한 불량 대출 기록이 있다"와 같은 판독 기록이 생성된다. 제2 특성은 편력되고 판독되고 "FK 기관의 블랙 샘플 확률은 20 %이다", "CE 기관의 블랙 샘플 확률은 15 %이다"등과 같은 판독 기록이 생성된다. 각 판독 기록은 결정의 한 지점일 수 있다.

단계(S408)에서, 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도가 계산되고, 상기 분할 순도에 따라 분할 포인트가 결정된다.

컴퓨터 장치는 지니 불순도(Gini impurity), 엔트로피(entropy), 정보 이득(information gain) 등을 계산함으로써 각 판독 기록의 분할 순도를 결정할 수 있다. 여기서 지니 불순도는 집합의 특정 결과가 집합의 데이터 항목에 임의로 적용되는 예상 에러율을 나타낸다. 엔트로피는 시스템의 혼란 정도를 측정하는 데 사용되며, 정보 이득은 판독 기록이 템플릿 샘플을 구별하는 능력을 측정하는데 사용된다. 각 판독 기록의 분해 순도의 계산은 템플릿 샘플을 판독 레코드에 따라 나눈 결과에 의해 설명될 수 있다. 예상 결과 유형 및 실제 결과 유형의 차이가 작을수록 분할 순도는 커지고, 판독 기록은 더 순수해진다. 예를 들어, 지니 불순도의 계산 공식은 다음과 같다.

분할 순도 = 1 - 지니 불순도(Gini), 여기서 i∈ {1,2, ......, m}, m은 결정 모델의 최종 결과를 나타내고,

는 템플릿 샘플이 판독 기록을 판정 조건으로 사용할 때 결과 유형이 최종 결과인 비율을 나타낸다.

컴퓨터 장치는 각 판독 기록의 분할 순도의 크기에 따라 최적의 분할 포인트를 결정할 수 있다. 더 큰 분할 순도의 판독 조건은 바람직하게 지점으로 제공하고, 원래 노드가 분할된다.

단계(S410)에서, 분할 포인트에 대응하는 특성이 획득되고, 새로운 노드가 구축된다.

컴퓨터 장치는 분할 포인트에 대응하는 특성을 획득하고 새로운 노드를 구축할 수 있다. 예를 들어, 분할 순도는 각 판독 기록에 대해 계산될 수 있다. 최대 분할 순도를 가지는 판독 기록 "사용자 1은 그룹 A에 대해 불량 대출을 가진다”이 획득되고, 원래 노드는 두 개의 지점으로 분할될 수 있다. 여기서, 하나의 지점은 "그룹 A에 대해 불량 대출 기록이 있음"을 나타내고, 다른 지점은 "A 그룹에 대해 불량 대출 기록이 없음"을 나타낸다. 대응하는 노드가 생성되고, 모든 판독 기록이 결정 트리에 추가될 때까지 분할 작업을 수행하도록 다음 분할 포인트는 새로운 노드를 위해 탐색된다.

단계(S412)에서, 미리 설정된 조건이 충족되면, 새로운 노드의 구축이 중단되고, 결정 트리의 구성이 완료된다.

미리 설정된 조건은 "모든 판독 기록이 노드로 결정 트리에 추가되었다"는 것일 수 있으며, 결정 트리의 노드 데이터도 미리 설정될 수 있다. 결정 트리의 노드 데이터가 노드 데이터의 상기 설정된 양에 도달하면, 제한 없이, 새로운 노드의 구축이 중단된다. 결정 트리 모델이 구성된 이후, 컴퓨터 장치는 결정 트리를 트리밍하고 사전 설정된 순도 값보다 작은 분할 순도의 판독 기록에 대응하는 노드를 차단할 수 있다. 이에 따라 결정 트리의 각 지점은 더 높은 분할 순도를 가질 수 있다.

실시예에서, 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성은 각각 편력(traverse)되고 판독된다. 각 판독 기록의 분할 순도는 각 템플릿 샘플의 결과 유형에 따라 계산된다. 분할 포인트는 결정 모델을 구축하기 위해 분할 순도의 크기에 따라 결정되고, 결정 모델의 성능을 보다 정확하게 만들 수 있고 복잡한 규칙을 검토해야 하는 비즈니스를 신속하게 처리하고 결정의 효율성을 높일 수 있게 한다.

도 5를 참조하면, 일 실시예에서, 클러스터링 결과를 획득하기 위해 변수 오브젝트를 클러스터링 및 분석하는 단계(S220)는 다음 단계를 포함한다.

단계(S502)에서, 복수의 변수 오브젝트가 하나의 클러스터의 제1 클러스터 중심으로 변수 오브젝트로부터 랜덤하게 선택된다.

컴퓨터 장치는 모든 변수 오브젝트로부터 복수의 변수 오브젝트를 선택할 수 있다. 컴퓨터 장치는 선택된 각 변수 오브젝트를 각 클러스터의 제1 클러스터 중심으로 제공하고, 각 클러스터를 명명할 수 있다. 각 제1 클러스터 중심은 클러스터에 대응한다. 즉, 클러스터의 수는 선택된 변수 오브젝트의 수와 같다.

단계(S504)에서, 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리가 각각 계산된다.

일 실시예에서, 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계(S504)는 하기 (a) 단계와 (b) 단계를 포함한다.

(a) 각 변수 오브젝트의 다차원 데이터가 규칙 템플릿 데이터에 따라 획득된다.

컴퓨터 장치는 규칙 템플릿 데이터로부터 각 변수 오브젝트의 다차원 데이터를 획득할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 "각 지점”인 경우, 다차원 데이터는 각 지점의 총 대출 금액, 총 대출 금액, 평균 대출 기간, 지점 규모, 지리적 위치 등을 포함할 수 있다.

(b) 각 변수 오브젝트의 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리가 각각 계산된다.

각 변수 오브젝트의 획득된 다차원 데이터에 따라, 컴퓨터 장치는 유클리드 거리(Euclidean distance) 및 코사인 유사성(cosine similarity)과 같은 공식을 이용하여 2개의 변수 오브젝트 간의 거리 및 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 계산할 수 있다. 예를 들어, 4개의 클러스터가 4 개의 제 1 클러스터 중심에 각각 대응하는 경우, 각 변수 오브젝트에서 첫 번째 클러스터 중심까지의 거리, 각 변수 오브젝트에서 두 번째 클러스터 중심까지의 거리 등을 계산할 수 있다.

단계(S506)에서, 각 변수 오브젝트는 상기 계산 결과에 분할된다. 각 변수 오브젝트는 가장 짧은 거리를 가지는 상기 제1 클러스터 중심에 대응하는 클러스터로 분할된다.

각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 계산한 이후, 컴퓨터 장치는 상기 변수 오브젝트를 상기 제1 클러스터 중심에 대응하는 클러스터로 분할할 수 있다. 컴퓨터 장치는 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할한다. 다른 실시예에서, 계산된 거리는 미리 설정된 거리 임계치와 비교될 수 있다. 변수 오브젝트와 특정 제1 클러스터 중심 사이의 거리가 상기 거리 임계치보다 작은 경우, 변수 오브젝트는 상기 특정 제1 클러스터 중심에 대응하는 클러스터로 분할된다.

단계(S508)에서, 각 클러스터의 제2 클러스터 중심이 변수 오브젝트의 분할 이후 각각 계산된다.

분할 작업이 완료된 이후, 각 클러스터는 하나 이상의 변수 오브젝트를 포함할 수 있다. 컴퓨터 장치는 평균 공식을 사용하여 각 클러스터의 제2 클러스터 중심을 재계산하고, 각 클러스터의 센터를 재선택할 수 있다.

단계(S510)에서, 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계 값보다 작은 지 여부가 결정된다.

컴퓨터 장치는 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리를 계산하고 상기 거리가 미리 설정된 임계치보다 작은 지 여부를 결정한다. 모든 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작으면 각 클러스터가 안정적이고 더 이상 변경되지 않으려는 경향이 있음을 나타내며, 각 클러스터가 클러스터링 결과로 출력될 수 있다. 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않으면 각 클러스터의 변수 오브젝트를 다시 분할할 필요가 있다.

단계(S512)에서, 대응하는 클러스터의 제1 클러스터 중심이 제2 클러스터 중심으로 대체되고, 단계(S504)를 계속 수행한다.

클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않은 경우, 제1 클러스터 중심은 클러스터의 제2 클러스터 중심으로 대체되고, 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계가 다시 수행된다. 단계(S404) 내지 단계(S412)는 각 클러스터가 안정화되어 더 이상 변화하지 않을 때까지 반복된다.

단계(S514)에서, 각 클러스터는 상기 클러스터 결과로 출력된다.

실시예에서, 변수 오브젝트는 클러스터링되고 분석된다. 그리고 유사한 변수 오브젝트가 클러스터에 병합되어 데이터의 레벨과 결정 모델의 구성을 용이하게 한다.

도 6을 참조하면, 일 실시예에서, 결정 모델의 구성 장치가 제공된다. 상기 장치는 추출 모듈(610), 클러스터 모듈(620), 제1 특성 모듈(630), 제2 특성 모듈(640) 및 구성 모듈(650)을 포함한다.

추출 모듈(610)은 규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 각 템플릿 샘플이 추출하도록 구성된다.

클러스터 모듈(620)은 클러스터링 결과를 획득하기 위해 변수 오브젝트를 클러스터하고 분석하도록 구성된다.

컴퓨터 장치는 각 변수 오브젝트의 다차원 데이터를 추출할 수 있고, 다차원 데이터에 따른 변수 오브젝트를 클러스터하고 분석할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 각 지점(branch)인 경우, 다차원 데이터는 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 각 지점의 지리적 위치 등을 포함할 수 있다. 상기 클러스터 및 분석은 물리적 오브젝트 또는 추상적 오브젝트의 세트를 각각 유사한 오브젝트로 구성된 복수의 클래스로 그룹화하는 분석 프로세스를 의미한다. 변수 오브젝트를 클러스터링하고 분석함으로써, 유사한 변수 오브젝트는 무리를 이룰 수 있어 변수 오브젝트의 레벨을 감소시킬 수 있다. 예를 들어, 변수 오브젝트가 지점 A, 지점 B, 지점 C, 지점 D 등을 포함할 때, 다음과 같이 클러스터링되고 분석된다. 지점 A는 지점 B와 유사하고, 유사한 지점 A, B는 그룹 A로 그룹화된다. 지점 C는 지점 D와 유사하고, 유사한 지점 C, D는 그룹 B로 그룹화된다. 변수 오브젝트의 레벨은 각 지점의 원래 레벨(original level)로부터 각 그룹의 레벨로 감소된다. 변수 오브젝트가 클러스터링되고 분석된 이후, 각 클러스터로 구성된 클러스터링 결과가 획득될 수 있다.

제1 특성 모듈(630)은 상기 규칙 템플릿 데이터에 따라 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공한다.

변수 오브젝트가 컴퓨터 장치에 의해 클러스터링되고, 분석된 이후, 클러스터링 결과가 획득된다. 상기 클러스터링 결과는 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매칭 관계에 따라 각 템플릿 샘플과 매치될 수 있다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”에 해당하고; 규칙 템플릿 데이터가 "사용자 1은 FK 기관에 불량 기록을 가지고 있다”, "사용자2는 CE 기관에 불량 기록을 가지고 있다”, "사용자 3은 KD 기관에 불량 기록을 가지고 있다” 등을 포함하고 있을 때, "FK 기관”, "CE 기관”, "KD 기관” 등의 변수 오브젝트는 클러스터링되고 분석되어 그룹 A, 그룹 B, 그룹 C 등으로 각각 명칭되는 클러스터가 획득된다. 그리고 클러스터링 결과는 "사용자 1", "사용자 2", "사용자 3" 등의 템플릿 샘플과 매치된다. 표 1, 표 2를 참조하면, 표 1은 규칙 템플릿 데이터로부터 변수 오브젝트와 템플릿 샘플 사이의 매치 관계를 나타낸다. 표 2는 클러스터링 결과와 각 템플릿 샘플 사이의 매치 관계를 나타낸다. 숫자 "1"은, 제한 없이, 클러스터링 결과 또는 템플릿 샘플과 변수 오브젝트 사이의 매치 관계를 표시하는 데 사용될 수 있다. 변수 오브젝트가 클러스터되고 분석되어, 변수 오브젝트의 레벨은 상당히 감소될 수 있고 모델링 작업이 용이해질 수 있다.

제2 특성 모듈(640)은 블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고, 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된다.

결정 모델의 출력은 보통 블랙 샘플 또는 화이트 샘플이다. 상기 블랙 샘플은 검토를 통과하지 못한 샘플을 나타내고, 상기 화이트 샘플은 상기 검토를 통과한 샘플을 나타낸다. 예를 들어, 결정 모델이 은행 대출의 자격을 검토하도록 구성될 때, 블랙 샘플은 대출 자격 검토를 통과하지 못한 사용자를 나타내고, 화이트 샘플은 대출 자격 검토를 통과한 사용자를 나타낸다. 각 변수 오브젝트의 블랙 샘플 확률은 각각 계산된다. 즉, 규칙 템플릿 데이터로부터 각 변수 오브젝트, 템플릿 샘플의 결과 유형이 블랙 샘플이 될 확률을 계산한다. 예를 들어, 규칙 템플릿이 "대출 기관이 불량 기록을 가진 관련 기관”일 때, KD 기관에 대해 불량 기록을 가지는 사용자가 최종적으로 블랙 샘플일 확률 등이 계산될 수 있다.

각 변수 오브젝트의 계산된 블랙 샘플 확률은 연속 변수의 형태의 제 2 특성으로 사용될 수 있다.

구성 모듈(650)은 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델을 구성하도록 구성된다.

현재, 결정 모델을 구성하는 방법은 입력한 모든 규칙 템플릿 데이터에 의해 모델링 작업을 수행하는 것이다. 규칙 템플릿 데이터가 많아질수록 그들의 레벨은 복잡해진다. 이는 모델링 작업을 용이하게 하지 못하고 및 모델의 성능에 부정적인 영향을 끼친다. 매치된 클러스터링 결과를 제1 특성으로 제공함으로써, 각 변수 오브젝트의 블랙 샘플 확률은 제2 특성으로 제공하여 입력 규칙 템플릿 데이터를 대체하여 결정 모델을 구성할 수 있다. 이에 따라, 데이터의 레벨을 감소시킬 뿐만 아니라 결정 결과에 대한 각 변수 오브젝트의 영향을 그대로 유지할 수 있다. 따라서 결정 결과가 보다 정확해진다. 결정 모델은 결정 트리, GBDT(Gradient Boosting Decision Tree) 모델, LDA (Linear Discriminant Analysis) 모델과 같은 기계 학습 모델을 포함할 수 있다. 특정 문서 또는 특정 프로젝트에 대한 검토 결정 모델을 구성하는 경우, 각각의 규칙 템플릿에 대응하는 제1 특성 및 제2 특성은 원래 입력한 규칙 템플릿 데이터 대신 결정 모델을 구성하기 위해 획득된다. 특정 규칙 템플릿에 변수 오브젝트가 적은 경우, 규칙 템플릿 데이터는 모델을 구성하기 위해 직접 입력될 수도 있다.

상기 결정 모델을 구성하는 장치에서, 각 변수 오브젝트 및 각 템플릿 샘플은 상기 규칙 템플릿 데이터로부터 추출된다; 클러스터링 결과를 획득하기 위해 변수 오브젝트는 클러스터되고 분석된다; 상기 클러스터링 결과는 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치된다; 매치된 클러스터링 결과를 제1 특성으로 제공한다; 각 변수 오브젝트의 블랙 샘플 확률이 각각 계산된다; 각 변수 오브젝트의 블랙 샘플 확률을 제2 특성으로 제공하고, 상기 제1 특성 및 상기 제2 특성에 따라 결정 모델은 구성된다. 데이터의 차원 및 레벨은 변수 오브젝트를 클러스터링하고 분석함에 따라 감소될 수 있고, 이에 따라 결정 모델을 구성이 용이하게 하고, 모델의 성능에 부정적인 영향이 감소될 수 있다. 또한, 제1 특성 및 제2 특성에 따라 구성된 결정 모델의 성능은 보다 정확해지고 검토가 필요한 복잡한 규칙의 비즈니스를 신속하게 처리하는 것을 용이하게 하여, 결정 효율을 향상시킨다.

도 7을 참조하면, 일 실시 예에서, 상기 장치는 추출 모듈(610), 클러스터 모듈(620), 제1 특성 모듈(630), 제2 특성 모듈(640) 및 구성 모듈(650) 이외에, 맵핑 모듈(660) 및 제3 특성 모듈(670)을 더 포함한다.

맵핑 모듈(660)은 각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하도록 구성된다.

제3 특성 모듈(570)은 레이블을 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 매치된 레이블을 제3 특성으로 제공하도록 구성된다.

구성 모듈(650)은 상기 제1 특성, 상기 제2 특성, 상기 제3 특성에 따라 결정 모델을 구성하도록 더 구성된다.

도 8을 참조하면, 일 실시예에서, 구성 모듈(650)은 구축 유닛(652), 획득 유닛(654), 편력 유닛(656) 및 순도 계산 유닛(658)을 포함한다.

구축 유닛(652)은 원래 노드(original node)를 구축하도록 구성된다.

획득 유닛(654)는 각 템플릿 샘플의 결과 유형을 규칙 템플릿 데이터에 따라 획득하도록 구성된다.

템플릿 샘플의 결과 유형은 블랙 샘플, 화이트 샘플 등과 같은 템플릿 샘플의 최종 결과를 나타낸다. 각 템플릿 샘플의 결과 유형은 규칙 템플릿 데이터로부터 획득될 수 있다.

편력 유닛(656)은 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력(traverse)하고 판독하도록 구성된다. 컴퓨터 장치는 판독 기록을 생성하기 위해 제1 특성, 제2 특성 및 제3 특성을 각각 편력하고, 판독한다. 즉, 각각의 가능한 결정 트리 지점이 편력된다. 예를 들어, 제1 특성은 편력되고 판독되고, "사용자 1에게는 A 그룹에 대한 불량 대출 기록이 있다", "사용자 2에게는 A 그룹에 대한 불량 대출 기록이 있다"와 같은 판독 기록이 생성된다. 제2 특성은 편력되고 판독되고 "FK 기관의 블랙 샘플 확률은 20%이다", "CE 기관의 블랙 샘플 확률은 15%이다"등과 같은 판독 기록이 생성된다. 각 판독 기록은 결정의 한 지점일 수 있다.

순도 계산 유닛(658)은 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도를 계산하고, 상기 분할 순도에 따라 분할 포인트를 결정하도록 구성된다.

구축 유닛(652)은 분할 포인트에 대응하는 특성을 획득하고, 새로운 노드를 구축하도록 더 구성된다.

구축 유닛(652)은 새로운 노드의 구축을 중단하고, 결정 트리의 구성을 완료하도록 더 구성된다.

도 9를 참조하면, 일 실시예에서, 클러스터 모듈(620)은 선택 유닛(621), 거리 계산 유닛(623), 분할 유닛(625), 중심 계산 유닛(627) 및 결정 유닛(629)을 포함한다.

선택 유닛(621)은 복수의 변수 오브젝트를 하나의 클러스터의 제1 클러스터 중심으로 변수 오브젝트로부터 랜덤하게 선택하도록 구성된다. 각 제1 클러스터 중심은 상기 클러스터의 하나와 대응된다.

거리 계산 유닛(623)은 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하도록 구성된다.

거리 계산 유닛(623)은 획득 서브 유닛(910) 및 계산 서브 유닛(920)을 포함한다.

획득 서브 유닛(910)은 각 변수 오브젝트의 다차원 데이터를 규칙 템플릿 데이터에 따라 획득하도록 구성된다.

컴퓨터 장치는 규칙 템플릿 데이터로부터 각 변수 오브젝트의 다차원 데이터를 획득할 수 있다. 다차원 데이터는 변수 오브젝트의 각 차원과 관련된 데이터를 나타낸다. 예를 들어, 변수 오브젝트가 "각 지점”인 경우, 다차원 데이터는 각 지점에 대한 대출 기관의 전체 금액, 전체 대출 금액, 평균 대출 기간, 지점 규모, 지리적 위치 등을 포함할 수 있다.

계산 서브 유닛(920)은 각 변수 오브젝트의 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하도록 구성된다.

분할 유닛(625)는 상기 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할하도록 구성된다.

각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 계산한 이후, 컴퓨터 장치는 상기 변수 오브젝트를 상기 제1 클러스터 중심에 대응하는 클러스터로 분할할 수 있다. 컴퓨터 장치는 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할한다.

다른 실시 예에서, 계산된 거리는 미리 설정된 거리 임계치와 비교될 수 있다. 변수 오브젝트와 특정 제1 클러스터 중심 간의 거리가 거리 임계치보다 작은 경우, 변수 오브젝트는 상기 특정 제1 클러스터 중심에 대응하는 클러스터로 분할된다.

중심 계산 유닛(627)은 변수 오브젝트의 분할 이후 각 클러스터의 제 2 클러스터 중심을 각각 계산하도록 구성된다.

결정 유닛(629)은 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 지 여부를 결정하도록 구성된다. 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 경우(Yes), 각 클러스터는 클러스터링 결과로서 출력된다. 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작지 않은 경우, 제1 클러스터 중심이 제2 클러스터 중심으로 대체되고, 거리 계산부(523)는 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각의 계산하는 것을 계속한다.

컴퓨터 장치는 각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리를 계산하고 상기 거리가 미리 설정된 임계치보다 작은 지 여부를 결정한다. 모든 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작으면 각 클러스터가 안정적이고 더 이상 변경되지 않으려는 경향이 있음을 나타내며, 각 클러스터가 클러스터링 결과로 출력될 수 있다. 클러스터의 제 1 클러스터 중심과 제 2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않으면 각 클러스터의 변수 오브젝트를 다시 분할할 필요가 있다. 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치보다 작지 않은 경우, 제1 클러스터 중심은 클러스터의 제2 클러스터 중심으로 대체되고, 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계가 다시 수행된다. 단계(S404) 내지 단계(S412)는 각 클러스터가 안정화되어 더 이상 변화하지 않을 때까지 반복된다.

결정 모델을 구성하는 상기 장치 내의 각각의 모듈은 소프트웨어, 하드웨어 및 이들의 조합에 의해 전체적으로 또는 부분적으로 구현될 수 있다. 예를 들어, 하드웨어의 구현에서, 클러스터 모듈(620)은 컴퓨터 디바이스의 프로세서에 의해 변수 오브젝트를 클러스터링하고 분석할 수 있다. 상기 프로세서는 중앙 처리 장치(CPU), 마이크로 프로세서, 단일 칩 등일 수 있다. 추출 모듈(610)은 컴퓨터 디바이스의 네트워크 인터페이스에 의해 규칙 템플릿 데이터를 획득할 수 있다. 상기 네트워크 인터페이스는 이더넷 카드 또는 무선 네트워크 카드 등일 수 있다. 전술한 모듈들은 서버의 프로세서 내에 및 하드웨어의 형태로 내장되거나 독립될 수 있거나, 또는 서버의 메모리에 소프트웨어의 형태로 저장될 수 있어, 프로세서가 전술한 다양한 모듈의 대응하는 동작을 호출 및 실행하는 것을 용이하게 한다.

당업자는 상기 실시예에서 방법의 프로세스가 전체 또는 일부가 하부 하드웨어를 지시하는 컴퓨터 프로그램에 의해 구현될 수 있음을 이해해야 하며, 프로그램은 컴퓨터 판독 가능 저장 매체에 저장될 수 있으며, 프로그램 실행될 때 다양한 방법의 실시예에 프로세스를 포함 할 수 있다. 저장 매체는 디스크, CD, ROM (Read-Only Memory) 및 RAM (Random Access Memory) 등이 될 수 있다.

상기 실시예의 다른 기술적 특징은 간결성을 목적으로 기술되지 않은 다양한 조합을 가질 수 있다. 그럼에도 불구하고, 상이한 기술적 특징들의 결합이 서로 충돌하지 않는 한, 그러한 모든 조합은 개시의 범위 내에 있는 것으로 간주되어야 한다.

상기 구현예는 본 발명의 특정 실시예일뿐이며, 본 발명의 보호 범위를 제한하려는 것은 아니다. 본 게시물에 개시된 기술적 범위 내에서 당업자에 의해 용이하게 이해되는 임의의 변형 또는 대체는 모두 본 개시 내용의 보호 범위에 속한다는 것을 알아야 한다. 따라서, 본 개시 내용의 보호 범위는 청구 범위의 보호 범위를 따라야 한다.

610: 추출 모듈
620: 클러스터 모듈
621: 선택 유닛
623: 거리 계산 유닛
625: 분할 유닛
627: 중심 계산 유닛
629: 결정 유닛
630: 제1 특성 모듈
640: 제2 특성 모듈
650: 구성 모듈
652: 구축 유닛
654: 획득 유닛
656: 편력 유닛
658: 순도 계산 유닛
660: 맵핑 모듈
670: 제3 특성 모듈
910: 획득 서브 유닛
920: 계산 서브 유닛

Claims

규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 결정 모델 구성 방법.
삭제
제1 항에 있어서,
상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 상기 결정 모델을 구성하는 단계는,
원래 노드를 구축하는 단계;
각 템플릿 샘플의 결과 유형을 상기 규칙 템플릿 데이터에 따라 획득하는 단계;
판독 기록을 생성하기 위해 상기 제1 특성, 상기 제2 특성 및 상기 제3 특성을 각각 편력하고 판독하는 단계;
상기 각 템플릿 샘플의 결과 유형에 따라 각 판독 기록의 분할 순도를 계산하고, 상기 분할 순도에 따라 분할 포인트를 결정하는 단계; 및
상기 분할 포인트에 대응하는 특성을 획득하고, 새로운 노드를 구축하는 단계를 포함하는 결정 모델 구성 방법.
제1 항에 있어서,
상기 클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계는,
상기 변수 오브젝트로부터 복수의 변수 오브젝트를 하나의 클러스터의 제1 클러스터 중심으로 랜덤하게 선택하는 단계로서, 각 제1 클러스터 중심은 상기 클러스터의 하나와 대응하는, 선택하는 단계;
각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계;
상기 계산 결과에 따라 각 변수 오브젝트를 가장 짧은 거리를 가지는 제1 클러스터 중심에 대응하는 클러스터로 분할하는 단계;
상기 변수 오브젝트의 분할 이후 각 클러스터의 제2 클러스터 중심을 각각 계산하는 단계; 및
각 클러스터의 제1 클러스터 중심과 제2 클러스터 중심 사이의 거리가 미리 설정된 임계치 값보다 작은 지 여부를 결정하는 단계로서, 작은 경우 각 클러스터를 상기 클러스터링 결과로서 출력하고, 작지 않은 경우 상기 제1 클러스터 중심을 상기 제2 클러스터 중심으로 대체하고 각 가변 오브젝트로부터 각 제1 클러스터 중심까지의 상기 거리를 각각 계산하는 것을 계속하는, 결정하는 단계를 포함하는 결정 모델 구성 방법.
제4 항에 있어서,
상기 각 변수 오브젝트로부터 각 제 1 클러스터 중심까지의 거리를 각각 계산하는 단계는,
각 변수 오브젝트의 다차원 데이터를 상기 규칙 템플릿 데이터에 따라 획득하는 단계; 및
각 변수 오브젝트의 상기 다차원 데이터에 따라 각 변수 오브젝트로부터 각 제1 클러스터 중심까지의 거리를 각각 계산하는 단계를 포함하는 결정 모델 구성 방법.
규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하도록 구성되는 추출 모듈;
클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하도록 구성되는 클러스터 모듈;
상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하도록 구성된 제1 특성 모듈;
블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하도록 구성된 제2 특성 모듈;
각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하도록 구성되는 맵핑 모듈;
상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하도록 구성된 제3 특성 모듈; 및
상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하도록 구성된 구성 모듈을 포함하는 결정 모델 구성 장치.
컴퓨터 실행 가능 명령들을 저장하는 메모리 및 상기 컴퓨터 실행 가능 명령들을 실행함으로써 단계들을 수행하는 프로세서를 포함하는 컴퓨터 장치로서, 상기 단계들은:
규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 컴퓨터 장치.
삭제
컴퓨터 판독 가능 명령을 저장하는 적어도 하나의 저장 매체로서, 상기 컴퓨터 판독 가능 명령은 적어도 하나의 프로세서에 의해 실행될 때, 상기 적어도 하나의 프로세서가 단계들을 수행하도록 하며, 상기 단계들은:
규칙 템플릿 데이터를 획득하고, 상기 규칙 템플릿 데이터로부터 각 변수 오브젝트 및 템플릿 샘플을 추출하는 단계;
클러스터링 결과를 획득하기 위해 상기 변수 오브젝트를 클러스터하고 분석하는 단계;
상기 규칙 템플릿 데이터에 따라 상기 클러스터링 결과를 각 템플릿 샘플과 매치하고, 상기 매치된 클러스터링 결과를 제1 특성으로 제공하는 단계;
블랙 샘플 확률을 각 변수 오브젝트에 대해 계산하고 각 변수 오브젝트의 상기 블랙 샘플 확률을 제2 특성으로 제공하는 단계;
각 변수 오브젝트를 미리 설정된 알고리즘에 따라 미리 정의된 레이블에 매핑하는 단계;
상기 레이블을 상기 규칙 템플릿 데이터에 따라 각 템플릿 샘플과 매치하고, 상기 매치된 레이블을 제3 특성으로 제공하는 단계; 및
상기 제1 특성, 상기 제2 특성 및 상기 제3 특성에 따라 결정 모델을 구성하는 단계를 포함하는 저장 매체.
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제
삭제