KR20190022431A - 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체 - Google Patents

랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체 Download PDF

Info

Publication number
KR20190022431A
KR20190022431A KR1020187017282A KR20187017282A KR20190022431A KR 20190022431 A KR20190022431 A KR 20190022431A KR 1020187017282 A KR1020187017282 A KR 1020187017282A KR 20187017282 A KR20187017282 A KR 20187017282A KR 20190022431 A KR20190022431 A KR 20190022431A
Authority
KR
South Korea
Prior art keywords
training
model
random forest
reconstruction
forest model
Prior art date
Application number
KR1020187017282A
Other languages
English (en)
Other versions
KR102201919B1 (ko
Inventor
거 진
량 쉬
징 시야오
Original Assignee
핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 핑안 테크놀로지 (션젼) 컴퍼니 리미티드 filed Critical 핑안 테크놀로지 (션젼) 컴퍼니 리미티드
Publication of KR20190022431A publication Critical patent/KR20190022431A/ko
Application granted granted Critical
Publication of KR102201919B1 publication Critical patent/KR102201919B1/ko

Links

Images

Classifications

    • G06N5/003
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q30/00Commerce
    • G06Q30/02Marketing; Price estimation or determination; Fundraising
    • G06Q30/0241Advertisements
    • G06Q30/0251Targeted advertisements
    • G06Q30/0269Targeted advertisements based on user profile or attribute
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • G06K9/6282
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/01Dynamic search techniques; Heuristics; Dynamic trees; Branch-and-bound
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/10Office automation; Time management
    • G06Q10/103Workflow collaboration or project management

Abstract

본 발명은 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체에 관한 것으로, 상기 랜덤 포레스트 모델의 훈련 방법은 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석하는 단계와, 모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 단계와, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 하는 단계와, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계를 포함한다. 본 발명은 랜덤 포레스트 모델의 훈련 횟수를 줄이고 시스템의 부담을 감소시키고 시스템의 효능을 향상시킬 수 있다.

Description

랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체
본 발명은 기계 학습 기술 분야에 관한 것으로, 특히 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체에 관한 것이다.
기계 학습에 있어서, 랜덤 포레스트는 여러 개의 트리들을 이용하여 샘플 데이터에 대해 훈련하여 예측하기 위한 분류기로서, 다수의 결정 트리를 포함하는 분류기이고, 결정 트리는 일련의 규칙을 통해 데이터에 대해 분류하는 과정이다. 현재, 점점 더 많은 온라인 서비스(예를 들어, 원격 보험, 원격 보험 처리, 온라인 금융 등 서비스)를 제공하는 기업은 서비스 시스템에서 랜덤 포레스트를 이용하여 사용자에 대해 분류 라벨을 식별하여 식별한 결과에 따라 사용자에 대해 정확히 서비스 추천 및 처리를 한다.
그렇지만, 새로운 데이터가 샘플 데이터로 되어 반복 훈련을 하여 모델 식별의 정확도를 향상시킬 때, 기존의 기술 방안은 구 샘플 데이터 및 새로운 데이터 샘플을 같이 이용하여 다시 랜덤 포레스트 모델에 대해 재구성 훈련을 하며, 재구성 훈련은 랜덤 포레스트 모델의 결정 트리 구조를 변환하여야 할 훈련이다. 이런 훈련 방안은 일반적으로 새로운 데이터가 생기면 한번의 재구성 훈련을 하고, 훈련 횟수가 많고, 특히 온라인 서비스의 데이터가 빈번하게 변동할 경우, 훈련이 지나치게 빈번하면 시스템의 부담이 많아져서 온라인 서비스 시스템의 효능 및 온라인 서비스의 효과적인 발전에 영향을 미친다.
본 발명의 목적은 랜덤 포레스트 모델의 훈련 횟수를 줄이고 시스템의 부담을 감소시키고 시스템의 효능을 향상시키기 위해, 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체를 제공하고자 한다.
본 발명의 첫 번째 방면에 있어서, 랜덤 포레스트 모델의 훈련 방법을 제공하고 상기 랜덤 포레스트 모델의 훈련 방법은 하기와 같은 단계를 포함한다.
(S1), 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석한다.
(S2), 모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정한다.
(S3), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 한다.
(S4), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 발명의 두 번째 방면에 있어서, 프로세서, 저장 장치 및 모듈 훈련 제어 시스템을 포함하는 전자장치를 제공하고 이 모듈 훈련 제어 시스템은 이 저장 장치에 저장되고 적어도 하나의 컴퓨터 판독 가능한 명령을 포함하며, 이 적어도 하나의 컴퓨터 판독 가능한 명령은 프로세서에 의해 실행되어 하기와 같은 동작을 실현한다.
(S1), 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석한다.
(S2), 모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정한다.
(S3), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 한다.
(S4), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 발명의 세 번째 방면에 있어서, 컴퓨터 판독 가능한 저장매체를 제공하고, 이는 프로세서에 의해 실행된 적어도 하나의 컴퓨터 판독 가능한 명령를 저장하여 하기와 같은 동작을 실현한다.
(S1), 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석한다.
(S2), 모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정한다.
(S3), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 한다.
(S4), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 발명은 랜덤 포레스트 모델을 이용하여 온라인 서비스의 사용자를 분류할 때, 랜덤 포레스트 모델의 훈련 조건을 설정하거나 한정할 수 있으며, 온라인 서비스의 발전에 영향을 미치지 않으면서 랜덤 포레스트 모델의 훈련 횟수를 줄여 훈련 모델의 유형을 진일보 선택하며, 즉, 모델 훈련 조건을 충족할 때 현재에 랜덤 포레스트 모델에 대해 재구성 훈련하는지 수정 훈련을 하는지를 진일보 결정하며, 랜덤 포레스트 모델에 대해 선택적인 훈련을 함으로써 시스템의 부담을 감소시키고 온라인 서비스 시스템의 효능을 향상시키고 온라인 서비스의 효과적인 발전에 유리하다.
도1은 본 발명에 따른 랜덤 포레스트 모델의 훈련 방법의 바람직한 실시예의 어플리케이션 환경을 나타낸 도면이다.
도2는 본 발명에 따른 랜덤 포레스트 모델의 훈련 방법의 바람직한 실시예의 흐름도이다.
도3은 도2에 도시된 단계(S4)의 세부 흐름도이다.
도4는 본 발명에 따른 모델의 훈련 제어 시스템의 바람직한 실시예의 구조를 나타낸 도면이다.
도5는 도4에 도시된 제2 훈련모듈의 구조를 나타낸 도면이다.
이하, 도면을 참조하여 본 발명의 원리 및 특징에 대해 설명하기로 하며, 예시적인 실시예는 본 발명을 설명하기 위한 것일 뿐 본 발명을 한정하기 위한 것이 아니다.
도1에 도시된 바와 같이, 도1은 본 발명에 따른 랜덤 포레스트 모델의 훈련 방법의 바람직한 실시예의 어플리케이션 환경을 나타낸 도면이다. 이 어플리케이션 환경의 도면은 전자장치(1)와 단말장치(2)를 포함한다. 전자장치(1)는 네트워크, 근거리 무선 통신 기술 등 적절한 기술을 통해 단말장치(2)와 데이터를 교환한다.
상기 단말장치(2)는 키보드, 마우스, 리모컨, 터치패드 또는 음성제어장치 등 방식으로 사용자와 인간-컴퓨터 상호작용을 할 수 있는 어느 한 가지의 전자제품을 포함하나 이에 한정되지 않으며, 예를 들어, 퍼스널 컴퓨터, 태블릿 PC, 스마트폰, 개인 휴대 정보 단말기(Personal Digital Assistant,PDA), 게임기, 인터넷 프로토콜 텔레비전(Internet Protocol Television, IPTV), 스마트 착용형 디바이스 등과 같다.
전자장치(1)는 미리 설정되거나 저장된 명령에 따라 자동적으로 수치계산 및/또는 정보처리를 할 수 있는 장치이다. 전자장치(1)는 컴퓨터일 수도 있고 단일 네트워크 서버, 다수 개의 네트워크 서버로 구성된 서버그룹, 또는 클라우드 컴퓨팅에 기초한 대량의 호스트 또는 네트워크 서버로 구선된 클라우드일 수도 있고, 그 중 클라우드 컴퓨팅은 분산 컴퓨팅의 일종으로서 느슨하게 결합된 일군의 컴퓨터 세트로 구성된 1개의 수퍼 가상 컴퓨터이다.
본 실시예에 있어서, 전자장치(1)는 버스 시스템에 의해 서로 통신 연결된 저장 장치(11), 프로세서(12), 네트워크 인터페이스(13)를 포함할 수 있으나 이들에 한정되지 않는다. 도1에는 모듈(11-13)을 가지는 전자장치(1)만 도시하나 모든 도시된 모듈을 실시하는 것을 요구하지 않고 더 많거나 적은 모듈로 대체하여 실시할 수 있다는 것을 이해하여야 한다.
그 중, 저장장치(11)는 메모리 및 적어도 한 종류의 판독 가능한 저장매체를 포함한다. 메모리는 전자장치(1)의 동작을 위한 캐시를 제공하며, 판독 가능한 저장매체는 플래시 메모리, 하드 디스크, 멀티미디어 카드, 카드 타입 메모리(예를 들어, SD 또는 DX 메모리 등) 등과 같은 비휘발성 저장매체일 수 있다. 일부 실시예에 있어서, 판독 가능한 저장매체는 전자장치(1)의 내부 저장 유닛일 수 있고, 예를 들어, 이 전자장치(1)의 하드 디스크일 수 있으며, 다른 일부 실시예에 있어서, 이 비휘발성 저장매체는 전자장치(1)의 외부 저장 유닛일 수도 있고, 예를 들어, 전자장치(1)에 설치된 플러그인형 하드디스크, 스마트 미디어 카드(Smart Media Card, SMC), 시큐어 디지털(Secure Digital, SD) 카드, 플래시 카드(Flash Card)등과 같다. 본 실시예에 있어서, 저장장치(11)의 판독 가능한 저장매체는 통상적으로 전자장치(1)에 설치된 운영체제와 응용 소프트웨어를 저장하며, 예를 들어, 본 발명의 일 바람직한 실시예에 따른 모델 훈련 제어 시스템(10)의 프로그램 코드 등과 같다. 또한, 저장장치(11)는 이미 출력되거나 출력할 각 종류의 데이터를 일시적으로 저장할 수 있다.
일부 실시예에 있어서, 상기 프로세서(12)는 1개 또는 다수 개의 마이크로프로세서, 마이크로컨트롤러, 또는 디지털 프로세서 등을 포함할 수 있다. 이 프로세서(12)는 통상적으로 상기 전자장치(1)의 전체적인 동작을 제어하며, 예를 들어, 단말장치(2)와의 데이터 교환이나 통신과 관련된 제어 및 처리 등을 실행한다. 본 실시예에 있어서, 상기 프로세서(12)는 상기 저장장치(11)에 저장된 프로그램 코드 또는 처리 데이터를 실행하고, 예를 들어, 모델 훈련 제어 시스템(10) 등을 실행한다.
네트워크 인터페이스(13)는 무선 네트워크 인터페이스 또는 유선 네트워크 인터페이스를 포함할 수 있고, 이 네트워크 인터페이스(13)는 통상적으로 상기 전자장치(1)와 다른 전자 장비 사이에서 통신 연결을 구축한다. 본 실시예에 있어서, 네트워크 인터페이스(13)는 주로 전자장치(1)와 1개 또는 다수 개의 단말장치(2)를 연결하며, 전자장치(1)와 1개 또는 다수 개의 단말장치(2) 사이에서 데이터 전송로와 통신연결을 구축한다.
모델 훈련 제어 시스템(10)은 적어도 1개의 저장장치(11)에 저장된 컴퓨터 판독 가능한 명령을 포함하고, 이 적어도 1개의 컴퓨터 판독 가능한 명령은 프로세서(12)에 의해 실행될 수 있어 본 발명의 각 실시예의 랜덤 포레스트 모델의 훈련 방법을 실현하도록 한다. 후속과 같이, 이 적어도 1개의 컴퓨터 판독 가능한 명령은 그의 각 부분이 설현할 기능에 따라 서로 다른 로직 모듈로 분할될 수 있다.
일 실시예에 있어서, 모델 훈련 제어 시스템(10)은 프로세서(12)에 의해 실행될 때, 하기와 같은 동작을 실현한다. 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석하고, 모델 훈련의 조건을 충족하면 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하며, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 하며, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
도2에 도시된 바와 같이, 도2는 본 발명에 따른 랜덤 포레스트 모델의 훈련 방법의 바람직한 실시예의 흐름도이며, 본 실시예에 따른 랜덤 포레스트 모델의 훈련 방법은 흐름에 도시된 단계에 한정되지 않으며, 또한, 흐름도에 도시된 단계는 일부 단계가 생략될 수 있고 단계의 순서가 변경될 수 있다. 이 랜덤 포레스트 모델의 훈련 방법은 하기와 같은 단계를 포함한다.
단계(S1), 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석한다.
모델 훈련은 재구성 훈련과 수정 훈련을 포함한다. 모델 훈련의 조건은 모델 훈련 제어 시스템에서 설정되고, 수동으로 자유스롭게 설정하거나 모델 훈련 제어 시스템의 미리 설정된 묵시조건을 채용할 수 있다.
그 중, 온라인 서비스에 대하여, 모델 훈련의 조건은 사용자 서비스 데이터를 판단 기준(예를 들어, 사용자 서비스 데이터가 일정 수량에 도달할 때 모델훈련을 한다)으로 하거나, 실제 수요를 기준(예를 들어, 모델 훈련 제어 시스템의 작업자가 실제 수요에 따라 모델 훈련 제어 시스템에 모델 훈련을 수행하는 명령을 송신하여 모델 훈련을 하도록 한다)으로 하거나, 타이머에 의해 타이밍을 설정하여, 한번의 모델 훈련이 종료된 후 미리 설정된 시간 마다 랜덤 포레스트 모델에 대해 모델 훈련 등을 한다.
바람직하게는 모델 훈련의 조건의 만족 여부를 분석하는 것은 하기와 같다.
서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량(예를 들어, 제1수량은 200개의 사용자의 서비스 데이터의 수량이다)을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족 (재구성 훈련 또는 수정 훈련을 할 수 있다) 하고 제1수량이 미리 설정된 제1 한계값보다 작거나 같으면, 모델 훈련의 조건을 충족(재구성 훈련 및 수정 훈련을 하지 않는다) 하지 않는다.
실시간 또는 정해진 시간(예를 들어, 10분마다)으로 모델 훈련 명령의 수신 여부를 검출하며, 예를 들어, 모델 훈련 제어 시스템의 작업자가 시스템에 로그인하여 모델 훈련의 조작 인터페이스에 진입한 후 모델 훈련의 조작 인터페이스 상의 '모델 훈련' 버튼을 클릭하거나 촉발함으로써 모델 훈련 명령을 송신하며, 모델 훈련 제어 시스템이 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하고(재구성 훈련 또는 수정 훈련을 할 수 있다) 모델 훈련 명령을 수신하지 않으면, 모델 훈련의 조건을 충족하지 않는다(재구성 훈련 또는 수정 훈련을 하지 않는다).
단계(S2),모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정한다.
모델 훈련의 조건을 충족하면 랜덤 포레스트 모델에 대해 재구성 훈련하는지 수정 훈련을 하는지를 진일보 결정한다. 그 중, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 것은 두번의 재구성 훈련 사이에서의 사용자 데이터의 수량을 기준(예를 들어, 두번의 재구성 훈련 사이에서의 사용자 데이터의 수량이 일정 수량보다 크면 재구성 훈련을 한다)으로 하거나 실제 수요를 기준(예를 들어, 모델 훈련 제어 시스템의 작업자가 실제 수요에 따라 모델 훈련 제어 시스템에 모델 훈련을 수행하는 명령을 송신하여 모델 훈련을 하도록 한다)으로 하여 대기한다.
바람직하게는 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 것은 하기와 같다.
서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량(예를 들어, 제2수량은 500개의 사용자의 서비스 데이터의 수량이다)을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며, 제2수량이 미리 설정된 제1 한계값보다 크고 제2 한계값보다 작으면, 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
미리 결정된 단말기(예를 들어, 핸드폰, 태블릿 PC, 컴퓨터 등 적용되는 전자 단말기)에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요의 여부 문의 청구를 송신하며, 예를 들어, 모델 훈련의 조작 인터페이스에 진입하여 조작 인터페이스 상의 '모델 훈련' 명령을 송신한 후 모델 훈련 제어 시스템은 진일보 미리 결정된 단말기에 재구성 진행 여부를 문의하는 정보를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하고 단말기의 문의 청구 피드백에 기초한 부인 명령을 수신하거나 미리 설정된 시간 안(예를 들어, 3분)에 단말기의 피드백을 수신하지 않으면 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
단계(S3), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 한다.
단계(S4), 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 실시예에 있어서, 샘플 데이터는 구 샘플 데이터 및 새로운 샘플 데이터를 포함한다. 재구성 훈련은 랜덤 포레스트 모델의 변량의 결정적 훈련과 변량 계수의 결정적 훈련을 포함하고 수정 훈련은 랜덤 포레스트 모델의 변량 계수의 결정적 훈련만 포함한다. 그 중, 랜덤 포레스트 모델의 변량은 예를 들어, 알고리즘 유형, 결정 트리의 수량, 결정 트리의 최대 깊이 및 결정 트리의 리프 노드의 각종 데이터 등을 포함한다. 재구성 훈련에 사용된 시스템 리소스는 수정 훈련에 사용된 시스템 리소스보다 많다.
기존의 기술과 비교해보면 본 실시예는 랜덤 포레스트 모델을 이용하여 온라인 서비스의 사용자를 분류할 때, 랜덤 포레스트 모델의 훈련 조건을 설정하거나 한정할 수 있으며, 온라인 서비스의 발전에 영향을 미치지 않으면서 랜덤 포레스트 모델의 훈련 횟수를 줄여 훈련 모델의 유형을 진일보 선택하며, 즉, 모델 훈련 조건을 충족할 때 현재에 랜덤 포레스트 모델에 대해 재구성 훈련하는지 수정 훈련을 하는지를 진일보 결정하며, 랜덤 포레스트 모델에 대해 선택적인 훈련을 함으로써 시스템의 부담을 감소시키고 온라인 서비스 시스템의 효능을 향상시키고 온라인 서비스의 효과적인 발전에 유리하다.
일 바람직한 실시예에 있어서, 도3에 도시된 바와 같이, 상기 도2의 실시예에 기초하여 상기 단계(S4)는 하기와 같은 단계를 포함한다.
(S41), 미리 결정된 랜덤 포레스트 모델의 변량과 변량 계수 값 범위의 맵핑 관계에 따라 각 상기 변량과 대응되는 변량 계수 값 범위를 결정한다.
(S42), 각 상기 변량에 대하여 대응된 변량 계수 값 범위에서 변량 계수 값을 구하고 값을 구한 후의 변량 계수에 따라 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 실시예에 있어서, 랜덤 포레스트 모델의 변량과 변량 계수 값 범위에 대하여 미리 관련 맵핑을 구축하며 이 관련 맵핑 관계를 저장(예를 들어, 테이블의 형식으로 저장한다)한다. 랜덤 포레스트 모델을 훈련하기 전에 랜덤 포레스트 모델의 변량을 결정한후 상기 저장된 관련 맵핑 관계를 획득하여 대응되는 변량 계수 값 범위를 진일보 확득하고 이 변량의 변량 계수는 구한 값 범위 안에 구하여 모델 훈련의 정확성을 확보하면서 모델 훈련의 속도를 효과적으로 향상시키고 랜덤 포레스트 모델의 각 변량의 계수는 전부 값 범위 안에서 값을 구하여 훈련하는 것을 방지한다.
도4를 참조하여, 도4는 본 발명에 따른 모델 훈련 제어 시스템(10)의 바람직한 실시예의 구조를 나타낸 도면이다. 본 실시예에 있어서, 모델 훈련 제어 시스템(10)은 하나 또는 다수의 모듈로 분할될 수 있고, 하나 또는 다수의 모듈은 메모리에 저장되며 하나 또는 다수의 프로세서에 의해 실행되어 본 발명을 구현하도록 한다. 예를 들어, 도4에서는 모델 훈련 제어 시스템(10)은 검출모률(21), 식별모듈(22), 복제모듈(23), 설치모듈(24) 및 시동모듈(25)로 분할될 수 있다. 본 발명에서 언급한 모듈은 특정 기능을 수행할 수 있는 일련의 컴퓨터 프로그램 명령 세그먼트를 뜻하고, 모델 훈련 제어 시스템(10)이 저장장치에서의 실행과정을 설명하는 것을 프로그램보다 더 적절한다. 그 중,
분석모듈(101)은 모듈 훈련의 조건의 충족 여부를 분석한다.
모델 훈련은 재구성 훈련과 수정 훈련을 포함한다. 모델 훈련의 조건은 모델 훈련 제어 시스템(10)에서 설정되고, 수동으로 자유스롭게 설정하거나 모델 훈련 제어 시스템의 미리 설정된 묵시조건을 채용할 수 있다.
그 중, 온라인 서비스에 대하여, 모델 훈련의 조건은 사용자 서비스 데이터를 판단 기준(예를 들어, 사용자 서비스 데이터가 일정 수량에 도달할 때 모델훈련을 한다)으로 하거나, 실제 수요를 기준(예를 들어, 모델 훈련 제어 시스템의 작업자가 실제 수요에 따라 모델 훈련 제어 시스템에 모델 훈련을 수행하는 명령을 송신하여 모델 훈련을 하도록 한다)으로 하거나, 타이머에 의해 타이밍을 설정하여, 한번의 모델 훈련이 종료된 후 미리 설정된 시간 마다 랜덤 포레스트 모델에 대해 모델 훈련 등을 한다.
바람직하게는 분석모듈(10)은 서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량(예를 들어, 제1수량은 200개의 사용자의 서비스 데이터의 수량이다)을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족 (재구성 훈련 또는 수정 훈련을 할 수 있다) 하고 제1수량이 미리 설정된 제1 한계값보다 작거나 같으면, 모델 훈련의 조건을 충족(재구성 훈련 및 수정 훈련을 하지 않는다) 하지 않는다.
실시간 또는 정해진 시간(예를 들어, 10분마다)으로 모델 훈련 명령의 수신 여부를 검출하며, 예를 들어, 모델 훈련 제어 시스템의 작업자가 시스템에 로그인하여 모델 훈련의 조작 인터페이스에 진입한 후 모델 훈련의 조작 인터페이스 상의 '모델 훈련' 버튼을 클릭하거나 촉발함으로써 모델 훈련 명령을 송신하며, 모델 훈련 제어 시스템이 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하고(재구성 훈련 또는 수정 훈련을 할 수 있다) 모델 훈련 명령을 수신하지 않으면, 모델 훈련의 조건을 충족하지 않는다(재구성 훈련 또는 수정 훈련을 하지 않는다).
결정모듈(102)은 모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정한다.
모델 훈련의 조건을 충족하면 랜덤 포레스트 모델에 대해 재구성 훈련하는지 수정 훈련을 하는지를 진일보 결정한다. 그 중, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 것은 두번의 재구성 훈련 사이에서의 사용자 데이터의 수량을 기준(예를 들어, 두번의 재구성 훈련 사이에서의 사용자 데이터의 수량이 일정 수량보다 크면 재구성 훈련을 한다)으로 하거나 실제 수요를 기준(예를 들어, 모델 훈련 제어 시스템의 작업자가 실제 수요에 따라 모델 훈련 제어 시스템에 모델 훈련을 수행하는 명령을 송신하여 모델 훈련을 하도록 한다)으로 하여 대기한다.
바람직하게는 결정모듈(102)은 구체적으로 서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량(예를 들어, 제2수량은 500개의 사용자의 서비스 데이터의 수량이다)을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며, 제2수량이 미리 설정된 제1 한계값보다 크고 제2 한계값보다 작으면, 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
미리 결정된 단말기(예를 들어, 핸드폰, 태블릿 PC, 컴퓨터 등 적용되는 전자 단말기)에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 예를 들어, 모델 훈련의 조작 인터페이스에 진입하여 조작 인터페이스 상의 '모델 훈련' 명령을 송신한 후 모델 훈련 제어 시스템은 진일보 미리 결정된 단말기에 재구성 훈련 여부를 문의하는 정보를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하고 단말기의 문의 청구 피드백에 기초한 부인 명령을 수신하거나 미리 설정된 시간 안(예를 들어, 3분)에 단말기의 피드백을 수신하지 않으면 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
제1 훈련모듈(103)은 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 한다.
제1 훈련모듈(104)은 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 실시예에 있어서, 샘플 데이터는 구 샘플 데이터 및 새로운 데이터 샘플을 포함한다. 재구성 훈련은 랜덤 포레스트 모델의 변량의 결정적 훈련과 변량 계수의 결정적 훈련을 포함하고 수정 훈련은 랜덤 포레스트 모델의 변량 계수의 결정적 훈련만 포함한다. 그 중, 랜덤 포레스트 모델의 변량은 예를 들어, 알고리즘 유형, 결정 트리의 수량, 결정 트리의 최대 깊이 및 결정 트리의 리프 노드의 각종 데이터 등을 포함한다. 재구성 훈련에 사용된 시스템 리소스는 수정 훈련에 사용된 시스템 리소스보다 많다.
기존의 기술과 비교해보면 본 실시예는 랜덤 포레스트 모델을 이용하여 온라인 서비스의 사용자를 분류할 때, 랜덤 포레스트 모델의 훈련 조건을 설정하거나 한정할 수 있으며, 온라인 서비스의 발전에 영향을 미치지 않으면서 랜덤 포레스트 모델의 훈련 횟수를 줄여 훈련 모델의 유형을 진일보 선택하며, 즉, 모델 훈련 조건을 충족할 때 현재에 랜덤 포레스트 모델에 대해 재구성 훈련하는지 수정 훈련을 하는지를 진일보 결정하며, 랜덤 포레스트 모델에 대해 선택적인 훈련을 함으로써 시스템의 부담을 감소시키고 온라인 서비스 시스템의 효능을 향상시키고 온라인 서비스의 효과적인 발전에 유리한다.
일 바람직한 실시예에 있어서, 도5에 도시된 바와 같이, 상기 도4의 실시예에 기초하여 상기 제2 훈련모듈(104)은 하기와 같은 모듈을 포함한다.
결정유닛(1041)은 미리 결정된 랜덤 포레스트 모델의 변량과 변량 계수 값 범위의 맵핑 관계에 따라 각 상기 변량과 대응되는 변량 계수 값 범위를 결정한다.
훈련유닛(1042)은 각 상기 변량에 대하여 대응된 변량 계수 값 범위에서 변량 계수 값을 구하고 값을 구한 후의 변량 계수에 따라 상기 랜덤 포레스트 모델에 대해 수정 훈련을 한다.
본 실시예에 있어서, 랜덤 포레스트 모델의 변량과 변량 계수 값 범위에 대하여 미리 관련 맵핑을 구축하며 이 관련 맵핑 관계를 저장(예를 들어, 테이블의 형식으로 저장한다)한다. 랜덤 포레스트 모델을 훈련하기 전에 랜덤 포레스트 모델의 변량을 결정한후 상기 저장된 관련 맵핑 관계를 획득하여 대응되는 변량 계수 값 범위를 진일보 확득하고 이 변량의 변량 계수는 구한 값 범위 안에 구하여 모델 훈련의 정확성을 확보하면서 모델 훈련의 속도를 효과적으로 향상시키고 랜덤 포레스트 모델의 각 변량의 계수는 전부 값 범위 안에서 값을 구하여 훈련하는 것을 방지한다.
이상 실시예는 본 발명의 바람직한 실시예로서 본 발명을 한정하기 위한 것이 아니며 본 발명의 정신과 원칙 범위 안에서 임의적인 수정, 균등물, 개진 등은 모두 본 발명의 보호 범위안에 포함된다.

Claims (20)

  1. 모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석하는 단계(S1)와,
    모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 단계(S2)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 하는 단계(S3)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S4)를 포함하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  2. 제1항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  3. 제1항에 있어서,
    상기 단계(S2)는,
    서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며,
    미리 결정된 단말기에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  4. 제1항에 있어서,
    상기 재구성 훈련은 상기 랜덤 포레스트 모델의 변량의 결정적 훈련과 변량 계수의 결정적 훈련을 포함하고 상기 수정 훈련은 상기 랜덤 포레스트 모델의 변량 계수의 결정적 훈련을 포함하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  5. 제4항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  6. 제4항에 있어서,
    상기 단계(S2)는,
    서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며,
    미리 결정된 단말기에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  7. 제4항에 있어서,
    상기 단계(S4)는,
    미리 결정된 랜덤 포레스트 모델의 변량과 변량 계수 값 범위의 맵핑 관계에 따라 각 상기 변량과 대응되는 변량 계수 값 범위를 결정하는 단계(S41)와,
    각 상기 변량에 대하여 대응된 변량 계수 값 범위에서 변량 계수 값을 구하고 값을 구한 후의 변량 계수에 따라 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S42)를 포함하는 것을 특징으로 하는 랜덤 포레스트 모델의 훈련 방법.
  8. 프로세서, 저장 장치 및 모듈 훈련 제어 시스템을 포함하고, 이 모듈 훈련 제어 시스템은 이 저장 장치에 저장되고 적어도 하나의 컴퓨터 판독 가능한 명령을 포함하며, 이 적어도 하나의 컴퓨터 판독 가능한 명령은 프로세서에 의해 실행되어,
    모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석하는 단계(S1)와,
    모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 단계(S2)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 하는 단계(S3)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S4)를 실현하는 것을 특징으로 하는 전자장치.
  9. 제8항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 전자장치.
  10. 제8항에 있어서,
    상기 단계(S2)는,
    서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며,
    미리 결정된 단말기에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하는 것을 특징으로 하는 전자장치.
  11. 제8항에 있어서,
    상기 재구성 훈련은 상기 랜덤 포레스트 모델의 변량의 결정적 훈련과 변량 계수의 결정적 훈련을 포함하고 상기 수정 훈련은 상기 랜덤 포레스트 모델의 변량 계수의 결정적 훈련을 포함하는 것을 특징으로 하는 전자장치.
  12. 제11항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 전자장치.
  13. 제11항에 있어서,
    상기 단계(S2)는,
    서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며,
    미리 결정된 단말기에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하는 것을 특징으로 하는 전자장치.
  14. 제11항에 있어서,
    상기 단계(S4)는,
    미리 결정된 랜덤 포레스트 모델의 변량과 변량 계수 값 범위의 맵핑 관계에 따라 각 상기 변량과 대응되는 변량 계수 값 범위를 결정하는 단계(S41)와,
    각 상기 변량에 대하여 대응된 변량 계수 값 범위에서 변량 계수 값을 구하고 값을 구한 후의 변량 계수에 따라 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S42)를 포함하는 것을 특징으로 하는 전자장치.
  15. 프로세서에 의해 실행된 적어도 하나의 컴퓨터 판독 가능한 명령을 저장하여,
    모델 훈련 제어 시스템이 모델 훈련의 조건의 충족 여부를 분석하는 단계(S1)와,
    모델 훈련의 조건을 충족하면, 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부를 결정하는 단계(S2)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 하는 단계(S3)와,
    상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 없으면 샘플 데이터를 이용하여 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S4)를 실현하는 것을 특징으로 하는 저장매체.
  16. 제15항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 저장매체.
  17. 제15항에 있어서,
    상기 단계(S2)는,
    서비스 시스템에서 지난 번의 재구성 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제2수량을 획득하고, 상기 제2수량이 미리 설정된 제2 한계값보다 크면, 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하며,
    미리 결정된 단말기에 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요 여부의 문의 청구를 송신하며, 단말기의 문의 청구 피드백에 기초한 확인 명령을 수신하면 상기 랜덤 포레스트 모델에 대해 재구성 훈련을 할 필요가 있다고 결정하는 것을 특징으로 하는 저장매체.
  18. 제15항에 있어서,
    상기 재구성 훈련은 상기 랜덤 포레스트 모델의 변량의 결정적 훈련과 변량 계수의 결정적 훈련을 포함하고 상기 수정 훈련은 상기 랜덤 포레스트 모델의 변량 계수의 결정적 훈련을 포함하는 것을 특징으로 하는 저장매체.
  19. 제18항에 있어서,
    상기 단계(S1)는,
    서비스 시스템에서 지난 번의 모델 훈련 종료의 시각으로부터 현재 시각까지의 시간대 내의 새로운 사용자 서비스 데이터의 제1수량을 획득하고, 상기 제1수량이 미리 설정된 제1 한계값보다 크면, 모델 훈련의 조건을 충족하고,
    실시간 또는 정해진 시간으로 모델 훈련 명령의 수신 여부를 검출하며, 모델 훈련 명령을 수신하면, 모델 훈련의 조건을 충족하는 것을 특징으로 하는 저장매체.
  20. 제18항에 있어서,
    상기 단계(S4)는,
    미리 결정된 랜덤 포레스트 모델의 변량과 변량 계수 값 범위의 맵핑 관계에 따라 각 상기 변량과 대응되는 변량 계수 값 범위를 결정하는 단계(S41)와,
    각 상기 변량에 대하여 대응된 변량 계수 값 범위에서 변량 계수 값을 구하고 값을 구한 후의 변량 계수에 따라 상기 랜덤 포레스트 모델에 대해 수정 훈련을 하는 단계(S42)를 포함하는 것을 특징으로 하는 저장매체.
KR1020187017282A 2017-03-13 2017-06-30 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체 KR102201919B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710147698.3 2017-03-13
CN201710147698.3A CN107632995B (zh) 2017-03-13 2017-03-13 随机森林模型训练的方法及模型训练控制系统
PCT/CN2017/091362 WO2018166113A1 (zh) 2017-03-13 2017-06-30 随机森林模型训练的方法、电子装置及存储介质

Publications (2)

Publication Number Publication Date
KR20190022431A true KR20190022431A (ko) 2019-03-06
KR102201919B1 KR102201919B1 (ko) 2021-01-12

Family

ID=61099137

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187017282A KR102201919B1 (ko) 2017-03-13 2017-06-30 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체

Country Status (8)

Country Link
US (1) US20210081847A1 (ko)
EP (1) EP3413212A4 (ko)
JP (1) JP6587330B2 (ko)
KR (1) KR102201919B1 (ko)
CN (1) CN107632995B (ko)
AU (1) AU2017404119A1 (ko)
SG (1) SG11201809890PA (ko)
WO (1) WO2018166113A1 (ko)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102092684B1 (ko) * 2020-01-23 2020-03-24 주식회사 두두아이티 랜덤 포레스트 기법을 이용한 사이버 보안 훈련 장치 및 방법
KR20200125890A (ko) * 2019-04-26 2020-11-05 에버 포춘.에이아이 컴퍼니 리미티드 감시 하에서 인공신경망 훈련 모델을 제공하는 클라우드 기반 거래 시스템 및 그 방법
KR102223161B1 (ko) * 2019-10-11 2021-03-03 노주현 기상데이터에 기초한 시기성상품 예측 시스템 및 방법
KR20210050362A (ko) 2019-10-28 2021-05-07 주식회사 모비스 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치

Families Citing this family (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109377388B (zh) * 2018-09-13 2023-08-18 深圳平安医疗健康科技服务有限公司 医保投保方法、装置、计算机设备和存储介质
US11625640B2 (en) * 2018-10-05 2023-04-11 Cisco Technology, Inc. Distributed random forest training with a predictor trained to balance tasks
CN109886544A (zh) * 2019-01-17 2019-06-14 新奥数能科技有限公司 构建设备能效曲线模型的方法、装置、介质及电子设备
CN110175677A (zh) * 2019-04-16 2019-08-27 平安普惠企业管理有限公司 自动更新方法、装置、计算机设备及存储介质
CN110070128A (zh) * 2019-04-22 2019-07-30 深圳市绘云生物科技有限公司 一种基于随机森林模型的慢性肝病风险评估系统
CN110232154B (zh) * 2019-05-30 2023-06-09 平安科技(深圳)有限公司 基于随机森林的产品推荐方法、装置及介质
CN111091408A (zh) * 2019-10-30 2020-05-01 北京天元创新科技有限公司 用户识别模型创建方法、装置与识别方法、装置
CN111767958A (zh) * 2020-07-01 2020-10-13 武汉楚精灵医疗科技有限公司 基于随机森林算法的肠镜退镜时间的实时监测方法
US20230351251A1 (en) 2020-09-18 2023-11-02 Nippon Telegraph And Telephone Corporation Determination device, determination method, and determination program
CN113466713B (zh) * 2021-07-15 2024-04-12 北京工业大学 一种基于随机森林的锂电池安全度估算方法及装置
CN116759014B (zh) * 2023-08-21 2023-11-03 启思半导体(杭州)有限责任公司 基于随机森林的气体种类及浓度预测方法、系统及装置

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
EP2562690A2 (en) * 2011-08-22 2013-02-27 Siemens Aktiengesellschaft Assigning a number of reference measurement data sets to an input measurement data set
JP2014041426A (ja) * 2012-08-21 2014-03-06 Ntt Docomo Inc 時系列データ処理システム、時系列データ処理方法
US20150254555A1 (en) * 2014-03-04 2015-09-10 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input
JP2016519807A (ja) * 2013-03-15 2016-07-07 ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation 自己進化型予測モデル

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102221655B (zh) * 2011-06-16 2013-08-07 河南省电力公司济源供电公司 基于随机森林模型的电力变压器故障诊断方法
CN102508907B (zh) * 2011-11-11 2013-11-20 北京航空航天大学 一种基于训练集优化的推荐系统的动态推荐方法
JP5953151B2 (ja) * 2012-07-13 2016-07-20 日本放送協会 学習装置、及びプログラム
WO2014053017A1 (en) * 2012-10-03 2014-04-10 Iselect Ltd Systems and methods for use in marketing
CN104155596B (zh) * 2014-08-12 2017-01-18 北京航空航天大学 一种基于随机森林的模拟电路故障诊断系统
US9836701B2 (en) * 2014-08-13 2017-12-05 Microsoft Technology Licensing, Llc Distributed stage-wise parallel machine learning
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN105809707B (zh) * 2014-12-30 2018-11-27 江苏慧眼数据科技股份有限公司 一种基于随机森林算法的行人跟踪方法
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
US20160350675A1 (en) * 2015-06-01 2016-12-01 Facebook, Inc. Systems and methods to identify objectionable content
CN105045819B (zh) * 2015-06-26 2018-04-20 深圳市腾讯计算机系统有限公司 一种训练数据的模型训练方法及装置
CN105678567A (zh) * 2015-12-31 2016-06-15 宁波领视信息科技有限公司 一种基于大数据深度学习的精准预测系统
CN105844300A (zh) * 2016-03-24 2016-08-10 河南师范大学 一种基于随机森林算法的优化分类方法及装置
CN105912500B (zh) * 2016-03-30 2017-11-14 百度在线网络技术(北京)有限公司 机器学习模型生成方法和装置
CN105931224A (zh) * 2016-04-14 2016-09-07 浙江大学 基于随机森林算法的肝脏平扫ct图像病变识别方法

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080133434A1 (en) * 2004-11-12 2008-06-05 Adnan Asar Method and apparatus for predictive modeling & analysis for knowledge discovery
EP2562690A2 (en) * 2011-08-22 2013-02-27 Siemens Aktiengesellschaft Assigning a number of reference measurement data sets to an input measurement data set
JP2014041426A (ja) * 2012-08-21 2014-03-06 Ntt Docomo Inc 時系列データ処理システム、時系列データ処理方法
JP2016519807A (ja) * 2013-03-15 2016-07-07 ザ クリーブランド クリニック ファウンデーションThe Cleveland ClinicFoundation 自己進化型予測モデル
US20150254555A1 (en) * 2014-03-04 2015-09-10 SignalSense, Inc. Classifying data with deep learning neural records incrementally refined through expert input

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20200125890A (ko) * 2019-04-26 2020-11-05 에버 포춘.에이아이 컴퍼니 리미티드 감시 하에서 인공신경망 훈련 모델을 제공하는 클라우드 기반 거래 시스템 및 그 방법
KR102223161B1 (ko) * 2019-10-11 2021-03-03 노주현 기상데이터에 기초한 시기성상품 예측 시스템 및 방법
KR20210050362A (ko) 2019-10-28 2021-05-07 주식회사 모비스 앙상블 모델 프루닝 방법, 유전자 가위를 검출하는 앙상블 모델 생성 방법 및 장치
KR102092684B1 (ko) * 2020-01-23 2020-03-24 주식회사 두두아이티 랜덤 포레스트 기법을 이용한 사이버 보안 훈련 장치 및 방법

Also Published As

Publication number Publication date
AU2017404119A9 (en) 2019-06-06
JP2019513246A (ja) 2019-05-23
AU2017404119A1 (en) 2018-10-11
CN107632995A (zh) 2018-01-26
JP6587330B2 (ja) 2019-10-09
SG11201809890PA (en) 2018-12-28
EP3413212A4 (en) 2019-04-03
WO2018166113A1 (zh) 2018-09-20
US20210081847A1 (en) 2021-03-18
EP3413212A1 (en) 2018-12-12
CN107632995B (zh) 2018-09-11
KR102201919B1 (ko) 2021-01-12

Similar Documents

Publication Publication Date Title
KR20190022431A (ko) 랜덤 포레스트 모델의 훈련 방법, 전자장치 및 저장매체
US20190311114A1 (en) Man-machine identification method and device for captcha
CN106992994B (zh) 一种云服务的自动化监控方法和系统
CN108829581B (zh) 应用程序测试方法、装置、计算机设备及存储介质
CN107241296B (zh) 一种Webshell的检测方法及装置
WO2019196534A1 (zh) 验证码的人机识别方法及装置
WO2012135519A1 (en) Determining machine behavior
CN110855648B (zh) 一种网络攻击的预警控制方法及装置
CN111614599A (zh) 基于人工智能的webshell检测方法和装置
CN112035549B (zh) 数据挖掘方法、装置、计算机设备及存储介质
CN109241733A (zh) 基于Web访问日志的爬虫行为识别方法及装置
JP6282217B2 (ja) 不正プログラム対策システムおよび不正プログラム対策方法
US9336316B2 (en) Image URL-based junk detection
US10291483B2 (en) Entity embedding-based anomaly detection for heterogeneous categorical events
CN109144834A (zh) 用户行为数据的采集方法及装置、安卓系统及终端设备
Lee et al. ATMSim: An anomaly teletraffic detection measurement analysis simulator
CN104580109A (zh) 生成点选验证码的方法及装置
CN107957933B (zh) 数据复制的监控方法及装置
CN110969261B (zh) 基于加密算法的模型构建方法及相关设备
CN112817816B (zh) 埋点处理方法、装置、计算机设备和存储介质
RU2745362C1 (ru) Система и способ формирования индивидуального содержимого для пользователя сервиса
CN111562943B (zh) 一种基于事件嵌入树及gat网络的代码克隆检测方法和装置
CN113901456A (zh) 一种用户行为安全性预测方法、装置、设备及介质
JP6142878B2 (ja) 情報システムの性能評価装置、方法およびプログラム
CN108881272B (zh) 一种适用于冗余信息系统的攻击面建模方法及装置

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant