KR20190075962A - 데이터 처리 방법과 데이터 처리 장치 - Google Patents

데이터 처리 방법과 데이터 처리 장치 Download PDF

Info

Publication number
KR20190075962A
KR20190075962A KR1020197013526A KR20197013526A KR20190075962A KR 20190075962 A KR20190075962 A KR 20190075962A KR 1020197013526 A KR1020197013526 A KR 1020197013526A KR 20197013526 A KR20197013526 A KR 20197013526A KR 20190075962 A KR20190075962 A KR 20190075962A
Authority
KR
South Korea
Prior art keywords
incremental
decision tree
model
data
decision
Prior art date
Application number
KR1020197013526A
Other languages
English (en)
Inventor
원펑 송
시옹 선
Original Assignee
중안 인포메이션 테크놀로지 서비스 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중안 인포메이션 테크놀로지 서비스 컴퍼니 리미티드 filed Critical 중안 인포메이션 테크놀로지 서비스 컴퍼니 리미티드
Publication of KR20190075962A publication Critical patent/KR20190075962A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F16/00Information retrieval; Database structures therefor; File system structures therefor
    • G06F16/90Details of database functions independent of the retrieved data types
    • G06F16/95Retrieval from the web
    • G06F16/953Querying, e.g. by the use of web search engines
    • G06F16/9535Search customisation based on user profiles and personalisation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/21Design or setup of recognition systems or techniques; Extraction of features in feature space; Blind source separation
    • G06F18/217Validation; Performance evaluation; Active pattern learning techniques
    • G06F18/2193Validation; Performance evaluation; Active pattern learning techniques based on specific statistical tests
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/243Classification techniques relating to the number of classes
    • G06F18/24323Tree-organised classifiers
    • G06K9/6282
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q10/00Administration; Management
    • G06Q10/04Forecasting or optimisation specially adapted for administrative or management purposes, e.g. linear programming or "cutting stock problem"

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • General Engineering & Computer Science (AREA)
  • Databases & Information Systems (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Biology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Software Systems (AREA)
  • Business, Economics & Management (AREA)
  • Strategic Management (AREA)
  • Human Resources & Organizations (AREA)
  • Economics (AREA)
  • Mathematical Physics (AREA)
  • Computing Systems (AREA)
  • Medical Informatics (AREA)
  • Development Economics (AREA)
  • Game Theory and Decision Science (AREA)
  • Entrepreneurship & Innovation (AREA)
  • Marketing (AREA)
  • Operations Research (AREA)
  • Quality & Reliability (AREA)
  • Tourism & Hospitality (AREA)
  • General Business, Economics & Management (AREA)
  • Probability & Statistics with Applications (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

본 발명은 데이터 처리 방법과 데이터 처리 장치에 관한 것이다. 상기 데이터 처리 방법은 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하고; 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측해 예측 결과를 취득하며; 예측 결과에 근거해 분류 모형을 업데이트하는 것을 포함한다. 본 발명 실시예가 제공하는 데이터 처리 방법은 증분 데이터를 이용해 증분 의사결정나무를 생성한 다음, 이어서, 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측하고, 예측 결과에 근거해 분류 모형에 대해 업데이트를 진행하는 방식으로서, 분류 모형의 적응적 업데이트를 구현하고, 모형의 업무 주기 내에 인공 간섭이 더 필요없는 목적에 달성하며, 원가를 대폭 절약하였다.

Description

데이터 처리 방법과 데이터 처리 장치
본 발명은 데이터 처리 분야에 속하며, 특히, 데이터 처리 방법과 데이터 처리 장치에 관한 것이다.
인터넷 기술이 발전함에 따라 네트워크 소셜, 네트워크 읽기, 증권 펀드 매매 등과 같이 대량의 네트워크 활용이 나타났다. 네트워크 활용 제공측은 사용자에게 맞춤형 정보를 제안하기 위해 통상적으로 주기적으로 현재 데이터를 처리한 다음, 이어서 사용자에게 예측성 정보를 푸시한다. 예측 효율과 정확성을 향상시키기 위해, 대부분 네트워크 활용에서는 통상적으로 분류 모형을 이용해 분류 예측을 실시한다.
랜덤 포레스트 분류 모형은 활용이 비교적 보편적인 분류 모형 중 하나인 데, 상기 분류 모형은 여러 개의 의사결정나무로 구성되어 분류 샘플이 랜덤 포레스트로 진입할 때 상기 여러 개의 의사결정나무가 분류하고, 마지막으로, 모든 의사결정나무에 의해 선택되는 횟수가 가장 많은 유형을 최종적인 분류 결과로 선택한다. 종래기술에 따른 활용에서, 통상적으로 오프라인의 기계 학습 과정을 이용해 상기 분류 모형을 구성하고, 전수의 사용자 행위 데이터에 대한 학습, 분석과 트레이닝을 통해 분류의 지식을 도출함으로써 분류 모형에 대한 구축을 완성하고 인터넷 접속을 배치한다. 시간이 흐름에 따라 온라인에서 배치된 분류 모형은 통상적으로 점차 퇴행할 수 있으며, 그 분류의 정확율은 요구를 만족시키지 못할 수 있다.
종래기술에 따른 기계 학습 분야에서는 통상적으로 오프라인 학습의 기계 학습 모형을 기반으로 한다. 하지만, 데이터량이 많아짐에 따라 기계 학습 모형의 처리 능력이 점점 떨어지고, 특히 금융 거래 분야는 정보가 수시로 변하므로, 오프라인의 기계 학습 모형은 거래 시스템에 일정한 정도의 낙후성이 나타나도록 한다.
따라서, 자동으로 업데이트할 수 있는 예측 모형이 데이터를 처리하는 것이 시급히 필요하다.
본 출원 청구는 2017년 6월 30일에 제출한 출원번호가 No.201710523102.5인 중국 출원 우선권으로서, 인용을 통해 그 전부 내용을 본문에 합병시켰다.
따라서, 본 발명의 목적은 실시예가 데이터 처리 방법과 데이터 처리 장치를 제공해 종래기술에 따른 예측 모형이 모두 오프라인 예측 모형이어서 적응적 업데이트의 문제를 구현할 수 없는 문제를 해결하는데 있다.
첫 번째 측면에서, 본 발명 실시예는 데이터 처리 방법을 제공하는데, 상기 데이터 처리 방법은 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하고; 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측해 예측 결과를 취득하며; 예측 결과에 근거해 분류 모형을 업데이트하는 것을 포함한다.
본 발명 일 실시예에서, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는 것은, 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출하고; 다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서 증분 의사결정나무의 수량은 모형 의사결정나무의 수량을 기반으로 확정하는 것을 포함한다.
본 발명 일 실시예에서, 예측 결과에 근거해 분류 모형을 업데이트하는 것은, 예측 결과에 근거해 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 도출해내고; 증분 의사결정나무와 모형 의사결정나무의 종합 성능을 기반으로 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무에서 예정 수량의 의사결정나무를 업데이트한 후 분류 모형 중의 모형 의사결정나무로 선택하는 것을 포함한다.
본 발명 일 실시예에서, 예정 수량은 다수개의 모형 의사결정나무의 수량과 같다.
본 발명 일 실시예에서, 예측 결과에 근거해 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 도출해내는 것은, 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 구축 시간과, 증분 데이터에 관한 예측 정확율을 기반으로 종합 성능을 확정하는 것을 포함한다.
본 발명 일 실시예에서, 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측하는 것은, 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측을 진행하는 것을 포함한다.
본 발명 일 실시예에서, 태그 예측의 결과에 근거해 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무가 증분 데이터에 대한 예측 정확율을 확정하며; 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무의 구축 시간을 종합 성능 확정의 가중치로 삼고, 증분 데이터의 예측 정확율을 정렬하는데, 여기에서 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작은 것을 더 포함한다.
본 발명 일 실시예에서, 증분 의사결정나무의 수량은 모형 의사결정나무의 수량에 근거해 확정한다.
본 발명 일 실시예에서, 증분 의사결정나무의 수량은 모형 의사결정나무의 수량의 10% 내지 30%이다.
본 발명 일 실시예에서, 예정 시간대 내의 증분 데이터를 취득하고, 분류 모형 존재 여부를 기반으로 적어도 하나의 증분 의사결정나무를 생성하는 수량을 확정하며; 여기에서, 분류 모형이 존재하는 경우, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는 것을 더 포함한다.
본 발명 일 실시예에서, 분류 모형이 존재하지 않으면, 히스토리 데이터에 근거해 다수개의 모형 의사결정나무를 포함하는 분류 모형을 구축하는데, 여기에서 히스토리 데이터는 이미 분류된 데이터인 것을 더 포함한다.
본 발명의 또 다른 실시예에서, 데이터 처리 방법은 예정 시간대 내의 증분 데이터를 취득하고, 분류 모형 존재 여부를 기반으로 의사결정나무를 생성하는 수량을 확정하며; 분류 모형이 존재하면, 증분 데이터에 근거해 증분 의사결정나무를 생성하고, 증분 의사결정나무와 분류 모형 중의 모형 의사결정나무와, 증분 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측을 진행하는데, 여기에서, 증분 의사결정나무의 수량은 업데이트 전의 모형 의사결정나무의 수량을 기반으로 확정하며; 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무 중의 각 의사결정나무의 종합 성능을 확정하며; 각 의사결정나무의 종합 성능을 기반으로 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무로부터 예정 수량의 의사결정나무를 선택해 업데이트한 후의 분류 모형 중의 모형 의사결정나무로 삼는 것을 포함한다.
두 번째 측면에서, 본 발명 실시예는 데이터 처리 장치를 더 제공하는데, 상기 데이터 처리 장치는 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는데 사용하는 증분 의사결정나무 생성모듈; 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측해 예측 결과를 취득하는데 사용하는 예측모듈; 예측 결과에 근거해 분류 모형을 업데이트하는데 사용하는 업데이트모듈을 포함한다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈은 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출하는데 사용하는 샘플링 유닛; 다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서 적어도 하나의 증분 의사결정나무의 수량을 다수개의 모형 의사결정나무의 수량을 기반으로 확정하는데 사용하는 생성 유닛을 포함한다.
본 발명 일 실시예에서, 업데이트모듈은 예측 결과에 근거해 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 도출하는데 사용하는 종합 성능 판정유닛; 적어도 하나의 증분 의사결정유닛과 다수개의 모형 의사결정나무의 종합 성능을 기반으로 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무 중으로부터 예정 수량의 의사결정나무를 선택해 업데이트한 후 분류 모형 중의 모형 의사결정나무로 삼는데 사용하는 업데이트 유닛을 포함한다.
본 발명 일 실시예에서, 데이터 처리 장치는 예정 시간대 내의 증분 데이터를 취득하도록 설치되는 증분 데이터 입력유닛; 분류 모형 존재 여부에 근거해 분류 모형이 존재하는 것을 표현하는 제1 신호와 분류 모형이 존재하지 않는 것을 표현하는데 제2 신호를 생성하도록 설치되는 판단유닛; 호응하는 제1 신호를 기반으로 증분 데이터에 근거해 증분 의사결정나무를 생성하도록 설치된 의사결정나무 생성유닛; 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무에 근거해 증분 데이터에 대해 태그 예측을 진행하도록 설치되는 태그예측유닛; 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무 중의 각 의사결정나무의 종합 성능에 근거해 예정 수량의 의사결정나무를 선택하도록 설치되는 의사결정나무 선택유닛; 선택된 예정 수량의 의사결정나무를 업데이트한 후의 분류 모형 중의 모형 의사결정나무로 삼도록 설치되는 모형 업데이트유닛을 포함한다.
본 발명 일 실시예에서, 업데이트유닛 중의 예정 수량은 다수개의 모형 의사결정나무의 수량과 같다.
본 발명 일 실시예에서, 종합 성능 판정유닛은 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 구축 시간과 증분 데이터에 관한 예측 정확율을 기반으로 종합 성능을 확정하는데 더 사용한다.
본 발명 일 실시예에서, 예측 모듈은 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측을 진행하는데 사용한다.
본 발명 일 실시예에서, 예측 모듈은 태그 예측의 결과에 근거해 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무가 증분 데이터에 대한 예측 정확율을 확정하는데 더 사용하며; 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무의 구축 시간을 종합 성능을 확정하는 가중치로 삼고, 증분 데이터의 예측 정확율을 정렬하되, 여기에서 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈 중의 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량에 근거해 확정한다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈 중의 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량의 10% 내지 30%이다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈은 예정 시간대 내의 증분 데이터를 취득하고 분류 모형 존재 여부를 기반으로 적어도 하나의 증분 의사결정나무를 생성하는 수량을 확정하는데 더 사용하며; 여기에서, 분류 모형이 존재하면, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성한다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈은 분류 모형이 존재하지 않으면 히스토리 데이터에 근거해 다수개의 모형 의사결정나무를 포함하는 분류 모형의 구축에 더 사용하는데, 여기에서 히스토리 데이터는 이미 분류된 데이터이다.
세 번째 측면에서, 본 발명 실시예는 컴퓨터 저장 매체를 더 제공하는데, 상기 컴퓨터 판독 가능 저장 매체에 데이터 처리 프로그램이 저장되고, 상기 데이터 처리 프로그램은 프로세서에 의해 실행될 때 상기 어느 실시예가 제출한 데이터 처리 방법의 실시를 구현한다.
본 발명 실시예가 제공하는 데이터 처리 방법은 증분 데이터를 이용한 분류 모형 업데이터를 통해 분류 모형이 적시 또는 실시간과 근사하게 샘플 데이터의 변화에 근거해 대응되는 조정을 진행하도록 함으로써 분류 모형과 최신 샘플 데이터의 동기화를 구현할 수 있다. 즉, 본 발명 실시예가 제공하는 데이터 처리 방법은 현재 새롭게 취득한 데이터를 기반으로 적응적 업데이트할 수 있어 데이터의 새로운 추세 변화에 적응하고, 더 나아가 예측의 정확성을 보장한다. 또한, 본 발명 실시예는 초기 작업 설치를 통해 모형의 업무 주기 내에 인공 간섭이 더 필요하지 않는 목적에 달성하고, 원가를 대폭 절약하며, 본 발명 실시예가 제공하는 데이터 처리 방법이 지능화, 고효율성 특성을 가지도록 한다.
도면을 참조해 실시예를 설명한다. 상기 도면은 기본 원리를 설명하는데 사용해 기본 원리의 이해에 필요한 측면만 도시하였다. 상기 도면은 비례에 따른 것이 아니다. 도면에서, 같은 도면 기호는 유사한 특징을 표시한다.
도 1은 본 발명 일 실시예가 제공하는 데이터 처리 방법의 흐름 예시도이고;
도 2는 본 발명 일 실시예가 제공하는 데이터 처리 방법의, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는 작업의 흐름 예시도이고;
도 3은 본 발명 일 실시예가 제공하는 데이터 처리 방법의, 예측 결과에 근거해 분류 모형에 대해 업데이트 작업을 진행하는 흐름 예시도이고;
도 4는 본 발명의 또 다른 실시예가 제공하는 데이터 처리 방법의 흐름 예시도이고;
도 5는 본 발명 일 실시예가 제공하는 데이터 처리 장치의 구조 예시도이고;
도 6은 본 발명 일 실시예가 제공하는 데이터 처리 장치의 증분 의사결정나무생성모듈의 구조 예시도이고;
도 7은 본 발명 일 실시예가 제공하는 데이터 처리 장치의 업데이트 모듈의 구조 예시도이고;
도 8은 본 발명의 또 다른 실시예가 제공하는 데이터 처리 장치의 구조 예시도이고;
도 9는 본 발명 일 실시예가 제공하는 데이터 처리 장치의 의사결정 선택유닛의 구조 예시도이고;
도 10은 본 발명 일 실시예가 제공하는 전자설비의 구조 예시도이다.
이하 바람직한 실시예에 대한 상세한 서술에서는 본 발명의 일부를 구성하는 아래 도면을 참조하였다. 첨부된 도면은 예시 방식으로 본 발명을 구현할 수 있는 특정 실시예를 도시하였다. 예시적 실시예는 본 발명에 따른 모든 실시예의 전부가 아니다. 본 발명을 이탈하지 않은 전제 하에, 기타 실시예를 이용할 수 있고, 구조성 또는 논리성 수정도 진행할 수 있다는 것을 이해해야 할 것이다. 따라서, 이하의 상세한 서술은 한정성을 가지지 않으며, 본 발명의 범위는 아래의 특허청구범위에 의해 한정된다.
관련 분야의 통상적인 기술자들이 숙지하고 있는 기술, 방법과 설비에 대해 상세한 토론을 진행하지 않지만, 적절한 상황에서 상기 기술, 방법과 설비는 명세서의 일부로 간주되어야 한다. 도면 중의 각 유닛 사이의 연결선은 편리하게 설명하는 것을 목적으로 할 뿐이며, 그는 최소한 연결선 양단의 유닛이 서로 통신한다는 것을 표시하되, 연결선이 형성되지 않은 유닛 사이가 통신할 수 없도록 한정한다는 의미는 가리키지 않는다.
발명자는 연구를 통해, 종래기술에 따른 기계학습 분야는 통상적으로 모두 오프라인 학습의 기계 학습 모형을 기반으로 한다는 것을 발견하였다. 하지만, 데이터량이 많아짐에 따라 기계 학습 모형의 처리능력이 점점 떨어지고, 특히 금융 거래 분야에서는 정보가 아주 빠르고, 오프라인의 기계 학습 모형이 거래 시스템에 일정한 정도의 낙후성이 나타나도록 한다. 또한, 현재 일부의 온라인 학습을 기반으로 하는 기계 학습 모형이 존재하지만, 복잡한 구조가 업무 효율을 비교적 낮게 해 보급과 응용이 어려우며, 특히 신속히 분석 결과를 제출해야 하는 금융 분야에 응용하기 어렵다.
상기 발명 사상을 기반으로, 본 발명 실시예는 증분 데이터를 기반으로 증분 의사결정나무를 생성한 다음, 이어서 분류 모형에 대해 업데이트를 진행하는 기술방안을 제출하였다. 상기 증분 데이터는 가격, 거래 금액, 거래량 등고 같이 네트워크를 통해 전송된 금융 제품 정보일 수 있다는 것을 이해할 수 있을 것이다.
기계 학습에서, 랜덤 포레스트 분류 모형은 다수개의 의사결정나무를 포함하는 하나의 분류기이고, 그가 출력한 분류 결과는 단일 의사결정나무가 출력한 분류 결과의 총수에 의해 결정된다. 더 상세하게는, 랜덤 포레스트 분류의 기본 사상은, 원시 샘플 세트로부터 무작위로 N개 샘플 세트를 복원추출하고 각 샘플 세트의 샘플 용량은 모두 원시 샘플 세트와 같으며; N개 샘플 세트가 각각 N개 의사결정나무를 구축하고, 각 의사결정나무는 모두 선택권 한 표를 가져 분류 결과를 선택해 N가지 분류 결과를 도출해내며; N가지 분류 결과에 근거해 각 샘플에 대해 투표로 표결해 그의 최종 분류를 결정하는 것이다. 랜덤 포레스트 생성의 과정은 바로 각 의사결정나무를 트레이닝하는 과정이다.
각 의사결정나무를 트레이닝하는 과정은 아래 내용을 포함한다. (1) 무작위로 M개 샘플을 복원추출하고, 상기 M개 샘플을 이용해 의사결정나무 하나를 트레이닝하며; (2) 각 샘플은 다수개의 속성을 가지고, 의사결정나무에서 노드를 분열해야 할 때 상기 다수개의 속성에서 무작위로 m개 속성을 선택한 다음, 이어서 상기 m개 속성에서 특정 전략을 이용해 최적화 속성을 선택함으로써 현재 노드의 분열 속성으로 삼으며; (3) 의사결정나무의 각 노드의 분열은 분열할 수 없을 때까지 모두 (2)에 따라 진행한다.
실제 업무 활용에서, 사용자 행위 데이터를 취득한 후, 먼저 이미 온라인에서 배치한 분류 모형을 이용할 수 있는데, 즉, 예정 수량의 모형 의사결정나무로 구성된 분류 모형은 평점 방식으로 유형 예측을 진행하고, 득점이 가장 높은 유형(상기 유형을 선택하는 의사결정나무 수량이 가장 많음)을 예측 유형으로 삼고, 유형별로 가격의 등락을 판단하는 등과 같이, 상기 예측 유형을 기반으로 사전에 설정한 업무 활용을 추진한다.
도 1은 본 발명 일 실시예가 제공하는 데이터 처리 방법의 흐름 예시도이다. 도 1의 방법은 서버 또는 계산 설비로 실시한다. 도 1에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 방법은 아래 내용을 포함한다.
11: 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성한다.
11에서, 증분 데이터는 데이터 저장 설비 또는 서버로부터 취득한 어느 시간대(예를 들어, 10분, 1시간 또는 하루) 내의 신규 데이터를 가리킨다. 증분 의사결정나무는 일종의 나무 구조인데, 여기에서, 증분 의사결정나무의 각 내부 노드는 하나의 속성 테스트로서, 각 분기는 하나의 테스트 출력을 대표하고, 각 잎 노드는 일종의 유형을 대표한다.
증분 의사결정나무에서 각 노드가 대표하는 속성과 유형 등은 분류 모형과 실제 활용 상황에 근거해 설정해야 한다는 것을 이해해야 할 것이다.
12: 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터에 대한 예측을 진행해 예측 결과를 취득한다.
마찬가지로, 모형 의사결정나무 또한 일종의 나무 구조인데, 여기에서, 모형 의사결정나무의 각 내부 노드는 하나의 속성 테스트를 표시하고, 각 분기는 하나의 테스트 출력을 대표하며, 각 잎 노드는 일종의 유형을 대표한다.
바람직하게, 태그예측방법에 의거해 증분 데이터의 예측 작업을 진행한다. 예를 들어, 증분 데이터에 대해 복원 추출법으로 샘플링해 일정한 수량의 샘플 세트를 추출한 다음, 이어서, 추출한 샘플 세트를 기반으로 대응 수량의 증분 의사결정나무를 생성하며, 마지막으로, 생성된 증분 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측 작업을 진행한다.
13: 예측 결과에 근거해 분류 모형에 대한 업데이트를 진행한다.
예측 결과는 증분 의사결정나무의 종합 성능, 특히 증분 데이터에 대한 예측 정확율을 반영할 수 있어야 한다는 것을 이해해야 할 것이다.
실제의 활용 과정에서, 먼저, 증분 데이터에 근거해 증분 의사결정나무를 생성한 다음, 이어서, 모형 의사결정나무와 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측을 진행해 예측 결과를 취득하며, 마지막으로, 예측 결과에 근거해 분류 모형 중의 모형 의사결정나무에 대해 업데이트 작업을 진행한다.
본 발명 일 실시예에서, 업데이트 작업은 종합 성능이 비교적 우수한 증분 의사결정나무를 선택해 업데이트 전의 분류 모형 중의 종합 성능이 비교적 떨어지는 모형 의사결정나무를 대체한다.
본 발명 실시예가 제공하는 데이터 처리 방법은 증분 데이터를 이용해 증분 의사결정나무를 생성한 다음, 이어서 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측하고, 예측 결과에 근거해 분류 모형에 대해 업데이트를 진행하는 방식으로서, 분류 모형의 적응적 업데이트를 구현하고, 모형의 업무 주기 내에 인공 간섭이 더 필요없는 목적에 달성하며, 원가를 대폭 절약하였다.
도 2는 본 발명 일 실시예가 제공하는 데이터 처리 방법의, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는 작업의 흐름 예시도이다. 도 2에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 방법에서는, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무(11)를 생성하는 것은, 아래 내용을 포함한다
21: 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출한다.
22: 다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서, 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량을 기반으로 확정한다.
실제의 활용 과정에서, 먼저, 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출한 다음, 이어서, 추출한 샘플 세트를 기반으로 증분 의사결정나무를 생성하되, 여기에서, 증분 의사결정나무의 수량은 모형 의사결정나무의 수량을 기반으로 확정하고, 이어서, 분류 모형 중의 모형 의사결정나무와 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측을 진행해 예측 결과를 취득하며, 마지막으로, 취득한 예측 결과에 근거해 분류 모형에 대해 업데이트 작업을 진행한다.
본 발명 실시예가 제공하는 데이터 처리 방법은 다수개의 샘플 세트를 복원추출하는 방식을 통해 증분 의사결정나무를 생성함으로써, 증분 의사결정나무의 각 노드가 모두 상기 샘플 세트의 특징으로부터 선택되는 목적에 달성하도록 해 분류 모형의 예측 정확성을 종국적으로 향상시키기 위한 전제 조건을 제공하였다.
도 3은 본 발명 일 실시예가 제공하는 데이터 처리 방법의, 예측 결과에 근거해 분류 모형에 대해 업데이트 작업을 진행하는 흐름 예시도이다. 도 3에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 방법에서, 예측 결과에 근거해 분류 모형에 대해 업데이트를 진행하는 데(13), 아래 내용을 포함한다.
31: 예측 결과에 근거해 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 도출해낸다.
종합 성능 중의 평가 파라미터는 실제 상황에 근거해 스스로 설정할 수 있되, 구축 시간, 예측 정확율 등 평가 파라미터를 포함하지만 이에 한정되지 않는다는 것을 이해해야 할 것이다.
32: 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 기반으로 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무에서 예정 수량의 의사결정나무를 선택해 업데이트한 후 분류 모형 중의 모형 의사결정나무로 삼는다.
즉, 본 발명 실시예가 제공하는 데이터 처리 방법은 각 의사결정나무의 종합 성능에 근거해 업데이트 전의 분류 모형 중의 모형 의사결정나무에 대해 선택적인 업데이트를 진행하고, 종합 성능이 비교적 우수한 증분 의사결정나무를 이용해 업데이트 전의 분류 모형 중의 모형 의사결정나무를 대체함으로써, 종국적으로 업데이트한 후의 분류 모형의 정확한 예측을 구현한다.
도 4는 본 발명의 또 다른 실시예가 제공하는 데이터 처리 방법의 흐름 예시도다. 도 4에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 방법은 아래 내용을 포함한다.
41: 증분 데이터를 취득한다.
본 발명 일 실시예에서, 증분 데이터 취득은 금융 거래 서버 또는 특정 기억 장치에서 예정 시간대의 증분 데이터를 취득하는 것을 가리킨다. 여기에서, 상기 예정 시간대는 현재 시간 전의 어느 시간대를 가리키는데, 예정 시간대의 길이는 상세한 수요에 근거해 설치할 수 있으며, 예정 시간대 내의 사용자 행위 데이터가 이미 취득 가능한 상태에 놓이고 실제의 유형 태그 정보를 포함하기만 하면 된다. 예를 들어, 예정 시간대의 길이는 일자를 단위로, 시간을 단위로 또는 분을 단위로 할 수 있다.
본 발명 실시예에서, 금융 제품(예를 들어 증권) 거래를 실례로 들어 설명한다. 예를 들어, 증권거래시스템에서, 현재 시간과 5분 거리를 두고 있는 거래 데이터를 취득하고, 데이터의 태그는 상승, 하락, 동격이되, 즉, 예정 시간대는 현재 시간 5분전 내의 시간대다. 기타 실시방식에서, 데이터의 태그 또한 다양한 기타 형식일 수 있다는 것을 이해해야 할 것이다.
42: 온라인의 분류 모형 존재 여부를 판단한다.
42에서, 사용 가능한 분류 모형이 존재하는 여부를 판단하고, 존재하면 43을 실시하고, 아니면 49를 실시한다.
이하, 분류 모형이 존재하는 여부를 기반으로 다른 장면에 대해 각각 서술한다.
장면 1: 분류 모형이 존재한다.
43: 증분 데이터에 대해 복원 추출법으로 샘플링하고, k개 샘플 세트를 추출한다.
43에서, 취득한 증분 데이터에 대해 복원 추출법으로 샘플링하고, K개 트레이닝 샘플 세트를 생성하며, 각 샘플은 모두 (x1,x2 .....xn:c)가 표시한 형식과 유사한데, 여기에서, xi(i=1,2....n)는 상기 샘플의 상세한 속성을 표시하고, c는 상기 샘플의 실제 유형을 표시한다. 예를 들어, 본 실시예의 하나의 상세한 실례는 금융 거래 업무 분야에서 분류 모형을 사용해 증권 가격의 추세에 대해 분류 예측을 진행하되, 각 샘플의 속성은 선택적으로 증권 명칭, 가격, 거래량 등 상세한 속성을 포함할 수 있다.
K의 상세 값은 실제 상황에 근거해 스스로 설정해 본 발명 실시예가 제공하는 데이터 처리 방법의 적응 능력과 활용 광범성을 충분히 향상시킬 수 있는데, 본 발명 실시예는 이에 대해 통일로 한정하지 않는다는 것을 이해해야 할 것이다.
44: K개 샘플 세트를 기반으로 K개 증분 의사결정나무를 구축한다.
44에서, 각 샘플 세트는 상응되는 증분 의사결정나무로 성장하는데, 즉, 나무의 각 노드는 모두 상기 샘플 세트의 특징으로부터 선택된다.
45: 분류 모형 중의 모형 의사결정나무와 K개 증분 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측을 진행한다.
45에서, 분류 모형 중의 모형 의사결정나무(T개로 가정)와 K개 증분 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측(즉, 분류 예측)을 진행하며, 분류하지 않은 증분 데이터에 대해 분류를 진행하는데, 이 경우, 총 T+K개 의사결정나무가 증분 데이터에 대해 태그 예측을 진행한다. 예측에 참여하는 의사결정나무 총량의 증가와 상기 K개 증분 의사결정나무가 늘 새로운 추세 변화를 대표할 수 있으므로, T+K개 의사결정나무를 이용하면 분류 모형 예측의 정확율을 향상시키는데 이롭다.
본 발명 일 실시예에서, 신규 K개 증분 의사결정나무가 분류 모형의 정확성과 적용성을 파손하지 않도록 하기 위해 K의 값 범위를 0.1T 내지 0.3T로 설정한다.
주의해야 할 부분은, 알파벳 T와 K는 분류 모형 중의 모형 의사결정나무와 증분 데이터에 근거해 생성된 증분 의사결정나무의 수량이 다르다는 것을 표현하는데에만 사용되고, 예를 들어, 1보다 크거나 또는 1과 같은 정수와 같이 T와 K를 어느 상세 수치로 한정한다는 것을 가리키지 않는다.
46: 예측 결과를 취득하고, 각 의사결정나무의 현재 정확율과 구축 시간을 확정한다.
46에서, 먼저, 45에서 실시하는 태그 예측 작업을 기반으로 예측 결과를 취득한 다음, 이어서, 예측 결과와 진실한 결과를 대비해 각 의사결정나무의 현재 정확율, 즉, 증분 데이터에 대한 예측 정확율을 도출해낸다. 상응되게, 각 의사결정나무의 구축 시간, 즉, 각 의사결정나무가 이미 존재하고 있는 시간을 더 취득할 수 있다.
47: 각 의사결정나무의 종합 성능을 확정한다.
46를 실시하면, 이미 각 의사결정나무의 예측 정확율과 구축 시간을 확정할 수 있다. 본 실시방식에서, 상기 2개 파라미터를 통해 각 의사결정나무의 종합 성능을 확정한다.
일 실시방식에서, 종합 성능=a*구축 시간+b*예측 정확율인데, 여기에서, a와 b는 각각 구축 시간과 예측 정확율의 가중치고, a와 b의 값은 실제 상황에 근거해 조정할 수 있다. 이로부터 알 수 있다시피, 의사결정나무의 생성 시간은 종합 성능에 대해서도 여전히 영향을 미치는데, 즉, 이로부터 알 수 있다시피, 의사결정나무의 생성 시간도 종합 성능에 대해 영향을 미치는데, 즉, 가장 현재 시간에 접근하는 의사결정나무의 가중치는 현재 시간과의 간격이 긴 의사결정나무의 가중치보다 크다. 바꾸어 말하면, a, b수치에 대한 배치를 통해, 2개 의사결정나무의 예측 정확율이 같을 때, 비교적 짧은 구축 시간을 가지는 의사결정나무의 종합 성능이 비교적 긴 구축 시간을 가지는 의사결정나무의 종합 성능보다 우수하도록 할 수 있다.
여기에서 실례로 제출한 종합 성능과 구축 시간, 예측 정확율 간의 표현식은 종합 성능이 양자와 관련된다는 것만 설명할 뿐이며, 종합 성능이 구축 성능과 예측 정확율의 합과 같을 수 밖에 없다는 것을 한정하는데 사용하지 않는다는 것을 이해할 수 있을 것이다. 아래에서는 표 1과 결합해 의사결정나무 종합 성능의 확정에 대해 서술한다.
표1 의사결정나무 종합성능
Figure pct00001
본 실시방식에서, 구축 시간을 도입해 의사결정나무 종합 성능에 영향을 미치는 가중치로 삼는다. 2개 의사결정나무의 예측 정확율이 같은 경우(예를 들어, 의사결정나무(4)와 의사결정나무(5)의 예측 정확율이 모두 80%)에 대해, 상기 2개 의사결정나무의 구축 시간에 근거해 상기 2개 의사결정나무의 종합 성능을 더 확정하는데, 즉, 의사결정나무(4)의 구축 시간이 짧으므로, 의사결정나무(4)의 종합 성능이 의사결정나무(5)의 종합 성능보다 우수하다는 결론을 도출해낸다.
48: 의사결정나무의 종합 성능을 기반으로 예정 수량의 의사결정나무를 선택해 분류 모형에 대한 업데이트를 진행한다.
48에서, 의사결정나무의 종합 성능을 기반으로 그 중에서 예정 수량의 의사결정나무를 선택해 업데이트한 후의 분류 모형의 모형 의사결정나무로 삼는다. 여기에서, 각 의사결정나무의 종합 성능 정렬은 각 의사결정나무가 증분 데이터에 대한 태그 예측 결과에 근거해 도출해낸다. 더 상세하게, 의사결정나무의 종합 성능을 기반으로 정렬해 표 1에 표시된 바와 같이 종합 성능에 근거해 정렬된 의사결정나무 시리즈를 취득하고, 정렬 결과에 근거해 종합 성능이 우수한 의사결정나무를 선택한다. 상술한 내용으로부터 알 수 있다시피, 구축 시간의 가중치를 감안할 때, 의사결정나무(4)의 종합 성능이 의사결정나무(5)의 종합 성능보다 우수하므로, 4개 의사결정나무를 선택하고 1개 의사결정나무를 포기해야 하는 경우, 의사결정나무(5)를 포기하고, 의사결정나무(1) 내지 의사결정나무(4)를 선택해 분류 모형의 모형 의사결정나무로 삼고, 업데이트한 후의 분류 모델을 후속 증분 데이터에 대해 예측을 진행하는데 사용한다.
상술한 내용으로부터 알 수 있듯이, 본 발명 실시예가 제공하는 데이터 처리 방법은 분류 모형 예측 정확율을 보장하는 전제하에 분류 모형에 대한 업데이트 작업을 구현한다.
바람직하게, 증분 의사결정나무의 수량 K는 분류 모형 중 모형 의사결정나무의 수량 T를 기반으로 확정한다.
본 발명 일 실시예에서, 증분 의사결정나무의 수량 K의 범위는 분류 모형 중의 모형 의사결정나무의 수량 T의 10% 내지 30%이다. 더 나아가, K의 상세 수치는 사용자의 명령 또는 활용 장면에 근거해 무작위적으로 T의 10% 내지 30% 사이에서 확정해 분류 모형 중의 모형 의사결정나무의 수량 T도 상응되는 변화가 발생되도록 할 수 있다. 본 발명 실시예가 증분 의사결정나무의 수량에 대해 진행하는 한정은 분류 모형에 대해 업데이트를 진행하는 상황에서 분류 모형의 안정성에 영향을 미치지 않는 목적에 달성한다는 것을 이해해야 할 것이다.
또 다른 실시방식에서, 선택한 예정 수량의 의사결정나무의 수량은 분류 모형 중의 기존의 모형 의사결정나무의 수량과 같은데, 즉, 분류 모형 중의 모형 의사결정나무의 수량은 줄곧 T개로 유지하고, 포기한 의사결정나무의 수량은 증분 의사결정나무의 수량과 같다.
본 발명 실시예의 사상을 더 잘 전달하기 위해, 아래에서는 T=200, K=40를 실례로 서술한다. 다시 도 4를 참조해, 본 발명 실시예에서는 45를 실행해 T+K(즉, 240)개 의사결정나무가 증분 데이터에 대해 태그 예측을 진행한 다음, 이어서 예측 결과를 기반으로 의사결정나무의 종합 성능에 대해 정렬을 진행한다. 정렬의 결과에 근거해, 상기 240개 의사결정나무로부터 190, 200 또는 210개 의사결정나무를 선택해 분류 모형의 모형 의사결정나무로 삼고, 더 나아가, 분류 모형에 대한 업데이트를 완성할 수 있다. 상응되게, 다음번에는 상기 분류 모형을 이용해 업데이트를 진행할 때, K는 0.1T 내지 0.3T 중의 어느 수량 또는 사용자가 지정하는 수량일 수 있다.
장면2: 분류 모형이 존재하지 않는다.
도 4를 계속 참조해, 42에서 이용 가능한 분류 모형이 존재하지 않는다고 판단하는 경우에는 49를 실행하되, 즉, 히스토리 데이터를 기반으로 모형 의사결정나무를 생성하는데, 예를 들어, 히스토리 데이터에 대해 샘플링을 진행해 T개 샘플 세트를 형성한 다음, 이어서 상기 T개 샘플 세트를 기반으로 T개 모형 의사결정나무를 생성한다. 히스토리 데이터는 이미 분류된 데이터라는 것을 이해할 수 있을 것이다.
다시 410를 실시함으로써, 49가 생성한 T개 모형 의사결정나무를 기반으로 분류 모형을 구성한다. 410를 실시함으로써, 새롭게 구축된 분류 모형을 이용해 증분 데이터에 대해 태그 예측을 진행할 수 있다(즉, 43 등 후속 작업 계속 실시).
주의해야 할 부분은, 본 발명 실시예는 전수 데이터를 기반으로 분류 모형을 재구축하는 종래기술에 따른 오프라인 계산 방법을 이용하지 않고, 증분 데이터를 이용해 분류 모형의 업데이트를 진행함으로써, 분류 모형이 적시 또는 실시간과 근사하게 샘플 데이터의 변화에 근거해 대응되는 조정을 진행하도록 하고, 분류 모형과 최신 샘플 데이터의 동기화를 구현하였다. 또한, 본 발명 실시예는 초기 작업 설치를 통해 모형의 업무 주기 내에 인공 간섭이 더 필요하지 않는 목적에 달성하고, 원가를 대폭 절약하며, 본 발명 실시예가 제공하는 데이터 처리 방법이 지능화, 고효율성 특성을 가지도록 한다.
도 5는 본 발명 일 실시예게 제공하는 데이터 처리 장치의 구조 예시도이다. 도 5에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 장치는,
증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는데 사용하는 증분 의사결정나무 생성모듈(51);
분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측을 진행해 예측 결과를 취득하는데 사용하는 예측모듈(52);
예측 결과에 근거해 분류 모형에 대해 업데이트를 진행하는데 사용하는 업데이트 모듈(53)을 포함한다.
본 발명 일 실시예에서, 예측모듈(52)은 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무가 증분 데이터에 대해 태그 예측을 진행하는데 사용한다.
본 발명의 또 다른 실시예에서, 예측모듈(52)은 태그 예측의 결과에 근거해 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무가 증분 데이터에 대해 예측 정확율을 확정하며; 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무의 구축 시간을 종합 성능을 확정하는 가중치로 삼고, 증분 데이터의 예측 정확율에 대해 정렬을 진행하는데 더 사용하되, 여기에서, 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작다.
본 발명 일 실시예에서, 증분 의사결정나무 생성모듈(51) 중의 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량에 근거해 확정한다.
본 발명의 또 다른 실시예에서, 증분 의사결정나무 생성모듈(51) 중의 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량의 10% 내지 30%이다.
본 발명의 또 다른 실시예에서, 증분 의사결정나무 생성모듈(51)은 예정 시간대 내의 증분 데이터를 취득하고, 분류 모형 존재 여부를 기반으로 적어도 하나의 증분 의사결정나무를 생성하는 수량을 확정하는데 더 사용하며; 여기에서, 분류 모형이 존재하면, 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성한다.
본 발명의 또 다른 실시예에서, 증분 의사결정나무 생성모듈(51)은 분류 모형이 존재하지 않으면, 히스토리 데이터에 근거해 다수개의 모형 의사결정나무를 포함하는 분류 모형을 구축하는 데 더 사용하는데, 여기에서, 히스토리 데이터는 이미 분류된 데이터이다.
도 6은 본 발명 일 실시예가 제공하는 데이터 처리 장치의 증분 의사결정나무 생성모듈의 구조 예시도이다. 도 6에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 장치의 증분 의사결정나무 생성모듈(51)은,
증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출하는데 사용하는 샘플링유닛(61);
다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서, 적어도 하나의 증분 의사결정나무의 수량은 다수개의 모형 의사결정나무의 수량을 기반으로 확정하는데 사용하는 생성유닛(62)을 포함한다.
도 7은 본 발명 일 실시예가 제공하는 데이터 처리 장치의 업데이트 모듈의 구조 예시도이다. 도 7에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 장치의 업데이트모듈(53)은,
예측 결과에 근거해 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 도출해 내는데 사용하는 종합 성능 판정유닛(71);
적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 종합 성능을 기반으로 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무로부터 예정 수량의 의사결정나무를 선택해 업데이트한 후 분류 모형 중의 모형 의사결정나무로 삼는데 사용하는 업데이트유닛(72)을 포함한다.
본 발명 일 실시예에서, 업데이트유닛(72) 중의 예정 수량은 다수개의 모형 의사결정나무의 수량과 같다.
본 발명 일 실시예에서, 종합 성능 판정유닛(71)은 적어도 하나의 증분 의사결정나무와 다수개의 모형 의사결정나무의 구축 시간과 증분 데이터에 관한 예측 정확율을 기반으로 종합 성능을 확정하는데 더 사용한다.
도 8은 본 발명의 또 다른 실시예가 제공하는 데이터 처리 장치의 구조 예시도이다. 도 8이 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리장치는,
예정 시간대 내의 증분 데이터를 취득하도록 설치되는 증분 데이터 입력유닛(81)과;
분류 모형 존재 여부에 근거해 분류 모형이 존재하는 것을 표현하는 제1 신호와 분류 모형이 존재하지 않는 것을 표현하는 제2 신호를 생성하도록 설치되는 판단유닛(82);
제1 신호를 기반으로 증분 데이터에 근거해 증분 의사결정나무를 생성하도록 설치되는 의사결정나무 생성유닛(83);
분류 모형 중의 모형 의사결정나무와 증분 의사결정나무에 근거해 증분 데이터에 대해 태그 예측을 진행하도록 설치되는 태그예측유닛(84);
분류 모형 중의 모형 의사결정나무와 증분 의사결정나무 중의 각 의사결정나무의 종합 성능에 근거해 예정 수량의 의사결정나무를 선택하도록 설치되는 의사결정나무 선택유닛(85);
선택을 거친 예정 수량의 의사결정나무를 업데이트한 후의 분류 모형 중의 모형 의사결정나무로 삼도록 설치되는 모형 업데이트유닛(86)을 포함한다.
따라서, 본 발명 실시예가 제공하는 데이터 처리 장치는 증분 데이터를 취득한 후, 분류 모형을 이용해 상기 증분 데이터에 대해 예측을 진행할 수 있으며, 또한, 상기 증분 데이터를 기반으로 분류 모형에 대해 업데이트를 진행할 수 있다. 즉, 본 발명 실시예가 제공하는 데이터 처리 장치는 분류 모형의 적응적 업데이트 자를 구현하였다.
일종의 실시방식에서, 의사결정나무 선택유닛(85)이 선택한 예정 수량의 의사결정나무의 수량은 분류 모형 중 기존의 모형 의사결정나무의 수량과 같다.
본 발명 일 실시예에서, 데이터 처리 장치는 분류된 히스토리 데이터를 취득하도록 설치된 히스토리데이터 입력유닛(87)을 더 포함한다. 더 상세하게는, 판단유닛(82)이 사용가능한 분류 모형을 발견하지 못하였을 경우, 의사결정나무 생성유닛(83)은 판단유닛(82)이 생성한 제2 신호를 기반으로 히스토리 데이터에 근거해 모형 의사결정나무를 생성하고, 더 나아가 사용 가능한 분류 모형을 생성한다.
도 9는 본 발명 일 실시예가 제공하는 데이터 처리 장치의 의사결정 선택유닛의 구조 예시도다. 도 9에서 도시하는 바와 같이, 본 발명 실시예가 제공하는 데이터 처리 장치에서, 의사결정나무 선택유닛(85)은 정확율 확정유닛(91)과 의사결정나무 종합성능 정렬유닛(92)을 포함하는데, 여기에서, 정확율 확정유닛(91)은 태그 예측의 결과에 근거해 각 의사결정나무의 증분 데이터에 대한 예측 정확율을 확정하도록 설치되고, 의사결정나무 종합성능 정렬유닛(92)은 각 의사결정나무의 구축 시간과 증분 데이터에 대한 예측 정확율을 기반으로 정렬을 진행하도록 설치되며; 여기에서, 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작다. 본 발명 실시예가 제공하는 데이터 처리 장치는 분류 모형이 데이터 변화의 추세에 근거해 조정할 수 있도록 해 모형의 예측 정확율을 향상 또는 유지하는데 이롭다.
도 5 내지 도 9가 제공하는 데이터 처리 장치 중의 증분 의사결정나무 생성모듈(51), 예측모듈(52)과 업데이트모듈(53) 및 증분 의사결정나무 생성모듈(51) 중에 포함된 샘플링유닛(61)과 생성유닛(62), 업데이트모듈(53) 중에 포함된 종합 성능 판정유닛(71)과 업데이트유닛(72)의 운영과 기능은 도 1 내지 도 4가 제공하는 데이터 처리 방법을 참조할 수 있으며, 되풀이를 방지하기 위해, 여기에서는 반복적으로 서술하지 않는다.
도 10은 본 발명 일 실시예가 제공하는 전자설비의 구조 예시도이다. 도 10이 제공하는 전자설비는 도 1 내지 도 4에 서술한 데이터 처리 방법을 실시하는데 사용한다. 도 10에서 도시하는 바와 같이, 상기 전자설비는 프로세서(101), 기억 장치(102)과 버스(103)을 포함한다.
프로세서(101)는 버스(103)를 통해 기억 장치(102) 중에 저장된 코드를 호출해 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하고; 분류 모형 중의 다수개의 모형 의사결정나무와 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터에 대해 예측을 진행해 예측결과를 취득하며; 예측 결과에 근거해 분류 모형에 대해 업데이트를 진행하는데 사용한다.
상기 전자 설비는 휴대폰, 태블릿 컴퓨터 등 전자설비를 포함하지만 이에 한정되지 않는다는 것을 이해해야 할 것이다.
본 발명 일 실시예에서, 컴퓨터 저장 매체를 더 제공하는데, 상기 컴퓨터 판독 가능 저장 매체는 데이터 처리 프로그램을 저장하되, 상기 데이터 처리 프로그램이 프로세서에 의해 실행될 때 상기 어느 실시예가 제출한 데이터 처리 방법의 실시를 구현한다.
상기 컴퓨터 판독 가능 매개체는 씨디롬(CD-ROM), 플로피 디스크, 하드 디스크, 디지털 비디오 디스크(DVD), 블루레이 씨디롬 또는 기타 형식의 기억 장치다. 대체 가능하게, 도 1 내지 도 4 중의 예시방법 중의 일부 작업 또는 모든 작업은 전용 집적회로(ASIC), 프로그램 가능 로직 소자(PLD), 현장 프로그램 가능 로직 소자(EPLD), 이산 로직, 하드웨어, 펌웨어 등의 어느 조합을 이용해 구현할 수 있다. 또한, 도 1 내지 도 4가 도시한 흐름도는 상기 데이터 처리 방법을 서술하였지만, 상기 처리방법 중의 실시에 대해 수정, 삭제 또는 합병할 수 있다.
상술한 바와 같이, 부호화 명령(예를 들어, 컴퓨터 판독 가능 명령)을 이용해 도 1 내지 도 4의 어느 예시 과정을 구현할 수 있는데, 상기 부호화 명령은 하드 디스크, 플래시 메모리, 판독 전용 기억 장치(ROM), 씨디(CD), 디지털 비디오 디스크(DVD), 캐시 기억 장치, 램(RAM) 및/또는 어느 기타 기억 매개체와 같은 유형 컴퓨터 판독 가능 매개체에 저장되고, 상기 기억 매개체에서 정보를 임의의 시간(예를 들어, 장기간, 영구적, 단시간인 경우, 임시 버퍼링 및/또는 정보의 캐시) 저장할 수 있다. 여기에서 사용하는 경우, 상기 용어인 유형 컴퓨터 판독 가능 매개체는 어느 유형의 컴퓨터 판독 가능 메모리의 신호를 포함하도록 명확히 정의할 수 있다. 추가 또는 대체 가능하게, 부호화 명령(예를 들어, 컴퓨터 판독 가능 명령)을 이용해 도 1의 예시 과정을 구현할 수 있는데, 상기 부호화 명령은 하드 디스크, 플래시 메모리, 판독 전용 기억 장치, 씨디롬, 디지털 비디오 디스크, 캐시 기억 장치, 램 및/또는 어느 기타 기억 매개체와 같은 비일시적 컴퓨터 판독 가능 매개체에 저장하고, 상기 기억 매개체에서 정보를 임의의 시간(예를 들어, 장기간, 영구적, 단시간인 경우, 임시 버퍼링 및/또는 정보의 캐시) 저장할 수 있다.
따라서, 특정 실례를 참조해 본 발명을 서술하였지만, 여기에서, 상기 특정 실례는 예시일 뿐으로서 본 발명을 한정하지 않으며, 본 발명 기술분야의 통상적인 기술자가 본 발명의 정신과 보호 범위를 이탈하지 않는 기초 상에서 공개한 실시예를 변경, 추가 또는 삭제할 수 있는 것은 자명한 것이다.

Claims (23)

  1. 데이터 처리 방법은 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하고;
    분류 모형 중의 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측해 예측 결과를 취득하며;
    상기 예측 결과에 근거해 분류 모형을 업데이트하는 것을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  2. 제1항에 있어서,
    상기 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는 것은,
    상기 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출하고;
    상기 다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서 상기 적어도 하나의 증분 의사결정나무의 수량은 상기 다수개의 모형 의사결정나무의 수량을 기반으로 확정하는 것을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  3. 제1항 또는 제2항에 있어서,
    상기 예측 결과에 근거해 상기 분류 모형을 업데이트하는 것은,
    상기 예측 결과에 근거해 상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 종합 성능을 도출해내고;
    상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 종합 성능을 기반으로, 상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무에서 예정 수량의 의사결정나무를 선택해 업데이트한 후 분류 모형 중의 모형 의사결정나무로 하는 것을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  4. 제3항에 있어서,
    상기 예정 수량은 상기 다수개의 모형 의사결정나무의 수량과 같은 것을 특징으로 하는 데이터 처리 방법.
  5. 제3항 또는 제4항에 있어서,
    상기 예측 결과에 근거해 상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 종합 성능을 도출해내는 것은,
    상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 구축 시간과, 상기 증분 데이터에 관한 예측 정확율을 기반으로 상기 종합 성능을 확정하는 것을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  6. 제1항 내지 제5항 중 어느 한 항에 있어서,
    상기 분류 모형 중의 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무를 기반으로 증분 데이터를 예측하는 것은,
    분류 모형 중의 다수개의 모형 의사결정나무와 상기 적어도 하나의 의사결정나무를 기반으로 증분 데이터에 대해 태그 예측을 진행하는 것을 포함하는 것을 특징으로 하는 데이터 처리 방법.
  7. 제6항에 있어서,
    상기 태그 예측의 결과에 근거해 상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무가 상기 증분 데이터에 대한 예측 정확율을 확정하며;
    상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무의 구축 시간을 종합 성능 확정의 가중치로 삼고, 상기 증분 데이터의 예측 정확율을 정렬하는데, 여기에서 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작은 것을 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
  8. 제1항 내지 제7항 중 어느 한 항에 있어서,
    상기 적어도 하나의 증분 의사결정나무의 수량은 상기 다수개의 모형 의사결정나무의 수량에 근거해 확정하는 것을 특징으로 하는 데이터 처리 방법.
  9. 제8항에 있어서,
    상기 적어도 하나의 증분 의사결정나무의 수량은 상기 다수개의 모형 의사결정나무의 수량의 10% 내지 30%인 것을 특징으로 하는 데이터 처리 방법.
  10. 제1항 내지 제9항 중 어느 한 항에 있어서,
    예정 시간대 내의 상기 증분 데이터를 취득하고, 상기 분류 모형 존재 여부를 기반으로 상기 적어도 하나의 증분 의사결정나무를 생성하는 수량을 확정하며;
    여기에서, 상기 분류 모형이 존재하는 경우, 상기 증분 데이터에 근거해 상기 적어도 하나의 증분 의사결정나무를 생성하는 것을 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
  11. 제10항에 있어서,
    상기 분류 모형이 존재하지 않으면, 히스토리 데이터에 근거해 상기 다수개의 모형 의사결정나무를 포함하는 상기 분류 모형을 구축하는데, 여기에서 상기 히스토리 데이터는 이미 분류된 데이터인 것을 더 포함하는 것을 특징으로 하는 데이터 처리 방법.
  12. 증분 데이터에 근거해 적어도 하나의 증분 의사결정나무를 생성하는데 사용하는 증분 의사결정나무 생성모듈;
    분류 모형 중의 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무를 기반으로 상기 증분 데이터를 예측해 예측 결과를 취득하는데 사용하는 예측모듈;
    상기 예측 결과에 근거해 분류 모형을 업데이트하는데 사용하는 업데이트모듈;
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  13. 제12항에 있어서,
    상기 증분 의사결정나무 생성모듈은,
    상기 증분 데이터를 기반으로 다수개의 샘플 세트를 복원추출하는데 사용하는 샘플링 유닛;
    상기 다수개의 샘플 세트를 기반으로 적어도 하나의 증분 의사결정나무를 생성하되, 여기에서 상기 적어도 하나의 증분 의사결정나무의 수량을 상기 다수개의 모형 의사결정나무의 수량을 기반으로 확정하는데 사용하는 생성 유닛;
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  14. 제12항 또는 제13항에 있어서,
    상기 업데이트모듈은,
    상기 예측 결과에 근거해 상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 종합 성능을 도출하는데 사용하는 종합 성능 판정유닛;
    상기 적어도 하나의 증분 의사결정유닛과 상기 다수개의 모형 의사결정나무의 종합 성능을 기반으로, 상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무 중으로부터 예정 수량의 의사결정나무를 선택해 업데이트한 후 분류 모형 중의 모형 의사결정나무로 삼는데 사용하는 업데이트 유닛;
    을 포함하는 것을 특징으로 하는 데이터 처리 장치.
  15. 제14항에 있어서,
    상기 업데이트유닛 중의 예정 수량은 상기 다수개의 모형 의사결정나무의 수량과 같은 것을 특징으로 하는 데이터 처리 장치.
  16. 제14항 또는 제15항에 있어서,
    상기 종합 성능 판정유닛은 상기 적어도 하나의 증분 의사결정나무와 상기 다수개의 모형 의사결정나무의 구축 시간과 상기 증분 데이터에 관한 예측 정확율을 기반으로 상기 종합 성능을 확정하는데 더 사용하는 것을 특징으로 하는 데이터 처리 장치.
  17. 제12항 내지 제16항 중 어느 한 항에 있어서,
    상기 예측 모듈은 분류 모형 중의 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무를 기반으로 상기 증분 데이터에 대해 태그 예측을 진행하는데 사용하는 것을 특징으로 하는 데이터 처리 장치.
  18. 제17항에 있어서,
    상기 예측 모듈은 상기 태그 예측의 결과에 근거해 상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무가 상기 증분 데이터에 대한 예측 정확율을 확정하는데 더 사용하며; 상기 다수개의 모형 의사결정나무와 상기 적어도 하나의 증분 의사결정나무의 구축 시간을 상기 종합 성능을 확정하는 가중치로 삼고, 상기 증분 데이터의 예측 정확율을 정렬하되, 여기에서 구축 시간이 긴 의사결정나무의 가중치가 구축 시간이 짧은 의사결정나무의 가중치보다 작은 것을 특징으로 하는 데이터 처리 장치.
  19. 제12항 내지 제18항 중 어느 한 항에 있어서,
    상기 증분 의사결정나무 생성모듈 중의 상기 적어도 하나의 증분 의사결정나무의 수량은 상기 다수개의 모형 의사결정나무의 수량에 근거해 확정하는 것을 특징으로 하는 데이터 처리 장치.
  20. 제19항에 있어서,
    상기 증분 의사결정나무 생성모듈 중의 적어도 하나의 증분 의사결정나무의 수량은 상기 다수개의 모형 의사결정나무의 수량의 10% 내지 30%인 것을 특징으로 하는 데이터 처리 장치.
  21. 제12항 내지 제20항 중 어느 한 항에 있어서,
    상기 증분 의사결정나무 생성모듈은 예정 시간대 내의 상기 증분 데이터를 취득하고, 상기 분류 모형 존재 여부를 기반으로 상기 적어도 하나의 증분 의사결정나무를 생성하는 수량을 확정하는데 더 사용하며; 여기에서, 상기 분류 모형이 존재하면, 상기 증분 데이터에 근거해 상기 적어도 하나의 증분 의사결정나무를 생성하는 것을 특징으로 하는 데이터 처리 장치.
  22. 제21항에 있어서,
    상기 증분 의사결정나무 생성모듈은 상기 분류 모형이 존재하지 않으면, 히스토리 데이터에 근거해 상기 다수개의 모형 의사결정나무를 포함하는 상기 분류 모형의 구축에 더 사용하는데, 여기에서 상기 히스토리 데이터는 이미 분류된 데이터인 것을 특징으로 하는 데이터 처리 장치.
  23. 컴퓨터 판독 가능 저장 매체에 데이터 처리 프로그램이 저장되고, 상기 데이터 처리 프로그램은 프로세서에 의해 실행될 때 청구항 1 내지 청구항 11 중 어느 한 항의 상기 데이터 처리 방법의 실시를 구현하는 것을 특징으로 하는 컴퓨터 저장 매체.
KR1020197013526A 2017-06-30 2018-06-22 데이터 처리 방법과 데이터 처리 장치 KR20190075962A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201710523102.5A CN107330464A (zh) 2017-06-30 2017-06-30 数据处理方法和装置
CN201710523102.5 2017-06-30
PCT/CN2018/092390 WO2019001359A1 (zh) 2017-06-30 2018-06-22 数据处理方法和数据处理装置

Publications (1)

Publication Number Publication Date
KR20190075962A true KR20190075962A (ko) 2019-07-01

Family

ID=60199340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020197013526A KR20190075962A (ko) 2017-06-30 2018-06-22 데이터 처리 방법과 데이터 처리 장치

Country Status (4)

Country Link
US (1) US20190220710A1 (ko)
KR (1) KR20190075962A (ko)
CN (1) CN107330464A (ko)
WO (1) WO2019001359A1 (ko)

Families Citing this family (10)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置
CN108509727B (zh) * 2018-03-30 2022-04-08 深圳市智物联网络有限公司 数据建模中的模型选择处理方法及装置
CN110196792B (zh) * 2018-08-07 2022-06-14 腾讯科技(深圳)有限公司 故障预测方法、装置、计算设备及存储介质
CN110033098A (zh) * 2019-03-28 2019-07-19 阿里巴巴集团控股有限公司 在线gbdt模型学习方法及装置
CN110942338A (zh) * 2019-11-01 2020-03-31 支付宝(杭州)信息技术有限公司 一种营销赋能策略的推荐方法、装置和电子设备
CN111008119A (zh) * 2019-12-13 2020-04-14 浪潮电子信息产业股份有限公司 一种硬盘预测模型的更新方法、装置、设备及介质
CN111523908B (zh) * 2020-03-31 2023-04-07 云南省烟草质量监督检测站 一种鉴别卷烟真伪的包装机型溯源方法、装置及系统
CN112395371B (zh) * 2020-12-10 2024-05-28 深圳迅策科技有限公司 一种金融机构资产分类处理方法、装置及可读介质
CN115470397B (zh) * 2021-06-10 2024-04-05 腾讯科技(深圳)有限公司 内容推荐方法、装置、计算机设备和存储介质
CN116662815B (zh) * 2023-07-28 2023-11-10 腾讯科技(深圳)有限公司 时间预测模型的训练方法以及相关设备

Family Cites Families (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9292797B2 (en) * 2012-12-14 2016-03-22 International Business Machines Corporation Semi-supervised data integration model for named entity classification
US9427185B2 (en) * 2013-06-20 2016-08-30 Microsoft Technology Licensing, Llc User behavior monitoring on a computerized device
CN105718490A (zh) * 2014-12-04 2016-06-29 阿里巴巴集团控股有限公司 一种用于更新分类模型的方法及装置
CN106156809A (zh) * 2015-04-24 2016-11-23 阿里巴巴集团控股有限公司 用于更新分类模型的方法及装置
CN106446964B (zh) * 2016-10-21 2018-04-03 河南大学 一种增量式的梯度提升决策树更新方法
CN107330464A (zh) * 2017-06-30 2017-11-07 众安信息技术服务有限公司 数据处理方法和装置

Also Published As

Publication number Publication date
US20190220710A1 (en) 2019-07-18
WO2019001359A1 (zh) 2019-01-03
CN107330464A (zh) 2017-11-07

Similar Documents

Publication Publication Date Title
KR20190075962A (ko) 데이터 처리 방법과 데이터 처리 장치
Espeholt et al. Deep learning for twelve hour precipitation forecasts
US11636341B2 (en) Processing sequential interaction data
US8589356B2 (en) Determining a storage location based on frequency of use
CN105608200A (zh) 一种网络舆论趋势预测分析方法
CN105573995A (zh) 一种兴趣识别方法、设备以及数据分析方法
CN109635084A (zh) 一种多源数据文档实时快速去重方法及系统
WO2020253038A1 (zh) 一种模型构建方法及装置
CN111143551A (zh) 文本预处理方法、分类方法、装置及设备
CN112150214A (zh) 一种数据预测方法、装置以及计算机可读存储介质
Moniz et al. A framework for recommendation of highly popular news lacking social feedback
Pillay et al. Exploring graph neural networks for stock market prediction on the jse
US11880394B2 (en) System and method for machine learning architecture for interdependence detection
CN107562703A (zh) 字典树重构方法及系统
CN105468676A (zh) 一种大数据处理方法
Chen et al. Improving the forecasting and classification of extreme events in imbalanced time series through block resampling in the joint predictor-forecast space
CN116522912A (zh) 一种包装设计语言模型的训练方法、装置、介质及设备
CN111159397B (zh) 文本分类方法和装置、服务器
US11755831B2 (en) Detection of a topic
CN111783453B (zh) 文本的情感信息处理方法及装置
Chen et al. Evaluation of customer behaviour with machine learning for churn prediction: The case of bank customer churn in europe
CN114861004A (zh) 一种社交事件检测方法、装置及系统
CN108053260A (zh) 一种根据统计数据兴趣度确定扩展用户的方法和系统
CN107590125A (zh) 一种基于随机算法的大数据文本实时交互方法和装置
CN114580533A (zh) 特征提取模型的训练方法、装置、设备、介质及程序产品

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application