KR20200145641A

KR20200145641A - 정보 생성 방법 및 장치

Info

Publication number: KR20200145641A
Application number: KR1020190166707A
Authority: KR
Inventors: 광야오 한; 싱보 첸; 궈빈 시에; 얀장 리우; 푸 취; 리창 수에; 진 장; 웬징 친; 샤오란 뤄; 홍장 두; 저칭 장
Original assignee: 베이징 바이두 넷컴 사이언스 앤 테크놀로지 코., 엘티디.
Priority date: 2019-06-19
Filing date: 2019-12-13
Publication date: 2020-12-30
Also published as: US11436540B2; CN110263938A; KR102308002B1; CN110263938B; JP2021002315A; JP6868677B2; US20200401950A1

Abstract

본 발명의 실시예는 정보 생성 방법 및 장치를 제공한다. 상기 정보 생성 방법의 일 구체적인 실시형태는 모델링 요청을 수신하는 단계; 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 타겟 개수의 초기 머신 러닝 파이프라인을 결정하는 단계; 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하는 단계 - 상기 모형 생성 단계는 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계; 트레이닝용 데이터, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 단계; 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 단계; 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 단계; 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 단계를 수행하는 단계를 포함함 - 를 포함한다. 상기 실시형태는 모형의 자동화 생성을 실현한다.

Description

정보 생성 방법 및 장치{METHOD AND APPARATUS FOR GENERATING INFORMATION}

본 발명의 실시예는 컴퓨터 기술분야에 관한 것이고, 구체적으로 정보 생성 방법 및 장치에 관한 것이다.

머신 러닝 분야에서 머신 러닝 알고리즘을 사용하여 모델링을 진행하는 요구조건이 높고 모형 파라미터를 인위적으로 조정하는 원가가 높기에 자동화 모델링에 대한 관심이 점점 높아지고 있다. 자동화 모델링은 사용이 간단하기에 머신 러닝 방면에 대한 기초가 약한 사람들이 빨리 입문할 수 있다. 또한 모형 흐름 및 파라미터를 인위적으로 조정하는 시간을 대폭 절약할 수 있다. 타겟 자동화 모델링은 여전히 발전 중이며 대량의 연구는 모두 모색 중이다.

본 발명은 정보 생성 방법 및 장치를 제공한다.

제1 양태에 있어서, 정보 생성 방법에 있어서, 모델링 요청을 수신하는 단계 - 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함함 - ; 상기 트레이닝용 데이터의 타입 및 상기 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하는 단계 - 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것임 - ; 상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하는 단계를 포함하되, 상기 모형 생성 단계는, 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계; 상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 단계; 상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 단계; 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 단계; 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 단계를 포함하는 방법을 제공한다.

일부 실시예에 있어서, 상기 정보 생성 방법은, 기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 상기 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 상기 모형 생성 단계를 계속하여 수행하는 단계를 더 포함한다.

일부 실시예에 있어서, 상기 정보 생성 방법은, 상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 상기 타겟 트레이닝 후 모형을 평가하는 단계; 및 상기 모형 파일 및 상기 타겟 트레이닝 후 모형의 평가 결과를 푸시하는 단계를 더 포함한다.

일부 실시예에 있어서, 상기 모델링 요청은 최대 반복(iteration) 횟수를 더 포함하고, 상기 트레이닝 종료 조건은, 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하는 조건; 및 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 상기 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함한다.

일부 실시예에 있어서, 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는, 기설정된 교환 비율에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 상기 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계를 수행하는 단계; 및 상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 상기 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성하는 단계를 포함하되, 상기 데이터 교환 단계는, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 수행하는 단계를 포함한다.

일부 실시예에 있어서, 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계를 수행하는 단계 - 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함함 - ; 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 상기 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 상기 데이터 교환 단계를 계속하여 수행하는 단계를 포함한다.

일부 실시예에 있어서, 초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함하고, 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜 새로운 머신 러닝 파이프라인을 생성하는 단계를 포함한다.

제2 양태에 있어서, 정보 생성 장치에 있어서, 모델링 요청을 수신하는 수신 유닛 - 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함함 - ; 상기 트레이닝용 데이터의 타입 및 상기 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하는 결정 유닛 - 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것임 - ; 및 상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하는 생성 유닛 - 상기 생성 유닛은 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 제1 생성 모듈; 상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 제2 생성 모듈; 상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 평가 모듈; 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 조건 확정 모듈; 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 모형 결정 모듈을 포함함 - ;을 포함하는, 정보 생성 장치를 제공한다.

일부 실시예에 있어서, 상기 정보 생성 장치는, 기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 상기 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 상기 모형 생성 단계를 계속하여 수행하는 선택 유닛을 더 포함한다.

일부 실시예에 있어서, 상기 정보 생성 장치는, 상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 상기 타겟 트레이닝 후 모형을 평가하는 파일 생성 유닛; 및 상기 모형 파일 및 상기 타겟 트레이닝 후 모형의 평가 결과를 푸시하는 푸시 유닛을 더 포함한다.

일부 실시예에 있어서, 상기 모델링 요청은 최대 반복 횟수를 더 포함하고, 상기 트레이닝 종료 조건은, 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하는 조건; 및 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 상기 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함한다.

일부 실시예에 있어서, 상기 제1 생성 모듈은 또한, 기설정된 교환 비율에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 상기 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 상기 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성한다.

일부 실시예에 있어서, 상기 제1 생성 모듈은 또한, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고; 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 상기 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 상기 데이터 교환 단계를 계속하여 수행한다.

일부 실시예에 있어서, 초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함하고, 상기 제1 생성 모듈은 또한, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜 새로운 머신 러닝 파이프라인을 생성한다.

제3 양태에 있어서, 하나 또는 복수의 프로세서; 및 하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 기기에 있어서, 상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하도록 하는 기기를 제공한다.

제4 양태에 있어서, 컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체로서, 상기 프로그램은 프로세서에 의해 수행될 경우, 제1 양태 중 어느 한 실시예에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체를 제공한다.

본 발명의 실시예가 제공하는 정보 생성 방법 및 장치는, 모델링 요청을 수신하고, 모델링 요청 중 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 타겟 개수의 초기 머신 러닝 파이프라인을 결정하며, 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하되, 우선 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하고; 다음 트레이닝용 데이터, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하며; 그 다음 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하고; 마지막으로 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하고, 기설정된 트레이닝 종료 조건에 도달하면 평가 결과에 따라 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정함으로써, 모형의 자동화 생성을 실현한다.

아래 첨부 도면에 도시된 비제한적인 실시예의 상세한 설명에 대한 열독 및 참조를 통해 본 발명의 다른 특징, 목적 및 이점은 보다 명백해질 것이다.
도 1은 본 발명의 일 실시예가 구현될 수 있는 예시적 시스템 아키텍처이다.
도 2는 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도이다.
도 3은 본 발명에 따른 정보 생성 방법의 일 응용 상황의 모식도이다.
도 4는 본 발명에 따른 정보 생성 방법의 다른 일 실시예의 흐름도이다.
도 5는 본 발명에 따른 정보 생성 장치의 일 실시예의 구조 모식도이다.
도 6은 본 발명의 실시예에 따른 기기를 구현할 수 있는 컴퓨터 시스템의 구조 모식도이다.

이하 첨부 도면 및 실시예를 결부시켜 본 발명을 더욱 자세히 설명한다. 여기서 설명되는 구체적인 실시예는 관련 발명을 해석하기 위한 것일 뿐 본 발명은 이에 한정되지 않음을 이해할 수 있을 것이다. 이 밖에, 설명의 편의를 위해 도면에는 해당 발명과 관련된 부분만이 도시되었음을 유의해야 한다.

모순되지 않는 한 본 발명의 실시예 및 실시예 중의 특징은 서로 결합될 수 있음을 유의해야 한다. 이하 첨부 도면을 참조하고 실시예를 결부시켜 본 발명을 상세히 설명하기로 한다.

도 1은 본 발명의 실시예에 따른 정보 생성 방법 또는 정보 생성 장치를 구현할 수 있는 예시적 시스템 아키텍처(100)이다.

도 1에 도시된 바와 같이, 시스템 아키텍처(100)는 단말 기기(101, 102, 103), 네트워크(104) 및 서버(105)를 포함할 수 있다. 네트워크(104)는 단말 기기(101, 102, 103)와 서버(105) 사이에서 통신 링크의 매체를 제공한다. 네트워크(104)는 다양한 연결 타입을 포함할 수 있는 바, 예를 들면 유선, 무선 통신 링크 또는 광섬유 케이블 등이다.

사용자는 단말 기기(101, 102, 103)를 사용하여 네트워크(104)를 통해 서버(105)와 인터랙션 함으로써 메시지 등을 수신 또는 송신할 수 있다. 단말 기기(101, 102, 103)에는 다양한 통신 클라이언트 애플리케이션이 설치될 수 있는 바, 예를 들면 자동화 모델링 소프트웨어, 웹페이지 브라우징 애플리케이션, SNS 소프트웨어 등이다.

단말 기기(101, 102, 103)는 하드웨어일 수 있고 소프트웨어일 수도 있다. 단말 기기(101, 102, 103)가 하드웨어인 경우 디스플레이 스크린을 구비하여 정보 입력을 지원하는 다양한 전자 기기일 수 있으며, 스마트폰, 태블릿PC, 휴대형 랩톱 및 데스크톱 등을 포함하나 이에 한정되는 것은 아니다. 단말 기기(101, 102, 103)가 소프트웨어인 경우 상기 열거된 전자 기기에 설치될 수 있다. 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.

서버(105)는 다양한 서비스를 제공하는 서버일 수 있고, 예를 들면 단말 기기(101, 102, 103)가 송신한 모델링 요청에 따라 타겟 트레이닝 후 모형을 생성하는 백그라운드 서버일 수 있다. 백그라운드 서버는 수신된 모델링 요청에 대해 분석 등 처리를 진행하고 처리 결과(예를 들면 생성된 모듈)를 단말 기기(101, 102, 103)에 피드백할 수 있다. 설명해야 할 것은, 서버(105)는 하드웨어 또는 소프트웨어일 수 있다. 서버(105)가 하드웨어인 경우 복수의 서버로 구성된 분산형 서버 클러스터로 구현될 수 있고, 하나의 서버로 구현될 수도 있다. 서버(105)가 소프트웨어인 경우 복수의 소프트웨어 또는 소프트웨어 모듈(예를 들면 분산형 서비스를 제공함)로 구현되거나, 하나의 소프트웨어 또는 소프트웨어 모듈로 구현될 수 있으며 여기서는 구체적으로 한정하지 않는다.

도 1 중의 단말 기기, 네트워크 및 서버의 개수는 예시적인 것일 뿐이며, 실시 필요에 따라 임의의 개수의 단말 기기, 네트워크 및 서버를 구비할 수 있다.

설명해야 할 것은, 본 발명의 실시예가 제공하는 정보 생성 방법은 단말 기기(101, 102, 103)에 의해 수행될 수 있고, 서버(105)에 의해 수행될 수도 있다. 상응하게, 정보 생성 장치는 단말 기기(101, 102, 103)에 설치될 수 있고, 서버(105)에 설치될 수도 있다.

계속하여 도 2를 참조하면, 본 발명에 따른 정보 생성 방법의 일 실시예의 흐름도(200)이다. 상기 정보 생성 방법은 하기 단계를 포함한다.

단계(201)에서 모델링 요청을 수신한다.

본 실시예에서, 정보 생성 방법의 수행 주체(예를 들면 도 1에 도시된 단말 기기(101, 102, 103) 또는 서버(105))는 모델링 요청을 수신할 수 있다. 예시적으로, 수행 주체가 단말 기기일 경우 수행 주체는 사용자가 입력한 모델링 요청을 직접 수신할 수 있고, 수행 주체가 서버일 경우 수행 주체는 유선 연결 방식 또는 무선 연결 방식을 통해 사용자로부터 정보를 입력하는 단말기를 이용하여 모델링 요청을 수신할 수 있다. 여기서 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표 등을 포함한다. 여기서 트레이닝용 데이터는 머신 러닝 모형을 트레이닝하기 위한 데이터를 가리킬 수 있다. 모형 카테고리는 사용자가 얻고자 하는 모형의 종류를 가리킬 수 있으며, 예시적으로 모형 종류는 이중 모형, 다중 모형, 클러스터 모형, 회귀 모형 등을 포함할 수 있다. 타겟 개수는 트레이닝용 데이터의 타입에 따라 초기 머신 러닝 파이프라인을 생성하는 개수를 가리킬 수 있다. 여기서 트레이닝용 데이터의 타입은 문자열 타입 또는 수치 타입을 포함할 수 있다. 평가 지표는 모형 트레이닝 과정에서 트레이닝을 거쳐 얻은 모형을 평가할 수 있다.

실제 응용에서, 사용자가 모델링 요청을 입력 시 그중의 하나를 선택하도록 각각의 모형 종류에 대해 수행 주체는 여러가지 상이한 평가 지표를 미리 설정할 수 있다. 예시적으로, 이중 모형에 대해 설정한 평가 지표는 AUC(Area Under Curve, ROC곡선 하기 좌표축으로 둘러싸인 면적), accuracy(정확도), pr곡선, logloss(로그 손실), precision(정밀도), recall(재현율), f1값, ks값 등을 포함하나 이에 한정되는 것은 아니다. 다중 모형에 대해 미리 설정한 평가 지표는 accuracy, precision, recall, f1값 등을 포함하나 이에 한정되는 것은 아니다. 클러스터 모형에 대해 설정한 평가 지표는 실루엣 계수를 포함하나 이에 한정되는 것은 아니다. 회귀 모형에 대해 설정한 평가 지표는 RMSE(Root Mean Squared Error, 평균 제곱근 오차), MSE(Mean Squared Error, 평균 제곱 오차), MAE(Mean Absolute Error, 평균 절댓값 오차), MAPE(Mean Absolute Percentage Error, 평균 절댓값 백분율 오차), SSREG(sum of squares for regression, 회귀 제곱 합), R2등을 포함하나 이에 한정되는 것은 아니다.

단계(202)에서 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 타겟 개수의 초기 머신 러닝 파이프라인을 결정한다.

본 실시예에서, 수행 주체는 모델링 요청 중의 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 타겟 개수의 초기 머신 러닝 파이프라인을 결정할 수 있다. 예시적으로, 트레이닝용 데이터의 타입은 문자열 타입 및 수치 타입을 포함할 수 있다. 여기서 초기 머신 러닝 파이프라인은 모형 트레이닝을 진행할 수 있다. 초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함할 수 있고, 모형 트레이닝 프로세스는 머신 러닝 모형에 대해 트레이닝을 진행하고, 모형 트레이닝 프로세스를 거쳐 트레이닝된 모형의 종류와 상기 모형 카테고리는 동일하다.

일반적으로, 하나의 머신 러닝 모형의 생성 과정은 데이터 수집으로부터 시작되어 원시데이터의 추출, 변환, 전처리, 특징 공학(feature engineering), 특징 선택, 모형 트레이닝 등 복수의 프로세스를 거쳐야만 트레이닝 후의 머신 러닝 모형을 얻을 수 있다. 전반 과정은 파이프라이닝 작업과 유사하다. 각각의 프로세스는 파이프라이닝 작업 중의 하나의 작업흐름 프로세스로 볼 수 있다. 이러한 파이프라이닝 작업은 머신 러닝 파이프라인으로 사용될 수 있다. 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 모형 트레이닝 프로세스를 순서있게 하나로 조합하여 머신 러닝 모형 트레이닝의 작업흐름을 형성할 수 있다.

실제 응용에서, 각각의 트레이닝용 데이터의 타입에 대해 수행 주체 내부에 여러가지 프로세스 조합을 미리 설정할 수 있고, 각각의 프로세스 조합은 복수의 프로세스를 포함하며, 각각의 프로세스 조합은 하나의 머신 러닝 파이프라인을 구축할 수 있다. 이로써 수행 주체는 수신된 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 상기 타입에 대해 설정한 여러가지 프로세스 조합에서 프로세스 조합을 선택(예를 들면 랜덤 선택)하여 머신 러닝 파이프라인을 구축할 수 있다. 예시적으로, 수치 타입에 대해, 수행 주체는 하기와 같은 여러가지 프로세스 조합을 미리 설정할 수 있다. 1)특징 벡터화 + 모형 트레이닝; 2)데이터 비닝(binning) + 특징 벡터화 + 모형 트레이닝; 3)특징 벡터화 + 특징 공학 + 모형 트레이닝; 4)특징 벡터화 + 특징 선택 + 모형 트레이닝.5)데이터 비닝 + 특징 벡터화 + 특징 공학 + 모형 트레이닝; 6)데이터 비닝 + 특징 벡터화 + 특징 선택 + 모형 트레이닝; 7)특징 벡터화 + 특징 선택 + 특징 공학 + 모형 트레이닝; 8)데이터 비닝 + 특징 벡터화 + 특징 선택 + 특징 공학 + 모형 트레이닝. 예시적으로, 문자열 타입에 대해, 수행 주체는 하기와 같은 여러가지 프로세스 조합을 미리 설정할 수 있다. 1)수치화 + 원-핫 인코딩 + 특징 벡터화 + 모형 트레이닝; 2)수치화 + 원-핫 인코딩 + 데이터 비닝 + 특징 벡터화 + 모형 트레이닝; 3)수치화 + 원-핫 인코딩 + 특징 벡터화 + 특징 공학 + 모형 트레이닝; 4)수치화 + 원-핫 인코딩 + 특징 벡터화 + 특징 선택 + 모형 트레이닝.5)수치화 + 원-핫 인코딩 + 데이터 비닝 + 특징 벡터화 + 특징 공학 + 모형 트레이닝; 6)수치화 + 원-핫 인코딩 + 데이터 비닝 + 특징 벡터화 + 특징 선택 + 모형 트레이닝; 7)수치화 + 원-핫 인코딩 + 특징 벡터화 + 특징 선택 + 특징 공학 + 모형 트레이닝; 8)수치화 + 원-핫 인코딩 + 데이터 비닝 + 특징 벡터화 + 특징 선택 + 특징 공학 + 모형 트레이닝. 실제 응용에서, 결정된 타겟 개수의 초기 머신 러닝 파이프라인 중의 각각의 초기 머신 러닝 파이프라인의 모형 트레이닝 프로세스에 대응되는 모형의 종류와 모델링 요청 중의 모형 카테고리는 동일하다.

여기서 프로세스 조합 중의 일부 프로세스는 수행 주체가 선택(예를 들면 랜덤 선택)할 수 있도록 다양한 방식을 더 포함할 수 있다. 예시적으로, 특징 공학은 수치화, 원-핫 인코딩, 정규화(Normalization), 표준화, 정규화(regularization), IDF(Inverse Document Frequency, 역문서 빈도 지수) 계산 등을 포함하나 이에 한정되는 것은 아니다. 데이터 비닝은 동일 폭 비닝, 동일 빈도수 비닝을 포함하나 이에 한정되는 것은 아니다. 특징 선택은 PCA(Principal Components Analysis, 주요소 분석) 차원 감소, 카이제곱 특징 선택, 다항 특징 비선형 변환 등을 포함하나 이에 한정되는 것은 아니다. 모형 트레이닝 프로세스에 의해 트레이닝된 모형은 이중 모형, 다중 모형, 클러스터 모형, 회귀 모형 등을 포함하나 이에 한정되는 것은 아니다. 여기서 분류 모형은 로지스틱 회귀, 랜덤 포레스트, 의사결정나무, 네이브 베이지언 알고리즘, xgboost(eXtreme Gradient Boosting, 익스트림 경사 부스팅) 알고리즘 등을 포함하나 이에 한정되는 것은 아니다. 회귀 모형은 선형 회귀, 랜덤 포레스트 회귀, 의사결정나무 회귀, xgboost회귀 등을 포함하나 이에 한정되는 것은 아니다. 클러스터 모형은 K 평균 클러스터, 가우시안 혼합 클러스터 등을 포함하나 이에 한정되는 것은 아니다.

단계(203)에서 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계(2031 ~ 2035)를 수행한다.

본 실시예에서, 수행 주체는 단계(202)에서 생성된 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계(2031 ~ 2034)를 수행할 수 있다.

단계(2031)에서 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 타겟 개수의 새로운 머신 러닝 파이프라인을 생성한다.

본 실시예에서, 수행 주체는 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여 타겟 개수의 새로운 머신 러닝 파이프라인을 생성할 수 있다. 예를 들면, 타겟 개수가 10이라고 가정하면, 수행 주체는 10개의 초기 머신 러닝 파이프라인에 기반하여 10개의 새로운 머신 러닝 파이프라인을 생성할 수 있다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 단계(2031)은 구체적으로 하기와 같이 수행될 수 있다.

단계(S1)에서 기설정된 교환 비율에 따라, 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계(S11 ~ S13)을 수행한다.

본 실시형태에서, 수행 주체 내에 교환 비율을 미리 설정할 수 있다. 이로써 수행 주체는 교환 비율에 따라 타겟 개수의 초기 머신 러닝 파이프라인으로부터 짝수개의 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성할 수 있다. 예시적으로, 수행 주체는 교환 비율과 타겟 개수의 곱을 계산할 수 있는데, 만약 얻은 곱이 짝수이면 타겟 개수의 초기 머신 러닝 파이프라인으로부터 개수가 곱만큼인 초기 머신 러닝 파이프라인을 랜덤으로 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고; 만약 얻은 곱이 홀수이면 타겟 개수의 초기 머신 러닝 파이프라인으로부터 곱에 1을 더한 개수(또는 1을 던 개수)의 초기 머신 러닝 파이프라인을 랜덤으로 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성할 수 있다. 다음, 수행 주체는 초기 머신 러닝 파이프라인 부분집합 중의 짝수 개의 초기 머신 러닝 파이프라인을 둘둘씩 랜덤으로 매칭시키고, 각 쌍의 초기 머신 러닝 파이프라인에 대해 데이터 교환 단계(S11 ~ S13)를 수행할 수 있다.

단계(S11)에서 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정한다.

본 실시형태에서, 수행 주체는 각 쌍의 초기 머신 러닝 파이프라인에서 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정할 수 있다. 여기서 하나의 초기 머신 러닝 파이프라인에 대응되는 모형은 상기 초기 머신 러닝 파이프라인의 모형 트레이닝 프로세스가 트레이닝 하고자 하는 머신 러닝 모형일 수 있다. 예시적으로, 수행 주체는 모형 구조를 통해 2개의 모형이 같은지의 여부를 판단할 수 있으며, 모형 구조가 같으면 이 2개의 모형이 같다고 결정하고, 모형 구조가 다르면 이 2개의 모형이 다르다고 결정한다.

단계(S12)에서 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는다.

본 실시형태에서, 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같으면, 수행 주체는 2개의 모형의 모형 파라미터를 교환할 수 있다. 예시적으로, 2개의 모형의 모든 모형 파라미터를 교환할 수 있고, 부분적인 모형 파라미터를 랜덤으로 교환할 수도 있다. 이로써 2개의 새로운 머신 러닝 파이프라인을 얻는다. 예를 들면, 초기 머신 러닝 파이프라인1이 데이터 비닝 + 특징 벡터화 + 의사결정나무모형 트레이닝을 포함하고, 초기 머신 러닝 파이프라인2가 특징 벡터화 + 특징 선택 + 특징 공학 + 의사결정나무 모형 트레이닝을 포함한다고 가정할 수 있다. 초기 머신 러닝 파이프라인1과 초기 머신 러닝 파이프라인2에 대응되는 모형은 모두 의사결정나무 모형이기에, 의사결정나무 모형의 모형 파라미터를 교환하여 모형 파라미터가 변화된 2개의 새로운 머신 러닝 파이프라인을 얻을 수 있다.

단계(S13)에서, 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계.

본 실시형태에서, 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 다르면, 수행 주체는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻을 수 있다.

단계(S2)에서, 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성한다.

본 실시형태에서, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 각각의 초기 머신 러닝 파이프라인에 대해, 수행 주체는 상기 초기 머신 러닝 파이프라인에 기반하여 하나의 새로운 머신 러닝 파이프라인을 생성할 수 있다. 예시적으로, 수행 주체는 상기 초기 머신 러닝 파이프라인 중의 하나 또는 복수의 데이터 처리 프로세스를 랜덤으로 선택하여 변경할 수 있으며, 예를 들어 랜덤 변화 방식, 랜덤 파라미터 변화 등이다.

본 실시형태에서 새로운 머신 러닝 파이프라인을 생성하는 방식은 유전 알고리즘(Genetic Algorithm, GA)의 교차 및 변이와 유사할 수 있다. 유전 알고리즘에서 교차의 이념은 우수한 개체와 우수한 개체가 결합하면 높은 확률로 더 우수한 개체가 생성되어 개체가 최적의 값에 가까울 수 있다는 것이다. 유전 알고리즘에서 변이의 이념은 개체 돌연변이가 더 우수한 개체를 생성될 수 있고 더 열등한 개체가 생성될 수도 있으며 열등한 개체는 추후 반복 과정에서 도태되고 좋은 개체는 남게 되어 더 좋은 개체를 생성하게 된다. 변이는 최적화 경로에서 일부 최적의 값을 선택하여 전체적으로 최적의 값에 가깝게 한다. 유전 알고리즘 중의 교차 및 변이 이념을 통해 머신 러닝 파이프라인에 대응되는 모형 및 파라미터를 수정함으로써 자동화 모델링 과정에서 끊임없이 새로운 머신 러닝 파이프라인을 생성하여 후속적으로 선택 및 사용할 수 있게 된다. 다음 모형 생성 단계를 순환 수행하여 더 우수한 모형을 생성할 수 있다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 단계(2031)은 구체적으로 하기 단계를 더 포함할 수 있다.

단계 (1), 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계(1) ~ 3))을 수행한다.

본 실시형태에서, 상기 타겟 개수는 짝수이다. 수행 주체는 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 랜덤으로 선택하여 데이터 교환 단계(1) ~ 3))을 수행할 수 있다.

단계(1)), 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정한다.

본 실시형태에서, 수행 주체는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 판단할 수 있다.

단계(2)), 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는다.

본 실시형태에서, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같다고 판단되면, 수행 주체는 이 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는다.

단계(3)), 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는다.

본 실시형태에서, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 다르다고 판단되면, 수행 주체는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는다.

단계(2), 타겟 개수의 초기 머신 러닝 파이프라인으로부터 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 데이터 교환 단계를 계속하여 수행한다.

본 실시형태에서, 수행 주체는 또한 타겟 개수의 초기 머신 러닝 파이프라인으로부터 다시 2개의 상기 데이터 교환 단계를 수행하지 않은 초기 머신 러닝 파이프라인을 선택하여, 타겟 개수의 초기 머신 러닝 파이프라인이 모두 상기 데이터 교환 단계를 수행할 때까지 상기 데이터 교환 단계를 계속하여 수행할 수 있다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 단계(2031)은 구체적으로 하기 단계를 더 포함할 수 있다. 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜, 새로운 머신 러닝 파이프라인을 생성한다.

본 실시형태에서, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 각각의 머신 러닝 파이프라인에 대해, 수행 주체는 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시키는데, 예를 들면 랜덤 변화 방식, 랜덤 변화 파라미터 등에 의해 새로운 머신 러닝 파이프라인을 생성할 수 있다.

단계(2032)에서 트레이닝용 데이터, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성한다

본 실시예에서, 수행 주체는 트레이닝용 데이터, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성할 수 있다. 구체적으로, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인 중의 각각의 머신 러닝 파이프라인에 대해, 수행 주체는 트레이닝용 데이터를 입력 데이터로 하여 상기 머신 러닝 파이프라인에 입력하고, 입력 데이터는 스트림 방식으로 순차적으로 상기 머신 러닝 파이프라인 중의 각각의 데이터 처리 프로세스에 의해 처리된다. 즉 하나의 데이터 처리 프로세스가 데이터 처리를 완료한 후, 처리 결과는 다음 데이터 처리 프로세스에 전달하여 진일보한 처리를 진행한다. 이로써 모형 트레이닝을 완료하여 트레이닝 후 모형을 얻는다. 여기서 하나의 머신 러닝 파이프라인을 통해 하나의 트레이닝 후 모형을 얻을 수 있다. 실제 응용에서, 모형 트레이닝 효율을 향상시키기 위해, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 대해 분산형으로 모형 트레이닝을 진행할 수 있다. 예시적으로, 본 실시에는 Spark 프레임에 기반하여 설계를 진행한다. Spark는 대규모 데이터 처리를 위해 전문적으로 설계한 쾌속 범용 계산 엔진이다. 이롯 모형 트레이닝 효율을 크게 높일 수 있다.

단계(2033)에서 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가한다.

본 실시예에서, 수행 주체는 모델링 요청 중의 평가 지표에 따라, 얻은 각각의 트레이닝 후 모형을 각각 평가하여 평가 결과를 얻을 수 있다.

단계(2034)에서 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정한다.

본 실시예에서, 수행 주체에는 기설정된 트레이닝 종료 조건이 저장되고, 현재 조건이 트레이닝 종료 조건에 도달하였는지를 판단할 수 있다. 여기서 상기 트레이닝 종료 조건은 실제 필요에 따라 설정될 수 있다.

본 실시예의 일부 가능한 실시형태에 따르면, 단계 201에서 수신된 모델링 요청은 최대 반복 횟수를 더 포함할 수 있다. 여기서 최대 반복 횟수는 사용자가 설정한 것으로서, 상기 모형 생성 단계의 수행을 허용하는 횟수의 최댓값을 가리킬 수 있다.

단계(2034)중의 트레이닝 종료 조건은 1) 모형 생성 단계의 수행 횟수가 최대 반복 횟수에 도달하는 조건; 및 2) 모형 생성 단계의 수행 횟수가 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함한다.

본 실시형태에서, 모형 생성 단계를 수행할 때마다 수행 주체는 모형 생성 단계의 총 수행 횟수가 최대 반복 횟수에 도달했는지 판단할 수 있다. 최대 반복 횟수에 도달하면, 수행 주체는 현재 시각에 기설정된 트레이닝 종료 조건 1)에 도달한 것으로 결정한다. 최대 반복 횟수에 도달하지 않으면, 수행 주체는 단계(2033)의 평가 결과에 따라 모형 생성 단계를 기설정된 횟수만큼 연속 수행한 후 매 번 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하였는지를 진일보로 판단한다. 변하지 않았으면 수행 주체는 현재 시각에 기설정된 트레이닝 종료 조건 2)에 도달한 것으로 결정한다. 여기서 최적의 트레이닝 후 모형은 매 번 모형 생성 단계를 수행한 다음 모델링 요청 중의 평가 지표에 따라 결정된 최적의 트레이닝 후 모형일 수 있다.

단계(2035)에서 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정한다.

본 실시예에서, 현재 조건이 기설정된 트레이닝 종료 조건에 도달하였다고 결정되면, 수행 주체는 평가 결과에 따라 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정할 수 있다. 예를 들면, 수행 주체는 평가 결과에 따라 단계 2032에서 얻은 모든 트레이닝 후 모형을 우수한 것으로부터 열등한 것으로의 순서에 따라 배열하고 제일 앞에 위치한 트레이닝 후 모형을 타겟 트레이닝 후 모형로 선택할 수 있다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 정보 생성 방법은 하기 단계를 더 포함할 수 있다.

우선 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 타겟 트레이닝 후 모형을 평가한다.

본 실시예에서, 타겟 트레이닝 후 모형을 결정한 후, 수행 주체는 또한 상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성할 수 있다. 예시적으로, 모형 파일은 pmml(Predictive Model Markup Language, 예측 모형 생성 언어) 파일일 수 있다. 아울러, 수행 주체는 다양한 기설정된 평가 지표를 사용하여 타겟 트레이닝 후 모형을 평가할 수 있다. 여기서 타겟 트레이닝 후 모형의 평가에 사용되는 평가 지표는 모델링 요청 중의 평가 지표와 같을 수 있고, 다를 수도 있다.

다음, 모형 파일 및 타겟 트레이닝 후 모형의 평가 결과를 푸시한다.

본 실시예에서, 수행 주체는 생성된 모형 파일 및 타겟 트레이닝 후 모형의 평가 결과를 푸시할 수 있다. 예시적으로, 수행 주체는 타겟 트레이닝 후 모형의 모형 파일 및 평가 결과를 모델링 요청을 송신한 사용자에게 푸시할 수 있다. 여기서 수행 주체는 타겟 트레이닝 후 모형에 대응되는 머신 러닝 파이프라인의 각각의 데이터 처리 프로세스의 정보를 사용자에게 푸시할 수 있다. 여기서 타겟 트레이닝 후 모형에 대응되는 머신 러닝 파이프라인은 타겟 트레이닝 후 모형을 생성하는 머신 러닝 파이프라인을 가리킨다.

계속하여 도 3을 참조하면, 도 3은 본 실시예에 따른 정보 생성 방법의 응용 상황의 일 모식도이다. 도 3의 응용 상황에서 서버(301)는 사용자가 단말 기기(302)를 통해 송신한 모델링 요청을 수신하고, 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 15 및 평가 지표를 포함한다. 다음, 서버(301)는 트레이닝용 데이터의 타입 및 모형 카테고리를 사용하여, 15개의 초기 머신 러닝 파이프라인을 결정한다. 서버(301)는 15개의 초기 머신 러닝 파이프라인을 사용하여 아래 모형 생성 단계를 수행한다, 우선, 15개의 초기 머신 러닝 파이프라인에 기반하여, 15개의 새로운 머신 러닝 파이프라인을 생성하고; 다음, 트레이닝용 데이터, 15개의 초기 머신 러닝 파이프라인 및 15개의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 진행하여, 30개의 트레이닝 후 모형을 생성한다. 그 다음, 평가 지표에 따라, 얻은 30개의 트레이닝 후 모형을 각각 평가한다. 마지막으로, 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하고, 기설정된 트레이닝 종료 조건에 도달하면 평가 결과에 따라, 얻은 30개의 트레이닝 후 모형으로부터 하나의 최적의 트레이닝 후 모형을 타겟 트레이닝 후 모형으로 선택하고, 타겟 트레이닝 후 모형에 대응되는 모형 파일을 단말 기기(302)에 송신한다.

본 발명의 상기 실시예가 제공하는 방법은 사용자가 송신한 모델링 요청에 따라 타겟 트레이닝 후 모형을 자동으로 생성함으로써 모형의 자동화 생성을 실현한다.

나아가 도 4를 참조하면, 이는 정보 생성 방법의 다른 일 실시예의 흐름(400)을 도시하고 상기 정보 생성 방법의 흐름(400)은 하기와 같은 단계를 포함한다.

단계(401)에서 모델링 요청을 수신한다.

본 실시예에서, 단계(401)은 도 2에 도시된 실시예의 단계(201)과 유사하기에 여기서는 더이상 설명하지 않는다.

단계(402)에서 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 타겟 개수의 초기 머신 러닝 파이프라인을 결정한다.

본 실시예에서, 단계(402)는 도 2에 도시된 실시예의 단계(202)와 유사하기에 여기서는 더이상 설명하지 않는다.

단계(403)에서 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계(4031~4035)를 수행한다.

본 실시예에서, 수행 주체는 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계(4031~4035)를 수행할 수 있다.

단계(4031)에서 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 타겟 개수의 새로운 머신 러닝 파이프라인을 생성한다.

본 실시예에서, 단계(4031)은 도 2에 도시된 실시예의 단계(2031)과 유사하기에 여기서는 더이상 설명하지 않는다.

단계(4032)에서 트레이닝용 데이터, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성한다.

본 실시예에서, 단계(4032)는 도 2에 도시된 실시예의 단계(2032)와 유사하기에 여기서는 더이상 설명하지 않는다.

단계(4033)에서 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가한다.

본 실시예에서, 단계(4033)은 도 2에 도시된 실시예의 단계(2033)과 유사하기에 여기서는 더이상 설명하지 않는다.

단계(4034)에서 설정된 트레이닝 종료 조건에 도달하였는지의 여부를 결정한다.

본 실시예에서, 단계(4034)는 도 2에 도시된 실시예의 단계(2034)와 유사하기에 여기서는 더이상 설명하지 않는다.

단계(4035)에서 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정한다.

본 실시예에서, 단계(4035)는 도 2에 도시된 실시예의 단계(2035)와 유사하기에 여기서는 더이상 설명하지 않는다.

단계(404), 기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 모형 생성 단계를 계속하여 수행한다.

본 실시예에서, 기설정된 트레이닝 종료 조건에 도달하지 못하였다고 결정되면, 수행 주체는 단계(4033)에서 얻은 평가 결과에 따라 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 타겟 개수의 머신 러닝 파이프라인을 선택하여 새로운 초기 머신 러닝 파이프라인으로 하여 상기 모형 생성 단계를 계속하여 수행한다. 예시적으로, 수행 주체는 생성된 트레이닝 후 모형의 평가 결과에 따라 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인을 우수한 것으로부터 열등한 것으로의 순서에 따라 배열하고, 타겟 개수의 앞쪽에 위치한 머신 러닝 파이프라인을 새로운 초기 머신 러닝 파이프라인으로 선택한다. 예를 들면, 타겟 개수가 10개라고 가정하면, 초기 머신 러닝 파이프라인은 머신 러닝 파이프라인0-9을 포함하고, 새로운 머신 러닝 파이프라인은 머신 러닝 파이프라인10-19을 포함한다. 생성된 트레이닝 후 모형의 평가 결과에 따라 머신 러닝 파이프라인0-9 및 머신 러닝 파이프라인10-19을 우수한 것으로부터 열등한 것으로의 순서에 따라 배열하고, 앞쪽 10개에 위치한 10개의 머신 러닝 파이프라인을 새로운 초기 머신 러닝 파이프라인으로 선택한다.

도 4에 도시된 바와 같이, 도 2에 대응되는 실시예와 비교하면 본 실시예의 정보 생성 방법의 흐름(400)은 트레이닝 종료 조건에 도달하지 못했을 경우 타겟 개수의 초기 머신 러닝 파이프라인 및 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여, 모형 생성 단계를 계속하여 수행하는 단계를 강조한다. 따라서 본 실시예에 기술된 해결수단은 모형 생성 단계를 반복 수행하여 모형을 자동으로 생성하는 효과를 향상시킬 수 있다.

나아가 도 5를 참조하면, 상기 각 도면에 도시된 방법을 구현하기 위해 본 발명은 정보 생성 장치의 일 실시예를 제공하며, 상기 장치 실시예는 도 2에 도시된 방법 실시예에 대응되고 상기 장치는 구체적으로 다양한 전자 기기에 응용될 수 있다.

도 5에 도시된 바와 같이, 본 실시예에 따른 정보 생성 장치(500)는 수신 유닛(501), 결정 유닛(502), 생성 유닛(503)을 포함한다. 여기서, 수신 유닛(501)은 모델링 요청을 수신하고, 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함한다. 결정 유닛(502)은 상기 트레이닝용 데이터의 타입 및 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하고, 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것이다. 생성 유닛(503)은 상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행한다. 상기 생성 유닛(503)은 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 제1 생성 모듈(5031); 상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 제2 생성 모듈(5032); 상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 평가 모듈(5033); 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 조건 확정 모듈(5034); 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 모형 결정 모듈(5035)을 포함한다.

본 실시예에서, 정보 생성 장치(500)의 수신 유닛(501), 결정 유닛(502), 생성 유닛(503)의 구체적인 처리 및 그 기술적 효과는 도 2의 대응되는 실시예의 단계(201), 단계(202)및 단계(203)의 관련 설명을 참조할 수 있기에 여기서는 더이상 설명하지 않는다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 정보 생성 장치(500)는, 기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 상기 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 상기 모형 생성 단계를 계속하여 수행하는 선택 유닛(미도시)을 더 포함한다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 정보 생성 장치(500)는, 상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 상기 타겟 트레이닝 후 모형을 평가하는 파일 생성 유닛(미도시); 및 상기 모형 파일 및 상기 타겟 트레이닝 후 모형의 평가 결과를 푸시하는 푸시 유닛(미도시)을 더 포함한다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 모델링 요청은 최대 반복 횟수를 더 포함하고, 상기 트레이닝 종료 조건은, 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하는 조건; 및 상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 상기 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함한다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 제1 생성 모듈(5031)은 또한, 기설정된 교환 비율에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 상기 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고, 상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 상기 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성한다.

본 실시예의 일부 가능한 실시형태에 따르면, 상기 제1 생성 모듈(5031)은 또한, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고; 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 상기 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 상기 데이터 교환 단계를 계속하여 수행한다.

본 실시예의 일부 가능한 실시형태에 따르면, 초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함하고, 상기 제1 생성 모듈(5031)은 또한,

상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜 새로운 머신 러닝 파이프라인을 생성한다.

하기 도 6을 참조하면 본 발명의 실시예에 따른 전자 기기(예를 들면 도 1의 서버 또는 단말 기기)(600)를 구현할 수 있는 구조 모식도이다. 도 6에 도시된 전자 기기는 하나의 예시일 뿐, 본 발명의 실시예의 기능 또는 사용범위에 대한 어떠한 한정도 아니다.

도 6에 도시된 바와 같이, 전자 기기(600)는 판독 전용 메모리(ROM)(602)에 저장된 프로그램 또는 저장 장치(608)로부터 랜덤 액세스 메모리(RAM)(603)로 로딩된 프로그램에 따라 다양하고 적절한 동작 및 처리를 수행할 수 있는 처리 장치(예를들면 중앙 처리 장치, 그래픽 처리 장치 등)(601)를 포함한다. RAM(603)에는 또한 전자 기기(600)의 조작에 필요한 다양한 프로그램 및 데이터가 저장된다. 처리 장치(601), ROM(602) 및 RAM(603)은 버스(604)를 통해 서로 연결된다. 입/출력(I/O) 인터페이스(605) 역시 버스(604)에 연결된다.

일반적으로, 하기 장치는 I/O 인터페이스(605); 예를 들어 터치 스크린, 터치 패드, 키보드, 마우스, 카메라, 마이크, 가속도계, 자이로스코프 등을 포함하는 입력 장치(606); 예를 들어 액정 디스플레이(LCD), 스피커, 진동기 등을 포함하는 출력 장치(607); 예를 들어 자기 테이프, 하드 드라이버 등을 포함하는 저장 장치(608); 및 통신 장치(609)에 연결될 수 있다. 통신 장치(609)는 전자 기기(600)가 무선 또는 유선으로 다른 기기와 통신하여 데이터를 교환하도록 허용할 수 있다. 비록 도 6에서 다양한 장치를 갖는 전자 기기(600)를 나타냈지만, 모든 도시된 장치를 실시하거나 구비할 필요는 없음을 이해해야 한다. 보다 많거나 보다 적은 장치를 대체적으로 실시하거나 구비할 수 있다. 도 6에 도시된 각각의 블록은 하나의 장치를 가리키거나 필요에 따라 복수의 장치를 가리킬 수 있다.

특히, 본 발명의 실시예에 따르면, 앞에서 흐름도를 참조하여 설명한 과정은 컴퓨터 소프트웨어 프로그램으로 구현될 수 있다. 예를 들어, 본 발명의 실시예는 컴퓨터 판독 가능 매체에 베어링된 컴퓨터 프로그램을 포함하는 컴퓨터 프로그램 제품을 포함하고, 상기 컴퓨터 프로그램은 흐름도에 도시된 방법을 수행하기 위한 프로그램 코드를 포함한다. 이러한 실시예에서, 상기 컴퓨터 프로그램은 통신 부분(609)을 통해 네트워크로부터 다운로드 및 설치될 수 있거나 및/또는 저장 장치(608)로부터 설치되거나 ROM(602)으로부터 설치될 수 있다. 컴퓨터 프로그램이 중앙 처리 장치(CPU)(601)에 의해 실행될 때, 본 발명의 방법에 한정된 상기 기능들이 수행된다.

본 발명에 기재된 컴퓨터 판독 가능 매체는 컴퓨터 판독 가능 신호 매체 또는 컴퓨터 판독 가능 매체 또는 이 양자의 임의의 조합일 수 있음에 유의해야 한다. 컴퓨터 판독 가능 매체는, 예를 들어, 전자, 자기, 광학, 전자기, 적외선 또는 반도체 시스템, 장치 또는 소자, 또는 이들의 임의의 조합 일 수 있지만, 이에 한정되지는 않는다. 컴퓨터 판독 가능 저장 매체의 보다 구체적인 예는 하나 또는 복수의 도선을 갖는 전기적 연결, 휴대용 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 및 프로그램 가능 판독 전용 메모리(EPROM 또는 플래시 메모리), 광섬유, 휴대용 컴팩트 디스크 판독 전용 메모리(CD-ROM), 광학 저장 장치, 자기 저장 장치 또는 이들의 임의의 적절한 조합을 포함 할 수 있지만, 이에 한정되지는 않는다. 본 발명의 실시예에서, 컴퓨터 판독 가능 저장 매체는 명령 운행 시스템, 장치 또는 소자 또는 이들과 결합되어 사용될 수 있는 프로그램을 포함하거나 저장할 수 있는 임의의 타입의 매체일 수 있다. 본 발명에서, 컴퓨터 판독 가능 신호 매체는 컴퓨터 판독 가능 프로그램 코드를 베어링하는 베이스 밴드 또는 캐리어의 일부로 전파되는 데이터 신호를 포함할 수 있다. 이런 전파된 데이터 신호는 전자기 신호, 광학 신호, 또는 상기 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 다양한 형태를 취할 수 있다. 컴퓨터 판독 가능 신호 매체는 또한 명령 실행 시스템, 장치 또는 소자에 사용되거나 이와 결합하여 사용하기 위한 프로그램을 전송, 전파 또는 수송할 수 있는 컴퓨터 판독 가능 매체 이외의 임의의 컴퓨터 판독 가능 매체일 수 있다. 컴퓨터 판독 가능 매체에 포함된 프로그램 코드는 전기선, 광섬유 케이블, RF(무선주파수) 등, 또는 상기의 임의의 적절한 조합을 포함하지만 이에 한정되지 않는 임의의 적절한 매체에 의해 전송될 수 있다.

상기 컴퓨터 판독 가능 매체는 상기 전자 기기에 포함될 수 있고, 상기 전자 기기에 탑재되지 않고 단독으로 존재할 수도 있다. 상기 컴퓨터 판독가능 매체에는 하나 또는 복수의 프로그램이 베어링되고, 상기 하나 또는 복수의 프로그램이 상기 전자 기기에 의해 실행될 경우 상기 전자기기는 모델링 요청을 수신하고, 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함하며, 상기 트레이닝용 데이터의 타입 및 상기 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하고, 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것이며, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 하기 모형 생성 단계를 수행하되, 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하고; 상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하며; 상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 단계; 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하고; 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정한다.

본 발명의 실시예에 따른 동작을 수행하기 위한 컴퓨터 프로그램 코드는 하나 또는 하나 이상의 프로그래밍 언어, 또는 그들의 조합으로 작성 될 수 있다. 상기 프로그래밍 언어는 Java, Smalltalk, C++를 비롯한 객체 지향 프로그래밍 언어와 "C" 언어 또는 유사한 프로그래밍 언어를 비롯한 기존 절차적 프로그래밍 언어를 포함한다. 프로그램 코드는 완전히 사용자의 컴퓨터에서 실행되거나, 부분적으로 사용자의 컴퓨터에서 실행되거나, 독립형 소프트웨어 패키지로서 실행되거나, 일부는 사용자의 컴퓨터에서 실행되고 일부는 원격 컴퓨터에서 실행되거나, 또는 완전히 원격 컴퓨터 또는 서버에서 실행될 수 있다. 원격 컴퓨터의 경우 원격 컴퓨터는 LAN 또는 WAN을 포함한 모든 종류의 네트워크를 통해 사용자의 컴퓨터에 연결되거나 외부 컴퓨터에 연결될 수 있다(예를 들어, 인터넷 서비스 제공 업체를 이용하여 인터넷을 통해 연결함).

도면의 흐름도 및 블록도는 본 발명의 다양한 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 가능한 구현의 아키텍처, 기능 및 동작을 도시한다. 이 점에서, 흐름도 또는 블록도의 각 블록은 지정된 논리 기능을 구현하기 위한 하나 또는 하나 이상의 실행 가능한 명령을 포함하는 모듈, 프로그램 세그먼트 또는 코드의 일부를 나타낼 수 있다. 일부 대안적인 구현에서, 블록에 마크업된 기능은 또한 도면에 도시된 것과 다른 순서로 발생할 수 있음에 유의해야 한다. 예를 들어, 연속적으로 표현된 2개의 블록은 실제로 병렬로 실행될 수 있고, 관련 기능에 따라 때때로 역순으로 실행될 수도 있다. 또한, 블록도 및/또는 흐름도의 각 블록, 및 블록도 및/또는 흐름도에서 블록의 조합은 지정된 기능 또는 동작을 수행하는 전용 하드웨어 기반 시스템에서 구현될 수 있거나 전용 하드웨어와 컴퓨터 명령어를 조합하여 구현할 수도 있음에 유의해야 한다.

본 발명의 실시예들에서 설명된 유닛들은 소프트웨어 또는 하드웨어에 의해 구현될 수 있다. 설명된 유닛은 또한 프로세서에 설치될 수 있고, 예를 들어 수신 유닛, 결정 유닛 및 생성 유닛을 포함하는 프로세서로 기술될 수도 있다. 이러한 유닛의 명칭은 경우에 따라서는 유닛 자체로 한정되지 않으며, 예를 들어, 획득 유닛은 "모델링 요청을 수신하는 유닛"으로 기술될 수도 있다.

상기 설명은 본 발명의 바람직한 실시예 및 적용된 기술의 원리에 대한 설명일 뿐이다. 본 발명이 속하는 기술분야의 통상의 기술자들은 본 발명에 언급된 본 발명의 범위는 상기 기술적 특징의 특정 조합에 따른 기술적 해결수단에 한정되지 않으며, 동시에 본 발명의 사상을 벗어나지 않으면서 상기 기술적 특징 또는 그 균등한 특징에 대해 임의로 조합하여 형성된 다른 기술적 해결수단, 예를 들어, 상기 특징과 본 발명에 공개된(단 이에 한정되지 않음) 유사한 기능을 구비하는 기술적 특징을 서로 교체하여 형성된 기술적 해결수단을 포함함을 이해하여야 한다.

Claims

정보 생성 방법에 있어서,
모델링 요청을 수신하는 단계 - 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함함 - ;
상기 트레이닝용 데이터의 타입 및 상기 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하는 단계 - 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것임 - ;
상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하는 단계를 포함하되,
상기 모형 생성 단계는,
상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계;
상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 단계;
상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 단계;
기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 단계;
기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 단계를 포함하는, 정보 생성 방법.
제1항에 있어서,
상기 정보 생성 방법은,
기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 상기 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 상기 모형 생성 단계를 계속하여 수행하는 단계를 더 포함하는, 정보 생성 방법.
제1항에 있어서,
상기 정보 생성 방법은,
상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 상기 타겟 트레이닝 후 모형을 평가하는 단계; 및
상기 모형 파일 및 상기 타겟 트레이닝 후 모형의 평가 결과를 푸시하는 단계를 더 포함하는, 정보 생성 방법.
제1항에 있어서,
상기 모델링 요청은 최대 반복(iteration) 횟수를 더 포함하고,
상기 트레이닝 종료 조건은,
상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하는 조건; 및
상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 상기 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함하는, 정보 생성 방법.
제1항에 있어서,
상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는,
기설정된 교환 비율에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 상기 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계를 수행하는 단계; 및
상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 상기 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성하는 단계를 포함하되,
상기 데이터 교환 단계는,
선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계;
같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계;
다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 수행하는 단계를 포함하는, 정보 생성 방법.
제1항에 있어서,
상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는,
상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계를 수행하는 단계 - 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함함 - ;
상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 상기 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 상기 데이터 교환 단계를 계속하여 수행하는 단계를 포함하는, 정보 생성 방법.
제1항에 있어서,
초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함하고,
상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 단계는,
상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜 새로운 머신 러닝 파이프라인을 생성하는 단계를 포함하는, 정보 생성 방법.
정보 생성 장치에 있어서,
모델링 요청을 수신하는 수신 유닛 - 상기 모델링 요청은 트레이닝용 데이터, 모형 카테고리, 타겟 개수 및 평가 지표를 포함함 - ;
상기 트레이닝용 데이터의 타입 및 상기 모형 카테고리에 기반하여, 상기 타겟 개수의 초기 머신 러닝 파이프라인을 결정하는 결정 유닛 - 초기 머신 러닝 파이프라인은 모형 트레이닝을 수행하기 위한 것임 - ; 및
상기 타겟 개수의 초기 머신 러닝 파이프라인을 사용하여 모형 생성 단계를 수행하는 생성 유닛 - 상기 생성 유닛은 상기 타겟 개수의 초기 머신 러닝 파이프라인에 기반하여, 상기 타겟 개수의 새로운 머신 러닝 파이프라인을 생성하는 제1 생성 모듈; 상기 트레이닝용 데이터, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인에 기반하여 모형 트레이닝을 수행하고, 트레이닝 후 모형을 생성하는 제2 생성 모듈; 상기 평가 지표에 따라, 얻은 트레이닝 후 모형을 각각 평가하는 평가 모듈; 기설정된 트레이닝 종료 조건에 도달하였는지의 여부를 확정하는 조건 확정 모듈; 기설정된 트레이닝 종료 조건에 도달하였다고 확정된 것에 응답하여, 평가 결과에 따라, 얻은 트레이닝 후 모형으로부터 타겟 트레이닝 후 모형을 결정하는 모형 결정 모듈을 포함함 - ;을 포함하는, 정보 생성 장치.
제8항에 있어서,
상기 정보 생성 장치는,
기설정된 트레이닝 종료 조건에 도달하지 못하였다고 확정된 것에 응답하여, 평가 결과에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인 및 상기 타겟 개수의 새로운 머신 러닝 파이프라인으로부터 상기 타겟 개수의 머신 러닝 파이프라인을 초기 머신 러닝 파이프라인으로 선택하여 상기 모형 생성 단계를 계속하여 수행하는 선택 유닛을 더 포함하는, 정보 생성 장치.
제8항에 있어서,
상기 정보 생성 장치는,
상기 타겟 트레이닝 후 모형에 대한 모형 파일을 생성하고, 상기 타겟 트레이닝 후 모형을 평가하는 파일 생성 유닛; 및
상기 모형 파일 및 상기 타겟 트레이닝 후 모형의 평가 결과를 푸시하는 푸시 유닛을 더 포함하는, 정보 생성 장치.
제8항에 있어서,
상기 모델링 요청은 최대 반복 횟수를 더 포함하고,
상기 트레이닝 종료 조건은,
상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하는 조건; 및
상기 모형 생성 단계의 수행 횟수가 상기 최대 반복 횟수에 도달하지 못하였다고 확정된 것에 응답하되, 상기 모형 생성 단계를 기설정된 횟수만큼 연속 수행하여 얻은 최적의 트레이닝 후 모형의 평가 결과가 변하지 않는 조건을 포함하는, 정보 생성 장치.
제8항에 있어서,
상기 제1 생성 모듈은 또한,
기설정된 교환 비율에 따라, 상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 초기 머신 러닝 파이프라인을 선택하여 초기 머신 러닝 파이프라인 부분집합을 구성하고, 상기 초기 머신 러닝 파이프라인 부분집합 중의 둘둘씩의 초기 머신 러닝 파이프라인에 기반하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고,
상기 타겟 개수의 초기 머신 러닝 파이프라인 중에서, 상기 초기 머신 러닝 파이프라인 부분집합에 포함된 초기 머신 러닝 파이프라인을 제외한 초기 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인에 기반하여 새로운 머신 러닝 파이프라인을 생성하는, 정보 생성 장치.
제8항에 있어서,
상기 제1 생성 모듈은 또한,
상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 2개의 초기 머신 러닝 파이프라인을 선택하여 데이터 교환 단계를 수행하되, 상기 데이터 교환 단계는 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 2개의 모형이 같은지의 여부를 확정하는 단계; 같다고 확정된 것에 응답하여, 2개의 모형의 모형 파라미터를 교환하여, 2개의 새로운 머신 러닝 파이프라인을 얻는 단계; 다르다고 확정된 것에 응답하여, 선택된 2개의 초기 머신 러닝 파이프라인에 대응되는 모형을 교환하여 2개의 새로운 머신 러닝 파이프라인을 얻는 단계를 포함하고;
상기 타겟 개수의 초기 머신 러닝 파이프라인으로부터 상기 데이터 교환 단계를 수행하지 않은 2개의 초기 머신 러닝 파이프라인을 선택하여, 상기 데이터 교환 단계를 계속하여 수행하는, 정보 생성 장치.
제8항에 있어서,
초기 머신 러닝 파이프라인은 적어도 하나의 데이터 처리 프로세스 및 하나의 모형 트레이닝 프로세스를 포함하고,
상기 제1 생성 모듈은 또한,
상기 타겟 개수의 초기 머신 러닝 파이프라인 중의 머신 러닝 파이프라인에 대해, 상기 초기 머신 러닝 파이프라인의 적어도 하나의 데이터 처리 프로세스 및/또는 모형 트레이닝 프로세스에 대응되는 모형 중의 기설정된 개수 부분을 선택하여 변화시켜 새로운 머신 러닝 파이프라인을 생성하는, 정보 생성 장치.
하나 또는 복수의 프로세서; 및
하나 또는 복수의 프로그램이 저장된 저장 장치를 포함하는 기기에 있어서,
상기 하나 또는 복수의 프로그램이 상기 하나 또는 복수의 프로세서에 의해 실행될 경우, 상기 하나 또는 복수의 프로세서가 제1항 내지 제7항 중 어느 한 항에 따른 정보 생성 방법을 구현하도록 하는 기기.
컴퓨터 프로그램이 저장된 컴퓨터 판독 가능 매체에 있어서,
상기 프로그램은 프로세서에 의해 수행될 경우, 제1항 내지 제7항 중 어느 한 항에 따른 정보 생성 방법을 구현하는 컴퓨터 판독 가능 매체.