KR20210152402A

KR20210152402A - 데이터 증강을 포함하는 머신런닝 시스템 및 머신런닝 방법

Info

Publication number: KR20210152402A
Application number: KR1020210072866A
Authority: KR
Inventors: 치-양 첸; 체-한 창; 에드워드 창
Original assignee: 에이치티씨 코퍼레이션
Priority date: 2020-06-05
Filing date: 2021-06-04
Publication date: 2021-12-15
Also published as: TWI831016B; TW202147139A; EP3920102A1; JP7226696B2; US20210383224A1; JP2021193564A; CN113762327A

Abstract

본 발명은 데이터 증강 기능을 갖는 머신 러닝 기술에 관한 것이다.
머신 러닝 방법은 (a) 하이퍼파라미터 및 하이퍼네트워크 파라미터의 초기 값들을 획득하는 단계; (b) 하이퍼파라미터 및 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터를 생성하고, 트레이닝 샘플에 대한 제1 분류 모델 파라미터에 기초하여 분류 결과에 따라 하이퍼네트워크 파라미터를 업데이트하는 단계; (c) 하이퍼파라미터 및 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터를 생성하고, 검증 샘플에 대한 제2 분류 모델 파라미터에 기초하여 다른 분류 결과에 따라 하이퍼파라미터를 업데이트하는 단계; 및 (d) 단계 (b) 및 단계 (c)를 반복하여 하이퍼네트워크 파라미터 및 하이퍼파라미터를 업데이트하는 단계를 포함한다.

Description

데이터 증강을 포함하는 머신 러닝 방법 및 머신 러닝 시스템{MACHINE LEARNING METHOD AND MACHINE LEARNING SYSTEM INVOLVING DATA AUGMENTATION}

본 개시는 머신 러닝 기술에 관한 것이다. 보다 구체적으로, 본 개시는 데이터 증강 기능을 갖는 머신 러닝 기술에 관한 것이다.

컴퓨터 비전의 기술 분야에서 머신 러닝(machine learning) 및 뉴럴 네트워크(neural network)와 같은 기술들이 널리 사용되고 있다. 컴퓨터 비전의 중요한 응용들 중 하나는 사진 또는 이미지에 포함된 객체들(예를 들어 사람 얼굴, 차량 번호판 등)을 감지하거나 식별하는 것이다. 객체 감지는 특징 추출 및 특징 분류를 통해 실현될 수 있다.

사진 또는 이미지에서 객체들을 정확하게 감지하고 감지의 정확도를 높이기 위해서는, 분류를 위한 뉴럴 네트워크가 학습 데이터로부터 입력 이미지 및 올바른 분류 라벨들 간의 상관 관계를 학습할 수 있게 하도록 많은 양의 학습 데이터(예를 들어, 학습을 위한 입력 이미지들 및 그 입력 이미지들에 첨부되는 상응하는 분류 라벨들)가 필요하다. , 정확도 요구 사항들을 충족하기 위해 충분한 양의 학습 데이터를 확보하는 것은 현실적으로 매우 어렵다. 학습 데이터 샘플의 부족은 다양한 객체 감지 응용들 간의 공통적인 문제가 된다.

KR 10-1864286(2018.05.29) B1

본 개시는 머신 러닝 방법을 제공하며, 이 방법은 (a) 하이퍼파라미터(hyperparameter) 및 하이퍼네트워크 파라미터(hypernetwork parameter)의 초기 값들을 구하는 단계; (b) 하이퍼파라미터 및 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터를 생성하고, 학습 샘플(training sample)에 대한 제1 분류 모델 파라미터에 기초하여 분류 결과에 따라 하이퍼네트워크 파라미터를 업데이트하는 단계; (c) 하이퍼파라미터 및 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터를 생성하고, 검증 샘플(verification sample)에 대한 제2 분류 모델 파라미터에 기초하여 다른 분류 결과에 따라 하이퍼파라미터를 업데이트하는 단계; 및 (d) 단계 (b) 및 단계 (c)를 반복하여 하이퍼네트워크 파라미터 및 하이퍼파라미터를 업데이트하는 단계를 포함한다.

본 개시는 메모리 유닛 및 처리 유닛을 포함하는 머신 러닝 시스템을 제공한다. 메모리 유닛은 하이퍼파라미터 및 하이퍼네트워크 파라미터의 초기 값들을 저장하도록 구성된다. 처리 유닛은 메모리 유닛과 결합된다. 처리 유닛은 하이퍼네트워크 및 분류 모델을 실행하도록 구성된다. 처리 유닛은 (a) 하이퍼파라미터 및 하이퍼네트워크 파라미터에 따라 하이퍼네트워크에 의해 제1 분류 모델 파라미터를 생성하고, 학습 샘플에 대한 제1 분류 모델 파라미터에 기초하여 분류 모델에 의해 분류 결과를 생성하고, 분류 결과에 따라 하이퍼네트워크 파라미터를 업데이트하는 동작; (b) 하이퍼파라미터 및 업데이트된 하이퍼네트워크 파라미터에 따라 하이퍼네트워크에 의해 제2 분류 모델 파라미터를 생성하고, 검증 샘플에 대한 제2 분류 모델 파라미터에 기초하여 분류 모델에 의해 다른 분류 결과를 생성하고, 다른 분류 결과에 따라 하이퍼파라미터를 업데이트하는 동작; 및 (c) 동작 (a) 및 동작 (b)를 반복하여 하이퍼네트워크 파라미터 및 하이퍼파라미터를 업데이트하는 동작을 실행하도록 구성된다.

본 개시는 머신 러닝 방법을 수행하기 위해 프로세서에 의해 실행되는 적어도 하나의 명령어 프로그램을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체를 제공한다. 머신 러닝 방법은 (a) 하이퍼파라미터(hyperparameter) 및 하이퍼네트워크 파라미터(hypernetwork parameter)의 초기 값들을 구하는 단계; (b) 하이퍼파라미터 및 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터를 생성하고, 학습 샘플(training sample)에 대한 제1 분류 모델 파라미터에 기초하여 분류 결과에 따라 하이퍼네트워크 파라미터를 업데이트하는 단계; (c) 하이퍼파라미터 및 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터를 생성하고, 검증 샘플(verification sample)에 대한 제2 분류 모델 파라미터에 기초하여 다른 분류 결과에 따라 하이퍼파라미터를 업데이트하는 단계; 및 (d) 단계 (b) 및 단계 (c)를 반복하여 하이퍼네트워크 파라미터 및 하이퍼파라미터를 업데이트하는 단계를 포함한다.

전술한 일반적인 설명 및 다음의 상세한 설명은 모두 예시에 의한 것이며 청구된 본 발명의 추가 설명을 제공하기 위한 것임을 이해해야 한다.

본 개시는 데이터 증강 기능을 갖는 머신 러닝 기술에 관한 것이다

본 개시는 첨부된 도면들을 참조하여, 실시예에 대한 다음의 상세한 설명을 읽음으로써 더 완전히 이해될 수 있다.
도 1은 본 개시의 일 실시예에 따른 머신 러닝 시스템을 도시하는 개략도이다.
도 2는 본 개시의 일 실시예에 따른 머신 러닝 방법을 도시하는 개략도이다.
도 3은 일부 실시예들에서 도 2에 도시된 하나의 단계 내의 추가 단계들을 도시하는 흐름도이다.
도 4는 일부 실시예들에서 처리 유닛의 구성 요소들에 의해 수행되는 단계들을 도시하는 개략도이다.
도 5a는 본 개시의 일부 실시예들에 따라 하이퍼네트워크 파라미터에 기초하여 하이퍼네트워크에 의한 하이퍼파라미터에서 제1 분류 모델 파라미터로의 변환을 도시하는 개략도이다.
도 5b는 본 개시의 일부 실시예들에 따른 제1 로스에 따라 업데이트된 하이퍼네트워크 파라미터를 도시하는 개략도이다.
도 6은 본 개시의 일부 실시예들에 따른 4 개의 탐색 분류 모델 파라미터들에 기초하여 분류 모델로부터 형성되는 4 개의 탐색 분류 모델들의 내부 구조를 도시하는 개략도이다.
도 7은 일부 실시예들에서 도 2에 도시된 하나의 단계 내의 상세 단계들을 도시하는 흐름도이다.
도 8은 일부 실시예들에서 처리 유닛의 구성 요소들에 의해 수행되는 단계들을 도시하는 개략도이다.
도 9a는 본 개시의 일부 실시예들에서 하이퍼파라미터로부터 제2 분류 모델 파라미터로의 변환을 도시하는 개략도이다.
도 9b는 본 개시의 일부 실시예들에서 제2 로스에 따른 하이퍼파라미터의 업데이트를 도시하는 개략도이다.

이하, 첨부 도면에 예들이 도시되어 있는 본 개시의 본 실시예들에 대해 상세하게 설명한다. 가능한 한 동일한 참조 번호들은 도면들 및 설명에서 동일하거나 유사한 부분들을 지칭하여 사용된다.

도 1 은 본 개시의 일 실시예에 따른 머신 러닝 시스템(100)을 도시하는 개략도이다. 머신 러닝 시스템(100)은 메모리 유닛(120) 및 처리 유닛(140)을 포함한다. 처리 유닛(140)은 메모리 유닛(120)과 결합되어 있다.

.

일부 실시예들에서, 머신 러닝 시스템(100)은 컴퓨터, 서버 또는 처리 센터에 의해 구축될 수 있다. 일부 실시예들에서, 처리 유닛(140)은 프로세서, 중앙 처리 장치 또는 컴퓨팅 장치에 의해 구현될 수 있다. 일부 실시예들에서, 메모리 유닛(120)은 메모리, 플래시 메모리, ROM(read-only memory), 하드 디스크 또는 임의의 균등한 저장 구성 요소에 의해 구현될 수 있다.

일부 실시예들에서, 머신 러닝 시스템(100)은 메모리 유닛(120) 및 처리 유닛(140)을 포함하는 것으로 제한되지 않는다. 머신 러닝 시스템(100)은 다양한 응용에서 머신 러닝 시스템(100)을 동작시키는데 필요한 다른 구성 요소들을 더 포함할 수 있다. 예를 들어, 머신 러닝 시스템(100)은 출력 인터페이스(예를 들어, 정보를 표시하기 위한 디스플레이 패널), 입력 인터페이스(예를 들어, 터치 패널, 키보드, 마이크, 스캐너 또는 플래시 메모리 리더) 및 통신 회로(예를 들어, WiFi 통신 모듈, 블루투스 통신 모듈, 무선 텔레커뮤니케이션 모듈 등)를 더 포함할 수 있다.

도 1에 도시된 바와 같이, 하이퍼파라미터(hyperparameter; HP)와 하이퍼네트워크 파라미터(hypernetwork parameter; HNP)를 포함하는 적어도 2 개의 파라미터의 초기 값들이 메모리 유닛(120)에 저장된다. 일 실시예에서, 머신 러닝 시스템(100)은 이들 2 개의 파라미터(즉, 하이퍼파라미터(HP) 및 하이퍼네트워크 파라미터(HNP))에 기초하여 데이터 증강 및 라벨 분류를 수행하는 방법을 결정하며, 이에 대하여 하기에 더 상세히 설명하기로 한다. 데이터 증강은 학습 데이터의 양을 증가시키는 기술이다. 머신 러닝 모델(또는 머신 러닝 모델)을 학습시키는 동안, 일반적으로 많은 학습 데이터를 필요로 한다. 원본 학습 데이터에 데이터 증강을 적용함으로써, 딥 러닝 모델(또는 머신 러닝 모델)을 학습시키는 동안 과적합(over-fitting) 문제를 방지하도록 원본 학습 데이터는 더 많은 양의 증강된 학습 데이터로 확장될 수 있다.

도 1에 도시된 바와 같이, 처리 유닛(140)은 메모리 유닛(120)과 결합되어 있다. 처리 유닛(140)은 상응하는 소프트웨어/펌웨어 명령어 프로그램들에 기초하여 데이터 증강 모델(142), 하이퍼네트워크(144) 및 분류 모델(146)을 실행하도록 구성된다.

일부 실시예들에서, 데이터 증강 모델(142)은 입력된 학습 샘플에 대한 데이터 증강을 수행하여 다수의 증강된 학습 샘플들을 생성하도록 구성된다. 예를 들어, 입력된 학습 샘플이 하나의 원본 이미지(예를 들어, 낮에 도로를 달리는 자동차가 있는 사진) 및 원본 이미지에 상응하는 학습 라벨(예를 들어, 자동차, 도로 또는 신호등)을 포함하는 경우, 데이터 증강 모델(142)은 원본 이미지에 대한 수평 플립(horizontally flip), 수직 플립(vertically flip), 회전, 수직 이동, 수평 이동, 줌-인, 줌-아웃 및 밝기 조정 중 하나 이상의 프로세스들의 조합을 수행하도록 구성된다.

일부 실시예들에서, 데이터 증강 모델(142)은 하이퍼파라미터(hyperparameter; HP)의 값들에 기초하여 상이한 설정들(예를 들어, 상이한 회전 각도들 또는 상이한 줌-인/줌-아웃 비율들 적용)로 원본 이미지를 처리하여 다수의 증강된 학습 샘플들의 다수의 데이터 증강 이미지들을 생성한다. 이러한 데이터 증강 이미지들은 원본 이미지에 따라 생성되지만, 이미지 처리로 인하여 데이터 증강 이미지들의 픽셀 값들이 변경된다. 분류 모델(146)에 있어서, 이러한 데이터 증강 이미지들은 상이한 학습 샘플들과 균등하며, 이에 따라 학습 샘플들의 양을 확장하고 학습 샘플들의 부족을 해결한다.

일부 실시예들에서, 분류 모델(146)은 예를 들어 입력 이미지가 차량, 얼굴, 번호판, 텍스트, 토템, 또는 다른 이미지 특징 객체들을 포함하는 것을 감지하여 입력 데이터(예를 들어 전술한 데이터 증강 이미지들)를 분류할 수 있다. 분류 모델(146)은 분류 결과에 따라 상응하는 라벨을 생성하도록 구성된다. 여기서, 분류 모델(146)은 분류 동작들을 수행하는 동안 분류 모델 파라미터를 의미한다.

일부 실시예들에서, 하이퍼네트워크(144)는 하이퍼파라미터(HP)를 분류 모델(146)에 의해 사용되는 분류 모델 파라미터로 변환하도록 구성된다. 하이퍼네트워크(144)는 하이퍼네트워크 파라미터(HNP)에 따라 하이퍼파라미터(HP)를 분류 모델 파라미터들로 변환하는 방식을 결정한다.

즉, 일부 실시예들에서 하이퍼파라미터(HP)는 데이터 증강 모델(142)이 데이터 증강을 수행하는 방식을 결정하며, 또한 하이퍼파라미터(HP)는 하이퍼네트워크(144)에 의해 (분류 모델 파라미터로) 변형되어 분류 모델(146)이 분류 동작들을 수행하는 방식을 결정한다 .

도 2는 본 개시의 일 실시예에 따른 머신 러닝 방법(200)을 도시하는 개략도이다. 도 1에 도시된 머신 러닝 시스템(100)은 도 2에 나타나 있는 머신 러닝 방법(200)을 수행하기 위해 이용될 수 있다.

도 2에 도시된 바와 같이, 먼저 단계 S210에서, 하이퍼파라미터(HP) 및 하이퍼네트워크 파라미터(HNP)의 초기 값들이 구해진다. 일부 실시예들에서, 하이퍼파라미터(HP) 및 하이퍼네트워크 파라미터(HNP)의 초기 값들은 과거 학습 실행들로부터의 평균값들, 수동-설정 디폴트 값들, 또는 랜덤 값들에 따라 구해질 수 있다.

단계 S220에서, 하이퍼파라미터 및 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터가 생성되고, 제1 분류 모델 파라미터에 기초하여 학습 샘플에 대한 분류 결과에 따라 하이퍼네트워크 파라미터들이 업데이트된다. 일 실시예에서, 하이퍼네트워크(144)는 (하이퍼네트워크 파라미터(HNP)에 기초하여) 하이퍼파라미터(HP)를 제1 분류 모델 파라미터로 변환하고, 하이퍼네트워크 파라미터(HNP)는 제1 분류 모델 파라미터에 기초하여 학습 샘플에 대한 분류 결과에 따라 업데이트된다. 단계 S220에 대한 추가 세부 사항들은 일부 예들과 함께 하기에 더 설명하기로 한다.

단계 S230에서, 하이퍼파라미터 및 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터들이 생성되고, 제2 분류 모델 파라미터에 기초하여 검증 샘플에 대한 다른 분류 결과에 따라 하이퍼파라미터들이 업데이트된다. 일 실시예에서, 하이퍼네트워크(144)는 (업데이트된 하이퍼네트워크 파라미터(HNP)에 기초하여) 하이퍼파라미터(HP)를 제2 분류 모델 파라미터로 변환하고, 하이퍼파라미터(HP)는 제2 분류 모델 파라미터에 기초하여 검증 샘플에 대한 다른 분류 결과에 따라 업데이트된다. 단계 S230에 대한 추가 세부 사항들은 일부 예들과 함께 하기에 더 설명하기로 한다.

즉, 단계 S220에서, 하이퍼네트워크 파라미터(HNP)가 먼저 업데이트된다. 이후, 단계 S230에서, 하이퍼파라미터(HP)가 새로운 하이퍼네트워크 파라미터(HNP)에 기초하여 업데이트된다.

단계 S240에서, 수렴 조건이 충족되었는지 여부를 판단한다. 수렴 조건이 충족되지 않은 경우, 다시 단계 S220으로 돌아가고, 이어서 단계 S220 및 S230을 반복하여 하이퍼네트워크 파라미터(HNP) 및 하이퍼파라미터(HP)를 업데이트한다. 일부 실시예들에서, 수렴 조건이 충족되기 전에, 단계들 S220 및 S230이 반복적인 방식으로 수행되어 하이퍼네트워크 파라미터(HNP) 및 하이퍼파라미터(HP)를 점진적으로 업데이트한다.

수렴 조건이 충족된 경우(예를 들어, 분류 모델(146)에 의해 주어진 분류 결과의 정확도가 임계값을 초과하거나, 학습 회수가 소정의 회수에 도달하거나, 학습 샘플들의 양이 소정의 샘플 양에 도달하거나, 학습 기간의 시간 길이가 소정의 시간 길이에 도달하는 등), 머신 러닝 시스템(100)이 학습을 완료했으며, 학습 후에 분류 모델(146)이 후속 애플리케이션들을 실행하는데 사용될 수 있음을 의미한다. 예를 들어, 학습 후의 분류 모델(146)은 입력 사진들, 이미지들 또는 스트리밍 데이터 내의 객체 인식, 얼굴 인식, 오디오 인식 또는 움직임 감지에 사용될 수 있다.

도 3 및 도 4를 참조하면, 도 3은 일부 실시예들에서 단계 S220 내의 추가 단계들 S221 내지 S225를 도시하는 흐름도이고, 도 4는 일부 실시예들에서 처리 유닛(140)의 구성 요소들에 의해 수행되는 단계 S221 내지 S225를 도시하는 개략도이다.

도 4에 도시된 바와 같이, 초기 상태에서, 하이퍼파라미터의 초기 값은 하이퍼파라미터(HP1)이고, 하이퍼네트워크 파라미터의 초기 값은 하이퍼네트워크 파라미터(HNP1)인 것으로 가정한다.

도 3 및 도 4에 도시된 바와 같이, 단계 S221에서, 데이터 증강 모델(142)은 하이퍼파라미터(HP1)에 기초하여 학습 샘플(TD)에 대한 데이터 증강을 수행하여 증강된 학습 샘플(ETD)을 생성한다. 단계 S222에서, 하이퍼네트워크(144)는 하이퍼네트워크 파라미터(HNP1)에 기초하여 하이퍼파라미터(HP1)를 제1 분류 모델 파라미터(MP1)로 변환한다.

도 5a는 본 개시의 일부 실시예들에 따라 단계 S222에서 하이퍼네트워크 파라미터(HNP1)에 기초하여 하이퍼네트워크(144)에 의한 하이퍼파라미터(HP1)로부터 제1 분류 모델 파라미터(MP1)로의 변환을 도시하는 개략도이다. 도 5a에 도시된 바와 같이, 단계 S222는 데이터 증강 공간(SP1)의 데이터 포인트(즉, 하이퍼파라미터(HP1))를 분류 파라미터 공간(SP2)의 데이터 포인트(즉, 제1 분류 모델 파라미터(MP1))에 매핑하기 위해 실행된다.

도 5a에서, 설명의 편의상, 데이터 증강 공간(SP1)은 두 개의 축을 갖는 평면 좌표계이다. 예를 들어, 한 축은 데이터 증강 동안의 회전 각도를 나타낼 수 있으며, 다른 축은 데이터 증강 동안의 크기 스케일링 비율을 나타낼 수 있다. 이 경우, 데이터 증강 공간(SP1)의 상이한 위치들에 있는 데이터 포인트들은 상이한 데이터 증강 설정들에 상응한다. 설명의 편의상, 분류 파라미터 공간(SP2)은 3 개의 축이 있는 3 차원 좌표계이며, 3 개의 축은 각각 (분류 모델에서) 컨볼루션 계층(convolutional layer)들의 3 개의 가중 값들을 나타낼 수 있다. 단계 S222에서, 하이퍼네트워크 파라미터(HNP1)는 하이퍼네트워크(144)가 데이터 증강 공간(SP1) 내의 하이퍼파라미터(HP1)를 분류 파라미터 공간(SP2) 내의 제1 분류 모델 파라미터(MP1) 상으로 매핑하는 방식을 결정하는데 사용된다. 하이퍼네트워크 파라미터(HNP1)가 변경될 경우, 하이퍼네트워크(144)는 하이퍼파라미터(HP1)를 분류 파라미터 공간(SP2) 내의 다른 위치 상으로 매핑하게 된다.

.

설명의 간결함을 위해, 도 5a의 데이터 증강 공간(SP1) 및 분류 파라미터 공간(SP2)은 각각 2 개의 축 및 3 개의 축으로 예시되어 있다. 본 개시는 이에 제한되지 않는다. 실제 응용들에서, 데이터 증강 공간(SP1) 및 분류 파라미터 공간(SP2)은 상이한 차원 구성들을 가질 수 있다. 일부 실시예들에서, 분류 파라미터 공간(SP2)은 더 많은 축들을 갖는 고차원 공간이다.

도 3 및 도 4에 도시된 바와 같이, 단계 S223에서, 분류 모델(146)은 제1 분류 모델 파라미터(MP1)에 기초하여 증강 학습 샘플(ETD)을 분류하여, 증강된 학습 샘플(ETD)에 상응하는 제1 예측 라벨(LPD1)을 생성한다.

단계 S224에서, 처리 유닛(140)은 제1 예측 라벨(LPD1)을 학습 샘플(TD)의 학습 라벨(LTD)과 비교하는 비교 알고리즘을 실행하여, 제1 로스(loss)(L1)를 생성한다. 일부 실시예들에서, 처리 유닛(140)은 제1 예측 라벨(LPD1) 및 학습 라벨(LTD)에 대해 교차-엔트로피(cross-entropy) 계산을 수행하여, 제1 로스(L1)를 구한다.

제1 로스(L1)의 값은 분류 모델(146)에 의해 수행된 분류 결과가 정확한지 여부를 나타낸다. 분류 모델(146)에 의해 생성된 제1 예측 라벨(LPD1)이 학습 샘플(TD)의 학습 라벨(LTD)과 동일(또는 유사)한 경우, 제1 로스(L1)의 값은 작게 되고, 이는 현재 분류 모델(146)에 의해 채택된 제1 분류 모델 파라미터(MP1)가 더 정확하다는 것을 의미한다. 분류 모델(146)에 의해 생성된 제1 예측 라벨(LPD1)이 학습 샘플(TD)의 학습 라벨(LTD)과 상이한 경우, 제1 로스(L1)의 값은 더 크게 되고, 이는 현재 분류 모델(146)에 의해 채택된 제1 분류 모델 파라미터(MP1)가 상대적으로 부정확하다는 것을 의미한다.

단계 S225에서, 하이퍼네트워크 파라미터(HNP2)는 제1 로스(L1)에 따라 업데이트된다. 도 5b는 본 개시의 일부 실시예들에 따라 단계 S225에서 제1 로스(L1)에 따라 업데이트된 하이퍼네트워크 파라미터(HNP2)를 도시하는 개략도이다. 도 5b에 도시된 바와 같이, 현재 분류 모델(146)에 의해 채택된 제1 분류 모델 파라미터(MP1)에 상응하는 제1 로스(L1)를 구한 후, 제1 로스(L1)를 감소(또는 최소화)시킬 수 있는 개선된 분류 모델 파라미터(MP1m)를 구하도록 제1 로스(L1)가 분류 모델(146)로 역(backward) 전파된다. 이후, 개선된 분류 모델 파라미터(MP1m)는 하이퍼네트워크(144)로 역 전파되고, 개선된 분류 모델 파라미터(MP1m)에 기초하여 역 전파에 따라 업데이트된 하이퍼네트워크 파라미터(HNP2)가 구해진다. 일부 실시예들에서, 제1 로스(L1)를 감소(또는 최소화)시키는 개선된 분류 모델 파라미터(MP1m)를 구하기 위해 확률적 경사 하강법(stochastic gradient descent; SGD) 알고리즘이 사용될 수 있다.

도 4 및 도 5b에 도시된 바와 같이, 하이퍼파라미터(HP1)가 동일하게 유지되는 조건 하에서, 하이퍼네트워크(144)는 (업데이트된 하이퍼네트워크 파라미터(HNP2)에 기초하여) 하이퍼파라미터(HP1)를 개선된 분류 모델 파라미터(MP1m) 상으로 매핑하게 된다.

일부 실시예들에서, 도 5a에 도시된 바와 같이, 단계 S222에서 복수의 탐색 값들이 도입되고, 이러한 탐색 값들은 하이퍼파라미터(HP1) 주위에 복수의 탐색 하이퍼파라미터들을 형성하는데 활용되며, 각각의 탐색 값들은 축에 약간의 차이를 포함한다(예를 들어, 회전 각도가 0.5도 증가/감소, 이동 거리가 1% 증가/감소 등). 도 5a에 도시된 바와 같이, 하이퍼파라미터(HP1) 주위에 4 개의 탐색 하이퍼파라미터(HPe1 ~ HPe4)가 존재한다. 하이퍼파라미터(HP1)를 분류 파라미터 공간(SP2)의 제1 분류 모델 파라미터(MP1) 상으로 매핑하는 것 외에도, 하이퍼네트워크(144)는 (하이퍼네트워크 파라미터(HNP1)에 기초하여) 이러한 탐색 값들에 의해 형성된 탐색 하이퍼파라미터들(HPe1~HPe4)을 분류 파라미터 공간(SP2)의 4 개의 탐색 분류 모델 파라미터들(MPe1~MPe4) 상으로 매핑한다. 도 5a에서, 탐색 분류 모델 파라미터들(MPe1~MPe4)은 또한 원래의 제1 분류 모델 파라미터(MP1)에 인접해 있다. 일부 실시예들에서, 제1 분류 모델 파라미터(MP1)는 탐색 분류 모델 파라미터들 중 하나로 간주될 수도 있다.

즉, 4 개의 탐색 하이퍼파라미터가 추가되는 경우, 4 개의 탐색 하이퍼파라미터(HPe1~HPe4)가 다른 4 개의 탐색 분류 모델 파라미터(MPe1~MPe4) 상으로 매핑된다. 전술한 탐색 하이퍼파라미터의 양(즉, 4 개의 탐색 하이퍼파라미터)은 설명을 위해 제공된 것이며, 탐색 하이퍼파라미터의 양은 실제 응용들에 있어서 4 개로 제한되지 않는다.

일부 실시예들에서, 4 개의 탐색 분류 모델은 4 개의 탐색 분류 모델 파라미터(MPe1~MPe4)에 따라 생성되며, 4 개의 탐색 분류 모델은 각각 학습 샘플(TD)을 분류하고 제1 예측 라벨들(LPD1)의 4 개의 결과를 생성하게 된다. 단계 S224에서, 제1 예측 라벨들(LPD1)의 4 개의 결과가 각각 학습 라벨(LTD)과 비교되며, 이에 상응하여 4 개의 탐색 분류 모델에 각각 상응하는 제 1 로스들(L1)의 4 개의 결과가 구해진다. 일부 실시예들에서, 제1 예측 라벨들(LPD1)의 4 개의 결과 및 학습 라벨(LTD)은 각각 제1 로스들(L1)을 얻기 위해 교차-엔트로피 계산에 의해 비교된다.

이 실시예에서, 단계 S225에서, 하이퍼네트워크 파라미터(HNP1)를 하이퍼네트워크 파라미터(HNP2)로 업데이트하는 동안 4 개의 탐색 분류 모델 및 제1 로스들(L1)의 4 개의 결과가 모두 고려될 수 있다.

도 6은 본 개시의 일부 실시예들에 따른 4 개의 탐색 분류 모델 파라미터(MPe1~MPe4)에 기초하여 분류 모델(146)로부터 형성된 4 개의 탐색 분류 모델(146e1~146e4)의 내부 구조를 도시하는 개략도이다. 도 6에 도시된 바와 같이, 각각의 탐색 분류 모델들(146e1~146e4)은 n 개의 뉴럴 네트워크 구조 계층(SL1, SL2, SL3, SL4, SL5 ... SLn)을 포함한다. 일부 실시예들에서, 각각의 뉴럴 네트워크 구조 계층들(SL1, SL2, SL3, SL4, SL5 ... SLn)은 컨볼루션 계층(convolution layer), 풀링 계층(pooling layer), 선형 교정 계층(linear rectification layer), 완전 연결 계층(fully connected layer) 또는 기타 유형의 뉴럴 네트워크 구조 계층일 수 있다.

일부 실시예들에서, n은 양의 정수이다. 일반적으로, 분류 모델의 총 계층 수는 응용 요건(예를 들어, 분류 정확도 요건, 분류 대상의 복잡성, 입력 이미지들의 다양성)에 따라 결정될 수 있다. 일부 경우들에 있어서, n의 일반적인 범위는 16 내지 128 사이의 범위일 수 있으며, 본 개시는 특정 수의 계층으로 제한되지 않는다.

예를 들어, 뉴럴 네트워크 구조 계층들(SL1 및 SL2)은 컨볼루션 계층들일 수 있으며; 뉴럴 네트워크 구조 계층(SL3)은 풀링 계층일 수 있고; 뉴럴 네트워크 구조 계층들(SL4 및 SL5)은 컨볼루션 계층들일 수 있으며; 뉴럴 네트워크 구조 계층(SL6)은 풀링 계층일 수 있고, 뉴럴 네트워크 구조 계층(SL7)은 컨볼루션 계층일 수 있고; 뉴럴 네트워크 구조 계층(SL8)은 선형 교정 계층일 수 있고; 뉴럴 네트워크 구조 계층(SLn)은 완전 연결 계층일 수 있으며, 본 개시는 이에 제한되지 않는다.

도 6에 도시된 바와 같이, 뉴럴 네트워크 구조 계층(SL1 내지 SLn)은 제1 구조 계층 부분(P1) 및 제1 구조 계층 부분(P1) 다음의 제2 구조 계층 부분(P2)으로 나뉘어진다. 도 6에 도시된 실시예에서, 제1 구조 계층 부분(P1)은 뉴럴 네트워크 구조 계층들(SL1~SL3)을 포함하고, 제2 구조 계층 부분(P2)은 뉴럴 네트워크 구조 계층들(SL4~SLn)을 포함한다.

탐색 분류 모델들(146e1~146e4)을 형성하기 위한 각각의 탐색 분류 모델 파라미터들(MPe1 내지 MPe4)은 제1 가중치 파라미터 컨텐츠(제1 구조 계층 부분(P1)의 동작을 결정하도록 구성됨) 및 제2 가중치 파라미터 컨텐츠(제2 구조 계층 부분(P2)의 동작을 결정하도록 구성됨)를 포함한다. 일부 실시예들에서, 4 개의 탐색 분류 모델(146e1~146e4)의 제2 구조 계층 부분들(P2)(즉, 뉴럴 네트워크 구조 계층들(SL4~SLn))은 동일한 제2 가중치 파라미터 컨텐츠를 공유하며, 4 개의 탐색 분류 모델(146e1~146e4) 중 뉴럴 네트워크 구조 계층들(SL4 내지 SLn)은 동일한 로직으로 동작한다.

즉, 탐색 분류 모델(146e1)의 뉴럴 네트워크 구조 계층(SL4) 및 탐색 분류 모델(146e2)의 뉴럴 네트워크 구조 계층(SL4)은 동일한 가중치 파라미터들을 사용하고 동일한 로직으로 동작한다. 유사하게, 탐색 분류 모델(146e1)의 뉴럴 네트워크 구조 계층(SL5) 및 탐색 분류 모델(146e2)의 뉴럴 네트워크 구조 계층(SL5)은 동일한 가중치 파라미터들을 사용하고 동일한 로직으로 동작하며, 나머지 구성도 이와 같다.

반면, 4 개의 탐색 분류 모델(146e1~146e4)의 각각의 제1 구조 계층 부분들(P1)(즉, 뉴럴 네트워크 구조 계층들(SL1~SL3))은 서로 독립적인 제1 가중치 파라미터 컨텐츠를 갖는다. 하나의 탐색 분류 모델의 뉴럴 네트워크 구조 계층(SL1~SL3)의 로직은 다른 탐색 분류 모델의 뉴럴 네트워크 구조 계층(SL1~SL3)의 로직과 상이하다.

도 6에 도시된 제1 구조 계층 부분(P1) 및 제2 구조 계층 부분(P2)의 분포는 설명을 위한 것이며, 본 개시는 이에 제한되지 않는다.

일 실시예에서, 각각의 탐색 분류 모델들(146e1~146e4)의 제1 구조 계층 부분(P1)은 적어도 제1 컨볼루션 계층을 포함한다. 예를 들어, 제1 구조 계층 부분(P1)은 뉴럴 네트워크 구조 계층(SL1)(즉, 제1 컨볼루션 계층)을 포함하고, 탐색 분류 모델들(146e1 내지 146e4)의 제1 컨볼루션 계층들은 서로 다른 가중치 파라미터들을 갖는다. 이 실시예에서, 나머지 뉴럴 네트워크 구조 계층들(SL2~SLn)은 모두 제2 구조 계층 부분(P2)(도면에 도시되지 않음)에 속하며, 제2 구조 계층 부분(P2)은 제2 컨볼루션 계층과 완전 연결 계층을 포함한다. 탐색 분류 모델들(146e1~146e4)의 제2 컨볼루션 계층과 완전 연결 계층은 분류 모델들(146e1~146e4) 전체에 걸쳐 동일한 가중치 파라미터를 갖는다. 이 실시예에서, 뉴럴 네트워크 구조 계층들(SL2~SLn) 대부분이 동일한 가중치 파라미터들을 공유하고 더 적은 수의 뉴럴 네트워크 구조 계층(예를 들어, 뉴럴 네트워크 구조 계층(SL1))만이 독립적인 가중치 파라미터들을 사용하기 때문에, 실험 결과에 따르면 뉴럴 네트워크 구조는 학습 동안 상대적으로 단순하고, 학습 속도가 더 빠르며, 컴퓨팅 리소스가 적게 필요하고, 정확도를 유지할 수 있다.

도 7 및 도 8을 참조하면, 도 7은 일부 실시예들에서 단계 S230 내의 세부 단계들 S231 내지 S234를 도시하는 흐름도이고, 도 8은 일부 실시예들에서 처리 유닛(140)의 구성 요소들에 의해 수행되는 단계들 S231 내지 S234를 도시하는 개략도이다.

도 3 및 도 4에 도시된 단계 S220 이후에, 방법이 단계 S230에 진입하는 경우, 도 8에 도시된 바와 같이, 하이퍼파라미터의 현재 값은 여전히 하이퍼파라미터(HP1)이고, 하이퍼네트워크 파라미터의 현재 값은 하이퍼네트워크 파라미터(HNP2)로 업데이트되었다.

도 7 및 도 8에 도시된 바와 같이, 단계 S231에서, 하이퍼네트워크(144)는 (업데이트된 하이퍼네트워크 파라미터(HNP2)에 기초하여) 하이퍼파라미터(HP1)를 제2 분류 모델 파라미터(MP2)로 변환한다. 분류 모델 파라미터(MP2)는 도 5b의 전술한 실시예들에서 역 전파를 통해 구한 개선된 분류 모델 파라미터(MP1m)와 동일하다. 도 9a는 본 개시의 일부 실시예들에서 단계 S231에서 하이퍼파라미터(HP1)로부터 제2 분류 모델 파라미터(MP2)로의 변환을 도시하는 개략도이다. 도 9a에 도시된 바와 같이, 단계 S231은 데이터 증강 공간(SP1)의 데이터 포인트(즉, 하이퍼파라미터(HP1))를 분류 파라미터 공간(SP2)의 데이터 포인트(즉, 제2 분류 모델 파라미터(MP2)) 상으로 매핑하도록 구성된다.

단계 S231에서, 하이퍼네트워크(144)가 데이터 증강 공간(SP1)의 하이퍼파라미터(HP1)를 분류 파라미터 공간(SP2)의 제2 분류 모델 파라미터(MP2) 상으로 매핑하는 방식을 결정하는데 하이퍼네트워크 파라미터(HNP2)가 사용된다.

도 9a를 도 5a와 비교하면, 하이퍼네트워크 파라미터(HNP2)는 이전 실시예(도 5a에 도시)의 하이퍼네트워크 파라미터(HNP1)와 이미 상이하기 때문에, 동일한 하이퍼파라미터(HP1)가 하이퍼네트워크(144)에 의해 분류 파라미터 공간(SP2)의 새로운 위치(즉, 제2 분류 모델 파라미터(MP2)) 상으로 매핑되게 된다.

도 7 및 도 8에 도시된 바와 같이, 단계 S232에서, 분류 모델(146)은 제2 분류 모델 파라미터(MP2)에 기초하여 검증 샘플(verification sample; VD)을 분류하여 검증 샘플(VD)에 상응하는 제2 예측 라벨(LPD2)을 생성한다.

단계 S233에서, 처리 유닛(140)은 제2 로스(L2)를 생성하기 위해 제2 예측 라벨(LPD2)을 검증 샘플(VD)의 검증 라벨(LVD)과 비교하는 비교 알고리즘을 실행한다. 일부 실시예들에서, 처리 유닛(140)은 제2 예측 라벨(LPD2)과 검증 라벨(LVD) 사이의 교차-엔트로피 계산을 수행하여 제2 로스(L2)를 구한다.

제2 로스(L2)의 값은 분류 모델(146)에 의해 수행되는 분류 결과가 정확한지 여부를 나타낸다. 분류 모델(146)에 의해 생성되는 제2 예측 라벨(LPD2)이 검증 샘플(VD)의 검증 라벨(LVD)과 동일(또는 유사)한 경우, 제2 로스의 값은 작게 되고, 이는 현재 분류 모델(146)에 의해 채택된 제2 분류 모델 파라미터(MP2)가 더 정확하다는 것을 의미한다. 분류 모델(146)에 의해 생성되는 제2 예측 라벨(LPD2)이 검증 샘플(VD)의 검증 라벨(LVD)과 상이한 경우, 제2 로스(L2)의 값은 더 크게 되고, 이는 현재 분류 모델(146)에 의해 채택된 제2 분류 모델 파라미터(MP2)가 상대적으로 부정확하다는 것을 의미한다.

단계 S234에서, 하이퍼파라미터(HP1)는 제2 로스(L2)에 따라 하이퍼파라미터(HP2)로 업데이트된다. 도 9b는 본 개시의 일부 실시예들에서 단계 S234에서 제2 로스(L2)에 따른 하이퍼파라미터(HP2)의 업데이트를 도시하는 개략도이다. 도 9b에 도시된 바와 같이, 현재 분류 모델(146)에 의해 채택된 제2 분류 모델 파라미터(MP2)에 상응하는 제2 로스(L2)를 구한 후, 제2 로스(L2)를 감소(또는 최소화)시킬 수 있는 개선된 분류 모델 파라미터(MP2m)를 구하도록 제2 로스(L2)가 분류 모델(146)로 역 전파된다. 이후, 개선된 분류 모델 파라미터(MP2m)가 하이퍼네트워크(144)로 역 전파되고, 개선된 분류 모델 파라미터(MP2m)에 기초한 역 전파에 따라 업데이트된 하이퍼파라미터(HP2)가 구해진다. 일부 실시예들에서, 확률적 경사 하강법(SGD) 알고리즘이 사용되어 제2 로스(L2)를 감소(또는 최소화)시키는 개선된 분류 모델 파라미터(MP2m)를 찾을 수 있다.

도 8 및 도 9b에 도시된 바와 같이, 하이퍼네트워크(144)에 의해 사용되는 하이퍼네트워크 파라미터(HNP2)가 변경되지 않는 경우, 하이퍼네트워크(144)는 (하이퍼네트워크 파라미터(HNP2)에 기초하여) 업데이트된 하이퍼네트워크 파라미터(HP2)를 개선된 분류 모델 파라미터(MP2m) 상으로 매핑하게 된다.

전술한 실시예들에 기초하여, 단계 S220에서, 먼저, 하이퍼네트워크 파라미터(HNP1)가 하이퍼네트워크 파라미터(HNP2)로 업데이트된다. 단계 S230에서, 하이퍼파라미터(HP1)는 하이퍼네트워크 파라미터(HNP2)에 기초하여 하이퍼파라미터(HP2)로 업데이트된다. 단계 S230이 완료될 시에, 수렴 조건이 아직 충족되지 않은 경우, 이 방법은 하이퍼파라미터(HP2)에 기초하여 단계 S220으로 돌아가며, 입력 조건으로서 하이퍼파라미터(HP2) 및 하이퍼네트워크 파라미터(HNP2)를 사용하여 단계들 S220 및 S230을 다시 수행한다. 이 경우, 하이퍼네트워크 파라미터들 및 하이퍼파라미터들이 다시 업데이트될 수 있다. 하이퍼네트워크 파라미터들 및 하이퍼파라미터들은 수렴 조건이 충족될 때까지 반복적으로 업데이트될 수 있다.

도 1에 도시된 바와 같이, 머신 러닝 시스템(100)의 학습 과정(training process) 동안에, 하이퍼파라미터(HP)는 데이터 증강 모델(142)의 데이터 증강 동작을 제어하도록 구성되고, 하이퍼파라미터(HP)는 (하이퍼네트워크(144)에 의한 변환을 통해) 또한 분류 모델(146)의 분류 동작을 제어하도록 구성된다. 또한, 본 개시에서 상이한 탐색 분류 모델들은 가중치들을 공유할 수 있다. 가중치들을 공유함으로써, 스토리지 및 컴퓨팅 리소스들을 절감하고 학습 속도를 높일 수 있다. 또한, 본 개시의 머신 러닝 시스템(100)은 데이터 증강 모델을 활용하여 균등한 수의 트레이닝 샘플들(TD)을 증가시켜 분류 모델(146)의 학습 과정에 많은 수의 학습 샘플(TD)이 필요하지 않도록 할 수 있고, 분류 모델(146)은 계속해서 높은 정확도를 유지할 수 있다.

컴퓨터 비전 분야에서, 딥 러닝의 정확성은 주로 많은 양의 라벨링된 학습 데이터에 의존한다. 학습 데이터의 품질, 수량 및 다양성이 증가함에 따라, 분류 모델의 성능은 일반적으로 그에 따라 향상된다. 그러나, 분류 모델을 학습시키기 위해 고품질 데이터를 수집하는 것은 어렵다. 따라서, 분류 모델의 성능을 향상시키는 것은 어렵다. 이 문제를 해결하기 위한 방법들 중 하나는 전문가가 회전 각도, 플립 방법 또는 밝기 조정 비율과 같은 데이터 증강을 위한 파라미터들을 수동으로 설계할 수 있도록 하는 것이다. 수동으로 설계된 파라미터들을 사용한 데이터 증강은 일반적으로 컴퓨터 비전을 위한 고성능 분류 모델을 학습시키는데 사용되어 왔다. 데이터 증강을 위한 파라미터들을 자동으로 찾아내는데 머신 러닝을 사용할 수 있다면, 더 효율적이고 정확하게 될 것이다. 전술한 본 개시의 실시예들에서는, 하이퍼네트워크를 이용하여 다중 연속 탐색 모델을 생성하는 하이퍼네트워크 기반 데이터 증강(HBA)을 제안하며, 경사 하강법을 사용하여 데이터 증강을 위한 하이퍼파라미터를 자동으로 조정한다. 본 개시의 일부 실시예들은 계산의 속도 및 정확성을 개선하기 위해 가중치 공유 전략을 채택하며, 이것은 데이터 증강을 위한 파라미터들을 수동으로 조정하기 위한 시간 및 리소스들을 절감시킬 수 있다. 또한, 원래 학습 샘플들이 충분한지 여부에 관계없이, 데이터 증강은 분류 모델의 정확도를 효과적으로 개선하고 과적합 문제를 감소시킬 수 있다. 따라서, 데이터 증강을 위한 파라미터들의 자동 조정은 전체 모델 성능을 향상시킬 수 있다.

실제 응용들에 있어서, 본 개시의 머신 러닝 방법 및 머신 러닝 시스템은 머신 비전, 이미지 분류 또는 데이터 분류와 같은 다양한 분야에서 활용될 수 있다. 예를 들어, 이 머신 러닝 방법은 의료 이미지들을 분류하는데 사용될 수 있다. 머신 러닝 방법은 정상적인 상태, 폐렴, 기관지염 또는 심장 질환의 X 선 이미지들으로 분류하는데 사용될 수 있다. 머신 러닝 방법은 또한 초음파 이미지를 정상적인 태아 위치 또는 비정상적인 태아 위치로 분류하는데 사용될 수도 있다. 한편, 이 머신 러닝 방법은 또한 일반 도로, 장애물이 있는 도로, 및 다른 차량의 도로 상태 이미지들을 구분하는 것과 같은 자동 주행에서 수집되는 이미지들을 분류하는 데에도 사용될 수 있다. 머신 러닝 방법은 다른 유사한 분야에서 활용될 수 있다. 예를 들어, 본 개시의 머신 러닝 방법 및 머신 러닝 시스템은 또한 음악 스펙트럼 인식, 스펙트럼 인식, 빅 데이터 분석, 데이터 특징 인식 및 기타 관련 머신 러닝 분야에서도 사용될 수 있다.

본 개시의 다른 실시예는 프로세서(예를 들어, 도 1의 처리 유닛(140))에 의해 실행되어 도 2, 도 3 및 도 7에 도시된 실시예들의 머신 러닝 방법(200)을 수행하는 적어도 하나의 명령어 프로그램을 포함하는 비일시적 컴퓨터 판독 가능 매체이다.

본 발명이 특정 실시예들을 참조하여 매우 상세하게 설명되었지만, 다른 실시예들이 가능하다. 따라서, 첨부된 청구 범위의 사상 및 범위는 여기에 포함된 실시예들의 설명으로 제한되지 않아야 한다.

본 발명의 범위 또는 사상을 벗어나지 않고 본 발명의 구조에 대해 다양한 수정 및 변경이 이루어질 수 있음은 당업자에게 당연하다 할 것이다. 그러므로, 본 발명의 수정 및 변경이 다음의 청구항들의 범위에 속하는 경우 본 발명에 포함되는 것으로 의도된다.

100: 머신 런닝 시스템
120: 메모리 유닛
140: 처리 유닛
142: 데이터 증강 모델
144: 하이퍼네트워크
146: 분류모델

Claims

(a) 하이퍼파라미터(hyperparameter) 및 하이퍼네트워크 파라미터(hypernetwork parameter)의 초기 값들을 획득하는 단계;
(b) 상기 하이퍼파라미터 및 상기 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터를 생성하고, 학습 샘플(training sample)에 대한 상기 제1 분류 모델 파라미터에 기초하여 분류 결과에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 단계;
(c) 상기 하이퍼파라미터 및 상기 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터를 생성하고, 검증 샘플(verification sample)에 대한 제2 분류 모델 파라미터에 기초하여 다른 분류 결과에 따라 상기 하이퍼파라미터를 업데이트하는 단계; 및
(d) 상기 단계 (b) 및 상기 단계 (c)를 반복하여 상기 하이퍼네트워크 파라미터 및 상기 하이퍼파라미터를 업데이트하는 단계
를 포함하는, 머신 러닝 방법.
제1 항에 있어서,
상기 단계 (b)는:
(b1) 상기 하이퍼파라미터에 기초하는 데이터 증강 모델에 의해, 증강된 학습 샘플을 생성하기 위해 상기 학습 샘플에 대해 데이터 증강을 수행하는 단계;
(b2) 상기 하이퍼네트워크 파라미터에 기초하는 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 상기 제1 분류 모델 파라미터로 변환하는 단계;
(b3) 상기 제1 분류 모델 파라미터에 기초하는 분류 모델에 의해, 상기 증강된 학습 샘플에 상응하는 제1 예측 라벨(prediction label)을 생성하기 위해 상기 증강된 학습 샘플에 대해 분류를 수행하는 단계; 및
(b4) 상기 제1 예측 라벨을 상기 학습 샘플의 학습 라벨과 비교하여 생성된 제1 로스(loss)에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 단계를 포함하는, 머신 러닝 방법.
제2 항에 있어서,
상기 단계 (b2)는 상기 하이퍼네트워크 파라미터 및 복수의 탐색 값들에 기초하는 상기 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 복수의 탐색 분류 모델 파라미터들로 변환하는 단계를 포함하고;
상기 단계 (b3)는 상기 탐색 분류 모델 파라미터들에 기초하여 상기 분류 모델에 의해 복수의 탐색 분류 모델들을 각각 형성하고, 상기 탐색 분류 모델들에 의해 상기 증강된 학습 샘플에 대한 분류를 각각 수행하여 상기 증강된 학습 샘플에 상응하는 복수의 제1 예측 라벨들을 생성하는 단계를 포함하고,
상기 단계 (b4)는:
상기 제1 예측 라벨들을 상기 학습 샘플의 상기 학습라벨과 비교하여 복수의 제1 로스들을 계산하는 단계; 및
상기 탐색 분류 모델들 및 상기 탐색 분류 모델들에 상응하는 상기 제1 로스들에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 단계를 포함하는, 머신 러닝 방법.
제3 항에 있어서,
상기 단계 (b4)는 상기 탐색 분류 모델들의 상기 제1 예측 라벨들과 상기 학습 라벨 간의 교차-엔트로피 계산(cross-entropy calculation)에 의해 상기 제 1 로스들을 각각 계산하는 단계를 포함하는, 머신 러닝 방법.
제3 항에 있어서,
상기 탐색 분류 모델들 각각은 복수의 뉴럴 네트워크 구조 계층들을 포함하고, 상기 뉴럴 네트워크 구조 계층들은 제1 구조 계층 부분 및 상기 제1 구조 계층 부분 다음의 제2 구조 계층 부분으로 나뉘어지고, 상기 탐색 분류 모델들을 형성하기 위한 상기 탐색 분류 모델 파라미터들 각각은 제1 가중치 파라미터 컨텐츠 및 제2 가중치 파라미터 컨텐츠를 포함하고, 상기 제1 가중치 파라미터 컨텐츠는 상기 제1 구조 계층 부분의 동작들을 결정하도록 구성되고, 상기 제2 가중치 파라미터 컨텐츠는 상기 제2 구조 계층 부분의 동작들을 결정하도록 구성된 것을 특징으로 하는, 머신 러닝 방법.
제5 항에 있어서,
상기 탐색 분류 모델들의 상기 제2 구조 계층 부분들에 적용되는 상기 제2 가중치 파라미터 컨텐츠들은 동일하고, 상기 탐색 분류 모델들의 상기 제2 구조 계층 부분들은 동일한 로직으로 동작하는 것을 특징으로 하는, 머신 러닝 방법.
제5 항에 있어서,
상기 탐색 분류 모델들 각각의 상기 제1 구조 계층 부분은 적어도 하나의 제1 컨볼루션 계층(convolutional layer)을 포함하고, 상기 탐색 분류 모델들 중 상기 제1 컨볼루션 계층들은 서로 다른 가중치 파라미터들을 갖는 것을 특징으로 하는, 머신 러닝 방법.
제5 항에 있어서,
상기 탐색 분류 모델들 각각의 상기 제2 구조 계층 부분은 적어도 하나의 제2 컨볼루션 계층 및 적어도 하나의 완전 연결 계층(fully connection layer)을 포함하고, 상기 탐색 분류 모델들 중 상기 제2 컨볼루션 계층들 및 상기 완전 연결 계층들은 상기 탐색 분류 모델들 전체에 걸쳐 동일한 가중치 파라미터들을 갖는 것을 특징으로 하는, 머신 러닝 방법.
제1 항에 있어서, 상기 단계 (c)는:
(c1) 상기 업데이트된 하이퍼네트워크 파라미터에 기초하는 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 상기 제2 분류 모델 파라미터로 변환하는 단계;
(c2) 상기 제2 분류 모델 파라미터에 기초하는 분류 모델에 의해, 상기 검증 샘플에 상응하는 제2 예측 라벨을 생성하기 위해 상기 검증 샘플에 대한 분류를 수행하는 단계; 및
(c3) 상기 제2 예측 라벨을 상기 검증 샘플의 검증 라벨과 비교하여 생성된 제2 로스에 따라 상기 하이퍼파라미터를 업데이트하는 단계를 포함하는, 머신 러닝 방법.
제9 항에 있어서,
상기 단계 (c3)는 상기 제2 예측 라벨과 상기 검증 라벨 간의 교차-엔트로피 계산에 의해 상기 제2 로스를 계산하는 단계를 포함하는, 머신 러닝 방법.
하이퍼파라미터 및 하이퍼네트워크 파라미터의 초기 값들을 저장하도록 구성된 메모리 유닛; 및
상기 메모리 유닛과 결합되고 하이퍼네트워크 및 분류 모델을 실행하도록 구성된 처리 유닛을 포함하고,
상기 처리 유닛은:
(a) 상기 하이퍼파라미터 및 상기 하이퍼네트워크 파라미터에 따라 상기 하이퍼네트워크에 의해 제1 분류 모델 파라미터를 생성하고, 학습 샘플에 대한 상기 제1 분류 모델 파라미터에 기초하여 상기 분류 모델에 의해 분류 결과를 생성하고, 상기 분류 결과에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 동작;
(b) 상기 하이퍼파라미터 및 상기 업데이트된 하이퍼네트워크 파라미터에 따라 상기 하이퍼네트워크에 의해 제2 분류 모델 파라미터를 생성하고, 검증 샘플에 대한 상기 제2 분류 모델 파라미터에 기초하여 상기 분류 모델에 의해 다른 분류 결과를 생성하고, 상기 다른 분류 결과에 따라 상기 하이퍼파라미터를 업데이트하는 동작; 및
(c) 상기 동작 (a) 및 상기 동작 (b)를 반복하여 상기 하이퍼네트워크 파라미터 및 상기 하이퍼파라미터를 업데이트하는 동작을 실행하도록 구성된 것을 특징으로 하는, 머신 러닝 시스템.
제11 항에 있어서,
상기 처리 유닛은 데이터 증강 모델을 실행하도록 더 구성되고, 상기 처리 유닛에 의해 실행되는 상기 동작 (a)는:
(a1) 상기 하이퍼파라미터에 기초하는 상기 데이터 증강 모델에 의해, 증강된 학습 샘플을 생성하기 위해 상기 학습 샘플에 대해 데이터 증강을 수행하는 동작;
(a2) 상기 하이퍼네트워크 파라미터에 기초하는 상기 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 상기 제1 분류 모델 파라미터로 변환하는 동작;
(a3) 상기 제1 분류 모델 파라미터에 기초하는 상기 분류 모델에 의해, 상기 증강된 학습 샘플에 상응하는 제1 예측 라벨을 생성하기 위해 상기 증강된 학습 샘플에 대해 분류를 수행하는 동작; 및
(a4) 상기 제1 예측 라벨을 상기 트레이닝 샘플의 트레이닝 라벨과 비교하여 생성된 제1 로스에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 동작을 포함하는 것을 특징으로 하는, 머신 러닝 시스템.
제12 항에 있어서, 상기 처리 유닛에 의해 실행되는 상기 동작 (a2)는 상기 하이퍼네트워크 파라미터 및 복수의 탐색 값들에 기초하는 상기 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 복수의 탐색 분류 모델 파라미터들로 변환하는 동작을 포함하고,
상기 처리 유닛에 의해 실행되는 상기 동작 (a3)는 상기 탐색 분류 모델 파라미터들에 기초하여 상기 분류 모델에 의해 복수의 탐색 분류 모델들을 각각 형성하고, 상기 탐색 분류 모델들에 의해 상기 증강된 트레이닝 샘플에 대한 분류를 각각 수행하여 상기 증강된 학습 샘플에 상응하는 복수의 제1 예측 라벨들을 생성하는 동작을 포함하고,
상기 처리 유닛에 의해 실행되는 상기 동작 (a4)는:
상기 제1 예측 라벨들을 상기 학습 샘플의 상기 학습 라벨과 비교하여 복수의 제1 로스들을 계산하는 동작; 및
상기 탐색 분류 모델들 및 상기 탐색 분류 모델들에 상응하는 상기 제1 로스들에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 동작을 포함하는 것을 특징으로 하는, 머신 러닝 시스템.
제13 항에 있어서,
상기 처리 유닛에 의해 실행되는 상기 동작 (a2)는 상기 탐색 분류 모델들의 상기 제1 예측 라벨들과 상기 학습 라벨 간의 교차-엔트로피 계산에 의해 상기 제1 로스들을 각각 계산하는 동작을 포함하는 것을 특징으로 하는, 머신 러닝 시스템.
제13 항에 있어서,
상기 탐색 분류 모델들 각각은 복수의 뉴럴 네트워크 구조 계층들을 포함하고, 상기 뉴럴 네트워크 구조 계층들은 제1 구조 계층 부분 및 상기 제1 구조 계층 부분 다음의 제2 구조 계층 부분으로 나뉘어지고, 상기 탐색 분류 모델들을 형성하기 위한 상기 탐색 분류 모델 파라미터들 각각은 제1 가중치 파라미터 컨텐츠 및 제2 가중치 파라미터 컨텐츠를 포함하고, 상기 제1 가중치 파라미터 컨텐츠는 상기 제1 구조 계층 부분의 동작들을 결정하도록 구성되고, 상기 제2 가중치 파라미터 컨텐츠는 상기 제2 구조 계층 부분의 동작들을 결정하도록 구성된 것을 특징으로 하는, 머신 러닝 시스템.
제15 항에 있어서,
상기 탐색 분류 모델들의 상기 제2 구조 계층 부분들에 적용되는 상기 제2 가중치 파라미터 컨텐츠들은 동일하고, 상기 탐색 분류 모델들의 상기 제2 구조 계층 부분들은 동일한 로직으로 동작하는 것을 특징으로 하는, 머신 러닝 시스템.
제15 항에 있어서,
상기 탐색 분류 모델들 각각의 상기 제1 구조 계층 부분은 적어도 하나의 제1 컨볼루션 계층(convolutional layer)을 포함하고, 상기 탐색 분류 모델들 중 상기 제1 컨볼루션 계층들은 서로 다른 가중치 파라미터들을 갖는 것을 특징으로 햐는, 머신 러닝 시스템.
제15 항에 있어서,
상기 탐색 분류 모델들 각각의 상기 제2 구조 계층 부분은 적어도 하나의 제2 컨볼루션 계층 및 적어도 하나의 완전 연결 계층(fully connection layer)을 포함하고, 상기 탐색 분류 모델들 중 상기 제2 컨볼루션 계층들 및 상기 완전 연결 계층들은 상기 탐색 분류 모델들 전체에 걸쳐 동일한 가중치 파라미터들을 갖는 것을 특징으로 하는, 머신 러닝 시스템.
제11 항에 있어서,
상기 처리 유닛에 의해 실행되는 상기 동작 (b)는:
(b1) 상기 업데이트된 하이퍼네트워크 파라미터에 기초하는 상기 하이퍼네트워크에 의해, 상기 하이퍼파라미터를 상기 제2 분류 모델 파라미터로 변환하는 동작;
(b2) 상기 제2 분류 모델 파라미터에 기초하는 상기 분류 모델에 의해, 상기 검증 샘플에 상응하는 제2 예측 라벨을 생성하기 위해 상기 검증 샘플에 대한 분류를 수행하는 동작; 및
(b3) 상기 제2 예측 라벨을 상기 검증 샘플의 검증 라벨과 비교하여 생성된 제2 로스에 따라 상기 하이퍼파라미터를 업데이트하는 동작을 포함하는 것을 특징으로 하는, 머신 러닝 시스템.
머신 러닝 방법을 수행하기 위해 프로세서에 의해 실행되는 적어도 하나의 명령어 프로그램을 저장하는 비일시적 컴퓨터 판독 가능 저장 매체로서, 상기 머신 러닝 방법은:
(a) 하이퍼파라미터 및 하이퍼네트워크 파라미터의 초기 값들을 획득하는 단계;
(b) 상기 하이퍼파라미터 및 상기 하이퍼네트워크 파라미터에 따라 제1 분류 모델 파라미터를 생성하고, 학습 샘플에 대한 상기 제1 분류 모델 파라미터에 기초하여 분류 결과에 따라 상기 하이퍼네트워크 파라미터를 업데이트하는 단계;
(c) 상기 하이퍼파라미터 및 상기 업데이트된 하이퍼네트워크 파라미터에 따라 제2 분류 모델 파라미터를 생성하고, 검증 샘플에 대한 제2 분류 모델 파라미터에 기초하여 다른 분류 결과에 따라 상기 하이퍼파라미터를 업데이트하는 단계; 및
(d) 상기 단계 (b) 및 상기 단계 (c)를 반복하여 상기 하이퍼네트워크 파라미터 및 상기 하이퍼파라미터를 업데이트하는 단계
를 포함하는 것을 특징으로 하는, 비일시적 컴퓨터 판독 가능 저장 매체.