KR101887558B1

KR101887558B1 - 컨볼루션 신경망 모델의 트레이닝 방법 및 장치

Info

Publication number: KR101887558B1
Application number: KR1020177018163A
Authority: KR
Inventors: 샹 바이; 페이웨 황; 샤오웨이 궈; 충 야오; 바오광 스
Original assignee: 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date: 2015-04-02
Filing date: 2016-03-25
Publication date: 2018-08-10
Also published as: US10607120B2; US20170220904A1; JP6257848B1; US9977997B2; CN106156807B; CN106156807A; KR20170091140A; WO2016155564A1; JP2018503152A; US20180225552A1

Abstract

이미지 인식 분야에 관련된 CNN 모델의 트레이닝 방법 및 장치가 개시된다. 방법은, 제2 특성 이미지를 획득하기 위해 트레이닝 이미지에 컨볼루션 연산, 최대 풀링 연산 및 수평 풀링 연산을 각각 수행하는 단계; 제2 특성 이미지에 따라서 특성 벡터를 결정하는 단계; 카테고리 확률 벡터를 획득하기 위해 특성 벡터를 프로세싱하는 단계; 카테고리 확률 벡터 및 초기 카테고리에 기초하여 카테고리 에러를 계산하는 단계; 카테고리 에러에 기초하여 모델 파라미터를 조정하는 단계; 조정된 모델 파라미터에 기초하여 모델 파라미터 조정 프로세스를 계속하고, 반복의 횟수가 미리 설정된 횟수에 도달하면 모델 파라미터를 잘 트레이닝된 CNN 모델의 모델 파라미터로서 사용하는 단계를 포함한다. 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산을 수행한 후, 수평 풀링 연산이수행된다. 수평 풀링 연산은 특성 이미지로부터 이미지 수평 방향 특성을 식별하는 특성 이미지를 추출할 수 있으므로, 잘 트레이닝된 CNN 모델은 임의의 크기의 이미지를 인식할 수 있고, 따라서 잘 트레이닝된 CNN 모델의 이미지 인식에 있어서의 적용 범위가 확대된다.

Description

컨볼루션 신경망 모델의 트레이닝 방법 및 장치{TRAINING METHOD AND APPARATUS FOR CONVOLUTIONAL NEURAL NETWORK MODEL}

본 출원은 2015년 4월 2일에 중국특허청(SIPO)에 출원된 중국특허출원 제2015101540270호의 "컨볼루션 신경망(CNN) 모델의 트레이닝 방법 및 장치"를 기초로 출원되었으며 이에 대해 우선권을 주장하고, 이것의 전체 내용이 참조로서 본 명세서에 포함된다.

본 명세서는 전반적으로 이미지 인식 분야에 관한 것으로서, 더 구체적으로 CNN(Convolutional Neural Network) 모델의 트레이닝 방법 및 장치에 관한 것이다.

이미지 인식 분야에서, CNN 모델은 일반적으로 인식되는 이미지의 분류를 결정하는데 사용된다. 인식되는 이미지의 분류가 CNN 모델을 통해 인식되기 전에, CNN 모델은 우선 트레이닝 될 필요가 있다.

CNN 모델의 트레이닝은 일반적으로 이하의 방법으로 구현된다. 우선, 트레이닝되는 CNN 모델의 모델 파라미터가 초기화되고, 여기서 모델 파라미터는 각각의 컨볼루션 레이어(convolution layer)의 초기 컨볼루션 커널(convolution kernels), 각각의 컨볼루션 레이어의 초기 바이어스 행렬(bias matrixes), 및 완전 연결 레이어(fully connected layer)의 초기 가중치 행렬(weight matrix) 및 초기 바이어스 벡터(bias vector)를 포함한다. 그리고, 고정된 높이 및 고정된 폭을 가진 프로세싱될 영역이 미리 선택된 트레이닝 이미지 각각으로부터 획득되고, 여기서 고정된 높이 및 고정된 폭은 인식되는 이미지의 분류에 매칭되고, 인식되는 이미지는 트레이닝되는 CNN 모델에 의해 프로세싱될 수 있는 이미지로서 미리 설정된 것이다. 트레이닝 이미지의 각각에 대응하는 프로세싱되는 영역은 트레이닝되는 CNN 모델에 입력된다. 그 후, 각각의 컨볼루션 레이어에서, 컨볼루션 연산 및 최대 풀링(pooling) 연산이 각각의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬를 사용하여 프로세싱되는 각 영역에서 수행되어, 각각의 컨볼루션 레이어 에서 처리되는 각 영역의 특성 이미지를 획득한다. 그리고, 각 특성 이미지는, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 사용하여 프로세싱되는 각 영역의 분류 확률을 획득하기 위해 프로세싱된다. 그리고, 트레이닝 이미지 각각의 분류 확률 및 초기 분류에 따라서 분류 에러가 계산된다. 분류 에러의 평균이 모든 트레이닝 이미지의 분류 에러에 따라서 계산된다. 그리고, 트레이닝되는 CNN 모델의 모델 파라미터는 분류 에러의 평균을 사용하여 조정된다. 상술한 각각의 단계는, 조정된 모델 파라미터와 개별적인 트레이닝 이미지를 사용하여 지정된 횟수 만큼 반복된다. 마지막으로, 반복의 횟수가 지정된 수에 도달할 때 획득된 모델 파라미터가 트레이닝된 CNN 모델의 모델 파라미터로서 결정된다.

본 명세서의 구현 과정에서, 출원인은 관련 기술이 적어도 아래와 같은 문제를 가진다는 것을 발견했다.

CNN 모델의 트레이닝 프로세스에서는 미리 선택된 트레이닝 이미지로부터 고정된 높이 및 고정된 폭을 가진 프로세싱되는 영역을 획득하는 것이 필요하므로, 트레이닝된 CNN은 고정된 높이 및 고정된 폭을 가진 이미지만을 인식할 수 있고, 이는 트레이닝된 CNN 모델의 이미지 인식에 특정 제한을 발생시키며 또한 제한된 적용 범위를 야기한다.

본 명세서의 실시예는, 종래 기술의 문제를 해결하기 위한 CNN 모델의 트레이닝 방법 및 장치를 제공한다. 기술적 해결방법이 아래와 같이 구현된다.

제1 측면에서, CNN 모델의 트레이닝 방법이 제공되고, 이 방법은

트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득하는 단계 - 상기 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;

복수의 트레이닝 이미지를 획득하는 단계;

각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계;

적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계;

적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계;

상기 초기 가중치 행렬 및 상기 초기 바이어스 벡터에 따라서 상기 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하는 단계;

상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 분류 에러를 계산하는 단계;

상기 분류 에러에 기초하여 상기 트레이닝되는 CNN 모델의 모델 파라미터를 조정하는 단계;

조정된 모델 파라미터 및 상기 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하는 단계; 및

상기 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하는 단계를 포함할 수 있다.

제2 측면에서, CNN 모델의 트레이닝 디바이스를 제공하고, 이 디바이스는

트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득하도록 구성된 제1 획득 모듈 - 상기 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;

복수의 트레이닝 이미지를 획득하도록 구성된 제2 획득 모듈;

각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하도록 구성된 특성 추출 모듈;

적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하도록 구성된 수평 풀링 모듈;

적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터를 결정하도록 구성된 제1 결정 모듈;

상기 초기 가중치 행렬 및 상기 초기 바이어스 벡터에 따라서 상기 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하도록 구성된 프로세싱 모듈;

상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 분류 에러를 계산하기 위한 계산 모듈;

상기 분류 에러에 기초하여 상기 트레이닝되는 CNN 모델의 모델 파라미터를 조정하도록 구성된 조정 모듈;

조정된 모델 파라미터 및 상기 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하도록 구성된 반복 모듈; 및

상기 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하도록 구성된 제2 결정 모듈을 포함할 수 있다.

제3 측면에서, 서버가 제공되고, 이 서버는

하나 이상의 프로세서,

상기 하나 이상의 프로세서에 연결된 메모리를 포함할 수 있고,

상기 메모리는, 상기 하나 이상의 프로세서에 대해 실행가능한 명령을 저장하도록 구성되고,

상기 하나 이상의 프로세서는 상기 메모리에 저장된 명령을 실행하여, 제1 측면에서 제공된 CNN 모델의 트레이닝 방법을 실행하도록 구성된다.

본 명세서의 실시예에 의해 제공되는 기술적 해결방법은 이하의 유용한 효과를 발생시킨다.

각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행된 후, 수평 풀링 연산이 최대 풀링 연산에 의해 획득된 특성 이미지에 추가적으로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가적으로 추출될 수 있고, 이에 의해 트레이닝된 CNN 모델이 이미지 분류 인식 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 하고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 하며, 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 커질 수 있다.

본 명세서의 실시예에서 기술적 해결방법을 보다 명확하게 설명하기 위하여, 실시예의 설명에 필요한 첨부된 도면을 이하에서 간략하게 소개한다. 명백하게, 이하에서 설명되는 첨부된 도면은 오직 본 명세서의 일부 실시예일 뿐이고, 본 기술분야의 통상의 기술자는 창의적 노력 없이 첨부된 도면에 따라서 다른 수반되는 도면을 더 얻을 수 있을 것이다.
도 1은 본 명세서의 실시예에 따른 CNN 모델을 트레이닝하는 방법을 나타내는 흐름도이다.
도 2는 본 명세서의 다른 실시예에 따른 CNN 모델을 트레이닝하는 방법을 나타내는 흐름도이다.
도 3은 본 명세서의 다른 실시예에 따른 트레이닝되는 CNN 모델을 도시하는 개략도이다.
도 4는 본 명세서의 다른 실시예에 따른 수평 풀링 연산의 프로세스를 도시하는 개략도이다.
도 5는 본 명세서의 다른 실시예에 따른 CNN 모델을 트레이닝하는 방법을 도시하는 흐름도이다.
도 6은 본 명세서의 다른 실시예에 따른 CNN 모델을 트레이닝하기 위한 디바이스의 구조의 개략도이다.
도 7은 본 명세서의 다른 실시예에 따른 단말의 구조의 개략도이다.
도 8은 본 명세서의 다른 실시예에 따른 서버의 구조의 개략도이다.

본 명세서의 목적, 기술적 해결방법 및 이점을 보다 명확하게 하기 위해, 본 명세서의 구현이 첨부된 도면을 참조하여 이하에서 자세하게 추가적으로 설명된다.

도 1은 본 명세서의 실시예에 따른 CNN 모델을 트레이닝하는 방법을 나타내는 흐름도이다. 도 1에 도시된 바와 같이, 본 명세서의 실시예에 의해 제공되는 방법의 흐름은 이하의 단계를 포함한다.

단계 101에서, 트레이닝되는 CNN 모델의 초기 모델 파라미터가 획득되고, 여기서 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함한다.

단계 102에서, 복수의 트레이닝 이미지를 획득한다.

다른 실시예에서, 복수의 트레이닝 이미지를 획득하는 단계는,

복수의 초기 트레이닝 이미지를 획득하는 것;

초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 제1 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하는 것; 및

지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지를 프로세싱하고, 지정 높이와 지정 폭을 가진 이미지를 초기 트레이닝 이미지에 대응하는 트레이닝 이미지로 결정하는 것을 포함한다.

다른 실시예에서, 지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지를 프로세싱하는 것은,

제1 이미지의 폭이 지정 폭보다 작은 경우, 지정된 그레이-스케일(gray-scale) 값을 가진 픽셀로 제1 이미지의 좌우 측면을 균일하게 채우고, 제1 이미지의 폭이 지정 폭에 도달할 때 제2 이미지를 획득하는 것; 및

제1 이미지의 폭이 지정 폭보다 큰 경우, 제1 이미지의 좌우 측면 상의 픽셀을 균일하게 잘라내고, 제1 이미지의 폭이 지정 폭에 도달할 때 제2 이미지를 획득하는 것을 포함한다.

복수의 초기 트레이닝 이미지를 획득하는 것; 및

초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하고, 그리고 지정 높이에 대응하는 폭을 초기 트레이닝 이미지의 폭으로서 결정하는 것을 포함한다.

다른 실시예에서, 복수의 트레이닝 이미지는 비인공 장면(natural scene)의 이미지이고, 비인공 장면의 이미지는 상이한 언어의 문자를 포함하고, 트레이닝되는 CNN 모델은 언어 인식 분류기(classifier)이다.

단계 103에서, 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

다른 실시예에서, 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계는,

트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산을 수행하는 것 - 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지임 - ; 및

현재 컨볼루션 레이어에서 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 최대 풀링 연산을 현재 컨볼루션 레이어의 컨볼루션 이미지에 수행한 후, 마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 계속해서 현재 컨볼루션 레이어의 제1 특성 이미지를 다음 레벨의 컨볼루션 레이어에 전송하고 그리고 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산을 수행하는 것을 포함한다.

단계 104에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링(horizontal pooling) 연산이 수행된다.

다른 실시예에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 레벨들 중 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계는,

각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하고, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열(row)의 엘리먼트(elements) 중 최대 값을 추출하는 것 - 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 또는 바이어스 행렬의 수와 동일함 - ;

각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들을 1차원 벡터로 배열하는 것; 및

컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터를 결합하는 것을 포함한다.

단계 105에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터(feature vector)가 결정된다.

다른 실시예에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계는,

트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지의 모든 열의 엘리먼트를 처음부터 끝까지 연결하여 트레이닝 이미지의 특성 벡터를 획득하는 것을 포함한다.

단계 106에서, 초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터가 프로세싱된다.

단계 107에서, 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러가 계산된다.

다른 실시예에서, 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하는 단계는,

트레이닝 이미지 각각의 초기 분류를 획득하는 것;

공식 Loss = -lny_label 을 사용하여 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 트레이닝 이미지 각각의 분류 에러를 계산하는 것 - Loss는 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 트레이닝 이미지 각각의 초기 분류를 나타내며, y_i 는 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y_label 은 초기 분류에 대응하는 분류 확률을 나타냄 - ; 및

모든 트레이닝 이미지의 분류 에러의 평균을 계산하고, 모든 트레이닝 이미지의 분류 에러의 평균을 분류 에러로서 결정하는 것을 포함한다.

단계 108에서, 분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터가 조정된다.

단계 109에서, 조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스가 계속된다.

단계 110에서, 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정한다.

본 명세서의 실시예에 의해 제공되는 방법에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

다른 실시예에서, 트레이닝되는 CNN 모델은 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하고, 각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함한다.

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계는,

제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수평 풀링 연산을 수행하는 것을 포함한다.

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계는,

트레이닝 이미지 각각에 대해, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터를 결정하는 것을 포함한다.

모든 추가적인 기술적 해결방법이 본 명세서의 추가적인 실시예에 자유롭게 결합될 수 있고, 이것은 하나씩 상세히 설명되지는 않을 것이다.

도 1에 대응하는 실시예의 내용과 관련하여, 도 2는 본 명세서의 다른 실시예에 따른 CNN 모델의 트레이닝 방볍을 나타내는 흐름도이다. 도 2에 도시된 본 명세서의 실시예에 의해 제공되는 방법의 흐름은 이하의 단계를 포함한다.

단계 201에서, 트레이닝되는 CNN 모델의 초기 모델 파라미터가 획득되고, 여기서 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함한다.

구체적으로, CNN 모델의 트레이닝 프로세스는 트레이닝되는 CNN 모델의 모델 파라미터를 결정하는 프로세스이다. 모델 파리미터가 결정되면, 초기 모델 파라미터는 트레이닝되는 CNN 모델에 대해 초기화될 수 있다. 초기 모델 파라미터는 후속 트레이닝 프로세스에 의해 연속적으로 최적화된다. 그리고 최적화에 의해 획득된 최적 모델 파라미터가 트레이닝된 CNN 모델의 모델 파라미터로서 결정된다. 따라서 트레이닝되는 CNN 모델이 트레이닝 될 때, 트레이닝되는 CNN 모델의 초기 모델 파라미터가 우선 획득되어야한다.

트레이닝되는 CNN 모델이 일반적으로 적어도 2개의 컨볼루션 레이어 및 적어도 하나의 완전 연결 레이어를 포함하는 경우, 각 레벨의 컨볼루션 레이어는 복수의 컨볼루션 커널 및 복수의 바이어스 행렬을 포함하며, 각 레벨의 완전 연결 레이어는 복수의 가중치 행렬 및 복수의 바이어스 벡터를 포함한다. 따라서 획득된 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널, 각 레벨의 컨볼루션 레이어의 초기 바이어스 행렬, 완전 연결 레이어의 초기 가중치 행렬 및 완전히 연결 레이어의 초기 바이어스 벡터를 포함한다.

트레이닝되는 CNN 모델의 컨볼루션 레이어의 개수 및 완전 연결 레이어의 개수는 본 명세서의 실시예에서 구체적으로 제한되지 않고, 구체적 구현에서의 필요에 따라 설정될 수 있다. 예를 들어, 도 3은 트레이닝되는 CNN 모델을 도시하는 개략도를 나타낸다. 도 3에 도시된 트레이닝되는 CNN 모델은 4개 레벨의 컨볼루션 레이어 및 2개 레벨의 완전 연결 레이어를 포함한다.

추가로, 각 레벨의 컨볼루션 레이어의 컨볼루션 커널의 개수 및 바이어스 행렬의 개수와 완전 연결 레이어의 각 레벨의 가중치 행렬 및 바이어스 벡터의 개수는 본 명세서의 실시예에서 구체적으로 제한되지 않는다. 이에 더하여, 각 컨볼루션 커널 및 바이어스 행렬의 차원과 각 가중치 행렬 및 각 바이어스 벡터의 차원 또한 본 명세서의 실시예에서 제한되지 않는다. 구체적인 구현에서, 각 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬의 개수 및 차원과 완전 연결 레이어의 각 레벨의 가중치 행렬 및 바이어스 벡터의 개수 및 차원은 모두 경험적인 값으로 채용될 수 있다.

예를 들어, 제1 레벨의 컨볼루션 레이어는 5×5 크기의 컨볼루션 커널 C¹을 96개,

, 포함할 수 있고, 그리고 5×5 크기의 바이어스 행렬 B¹을 96개,

, 포함할 수 있다.

상술한 내용과 관련하여, 트레이닝되는 CNN 모델의 초기 모델 파라미터가 획득될 때, 초기 모델 파라미터의 엘리먼트의 각각의 값으로서, 지정 수치 값 범위로부터 값이 랜덤하게 선택될 수 있다. 예를 들어, 각각의 초기 컨볼루션 커널, 초기 가중치 행렬, 초기 바이어스 행렬 및 초기 바이어스 벡터의 각각의 엘리먼트에 대해, 랜덤 수가 [-r, r] 범위에서 선택될 수 있다. 여기서, r은 초기 모델 파라미터의 임계값이고, 이것은 경험적인 값일 수 있다. 예를 들어 r은 0.001이다.

단계 202에서, 복수의 트레이닝 이미지가 획득된다.

트레이닝 이미지의 분류는 트레이닝되는 CNN 모델의 인식의 타입에 관련된다. 예를 들어, 트레이닝되는 CNN 모델이 상이한 언어를 인식할 수 있는 모델이면, 트레이닝 이미지는 상이한 언어의 문자 또는 문자열을 포함하는 이미지 일 수 있다. 트레이닝되는 CNN 모델이 색을 인식하는 모델이면, 트레이닝 이미지는 상이한 색 등을 포함하는 이미지이다.

추가적으로, 글로벌 경제 환경의 계속적인 발전에 의해, 국가, 기업 및 개인의 초국가적인 의사소통 및 협동의 빈도가 크게 증가하였다. 이러한 경우, 외국의 레스토랑에서의 주문, 국제 컨퍼런스의 참석, 외국 웹사이트의 검색과 같이, 불가피하게 여러 언어를 사용하는 정보를 사용하거나 이해하는 것이 요구되는 다양한 상황을 개인은 일반적으로 마주할 수 있다. 이것은 여러 언어를 사용한 정보를 처리하고 이해하는 기술이 매우 중요해지고 긴급하게 필요해진다는 것을 의미한다. 구체적으로, 이러한 기술은 복잡한 비인공 장면으로부터 얻어지는 단어의 언어 분류의 자동 인식을 요구한다. 비인공 장면의 단어의 언어 분류의 인식은 매우 어려운 과제이다. 거기에는 몇몇 주요 문제점이 있다. 하나의 문제점은 비인공 장면의 단어 정보의 폰트, 색 및 레이아웃 방식이 일반적으로 거대하고, 그리고 단어의 배경은 더 복잡하며 더 많은 노이즈 정보를 포함한다는 점이다. 다른 문제점은 상이한 언어의 알파벳이 완전히 동일하거나 또는 매우 유사한 몇몇 문자를 포함한다는 점으로, 예를 들어 영어와 러시아어에는 동일한 형상의 몇몇 문자들이 있다. 따라서, 단어의 외양으로만 언어 분류를 인식하는 것은 어렵다. 마지막 문제점은 고정된 폭-높이 비율을 가진 사진을 위한 많은 분류기들이 비인공 장면의 전혀 일관성이 없는 폭-높이 비율을 가진 단어 사진들에 적용 불가능하다는 점이다.

상술한 내용과 관련하여, 비인공 장면의 상이한 언어의 문자를 포함하는 이미지를 인식할 수 있는 CNN 모델이 개시되고, 그리고 이 CNN 모델은 비인공 장면의 이미지에서 문자의 언어 분류의 인식을 빠르게 실현할 수 있다. 따라서, 본 명세서의 실시예에서, 트레이닝 이미지는 비인공 장면의 이미지일 수 있고, 그리고 비인공 장면의 이미지는 상이한 언어의 문자를 포함한다. 이러한 토대 위에, 트레이닝되는 CNN 모델은 언어 인식 분류기일 수 있다.

이에 더하여, 트레이닝 이미지의 크기는 본 명세서의 실시예에서 구체적으로 제한되지는 않고, 구체적인 구현에서 트레이닝 이미지의 분류를 참고하여 결정될 수 있다. 예를 들어, 비인공 장면의 상이한 언어의 문자를 포함하는 이미지는 일반적으로 수평 방향에서 큰 차이가 있고 수직 방향에서는 상대적으로 유사하다. 즉, 이러한 이미지의 특성은 수평 방향에서 일반적으로 반영된다. 따라서, 본 명세서의 실시예에서, 트레이닝 이미지 각각에 대해, 그 높이의 지정 값이 제한될 수 있는 반면 그 폭의 값은 제한되지 않는다.

구체적으로, 본 명세서의 실시예에서, 모든 트레이닝 이미지는 동일한 높이 및 폭을 가질 수 있고, 즉, 모든 트레이닝 이미지는 지정 높이 및 지정 폭을 갖는다. 이에 더하여, 모든 트레이닝 이미지는 동일한 높이를 가지나 상이한 폭을 가질 수도 있다. 예를 들어, 모든 트레이닝 이미지는 지정 높이를 가지나 상이한 폭을 가진다. 지정 높이는 제1 개수의 픽셀이고, 그리고 지정 폭은 제2 개수의 픽셀이다. 구체적으로, 제1 개수는 경험적 값이고, 예를 들어 제1 개수는 32일 수 있다. 제2 개수는 미리 설정된 범위 내에서 선택된 랜덤 수일 수 있다. 이에 더하여, 제2 개수의 값은 이미지의 분류에 연관될 수 있다. 예를 들어, 비인공 장면의 상이한 언어의 문자를 포함하는 이미지의 문자는 일반적으로 수평 방향으로 분포되어 있고, 따라서 이들의 폭은 일반적으로 높이보다 크며, 이에 기초하면, 제1 개수는 제2 개수보다 일반적으로 작다. 이 부분의 내용으로부터, 미리 결정된 범위는 48 부터 256일 수 있다.

트레이닝 이미지의 크기 분류와 관련하여, 복수의 트레이닝 이미지가 획득될 때, 이하의 2가지 방법이 제한 없이 사용된다.

제1 방법에서, 모든 트레이닝 이미지는 지정 높이 및 지정 폭을 갖는다.

이 방법에서, 복수의 초기 트레이닝 이미지는 우선 획득될 수 있고, 그리고 복수의 초기 트레이닝 이미지의 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율이 유지되며, 그리고 초기 트레이닝 이미지가 지정 높이를 가진 제1 이미지로 프로세싱되고; 그 후 제1 이미지는 지정 폭을 가진 제2 이미지로 프로세싱된다. 이때, 초기 트레이닝 이미지에 대응하고 지정 높이와 지정 폭을 가진 트레이닝 이미지가 획득될 수 있다. 모든 초기 트레이닝 이미지는 동일한 방식으로 프로세싱되고, 그 후 복수의 트레이닝 이미지가 획득될 수 있다.

예를 들어, 64 픽셀*120 픽셀의 크기를 가진 특정 초기 트레이닝 이미지에 대해, 지정 높이가 32 픽셀을 포함하는 경우, 초기 트레이닝 이미지는 32 픽셀*60 픽셀의 크기를 갖는 트레이닝 이미지를 획득하도록 프로세싱될 수 있다.

이러한 방법에서, 지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지가 프로세싱 될 때, 제1 이미지의 폭은 지정 폭보다 클 수도 있고 그리고 제1 이미지의 폭은 지정 폭보다 작을 수도 있다. 2가지 경우에 대해, 지정 폭을 가진 이미지를 획득하기 위한 아래의 2가지 프로세싱 방법이 있을 수 있다.

제1 이미지의 폭이 지정 폭보다 작은 제1 경우, 제1 이미지의 폭이 지정 폭에 도달할 때까지, 제1 이미지의 좌우 측면은 지정된 그레이-스케일 값을 가진 픽셀로 균일하게 채워진다.

지정된 그레이-스케일 값으로 사용되는 구체적 수치는 필요에 따라 또는 경험에 의해 설정될 수 있다. 예를 들어 지정된 그레이-스케일 값은 0일 수 있다.

예를 들어, 지정 폭이 120 픽셀이고 특정 제1 이미지의 폭이 116 픽셀이면, 제1 이미지의 좌 측면은 지정된 그레이-스케일 값을 가진 2 픽셀로 채워질 수 있고, 그리고 제1 이미지의 우 측면은 지정된 그레이-스케일 값을 가진 2 픽셀로 채워질 수 있다.

제1 이미지의 폭이 지정 폭보다 큰 제2 경우, 제1 이미지의 좌우 측면은 제1 이미지의 폭이 지정 폭에 도달할 때까지 균일하게 절단될(cropped) 수 있다.

예를 들어, 지정 폭이 120 픽셀이고 특정 제1 이미지의 폭이 124 픽셀이면, 2 픽셀이 제1 이미지의 좌 측면으로부터 절단될 수 있고, 그리고 2 픽셀이 제1 이미지의 우 측면으로부터 절단될 수 있다.

CNN 모델이 이러한 방식으로 획득된 복수의 트레이닝 이미지를 사용하여 트레이닝될 때, 모든 트레이닝 이미지가 동일한 높이 및 폭을 갖는 것이 보장될 수 있다. 이러한 경우, 트레이닝되는 CNN 모델이 트레이닝 될 때, 복수의 프로세스는 컴퓨터에서 설정될 수 있고, 각각의 프로세스는 트레이닝 이미지를 프로세싱하도록 제어될 수 있고, 따라서 CNN 모델이 트레이닝되는 속도가 증가 될 수 있다.

제2 방식에서는, 모든 트레이닝 이미지는 지정 높이를 갖지만, 각각의 트레이닝 이미지의 폭은 제한되지 않는다.

이러한 방식에서, 복수의 초기 트레이닝 이미지는 우선 획득될 수 있고, 그리고 복수의 초기 트레이닝 이미지의 각각의 초기 트레이닝 이미지에 대해서, 초기 트레이닝 이미지의 폭-높이 비율이 유지되며, 초기 트레이닝 이미지가 지정 높이를 가진 이미지를 획득하기 위해 프로세싱되고, 그리고 지정 높이에 대응하는 폭이 초기 트레이닝 이미지의 폭으로서 결정된다. 모든 초기 트레이닝 이미지는 동일한 방식으로 프로세싱되고, 그 후 복수의 트레이닝 이미지가 획득될 수 있다.

예를 들어, 특정 초기 트레이닝 이미지에 대해, 지정 높이를 가진 이미지를 획득하기 위해 특정 초기 트레이닝 이미지가 프로세싱될 때, 지정 높이에 대응하는 폭이 120 픽셀이면, 이러한 방식에서 획득된 트레이닝 이미지의 높이가 지정된 높이이고, 폭은 120 필셀이다.

CNN 모델이 이러한 방식으로 획득된 복수의 트레이닝 이미지를 사용하여 트레이닝될 때, 트레이닝 이미지는 동일한 지정 높이를 갖으나 상이한 폭을 갖는다. 여기서, 트레이닝되는 CNN 모델이 트레이닝 될 때, 트레이닝된 CNN 모델은 상대적으로 더 높은 인식 정확도를 갖는게 보장될 수 있다.

트레이닝되는 CNN 모델이 복수의 획득된 트레이닝 이미지를 사용하여 구체적으로 트레이닝될 때, 제1 방식에서 획득된 복수의 트레이닝 이미지가 사용될 수 있고, 이에 의해 트레이닝된 CNN 모델의 빠른 습득을 구현할 수 있으며, 또는 제2 방식에서 획득된 복수의 트레이닝 이미지가 사용될 수 있고, 이에 의해 트레이닝된 CNN 모델이 상대적으로 높은 인식 정확도를 갖는 것을 보장할 수 있다. 이에 더하여, CNN 모델은 제1 방식 및 제2 방식 모두에서 획득된 트레이닝 이미지를 사용하여 또한 트레이닝될 수 있고, 이에 의해 CNN 모델의 트레이닝 속도를 증가시키고 동시에 트레이닝된 CNN 모델이 상대적으로 높은 인식 정확도를 갖는 것을 보장할 수 있다.

단계 203에서, 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

컨볼루션 연산 및 최대 풀링 연산에 의해, 이미지의 상이한 레벨의 특성이 보다 더 깊게 추출될 수 있다. 따라서, 트레이닝되는 CNN 모델이 트레이닝될 때, 트레이닝 이미지의 특성을 획득하기 위해, 컨볼루션 연산 및 최대 풀링 연산이 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 수행될 수 있다.

컨볼루션 연산이 수행될 때, 각 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용해야 한다. 최대 풀링 연산이 수행될 때, 컨볼루션에 의해 획들된 컨볼루션 이미지를 참조한다. 하나의 컨볼루션 이미지는 상이한 컨볼루션 레이어 각각에서의 컨볼루션 연산에 의해 획들될 수 있고, 그리고 하나의 특성 이미지는 각 컨볼루션 이미지에 대한 최대 풀링 연산에 의해 획득될 수 있다. 따라서, 본 명세서의 실시예에서, 각 레벨의 컨볼루션 레이어에서의 컨볼루션 연산에 의해 획득되는 이미지는 각 레벨의 컨볼루션 레이어의 컨볼루션 이미지로 지칭되고, 각 레벨의 컨볼루션 레이어의 컨볼루션 이미지에 대한 최대 풀링 연산으로 획득된 이미지는 각 레벨의 컨볼루션 레이어의 제1 특성 이미지로 지칭된다.

상술한 내용과 관련하여, 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어의 각각의 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해, 각각의 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계는 이하의 단계 2031 내지 단계 2033을 포함하지만, 이에 한정되지는 않는다.

단계 2031에서, 트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산이 수행된다. 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지이다.

구체적으로, 트레이닝 이미지 각각에 대해, 만약 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어라면, 트레이닝 이미지는 제1 레벨의 컨볼루션 레이어에 우선 전송될 수 있고, 그리고 제1 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 트레이닝 이미지에 컨볼루션 연산이 수행된다. 이에 더해, 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지를 획득하기 위해 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지에 최대 풀링 연산이 수행된다. 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지는 제2 레벨의 컨볼루션 레이어에 전송되고, 그리고 제2 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여 이전 레벨의 컨볼루션 레이어의 제1 특성 이미지에 컨볼루션 연산이 수행되면, 컨볼루션 연산은 현재 컨볼루션 레이어의 각각의 컨볼루션 커널을 사용하는 것에 의해 이전 레벨의 컨볼루션 레이어의 제1 특성 이미지에 수행될 수 있고, 그리고 이전 레벨의 컨볼루션 레이어의 제1 특성 이미지에서의 현재 컨볼루션 레이어의 각각의 컨볼루션 커널의 슬라이딩 스텝 길이(sliding step length)는 1이다.

구체적으로, 만약 현재 컨볼루션 레이어가 예를 들어 제1 레벨의 컨볼루션 레이어라면, 제1 레벨의 컨볼루션 레이어의 특정 컨볼루션 커널을 사용하는 것에 의해 컨볼루션 연산이 트레이닝 이미지에 수행될 때, 이하의 공식

이 사용될 수 있고, 여기서 D¹ _i는 제1 레벨의 컨볼루션 레이어의 컨볼루션 커널의 i번째 컨볼루션 커널 C¹ _i를 사용하여 트레이닝 이미지 I에 컨볼루션 연산을 수행하여 획득되는, 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지를 나타내고, 그리고 B¹ _i는 제1 레벨의 컨볼루션 레이어의 바이어스 행렬 B¹의 i번째 바이어스 행렬을 나타낸다.

추가적으로, 컨볼루션 연산의 특성을 고려하면, 컨볼루션 연산이 수행되는 경우, 컨볼루션 연산은 이미지의 가장자리의 픽셀에는 수행되지 않을 수 있고, 이에 의해 컨볼루션 연산에 의해 획득되는 컨볼루션 이미지의 크기는 변경될 수 있다. 이러한 경우를 회피하기 위해, 각 레벨의 컨볼루션 레이어에 컨볼루션 연산을 수행하기 전에. 컨볼루션 연산이 수행될 이미지에 픽셀 채우기가 또한 수행될 수 있고, 따라서 컨볼루션 연산이 수행될 이미지의 크기가 컨볼루션 연산이 수행된 후에도 변경되지 않고 유지될 수 있다.

구체적으로, 컨볼루션 연산이 수행될 이미지가 채워질 때, 컨볼루션 연산이 수행될 이미지의 주변이 "0"과 같은 미리 설정된 그레이-스케일 값을 사용하여 채워질 수 있다. 채움이 수행되는 간격은 컨볼루션 커널의 차원과 연관된다. 컨볼루션 커널의 차원이 n이면, 채움이 수행되는 스텝 길이는 (n-1)/2이다. 예를 들어, 컨볼루션 커널이 3*3이면, 채움이 수행되는 스텝 길이는 1 픽셀이다.

이 단계에서 컨볼루션 연산이 수행되는 이미지는 각 레벨의 컨볼루션 레이어에 입력되는 이미지이다. 예를 들어, 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어라면, 컨볼루션 연산이 수행되는 이미지는 트레이닝 이미지이다. 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어가 아니라면, 컨볼루션 연산이 수행되는 이미지는 이전 레벨의 컨볼루션 레이어의 제1 특성 이미지이다.

단계 2032에서, 현재 컨볼루션 레이어의 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 현재 컨볼루션 레이어의 컨볼루션 이미지에 최대 풀링 연산이 수행된다. 현재 컨볼루션 레이어의 제1 특성 이미지가 그리고 나서 다음 레벨의 컨볼루션 레이어에 전송된다.

구체적으로, 현재 컨볼루션 레이어의 컨볼루션 이미지에 최대 풀링 연산이 수행될 때, 3×3 슬라이딩 박스와 같은 지정 크기를 가진 슬라이딩 박스가 현재 컨볼루션 레이어의 각각의 컨볼루션 이미지를 좌로부터 우로 위에서부터 아래로 슬라이딩하는데 사용될 수 있고, 슬라이딩 스텝 길이는 미리 설정된 개수의 픽셀로서, 예를 들어 미리 설정된 개수의 픽셀은 2 픽셀이다. 슬라이딩 박스가 각각의 컨볼루션 이미지에서 슬라이딩될 때, 슬라이딩 박스에 포함된 모든 엘리먼트 중 0보다 작은 엘리먼트는 0으로 설정된다. 그리고, 모든 엘리먼트 중 최대의 엘리먼트가 추출되고, 그리고 슬라이딩 시퀀스에 따라서 새로운 이미지가 재구성된다. 연산의 종료 후에, 현재 컨볼루션 레이어의 제1 특성 이미지가 획득된다.

현재 컨볼루션 레이어의 제1 특성 이미지의 높이 및 폭은 최대 풀링 연산의 특성에 따라서 계산될 수 있고, 그리고 이하의 공식

에 의해 표현될 수 있으며, 여기서 floor는 올림과 버림 함수를 나타낸다. 예를 들어 floor(2.5)=2이다. w는 현재 컨볼루션 레이어의 제1 특성 이미지의 길이 또는 폭을 나타내고, m은 슬라이딩 박스의 길이 또는 폭에 포함된 픽셀의 개수이고, l은 슬라이딩 스텝 길이이고, 그리고 w_o는 현재 컨볼루션 레이어의 컨볼루션 이미지의 길이 또는 폭이다. 예를 들어, 현재 컨볼루션 레이어의 컨볼루션 이미지의 크기가 32×w₀이고, 슬라이딩 박스가 3*3이고, 슬라이딩 스텝 길이가 2이면, 현재 컨볼루션 레이어의, 최대 풀링 연산에 의해 획득된 제1 특성 이미지의 크기는 15×w₁,

이다.

단계 2033에서, 마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 현재 컨볼루션 레이어의 제1 특성 이미지에 수행된다.

각 레벨의 컨볼루션 레이어에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 원칙은 단계 2031 및 단계 2032의 원칙과 일치한다. 자세한 내용은 단계 2031 및 단계 2032의 내용을 참고하고, 자세한 설명이 여기서 상술되지는 않을 것이다.

단계 204에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산이 수행된다.

수평 풀링 연산이 수행될 때, 수평 풀링 연산은 모든 컨볼루션 레이어에서 제1 특성 이미지에 수행될 수 있고, 그리고 수평 풀링 연산은 또한 몇몇의 컨볼루션 레이어에서 제1 특성 이미지에 수행될 수도 있다. 예를 들어 트레이닝되는 CNN 모델이 4개의 레벨의 컨볼루션 레이어를 포함하면, 수평 풀링 연산은 제2 레벨의 컨볼루션 레이어, 제3 레벨의 컨볼루션 레이어 및 제4 레벨의 컨볼루션 레이어에서만 수행될 수 있다.

구체적으로, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산이 수행되는 단계는 이하의 단계 2041 내지 단계 2043을 포함하지만 이에 한정되지는 않는다.

단계 2041에서, 각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열(row)의 엘리먼트 중 최대 값이 추출된다. 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하고, 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 및 바이어스 행렬의 수와 동일하다.

예를 들어, 수평 풀링 연산이 제2 레벨의 컨볼루션 레이어에서 제1 특성 이미지에 수행될 때, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지가 R²라면, 제2 레벨의 컨볼루션 레이어에서 제2 특성 이미지 H¹를 획득하기 위해 R²에 수평 풀링 연산을 수행하는 프로세스는 아래와 같다:

R²의 i번째 특성 이미지 R² _i가 높이 및 폭으로 각각 7 및 w₂를 갖는 이미지라면, R² _i의 각각의 열의 모든 엘리먼트의 최대값이 추출된다.

단계 2042에서, 각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들이 1차원 벡터로 배열된다.

단계 2041의 예시와 결합하면, 각 이미지의 픽셀의 위-아래(top-down) 배열에 따라서, 각각의 열의 최대 값들이 길이 7의 1차원 벡터로 배열된다. 도 4는 제2 레벨의 컨볼루션 레이어에서 제1 특성 이미지의 특정 이미지에 수평 풀링 연산이 수행되는 프로세스를 도시한 개략도이다.

단계 2043에서, 컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터가 결합된다.

단계 2041의 예시와 결합하면, R²가 256개 이미지를 포함하면, R²의 256개 이미지의 전부에 상술한 연산이 반복적으로 수행된 후, 길이 7의 256개의 1차원 벡터가 획득된다. 각각의 1차원 벡터는 열벡터로 간주되고, 1차원 벡터는 높이 및 폭이 각각 7 및 256인 이미지 H¹로 순서대로 결합된다. H¹는 제2 레벨의 컨볼루션 레이어에서, R²에 대한 수평 풀링 연산에 의해 획득된 제2 특성 이미지이다.

도 3에 도시된 트레이닝되는 CNN 모델과 결합하면, 트레이닝되는 CNN 모델은 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하고, 각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함한다. 이에 기초하면, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산이 수행될 때, 수평 풀링 연산은, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수행된다.

단계 205에서, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터가 결정된다.

구체적으로, 트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지를 캐스케이딩(cacading)하고 그리고 각 레벨의 컨볼루션 레이어에서 제2 특성 이미지의 모든 열의 엘리먼트를 처음부터 끝까지 연결하는 것에 의해 트레이닝 이미지의 특성 벡터가 획득된다.

도 3에 도시된 트레이닝되는 CNN 모델과 결합하면, 트레이닝 이미지 각각에 대해, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터가 결정될 수 있다.

구체적으로, 특정 트레이닝 이미지에 대해, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지가 캐스케이드될 수 있고, 그리고 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에서의 모든 열의 엘리먼트가 처음부터 끝까지 연결되어 트레이닝 이미지의 특성 벡터가 획득될 수 있다.

예를 들어, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지가 H¹이고, 제3 레벨의 컨볼루션 레이어에서의 제2 특성 이미지가 H²이고, 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지가 H³인 경우, H¹의 모든 열에서의 엘리먼트가 처음부터 끝까지 제1의 1차원 벡터를 획득하기 위해 연결되고, H²의 모든 열에서의 엘리먼트가 처음부터 끝까지 제2의 1차원 벡터를 획득하기 위해 연결되고, H³의 모든 열에서의 엘리먼트가 처음부터 끝까지 제3의 1차원 벡터를 획득하기 위해 연결된다. 제1의 1차원 벡터, 제2의 1차원 벡터, 및 제3의 1차원 벡터는, 트레이닝 벡터의 특성 벡터를 획득하기 위해 추가적으로 처음부터 끝까지 연결된다.

단계 206에서, 초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터가 프로세싱된다.

구체적으로 트레이닝 이미지의 특성 벡터가 완전 연결 레이어에 입력될 수 있고, 특성 벡터는 완전 연결 레이어의 가중치 행렬로 곱해지고, 그리고 곱셈의 결과가 완전 연결 레이어의 바이어스 벡터에 가산되고, 이에 의해 트레이닝 이미지의 분류 확률 벡터가 획득된다.

분류 확률 벡터는 1차원 벡터이고, 분류 확률 벡터의 엘리먼트의 개수는 트레이닝되는 CNN 모델에 의해 인식될 수 있는 이미지 분류의 개수에 연관된다. 예를 들어 이미지의 10개의 분류가 트레이닝 이미지를 사용하여 인식될 수 있으면, 분류 확률 벡터는 10개의 엘리먼트를 포함한다. 엘리먼트의 각각은 트레이닝 이미지가 특정 분류에 속할 확률을 나타낸다.

단계 207에서, 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러가 계산된다.

트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러가 계산되는 단계는 이하의 단계 2701 내지 단계 2073을 포함하지만 이에 한정되지는 않는다.

단계 2071에서 트레이닝 이미지 각각의 초기 분류가 획득된다.

트레이닝 이미지 각각에 대해, 그 초기 분류가 알려져 있다. 초기 분류는 수동으로 추출되고 기록될 수 있다. 이에 기초하여, 트레이닝 이미지 각각의 초기 분류는 기록된 데이터에 따라서 직접 획득될 수 있다.

단계 2072에서, 공식 Loss = -lny_label 을 사용하여 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 트레이닝 이미지 각각의 분류 에러가 계산되고, 여기서 Loss는 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 트레이닝 이미지 각각의 초기 분류를 나타내며, y_i 는 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y_label 은 초기 분류에 대응하는 분류 확률을 나타낸다. 예를 들어, 초기 트레이닝 이미지가 제1 분류의 이미지이면, y_label 은 y₁, 즉 분류 확률 벡터의 제1 엘리먼트이다.

단계 2073에서, 모든 트레이닝 이미지의 분류 에러의 평균이 계산되고, 모든 트레이닝 이미지의 분류 에러의 평균이 분류 에러로서 결정된다.

물론, 분류 에러를 계산하는 프로세스는, 예로서 모든 트레이닝 이미지의 분류 에러의 평균을 취하는 것으로 설명되었다. 구체적인 구현에서, 분류 에러가 계산될 때, 다른 방법이 또한 사용될 수 있고, 본 명세서의 실시예에 구체적으로 한정되는 것은 아니다.

단계 208에서, 분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터가 조정된다.

구체적으로, 트레이닝되는 CNN 모델의 모델 파라미터가 조정될 때, 확률 기울기 하강(Stochastic Gradient Descent: SGD) 알고리즘이 트레이닝되는 CNN 모델에 분류 에러를 역으로 다시 전송하기 위해 제한 없이 사용될 수 있고, 이에 의해 트레이닝되는 CNN의 모델 파라미터의 모든 엘리먼트가 업데이트된다.

SGD 알고리즘을 사용하여, 트레이닝되는 CNN의 모델 파라미터의 모든 엘리먼트를 업데이트하기 위해, 트레이닝되는 CNN 모델에 분류 에러를 역으로 다시 전송하는 구체적인 구현 프로세스는 본 명세서의 실시예에서 구체적으로 한정되지는 않는다.

단계 209에서, 조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스가 계속된다.

구체적으로, 반복 회차의 수가, 즉 반복의 횟수가 미리 설정된 수에 도달할 때까지, 단계 203 내지 단계 208이 단계 202에서 획득된 복수의 트레이닝 이미지를 사용하여 반복되고 조정된 모델 파라미터가 단계 208에서 획득된다.

미리 설정된 수의 수치값의 구체적 범위는 본 명세서의 실시예에서 구체적으로 한정되지 않는다, 트레이닝되는 CNN 모델을 상대적으로 더욱 정확하게 하기 위해, 미리 설정된 값은 상대적으로 더 클 수 있다. 구체적인 구현에서, 미리 설정된 수는 경험적인 값일 수 있고, 예를 들어 300,000이다.

단계 201에서, 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정한다.

예를 들어 미리 설정된 수가 300,000이면, 반복의 횟수가 300,000에 도달할 때 획득된 모델 파라미터가 트레이닝된 CNN 모델의 모델 파라미터로서 결정된다.

단계 211에서, 인식되는 이미지가 트레이닝된 CNN 모델에 입력되고, 인식되는 이미지의 분류 확률 벡터가 계산되며, 그리고 분류 확률 벡터의 엘리먼트 중, 거의 1에 근접하는 엘리먼트에 대응하는 분류가 인식되는 이미지의 분류로서 결정된다.

구체적으로, 분류 확률 벡터가 10개의 엘리먼트를 포함하는 경우, 각각의 엘리먼트는 분류에 대응하고, 그리고 분류 확률 벡터의 제2 엘리먼트가 거의 1에 근접하면, 인식되는 이미지는 제2 분류에 속한다.

본 명세서의 실시예 의해 제공되는 방법에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행된 후, 최대 풀링 연산에 의해 획득되는 특성 이미지에 수평 풀링 연산이 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

도 1 또는 도 2에 대응하는 실시예의 내용과 도 3에 도시된 트레이닝되는 모델을 나타내는 개략도를 참고하여, 본 명세서의 실시예에 의해 제공되는 방법이, 트레이닝되는 CNN 모델이 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하는 경우를 본 명세서의 실시예의 예시로 하여 설명된다. 이에 더하여, 본 명세서의 실시예어서, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지, 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 및 제4 레벨의 컨볼루션 레이어의 제1 특성 이미지에 수행되 수평 풀링 연산이 설명된다. 도 5에 도시된 바와 같이, 본 명세서의 실시예에서 제공되는 방법의 흐름은 이하의 단계를 포함한다.

단계 501에서, 트레이닝되는 CNN 모델의 초기 모델 파라미터가 획득되고, 여기서 초기 모델 파라미터는 제1 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬, 제2 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬, 제3 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬. 제4 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬, 제1 레벨의 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터, 그리고 제2 레벨의 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함한다.

각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함할 수 있고, 그리고 각 레벨의 완전 연결 레이어는 가중치 행렬 및 바이어스 벡터를 동일한 개수 또는 상이한 개수로 포함할 수 있다. 각 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬의 개수와 각 레벨의 완전 연결 레이어의 가중치 행렬 및 바이어스 벡터의 개수는 본 명세서의 실시예에서 구체적으로 제한되지는 않는다. 이에 더하여, 각 컨볼루션 커널 및 바이어스 행렬의 차원과 각 가중치 행렬 및 각 바이어스 벡터의 차원 또한 본 명세서의 실시예에서 구체적으로 제한되지는 않는다. 구체적인 구현에서, 각 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬의 개수 및 차원과 완전 연결 레이어의 각 레벨의 가중치 행렬 및 바이어스 벡터의 개수 및 차원은 경험적인 값으로 채용될 수 있다.

이에 더하여, 본 명세서의 실시예에서, 초기 모델 파라미터의 각 레벨의 컨볼루션 레이어의 컨볼루션 커널, 바이어스 행렬, 가중치 행렬 및 바이어스 벡터는 초기 컨볼루션 커널, 초기 바이어스 행렬, 초기 가중치 행렬 및 초기 바이어스 벡터로 지칭된다. 따라서 트레이닝되는 CNN 모델이 트레이닝될 때, 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널, 각 레벨의 컨볼루션 레이어의 초기 바이어스 행렬, 완전 연결 레이어의 초기 가중치 행렬 및 완전 연결 레이어의 초기 바이어스 벡터가 획득된다.

본 명세서의 실시예에 관한 설명을 용이하게 하기 위해, 본 명세서에의 실시예에 의해 제공되는 방법이, 제1 레벨의 컨볼루션 레이어가 5×5 크기의 컨볼루션 커널 C¹을 96개,

, 포함하고 5×5 크기의 바이어스 행렬 B¹을 96개,

, 포함하며, 제2 레벨의 컨볼루션 레이어가 5×5 크기의 컨볼루션 커널 C²을 256개,

, 포함하고 5×5 크기의 바이어스 행렬 B²을 256개,

, 포함하며, 제3 레벨의 컨볼루션 레이어가 3×3 크기의 컨볼루션 커널 C³을 384개,

, 포함하고 3×3 크기의 바이어스 행렬 B³을 384개,

, 포함하며, 제4 레벨의 컨볼루션 레이어가 3×3 크기의 컨볼루션 커널 C⁴을 512개,

, 포함하고 3×3 크기의 바이어스 행렬 B³⁴을 512개,

, 포함하며, 제1 레벨의 완전 연결 레이어가 3,456×1,024 크기의 가중치 행렬 W¹을 포함하고 길이 1,024의 바이어스 벡터 B⁵를 포함하며, 그리고 제2 레벨의 완전 연결 레이어가 1,024×10 크기의 가중치 행렬 W²을 포함하고 길이 10의 바이어스 벡터 B⁶를 포함하는 경우를 예시로 하여 설명된다.

트레이닝되는 CNN 모델의 초기 모델 파라미터가 획득될 때, 초기 모델 파라미터의 엘리먼트의 각각의 값으로서, 지정 수치값 범위로부터 값이 랜덤하게 선택될 수 있다. 예를 들어, 각각의 초기 컨볼루션 커널, 초기 가중치 행렬, 초기 바이어스 행렬 및 초기 바이어스 벡터의 각각의 엘리먼트에 대해, 랜덤 수가 [-r, r] 범위에서 선택될 수 있다. 여기서, r은 초기 모델 파라미터의 임계값이고, 이것은 경험적인 값일 수 있다. 예를 들어 r은 0.001이다.

단계 502에서, 트레이닝 이미지 I가 획득되고, 트레이닝 이미지 I는 지정 높이를 가진다.

트레이닝 이미지 I는 복수의 트레이닝 이미지 중 하나의 트레이닝 이미지이다. 설명을 용이하게 하기 위해, 트레이닝되는 CNN 모델의 트레이닝 프로세스가, 트레이닝 이미지 I를 프로세싱하는 것을 본 명세서의 후속적인 구현의 예시로서 하여 설명된다.

이에 더하여, 트레이닝 이미지 I는 지정 높이 및 지정 폭을 갖는다. 구체적으로, 지정 높이는 제1 개수의 픽셀이고, 그리고 지정 폭은 제2 개수의 픽셀이다. 구체적으로, 제1 개수는 경험적 값이고, 예를 들어 제1 개수는 32일 수 있다. 제2 개수는 미리 설정된 범위 내에서 선택된 랜덤 수일 수 있고, 미리 설정된 범위는 48 내지 256이다. 설명을 용이하게 하기 위해, 트레이닝 이미지의 크기가 본 명세서의 이하의 실시예에서 예를 들어 32*w_o이고, 32는 제1 개수이고 w_o는 제2 개수이다.

단계 503에서, 제1 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 제1 레벨의 컨볼루션 레이어에서 트레이닝 이미지 I의 제1 특성 이미지 R¹을 획득하기 위해, 제1 레벨의 컨볼루션 레이어에서 트레이닝 이미지 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

제1 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 제1 레벨의 컨볼루션 레이어에서 트레이닝 이미지 I의 제1 특성 이미지 R¹을 획득하기 위해, 트레이닝 이미지 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계는 단계 502에 각각의 초기 모델 파라미터를 참조하여 이하에서 구체적으로 설명된다. 구체적으로 제1 레벨의 컨볼루션 레이에어서 트레이닝 이미지 I의 제1 특성 이미지 R¹을 획득하는 프로세스는 아래와 같이 구현된다.

단계 5031에서, 트레이닝 이미지 I는 채워진 트레이닝 이미지 I_tr을 획득하기 위해 채워진다.

이 단계는 선택적인 단계이다. 이 단계에 의해, 제1 레벨의 컨볼루션 레이어에서의 컨볼루션 연산에 의해 획득되는 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지는 트레이닝 이미지 I와 동일한 크기를 갖는 것이 보장될 수 있다. 채움의 프로세싱은 단계 203에 설명되어 있고, 단계 302의 내용을 구체적으로 참고할 수 있으며 여기서 다시 상세히 설명되지는 않는다.

예를 들어, 트레이닝 이미지 I의 크기가 32×w_o이고, 트레이닝 이미지 I의 주변이 엘리먼트 "0"으로 균일하게 채워질 수 있고, 여기서 채움 스텝 길이가 2이면, 높이 및 폭이 각각 36 픽셀 및 w_o+4 픽셀인 트레이닝 이미지 I_tr가 획득된다.

단계 5032에서, 제1 레벨의 컨볼루션 레이어의 컨볼루션 커널과 바이어스 행렬을 사용하여, 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D¹을 획득하기 위해, 제1 레벨의 컨볼루션 레이어에서 채워진 트레이닝 이미지 I_tr에 컨볼루션 연산이 수행된다.

구체적으로, 단계 502와 결합하여, C¹의 각각의 컨볼루션 커널을 사용하여 컨볼루션 연산이 채워진 트레이닝 이미지 I_tr에 수행될 수 있고, 채워진 트레이닝 이미지 I_tr 상의 각 컨볼루션 커널의 슬라이딩 스텝 길이는 1이고, 즉

이고, 여기서 D¹ _i는 제1 레벨의 컨볼루션 레이어의 컨볼루션 커널의 i번째 컨볼루션 커널 C¹ _i를 사용하여 채워진 트레이닝 이미지 I_tr에 컨볼루션 연산을 수행하여 획득되는, 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지를 나타내고, 그리고 B¹ _i는 제1 레벨의 컨볼루션 레이어의 바이어스 행렬 B¹의 i번째 바이어스 행렬을 나타낸다. 이미지에 대한 컨볼루션 연산의 특성에 따라서, 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지

가 획득될 수 있고, 여기서 D¹ _i의 크기는 32×w_o이다.

단계 5033에서, 제1 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R¹을 획득하기 위해 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D¹에 최대 풀링 연산이 수행된다.

최대 풀링 연산의 구체적인 내용은 단계 203에 상세하게 설명되어 있고, 단계 203의 내용이 구체적으로 참조될 수 있으며 여기서 상세하게 설명되지는 않는다.

예를 들어, 단계 502의 예시와 결합하여, 3×3 슬라이딩 박스가 제1 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D¹를 좌로부터 우로 위에서부터 아래로 슬라이딩하는데 사용될 수 있고, 슬라이딩 스텝 길이는 2이다. 슬라이딩 박스가 각각의 컨볼루션 이미지에서 슬라이딩될 때, 슬라이딩 박스의 9개의 엘리먼트 중 0보다 작은 엘리먼트는 0으로 설정되고, 9개의 엘리먼트 중 최대의 엘리먼트가 추출되고, 그리고 슬라이딩 시퀀스에 따라서 새로운 이미지가 재구성된다. 연산의 종료 후에, 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지 R¹,

,이 획득된다. 최대 풀링 연산의 특성에 따르면, R¹의 크기는 15×w₁이고, 여기서

이고, floor는 올림과 버림 함수를 나타낸다. 예를 들어 floor(2.5)=2이다. 이에 더하여 공식에서 분자의 "3"은 슬라이딩 박스의 차원의 크기를 나타내고, 분모의 "2"는 슬라이딩 스텝 길이를 나타낸다.

여기서 3×3은 오직 예시이고, 구체적인 구현에서 슬라이딩 박스의 크기는 또한 다른 수치 값으로 될 수 있음이 주의되어야 한다. 슬라이딩 박스의 크기는 본 명세서의 실시예에서 한정되지는 않는다.

단계 504에서, 제2 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서, 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지 R¹에 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

제2 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제2 레벨의 컨볼루션 레이어에서, 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지 R¹에 컨볼루션 연산 및 최대 풀링 연산이 수행되는 단계는 각각의 초기 모델 파라미터를 참조하여 이하에서 구체적으로 설명될 것이다. 구체적으로 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²를 획득하는 프로세스는 아래와 같이 구현된다.

단계 5041에서, 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지 R¹은 채워진 트레이닝 이미지 Rp¹을 획득하기 위해 채워진다.

본 단계의 원리는 단계 5031의 원리와 일치하며, 단계 5031의 내용이 구체적으로 참조될 수 있다. 이 단계는 선택적인 단계이다. 이 단계에 의해, 컨볼루션 연산에 의해 획득되는 이미지가 제1 레벨의 컨볼루션 레이어의 제1 특성 이미지 R¹과 동일한 크기를 갖는 것이 보장될 수 있다.

예를 들어, 단계 502의 예시와 결합하여, 채움 스텝 길이가 2이고 그러나 이에 제한되지는 않으며, 채워진 이미지 Rp¹은

이고, Rp¹ _i의 높이 및 폭이 각각 19 및 w₁+4 이다.

단계 5042에서, 제2 레벨의 컨볼루션 레이어의 컨볼루션 커널과 바이어스 행렬을 사용하여, 제2 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D²를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서 채워진 이미지 Rp¹에 컨볼루션 연산이 수행된다.

본 단계의 원리는 단계 5032의 원리와 일치하며, 단계 5032의 내용이 구체적으로 참조될 수 있으며 여기서 상세하게 설명되지는 않는다.

구체적으로, 상술한 단계의 예시와 결합하여, C²의 각각의 컨볼루션 커널을 사용하여 컨볼루션 연산이 Rp¹의 각각의 이미지에 수행될 수 있고, 이미지 상의 각 컨볼루션 커널의 슬라이딩 스텝 길이는 1이고, 그리고 제2 레벨의 컨볼루션 레이어의 각각의 컨볼루션 이미지 D² _i를 획득하기 위해 컨볼루션 결과들이 더해진다. 즉

이고, 여기서 D² _i는 제2 레벨의 컨볼루션 레이어의 i번째 획득된 컨볼루션 이미지를 나타내고, C² _i는 C² 중 i번째 컨볼루션 커널을 나타내며, B² _i는 B²의 i번째 바이어스 행렬을 나타내고, Rp¹ _j는 Rp¹의 j번째 이미지를 나타낸다. 컨볼루션 연산의 특성에 따라서,

이고, 여기서 D² _i는 i번째 컨볼루션 커널 C² _i를 사용하여 Rp¹에 컨볼루션 연산을 수행하는 것에 의해 획득되는 컨볼루션 이미지를 나타내고, D² _i의 크기는 15×w₁이다.

단계 5043에서, 제2 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R²를 획득하기 위해 제2 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D²에 최대 풀링 연산이 수행된다.

본 단계의 원칙은 단계 5033과 일치하고, 단계 5033의 내용이 구체적으로 참조될 수 있다. 구체적으로,

이고, R² _i의 크기는 7×w₂이고, 그리고

이다.

단계 5044에서, 제2 레벨의 컨볼루션 레이어의 제2 특성 이미지 H¹을 획득하기 위해 제2 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R²에 수평 풀링 연산이 수행된다.

구체적으로, R²의 i번째 특성 이미지 R² _i가 높이 및 폭으로 각각 7 및 w₂를 갖는 이미지이고, R² _i의 각각의 열의 모든 엘리먼트의 최대 값이 추출되며, 최대 값은 길이 7의 1차원 벡터로 순서대로 연결된다.

R²의 256개 특성 이미지의 전부에 연산이 반복적으로 수행된 후, 길이 7의 256개의 1차원 벡터가 획득된다. 각각의 1차원 벡터는 열벡터로 간주되고, 1차원 벡터는 높이 및 폭이 각각 7 및 256인 이미지 H¹로 순서대로 결합된다. H¹는 제2 레벨의 컨볼루션 레이어에서, R²에 대한 수평 풀링 연산에 의해 획득된 제2 특성 이미지이다.

단계 505에서, 제3 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 R³를 획득하기 위해, 제3 레벨의 컨볼루션 레이어에서, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²에 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

제3 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제3 레벨의 컨볼루션 레이어에서, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²에 컨볼루션 연산 및 최대 풀링 연산이 수행되는 단계는 단계 502의 각각의 초기 모델 파라미터를 참조하여 이하에서 구체적으로 설명될 것이다. 구체적으로 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 R³를 획득하는 프로세스는 아래와 같이 구현된다.

단계 5051에서, 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²는 채워진 트레이닝 이미지 Rp²을 획득하기 위해 채워진다.

본 단계의 원리는 단계 5031의 원리와 일치하며, 단계 5031의 내용이 구체적으로 참조될 수 있다. 이 단계는 선택적인 단계이다. 이 단계에 의해, 컨볼루션 연산에 의해 획득되는 이미지가 제2 레벨의 컨볼루션 레이어의 제1 특성 이미지 R²와 동일한 크기를 갖는 것이 보장될 수 있다.

구체적으로, 채움 길이가 1이고 그러나 이에 제한되지는 않으며, 새로운 이미지 Rp²는

이고, Rp² _i의 높이 및 폭이 각각 9 및 w₂+2 이다.

단계 5052에서, 제3 레벨의 컨볼루션 레이어의 컨볼루션 커널과 바이어스 행렬을 사용하여, 제3 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D³를 획득하기 위해, 제3 레벨의 컨볼루션 레이어에서 채워진 이미지 Rp²에 컨볼루션 연산이 수행된다.

채워진 이미지 Rp² 상의 각 컨볼루션 커널의 슬라이딩 스텝 길이는 1이고, 즉

이고, 여기서 D³ _i는 제3 레벨의 컨볼루션 레이어의 i번째 획득된 컨볼루션 이미지를 나타내고, C³ _i는 C³ 중 i번째 컨볼루션 커널을 나타내며, B³ _i는 B³의 i번째 바이어스 행렬을 나타내고, Rp² _j는 Rp²의 j번째 이미지를 나타낸다. 컨볼루션 연산의 특성에 따라서,

이고, 여기서 D³ _i는 i번째 컨볼루션 커널 C³ _i를 사용하여 Rp²에 컨볼루션 연산을 수행하는 것에 의해 획득되는 컨볼루션 이미지를 나타내고, D³ _i의 크기는 7×w₂이다.

단계 5053에서, 제3 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R³를 획득하기 위해 제3 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D³에 최대 풀링 연산이 수행된다.

이고, R³ _i의 크기는 3×w₃이고, 그리고

이다.

단계 5054에서, 제3 레벨의 컨볼루션 레이어의 제2 특성 이미지 H²를 획득하기 위해 제3 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R³에 수평 풀링 연산이 수행된다.

본 단계의 원리는 단계 5044의 원리와 일치하며, 단계 5044의 내용이 구체적으로 참조될 수 있다.

구체적으로, 높이 및 폭이 각각 3 및 384인 이미지 H²를 획득하기 위해, 제3 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R³에 수평 풀링 연산이 수행될 수 있다. H²는 R³에 대한 수평 풀링 연산의 출력이다.

단계 506에서, 제4 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제4 레벨의 컨볼루션 레이어의 제1 특성 이미지 R⁴를 획득하기 위해, 제4 레벨의 컨볼루션 레이어에서, 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 R³에 컨볼루션 연산 및 최대 풀링 연산이 수행된다.

제4 레벨의 컨볼루션 레이어의 컨볼루션 커널 및 바이어스 행렬을 사용하여, 제4 레벨의 컨볼루션 레이어에서, 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 R³에 컨볼루션 연산 및 최대 풀링 연산이 수행되는 단계는 단계 502의 각각의 초기 모델 파라미터를 참조하여 이하에서 구체적으로 설명될 것이다. 구체적으로 제4 레벨의 컨볼루션 레이어의 제1 특성 이미지 R⁴를 획득하는 프로세스는 아래와 같이 구현된다.

단계 5061에서, 제4 레벨의 컨볼루션 레이어의 컨볼루션 커널과 바이어스 행렬을 사용하여, 제4 레벨의 컨볼루션 레이어의 컨볼루션 이미지 D⁴를 획득하기 위해, 제4 레벨의 컨볼루션 레이어에서 제3 레벨의 컨볼루션 레이어의 제1 특성 이미지 R³에 컨볼루션 연산이 수행된다.

R³상의 컨볼루션 커널의 슬라이딩 스텝 길이는 1이고, 즉

이고, 여기서 D⁴ _i는 제4 레벨의 컨볼루션 레이어의 i번째 획득된 컨볼루션 이미지를 나타내고, C⁴ _i는 C⁴ 중 i번째 컨볼루션 커널을 나타내며, B⁴ _i는 B⁴의 i번째 바이어스 행렬을 나타내고, R³ _j는 R³의 j번째 이미지를 나타낸다. 컨볼루션 연산의 특성에 따라서,

이고, 여기서 D⁴ _i는 i번째 컨볼루션 커널 C⁴ _i를 사용하여 R³에 컨볼루션 연산을 수행하는 것에 의해 획득되는 컨볼루션 이미지를 나타내고, D⁴ _i의 크기는 1×(w₃-2)이다.

단계 5062에서, 제4 레벨의 컨볼루션 레이어의 제2 특성 이미지 H³를 획득하기 위해 제4 레벨의 컨볼루션 레이어에서 제1 특성 이미지 R⁴에 수평 풀링 연산이 수행된다.

구체적으로, R⁴의 i번째 특성 이미지 R⁴ _i가 길이 w₃-2를 갖는 벡터이고, R⁴ _i의 모든 엘리먼트의 최대 값이 추출된다. R⁴의 512개 특성 이미지의 전부에 연산이 반복적으로 수행된 후, 512개 숫자가 획득되고, 이 숫자는 길이 512의 벡터 H³로 순서대로 연결된다. H³는 R³에 대한 수평 풀링 연산의 출력이다.

단계 507에서, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지 H¹, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지 H², 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지 H³에 따라서 트레이닝 이미지 I의 특성 벡터 Fc¹이 결정된다.

구체적으로, H¹및 H²의 열 벡터가 처음부터 끝까지 연결되는 것에 의해서, H¹및 H²의 열 벡터가 캐스케이드 될 수 있고, 그리고 캐스케이드된 결과가 1차원 벡터 Fc¹를 획득하기 위해 벡터 H³과 더 캐스케이드된다. 벡터 Fc¹는 트레이닝 이미지 I의 특성 벡터로서 결정된다.

상술한 단계 각각의 예시들을 결합하면, H¹의 크기는 7×256이고, H²의 크기는 3×384이고, H³의 길이는 512이고, 따라서 Fc¹의 길이는 3,456이다.

단계 508에서, 특성 벡터 Fc¹가 제1 레벨의 완전 연결 벡터의 입력으로서 결정되고, 그리고 Fc¹는 제1 레벨의 완전 연결 벡터의 가중치 행렬 및 바이어스 벡터를 사용하여 제1 레벨의 완전 연결 벡터의 출력 Fc²를 계산하기 위해 프로세싱된다.

단계 502의 내용을 참조하면, 제1 레벨의 완전 연결 레이어의 출력 Fc²는 제1 레벨의 완전 연결 레이어의 가중치 행렬 W¹ 및 바이어스 벡터 B⁵를 사용하고 이하의 공식

를 사용하여 계산될 수 있다.

단계 508의 내용을 참조하면, Fc²의 길이는 1,024이다. 상술한 단계 각각에서 획득되는 결과는 도 3의 구체적 수치 값을 참조할 수 있다. 물론 도 3의 수치 값은 오직 예시일 뿐이고, 본 명세서의 실시예를 제한하는 것으로 의도되지는 않는다.

단계 509에서, 제1 레벨의 완전 연결 레이어의 출력이 제2 레벨의 완전 연결 레이어에 입력되고, 트레이닝 이미지 I의 분류 확률 벡터 Y가 제2 레벨의 완전 연결 레이어의 가중치 행렬 및 바이어스 벡터를 사용하여 계산되고, 그리고 분류 에러 Loss가 트레이닝 이미지 I의 초기 분류 label 및 분류 확률 벡터 Y에 따라서 계산된다.

본 단계의 원칙식은 단계 206 및 단계 207에 구체적으로 설명되어 있고, 단계 206 및 단계 207의 내용을 구체적으로 참조할 수 있고 여기서 상세히 설명되지는 않는다.

구체적으로, 예시와 결합하여, 제1 레벨의 완전 연결 레이어의 출력 Fc²는 제2 레벨의 완전 연결 레이어의 입력으로 결정될 수 있다. 단계 502의 내용으로부터, 제2 레벨의 완전 연결 레이어의 가중치 행렬은 W²이고, 바이어스 벡터는 B⁶이고, 트레이닝 이미지 I의 분류 확률 벡터 Y는

및

로 계산되고, 여기서 Y_i는 입력 이미지 I가 i번째 분류인 확률을 나타내고, n은 트레이닝되는 CNN 모델에 의해 인식될 수 있는 이미지 분류의 개수를 나타낸다. 도 3에서는 트레이닝되는 CNN 모델이 10개의 이미지 분류를 인식할 수 있는 경우만이 오직 예시로서 설명되었다.

이에 더해, 분류 에러 Loss가 트레이닝 이미지 I의 초기 분류 label 및 분류 확률 벡터 Y에 따라서 계산되는 연산은 아래의 공식을 사용하여 구현될 수 있다.

예를 들어, 트레이닝 이미지 I의 초기 분류가 제1 분류라면, label = 1이다.

단계 510에서, 단계 502 내지 단계 509가 트레이닝 이미지 각각에 대해 반복적으로 수행되고, 모든 트레이닝 이미지의 분류 에러의 평균

가 계산되고, 그리고 분류 에러의 평균은 분류 에러로서 결정된다.

단계 511에서, 트레이닝되는 CNN 모델의 모델 파라미터는 분류 에러에 기초하여 조정된다.

본 단계의 원칙은 단계 208에서 구체적으로 설명되어 있고, 단계 208의 내용이 구체적으로 참조될 수 있으며 여기서 상세히 설명되지 않는다.

구체적으로, 분류 에러를 SGD 알고리즘을 사용하여 트레이닝되는 CNN 모델에 역으로 다시 전송할 때, SGD 알고리즘의 습득 레이트(learning rate)는 0.01이 사용될 수 있고, 단계 510에서 계산되는 분류 에러의 평균

는 트레이닝되는 CNN로 다시 역으로 전송되어 컨볼루션 커널 C¹, C², C³ 및 C⁴, 바이어스 행렬 B¹, B², B³ 및 B⁴, 가중치 행렬 W¹ 및 W², 바이어스 벡터 B⁵ 및 B⁶의 모든 엘리먼트를 업데이트한다.

단계 512에서, 단계 502 내지 단계 511이 미리 설정된 수 N만큼 반복적으도 수행되고, 반복이 미리 설정된 수 N에 도달할 때 획득되는 모델 파라미터가 트레이닝된 CNN 모델의 모델 파라미터로서 결정된다.

N의 수치 값의 특정 범위는 본 명세서의 실시예에서 구체적으로 한정되지는 않는다. 트레이닝된 CNN 모델을 상대적으로 더 정확하게 하기 위해, N의 값은 상대적으로 더 커질 수 있다. 구체적인 구현에서 N은 경험적인 값일 수 있다. 예를 들어 N은 300,000이다. 반복의 횟수가 300,000에 도달할 때 획득된 모델 파라미터가 트레이닝된 CNN 모델의 모델 파라미터로서 결정된다.

테스트는, 트레이닝되는 CNN 모델이 4개 레벨의 컨볼루션 레이어를 포함하고 수평 풀링 연산이 제2 레벨의 컨볼루션 레이어, 제3 레벨의 컨볼루션 레이어 및 제4 레벨의 컨볼루션 레이어에서 수행되는 경우, 단계 501 내지 단계 512에 의해 트레이닝된 CNN 모델이 상대적으로 더 높은 정확성을 가지고, 이에 의해 CNN 모델의 트레이닝 정확도가 증가할 수 있음을 보여준다.

도 6은 본 명세서의 다른 실시에에 따른, CNN 모델의 트레이닝 디바이스의 구조의 개략도이다. CNN 모델의 트레이닝 디바이스는, 도 1, 도 2 및 도 5 중 어느 하나에 대응하는 실시예에 의해 제공되는 CNN 모델의 트레이닝 방법을 실행하도록 구성될 수 있다.

제1 획득 모듈(601)은 트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득하도록 구성되고, 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함한다.

제2 획득 모듈(602)은 복수의 트레이닝 이미지를 획득하도록 구성된다.

특성 추출 모듈(603)은 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하도록 구성된다.

수평 풀링 모듈(604)은 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하도록 구성된다.

제1 결정 모듈(605)은 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하도록 구성된다.

프로세싱 모듈(606)은 초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하도록 구성된다.

계산 모듈(607)은 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하도록 구성된다.

조정 모듈(608)은 분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터를 조정하도록 구성된다.

반복 모듈(609)은 조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하도록 구성된다.

제2 결정 모듈(610)은 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하도록 구성된다.

본 명세서의 실시예에 의해 제공되는 디바이스에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

다른 실시예에서, 제2 획득 모듈(602)은 이하의 유닛을 포함한다.

제1 획득 유닛은 복수의 초기 트레이닝 이미지를 획득하도록 구성된다.

제1 프로세싱 유닛은 초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 제1 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하도록 구성된다.

제2 프로세싱 유닛은 지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지를 프로세싱하도록 구성된다.

제1 결정 유닛은 지정 높이와 지정 폭을 가진 이미지를 초기 트레이닝 이미지에 대응하는 트레이닝 이미지로 결정하도록 구성된다.

제2 획득 유닛은 복수의 초기 트레이닝 이미지를 획득하도록 구성된다.

제3 프로세싱 유닛은 초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하고, 그리고 지정 높이에 대응하는 폭을 초기 트레이닝 이미지의 폭으로서 결정하도록 구성된다.

다른 실시예에서 제1 프로세싱 유닛은 이하의 서브유닛을 포함한다.

프로세싱 서브유닛은, 초기 폭을 획득하기 위해 트레이닝 이미지 각각을 지정 높이를 가진 이미지로 프로세싱하도록 구성된다.

채움 서브유닛은, 초기 폭이 지정 폭보다 작은 경우, 초기 폭이 지정 폭에 도달할 때까지 지정된 그레이-스케일(gray-scale) 값을 가진 픽셀로 프로세싱되는 초기 트레이닝 이미지의 좌우 측면을 균일하게 채우도록 구성된다.

절단 서브유닛은, 초기 폭이 지정 폭보다 큰 경우, 초기 폭이 지정 폭에 도달할 때까지 프로세싱되는 초기 트레이닝 이미지의 좌우 측면 상의 픽셀을 균일하게 잘라내도록 구성된다.

다른 실시예에서 특성 추출 모듈(603)은 이하의 유닛을 포함한다.

컨볼루션 유닛은, 트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산을 수행하도록 구성된다. 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지이다.

최대 풀링 유닛은, 현재 컨볼루션 레이어에서 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 최대 풀링 연산을 현재 컨볼루션 레이어의 컨볼루션 이미지에 수행하도록 구성된다.

전송 유닛은, 마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 현재 컨볼루션 레이어의 제1 특성 이미지를 다음 레벨의 컨볼루션 레이어에 전송하는 것을 계속하고 그리고 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산을 수행하도록 구성된다.

다른 실시예에서, 수평 풀링 모듈(604)은 이하의 유닛을 포함한다.

추출 유닛은 각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하고, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열의 엘리먼트 중 최대 값을 추출하도록 구성된고, 여기서 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 또는 바이어스 행렬의 수와 동일하다.

배열 유닛은 각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들을 1차원 벡터로 배열하도록 구성된다.

결합 유닛은 컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터를 결합하도록 구성된다.

다른 실시예에서, 제1 결정 모듈(605)은, 트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지의 모든 열의 엘리먼트들을 앞에서 뒤로 연결하여 트레이닝 이미지의 특성 벡터를 획득하도록 구성된다.

다른 실시예에서, 계산 모듈(607)은 이하의 유닛을 포함한다.

획득 유닛은 트레이닝 이미지 각각의 초기 분류를 획득하도록 구성된다.

제1 계산 유닛은, 공식

Loss = -lny_label

을 사용하여 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 트레이닝 이미지 각각의 분류 에러를 계산하도록 구성된다. Loss는 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 트레이닝 이미지 각각의 초기 분류를 나타내며, y _i 는 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y _label 은 초기 분류에 대응하는 분류 확률을 나타낸다.

제2 계산 유닛은, 모든 트레이닝 이미지의 분류 에러의 평균을 계산하고, 모든 트레이닝 이미지의 분류 에러의 평균을 분류 에러로서 결정하도록 구성된다.

다른 실시예에서, 복수의 트레이닝 이미지는 비인공 장면의 이미지이고, 비인공 장면의 이미지는 상이한 언어의 문자를 포함하고, 트레이닝되는 CNN 모델은 언어 인식 분류기이다.

이 다른 실시예에서, 수평 풀링 모듈은, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수평 풀링 연산을 수행하도록 구성된다.

이 다른 실시예에서, 제1 결정 모듈은, 트레이닝 이미지 각각에 대해, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터를 결정하도록 구성된다.

도 7은 본 명세서의 다른 실시예와 연관된 단말기의 구조의 개략도이이고, 이 단말기는 도 1, 도 2 또는 도 4에 대응하는 실시예에 의해 제공되는 CNN 모델의 트레이닝 방법을 구현하도록 구성될 수 있다. 단말기의 자세한 내용은 아래와 같다.

단말기(700)는 무선 주파수(radio frequency, RF) 회로(110), 하나 이상의 컴퓨터-판독가능 저장 매체를 포함하는 메모리(120), 입력 유닛(130), 디스플레이 유닛(140), 센서(150), 오디오 회로(160), 와이파이(WiFi) 모듈(170), 하나 이상의 프로세싱 코어를 포함하는 프로세서(180) 및 전원(190)과 같은 구성요소(part)을 포함할 수 있다. 본 기술분야의 통상의 기술자는 도 7에 도시된 단말기의 구조가 그 단말기를 제한하기 위한 것이 아니고, 도면에 도시된 구성요소에 비해 더 많거나 또는 더 적은 구성요소를 포함할 수 있으며 또는 일부 구성요소가 결합될 수 있고 또는 구성요소가 상이한 방식으로 배열될 수 있다는 것을 알 수 있다.

RF 회로(110)는 정보 전송 및 수신 또는 통신 프로세스에서 신호를 수신하거나 송신하도록 구성될 수 있고, 구체적으로 기지국의 다운링크 정보를 수신한 후 프로세싱을 위해 하나 이상의 프로세서(180)로 전송하고, 그리고 기지국으로 관련 업링크 데이터를 송신하도록 구성될 수 있다. 일반적으로, RF 회로(110)는 안테나, 적어도 하나의 증폭기, 튜너(tuner), 하나 이상의 발진기, 가입자 식별 모듈(SIM) 카드, 송수신기, 커플러(coupler), 저소음 증폭기(low noise amplifier, LNA), 송수신 전환기(duplexer) 등을 포함하나 이에 제한되지는 않는다. 이에 더하여 RF 회로(110)는 무선 통신 방식으로 네트워크 및 다른 장치와 통신할 수 있다. 무선 통신은, GSM(Global System of Mobile Communication), GPRS(General Packet Radio Service), CDMA(Code Division Multiple Access), WCDMA(Wideband Code Division Multiple Access), LTE(Long Term Evolution), e-메일, SMS(Short Messaging Service) 등을 포함하는 임의의 통신 표준 또는 프로토콜을 채용할 수 있으나 이에 제한되지는 않는다.

메모리(120)는 소프트웨어 프로그램 및 모듈을 저장하도록 구성되고, 프로세서(180)는 메모리(120)에 저장된 소프트웨어 프로그램 및 모듈을 구동하여 다양한 기능적 어플리케이션 및 데이터 프로세싱을 실시한다. 메모리(120)가 프로그램 저장 영역 및 데이터 저장 영역을 주로 포함하고, 여기서 프로그램 저장 영역은 운영 시스템, 적어도 하나의 기능(예를 들어 사운드 재생 기능 및 이미지 재생 기능)에 의해 요구되는 어플리케이션 프로그램 등을 저장할 수 있고, 데이터 저장 영역은 단말기(700)의 사용에 의해 생성되는 데이터(예를 들어 오디오 데이터 및 전화번호부) 등을 저장할 수 있다. 이에 더하여, 메모리(120)가 고속 랜덤 액세스 메모리를 포함할 수 있고, 또한, 적어도 하나의 디스크 메모리와 같은 비-휘발성 메모리, 플래시 메모리, 또는 다른 휘발성 솔리드-스테이트 메모리를 포함할 수 있다. 그에 따라, 메모리(120)는, 프로세서(180) 및 입력 유닛(130)의 메모리(120)로의 접근을 제공하기 위해서 메모리 제어기를 더 포함할 수 있다.

입력 유닛(130)은 입력되는 디지털 또는 문자 정보를 수신하도록, 그리고 사용자 셋팅 및 기능 제어와 관련된 키보드, 마우스, 조이스틱, 광학적, 또는 트랙 볼 신호 입력을 생성하도록 구성될 수 있다. 구체적으로, 입력 유닛(130)이 터치-감지형 표면(131) 및 다른 입력 장치(132)를 포함할 수 있다. 터치 디스플레이 스크린 또는 터치 패널로서 또한 지칭될 수 있는 터치-감지형 표면(131)이 (손가락 또는 스타일러스와 같은 임의의 적합한 물체의 이용에 의하여, 터치-감지형 표면(131) 상에서 또는 그 근처에서 실행되는 사용자의 연산과 같은) 터치-감지형 표면 상에서의 또는 그 근처에서의 사용자의 터치 연산을 수집할 수 있고, 미리 설정된 프로그램에 따라서 대응하는 연결 장치를 구동시킨다. 선택적으로, 터치-감지형 표면(131)이 2개의 부분: 터치 검출 디바이스 및 터치 제어기를 포함할 수 있다. 터치 검출 디바이스는 사용자의 터치 방향을 검출하고, 터치 연산에 의해서 생성된 신호를 검출하며, 그러한 신호를 터치 제어기로 전달한다. 터치 제어기는 터치 검출 디바이스로부터 터치 정보를 수신하고, 터치 정보를 터치 좌표로 변환하고, 터치 좌표를 프로세서(180)로 송신하며, 그리고 프로세서(180)로부터 송신된 명령을 수신하고 실행할 수 있다. 이에 더하여, 터치-감지형 표면(131)이 저항, 용량, 적외선, 표면 음파 유형 등을 사용하여 구현될 수 있다. 터치-감지형 표면(131)에 더하여, 입력 유닛(130)이 다른 입력 장치(132)를 더 포함할 수 있다. 구체적으로, 다른 입력 장치(132)가, 물리적 키보드, (부피 제어 키(volume control key) 또는 온/오프 키와 같은) 기능적 키, 트랙 볼, 마우스, 조이스틱 등 중에서 하나 이상을 포함할 수 있으나 이에 제한되지는 않는다.

디스플레이 유닛(140)은 사용자에 의해서 입력된 정보 또는 사용자를 위해서 제공되는 정보, 그리고 단말기(700)의 여러 가지 그래픽 사용자 인터페이스를 디스플레이하도록 구성될 수 있고, 이러한 그래픽 사용자 인터페이스는 그래프, 문장, 아이콘, 비디오 및 그 임의의 조합에 의해서 형성될 수 있다. 디스플레이 유닛(140)이 디스플레이 패널(141)을 포함할 수 있고, 디스플레이 패널(141)은 선택적으로 액정 디스플레이(LCD), 유기 발광 다이오드(OLED) 등의 형태로 구성될 수 있다. 또한, 터치-감지형 표면(131)이 디스플레이 패널(141)을 커버할 수 있고, 터치-감지형 표면(131) 상에서의 또는 그 근처에서의 터치 연산이 검출된 후에, 터치 이벤트의 분류를 결정하기 위해 터치 연산은 프로세서(180)로 전달된다. 그리고, 프로세서(180)는 터치 이벤트의 분류에 따라서 디스플레이 패널(141) 상으로 대응하는 시각적 출력을 제공한다. 비록, 도 7의 터치-감지형 표면(131) 및 디스플레이 패널(141)이 2개의 독립된 부분으로서 입력 및 출력 기능을 구현하지만, 일부 실시예에서, 터치-감지형 표면(131) 및 디스플레이 패널(141)이 통합되어 입력 및 출력 기능을 구현할 수 있다.

단말기(700)는, 광학적 센서, 모션 센서, 및 다른 센서와 같은, 적어도 하나의 센서(150)를 더 포함할 수 있다. 구체적으로, 광학적 센서가 주위 광 센서 및 근접도 센서를 포함할 수 있다. 주위 광 센서는, 주위 광의 밝기에 따라서 디스플레이 패널(141)의 휘도를 조정할 수 있고, 근접도 센서는, 단말기(700)가 귀로 이동될 때, 디스플레이 패널(141) 및/또는 백라이트를 오프로 전환시킬 수 있다. 모션 센서로서, 중력 가속도 센서가 (일반적으로 3개의 축 상의) 각 방향을 따른 가속도의 크기를 검출할 수 있고, 정지 상태에서 중력의 크기 및 방향을 검출할 수 있으며, 단말기의 적용 상태(예를 들어 수평 및 수직 스크린 스위칭, 관련 게임 및 자기계 상태 교정), 진동 인지와 관련된 기능(예를 들어 만보계 및 두드림) 등을 식별하도록 구성될 수 있다. 그리고 단말기(700) 내에서 구성될 수 있는, 자이로스코프, 기압계, 습도계, 온도계 및 적외선 센서와 같은 다른 센서를 여기서 상세히 설명하지는 않는다.

오디오 회로(160), 스피커(161), 및 마이크로폰(162)이 사용자와 단말기(700) 사이의 오디오 인터페이스를 제공할 수 있다. 오디오 회로(160)가 수신된 오디오 데이터로부터 변환시킨 전기 신호를 스피커(161)로 송신할 수 있고, 스피커(161)는 전기 신호를 출력을 위한 소리 신호로 변환시킨다. 다른 한편으로, 마이크로폰(162)은 수집된 소리 신호를 전기 신호로 변환시키고, 오디오 회로(160)는 전기 신호를 수신하여 오디오 데이터로 변환시키고 오디오 데이터를 프로세서(180)로 출력하며, 프로세서(180)는 오디오 데이터를 프로세싱하고 RF 회로(110)를 이용하는 것에 의해서 오디오 데이터를, 예를 들어, 다른 단말기로 송신하거나, 추가적인 프로세싱을 위해서 메모리(120)로 출력한다. 오디오 회로(160)는, 외부 이어폰 및 단말기(1500) 사이의 통신을 제공하기 위해서, 이어플러그 홀을 더 포함할 수 있다.

와이파이는 단거리 무선 전송 기술이다. 단말기(700)는, WiFi 모듈(170)을 통해 사용자가 e-메일을 수신 및 송신하고, 웹페이지를 브라우징하고, 스트리밍 미디어에 접근하는 것 등을 할 수 있게 해주고 사용자에게 무선 광대역 인터넷 접속을 제공한다. 비록 도 7이 WiFi 모듈(170)을 도시하지만, WiFi 모듈이 단말기(700)의 필수적인 구성요소가 아니고, 필요에 의해 본 명세서 내용의 본질의 범위를 변화시키지 않으면서 WiFi 모듈이 생략될 수 있다는 것이 이해되어야 한다.

프로세서(180)는, 단말기(700)의 제어 중심으로서, 다양한 인터페이스 및 라인을 이용하여 전체 단말기의 각 부분에 연결된다. 메모리(120) 내에 저장된 소프트웨어 프로그램 및/또는 모듈을 구동 또는 실행하는 것, 그리고 메모리(120) 내에 저장된 데이터를 불러오는 것에 의해서, 프로세서(180)는 단말기(700)의 여러 기능 및 데이터 프로세싱을 실시하고, 그에 의해서 전체 단말기를 모니터링할 수 있다. 선택적으로, 프로세서(180)가 하나 이상의 프로세싱 코어를 포함할 수 있다. 바람직하게, 프로세서(180)가 어플리케이션 프로세서와 변조 및 복조 프로세서를 포함할 수 있다. 어플리케이션 프로세서는 운영 시스템, 사용자 인터페이스, 어플리케이션 프로그램 등을 주로 프로세싱하고, 변조 및 복조 프로세서는 무선 통신을 주로 프로세싱한다. 전술한 변조 및 복조 프로세서가 또한 프로세서(180) 내에 포함되지 않을 수 있다는 것을 이해할 수 있을 것이다.

단말기(700)는, 구성요소로 전력을 공급하기 위한 전원(900)(예를 들어, 배터리)을 더 포함할 수 있고, 바람직하게, 전원은 전력 관리 시스템을 통해 프로세서(180)에 논리적으로 연결될 수 있고, 그에 의해서 전력 관리 시스템을 통한 충전 및 방전 관리, 전력 소비 관리 등의 기능을 실시할 수 있다. 전원(190)이 직류 또는 교류 전원, 재충전 시스템, 정전 검출 회로, 전원 변환기 또는 인버터, 전원 상태 표시부 및 임의의 다른 구성요소 중 하나 이상을 더 포함할 수 있다.

비록 도면에 도시되지는 않았지만, 단말기(700)는, 여기서 상세히 설명되지는 않을, 카메라, 블루투스 모듈 등을 더 포함할 수 있다. 구체적으로, 이러한 실시예에서, 단말기의 디스플레이 유닛이 터치 스크린 디스플레이이고, 단말기는 메모리 및 하나 이상의 프로그램을 더 포함하고, 여기서 하나 이상의 프로그램은 메모리 내에 저장되고 하나 이상의 프로세서에 의해서 실행되도록 구성된다. 하나 이상의 프로그램이 이하의 연산을 실시하도록 구성된 명령어를 포함한다:

트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득되는 연산 - 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;

복수의 트레이닝 이미지를 획득하는 연산;

각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 연산;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 연산;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 연산;

초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하는 연산;

트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하는 연산;

분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터를 조정하는 연산;

조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하는 연산; 및

반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하는 연산.

전술한 내용이 제1의 가능한 구현이라고 가정하면, 제1의 가능한 구현을 기반으로 제공되는 제2의 가능한 구현에서, 단말기의 메모리는 복수의 트레이닝 이미지를 획득하는 이하의 연산을 실시하도록 구성된 명령어를 더 포함한다:

복수의 초기 트레이닝 이미지를 획득하는 연산;

초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 제1 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하는 연산; 및

지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지를 프로세싱하고, 지정 높이와 지정 폭을 가진 이미지를 초기 트레이닝 이미지에 대응하는 트레이닝 이미지로 결정하는 연산.

제1의 가능한 구현을 기초로 제공되는 제3의 가능한 구현에서, 단말기의 메모리는 복수의 트레이닝 이미지를 획득하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

복수의 초기 트레이닝 이미지를 획득하는 연산; 및

초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하고, 그리고 지정 높이에 대응하는 폭을 초기 트레이닝 이미지의 폭으로서 결정하는 연산.

제2의 가능한 구현을 기초로 제공되는 제4의 가능한 구현에서, 단말기의 메모리는 지정 폭을 가진 제2 이미지를 획득하기 위해 제1 이미지를 프로세싱하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

제1 이미지의 폭이 지정 폭보다 작은 경우, 지정된 그레이-스케일(gray-scale) 값을 가진 픽셀로 제1 이미지의 좌우 측면을 균일하게 채우고, 제1 이미지의 폭이 지정 폭에 도달할 때 제2 이미지를 획득하는 연산; 및

제1 이미지의 폭이 지정 폭보다 큰 경우, 제1 이미지의 좌우 측면 상의 픽셀을 균일하게 잘라내고, 제1 이미지의 폭이 지정 폭에 도달할 때 제2 이미지를 획득하는 연산.

제1의 가능한 구현을 기초로 제공되는 제5의 가능한 구현에서, 단말기의 메모리는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산을 수행하는 연산 - 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지임 - ; 및

현재 컨볼루션 레이어에서 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 최대 풀링 연산을 현재 컨볼루션 레이어의 컨볼루션 이미지에 수행한 후, 마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 계속해서 현재 컨볼루션 레이어의 제1 특성 이미지를 다음 레벨의 컨볼루션 레이어에 전송하고 그리고 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산을 수행하는 연산.

제1의 가능한 구현을 기초로 제공되는 제6의 가능한 구현에서, 단말기의 메모리는 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 레벨들 중 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하고, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열(row)의 엘리먼트들(elements) 중 최대 값을 추출하는 연산 - 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 또는 바이어스 행렬의 수와 동일함 - ;

각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들을 1차원 벡터로 배열하는 연산; 및

컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터를 결합하는 연산.

제6의 가능한 구현을 기초로 제공되는 제7의 가능한 구현에서, 단말기의 메모리는 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지의 모든 열의 엘리먼트들을 앞에서 뒤로 연결하여 트레이닝 이미지의 특성 벡터를 획득하는 연산.

제1의 가능한 구현을 기초로 제공되는 제8의 가능한 구현에서, 단말기의 메모리는 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

트레이닝 이미지 각각의 초기 분류를 획득하는 연산;

공식 Loss = -lny_label 을 사용하여 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 트레이닝 이미지 각각의 분류 에러를 계산하는 연산 - Loss는 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 트레이닝 이미지 각각의 초기 분류를 나타내며, y_i 는 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y_label 은 초기 분류에 대응하는 분류 확률을 나타냄 - ; 및

모든 트레이닝 이미지의 분류 에러의 평균을 계산하고, 모든 트레이닝 이미지의 분류 에러의 평균을 분류 에러로서 결정하는 연산.

제1 내지 제8의 가능한 구현을 기초로 제공되는 제9의 가능한 구현에서, 단말기의 메모리는, 복수의 트레이닝 이미지는 비인공 장면의 이미지이고, 비인공 장면의 이미지는 상이한 언어의 문자를 포함하고, 트레이닝되는 CNN 모델은 언어 인식 분류기인 연산을 실행하기 위한 명령어를 더 포함한다.

제1 내지 제8의 가능한 구현을 기초로 제공되는 제10의 가능한 구현에서, 트레이닝되는 CNN 모델은 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하고, 각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함하고, 단말기의 메모리는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 연산은,

제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 제2 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 제3 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 제4 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수평 풀링 연산을 수행하는 연산을 포함하고; 그리고

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 연산은,

트레이닝 이미지 각각에 대해, 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터를 결정하는 연산을 포함한다.

본 명세서의 실시예에 의해 제공되는 단말기에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

본 명세서의 실시예는 컴퓨터-판독가능 저장 매체를 제공하고, 컴퓨터-판독가능 저장 매체는 상술한 실시예의 메모리 내에 포함되는 컴퓨터-판독가능 저장 매체이거나 또는 개별적으로 존재하고 단말기 내에 설치되지 않는 컴퓨터-판독가능 저장 매체일 수 있다. 컴퓨터-판독가능 저장 매체가 하나 이상의 프로그램을 저장하고, 하나 이상의 프로그램 CNN 모델의 트레이닝 방법을 실행하기 위한 하나 이상의 프로세서에 대해 구셩되고, 이 방법은:

트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득되는 단계 - 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;

복수의 트레이닝 이미지를 획득하는 단계;

각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계;

초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하는 단계;

트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하는 단계;

분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터를 조정하는 단계;

조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하는 단계; 및

반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하는 단계

를 포함한다.

복수의 초기 트레이닝 이미지를 획득하는 연산;

복수의 초기 트레이닝 이미지를 획득하는 연산; 및

제6의 가능한 구현을 기초로 제공되는 제7의 가능한 구현에서, 단말기의 메모리는 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 이하의 연산을 실행하기 위한 명령어를 더 포함한다:

트레이닝 이미지 각각의 초기 분류를 획득하는 연산;

본 명세서의 실시예에 의해 제공되는 컴퓨터-판독가능 저장 매체에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

본 명세서의 실시예가 그래픽 사용자 인터페이스를 제공하고, 그래픽 사용자 인터페이스는 단말기에서 사용되며, 단말기는 터치 스크린 디스플레이, 메모리, 및 하나 이상의 프로그램을 실행하기 위한 하나 이상의 프로세서를 포함한다. 그래픽 사용자 인터페이스는:

트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득되는 것 - 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;

복수의 트레이닝 이미지를 획득하는 것;

각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 것;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 것;

적어도 하나의 레벨의 컨볼루션 레이어에서 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 트레이닝 이미지 각각의 특성 벡터를 결정하는 것;

초기 가중치 행렬 및 초기 바이어스 벡터에 따라서 트레이닝 이미지 각각의 분류 확률 벡터를 획득하기 위해 각각의 특성 벡터를 프로세싱하는 것;

트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 분류 에러를 계산하는 것;

분류 에러에 기초하여 트레이닝되는 CNN 모델의 모델 파라미터를 조정하는 것;

조정된 모델 파라미터 및 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하는 것; 및

반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하는 것을 포함한다.

복수의 초기 트레이닝 이미지를 획득하는 연산;

초기 트레이닝 이미지 각각의 폭-높이 비율을 유지하며, 복수의 트레이닝 이미지를 획득하기 위해 지정 높이 및 지정 폭을 가진 제1 이미지로 모든 초기 트레이닝 이미지를 프로세싱하는 연산.

복수의 초기 트레이닝 이미지를 획득하는 연산; 및

초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 지정 높이를 가진 이미지를 획득하기 위해 초기 트레이닝 이미지를 프로세싱하고, 그리고 지정 높이에 대응하는 폭을 초기 트레이닝 이미지의 폭으로서 결정하여, 복수의 트레이닝 이미지를 획득하는 연산.

본 명세서의 실시예에 의해 제공되는 그래픽 사용자 인터페이스에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

도 1, 도 2, 및 도 5 중 어느 하나에 대응하는 실시예에 의해 제공되는 CNN 모델의 트레이닝 방법은 또한 서버에 의해 실행될 수 있다. 도 8은 예시적인 실시예에 따른 서버의 구조의 개략도이고, 서버는 도 1, 도 2, 및 도 5 중 어느 하나에 대응하는 실시예에 의해 제공되는 CNN 모델의 트레이닝 방법을 실행하도록 구성될 수 있다. 도 8을 참조하면, 서버(800)은 하나 이상의 프로세서를 포함하는 프로세싱 컴포넌트(822), 및 프로세싱 컴포넌트(822)에 의해 실행가능한, 어플리케이션 프로그램과 같은 명령어를 저정하도록 구성되는, 메모리(832)로 나타내진 메모리 리소스를 포함한다. 메모리(832)에 저장된 어플리케이션 프로그램은 명령어 세트에 각각 대응하는 모듈을 하나 이상 포함할 수 있다. 이에 더하여, 프로세싱 컴포넌트(832)는, 도 1, 도 2, 및 도 5 중 어느 하나에 대응하는 실시예에 의해 제공되는 CNN 모델의 트레이닝 방법을 실행할 수 있는 명령어를 실행하도록 구성된다.

서버(800)는 서버(800)의 전력 관리를 실행할 수 있는 전력 컴포넌트(828), 네트워크에 서버(800)를 연결시키도록 구성된 유선 또는 무선 네트워크 인터페이스(850), 및 입력/출력(I/O) 인터페이스(858)를 더 포함할 수 있다. 서버(800)는 Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM 및 FreeBSDTM과 같은 메모리(832)에 저장된 운영 시스템에 기초하여 연산할 수 있다.

메모리에 저장된 하나 이상의 프로그램은 하나 이상의 프로그램에 의해 실행되도록 구성되고, 그리고 하나 이상의 프로그램은 이하의 연산을 수행하도록 구성된 명령어를 포함한다:

복수의 트레이닝 이미지를 획득하는 연산;

복수의 초기 트레이닝 이미지를 획득하는 연산;

복수의 초기 트레이닝 이미지를 획득하는 연산; 및

트레이닝 이미지 각각의 초기 분류를 획득하는 연산;

본 명세서의 실시예에 의해 제공되는 서버에 따르면, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지에 컨볼루션 연산 및 최대 풀링 연산이 수행되고 나서, 수평 풀링 연산이, 최대 풀링 연산에 의해 획득된 특성 이미지에 추가로 수행된다. 수평 풀링 연산 동안, 특성 이미지의 수평 방향에서의 특성을 식별하는 특성 이미지가 특성 이미지로부터 추가로 추출될 수 있고, 이는 트레이닝된 CNN 모델이 이미지 분류 식별 동안 인식되는 이미지의 수평 방향에서의 크기 제한을 깰 수 있게 해주고 임의의 크기를 가진 인식되는 이미지를 인식할 수 있게 해준다. 이에 의해 트레이닝된 CNN 모델의 이미지 인식 적용 범위가 상대적으로 더 넓어진다.

CNN 모델을 트레이닝 할 때, 실시예에 의해서 제공된 CNN 모들의 트레이닝 디바이스는 오직 예시로서 상술한 기능적 모듈 각각의 구분으로 설명된 것임을 주목하여야 할 것이다. 실제 적용예에서, 상이한 기능이 실현을 위해 상이한 기능적 모듈에 할당될 수 있고, 즉 디바이스의 내부 구성은 상술한 기능의 전부 또는 부분을 실현하기 위해 상이한 기능적 모듈에 분리될 수 있다. 이에 더하여, 실시예에서 제공된 CNN 모델의 트레이닝 디바이스, 단말기 및 서버는 CNN 모델의 트레이닝 방법의 실시예와 동일한 개념을 기초로 하고, 그 구체적인 구현 프로세서는 방법 실시예를 참고하고 여기서 상세하게 설명되지는 않는다.

본 기술분야의 통상의 기술자는 실시예의 모든 또는 일부 단계가 하드웨어에 의해서 실시될 수 있거나, 프로그램을 통해 관련 하드웨어로 지시하는 것 의해서 실시될 수 있다는 것을 이해할 것이고, 프로그램은 컴퓨터-판독가능 저장 매체에 저장될 수 있고, 상술한 저장 매체는 리드-온리 메모리, 디스크, 컴팩트 디스크 등일 수 있다.

전술한 설명은 단지 본 명세서의 바람직한 실시예이고, 본 명세서의 내용을 제한하도록 의도된 것은 아니다. 본 명세서의 사상 및 원리 내에서 이루어진 임의의 수정, 균등한 대체, 또는 개선이 본원의 보호 범위 내에 포함될 것이다.

Claims

컨볼루션 신경망(Convolution Neural Network: CNN) 모델의 트레이닝 방법으로서,
트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득하는 단계 - 상기 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널(convolution kernel) 및 초기 바이어스 행렬(bias matrix)과, 완전 연결 레이어의 초기 가중치 행렬(wight matrix) 및 초기 바이어스 벡터(bias vector)를 포함함 -;
복수의 트레이닝 이미지를 획득하는 단계;
각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링(maximal pooling) 연산을 수행하는 단계;
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링(horizontal pooling) 연산을 수행하는 단계;
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터(feature vector)를 결정하는 단계;
상기 초기 가중치 행렬 및 상기 초기 바이어스 벡터에 따라서 상기 각각의 특성 벡터를 프로세싱하여 상기 트레이닝 이미지 각각의 분류 확률 벡터를 획득하는 단계;
상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 분류 에러를 계산하는 단계;
상기 분류 에러에 기초하여 상기 트레이닝되는 CNN 모델의 모델 파라미터를 조정하는 단계;
상기 조정된 모델 파라미터 및 상기 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하는 단계; 및
상기 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하는 단계
를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항에 있어서,
상기 복수의 트레이닝 이미지를 획득하는 단계는,
복수의 초기 트레이닝 이미지를 획득하는 단계;
상기 초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 상기 초기 트레이닝 이미지를 프로세싱하여 지정(specified) 높이를 가진 제1 이미지를 획득하는 단계; 및
상기 제1 이미지를 프로세싱하여 지정 폭을 가진 제2 이미지를 획득하고, 상기 지정 높이와 상기 지정 폭을 가진 이미지를 상기 초기 트레이닝 이미지에 대응하는 트레이닝 이미지로 결정하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항에 있어서,
상기 복수의 트레이닝 이미지를 획득하는 단계는,
복수의 초기 트레이닝 이미지를 획득하는 단계; 및
상기 초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 상기 초기 트레이닝 이미지를 프로세싱하여 지정 높이를 가진 이미지를 획득하고, 그리고 상기 지정 높이에 대응하는 폭을 상기 초기 트레이닝 이미지의 폭으로서 결정하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제2항에 있어서,
상기 제1 이미지를 프로세싱하여 상기 지정 폭을 가진 제2 이미지를 획득하는 것은,
상기 제1 이미지의 폭이 상기 지정 폭보다 작은 경우, 지정된 그레이-스케일(gray-scale) 값을 가진 픽셀로 상기 제1 이미지의 좌우 측면을 균일하게 채우고, 상기 제1 이미지의 폭이 상기 지정 폭에 도달할 때 상기 제2 이미지를 획득하는 것; 및
상기 제1 이미지의 폭이 상기 지정 폭보다 큰 경우, 상기 제1 이미지의 좌우 측면 상의 픽셀을 균일하게 잘라내고, 상기 제1 이미지의 폭이 상기 지정 폭에 도달할 때 상기 제2 이미지를 획득하는 것을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항에 있어서,
각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계는,
상기 트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 상기 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 상기 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 상기 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산을 수행하는 단계 - 상기 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 상기 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지임 - ; 및
상기 현재 컨볼루션 레이어에서 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 최대 풀링 연산을 상기 현재 컨볼루션 레이어의 컨볼루션 이미지에 수행한 후, 마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 상기 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 계속해서 상기 현재 컨볼루션 레이어의 제1 특성 이미지를 다음 레벨의 컨볼루션 레이어에 전송하고 그리고 상기 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산을 수행하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항에 있어서,
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 레벨들 중 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계는,
각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하여 이루어지고, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열(row)의 엘리먼트(elements) 중 최대 값을 추출하는 단계 - 상기 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 또는 바이어스 행렬의 수와 동일함 - ;
각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들을 1차원 벡터로 배열하는 단계; 및
컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터를 결합하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제6항에 있어서,
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계는,
상기 트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지의 모든 열의 엘리먼트를 처음부터 끝까지 연결하여 상기 트레이닝 이미지의 특성 벡터를 획득하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항에 있어서,
상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 분류 에러를 계산하는 단계는,
상기 트레이닝 이미지 각각의 초기 분류를 획득하는 단계;
공식 Loss = -lny_label 을 사용하여 상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 상기 트레이닝 이미지 각각의 분류 에러를 계산하는 단계 - Loss는 상기 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 상기 트레이닝 이미지 각각의 초기 분류를 나타내며, y_i 는 상기 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y_label 은 초기 분류에 대응하는 분류 확률을 나타냄 - ; 및
모든 트레이닝 이미지의 분류 에러의 평균을 계산하고, 모든 트레이닝 이미지의 분류 에러의 평균을 분류 에러로서 결정하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 복수의 트레이닝 이미지는 비인공 장면(natural scene)의 이미지이고, 상기 비인공 장면의 이미지는 상이한 언어의 문자를 포함하고, 상기 트레이닝되는 CNN 모델은 언어 인식 분류기인,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
제1항 내지 제8항 중 어느 한 항에 있어서,
상기 트레이닝되는 CNN 모델은 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하고, 각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함하고;
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하는 단계는,
제2 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 상기 제2 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에, 상기 제3 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 상기 제4 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수평 풀링 연산을 수행하는 단계를 포함하고; 그리고
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터를 결정하는 단계는,
상기 트레이닝 이미지 각각에 대해, 상기 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 상기 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 상기 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터를 결정하는 단계를 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 방법.
컨볼루션 신경망(Convolution Neural Network: CNN) 모델의 트레이닝 디바이스로서,
트레이닝되는 CNN 모델의 초기 모델 파라미터를 획득하도록 구성된 제1 획득 모듈 - 상기 초기 모델 파라미터는 각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬과, 완전 연결 레이어의 초기 가중치 행렬 및 초기 바이어스 벡터를 포함함 -;
복수의 트레이닝 이미지를 획득하도록 구성된 제2 획득 모듈;
각 레벨의 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지를 획득하기 위해, 각 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각에 컨볼루션 연산 및 최대 풀링 연산을 수행하도록 구성된 특성 추출 모듈;
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 수평 풀링 연산을 수행하도록 구성된 수평 풀링 모듈;
적어도 하나의 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지에 따라서 상기 트레이닝 이미지 각각의 특성 벡터를 결정하도록 구성된 제1 결정 모듈;
상기 초기 가중치 행렬 및 상기 초기 바이어스 벡터에 따라서, 상기 각각의 특성 벡터를 프로세싱하여 상기 트레이닝 이미지 각각의 분류 확률 벡터를 획득하도록 구성된 프로세싱 모듈;
상기 트레이닝 이미지 각각의 초기 분류 및 상기 분류 확률 벡터에 따라서 분류 에러를 계산하도록 구성된 계산 모듈;
상기 분류 에러에 기초하여 상기 트레이닝되는 CNN 모델의 모델 파라미터를 조정하도록 구성된 조정 모듈;
조정된 모델 파라미터 및 상기 복수의 트레이닝 이미지에 기초하여, 반복의 횟수가 미리 결정된 수에 도달할 때까지, 모델 파라미터의 조정 프로세스를 계속하도록 구성된 반복 모듈; 및
상기 반복의 횟수가 미리 결정된 수에 도달할 때 획득되는 모델 파라미터를 트레이닝된 CNN 모델의 모델 파라미터로서 결정하도록 구성된 제2 결정 모듈
을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항에 있어서,
상기 제2 획득 모듈은,
복수의 초기 트레이닝 이미지를 획득하도록 구성된 제1 획득 유닛;
상기 초기 트레이닝 이미지 각각에 대해, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며, 상기 초기 트레이닝 이미지를 프로세싱하여 지정(specified) 높이를 가진 제1 이미지를 획득하도록 구성된 제1 프로세싱 유닛;
상기 제1 이미지를 프로세싱하여 지정 폭을 가진 제2 이미지를 획득하도록 구성된 제2 프로세싱 유닛; 및
상기 지정 높이와 상기 지정 폭을 가진 이미지를 상기 초기 트레이닝 이미지에 대응하는 트레이닝 이미지로 결정하도록 구성된 제1 결정 유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항에 있어서,
상기 제2 획득 모듈은,
복수의 초기 트레이닝 이미지를 획득하도록 구성된 제2 획득 유닛; 및
상기 초기 트레이닝 이미지 각각에 대해, 상기 초기 트레이닝 이미지를 프로세싱하여, 초기 트레이닝 이미지의 폭-높이 비율을 유지하며 지정 높이를 가진 이미지를 획득하고, 그리고 상기 지정 높이에 대응하는 폭을 상기 초기 트레이닝 이미지의 폭으로서 결정하도록 구성된 제3 프로세싱 유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제12항에 있어서,
상기 제2 프로세싱 유닛은,
상기 제1 이미지의 폭이 상기 지정 폭보다 작은 경우, 상기 제1 이미지의 폭이 상기 지정 폭에 도달할 때까지 지정된 그레이-스케일(gray-scale) 값을 가진 픽셀로 상기 제1 이미지의 좌우 측면을 균일하게 채우도록 구성된 채움 서브유닛; 및
상기 제1 이미지의 폭이 상기 지정 폭보다 큰 경우, 상기 제1 이미지의 폭이 상기 지정 폭에 도달할 때까지 상기 제1 이미지의 좌우 측면 상의 픽셀을 균일하게 잘라내도록 구성된 절단 서브유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항에 있어서,
상기 특성 추출 모듈은,
상기 트레이닝 이미지 각각에 대해, 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지를 현재 컨볼루션 레이어에 입력하고, 그리고 상기 현재 컨볼루션 레이어의 초기 컨볼루션 커널 및 초기 바이어스 행렬을 사용하여, 상기 현재 컨볼루션 레이어의 컨볼루션 이미지를 획득하기 위해 상기 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지에 컨볼루션 연산을 수행하도록 구성된 컨볼루션 유닛 - 상기 현재 컨볼루션 레이어가 제1 레벨의 컨볼루션 레이어인 경우, 상기 이전 레벨의 컨볼루션 레이어에서의 제1 특성 이미지는 트레이닝 이미지임 - ;
상기 현재 컨볼루션 레이어에서 트레이닝 이미지의 제1 특성 이미지를 획득하기 위해 최대 풀링 연산을 상기 현재 컨볼루션 레이어의 컨볼루션 이미지에 수행하도록 구성된 최대 풀링 유닛; 및
마지막 레벨의 컨볼루션 레이어에서 제1 특성 이미지를 획득하기 위해 상기 마지막 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산이 수행될 때까지, 상기 현재 컨볼루션 레이어의 제1 특성 이미지를 다음 레벨의 컨볼루션 레이어에 전송하는 것을 계속하고 그리고 상기 다음 레벨의 컨볼루션 레이어에서 컨볼루션 연산 및 최대 풀링 연산을 수행하도록 구성된 전송 유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항에 있어서,
상기 수평 풀링 모듈은,
각 레벨의 컨볼루션 레이어에서 각각의 트레이닝 이미지의 제1 특성 이미지에 대해, 제1 특성 이미지는 미리 설정된 수의 이미지들을 포함하고, 컨볼루션 레이어의 제1 특성 이미지의 각각의 이미지의 각각의 열(row)의 엘리먼트(elements) 중 최대 값을 추출하도록 구성된 추출 유닛 - 상기 미리 설정된 수는 컨볼루션 레이어의 컨볼루션 커널의 수 또는 바이어스 행렬의 수와 동일함 - ;
각각의 이미지의 픽셀의 배열에 따라서, 각각의 이미지의 모든 열로부터 추출된 최대 값들을 1차원 벡터로 배열하도록 구성된 배열 유닛; 및
컨볼루션 레이어의 제2 특성 이미지를 획득하기 위해, 컨볼루션 레이어의 제1 특성 이미지의 모든 이미지들의 1차원 벡터를 결합하도록 구성된 결합 유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제16항에 있어서,
상기 제1 결정 모듈은, 상기 트레이닝 이미지 각각에 대해, 각 레벨의 컨볼루션 레이어에서 트레이닝 이미지의 제2 특성 이미지의 모든 열의 엘리먼트를 처음부터 끝까지 연결하여 상기 트레이닝 이미지의 특성 벡터를 획득하도록 구성되는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항에 있어서,
상기 계산 모듈은,
상기 트레이닝 이미지 각각의 초기 분류를 획득하도록 구성된 획득 유닛;
공식 Loss = -lny_label 을 사용하여 상기 트레이닝 이미지 각각의 초기 분류 및 분류 확률 벡터에 따라서 상기 트레이닝 이미지 각각의 분류 에러를 계산하도록 구성된 제1 계산 유닛 - Loss는 상기 트레이닝 이미지 각각의 분류 에러를 나타내고, label은 상기 트레이닝 이미지 각각의 초기 분류를 나타내며, y_i 는 상기 트레이닝 이미지 각각의 분류 확률 벡터의 엘리먼트를 나타내고, y_label 은 초기 분류에 대응하는 분류 확률을 나타냄 - ; 및
모든 트레이닝 이미지의 분류 에러의 평균을 계산하고, 모든 트레이닝 이미지의 분류 에러의 평균을 분류 에러로서 결정하도록 구성된 제2 계산 유닛을 포함하는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 복수의 트레이닝 이미지는 비인공 장면의 이미지이고, 상기 비인공 장면의 이미지는 상이한 언어의 문자를 포함하고, 상기 트레이닝되는 CNN 모델은 언어 인식 분류기인,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
제11항 내지 제18항 중 어느 한 항에 있어서,
상기 트레이닝되는 CNN 모델은 4개의 레벨의 컨볼루션 레이어 및 2개의 완전 연결 레이어를 포함하고, 각 레벨의 컨볼루션 레이어는 컨볼루션 커널 및 바이어스 행렬을 동일한 개수 또는 상이한 개수로 포함하고;
상기 수평 풀링 모듈은, 제2 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제3 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하고, 제4 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제2 특성 이미지를 획득하기 위해, 상기 제2 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에, 상기 제3 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에, 그리고 상기 제4 레벨의 컨볼루션 레이어에서 상기 트레이닝 이미지 각각의 제1 특성 이미지에 개별적으로 수평 풀링 연산을 수행하도록 구성되고; 그리고
상기 제1 결정 모듈은, 상기 트레이닝 이미지 각각에 대해, 상기 제2 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 상기 제3 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지, 및 상기 제4 레벨의 컨볼루션 레이어에서의 트레이닝 이미지의 제2 특성 이미지에 따라서 트레이닝 이미지의 특성 벡터를 결정하도록 구성되는,
컨볼루션 신경망(CNN) 모델의 트레이닝 디바이스.
서버로서,
하나 이상의 프로세서,
상기 하나 이상의 프로세서에 연결된 메모리를 포함하고,
상기 메모리는, 상기 하나 이상의 프로세서에 대해 실행가능한 명령을 저장하도록 구성되고,
상기 하나 이상의 프로세서는 상기 메모리에 저장된 명령을 실행하여, 제1항 내지 제8항 중 어느 한 항에 따른 컨볼루션 신경망(CNN) 모델의 트레이닝 방법을 실행하도록 구성되는,
서버.