KR20210090691A - 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체 - Google Patents

데이터 처리 방법 및 장치, 전자 기기 및 기억 매체 Download PDF

Info

Publication number
KR20210090691A
KR20210090691A KR1020217018179A KR20217018179A KR20210090691A KR 20210090691 A KR20210090691 A KR 20210090691A KR 1020217018179 A KR1020217018179 A KR 1020217018179A KR 20217018179 A KR20217018179 A KR 20217018179A KR 20210090691 A KR20210090691 A KR 20210090691A
Authority
KR
South Korea
Prior art keywords
parameter
feature data
normalization
data
range
Prior art date
Application number
KR1020217018179A
Other languages
English (en)
Inventor
핑 루오
링윤 위
장린 펑
루이마오 장
지아민 렌
웬치 샤오
Original Assignee
선전 센스타임 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 선전 센스타임 테크놀로지 컴퍼니 리미티드 filed Critical 선전 센스타임 테크놀로지 컴퍼니 리미티드
Publication of KR20210090691A publication Critical patent/KR20210090691A/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Computational Linguistics (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Artificial Intelligence (AREA)
  • Neurology (AREA)
  • Image Analysis (AREA)

Abstract

본 발명은 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체에 관한 것으로, 상기 방법은 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하는 것(S100)과, 뉴럴 네트워크 모델의 변환 파라미터에 따라 특징 데이터에 적합한 정규화 방식을 결정하는 것(S200)과, 결정된 정규화 방식에 따라 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것(S300)을 포함하고, 변환 파라미터는 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 통계 범위는 정규화 방식을 나타내기 위한 것으로, 본 발명의 실시예는 인적 개입을 수반하지 않고 뉴럴 네트워크 모델의 정규화층마다 적합한 정규화 방식을 자율적으로 학습할 수 있다는 목적을 달성할 수 있다.

Description

데이터 처리 방법 및 장치, 전자 기기 및 기억 매체
본원은 2019년 2월 25일에 중국 특허국에 제출된, 출원번호 201910139050.0, 출원의 명칭 「데이터 처리 방법 및 장치, 전자 기기 및 기억 매체」의 중국 특허출원의 우선권을 주장하고, 그 발명의 전부가 참조에 의해 본원에 포함된다.
본 발명은 컴퓨터 비전 기술 분야에 관한 것으로, 특히 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체에 관한 것이다.
자연 언어 처리, 음성 인식, 컴퓨터 비전 등의 도전적인 태스크에서 다양한 정규화 기술은 심층 학습에 불가결한 모듈이 되어 있다. 정규화 기술이란, 뉴럴 네트워크를 보다 용이하게 수속(收束) 가능하도록 뉴럴 네트워크에서의 입력 데이터를 정규화 처리하고, 데이터를 평균값 0, 표준 편차 1의 분포 또는 범위 0∼1의 분포로 하는 것을 말한다.
본 발명은 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체를 제공한다.
본 발명의 일 양태에 의하면,
입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하는 것과,
상기 뉴럴 네트워크 모델의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하는 것과,
결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함하고,
상기 변환 파라미터는 상기 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 상기 통계 범위는 정규화 방식을 나타내기 위한 것인 데이터 처리 방법이 제공된다.
가능한 일 실시형태에서,
상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하는 것과,
복수의 상기 서브 행렬의 내적을 계산하고, 상기 변환 파라미터를 얻는 것을 추가로 포함한다.
가능한 일 실시형태에서, 상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하는 것은,
상기 게이팅 파라미터를 부호 함수로 처리하여 2치화 벡터를 얻는 것과,
치환 행렬을 사용하여 상기 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성하는 것과,
상기 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여 복수의 상기 서브 행렬을 얻는 것을 포함한다.
가능한 일 실시형태에서, 상기 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하고,
상기 제1 변환 파라미터의 차원 및 상기 제3 변환 파라미터의 차원은 상기 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 상기 제2 변환 파라미터의 차원 및 상기 제4 변환 파라미터의 차원은 상기 특징 데이터의 채널 차원에 기초하는 것이며,
상기 배치 사이즈 차원은 상기 특징 데이터를 포함하는 데이터 배치의 데이터 수이고, 상기 채널 차원은 상기 특징 데이터의 채널 수이다.
가능한 일 실시형태에서, 상기 뉴럴 네트워크에서의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하는 것은,
평균값 및 표준 편차를 포함하는, 상기 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정하는 것과,
상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 따라 상기 평균값의 통계 범위를 제1 범위에서 제2 범위로 조정하는 것과,
상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 따라 상기 표준 편차의 통계 범위를 상기 제1 범위에서 제3 범위로 조정하는 것과,
상기 제2 범위 및 상기 제3 범위에 기초하여 상기 정규화 방식을 결정하는 것을 포함한다.
가능한 일 실시형태에서, 상기 제1 범위는 상기 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위이다.
가능한 일 실시형태에서, 결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것은,
상기 제1 범위에 따라 상기 특징 데이터의 통계량을 취득하는 것과,
상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함한다.
가능한 일 실시형태에서, 상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것은,
상기 평균값, 상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 기초하여 제1 정규화 파라미터를 얻는 것과,
상기 표준 편차, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻는 것과,
상기 특징 데이터, 상기 제1 정규화 파라미터 및 상기 제2 정규화 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함한다.
가능한 일 실시형태에서, 상기 변환 파라미터는 각 요소의 값이 0 또는 1인 2치화 행렬을 포함한다.
가능한 일 실시형태에서, 상기 게이팅 파라미터는 연속값 벡터이고,
상기 게이팅 파라미터 값의 수는 상기 서브 행렬의 수와 동일하다.
가능한 일 실시형태에서, 상기 제1 기초 행렬은 요소가 전부 1의 행렬이고, 제2 기초 행렬은 단위 행렬이다.
가능한 일 실시형태에서, 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에
샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻는 것을 추가로 포함하고,
상기 샘플 데이터 세트 내의 각 입력 데이터는 라벨링 정보를 갖는다.
가능한 일 실시형태에서, 상기 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함하고,
샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하는 것은,
상기 네트워크층에 의해 상기 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 각 예측 특징 데이터를 얻는 것과,
상기 정규화층에 의해, 각 상기 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻는 것과,
각 상기 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻는 것과,
상기 네트워크 손실에 기초하여 상기 정규화층의 상기 변환 파라미터를 조정하는 것을 포함한다.
본 발명의 일 양태에 의하면,
입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 위한 데이터 입력 모듈과,
상기 뉴럴 네트워크 모델의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하기 위한 방식 결정 모듈과,
결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 모듈을 포함하고,
상기 변환 파라미터는 상기 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 상기 통계 범위는 정규화 방식을 나타내기 위한 것인 데이터 처리 장치가 추가로 제공된다.
가능한 일 실시형태에서,
상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하기 위한 서브 행렬 취득 모듈과,
복수의 상기 서브 행렬의 내적을 계산하고, 상기 변환 파라미터를 얻기 위한 변환 파라미터 취득 모듈을 추가로 포함한다.
가능한 일 실시형태에서, 상기 서브 행렬 취득 모듈은,
상기 게이팅 파라미터를 부호 함수로 처리하여 2치화 벡터를 얻기 위한 파라미터 처리 서브 모듈과,
치환 행렬을 사용하여 상기 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성하기 위한 요소 치환 서브 모듈과,
상기 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여 복수의 상기 서브 행렬을 얻기 위한 서브 행렬 취득 서브 모듈을 포함한다.
가능한 일 실시형태에서, 상기 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하고,
상기 제1 변환 파라미터의 차원 및 상기 제3 변환 파라미터의 차원은 상기 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 상기 제2 변환 파라미터의 차원 및 상기 제4 변환 파라미터의 차원은 상기 특징 데이터의 채널 차원에 기초하는 것이며,
상기 배치 사이즈 차원은 상기 특징 데이터를 포함하는 데이터 배치의 데이터 수이고, 상기 채널 차원은 상기 특징 데이터의 채널 수이다.
가능한 일 실시형태에서, 상기 방식 결정 모듈은,
평균값 및 표준 편차를 포함하는, 상기 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정하기 위한 제1 결정 서브 모듈과,
상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 따라 상기 평균값의 통계 범위를 상기 제1 범위에서 제2 범위로 조정하기 위한 제1 조정 서브 모듈과,
상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 따라 상기 표준 편차의 통계 범위를 상기 제1 범위에서 제3 범위로 조정하기 위한 제2 조정 서브 모듈과,
상기 제2 범위 및 상기 제3 범위에 기초하여 상기 정규화 방식을 결정하기 위한 방식 결정 서브 모듈을 포함한다.
가능한 일 실시형태에서, 상기 제1 범위는 상기 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위이다.
가능한 일 실시형태에서, 상기 정규화 처리 모듈은,
상기 제1 범위에 따라 상기 특징 데이터의 통계량을 취득하기 위한 통계량 취득 서브 모듈과, 상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 서브 모듈을 포함한다.
가능한 일 실시형태에서, 상기 정규화 처리 서브 모듈은,
상기 평균값, 상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 기초하여 제1 정규화 파라미터를 얻기 위한 제1 파라미터 취득 유닛과,
상기 표준 편차, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻기 위한 제2 파라미터 취득 유닛과,
상기 특징 데이터, 상기 제1 정규화 파라미터 및 상기 제2 정규화 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻기 위한 데이터 처리 유닛을 포함한다.
가능한 일 실시형태에서, 상기 변환 파라미터는 각 요소의 값이 0 또는 1인 2치화 행렬을 포함한다.
가능한 일 실시형태에서, 상기 게이팅 파라미터는 연속값 벡터이고,
상기 게이팅 파라미터 값의 수는 상기 서브 행렬의 수와 동일하다.
가능한 일 실시형태에서, 상기 제1 기초 행렬은 요소가 전부 1의 행렬이고, 제2 기초 행렬은 단위 행렬이다.
가능한 일 실시형태에서,
상기 데이터 입력 모듈이 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에 샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻기 위한 모델 훈련 모듈을 추가로 포함하고,
상기 샘플 데이터 세트 내의 입력 데이터는 라벨링 정보를 갖는다.
가능한 일 실시형태에서, 상기 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함하고,
상기 모델 훈련 모듈은,
상기 네트워크층에 의해 상기 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 각 예측 특징 데이터를 얻기 위한 특징 추출 서브 모듈과,
상기 정규화층에 의해, 각 상기 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻기 위한 예측 특징 데이터 취득 서브 모듈과,
각 상기 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻기 위한 네트워크 손실 취득 서브 모듈과,
상기 네트워크 손실에 기초하여 상기 정규화층의 상기 변환 파라미터를 조정하기 위한 변환 파라미터 조정 서브 모듈을 포함한다.
본 발명의 일 양태에 의하면,
프로세서와,
프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
상기 프로세서는 상기 중 어느 것에 기재된 방법을 실행하도록 구성되는 전자 기기가 추가로 제공된다.
본 발명의 일 양태에 의하면, 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면 상기 중 어느 것에 기재된 방법을 실현시키는 컴퓨터 판독 가능 기억 매체가 추가로 제공된다.
본 발명의 실시예에서, 특징 데이터를 취득한 후, 뉴럴 네트워크 모델의 변환 파라미터에 따라 특징 데이터에 적합한 정규화 방식을 결정하고, 추가로 결정된 정규화 방식에 따라 특징 데이터를 정규화 처리함으로써 인적 개입을 수반하지 않고 뉴럴 네트워크 모델의 정규화층마다 적합한 정규화 방식을 자율적으로 학습할 수 있다는 목적을 달성하고, 이에 의해 특징 데이터를 정규화 처리할 때, 보다 유연성을 갖게 하고, 그 결과, 데이터 정규화 처리의 적성을 효과적으로 향상시킨다.
이상의 일반적인 설명 및 이하의 상세한 설명은 해석하기 위한 예시적인 것에 불과하고, 본 발명을 제한하는 것이 아니라는 것을 이해해야 한다.
이하, 도면을 참조하면서 예시적인 실시예에 대해 상세히 설명함으로써, 본 발명의 다른 특징 및 양태는 명료해진다.
여기의 도면은 명세서에 포함되어 본 명세서의 일부를 구성하고, 이들 도면은 본 발명에 합치되는 실시예를 나타내고, 명세서와 함께 본 발명의 기술 방안을 설명하기 위해 사용된다.
도 1은 도 1a∼도 1c는 본 발명의 실시예에 따른 데이터 처리 방법에 있어서 통계량의 통계 범위에 의해 정규화 방식을 나타내는 모식도를 나타낸다.
도 2는 본 발명의 실시예에 따른 데이터 처리 방법의 흐름도를 나타낸다.
도 3a∼도 3d는 본 발명의 실시예에 따른 데이터 처리 방법에서의 변환 파라미터의 상이한 표명 방식의 모식도를 나타낸다.
도 4는 본 발명의 실시예에 따른 데이터 처리 장치의 블록도를 나타낸다.
도 5는 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
도 6은 본 발명의 실시예에 따른 전자 기기의 블록도를 나타낸다.
이하에 도면을 참조하면서 본 발명의 다양한 예시적 실시예, 특징 및 양태를 상세하게 설명한다. 도면에서의 동일한 부호는 동일 또는 유사한 기능의 소자를 나타낸다. 도면에 있어서 실시예의 다양한 양태를 나타냈지만, 특별히 언급하지 않는 한, 비례에 따라서 도면을 그릴 필요가 없다.
여기서 「예시적」이라는 전용의 표현은 「예, 실시 또는 예시로서 사용되는」것을 의미한다. 여기서 「예시적」으로 설명되는 어떠한 실시예는 다른 실시예보다 바람직하거나 또는 유리한 것으로 해석될 필요가 없다.
본 명세서의 용어 「및/또는」은 관련 대상의 관련 관계를 기술하는 것에 불과하고, 3개의 관계가 존재 가능함을 나타내며, 예를 들면, A 및/또는 B는 A가 단독으로 존재하고, A와 B가 동시에 존재하고, B가 단독으로 존재하는 3개의 경우를 나타내도 된다. 또한, 본 명세서의 용어 「하나 이상」은 복수 중 어느 하나, 또는 복수 중 적어도 2개의 임의의 조합을 나타내고, 예를 들면 A, B, C 중 하나 이상을 포함하는 것은 A, B 및 C로 구성되는 집합에서 선택되는 어느 하나 또는 복수의 요소를 포함하는 것을 나타내도 된다.
또한, 본 발명을 보다 효과적으로 설명하기 위해, 이하의 구체적인 실시형태에서 다양한 구체적인 상세를 나타낸다. 당업자라면 어떠한 구체적인 상세가 없음에도 불구하고, 본 발명은 동일하게 실시할 수 있는 것으로 이해해야 한다. 일부 실시예에서, 본 발명의 취지를 강조하도록 당업자에게 숙지된 방법, 수단, 소자 및 회로에 대해 상세한 설명을 생략한다.
먼저 설명해야 할 것은 본 발명의 데이터 처리 방법은 뉴럴 네트워크 모델의 특징 데이터(예를 들면, 특징 맵)를 정규화 처리하는 기술 방안인 점이다. 여기서 뉴럴 네트워크 모델의 정규화층에서 특징 데이터를 정규화 처리할 때, 상이한 정규화 방식은 통계량(평균값 및 분산일 수 있음)이 상이한 통계 범위에 따라 특징지어도 된다.
예를 들면, 도 1a 내지 도 1c는 통계량이 상이한 통계 범위가 상이한 정규화 방식을 나타내는 모식도를 나타낸다. 도 1a 내지 도 1c를 참조하면, 특징 데이터가 뉴럴 네트워크 모델 중 하나의 4차원 은닉층 특징 맵인 경우, F∈RN×C×H×W이다. 여기서 F는 특징 데이터이고, R은 특징 데이터의 차원이다. N은 상기 데이터 배치 내의 샘플량을 나타내고, C는 특징 데이터의 채널 수를 나타내며, H 및 W는 각각 특징 데이터 중 하나의 채널의 높이 및 폭을 나타낸다.
상기 특징 데이터를 정규화 처리할 때, 먼저 상기 특징 데이터(F) 상에서 통계량 평균값(μ) 및 분산(σ2)을 계산하여 정규화 조작을 행하고 나서 동일한 차원의 특징 데이터(F^)룰 출력할 필요가 있고, 관련 기술에서는 아래 식 (1)로 나타내도 된다.
Figure pct00001
여기서, ∈는 분모가 0이 되는 것을 방지하기 위한 하나의 작은 정수이고, Fncij∈F는 제n 특징 데이터의 제c 채널 위치가 (i, j)에 있는 화소점이다.
도 1a를 참조하면, 통계량의 통계 범위가 Ω={(n, i, j)|n∈[1, N], i∈ [1, H], j∈[1×W]}인 경우, 즉 특징 데이터의 N개의 샘플 특징 데이터의 동일 채널 상에서 평균값 및 분산을 계산하는 경우, 이 때의 정규화 방식은 배치 정규화(BN)로 특징지어진다.
도 1b를 참조하면, 통계량의 통계 범위가 Ω={(i, j)|i∈[1, H], j∈[1×W]}인 경우, 즉 각 샘플 특징 데이터의 각 채널 상에서 평균값 및 분산을 계산하는 경우, 정규화 방식은 인스턴스 정규화(IN)로 특징지어진다.
도 1c를 참조하면, 통계량의 통계 범위가 Ω={(c, i, j)|c∈[1, C], i∈[1, H], j∈[1×W]}인 경우, 즉 각 샘플 특징 데이터의 모든 채널 상에서 평균값 및 분산을 계산하는 경우, 정규화 방식은 층 정규화(LN)로 특징지어진다.
또한, 통계량의 통계 범위가 각 샘플 특징 데이터에서 c*채널마다 1그룹으로 평균값 및 분산을 계산하는 경우, 정규화 방식은 그룹 정규화(GN)로 특징지어진다. 여기서, 그룹 정규화 방식은 IN 및 LN의 공통 형식이며, 즉, c*∈[1 C]이고 C는 c*로 나누어 떨어진다.
도 2는 본 발명의 실시예에 따른 데이터 처리 방법의 흐름도를 나타낸다. 도 2를 참조하면, 본 발명의 데이터 처리 방법은 이하를 포함해도 된다.
단계(S100), 입력 데이터를 뉴럴 네트워크 모델에 입력하여 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득한다. 여기서 지적해두고자 하는 것은 뉴럴 네트워크 모델은 합성곱 뉴럴 네트워크(CNN), 리커런트 뉴럴 네트워크(RNN) 또는 장기 단기 기억 네트워크(LSTM) 또는 이미지 분류(ImageNet), 목표 검출과 분할(COCO), 영상 인식(Kinetics), 이미지 스타일화 및 필적 생성 등의 다양한 비전 태스크를 실현하는 뉴럴 네트워크여도 된다는 것이다.
동시에 당업자라면 입력 데이터는 하나 이상의 샘플 데이터를 포함할 수 있음을 이해해야 한다. 예를 들면, 입력 데이터는 복수의 이미지를 포함해도 되고, 하나의 이미지를 포함해도 된다. 입력 데이터를 뉴럴 네트워크 모델에 입력할 때, 뉴럴 네트워크 모델에 의해 입력 데이터 내의 각 샘플 데이터에 대해 대응하는 처리를 행한다. 또한, 뉴럴 네트워크 모델의 네트워크층은 합성곱층이어도 되고, 합성곱층에 의해 입력 데이터에 대해 특징 추출을 행하고, 대응하는 특징 데이터를 취득한다. 여기서, 입력 데이터가 복수의 샘플 데이터를 포함하는 경우, 대응하는 특징 데이터는 대응하여 복수의 샘플 특징 데이터를 포함한다.
뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득한 후, 뉴럴 네트워크 모델의 변환 파라미터에 따라 특징 데이터에 적합한 정규화 방식을 결정하는 단계(S200)를 실행할 수 있다. 여기서, 변환 파라미터는 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이며, 통계량의 통계 범위는 정규화 방식을 나타내기 위한 것이다. 또한, 설명할 것은 변환 파라미터는 뉴럴 네트워크 모델에서의 학습 가능한 파라미터인 점이다. 즉, 뉴럴 네트워크 모델의 훈련 과정에서 상이한 입력 데이터에 기초하여 상이한 값의 변환 파라미터를 학습 및 훈련하여 얻을 수 있다. 이렇게 하여, 변환 파라미터에서 상이한 값을 학습함으로써, 통계량의 통계 범위에 대한 상이한 조정을 실현하고, 이에 의해 상이한 입력 데이터에 대해 상이한 정규화 방식을 채용한다는 목적을 달성한다.
적합한 정규화 방식을 결정한 후, 결정된 정규화 방식에 따라 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻는 단계(S300)를 실행할 수 있다.
이렇게 하여, 본 발명의 데이터 처리 방법은 특징 데이터를 취득한 후, 뉴럴 네트워크 모델의 변환 파라미터에 따라 특징 데이터에 적합한 정규화 방식을 결정하고, 또한 결정된 정규화 방식에 따라 특징 데이터를 정규화 처리함으로써 인적 개입을 수반하지 않고 뉴럴 네트워크 모델의 정규화층마다 적합한 정규화 방식을 학습할 수 있다는 목적을 달성하고, 이에 의해 특징 데이터를 정규화 처리할 때, 보다 유연성을 갖게 하고, 그 결과, 데이터 정규화 처리의 적성을 효과적으로 향상시킨다.
가능한 일 실시형태에서, 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함해도 된다. 그 중, 제1 변환 파라미터 및 제2 변환 파라미터는 통계량 중 평균값의 통계 범위를 조정하기 위한 것이고, 제3 변환 파라미터 및 제4 변환 파라미터는 통계량 중 표준 편차의 통계 범위를 조정하기 위한 것이다. 또한, 제1 변환 파라미터의 차원 및 제3 변환 파라미터의 차원은 전부 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 제2 변환 파라미터의 차원 및 제4 변환 파라미터의 차원은 전부 특징 데이터의 채널 차원에 기초하는 것이다. 여기서, 당업자라면 배치 사이즈 차원은 특징 데이터를 포함하는 데이터 배치의 데이터 수(N)(즉, 특징 데이터의 샘플 특징 데이터의 수량)이고, 채널 차원은 상기 특징 데이터의 채널 수(C)인 것을 이해할 수 있다.
이에 따라, 변환 파라미터가 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하는 경우, 가능한 일 실시형태에서, 뉴럴 네트워크에서의 변환 파라미터에 따라 특징 데이터에 적합한 정규화 방식을 결정하는 것은 이하의 단계에 의해 실현해도 된다.
먼저, 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정한다. 여기서 설명할 것은 가능한 일 실시형태에서, 제1 범위는 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위(즉, 상술한 인스턴스 정규화(IN)에서의 통계량의 통계 범위)여도 되고, 다른 정규화 방식에서의 통계량의 통계 범위여도 되는 점이다.
이어서, 제1 변환 파라미터 및 제2 변환 파라미터에 따라, 평균값의 통계 범위를 제1 범위에서 제2 범위로 조정한다. 여기서 지적해두고자 하는 것은 제2 범위는 제1 변환 파라미터 및 제2 변환 파라미터의 값에 의해 결정되는 점이다. 상이한 값은 상이한 통계 범위를 특징짓는다. 그리고, 제3 변환 파라미터 및 제4 변환 파라미터에 따라 표준 편차의 통계 범위를 제1 범위에서 제3 범위로 조정한다. 동일하게, 제3 범위는 제3 변환 파라미터 및 제4 변환 파라미터의 값에 의해 결정되고, 상이한 값은 상이한 통계 범위를 특징짓는다.
또한, 제2 범위 및 제3 범위에 기초하여, 정규화 방식을 결정한다.
예를 들면, 이상의 설명에서 본 발명의 데이터 처리 방법에서의 정규화 처리 방식은 이하와 같이 정의해도 된다.
Figure pct00002
여기서, F는 정규화 전의 특징 데이터를 나타내고, F^는 정규화 후의 특징 데이터를 나타내고, U는 제1 변환 파라미터이고, V는 제2 변환 파라미터이다. U'는 제3 변환 파라미터이고, V'는 제4 변환 파라미터이다.
가능한 일 실시형태에서, 통계량(평균값(μ) 및 표준 편차(σ))의 통계 범위는 인스턴스 정규화(IN)에서의 통계 범위를 채용해도 되고, 즉 특징 데이터의 각 샘플 특징 데이터의 각 채널 상에서 통계량을 개별적으로 계산해도 되고, 차원은 전부 N×C로 한다. 설명할 것은 이상의 설명에서 통계량의 통계 범위는 상술한 다른 정규화 방식에서의 통계 범위를 채용해도 되는 점이다. 여기서는 구체적으로 한정하지 않는다.
이렇게 하여, 제1 변환 파라미터와, 제2 변환 파라미터와, 평균값의 승적 연산에 의해 통계량 중 평균값의 통계 범위에 대한 조정을 실현하고, 제3 변환 파라미터와, 제4 변환 파라미터와, 표준 편차의 승적 연산에 의해 표준 편차의 통계 범위에 대한 조정을 실현하고 이에 의해 정규화 방식의 적응을 달성하여, 조정 방식이 간단하고, 실현하기 쉽다.
가능한 일 실시형태에서, 제1 변환 파라미터(U), 제2 변환 파라미터(V), 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')는 2치화 행렬이어도 된다. 여기서 2치화 행렬의 각 요소의 값은 전부 0 또는 1이다. 즉, V', V∈{0, 1}C×C 및 U', U∈{0,1}N×N은 각각 4개의 학습 가능한 2치화 행렬이고, 그 각 요소는 0 또는 1 중 어느 것이고, 이렇게 하여 UμV 및 U'σV'는 본 발명의 데이터 처리 방법에서의 정규화 파라미터가 되고, 행렬 연산이 용이하게 행해지도록 <·> 조작을 사용하여 그것을 H×W차원에서 카피하여 F와 동일한 사이즈로 한다.
상술한 제 1 변환 파라미터의 차원, 제2 변환 파라미터의 차원, 제3 변환 파라미터의 차원 및 제4 변환 파라미터의 차원에서 알 수 있는 바와 같이, U, U'는 배치 사이즈 N차원에서 학습되는 통계 방식을 나타내고, V, V'는 채널 C차원에서 학습되는 통계 방식을 나타내고, U=U', V=V'는 평균값(μ) 및 표준 편차(σ)에 대해 각각 동일한 통계 방식을 학습하는 것을 나타내고, U≠U', V≠V'는 평균값(μ) 및 표준 편차(σ)에 대해 각각 상이한 통계 방식을 학습하는 것을 나타낸다. 이렇게 하여, 상이한 U, U', V, V'는 상이한 정규화 방법을 나타내게 된다.
예를 들면, 도 3a 내지 도 3c를 참조하면, U=U', V=V', μ=μIN, σ=σIN인 경우, U도 V도 도 3a에 나타내는 바와 같이 단위 행렬(I)일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 각 N차원 및 각 C차원에서 통계량을 개별로 계산하는 IN을 나타내고, 이 때,
Figure pct00003
이다. U는 요소가 전부 1의 행렬 1이고, V는 단위 행렬 I일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 각 C차원의 통계량을 N차원에서 평균하는 BN을 나타내고, 이 때,
Figure pct00004
이다. U는 단위 행렬(I)이고, V는 요소가 전부 1의 행렬(1)일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 각 N차원의 통계량을 C차원에서 평균하는 LN을 나타내고, 이 때,
Figure pct00005
이다. U는 단위 행렬()이고, V는 도 3b 또는 도 3c와 유사한 블록 대각 행렬일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 N차원에서 통계량을 개별로 계산하지만, C차원에서 통계량을 그룹별로 계산하는 GN을 나타낸다. 예를 들면, V는 도 3b에 나타내는 블록 대각 행렬일 때, 그룹수는 4로 하고, V는 도 3c에 나타내는 블록 대각 행렬일 때, 그룹 수는 2로 한다. GN에서는 그룹 수가 일정한 것과는 상이하게, 본 발명의 데이터 처리 방법에서, 정규화 방식에서의 그룹 수를 임의로 학습 가능하다.
U는 요소가 전부 1의 행렬(1)이고, V는 요소가 전부 1의 행렬(1)일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 N 및 C차원에서 통계량을 동시에 평균하는 「BLN」을 나타내고, 즉 평균값도 분산도 (N, H, W, C)에 일의적인 값
Figure pct00006
만이 있고, 이 때,
Figure pct00007
이다. U도 V도 임의의 블록 대각 행렬일 때, 본 발명의 데이터 처리 방법에서, 정규화 방식은 C차원에서 통계량을 그룹별로 계산함과 함께, N차원도 그룹별로 통계량을 계산하는 것을 나타낸다. 즉, 본 발명의 데이터 처리 방법에서, 정규화 방식은 1배치 내의 샘플량에 대해 적절한 배치 사이즈를 학습하여 통계량을 평가할 수 있다.
지적해두고자 하는 것은 상기 실시예에서, U=U', V=V'이기 때문에, 제1 변환 파라미터(U) 및 제2 변환 파라미터(V)에 기초하여 평균값의 통계 범위를 조정하여 결정된 제2 범위와, 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')에 기초하여 표준 편차의 통계 범위를 조정하여 결정된 제3 범위는 동일하다는 점이다. 당업자라면 U≠U', V≠V'인 경우, 얻어진 제2 범위와 제3 범위는 상이하고, 그 결과, 정규화 방식을 보다 다양하게 확장 가능한 것을 이해할 수 있다. 추가로, U≠U', V=V' 및 U=U', V≠V' 등의 복수의 경우를 포함해도 되고, 여기서는 일일이 열거하지 않는다.
이상에서 알 수 있는 바와 같이, 본 발명의 데이터 처리 방법에서의 특징 데이터의 정규화 처리 방식은 관련 기술에서 통계 범위의 정규화 기술을 인위적으로 설계하는 것과 상이하고, 본 발명의 데이터 처리 방법은 현재 데이터에 적합한 정규화 방식을 자율적으로 학습할 수 있다.
즉, 본 발명의 데이터 처리 방법에서, 상이한 행렬로 변환 파라미터의 상이한 값을 특징짓고(즉, 변환 파라미터를 상이한 행렬로 나타내고), 이에 의해 특징 데이터의 통계량을 초기 범위(즉, 제1 범위, 예를 들면, IN에서의 통계 범위)에서 상이한 통계 범위로 이행하고, 이에 의해 데이터에 의존하는 근원적인 정규화 조작을 자율적으로 학습하여 얻게 되고, 그 결과, 본 발명의 데이터 처리 방법은 관련 기술에서의 모든 정규화 기술을 표현할 수 있을 뿐만 아니라, 보다 광범위한 정규화 방법을 확장시킬 수 있게 되어, 종래의 정규화 기술에 비해 표현 능력이 보다 풍부해진다.
상기에서 정의된 식 (2)에 의하면, 가능한 일 실시형태에서, 결정된 정규화 방식에 따라 특징 데이터를 정규화 처리하고,정규화 후의 특징 데이터를 얻는 경우에는 이하를 포함해도 된다.
먼저 제1 범위에 따라 특징 데이터의 통계량을 취득한다. 즉, 제1 범위가 인스턴스 정규화 방식에서 정의된 통계 범위인 경우, 인스턴스 정규화에서의 통계 범위에 따라 아래 식 (3)에 의해 특징 데이터의 평균값을 산출하고 나서 산출된 평균값에 의해 아래 식 (4)에 따라 특징 데이터의 표준 편차를 산출하고, 이에 의해 통계량을 얻는다.
Figure pct00008
통계량,제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터에 기초하여 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻는다.
그 중,가능한 일 실시형태에서, 통계량, 제1 변환 파라미터 및 제2 변환 파라미터에 기초하여, 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻는 경우에는 이하의 단계에 의해 실현해도 된다.
우선, 평균값, 제1 변환 파라미터 및 제2 변환 파라미터에 기초하여, 제1 정규화 파라미터를 얻는다. 즉, 평균값(μ)과, 제1 변환 파라미터(U)와, 제2 변환 파라미터(V)의 승적 연산(즉, 스칼라곱 연산<UμV>)을 행하고, 제1 정규화 파라미터(<UμV>)를 얻는다. 동시에, 표준 편차, 제3 변환 파라미터 및 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻는다. 즉, 표준 편차(σ)와, 제3 변환 파라미터(U')와, 제4 변환 파라미터(V')의 승적 연산(스칼라곱 연산<U'σV'>)을 행하고, 제2 정규화 파라미터(<U'σV'>)을 얻는다.
마지막으로, 특징 데이터, 제1 정규화 파라미터 및 제2 정규화 파라미터에 기초하여 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻는다. 즉, 식 (2)에 따라 연산 처리를 행하고, 정규화 후의 특징 데이터를 얻는다.
또한, 지적해두고자 하는 것은 본 발명의 데이터 처리 방법에서, 식 (2)에 의해 특징 데이터를 정규화 처리할 때, 식 (2)에 나타내는 정규화 방식을 뉴럴 네트워크 모델의 각 합성곱층에 응용한후, 뉴럴 네트워크 모델의 각 층의 특징 데이터에 대해 각각 독립된 정규화 조작 방식을 자율적으로 학습하여 얻을 수 있다. 여기서, 식 (2)에 의해 특징 데이터를 정규화 처리할 때, 각 층의 정규화 조작 방식에서는 전부 제1 변환 파라미터(U), 제2 변환 파라미터(V), 제3 변환 파라미터(U'), 제4 변환 파라미터(V')의 4개의 학습해야 하는 2치화 대각 블록 행렬이 있다. 본 발명의 데이터 처리 방법에서의 계산량 및 파라미터량을 추가로 저감시키고, 파라미터의 최적화 과정을 미분 가능한 엔드 투 엔드 방식으로 변환하기 위해 복수의 서브 행렬의 내적을 계산하여 2치화 대각 블록 행렬의 각각을 구축해도 된다.
즉, 가능한 일 실시형태에서는 변환 파라미터는 복수의 서브 행렬로 합성해도 된다. 복수의 서브 행렬은 뉴럴 네트워크 모델에서 학습 가능한 게이팅 파라미터를 설정함으로써 실현해도 된다. 즉, 본 발명의 데이터 처리 방법에서는 추가로, 뉴럴 네트워크 모델로 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하는 것을 포함해도 된다. 또한, 복수의 서브 행렬의 내적을 계산하여 변환 파라미터를 얻는다.
여기서 설명해야 할 것은 내적의 계산은 kronecker곱의 계산이어도 되는 점이다. kronecker곱의 계산을 채용하여 행렬 분해 방법을 설계함으로써 N×N차원의 행렬(U, U') 및 C×C차원의 행렬(V, V')을 네트워크 최적화 과정에서 허용 가능한, 계산량이 적은 파라미터로 분해한다.
예를 들면, 제2 변환 파라미터(V)를 예로 들어, kronecker곱의 계산을 구체적으로 설명한다. 여기서, 제2 변환 파라미터(V)는 일련의 서브 행렬(Vi)로 표현하고, 아래 식 (5)로 나타내도록 해도 된다.
Figure pct00009
여기서, 각 서브 행렬(Vi)의 차원은 Ci×Ci이고, Ci<C이고 C1×C2×…×Ci=C이고
Figure pct00010
는 kronecker곱의 계산을 나타내고, 2개의 임의의 크기의 행렬간 연산이고, 이하과 같이 정의된다.
Figure pct00011
이렇게 하여, 상기 단계에 의해 복수의 서브 행렬(Vi)을 얻은 후, 식 (5)에 따라 대응하는 제2 변환 파라미터를 연산하여 얻을 수 있다.
복수의 서브 행렬(Vi)의 내적을 계산하여 제2 변환 파라미터를 얻음으로써, 제2 변환 파라미터(V)는 연속값을 갖는 일련의 서브 행렬(Vi)로 분해 가능하고, 이들 서브 행렬(Vi)은 2값 제약을 신경쓰지 않고, 일반적인 옵티마이저에 의해 학습할 수 있다. 즉, C×C차원의 대행렬(V)의 학습이 일련의 서브 행렬(Vi)의 학습으로 바뀌고, 파라미터량도 그에 따라 C2에서 ΣiCi 2로 저감된다. 예를 들면, V가 도 3b에 나타내는 8×8 행렬인 경우, V는 3개의 2×2의 서브 행렬(Vi)로 분해하여 kronecker 곱의 계산을 행할 수 있다. 즉, 이하와 같다.
Figure pct00012
이 때, 파라미터량은 82=64에서 3×22=12로 저감된다.
이렇게 하여, 복수의 서브 행렬을 사용하여 대행렬 형식의 변환 파라미터를 합성함으로써, C*C차원의 대행렬 형식의 제2 변환 파라미터(V)와 같은 변환 파라미터의 학습이 일련의 서브 행렬의 학습으로 바뀌고, 파라미터량도 그에 따라 C2에서 ΣiCi 2로 저감된다. 여기서, 당업자라면 제1 변환 파라미터(U), 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')도 동일하게 상기 방식으로 얻을 수 있음을 이해할 수 있고, 여기서는 설명을 생략한다.
이상에서 알 수 있는 바와 같이, 복수의 서브 행렬에서 제1 변환 파라미터 및 제2 변환 파라미터를 각각 합성함으로써 파라미터량이 효과적으로 저감되고, 본 발명의 데이터 처리 방법을 보다 실현하기 쉬워진다.
여기서 설명해야 할 것은 식 (5) 중, f(·)는 각 서브 행렬(Vi) 상에서의 요소 레벨의 변환을 나타내는 점이다. 이렇게 하여, 가능한 일 실시형태에서는 f(a)는 부호 함수로 해도 되고, 즉, 함수 f(a)=sing(a), 또한 a≥0, sing(a)=1; a<0, sing(a)=0인 경우, 2값 행렬(V)은 연속값을 갖는 일련의 서브 행렬로 분해 가능하고, 이들 서브 행렬은 2값 제약을 신경쓰지 않고, 일반적인 옵티마이저에 의해 학습할 수 있고, 이렇게 하여 C×C 차원의 대행렬(V)의 학습이 일련의 서브 행렬(Vi)의 학습으로 바뀐다. 그러나, 상기 방법을 채용하는 경우, sing 함수에 의해 행렬 내의 요소를 변환함으로써 구축된 변환 파라미터는 반드시 블록 대각 행렬의 구조인 것을 보증할 수 없고, 그 결과, 통계량의 통계 범위를 순조롭게 조정할 수 없는 경우가 있다.
그래서, 가능한 일 실시형태에서는 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 기초하여 대응하는 복수의 서브 행렬을 취득하는 경우에는 이하의 단계에 의해 실현해도 된다.
먼저 부호 함수(sign)를 사용하여 게이팅 파라미터를 처리하고, 2치화 벡터를 얻는다.
또한, 치환 행렬을 사용하여 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성한다.
마지막으로, 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여, 복수의 서브 행렬을 얻는다. 여기서 지적해두고자 하는 것은 제1 기초 행렬 및 제2 기초 행렬은 전부 정수 행렬인 점이다. 그 중, 제1 기초 행렬은 요소가 전부 1의 행렬이어도 되고, 예를 들면, 제1 기초 행렬은 2*2에서 요소가 전부 1의 행렬이어도 된다. 제2 기초 행렬은 단위 행렬이어도 되고, 예를 들면, 제2 기초 행렬은 2*2의 단위 행렬 또는 2*3의 단위 행렬이어도 된다.
예를 들면, 이상의 설명에서 변환 파라미터는 제1 변환 파라미터(U), 제2 변환 파라미터(V), 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')를 포함해도 된다. 단, 제1 변환 파라미터(U), 제2 변환 파라미터(V), 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')의 취득 방식은 동일하거나 또는 유사한 원리에 기초한 것이기 때문에, 설명의 편의상, 이하에 제2 변환 파라미터(V)를 예로 들고, 복수의 서브 행렬에서 변환 파라미터를 합성하는 과정을 보다 상세히 설명한다.
지적해두고자 하는 것은 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터를 g∼로 나타내도 되는 점이다. 가능한 일 실시형태에서는 게이팅 파라미터(g∼)는 연속값의 벡터여도 되고, 상기 벡터 내의 연속값의 수는 취득된 서브 행렬의 수와 동일하다.
Figure pct00013
식 (6) 및 식 (7)을 참조하면, f(·)는 2치화 게이팅 함수이고, 서브 행렬(Vi)을 재파라미터화하기 위해 사용된다. 식 (7) 중, 1은 2×2에서 요소가 전부 1의 행렬이고, I는 2×2의 단위 행렬이고, 임의의 gi 도 0 또는 1 중 어느 것인 2치화 게이팅이고, g는 복수의 gi를 포함하는 벡터이다.
상기 방식으로 변환 파라미터를 취득하는 과정에서 먼저 식 (7)을 참조하면서 게이팅 파라미터(g∼)를 sign에 의해 g를 생성한다. 여기서, sign(a)는 부호 함수이고, a≥0의 경우, sign(a)=1이고, a<0인 경우, sign(a)=0이다. 이렇게 하여, 부호 함수 sign(a)를 사용하여 게이팅 파라미터를 처리한 후, 얻어진 2치화 벡터(g)는 0 또는 1의 2개의 값만을 갖는 벡터가 된다.
그리고,계속해서 식 (7)을 참조하면서 치환 행렬 P를 사용하여 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성한다. 즉, P는 g 내의 요소를 치환하여 g내의 2치화 게이팅 벡터를 생성하는 일정한 치환 행렬을 나타낸다. 여기서 설명해야 할 것은 P는 2치화 게이팅 벡터(g) 내의 0, 1의 순서를, 0이 항상 1 앞에 있도록, 즉 단위 행렬(I)이 항상 요소가 전부 1의 행렬(1)의 앞에 있고, 표현되는 서브 행렬(Vi)을 블록 대각 행렬로 하도록 제어한다는 역할을 하는 점이다. 예를 들면, g=[1, 1, 0]의 경우, g=Pg=[0, 1, 1]이 되고, 이 때 I
Figure pct00014
1
Figure pct00015
1은 도 3c에 나타내는 블록 대각 행렬을 표현할 수 있다.
치환 행렬을 사용하여 2치화 벡터의 요소를 치환하여 대응하는 2치화 게이팅 벡터(g)를 생성한 후, 식 (6)에 의해 2치화 게이팅 벡터, 제1 기초 행렬(1) 및 제2 기초 행렬(I)에 기초하여 식 (6)에 기초하여 연산을 행하고, 대응하는 복수의 서브 행렬(Vi)을 얻을 수 있다. 복수의 서브 행렬(Vi)을 얻은 후, 식 (5)에 의해 복수의 서브 행렬(Vi)의 내적을 계산하고, 이에 의해 대응하는 제2 변환 파라미터(V)를 얻을 수 있다.
여기서, 추가로 지적해두고자 하는 것은 제1 기초 행렬 및 제2 기초 행렬의 차원은 상기 실시예에서 설정된 차원에 한정되지 않는다는 점이다. 즉, 제1 기초 행렬 및 제2 기초 행렬의 차원은 실제 상황에 따라 임의로 선택해도 된다. 예를 들면, 제1 기초 행렬은 2*2에서 요소가 전부 1의 행렬(1)이고, 제2 기초 행렬은 2*3의 단위 행렬이고(즉, A=[1, 1, 0; 0, 1, 1]), 여기서 A는 제2 기초 행렬을 특징짓는다. 이렇게 하여, A
Figure pct00016
1은 도 3d에 나타내는 겹치는 부분을 갖는 블록 대각 행렬을 표현할 수 있다.
이렇게 하여, 상이한 차원을 갖는 정수 행렬(즉, 제1 기초 행렬 및 제2 기초 행렬)을 사용함으로써, 상이한 서브 행렬이 생성 가능해지고, 그 결과, 본 발명의 데이터 처리 방법에서의 정규화 방식은 상이한 채널 수를 갖는 정규화층에 대응 가능해지고, 본 발명의 방법에서의 정규화 방식의 확장 가능성도 그에 따라 더욱 향상된다.
동시에 뉴럴 네트워크 모델에 학습 가능한 게이팅 파라미터(g)를 설정함으로써, 복수의 서브 행렬의 학습이 게이팅 파라미터(g)의 학습으로 바뀌고, 그 결과, 본 발명의 데이터 처리 방법에서는 특징 데이터를 정규화할 때, 정규화에서의 파라미터량이 ΣiCi 2에서 i개만큼의 파라미터로 저감되고(예를 들면, 뉴럴 네트워크 모델에서의 하나의 은닉층의 채널 수(C)는 1024이고, C*C 차원의 제2 변환 파라미터(V)에 관해서는 그 파라미터량은 10개의 파라미터로 저감 가능함), 정규화에서의 파라미터량도 이에 따라 더욱 저감되고, 본 발명의 데이터 처리 방법의 실현 및 적용이 보다 용이해진다.
본 발명의 데이터 처리 방법에서의, 특징 데이터를 정규화하는 구체적인 조작 방식을 보다 명확하게 설명하기 위해 이하에 일 실시예에 의해 본 발명의 데이터 처리 방법에서의 정규화의 구체적인 연산을 설명한다.
여기서, 지적해두고자 하는 것은 본 실시예에서, 제1 변환 파라미터(U)와 제3 변환 파라미터(U')는 동일하고, 제2 변환 파라미터(V)와 제4 변환 파라미터(V')는 동일하기 때문에, 제3 변환 파라미터(U') 및 제4 변환 파라미터(V')를 얻었을 때, 제1 변환 파라미터(U)가 대응하는 제1 게이팅 파라미터(g∼U) 및 제2 변환 파라미터(V)가 대응하는 제2 게이팅 파라미터(g∼V)를 직접 사용하여 실현할 수 있다는 것이다.
이렇게 하여, 뉴럴 네트워크 모델이 있는 정규화층에 제1 변환 파라미터(U)에 대응하는 제1 게이팅 파라미터(g∼U) 및 제2 변환 파라미터(V)에 대응하는 제2 게이팅 파라미터(g∼V)가 각각 설정되게 된다. 동시에, 상기 정규화층에는 축소 파라미터(γ) 및 변위 파라미터(β)도 설정되어 있다. 축소 파라미터(γ)도 변위 파라미터(β)도 정규화식(즉, 식 (2))에 사용된다.
상기 실시예에서는 입력(Input)은 특징 데이터 F∈RN×C×H×W, 학습 가능한 제1 게이팅 파라미터(g∼U∈Rlog 2 N×1) 및 제2 게이팅 파라미터(g∼V∈Rlog 2 C×1), 축소 파라미터(γ∈RC×1) 및 변위 파라미터(β∈RC×1)를 포함하고, 여기서, g∼U=0, g∼V=0, γ=1, β=0이다.
출력(Output)은 정규화 후의 특징 데이터(F^)이다.
정규화 프로세스에서의 연산은
Figure pct00017
를 포함하고,
제1 변환 파라미터(U) 및 제2 변환 파라미터(V)는 식 (5), 식 (6) 및 식 (7)에 의해 계산하여 얻어지고, 상기 실시예에서는 특징 데이터를 정규화시에 최종적으로 아래 식(8)을 사용한다.
Figure pct00018
여기서, 당업자라면 제1 변환 파라미터(U)와 제3 변환 파라미터(U')가 상이하고, 제2 변환 파라미터(V)와 제4 변환 파라미터(V')도 상이한 경우, 뉴럴 네트워크 모델에 설정된 게이팅 파라미터(g)는 제1 게이팅 파라미터(g∼U), 제2 게이팅 파라미터(g∼V), 제3 게이팅 파라미터(g∼U') 및 제4 게이팅 파라미터(g∼V')를 포함해야 하는 것을 이해할 수 있다.
이렇게 하여, 게이팅 파라미터(g)를 사용하여 뉴럴 네트워크 모델에서의 변환 파라미터를 취득함으로써, 변환 파라미터의 학습이 게이팅 파라미터(g)의 학습으로 바뀐다. 식 (6) 및 식 (7)에 의해 서브 행렬(Vi)을 일련의 요소가 전부 1의 행렬(1) 및 단위 행렬(I)로 표현함으로써 식 (5) 중의 서브 행렬(Vi)의 학습이 재파라미터화되어 연속값 벡터(g)의 학습으로 바뀌고, 동시에 대행렬 형식의 변환 파라미터, 예를 들면, 제2 변환 파라미터(V)의 파라미터량이 ΣiCi 2에서 i개만큼의 파라미터로 저감되고, 이에 의해 Kronecker(크로넥커곱) 연산을 사용하여 파라미터 분해 및 재파라미터화를 제공한다는 목적이 달성되고, 그 결과, 본 발명의 데이터 처리 방법에서의 N×N차원의 대행렬 형식의 제1 변환 파라미터(U) 및 C×C차원의 대행렬 형식의 제2 변환 파라미터(V)가 각각 log2C 및 log2N만의 파라미터량에 저감되고, 미분 가능한 엔드-투-엔드 훈련 방식으로, 본 발명의 데이터 처리 방법의 계산량이 적어지고, 파라미터량이 적어져, 그 실현 및 적용이 보다 용이해진다.
또한, 추가로 설명해야 할 것은 본 발명의 데이터 처리 방법에서는 뉴럴 네트워크 모델에 대한 훈련 과정을 포함해도 되는 점이다. 즉, 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에
샘플 데이터 세트에 기초하여 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻는 것을 추가로 포함해도 된다. 여기서, 샘플 데이터 세트 내의 각 입력 데이터는 라벨링 정보를 갖는다.
그 중, 가능한 일 실시형태에서는 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함한다. 샘플 데이터 세트에 기초하여 뉴럴 네트워크 모델을 훈련할 때, 먼저 네트워크층에 의해 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 대응하는 각 예측 특징 데이터를 얻는다. 이어서, 정규화층에 의해, 각 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻는다. 또한, 각 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻고, 네트워크 손실에 기초하여, 정규화층의 변환 파라미터를 조정한다.
예를 들면, 뉴럴 네트워크 모델을 훈련하는 경우, 입력(Input)은 훈련 데이터 세트{(xi, yi)}P i=1, 네트워크층에서의 일련의 네트워크 파라미터(Θ)(예를 들면, 가중치), 정규화층의 일련의 게이팅 파라미터(Ф)(예를 들면, 제1 게이팅 파라미터 및 제2 게이팅 파라미터) 및 축소 파라미터 및 변위 파라미터(ψ)={γl, βl}L l=1을 포함한다. 출력(Output)은 훈련 후의 뉴럴 네트워크 모델(각 네트워크층 및 각 정규화층 등을 포함함)이다.
여기서, 지적해두고자 하는 것은 상기 실시예에서, 제1 변환 파라미터(U)와 제3 변환 파라미터(U')는 동일하고, 제2 변환 파라미터(V)와 제4 변환 파라미터(V')도 동일하기 때문에, 정규화층의 일련의 게이팅 파라미터(Ф)는 제1 게이팅 파라미터 및 제2 게이팅 파라미터만을 설정해도 되는 점이다.
그 중, 훈련 횟수(t)=1toT이다. 매회 훈련 과정에 있어서, 상기 입력에서의 각 파라미터에 의해 순방향 전파 방식에 기초하여 상술한 정규화의 연산 과정에 따라 정규화층을 훈련하고, 예측 특징 데이터를 얻는다. 그리고, 얻어진 예측 특징 데이터 및 라벨링 정보에 기초하여 역방향 전파 방식에 기초하여 대응하는 네트워크 손실을 취득하고, 추가로 취득된 네트워크 손실에 기초하여 입력에서의 각 파라미터, 즉 Фt, Θt 및 ψt를 갱신한다.
수회의 훈련 후, 뉴럴 네트워크 모델의 테스트 과정을 실행할 수 있다. 본 발명의 데이터 처리 방법에서는 주로 정규화층에 대해 테스트한다. 단, 테스트하기 전에 각 정규화층의 다배치 훈련에 의한 통계량 평균을 계산하고, 계속해서 계산하여 얻어진 통계량 평균에 의해 대응하는 정규화층을 테스트할 필요가 있다. 즉, 각 정규화층의 다배치 훈련 과정에서 얻어진 통계량(평균값(μ) 및 표준 편차(σ))의 평균
Figure pct00019
을 계산한다. 구체적인 계산 과정은
Figure pct00020
과 같다.
각 정규화층의 통계량의 평균을 계산하여 얻어진 후, 각 정규화층을 테스트할 수 있다. 단, 테스트 과정에서 각 정규화층에 대해 아래 식 (9)에 의해 계산해도 된다.
Figure pct00021
여기서,
Figure pct00022
은 정규화층의 수를 특징짓는다.
이렇게 하여, 상기 과정에 의해 뉴럴 네트워크 모델을 훈련함으로써 최종적으로 훈련하여 얻어진 뉴럴 네트워크 모델에서의 정규화층 중의 파라미터는 제1 게이팅 파라미터, 제2 게이팅 파라미터, 축소 파라미터 및 변위 파라미터가 된다. 단, 상이한 훈련 데이터 세트에 의해 훈련하여 얻어진 뉴럴 네트워크 모델에서 정규화층의 제1 게이팅 파라미터와 제2 게이팅 파라미터의 값은 상이하다. 이에 의해, 본 발명의 데이터 처리 방법에서의 정규화 방식을 뉴럴 네트워크 모델에 적용한 후, 뉴럴 네트워크 모델은 다양한 비전 태스크에 적용 가능해진다. 즉, 뉴럴 네트워크 모델을 훈련하고, 본 발명의 데이터 처리 방법을 뉴럴 네트워크 모델에 적용함으로써, 본 발명의 데이터 처리 방법에 의해 분류, 검출, 인식 및 분할 등의 다양한 비전 태스크에서 효과가 우수한 모델을 얻고,
관련 태스크의 결과를 예측하거나, 또는 미훈련의 뉴럴 네트워크 모델(예비 훈련 모델)을 다른 비전 태스크로 이행하고, 파라미터(예를 들면, 정규화층의 게이팅 파라미터)의 미(微)조정에 의해, 다른 비전 태스크의 성능을 더욱 향상시킬 수 있다.
또한, 본 발명에서 언급된 상기 각 방법의 실시예는 원리나 논리를 위반하지 않는 한, 상호 조합하여, 조합 후의 실시예를 형성 가능한 것을 이해할 수 있고, 분량에 한계가 있으므로, 본 발명에서는 상세한 설명을 생략한다.
동시에, 구체적인 실시형태의 상기 방법에 있어서, 각 단계의 기술 순서는 엄격한 실행 순서는 아니고, 실시 프로세스에 대한 어떠한 제한도 되지 않으며, 각 단계의 구체적인 실행 순서는 그 기능 및 가능한 내재적 논리에 의존하는 것을 당업자는 이해할 수 있다.
또한, 본 발명은 데이터 처리 장치, 전자 기기, 컴퓨터 판독 가능 기억 매체 및 프로그램을 추가로 제공하고, 상기는 전부 본 발명이 제공하는 임의의 데이터 처리 방법의 실현에 사용할 수 있고, 대응하는 기술 방안 및 설명은 방법 부분의 대응하는 기재를 참조하면 되고, 여기서는 설명을 생략한다.
도 4는 본 발명의 실시예에 따른 데이터 처리 장치(100)의 블록도를 나타내고, 도 4에 나타내는 바와 같이, 상기 데이터 처리 장치(100)는
입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 위한 데이터 입력 모듈(110)과,
상기 뉴럴 네트워크 모델의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하기 위한 방식 결정 모듈(120)과,
결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 모듈(130)을 포함하고,
여기서, 상기 변환 파라미터는 상기 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 상기 통계 범위는 정규화 방식을 나타내기 위한 것이다.
가능한 일 실시형태에서는
상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하기 위한 서브 행렬 취득 모듈과,
복수의 상기 서브 행렬의 내적을 계산하고, 상기 변환 파라미터를 얻기 위한 변환 파라미터 취득 모듈을 추가로 포함한다.
가능한 일 실시형태에서는 상기 서브 행렬 취득 모듈은
상기 게이팅 파라미터를 부호 함수로 처리하여 2치화 벡터를 얻기 위한 파라미터 처리 서브 모듈과,
치환 행렬을 사용하여 상기 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성하기 위한 요소 치환 서브 모듈과,
상기 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여 복수의 상기 서브 행렬을 얻기 위한 서브 행렬 취득 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하고,
상기 제1 변환 파라미터의 차원 및 상기 제3 변환 파라미터의 차원은 상기 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 상기 제2 변환 파라미터의 차원 및 상기 제4 변환 파라미터의 차원은 상기 특징 데이터의 채널 차원에 기초하는 것이며,
상기 배치 사이즈 차원은 상기 특징 데이터를 포함하는 데이터 배치의 데이터 수이고, 상기 채널 차원은 상기 특징 데이터의 채널 수이다.
가능한 일 실시형태에서는 상기 방식 결정 모듈(120)은
평균값 및 표준 편차를 포함하는, 상기 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정하기 위한 제1 결정 서브 모듈과,
상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 따라 상기 평균값의 통계 범위를 제1 범위에서 제2 범위로 조정하기 위한 제1 조정 서브 모듈과,
상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 따라 상기 표준 편차의 통계 범위를 제1 범위에서 제3 범위로 조정하기 위한 제2 조정 서브 모듈과,
상기 제2 범위 및 상기 제3 범위에 기초하여 상기 정규화 방식을 결정하기 위한 방식 결정 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 제1 범위는 상기 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위이다.
가능한 일 실시형태에서는 상기 정규화 처리 모듈(130)은
상기 제1 범위에 따라 상기 특징 데이터의 통계량을 취득하기 위한 통계량 취득 서브 모듈과,
상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 서브 모듈을 포함한다.
가능한 일 실시형태에서는 상기 정규화 처리 서브 모듈은
상기 평균값, 상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 기초하여 제1 정규화 파라미터를 얻기 위한 제1 파라미터 취득 유닛과,
상기 표준 편차, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻기 위한 제2 파라미터 취득 유닛과,
상기 특징 데이터, 상기 제1 정규화 파라미터 및 상기 제2 정규화 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻기 위한 데이터 처리 유닛을 포함한다.
가능한 일 실시형태에서는 상기 변환 파라미터는 각 요소의 값이 0 또는 1인 2치화 행렬을 포함한다.
가능한 일 실시형태에서는 상기 게이팅 파라미터는 연속값 벡터이고,
상기 게이팅 파라미터 값의 수는 상기 서브 행렬의 수와 동일하다.
가능한 일 실시형태에서는 상기 제1 기초 행렬은 요소가 전부 1의 행렬이고, 제2 기초 행렬은 단위 행렬이다.
가능한 일 실시형태에서는
상기 데이터 입력 모듈이 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에 샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻기 위한 모델 훈련 모듈을 추가로 포함하고,
상기 샘플 데이터 세트 내의 각 입력 데이터는 라벨링 정보를 갖는다.
가능한 일 실시형태에서는 상기 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함하고,
상기 모델 훈련 모듈은
상기 네트워크층에 의해 상기 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 각 예측 특징 데이터를 얻기 위한 특징 추출 서브 모듈과,
상기 정규화층에 의해, 각 상기 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻기 위한 예측 특징 데이터 취득 서브 모듈과,
각 상기 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻기 위한 네트워크 손실 취득 서브 모듈과,
상기 네트워크 손실에 기초하여 상기 정규화층의 상기 변환 파라미터를 조정하기 위한 변환 파라미터 조정 서브 모듈을 포함한다.
일부 실시예에서는 본 발명의 실시예에서 제공된 장치에 구비된 기능 또는 모듈은 상기 방법 실시예에 기재된 방법을 실행하기 위해 사용되고, 그 구체적인 실시형태에 대해서는 상기 방법 실시예의 설명을 참조해도 되고, 간단하게 하기 위해 여기서 중복 설명은 생략한다.
본 발명의 실시예는 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 상기 방법을 실현시키는 컴퓨터 판독 가능 기억 매체를 추가로 제공한다. 컴퓨터 판독 가능 기억 매체는 비휘발성 컴퓨터 판독 가능 기억 매체여도 된다.
본 발명의 실시예는 상기 방법을 실행하도록 구성되는 프로세서와, 프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하는 전자 기기를 추가로 제공한다.
전자 기기는 단말, 서버 또는 다른 형태의 기기로서 제공되어도 된다.
도 5는 일 예시적인 실시예에 의해 나타낸 전자 기기(800)의 블록도이다. 예를 들면, 전자 기기(800)는 휴대 전화, 컴퓨터, 디지털 방송 단말, 메시지 송수신 장치, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기구, 휴대 정보 단말 등이어도 된다.
도 5를 참조하면, 전자 기기(800)는 처리 컴포넌트(802), 메모리(804), 전원 컴포넌트(806), 멀티미디어 컴포넌트(808), 오디오 컴포넌트(810), 입력/출력(I/O) 인터페이스(812), 센서 컴포넌트(814) 및 통신 컴포넌트(816) 중 하나 이상을 포함할 수 있다.
처리 컴포넌트(802)는 통상 전자 기기(800)의 전체적인 동작, 예를 들면, 표시, 전화의 호출, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작을 제어한다. 처리 컴포넌트(802)는 상기 방법의 전부 또는 일부 단계를 완료하기 위해, 하나 이상의 프로세서(820)를 포함하여 실행할 수 있다. 또한, 처리 컴포넌트(802)는 다른 컴포넌트와의 대화를 위해, 하나 이상의 모듈을 포함할 수 있다. 예를 들면, 처리 컴포넌트(802)는 멀티미디어 컴포넌트(808)와의 대화를 위해 멀티미디어 모듈을 포함할 수 있다.
메모리(804)는 전자 기기(800)에서의 동작을 서포트하기 위해 다양한 타입의 데이터를 기억하도록 구성된다. 이들 데이터의 예는 전자 기기(800)에서 동작하기 위한 모든 어플리케이션 프로그램 또는 방법의 명령, 연락처 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(804)는 예를 들면, 정적 랜덤 액세스 메모리(SRAM), 전기적 소거 가능 프로그래머블 판독 전용 메모리(EEPROM), 소거 가능한 프로그래머블 판독 전용 메모리(EPROM), 프로그래머블 판독 전용 메모리(PROM), 판독 전용 메모리(ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광디스크 등의 다양한 타입의 휘발성 또는 비휘발성 기억 기기 또는 이들의 조합에 의해 실현할 수 있다.
전원 컴포넌트(806)는 전자 기기(800)의 각 컴포넌트에 전력을 공급한다. 전원 컴포넌트(806)는 전원 관리 시스템, 하나 이상의 전원 및 전자 기기(800)를 위한 전력 생성, 관리 및 배분에 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(808)는 상기 전자 기기(800)와 사용자 사이에서 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에서는 스크린은 액정 디스플레이(LCD) 및 터치 패널(TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해, 터치 스크린으로서 실현해도 된다. 터치 패널은 터치, 슬라이드 및 터치 패널에서의 제스처를 검지하기 위해 하나 이상의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 검지할 뿐만 아니라, 상기 터치 또는 슬라이드 조작에 관련되는 지속 시간 및 압력을 검출할 수도 있다. 일부 실시예에서는 멀티미디어 컴포넌트(808)는 전면 카메라 및/또는 후면 카메라를 포함한다. 전자 기기(800)가 동작 모드, 예를 들면, 촬영 모드 또는 촬상 모드가 되는 경우, 전면 카메라 및/또는 후면 카메라는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전면 카메라 및 후면 카메라는 고정된 광학 렌즈계 또는 초점 거리 및 광학 줌 능력을 갖는 것이어도 된다.
오디오 컴포넌트(810)는 오디오 신호를 출력 및/또는 입력하도록 구성된다. 예를 들면, 오디오 컴포넌트(810)는 전자 기기(800)가 동작 모드, 예를 들면, 호출 모드, 기록 모드 및 음성 인식 모드가 되는 경우, 외부의 오디오 신호를 수신하도록 구성된 마이크(MIC)를 포함한다. 수신된 오디오 신호는 추가로 메모리(804)에 기억되거나 또는 통신 컴포넌트(816)에 의해 송신되어도 된다. 일부 실시예에서는 오디오 컴포넌트(810)는 추가로 오디오 신호를 출력하기 위한 하나의 스피커를 포함한다.
I/O 인터페이스(812)는 처리 컴포넌트(802)와 주변 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 주변 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등이어도 된다. 이들 버튼은 홈 버튼, 음량 버튼, 시작 버튼 및 잠금 버튼을 포함할 수 있지만, 이들에 한정되지 않는다.
센서 컴포넌트(814)는 전자 기기(800)에 각 측면에서의 상태 평가를 제공하기 위한 하나 이상의 센서를 포함한다. 예를 들면, 센서 컴포넌트(814)는 전자 기기(800)의 온/오프 상태, 컴포넌트의 상대적 위치 결정, 예를 들면, 상기 컴포넌트가 전자 기기(800)의 디스플레이 및 키패드인 것을 검출할 수 있고, 센서 컴포넌트(814)는 추가로 전자 기기(800) 또는 전자 기기(800)의 하나의 컴포넌트의 위치 변화, 사용자와 전자 기기(800)의 접촉 유무, 전자 기기(800)의 방위 또는 가감속 및 전자 기기(800)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(814)는 어떠한 물리적 접촉도 없는 경우에 근방의 물체의 존재를 검출하기 위해 사용되도록 구성된 근접 센서를 포함해도 된다. 센서 컴포넌트(814)는 추가로 CMOS 또는 CCD 이미지 센서와 같은 이미징 어플리케이션에서 사용하기 위한 광센서를 포함할 수 있다. 일부 실시예에서는 상기 센서 컴포넌트(814)는 추가로 가속도 센서, 자이로스코프 센서, 자기 센서, 압력 센서 또는 온도 센서를 포함할 수 있다.
통신 컴포넌트(816)는 전자 기기(800)와 다른 기기 사이의 유선 또는 무선 통신을 실현하도록 배치된다. 전자 기기(800)는 통신 규격에 기초하는 무선 네트워크, 예를 들면, WiFi, 2G 또는 3G, 또는 이들 조합에 액세스할 수 있다. 일 예시적 실시예에서는 통신 컴포넌트(816)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 일 예시적 실시예에서는 상기 통신 컴포넌트(816)는 추가로 근거리 통신을 촉진시키기 위해 근거리 무선 통신(NFC) 모듈을 포함한다. 예를 들면, NFC 모듈에서는 무선 주파수 식별(RFID) 기술, 적외선 데이터 협회(IrDA) 기술, 초광대역(UWB) 기술, 블루투스(BT) 기술 및 다른 기술에 의해 실현할 수 있다.
예시적인 실시예에서는 전자 기기(800)는 하나 이상의 특정 용도용 집적 회로(ASIC), 디지털 신호 프로세서(DSP), 디지털 신호 처리 디바이스(DSPD), 프로그래머블 로직 디바이스(PLD), 필드 프로그래머블 게이트 어레이(FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 요소에 의해 실현되고, 상기 방법을 실행하기 위해 사용할 수 있다.
예시적인 실시예에서는 추가로, 비휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(804)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(800)의 프로세서(820)에 의해 실행하여 상기 방법을 완료할 수 있다.
도 6은 일 예시적인 실시예에서 나타낸 전자 기기(1900)의 블록도이다. 예를 들면, 전자 기기(1900)는 서버로서 제공할 수 있다. 도 6을 참조하면, 전자 기기(1900)는 하나 이상의 프로세서를 포함하는 처리 컴포넌트(1922) 및 처리 컴포넌트(1922)에 의해 실행 가능한 명령, 예를 들면, 어플리케이션 프로그램을 기억하기 위한, 메모리(1932)를 대표로 하는 메모리 자원을 추가로 포함한다. 메모리(1932)에 기억된 어플리케이션 프로그램은 각각이 1그룹의 명령에 대응하는 하나 또는 하나 이상의 모듈을 포함할 수 있다. 또한, 처리 컴포넌트(1922)는 명령을 실행하고, 이에 의해 상기 방법을 실행하도록 구성된다.
전자 기기(1900)는 추가로, 전자 기기(1900)의 전원 관리를 실행하도록 구성된 하나의 전원 컴포넌트(1926), 전자 기기(1900)를 네트워크에 접속하도록 구성된 하나의 유선 또는 무선 네트워크 인터페이스(1950) 및 하나의 입출력(I/O) 인터페이스(1958)를 포함할 수 있다. 전자 기기(1900)는 메모리(1932)에 기억된 오퍼레이팅 시스템, 예를 들면, Windows ServerTM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 또는 유사한 것에 기초하여 작동할 수 있다.
예시적인 실시예에서는 추가로, 비휘발성 컴퓨터 판독 가능 기억 매체, 예를 들면, 컴퓨터 프로그램 명령을 포함하는 메모리(1932)가 제공되고, 상기 컴퓨터 프로그램 명령은 전자 기기(1900)의 처리 컴포넌트(1922)에 의해 실행되어 상기 방법을 완료할 수 있다.
본 발명은 시스템, 방법 및/또는 컴퓨터 프로그램 제품이어도 된다. 컴퓨터 프로그램 제품은 프로세서에 본 발명의 각 양태를 실현시키기 위한 컴퓨터 판독 가능 프로그램 명령이 로드되어 있는 컴퓨터 판독 가능 기억 매체를 포함할 수 있다.
컴퓨터 판독 가능 기억 매체는 명령 실행 기기에 의해 사용되는 명령을 저장 및 기억 가능한 유형(有形)의 기기여도 된다. 컴퓨터 판독 가능 기억 매체는 예를 들면, 전기 기억 장치, 자기 기억 장치, 광 기억 장치, 전자 기억 장치, 반도체 기억 장치, 또는 상기의 임의의 적당한 조합이어도 되지만, 이들에 한정되지 않는다. 컴퓨터 판독 가능 기억 매체의 보다 구체적인 예(비포괄적 리스트)로는 휴대형 컴퓨터 디스크, 하드 디스크, 랜덤 액세스 메모리(RAM), 판독 전용 메모리(ROM), 소거 가능 프로그래머블 판독 전용 메모리(EPROM 또는 플래시 메모리), 정적 랜덤 액세스 메모리(SRAM), 휴대형 콤팩트 디스크 판독 전용 메모리(CD-ROM), 디지털 다용도 디스크(DVD), 메모리 스틱, 플로피 디스크, 기계적 부호화 장치, 예를 들면, 명령이 기억되어 있는 천공 카드 또는 슬롯 내 돌기 구조, 및 상기 임의의 적당한 조합을 포함한다. 여기서 사용되는 컴퓨터 판독 가능 기억 매체는 임시 기억 자체, 예를 들면, 무선 전파 또는 기타 자유롭게 전파되는 전자파, 도파로 또는 다른 전송 매체를 경유하여 전파되는 전자파(예를 들면, 광파이버 케이블을 통과하는 광펄스), 또는 전선을 경유하여 전송되는 전기 신호로 해석되는 것은 아니다.
여기서 기술한 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에서 각 계산/처리 기기에 다운로드되어도 되고, 또는 네트워크, 예를 들면, 인터넷, 로컬 에어리어 네트워크, 광역 네트워크 및/또는 무선 네트워크에 의해 외부의 컴퓨터 또는 외부 기억 장치에 다운로드되어도 된다. 네트워크는 구리 전송 케이블, 광파이버 전송, 무선 전송, 라우터, 방화벽, 교환기, 게이트웨이 컴퓨터 및/또는 에지 서버를 포함할 수 있다. 각 계산/처리 기기 내의 네트워크 어댑터 카드 또는 네트워크 인터페이스는 네트워크에서 컴퓨터 판독 가능 프로그램 명령을 수신하고, 상기 컴퓨터 판독 가능 프로그램 명령을 전송하고, 각 계산/처리 기기 내의 컴퓨터 판독 가능 기억 매체에 기억시킨다.
본 발명의 동작을 실행하기 위한 컴퓨터 프로그램 명령은 어셈블리 명령, 명령 세트 아키텍처(ISA) 명령, 기계 명령, 기계 관련 명령, 마이크로 코드, 펌웨어 명령, 상태 설정 데이터 또는 Smalltalk, C++ 등의 오브젝트 지향 프로그래밍 언어, 및 「C」언어 또는 유사한 프로그래밍 언어 등의 일반적인 절차형 프로그래밍 언어를 포함하는 하나 이상의 프로그래밍 언어의 임의의 조합으로 작성된 소스 코드 또는 목표 코드여도 된다. 컴퓨터 판독 가능 프로그램 명령은 완전히 사용자의 컴퓨터에서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 실행되어도 되고, 독립형 소프트웨어 패키지로서 실행되어도 되고, 부분적으로 사용자의 컴퓨터에서 또한 부분적으로 리모트 컴퓨터에서 실행되어도 되고, 또한 완전히 리모트 컴퓨터 혹은 서버에서 실행되어도 된다. 리모트 컴퓨터의 경우, 리모트 컴퓨터는 로컬 에어리어 네트워크(LAN) 또는 광역 네트워크(WAN)를 포함하는 임의의 종류의 네트워크를 경유하여 사용자의 컴퓨터에 접속되어도 되고, 또는 (예를 들면, 인터넷 서비스 프로바이더를 이용해 인터넷을 경유하여) 외부 컴퓨터에 접속되어도 된다. 일부 실시예에서는 컴퓨터 판독 가능 프로그램 명령의 상태 정보를 이용하여, 예를 들면, 프로그래머블 논리 회로, 필드 프로그래머블 게이트 어레이(FPGA) 또는 프로그래머블 논리 어레이(PLA) 등의 전자 회로를 맞춤 제조함으로써, 상기 전자 회로는 컴퓨터 판독 가능 프로그램 명령을 실행하고,이에 의해 본 발명의 각 양태를 실현하게 된다.
또한, 여기서 본 발명의 실시예에 따른 방법, 장치(시스템) 및 컴퓨터 프로그램 제품의 흐름도 및/또는 블록도를 참조하면서 본 발명의 각 양태를 설명했지만, 흐름도 및/또는 블록도의 각 블록, 및 흐름도 및/또는 블록도의 각 블록의 조합은 전부 컴퓨터 판독 가능 프로그램 명령에 의해 실현할 수 있음을 이해해야 한다.
이들 컴퓨터 판독 가능 프로그램 명령은 기계를 제조하기 위해, 범용 컴퓨터, 전용 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 제공되어도 되고, 이에 의해, 이들 명령은 컴퓨터 또는 기타 프로그래머블 데이터 처리 장치의 프로세서에 의해 실행되고, 흐름도 및/또는 블록도의 하나 이상의 블록에서 지정된 기능/동작을 실현하는 수단을 창출한다. 이들 컴퓨터 판독 가능 프로그램 명령은 컴퓨터 판독 가능 기억 매체에 기억되고, 이들 명령에 의해, 컴퓨터, 프로그래머블 데이터 처리 장치 및/또는 다른 기기를 특정 방식으로 동작시키도록 해도 되고, 이에 의해, 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체는 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작의 각 양태를 실현하는 명령을 포함하는 제품을 구비한다.
컴퓨터 판독 가능 프로그램은 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에 로드됨으로써, 컴퓨터 실시 프로세스를 생성하도록 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에서 일련의 동작 단계를 실행시키도록 해도 되고, 이에 의해 컴퓨터, 기타 프로그래머블 데이터 처리 장치 또는 기타 기기에서 실행되는 명령은 흐름도 및/또는 블록도 중 하나 이상의 블록에서 지정된 기능/동작을 실현한다.
도면 중 흐름도 및 블록도는 본 발명의 복수의 실시예에 따른 시스템, 방법 및 컴퓨터 프로그램 제품의 실현 가능한 시스템 아키텍처, 기능 및 동작을 나타낸다. 이 점에서는 흐름도 또는 블록도에서의 각 블록은 하나의 모듈, 프로그램 세그먼트 또는 명령의 일부분을 대표할 수 있고, 상기 모듈, 프로그램 세그먼트 또는 명령의 일부분은 지정된 논리 기능을 실현하기 위한 하나 이상의 실행 가능한 명령을 포함한다. 일부 치환으로서의 실현형태에서는 블록에 표기되는 기능은 도면에 붙인 것과 상이한 순서로 실현해도 된다. 예를 들면, 2개의 연속적인 블록은 기본적으로 동시에 실행해도 되고, 또한 관련된 기능에 따라, 이들은 반대 순서로 실행해도 되는 경우가 있다. 또한, 블록도 및/또는 흐름도에서의 각 블록 및 블록도 및/또는 흐름도에서의 블록의 조합은 지정되는 기능 또는 동작을 실행하는 하드웨어에 기초하는 전용 시스템에 의해 실현해도 되며, 또는 전용 하드웨어와 컴퓨터 명령의 조합에 의해 실현해도 된다는 점에 주의해야 한다.
이상, 본 발명의 각 실시예를 기술했지만, 상기 설명은 예시적인 것에 불과하고, 망라적인 것이 아니며, 또한 개시된 각 실시예에 한정되는 것도 아니다. 당업자에게 있어서, 설명된 각 실시예의 범위 및 정신에서 벗어나지 않고, 다양한 수정 및 변경이 자명하다. 본 명세서에 선택된 용어는 각 실시예의 원리, 실제 적용 또는 시장의 기술에 대한 기술적 개선을 바람직하게 해석하거나, 또는 다른 당업자에게 본 명세서에 개시된 각 실시예를 이해시키기 위한 것이다.

Claims (28)

  1. 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하는 것과,
    상기 뉴럴 네트워크 모델의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하는 것과,
    결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함하고,
    상기 변환 파라미터는 상기 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 상기 통계 범위는 정규화 방식을 나타내기 위한 것인, 데이터 처리 방법.
  2. 제 1 항에 있어서,
    상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하는 것과,
    복수의 상기 서브 행렬의 내적을 계산하고, 상기 변환 파라미터를 얻는 것을 추가로 포함하는, 데이터 처리 방법.
  3. 제 2 항에 있어서,
    상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하는 것은,
    상기 게이팅 파라미터를 부호 함수로 처리하여 2치화 벡터를 얻는 것과,
    치환 행렬을 사용하여 상기 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성하는 것과,
    상기 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여 복수의 상기 서브 행렬을 얻는 것을 포함하는, 데이터 처리 방법.
  4. 제 1 항 내지 제 3 항 중 어느 한 항에 있어서,
    상기 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하고,
    상기 제1 변환 파라미터의 차원 및 상기 제3 변환 파라미터의 차원은 상기 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 상기 제2 변환 파라미터의 차원 및 상기 제4 변환 파라미터의 차원은 상기 특징 데이터의 채널 차원에 기초하는 것이며,
    상기 배치 사이즈 차원은 상기 특징 데이터를 포함하는 데이터 배치의 데이터 수이고, 상기 채널 차원은 상기 특징 데이터의 채널 수인, 데이터 처리 방법.
  5. 제 4 항에 있어서,
    상기 뉴럴 네트워크에서의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하는 것은,
    평균값 및 표준 편차를 포함하는, 상기 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정하는 것과,
    상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 따라 상기 평균값의 통계 범위를 상기 제1 범위에서 제2 범위로 조정하는 것과,
    상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 따라 상기 표준 편차의 통계 범위를 상기 제1 범위에서 제3 범위로 조정하는 것과,
    상기 제2 범위 및 상기 제3 범위에 기초하여 상기 정규화 방식을 결정하는 것을 포함하는, 데이터 처리 방법.
  6. 제 4 항에 있어서,
    상기 제1 범위는 상기 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위인, 데이터 처리 방법.
  7. 제 5 항에 있어서,
    결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것은,
    상기 제1 범위에 따라 상기 특징 데이터의 통계량을 취득하는 것과,
    상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함하는, 데이터 처리 방법.
  8. 제 7 항에 있어서,
    상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것은,
    상기 평균값, 상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 기초하여 제1 정규화 파라미터를 얻는 것과,
    상기 표준 편차, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻는 것과,
    상기 특징 데이터, 상기 제1 정규화 파라미터 및 상기 제2 정규화 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻는 것을 포함하는, 데이터 처리 방법.
  9. 제 1 항에 있어서,
    상기 변환 파라미터는 각 요소의 값이 0 또는 1인 2치화 행렬을 포함하는, 데이터 처리 방법.
  10. 제 2 항에 있어서,
    상기 게이팅 파라미터는 연속값 벡터이고,
    상기 게이팅 파라미터 값의 수는 상기 서브 행렬의 수와 동일한, 데이터 처리 방법.
  11. 제 3 항에 있어서,
    상기 제1 기초 행렬은 요소가 전부 1의 행렬이고, 제2 기초 행렬은 단위 행렬인, 데이터 처리 방법.
  12. 제 1 항 내지 제 11 항 중 어느 한 항에 있어서,
    입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에,
    샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻는 것을 추가로 포함하고,
    상기 샘플 데이터 세트 내의 각 입력 데이터는 라벨링 정보를 갖는, 데이터 처리 방법.
  13. 제 12 항에 있어서,
    상기 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함하고,
    샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하는 것은,
    상기 네트워크층에 의해 상기 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 각 예측 특징 데이터를 얻는 것과,
    상기 정규화층에 의해, 각 상기 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻는 것과,
    각 상기 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻는 것과,
    상기 네트워크 손실에 기초하여 상기 정규화층의 상기 변환 파라미터를 조정하는 것을 포함하는, 데이터 처리 방법.
  14. 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 위한 데이터 입력 모듈과,
    상기 뉴럴 네트워크 모델의 변환 파라미터에 따라 상기 특징 데이터에 적합한 정규화 방식을 결정하기 위한 방식 결정 모듈과,
    결정된 상기 정규화 방식에 따라 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 모듈을 포함하고,
    상기 변환 파라미터는 상기 특징 데이터의 통계량의 통계 범위를 조정하기 위한 것이고, 상기 통계 범위는 정규화 방식을 나타내기 위한 것인, 데이터 처리 장치.
  15. 제 14 항에 있어서,
    상기 뉴럴 네트워크 모델에 설정된 학습 가능한 게이팅 파라미터에 따라 복수의 서브 행렬을 취득하기 위한 서브 행렬 취득 모듈과,
    복수의 상기 서브 행렬의 내적을 계산하고, 상기 변환 파라미터를 얻기 위한 변환 파라미터 취득 모듈을 추가로 포함하는, 데이터 처리 장치.
  16. 제 15 항에 있어서,
    상기 서브 행렬 취득 모듈은,
    상기 게이팅 파라미터를 부호 함수로 처리하여 2치화 벡터를 얻기 위한 파라미터 처리 서브 모듈과,
    치환 행렬을 사용하여 상기 2치화 벡터의 요소를 치환하여 2치화 게이팅 벡터를 생성하기 위한 요소 치환 서브 모듈과,
    상기 2치화 게이팅 벡터, 제1 기초 행렬 및 제2 기초 행렬에 기초하여 복수의 상기 서브 행렬을 얻기 위한 서브 행렬 취득 서브 모듈을 포함하는, 데이터 처리 장치.
  17. 제 14 항 내지 제 16 항 중 어느 한 항에 있어서,
    상기 변환 파라미터는 제1 변환 파라미터, 제2 변환 파라미터, 제3 변환 파라미터 및 제4 변환 파라미터를 포함하고,
    상기 제1 변환 파라미터의 차원 및 상기 제3 변환 파라미터의 차원은 상기 특징 데이터의 배치 사이즈 차원에 기초하는 것이고, 상기 제2 변환 파라미터의 차원 및 상기 제4 변환 파라미터의 차원은 상기 특징 데이터의 채널 차원에 기초하는 것이며,
    상기 배치 사이즈 차원은 상기 특징 데이터를 포함하는 데이터 배치의 데이터 수이고, 상기 채널 차원은 상기 특징 데이터의 채널 수인, 데이터 처리 장치.
  18. 제 17 항에 있어서,
    상기 방식 결정 모듈은,
    평균값 및 표준 편차를 포함하는, 상기 특징 데이터의 통계량의 통계 범위를 제1 범위로서 결정하기 위한 제1 결정 서브 모듈과,
    상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 따라 상기 평균값의 통계 범위를 상기 제1 범위에서 제2 범위로 조정하기 위한 제1 조정 서브 모듈과,
    상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 따라 상기 표준 편차의 통계 범위를 상기 제1 범위에서 제3 범위로 조정하기 위한 제2 조정 서브 모듈과,
    상기 제2 범위 및 상기 제3 범위에 기초하여 상기 정규화 방식을 결정하기 위한 방식 결정 서브 모듈을 포함하는, 데이터 처리 장치.
  19. 제 18 항에 있어서,
    상기 제1 범위는 상기 특징 데이터의 각 샘플 특징 데이터의 각 채널마다의 범위인, 데이터 처리 장치.
  20. 제 18 항에 있어서,
    상기 정규화 처리 모듈은,
    상기 제1 범위에 따라 상기 특징 데이터의 통계량을 취득하기 위한 통계량 취득 서브 모듈과,
    상기 통계량, 상기 제1 변환 파라미터, 상기 제2 변환 파라미터, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고, 정규화 후의 특징 데이터를 얻기 위한 정규화 처리 서브 모듈을 포함하는, 데이터 처리 장치.
  21. 제 20 항에 있어서,
    상기 정규화 처리 서브 모듈은,
    상기 평균값, 상기 제1 변환 파라미터 및 상기 제2 변환 파라미터에 기초하여 제1 정규화 파라미터를 얻기 위한 제1 파라미터 취득 유닛과,
    상기 표준 편차, 상기 제3 변환 파라미터 및 상기 제4 변환 파라미터에 기초하여 제2 정규화 파라미터를 얻기 위한 제2 파라미터 취득 유닛과,
    상기 특징 데이터, 상기 제1 정규화 파라미터 및 상기 제2 정규화 파라미터에 기초하여 상기 특징 데이터를 정규화 처리하고 정규화 후의 특징 데이터를 얻기 위한 데이터 처리 유닛을 포함하는, 데이터 처리 장치.
  22. 제 14 항에 있어서,
    상기 변환 파라미터는 각 요소의 값이 0 또는 1인 2치화 행렬을 포함하는, 데이터 처리 장치.
  23. 제 15 항에 있어서,
    상기 게이팅 파라미터는 연속값 벡터이고,
    상기 게이팅 파라미터 값의 수는 상기 서브 행렬의 수와 동일한, 데이터 처리 장치.
  24. 제 16 항에 있어서,
    상기 제1 기초 행렬은 요소가 전부 1의 행렬이고, 제2 기초 행렬은 단위 행렬인, 데이터 처리 장치.
  25. 제 14 항 내지 제 24 항 중 어느 한 항에 있어서,
    상기 데이터 입력 모듈이 입력 데이터를 뉴럴 네트워크 모델에 입력하고, 상기 뉴럴 네트워크 모델의 네트워크층에서 현재 출력되고 있는 특징 데이터를 취득하기 전에 샘플 데이터 세트에 기초하여 상기 뉴럴 네트워크 모델을 훈련하고, 훈련 후의 뉴럴 네트워크 모델을 얻기 위한 모델 훈련 모듈을 추가로 포함하고,
    상기 샘플 데이터 세트 내의 각 입력 데이터는 라벨링 정보를 갖는, 데이터 처리 장치.
  26. 제 25 항에 있어서,
    상기 뉴럴 네트워크 모델은 하나 이상의 네트워크층 및 하나 이상의 정규화층을 포함하고,
    상기 모델 훈련 모듈은,
    상기 네트워크층에 의해 상기 샘플 데이터 세트 내의 각 입력 데이터에 대해 특징 추출을 행하고, 각 예측 특징 데이터를 얻기 위한 특징 추출 서브 모듈과,
    상기 정규화층에 의해, 각 상기 예측 특징 데이터를 정규화 처리하고 정규화 후의 예측 특징 데이터를 얻기 위한 예측 특징 데이터 취득 서브 모듈과,
    각 상기 예측 특징 데이터 및 라벨링 정보에 기초하여 네트워크 손실을 얻기 위한 네트워크 손실 취득 서브 모듈과,
    상기 네트워크 손실에 기초하여 상기 정규화층의 상기 변환 파라미터를 조정하기 위한 변환 파라미터 조정 서브 모듈을 포함하는, 데이터 처리 장치.
  27. 프로세서와,
    프로세서에 의해 실행 가능한 명령을 기억하기 위한 메모리를 포함하고,
    상기 프로세서는 제 1 항 내지 제 13 항 중 어느 한 항의 방법을 실행하도록 구성되는, 전자 기기.
  28. 컴퓨터 프로그램 명령이 기억되어 있는 컴퓨터 판독 가능 기억 매체로서, 상기 컴퓨터 프로그램 명령은 프로세서에 의해 실행되면, 제 1 항 내지 제 13 항 중 어느 한 항의 방법을 실현시키는, 컴퓨터 판독 가능 기억 매체.
KR1020217018179A 2019-02-25 2019-04-22 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체 KR20210090691A (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201910139050.0A CN109886392B (zh) 2019-02-25 2019-02-25 数据处理方法和装置、电子设备和存储介质
CN201910139050.0 2019-02-25
PCT/CN2019/083642 WO2020172979A1 (zh) 2019-02-25 2019-04-22 数据处理方法和装置、电子设备和存储介质

Publications (1)

Publication Number Publication Date
KR20210090691A true KR20210090691A (ko) 2021-07-20

Family

ID=66929254

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020217018179A KR20210090691A (ko) 2019-02-25 2019-04-22 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체

Country Status (7)

Country Link
US (1) US20210312289A1 (ko)
JP (1) JP2022516452A (ko)
KR (1) KR20210090691A (ko)
CN (1) CN109886392B (ko)
SG (1) SG11202106254TA (ko)
TW (1) TWI721603B (ko)
WO (1) WO2020172979A1 (ko)

Families Citing this family (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11870804B2 (en) * 2019-08-01 2024-01-09 Akamai Technologies, Inc. Automated learning and detection of web bot transactions using deep learning
CN111325222A (zh) * 2020-02-27 2020-06-23 深圳市商汤科技有限公司 图像归一化处理方法及装置、存储介质
US20220108163A1 (en) * 2020-10-02 2022-04-07 Element Ai Inc. Continuous training methods for systems identifying anomalies in an image of an object
CN112561047B (zh) * 2020-12-22 2023-04-28 上海壁仞智能科技有限公司 用于处理数据的装置、方法和计算机可读存储介质
CN112951218B (zh) * 2021-03-22 2024-03-29 百果园技术(新加坡)有限公司 基于神经网络模型的语音处理方法、装置及电子设备
KR20240050709A (ko) 2022-10-12 2024-04-19 성균관대학교산학협력단 교차 엔트로피를 활용한 자기 지식 증류 방법 및 이의 장치
CN115936094B (zh) * 2022-12-27 2024-07-02 北京百度网讯科技有限公司 文本处理模型的训练方法、装置、电子设备和存储介质

Family Cites Families (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074495B2 (en) * 2013-02-28 2021-07-27 Z Advanced Computing, Inc. (Zac) System and method for extremely efficient image and pattern recognition and artificial intelligence platform
CN103971163B (zh) * 2014-05-09 2017-02-15 哈尔滨工程大学 一种基于归一化最小均方自适应滤波的自适应学习率小波神经网络控制方法
KR102055355B1 (ko) * 2015-01-28 2019-12-12 구글 엘엘씨 배치 정규화 레이어들
CN109074517B (zh) * 2016-03-18 2021-11-30 谷歌有限责任公司 全局归一化神经网络
US10204621B2 (en) * 2016-09-07 2019-02-12 International Business Machines Corporation Adjusting a deep neural network acoustic model
CN106650930A (zh) * 2016-12-09 2017-05-10 温州大学 模型参数优化的方法及装置
CN107680077A (zh) * 2017-08-29 2018-02-09 南京航空航天大学 一种基于多阶梯度特征的无参考图像质量评价方法
CN107622307A (zh) * 2017-09-11 2018-01-23 浙江工业大学 一种基于深度学习的无向网络连边权重预测方法
CN108875787B (zh) * 2018-05-23 2020-07-14 北京市商汤科技开发有限公司 一种图像识别方法及装置、计算机设备和存储介质
CN108921283A (zh) * 2018-06-13 2018-11-30 深圳市商汤科技有限公司 深度神经网络的归一化方法和装置、设备、存储介质
CN108875074B (zh) * 2018-07-09 2021-08-10 北京慧闻科技发展有限公司 基于交叉注意力神经网络的答案选择方法、装置和电子设备
CN109272061B (zh) * 2018-09-27 2021-05-04 安徽理工大学 一种包含两个cnn的深度学习模型的构建方法

Also Published As

Publication number Publication date
US20210312289A1 (en) 2021-10-07
TW202032416A (zh) 2020-09-01
CN109886392B (zh) 2021-04-27
SG11202106254TA (en) 2021-07-29
WO2020172979A1 (zh) 2020-09-03
CN109886392A (zh) 2019-06-14
TWI721603B (zh) 2021-03-11
JP2022516452A (ja) 2022-02-28

Similar Documents

Publication Publication Date Title
KR20210090691A (ko) 데이터 처리 방법 및 장치, 전자 기기 및 기억 매체
TWI759722B (zh) 神經網路訓練方法及裝置、圖像處理方法及裝置、電子設備和計算機可讀存儲介質
KR102406354B1 (ko) 비디오 수복 방법 및 장치, 전자 기기 및 기억 매체
US20210012523A1 (en) Pose Estimation Method and Device and Storage Medium
KR102421820B1 (ko) 키포인트 검출 방법, 장치, 전자 기기 및 기억 매체
KR20210050485A (ko) 신경망 모델을 압축하는 방법 및 장치, 코퍼스 번역 방법 및 장치, 전자 장치, 프로그램 및 기록 매체
JP2021514497A (ja) 顔部認識方法及び装置、電子機器並びに記憶媒体
JP2022512023A (ja) バッチ正規化データの処理方法及び装置、電子機器及び記憶媒体
CN109919300B (zh) 神经网络训练方法及装置以及图像处理方法及装置
JP2021514499A (ja) ターゲットオブジェクト処理方法、装置、電子機器及び記憶媒体
CN110837761A (zh) 多模型知识蒸馏方法及装置、电子设备和存储介质
CN110781934A (zh) 监督学习、标签预测方法及装置、电子设备和存储介质
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
TWI738144B (zh) 訊息處理方法及其裝置、電子設備和儲存媒體
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN111783898B (zh) 图像识别模型的训练、图像识别方法、装置及设备
CN110659690A (zh) 神经网络的构建方法及装置、电子设备和存储介质
KR20210024631A (ko) 이미지 처리 방법 및 장치, 전자 기기 및 저장 매체
CN112259122A (zh) 音频类型识别方法、装置及存储介质
CN109460458B (zh) 查询改写意图的预测方法及装置
CN109635926A (zh) 用于神经网络的注意力特征获取方法、装置及存储介质
CN111626398B (zh) 运算方法、装置及相关产品
CN109766463B (zh) 应用于图像检索的半监督哈希学习方法及装置
CN110443363B (zh) 图像特征学习方法及装置
CN115393651A (zh) 模型蒸馏方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
A201 Request for examination
WITB Written withdrawal of application