KR102650992B1 - 블록 변환을 이용한 신경망 압축 장치 및 방법 - Google Patents

블록 변환을 이용한 신경망 압축 장치 및 방법 Download PDF

Info

Publication number
KR102650992B1
KR102650992B1 KR1020220058217A KR20220058217A KR102650992B1 KR 102650992 B1 KR102650992 B1 KR 102650992B1 KR 1020220058217 A KR1020220058217 A KR 1020220058217A KR 20220058217 A KR20220058217 A KR 20220058217A KR 102650992 B1 KR102650992 B1 KR 102650992B1
Authority
KR
South Korea
Prior art keywords
neural network
transformation
block
original
predicted value
Prior art date
Application number
KR1020220058217A
Other languages
English (en)
Other versions
KR20230158735A (ko
Inventor
최종원
서승모
조승현
정승진
Original Assignee
중앙대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 중앙대학교 산학협력단 filed Critical 중앙대학교 산학협력단
Priority to KR1020220058217A priority Critical patent/KR102650992B1/ko
Publication of KR20230158735A publication Critical patent/KR20230158735A/ko
Application granted granted Critical
Publication of KR102650992B1 publication Critical patent/KR102650992B1/ko

Links

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/082Learning methods modifying the architecture, e.g. adding, deleting or silencing nodes or connections
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/047Probabilistic or stochastic networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/096Transfer learning

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Data Mining & Analysis (AREA)
  • Evolutionary Computation (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Molecular Biology (AREA)
  • Artificial Intelligence (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Health & Medical Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Compression, Expansion, Code Conversion, And Decoders (AREA)

Abstract

미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성하기 위한 블록 변환을 이용한 신경망 압축 장치 및 방법이 개시된다. 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법은 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함할 수 있다.

Description

블록 변환을 이용한 신경망 압축 장치 및 방법{apparatus and method for neural network compression using block transform}
블록 변환을 이용한 신경망 압축 장치 및 방법에 관한 것이다.
최근 인공 신경망은 높은 성능을 위하여 딥러닝 모델 구조를 기반으로 하고 있으며, 딥러닝 모델은 두꺼운 레이어 구조 및 매우 많은 파라미터로 구성된다. 이에 따라, 딥러닝 모델은 높은 하드웨어의 성능이 요구되며, 연산을 위하여 다량의 에너지를 소비하는 문제가 있다.
반면, 신경망 모델은 다양한 장비에 적용되는 추세이며, 특히, 모바일 장비는 한정된 하드웨어 성능 및 에너지만을 이용할 수 있어 딥러닝 모델을 그대로 구현하는데 문제가 발생한다. 또한, 장비 별로 타겟팅하는 대상이 다른 바, 각각의 타겟 및 하드웨어 규격에 최적화된 신경망 모델을 적용할 필요가 있다.
한국등록특허공보 제10-2332490호(2021.12.01)
미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성하기 위한 블록 변환을 이용한 신경망 압축 장치 및 방법을 제공하는데 목적이 있다.
일 양상에 따르면, 블록 변환을 이용한 신경망 압축 방법은 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함할 수 있다.
블록 변환 단계는 m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성할 수 있다.
사전 학습 단계는 변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.
사전 학습 단계는 레이블이 부여된 소스 데이터 중 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며, 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.
정규화 손실은 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.
정규화 손실은 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산될 수 있다.
사전 학습 단계는 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.
사전 학습 단계는 정규화 손실 및 교차 엔트로피 손실에 기초하여 하나 이상의 선택 변환 신경망을 학습시킬 수 있다.
정규화 점수는 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.
타겟 적응 단계는 타겟 데이터 중 원본 신경망과 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 정규화 점수는 정규화 손실을 더 기초하여 계산될 수 있다.
타겟 적응 단계는 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.
타겟 적응 단계는 정규화 손실 및 교차 엔트로피 손실에 기초하여 선별 변환 신경망을 학습할 수 있다.
일 양상에 따르면, 블록 변환을 이용한 신경망 압축 장치는 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환부; 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습부; 및 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응부를 포함할 수 있다.
상기 블록 변환부는, m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성할 수 있다.
상기 사전 학습부는, 변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.
상기 사전 학습부는, 상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며, 상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.
상기 정규화 손실은, 상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.
상기 정규화 손실은, 상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되고, 상기 사전 학습부는, 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하며, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시킬 수 있다.
상기 정규화 점수는, 타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되고, 상기 타겟 적응부는, 타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산될 수 있다.
상기 타겟 적응부는, 상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다.
상기 타겟 적응부는, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습할 수 있다.
미리 학습된 딥러닝 모델로부터 타겟에 적합하게 압축된 신경망 모델을 생성할 수 있다.
도 1은 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법을 도시한 흐름도이다.
도 2는 일 예에 따른 블록 변환 방법을 설명하기 위한 예시도이다.
도 3은 일 예에 따른 클러스터링 방법을 설명하기 위한 예시도이다.
도 4는 일 실시예에 따른 블록 변환을 이용한 신경망 압축 장치의 구성도이다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경을 예시하여 설명하기 위한 블록도이다.
이하, 첨부된 도면을 참조하여 본 발명의 일 실시예를 상세하게 설명한다. 본 발명을 설명함에 있어 관련된 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 또한, 후술되는 용어들은 본 발명에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로, 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
이하, 블록 변환을 이용한 신경망 압축 장치 및 방법의 실시예들을 도면들을 참고하여 자세히 설명한다.
도 1은 일 실시예에 따른 블록 변환을 이용한 신경망 압축 방법을 도시한 흐름도이다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 둘 이상의 잔여 블록(residual block, 이하, 0으로 표시)으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block, 이하, B로 표시) 및 재활용 블록(recycling block, 이하, R로 표시) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성할 수 있다(110).
도 2를 참조하면, 원본 신경망(200)은 둘 이상의 잔여 블록(210, 220)으로 구성될 수 있으며, 원본 신경망(200)에 포함된 둘 이상의 잔여 블록(210, 220) 중 적어도 하나는 우회 블록 및 재활용 블록 중 적어도 하나로 변환될 수 있다. 예를 들어, 하나의 잔여 블록(220)이 우회 블록(221)으로 변환되어 신경망(201)을 구성하거나, 재활용 블록(222)으로 변환되어 신경망(202)을 구성할 수 있다.
일 예를 들어, 우회 블록은 입력 데이터를 별도의 처리 없이 출력 데이터로 바로 출력하는 블록이며, 재활용 블록은 입력 데이터를 앞 단의 블록의 입력으로 다시 입력한 후 앞 단의 블록에서 출력한 데이터를 출력 데이터로 출력하는 블록일 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성할 수 있다.
일 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 원본 신경망 S0이 3개의 잔여 블록으로 구성되는 경우, S0={<000>}과 같이 표현될 수 있으며, 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1의 경우 S1={<00R>, <0R0>, <00B>, <0B0>, <B00>}과 같이 생성할 수 있다. 다른 예로, 우회 블록 및 재활용 블록은 앞 단의 블록 결과를 이용하여야 하는 바, 가장 앞 단의 블록은 변환하지 않도록 설정할 수 있다. 예를 들어, S1={<00R>, <0R0>, <00B>, <0B0>}과 같이 생성될 수 있다.
일 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 변환 신경망의 집합 중 일부를 선택적으로 생성하거나, 변환 신경망의 집합에 포함되는 하나 이상의 변환 신경망 중 일부를 선택적으로 생성할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 원본 신경망 S0이 3개의 잔여 블록으로 구성되는 경우, 변환 신경망의 집합 S1, S2 중 S1만을 선택적으로 생성할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1={<00R>, <0R0>, <00B>, <0B0>, <B00>} 중 {<00R>, <00B>}만을 선택적으로 생성할 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시킬 수 있다(120).
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시킬 수 있다.
일 예로, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택할 수 있다. 예를 들어, 원본 신경망 S0이 3개의 잔여 블록으로 구성되는 경우, 블록 변환을 이용한 신경망 압축 장치는 변환 신경망의 집합 S1, S2, 각각에 포함된 변환 신경망 중 하나를 선택할 수 있다. 예를 들어, 블록 변환을 이용한 신경망 압축 장치는 S1={<00R>} 및 S2={<0BR>}를 선택할 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 레이블이 부여된 소스 데이터 중 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출할 수 있다.
예를 들어, 소스 데이터가 sd1~sdn로 구성되며, 이 중 sd1, sd2에 대하여 변환 신경망들이 모두 레이블 값을 정확히 예측한 경우, sd1, sd2가 양성 샘플 소스 데이터가 될 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산할 수 있다.
일 실시예에 따르면, 정규화 손실은 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다.
일 예로, 정규화 손실은 아래 수학식과 같이 정의될 수 있다.
[수학식 1]
여기서, X는 소스 데이터, xp는 양성 샘플 소스 데이터를 나타내며, || ||H는 후버 놈(Huber norm)을 나타낸다. 또한, Ds(x)는 젠슨-섀넌 발산(Jensen-Shannon Divergence, JSD)에 의해 계산되는 원본 신경망과 변환 신경망 사이의 확률 분포 차이일 수 있으며, 아래와 같이 정의될 수 있다.
[수학식 2]
여기서, fs는 신경망 s의 예측값, s()는 소프트맥스(softmax) 함수, t는 소프트맥스 함수의 출력값을 조절하기 위한 온도 하이퍼파라미터(temperature hyperparameter)를 나타낸다.
일 실시예에 따르면, 정규화 손실은 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산될 수 있다. 예를 들어, 소스 데이터의 레이블은 원-핫 인코딩 레이블(one-hot encoded label)일 수 있다. 이때, 레이블 스무딩을 적용하면, 원-핫 인코딩 레이블의 0 및 1의 0 내지 1의 실수로 변경될 수 있다. 예를 들어, 원-핫 인코딩 레이블이 [0, 0, 1]인 경우, 레이블 스무딩이 적용되면 레이블은 [0.001, 0.002, 0.998]과 같이 변환될 수 있다. 일 예에 따르면, 수학식 1은 레이블 스무딩된 레이블을 이용하여 계산될 수 있다.
일 예에 따르면, 레이블 스무딩을 적용하여 원본 신경망과 변환 신경망의 예측값의 차이를 일정한 범위 내로 조절하는 클러스터링을 수행할 수 있다. 예를 들어, 도 3(a)는 원본 신경망(<00>)과 변환 신경망(<0B>)에 원-핫 인코딩 레이블의 소스 데이터를 적용하는 경우의 예측값 분포를 나타낸다. 도 3(a)에서 나타나는 바와 같이, 원-핫 인코딩 레이블이 적용된 소스 데이터를 이용하는 경우, 일부 소스 데이터에 대한 변환 신경망(<0B>)의 예측값과 원본 신경망(<00>)의 예측값의 차이가 일정 범위를 벗어날 수 있다. 반면, 레이블 스무딩이 적용된 소스 데이터를 이용하는 경우 예측값이 클러스터링될 수 있으며, 도 3(b)와 같이 변환 신경망(<0B>)의 예측값이 원본 신경망(<00>)의 예측값을 중심으로 일정 범위 내에서 위치하는 것을 볼 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다. 일 예로, 교차 엔트로피 손실은 아래 수학식과 같이 정의될 수 있다.
[수학식 3]
여기서, y는 원-핫 인코딩 레이블이 적용된 소스 데이터를 나타내며, g()는 레이블 스무딩을 위한 함수로 아래와 같이 정의될 수 있다.
[수학식 4]
여기서, 1y는 원-핫 인코딩 벡터이며, C는 클래스의 개수, a는 하이퍼파라미터를 나타낸다.
일 예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 정규화 손실 및 교차 엔트로피 손실에 기초하여 하나 이상의 선택 변환 신경망을 학습할 수 있다. 예를 들어, 소스 데이터를 이용하여 선택 변환 신경망을 사전 학습시키기 위한 손실함수는 아래 수학식과 같이 정의될 수 있다.
[수학식 5]
여기서, l는 임의의 파라미터이다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시킬 수 있다(130).
일 실시예에 따르면, 정규화 점수는 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산될 수 있다. 예를 들어, 타겟 데이터에 대한 원본 신경망의 예측값과 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포의 차이는 쿨백-라이블러 발산(Kullback-Leibler divergence, KLD)을 이용하여 계산될 수 있다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 타겟 데이터 중 원본 신경망과 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출할 수 있으며, 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이 및 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산할 수 있다. 예를 들어, 정규화 손실은 수학식 1을 이용하여 계산될 수 있다.
일 실시예에 따르면, 정규화 점수는 쿨백-라이블러 발산을 통한 원본 신경망과 사전 학습된 선택 변환 신경망의 확률 분포의 차이와 정규화 손실을 이용하여 계산될 수 있다. 예를 들어, 정규화 점수는 아래 수학식과 같이 정의될 수 있다.
[수학식 6]
여기서, KL()은 쿨백-라이블러 발산을 나타내며, 는 양성 샘플 타겟 데이터를 나타낸다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산할 수 있다. 일 예로, 타겟 데이터에 대한 원본 신경망의 교차 엔트로피 손실은 아래 수학식과 같이 정의될 수 있다.
[수학식 7]
여기서, 합성 레이블은 레이블이 지정되지 않은 타겟 데이터의 대표 특징을 클러스터링하여 생성되며, 교차 엔트로피 손실에 대한 의사 레이블(pseudo label)로 사용될 수 있다. 일 예로, 합성 레이블에 의한 손실은 아래 수학식과 같이 정의될 수 있다.
[수학식 8]
여기서, 는 합성 레이블을 나타낸다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치는 정규화 손실 및 교차 엔트로피 손실에 기초하여 선별 변환 신경망을 학습할 수 있다. 예를 들어, 타겟 데이터에 적응하기 위한 학습 손실은 아래 수학식과 같이 정의될 수 있다.
[수학식 9]
여기서, 는 사용자에 의해 정의되는 하이퍼파라미터이다.
일 예에 따르면, 타겟 데이터에 적응하는 과정은 수차례 반복될 수 있다. 예를 들어, 타겟 데이터에 적응하는 과정은 매 수행 시마다 수학식 6의 정규화 점수를 이용하여 사전 학습된 하나 이상의 선택 변환 신경망을 일정 비율로 선택할 수 있으며, 최종 하나의 선택 변환 신경망이 남을 때까지 반복될 수 있다.
도 4는 일 실시예에 따른 블록 변환을 이용한 신경망 압축 장치의 구성도이다.
일 실시예에 따르면, 블록 변환을 이용한 신경망 압축 장치(400)는 블록 변환부(410), 사전 학습부(420) 및 타겟 적응부(430)를 포함할 수 있다.
일 실시예에 따르면, 블록 변환부(410)는 둘 이상의 잔여 블록으로 구성된 원본 신경망에서 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록 및 재활용 블록 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성할 수 있다.
일 실시예에 따르면, 사전 학습부(420)는 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시킬 수 있다.
일 실시예에 따르면, 타겟 적응부(430)는 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시킬 수 있다.
도 5는 예시적인 실시예들에서 사용되기에 적합한 컴퓨팅 장치를 포함하는 컴퓨팅 환경(10)을 예시하여 설명하기 위한 블록도이다. 도시된 실시예에서, 각 컴포넌트들은 이하에 기술된 것 이외에 상이한 기능 및 능력을 가질 수 있고, 이하에 기술된 것 이외에도 추가적인 컴포넌트를 포함할 수 있다.
도시된 컴퓨팅 환경(10)은 컴퓨팅 장치(12)를 포함한다. 일 실시예에서, 컴퓨팅 장치(12)는 블록 변환을 이용한 신경망 압축 장치(400)일 수 있다.
컴퓨팅 장치(12)는 적어도 하나의 프로세서(14), 컴퓨터 판독 가능 저장 매체(16) 및 통신 버스(18)를 포함한다. 프로세서(14)는 컴퓨팅 장치(12)로 하여금 앞서 언급된 예시적인 실시예에 따라 동작하도록 할 수 있다. 예컨대, 프로세서(14)는 컴퓨터 판독 가능 저장 매체(16)에 저장된 하나 이상의 프로그램들을 실행할 수 있다. 상기 하나 이상의 프로그램들은 하나 이상의 컴퓨터 실행 가능 명령어를 포함할 수 있으며, 상기 컴퓨터 실행 가능 명령어는 프로세서(14)에 의해 실행되는 경우 컴퓨팅 장치(12)로 하여금 예시적인 실시예에 따른 동작들을 수행하도록 구성될 수 있다.
컴퓨터 판독 가능 저장 매체(16)는 컴퓨터 실행 가능 명령어 내지 프로그램 코드, 프로그램 데이터 및/또는 다른 적합한 형태의 정보를 저장하도록 구성된다. 컴퓨터 판독 가능 저장 매체(16)에 저장된 프로그램(20)은 프로세서(14)에 의해 실행 가능한 명령어의 집합을 포함한다. 일 실시예에서, 컴퓨터 판독 가능 저장 매체(16)는 메모리(랜덤 액세스 메모리와 같은 휘발성 메모리, 비휘발성 메모리, 또는 이들의 적절한 조합), 하나 이상의 자기 디스크 저장 디바이스들, 광학 디스크 저장 디바이스들, 플래시 메모리 디바이스들, 그 밖에 컴퓨팅 장치(12)에 의해 액세스되고 원하는 정보를 저장할 수 있는 다른 형태의 저장 매체, 또는 이들의 적합한 조합일 수 있다.
통신 버스(18)는 프로세서(14), 컴퓨터 판독 가능 저장 매체(16)를 포함하여 컴퓨팅 장치(12)의 다른 다양한 컴포넌트들을 상호 연결한다.
컴퓨팅 장치(12)는 또한 하나 이상의 입출력 장치(24)를 위한 인터페이스를 제공하는 하나 이상의 입출력 인터페이스(22) 및 하나 이상의 네트워크 통신 인터페이스(26)를 포함할 수 있다. 입출력 인터페이스(22) 및 네트워크 통신 인터페이스(26)는 통신 버스(18)에 연결된다. 입출력 장치(24)는 입출력 인터페이스(22)를 통해 컴퓨팅 장치(12)의 다른 컴포넌트들에 연결될 수 있다. 예시적인 입출력 장치(24)는 포인팅 장치(마우스 또는 트랙패드 등), 키보드, 터치 입력 장치(터치패드 또는 터치스크린 등), 음성 또는 소리 입력 장치, 다양한 종류의 센서 장치 및/또는 촬영 장치와 같은 입력 장치, 및/또는 디스플레이 장치, 프린터, 스피커 및/또는 네트워크 카드와 같은 출력 장치를 포함할 수 있다. 예시적인 입출력 장치(24)는 컴퓨팅 장치(12)를 구성하는 일 컴포넌트로서 컴퓨팅 장치(12)의 내부에 포함될 수도 있고, 컴퓨팅 장치(12)와는 구별되는 별개의 장치로 컴퓨팅 장치(12)와 연결될 수도 있다.
이제까지 본 발명에 대하여 그 바람직한 실시 예들을 중심으로 살펴보았다. 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자는 본 발명이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 구현될 수 있음을 이해할 수 있을 것이다. 따라서, 본 발명의 범위는 전술한 실시 예에 한정되지 않고 특허 청구범위에 기재된 내용과 동등한 범위 내에 있는 다양한 실시 형태가 포함되도록 해석되어야 할 것이다.
400: 블록 변환을 이용한 신경망 압축 장치
410: 블록 변환부
420 : 사전 학습부
430: 타겟 적응부

Claims (22)

  1. 신경망 압축 장치에서 수행되는 방법으로서,
    둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
    상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
    상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 포함하고,
    상기 정규화 점수는,
    타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 방법.
  2. 제 1 항에 있어서,
    상기 블록 변환 단계는
    m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성하는, 블록 변환을 이용한 신경망 압축 방법.
  3. 제 2 항에 있어서,
    상기 사전 학습 단계는
    변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
  4. 제 1 항에 있어서,
    상기 사전 학습 단계는
    상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
    상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
  5. 제 4 항에 있어서,
    상기 정규화 손실은
    상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및
    상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
  6. 제 4 항에 있어서,
    상기 정규화 손실은
    상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
  7. 제 6 항에 있어서,
    상기 사전 학습 단계는
    원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
  8. 제 7 항에 있어서,
    상기 사전 학습 단계는
    상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 방법.
  9. 삭제
  10. 제 1 항에 있어서,
    상기 타겟 적응 단계는
    타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며,
    상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며,
    상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 방법.
  11. 제 10 항에 있어서,
    상기 타겟 적응 단계는
    상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 방법.
  12. 제 11 항에 있어서,
    상기 타겟 적응 단계는
    상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 방법.
  13. 둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환부;
    상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습부; 및
    상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응부를 포함하고,
    상기 정규화 점수는,
    타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 블록 변환을 이용한 신경망 압축 장치.
  14. 청구항 13에 있어서,
    상기 블록 변환부는,
    m개의 잔여 블록으로 구성된 원본 신경망 S0으로부터 1개의 잔여 블록을 변환하여 생성한 변환 신경망의 집합 S1 내지 m-1개 잔여 블록을 변환하여 생성한 변환 신경망의 집합 Sm-1을 생성하는, 블록 변환을 이용한 신경망 압축 장치.
  15. 청구항 14에 있어서,
    상기 사전 학습부는,
    변환 신경망의 집합 S1 내지 변환 신경망의 집합 Sm-1의 집합들 각각으로부터 하나의 변환 신경망을 선택하며, 선택된 m-1 개의 선택 변환 신경망들을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
  16. 청구항 13에 있어서,
    상기 사전 학습부는,
    상기 레이블이 부여된 소스 데이터 중 상기 하나 이상의 변환 신경망에서 모두 레이블 값을 예측한 하나 이상의 양성 샘플 소스 데이터를 추출하며,
    상기 하나 이상의 양성 샘플 소스 데이터를 기초로 선택 변환 신경망의 정규화 손실(regularizations loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
  17. 청구항 16에 있어서,
    상기 정규화 손실은,
    상기 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 소스 데이터에 대한 원본 신경망의 예측값과 상기 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
  18. 청구항 16에 있어서,
    상기 정규화 손실은, 상기 소스 데이터의 레이블에 레이블 스무딩(label-smoothing)을 적용하여 계산되고,
    상기 사전 학습부는,
    원본 소스 데이터 및 레이블 스무딩이 적용된 소스 데이터에 대한 원본 신경망의 예측값을 기초로 레이블 스무딩에 대한 교차 엔트로피 손실(cross-entropy loss)을 계산하며, 상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 하나 이상의 선택 변환 신경망을 학습시키는, 블록 변환을 이용한 신경망 압축 장치.
  19. 청구항 13에 있어서,
    상기 타겟 적응부는,
    타겟 데이터 중 상기 원본 신경망과 상기 선별 변환 신경망이 동일한 값을 예측하는 양성 샘플 타겟 데이터를 추출하며, 상기 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이 및 상기 양성 샘플 타겟 데이터에 대한 원본 신경망의 예측값과 상기 선별 변환 신경망의 예측값의 확률 분포 차이에 기초하여 정규화 손실(regularizations loss)을 계산하며, 상기 정규화 점수는 상기 정규화 손실을 더 기초하여 계산되는, 블록 변환을 이용한 신경망 압축 장치.
  20. 청구항 19에 있어서,
    상기 타겟 적응부는,
    상기 타겟 데이터를 소정의 기준으로 클러스터링하여 생성한 합성 레이블(synthetic label)에 대한 상기 원본 신경망의 교차 엔트로피 손실(cross-entropy loss)을 계산하는, 블록 변환을 이용한 신경망 압축 장치.
  21. 청구항 20에 있어서,
    상기 타겟 적응부는,
    상기 정규화 손실 및 상기 교차 엔트로피 손실에 기초하여 상기 선별 변환 신경망을 학습하는, 블록 변환을 이용한 신경망 압축 장치.
  22. 비일시적 컴퓨터 판독 가능한 저장 매체(non-transitory computer readable storage medium)에 저장된 컴퓨터 프로그램으로서,
    상기 컴퓨터 프로그램은 하나 이상의 명령어들을 포함하고, 상기 명령어들은 하나 이상의 프로세서들을 갖는 컴퓨팅 장치에 의해 실행될 때, 상기 컴퓨팅 장치로 하여금,
    둘 이상의 잔여 블록(residual block)으로 구성된 원본 신경망에서 상기 둘 이상의 잔여 블록 중 적어도 하나를 우회 블록(bypassing block) 및 재활용 블록(recycling block) 중 적어도 하나로 변환한 하나 이상의 변환 신경망을 생성하는 블록 변환 단계;
    상기 하나 이상의 변환 신경망 중 소정 기준으로 선택된 하나 이상의 선택 변환 신경망을 레이블이 부여된 소스 데이터를 이용하여 학습 시키는 사전 학습 단계; 및
    상기 사전 학습된 하나 이상의 선택 변환 신경망 중 정규화 점수(regularization score)를 기준으로 선별된 선별 변환 신경망을 레이블이 부여되지 않은 타겟 데이터를 이용하여 학습시키는 타겟 적응 단계를 수행하도록 하며,
    상기 정규화 점수는,
    타겟 데이터에 대한 원본 신경망의 예측값과 상기 사전 학습된 하나 이상의 선택 변환 신경망의 예측값의 확률 분포 차이에 기초하여 계산되는 것으로 각 확률 분포들의 중심 값에 대한 거리를 정규화한 점수인, 컴퓨터 프로그램.
KR1020220058217A 2022-05-12 2022-05-12 블록 변환을 이용한 신경망 압축 장치 및 방법 KR102650992B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220058217A KR102650992B1 (ko) 2022-05-12 2022-05-12 블록 변환을 이용한 신경망 압축 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220058217A KR102650992B1 (ko) 2022-05-12 2022-05-12 블록 변환을 이용한 신경망 압축 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20230158735A KR20230158735A (ko) 2023-11-21
KR102650992B1 true KR102650992B1 (ko) 2024-03-22

Family

ID=88981989

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220058217A KR102650992B1 (ko) 2022-05-12 2022-05-12 블록 변환을 이용한 신경망 압축 장치 및 방법

Country Status (1)

Country Link
KR (1) KR102650992B1 (ko)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232912A1 (en) * 2018-10-01 2021-07-29 Google Llc Systems and Methods for Providing a Machine-Learned Model with Adjustable Computational Demand

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110163370B (zh) 2019-05-24 2021-09-17 上海肇观电子科技有限公司 深度神经网络的压缩方法、芯片、电子设备及介质

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20210232912A1 (en) * 2018-10-01 2021-07-29 Google Llc Systems and Methods for Providing a Machine-Learned Model with Adjustable Computational Demand

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
Creamnuts. "Self-training with Noisy Student improves ImageNet classification(2019)"*
Z. Huang 등. "Data-Driven Sparse Structure Selection for DeepNeural Networks"*

Also Published As

Publication number Publication date
KR20230158735A (ko) 2023-11-21

Similar Documents

Publication Publication Date Title
JP7108147B2 (ja) 表現用エンドツーエンド音声合成における変分埋め込み容量
US11663488B2 (en) Initialization of parameters for machine-learned transformer neural network architectures
CN111382584B (zh) 文本翻译方法、装置、可读存储介质和计算机设备
WO2020140487A1 (zh) 用于智能设备的人机交互语音识别方法及系统
JP2023509031A (ja) マルチモーダル機械学習に基づく翻訳方法、装置、機器及びコンピュータプログラム
CN110990543A (zh) 智能对话的生成方法、装置、计算机设备及计算机存储介质
JP7282363B2 (ja) 言語識別モデルの訓練方法及び装置、並びにそのためのコンピュータプログラム
CN112257858A (zh) 一种模型压缩方法及装置
CN108460028B (zh) 将句子权重融入神经机器翻译的领域适应方法
CN114676234A (zh) 一种模型训练方法及相关设备
KR20200052453A (ko) 딥러닝 모델 학습 장치 및 방법
US11977842B2 (en) Methods and systems for generating mobile enabled extraction models
CN114021524A (zh) 一种情感识别方法、装置、设备及可读存储介质
Çakır et al. Multi-task regularization based on infrequent classes for audio captioning
KR20210042696A (ko) 모델 학습 방법 및 장치
KR20190136578A (ko) 음성 인식 방법 및 장치
CN113609284A (zh) 一种融合多元语义的文本摘要自动生成方法及装置
KR101646461B1 (ko) 딥 러닝을 이용한 한국어 의존 구문 분석 방법
CN110298046B (zh) 一种翻译模型训练方法、文本翻译方法及相关装置
CN117980915A (zh) 用于端到端自监督预训练的对比学习和掩蔽建模
CN116863920B (zh) 基于双流自监督网络的语音识别方法、装置、设备及介质
KR102650992B1 (ko) 블록 변환을 이용한 신경망 압축 장치 및 방법
CN117672176A (zh) 基于语音自监督学习表征的重读可控语音合成方法及装置
CN116798412A (zh) 模型训练方法、语音识别方法、装置及电子设备
CN114758664A (zh) 语音数据筛选方法、装置、电子设备和可读存储介质

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant