KR102475588B1 - 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체 - Google Patents

기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체 Download PDF

Info

Publication number
KR102475588B1
KR102475588B1 KR1020200036527A KR20200036527A KR102475588B1 KR 102475588 B1 KR102475588 B1 KR 102475588B1 KR 1020200036527 A KR1020200036527 A KR 1020200036527A KR 20200036527 A KR20200036527 A KR 20200036527A KR 102475588 B1 KR102475588 B1 KR 102475588B1
Authority
KR
South Korea
Prior art keywords
model
guide element
training
target
teacher model
Prior art date
Application number
KR1020200036527A
Other languages
English (en)
Other versions
KR20210065013A (ko
Inventor
시앙 리
위후이 순
징웨이 리
지아리앙 지앙
Original Assignee
베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드 filed Critical 베이징 시아오미 인텔리전트 테크놀로지 컴퍼니 리미티드
Publication of KR20210065013A publication Critical patent/KR20210065013A/ko
Application granted granted Critical
Publication of KR102475588B1 publication Critical patent/KR102475588B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/088Non-supervised learning, e.g. competitive learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F17/00Digital computing or data processing equipment or methods, specially adapted for specific functions
    • G06F17/10Complex mathematical operations
    • G06F17/18Complex mathematical operations for evaluating statistical data, e.g. average values, frequency distributions, probability functions, regression analysis
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • G06F40/58Use of machine translation, e.g. for multi-lingual retrieval, for server-side translation for client devices or for real-time translation
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • G06N3/0454
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/06Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons
    • G06N3/063Physical realisation, i.e. hardware implementation of neural networks, neurons or parts of neurons using electronic means
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N7/00Computing arrangements based on specific mathematical models
    • G06N7/01Probabilistic graphical models, e.g. probabilistic networks
    • YGENERAL TAGGING OF NEW TECHNOLOGICAL DEVELOPMENTS; GENERAL TAGGING OF CROSS-SECTIONAL TECHNOLOGIES SPANNING OVER SEVERAL SECTIONS OF THE IPC; TECHNICAL SUBJECTS COVERED BY FORMER USPC CROSS-REFERENCE ART COLLECTIONS [XRACs] AND DIGESTS
    • Y02TECHNOLOGIES OR APPLICATIONS FOR MITIGATION OR ADAPTATION AGAINST CLIMATE CHANGE
    • Y02TCLIMATE CHANGE MITIGATION TECHNOLOGIES RELATED TO TRANSPORTATION
    • Y02T10/00Road transport of goods or passengers
    • Y02T10/10Internal combustion engine [ICE] based vehicles
    • Y02T10/40Engine management systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Mathematical Physics (AREA)
  • Computational Linguistics (AREA)
  • General Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Health & Medical Sciences (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Evolutionary Computation (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Mathematical Analysis (AREA)
  • Pure & Applied Mathematics (AREA)
  • Mathematical Optimization (AREA)
  • Computational Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Evolutionary Biology (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Operations Research (AREA)
  • Probability & Statistics with Applications (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Algebra (AREA)
  • Databases & Information Systems (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체에 관한 것이다. 기계 번역의 신경 네트워크 모델 압축 방법에 있어서, N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하고, 상기 N은 1보다 큰 양의 정수이며; 상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하며; 상기 공동 최적화 목표에 기반하여 학생 모델을 훈련시킨다. 본 발명은 교사 모델의 지식을 학생 모델에 더 효과적으로 전달하여, 학생 모델의 번역 품질을 개선시킬 수 있다.

Description

기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체{METHOD AND DEVICE FOR COMPRESSING A NEURAL NETWORK MODEL FOR MACHINE TRANSLATION AND STORAGE MEDIUM}
관련 출원의 상호 참조
본 출원은 출원 번호가 CN201911167600.6이고, 출원일이 2019년 11월 25일인 중국 특허 출원에 기반하여 제출된 것이며, 상기 중국 특허 출원의 우선권을 주장하는 바, 상기 중국 특허 출원의 모든 내용은 참조로서 본 출원에 원용된다.
본 발명은 컴퓨터 기술분야에 관한 것으로서, 특히 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체에 관한 것이다.
신경 네트워크 기반의 딥러닝은 이미지 분류, 기계 번역 및 음성 인식 등 복수 개의 기계 학습 작업에서 우수한 성능을 획득하였고, 여기서 신경 네트워크 모델을 이용하여 기계 번역을 수행하는 것은 현재 주류의 기계 번역 방법이 되어, 광범위한 학문 및 시장의 가치를 가지고 있다.
현재, 복잡한 신경 네트워크 모델에 대해 고효율적인 압축을 수행함으로써 모델 스토리지 오버헤드를 감소시키고, 모델 유추 속도를 향상시키는 동시에, 압축이 번역 품질에 대한 손상을 최대한 감소시켜, 기계 번역을 위한 신경 네트워크 모델은 모바일 단말에 적용시키는 핵심 기술이 되었으며, 현재 학술 및 산업 연구에서의 핫이슈이다.
관련 기술에서, 지식 증류(Knowledge Distillation) 방법을 사용하여 기계 번역을 위한 신경 네트워크 모델을 압축하면, 모델의 복잡도를 감소시킬 수 있을 뿐만 아니라, 모델 압축으로 인한 예측 정밀도가 감소되는 문제를 완화시킬 수도 있어, 현재 주류의 신경 네트워크 모델 압축 방법이 된다. 지식 증류 방법을 사용하여 신경 네트워크 모델를 압축하는 것은 하나의 고정밀도의 대형 모델을 사용하여 소형 모델의 훈련을 가이드하는 것으로 이해할 수 있고, 대형 모델은 교사 모델로 지칭될 수도 있고, 소형 모델은 학생 모델로 지칭될 수도 있다. 하나의 교사 모델을 사용하여 복수 개의 학생 모델을 훈련시킬 수 있다.
그러나, 일반적으로 신경 네트워크 모델을 압축하기 위한 지식 증류 방법은, 정보 전송의 정확도가 비교적 낮음으로써, 학생 모델의 번역 품질이 비교적 낮으며, 신경 네트워크 모델을 이용한 기계 번역이 모바일 단말에서의 번역 효과가 이상적이지 않으므로, 사용자 체험에 영향을 미친다.
관련 기술에서 존재하는 문제를 해결하기 위해, 본 발명은 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체를 제공한다.
본 발명 실시예의 제1 측면에 따르면, 기계 번역을 위한 신경 네트워크 모델 압축 방법을 제공하고, 상기 방법은,
N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하는 단계 - 상기 N은 1보다 큰 양의 정수임 - ; 상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하는 단계; 및 상기 공동 최적화 목표에 기반하여 학생 모델을 훈련시키는 단계를 포함한다.
한 가지 실시형태에 있어서, 상기 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, 상기 n은 1보다 크거나 같고 N보다 작거나 같은 양의 정수이다.
상기 N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하는 단계는,
상기 N 개의 훈련 샘플에 기반하여, 상기 제1 교사 모델을 훈련시키는 단계; 상기 N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득하는 단계 - n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스임 - ; 및 상기 N 개의 역방향 훈련 샘플에 기반하여, 상기 제2 교사 모델을 훈련시키는 단계를 포함한다.
다른 한 가지 실시형태에 있어서, 상기 n 번째 훈련 샘플에 대해, 상기 제1 교사 모델에 관련된 제1 가이드 요소 및 상기 제2 교사 모델에 관련된 제2 가이드 요소를 각각 결정하는 단계는,
n 번째 목표 언어 시퀀스에 대한 상기 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 상기 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 상기 학생 모델의 제3 예측 결과를 획득하는 단계; 상기 제1 가이드 요소로서 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 단계; 및 상기 제2 가이드 요소로서 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 단계를 포함한다.
또 다른 한 가지 실시형태에 있어서, 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 단계는,
상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제1 교사 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제1 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제1 확률 분포에 기반하여 상기 제1 손실 함수를 결정하는 단계를 포함한다.
상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 단계는,
상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제2 교사 모델이 상기 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제2 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제2 확률 분포에 기반하여 상기 제2 손실 함수를 결정하는 단계를 포함한다.
또 다른 한 가지 실시형태에 있어서, 상기 n 번째 훈련 샘플에 대해, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되는 서브 최적화 목표를 결정하는 단계는,
상기 제1 가이드 요소에 대응되는 제1 가중치 및 상기 제2 가이드 요소에 대응되는 제2 가중치를 결정하는 단계; 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 획득하고, 상기 자기 최적화 요소에 대응되는 제3 가중치를 결정하는 단계; 및 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치에 기반하여, 상기 제1 가이드 요소, 상기 제2 가이드 요소 및 상기 자기 최적화 요소에 대해 가중 합산을 수행하여, 상기 서브 최적화 목표를 획득하는 단계를 포함한다.
또 다른 한 가지 실시형태에 있어서, 상기 제1 가중치 및 상기 제2 가중치의 합은 1이다.
또 다른 한 가지 실시형태에 있어서, 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소는,
n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 목록 크기에 기반하여, 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 네가티브 로그 우도 손실 함수를 결정하는 방식; 및 상기 네가티브 로그 우도 손실 함수를, 상기 자기 최적화 요소로 사용하는 방식;으로 결정된다.
본 발명 실시예의 제2 측면에 따르면, 기계 번역을 위한 신경 네트워크 모델 압축 장치를 제공하고, 상기 방법은,
N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성된 교사 모델 훈련 유닛 - 상기 N은 1보다 큰 양의 정수임 - ; 상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하도록 구성된 공동 최적화 목표 결정 유닛; 및 상기 공동 최적화 목표에 기반하여, 학생 모델을 훈련시키도록 구성된 학생 모델 훈련 유닛을 포함한다.
또 다른 한 가지 실시형태에 있어서, 상기 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, 상기 n은 1보다 크거나 같고 N보다 작거나 같은 양의 정수이다.
상기 교사 모델 훈련 유닛은, N 개의 훈련 샘플에 기반하여,
상기 N 개의 훈련 샘플에 기반하여, 상기 제1 교사 모델을 훈련시키는 방식; 상기 N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득하는 방식 - n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스임 - ; 및 상기 N 개의 역방향 훈련 샘플에 기반하여, 상기 제2 교사 모델을 훈련시키는 방식;으로, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, n 번째 훈련 샘플에 대해, 상기 공동 최적화 목표 결정 유닛은,
n 번째 목표 언어 시퀀스에 대한 상기 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 상기 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 상기 학생 모델의 제3 예측 결과를 획득하는 방식; 상기 제1 가이드 요소로서 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 방식; 및 상기 제2 가이드 요소로서 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 방식;으로 상기 제1 교사 모델에 관련된 제1 가이드 요소 및 상기 제2 교사 모델에 관련된 제2 가이드 요소를 각각 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, 상기 공동 최적화 목표 결정 유닛은,
상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제1 교사 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제1 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제1 확률 분포에 기반하여 상기 제1 손실 함수를 결정하는 방식으로 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하도록 구성된다.
상기 공동 최적화 목표 결정 유닛은,
상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제2 교사 모델이 상기 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제2 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제2 확률 분포에 기반하여 상기 제2 손실 함수를 결정하는 방식으로 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, n 번째 훈련 샘플에 대해, 상기 공동 최적화 목표 결정 유닛은, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라,
상기 제1 가이드 요소에 대응되는 제1 가중치 및 상기 제2 가이드 요소에 대응되는 제2 가중치를 결정하는 방식; 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 획득하고, 상기 자기 최적화 요소에 대응되는 제3 가중치를 결정하는 방식; 및 상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치에 기반하여, 상기 제1 가이드 요소, 상기 제2 가이드 요소 및 상기 자기 최적화 요소에 대해 가중 합산을 수행하여, 상기 서브 최적화 목표를 획득하는 방식;으로 상기 훈련 샘플에 대응되는 서브 최적화 목표를 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, 상기 제1 가중치 및 상기 제2 가중치의 합은 1이다.
또 다른 한 가지 실시형태에 있어서, 상기 공동 최적화 목표 결정 유닛은,
훈련 데이터 샘플 개수, n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 목록 크기에 기반하여, 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 네가티브 로그 우도 손실 함수를 결정하는 방식; 및 상기 네가티브 로그 우도 손실 함수를, 상기 자기 최적화 요소로 사용하는 방식;으로 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 결정한다.
본 발명 실시예의 제3 측면에 따르면, 기계 번역을 위한 신경 네트워크 모델 압축 장치를 제공하고, 상기 방법은,
프로세서; 및 프로세서에서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고;
여기서, 상기 프로세서는 제1 측면 또는 제1 측면의 어느 한 실시형태에 따른 신경 네트워크 모델 압축 방법을 실행하도록 구성된다.
본 발명 실시예의 제4 측면에 따르면, 비 일시적 컴퓨터 판독 가능한 저장 매체를 제공하고, 상기 저장 매체에서의 명령어가 프로세서에 의해 실행될 경우, 프로세서로 하여금 제1 측면 또는 제1 측면의 어느 한 실시형태에 따른 신경 네트워크 모델 압축 방법을 실행할 수 있도록 한다.
본 발명의 실시예에서 제공한 기술방안은 아래와 같은 유익한 효과를 포함할 수 있다. 두 개의 교사 모델에 의해 각각 결정된 두 개의 가이드 요소에 기반하여, 공동 최적화 목표를 결정하고, 공동 최적화 목표 훈련 학생 모델에 기반하여, 교사 모델의 지식을 학생 모델에 더 효과적으로 전달하여, 학생 모델의 번역 품질을 개선시킬 수 있다.
이해해야 할 것은, 이상의 일반적인 설명 및 하기의 상세한 설명은 예시적이고 한정적인 것이며 본 발명을 한정하지 않는다.
아래의 도면은 본 명세서의 일부분으로서 명세서 전체를 구성하며, 본 발명에 맞는 실시예를 예시하여, 명세서와 함께 본 발명의 원리를 해석하기 위한것이다.
도 1은 일 예시적 실시예에 따라 도시된 기계 번역을 위한 신경 네트워크 모델 압축 방법의 흐름도이다.
도 2는 일 예시적 실시예에 따라 도시된 훈련 샘플에 대응되는 공동 최적화 목표를 결정하는 흐름도이다.
도 3은 일 예시적 실시예에 따라 도시된 제1 교사 모델 및 제2 교사 모델을 훈련시키는 방법 흐름도이다.
도 4는 일 예시적 실시예에 따라 도시된 가이드 요소를 결정하는 방법 흐름도이다.
도 5는 일 예시적 실시예에 따라 도시된 양방향 지식 증류 신경 기계 번역 학생 모델 훈련 아키텍처이다.
도 6은 일 예시적 실시예에 따라 도시된 기계 번역을 위한 신경 네트워크 모델 압축 장치의 블록도이다.
도 7은 일 예시적 실시예에 따라 도시된 장치의 블록도이다.
아래에 예시적 실시예에 대해 상세히 설명하며, 그 예는 도면에 도시된다. 아래의 설명에서 도면을 참조할 때, 다른 표시가 없는 한, 상이한 도면에서의 동일한 숫자는 동일하거나 유사한 요소를 나타낸다. 아래의 예시적 실시예에서 설명된 실시형태는 본 발명과 일치하는 모든 실시형태를 나타내는 것은 아니다. 이와 반대로, 이들은 다만 청구범위에 자세히 설명된 바와 같이 본 발명의 일부 측면과 일치하는 장치 및 방법의 예일 뿐이다.
본 발명 실시예에서 제공한 기계 번역을 위한 신경 네트워크 모델 압축 방법은 이중 언어 병렬 문장 쌍의 학생 모델의 훈련에 적용된다. 여기서, 학생 모델은 모바일 단말에 의해 전개된 기계 번역을 위한 지식 증류 신경 네트워크 모델로 이해할 수 있다. 모바일 단말에 의해 전개된 기계 번역을 위한 학생 모델 네트워크 구조의 복잡도는 클라우드 서버에 의해 전개된 기계 번역을 위한 교사 모델보다 훨씬 작으므로, 파라미터 스케일을 감소시킬 수 있고 디코딩 속도도 향상시킬 수 있으나, 이와 동시에 모델 용량의 감소로 인해 그의 번역 품질이 저하된다.
이 점을 고려하여, 본 발명 실시예는 기계 번역을 위한 신경 네트워크 모델 압축 방법을 제공하여, N 개의 훈련 샘플에 기반하여 두 개의 교사 모델을 각각 훈련시키고, N 개의 훈련 샘플에서의 각 훈련 샘플에 대해, 두 개의 교사 모델에 관련된 두 개의 가이드 요소를 이용하여, 훈련 샘플의 공동 최적화 목표를 결정한다. N 개의 훈련 샘플에서의 각 훈련 샘플 및 이에 대응되는 공동 최적화 목표에 기반하여, 학생 모델을 훈련시킴으로써, 교사 모델의 지식을 학생 모델에 더 효과적으로 전달하여, 학생 모델의 번역 품질을 개선시킬 수 있다.
한 가지 실시형태에 있어서, 본 발명 실시예에서 N 개의 소스 언어 엔드와 동일하고, 목표 언어 엔드 시퀀스와 역 훈련 샘플에 기반하여, 두 개의 교사 모델을 각각 훈련시킨다. 예를 들어, N 개의 왼쪽에서 오른쪽(left-to-right, L2R) 훈련 샘플 및 N 개의 오른쪽에서 왼쪽(right-to-left, R2L) 훈련 샘플, 또한 최적화 목표로서 네가티브 로그 우도(the negative log-likelihood, NLL) 손실 함수를 이용하여, L2R 교사 모델 및 R2L 교사 모델을 얻도록 각각 훈련시킬 수 있다.
본 발명에서 설명의 편의를 위해, 두 개의 교사 모델 중의 하나의 교사 모델은 제1 교사 모델로 지칭되고, 다른 하나는 제2 교사 모델로 지칭된다. 학생 모델에 대한 제1 교사 모델의 가이드 정보는 제1 가이드 요소로 지칭되고, 학생 모델에 대한 제2 교사 모델의 가이드 정보는 제2 가이드 요소로 지칭된다.
도 1은 일 예시적 실시예에 따라 도시된 기계 번역을 위한 신경 네트워크 모델 압축 방법의 흐름도이다. 도 1에 도시된 바와 같이, 기계 번역을 위한 신경 네트워크 모델 압축 방법은 모바일 단말에 적용되고, 아래와 같은 단계를 포함한다.
단계 S11에 있어서, N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득한다.
여기서, N은 1보다 큰 양의 정수이다.
본 발명 실시예의 한 가지 실시형태에 있어서, N 개의 훈련 샘플은 소스 언어 엔드와 동일하고 목표 언어 엔드 시퀀스에 역 훈련 샘플이다. 예를 들어, 상기 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍이고, 여기서, n은 1보다 크거나 같고 N보다 작거나 같은 모든 양의 정수이다. n 번째 목표 언어 시퀀스는 M 개의 목표 어휘를 포함한다. 여기서, M은 1보다 큰 양의 정수이다.
단계 S12에 있어서, N 개의 훈련 샘플에서의 각 훈련 샘플에 대해 이에 대응되는, 학생 모델을 최적화하기 위한 서브 최적화 목표를 각각 결정한다.
본 발명 실시예에 있어서, 훈련 샘플에 대응되는 서브 최적화 목표를 결정할 경우 도 2에 도시된 바와 같은 방식을 사용하여 결정할 수 있다.
단계 S121에 있어서, n 번째 훈련 샘플에 대해, 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소를 각각 결정한다.
단계 S122에 있어서, n 번째 훈련 샘플에 대해, 제1 가이드 요소 및 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정한다.
본 발명 실시예에서의 서브 최적화 목표는 제1 교사 모델 및 제2 교사 모델에 의해 학생 모델을 공동 최적화시키는 증류 손실 함수로 이해할 수 있다. 여기서, 증류 손실 함수는 예를 들어, 쿨백-라이블러(Kullback-Leibler, KL) 발산 손실 함수(상대 엔트로피 손실 함수로도 지칭됨)일 수 있다.
단계 S13에 있어서, N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하고, 결정된 공동 최적화 목표에 기반하여 학생 모델을 훈련시킨다.
본 발명 실시예에서 N 개의 훈련 샘플에 기반하여 제1 교사 모델 및 제2 교사 모델을 각각 훈련시키고, N 개의 훈련 샘플에서의 각 훈련 샘플에 대해, 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소에 기반하여, 훈련 샘플의 서브 최적화 목표을 결정한다. N 개의 훈련 샘플에서의 각 훈련 샘플의 서브 최적화 목표에 기반하여 공동 최적화 목표를 결정하고, 공동 최적화 목표에 기반하여 학생 모델을 훈련시킴으로써, 교사 모델의 지식을 학생 모델에 더 효과적으로 전달하여, 학생 모델의 번역 품질을 개선시킬 수 있다.
본 발명 실시예에서 아래에 실제 응용을 결합하여 상기 실시예에서 언급한 신경 네트워크 모델 압축 방법의 실시를 설명한다.
한 가지 실시형태에 있어서, 본 발명 실시예에서 언급한 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, n 번째 목표 언어 시퀀스는 M 개의 목표 어휘를 포함한다.
N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하는 단계는, 도 3에 도시된 바와 같은 결정 방식을 사용할 수 있다.
도 3은 본 발명 예시적 실시예에 도시된 제1 교사 모델 및 제2 교사 모델을 훈련시키는 방법 흐름도이다. 도 3을 참조하면, 아래와 같은 단계를 포함한다.
단계 S111에 있어서, N 개의 훈련 샘플에 기반하여, 제1 교사 모델을 훈련시킨다.
본 발명 실시예에 있어서, N 개의 이중 언어 문장 쌍을 포함하는 훈련 샘플을,
Figure 112020031492904-pat00001
라고 가정한다.
엔코더-디코더에 기반한 신경 기계 번역 프레임을 사용하여, 왼쪽에서 오른쪽(left-to-right, L2R)으로의 교사 모델을 훈련시켜, 제1 교사 모델을 얻는다.
단계 S112에 있어서, N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득한다. 여기서, n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스이다.
예를 들어, 본 발명 실시예에서,
Figure 112020031492904-pat00002
에 기반하여 목표 언어 시퀀스가 오른쪽에서 왼쪽으로의 훈련 데이터
Figure 112020031492904-pat00003
를 구축한다.
여기서,
Figure 112020031492904-pat00004
Figure 112020031492904-pat00005
의 역방향 시퀀스이고, 예를 들어,
Figure 112020031492904-pat00006
이면,
Figure 112020031492904-pat00007
이다.
단계 S113에 있어서, N 개의 역방향 훈련 샘플에 기반하여, 제2 교사 모델을 훈련시킨다.
본 발명 실시예에 있어서, L2R 교사 모델의 훈련 방식에 따라,
Figure 112020031492904-pat00008
데이터에 기반하여 하나의 오른쪽에서 왼쪽(right-to-left, R2L)으로의 R2L 교사 모델을 훈련시켜, 즉 제2 교사 모델을 얻을 수 있다.
본 발명 실시예에서 상기 훈련으로 얻은 제1 교사 모델 및 제2 교사 모델에는 각각 자기 최적화를 수행하는 최적화 목표가 존재한다.
Figure 112020031492904-pat00009
Figure 112020031492904-pat00010
은 동일한 목표 언어 어휘 목록(크기는
Figure 112020031492904-pat00011
)을 갖고 있으므로, 하나의 동일한 소스 언어 엔드(x)를 갖는 훈련 샘플
Figure 112020031492904-pat00012
Figure 112020031492904-pat00013
에 대해, L2R 교사 모델 및 R2L교사 모델의 교차 엔트로피 손실 함수는 각각 최적화를 수행하는 훈련 최적화 목표로 사용된다.
예를 들어, 본 발명 실시예에서 n 번째 훈련 샘플에 대해, 식 1을 사용하여 L2R 교사 모델이 자기 최적화를 수행하는 서브 최적화 목표를 결정하고, N 개의 훈련 샘플 중의 각 훈련 샘플의 서브 최적화 목표에 기반하여 L2R 교사 모델이 자기 최적화를 수행하는 최적화 목표를 결정할 수 있다. 예를 들어, L2R 교사 모델이 자기 최적화를 수행하는 최적화 목표는 공식 2를 사용하여 나타낸다.
공식 1:
Figure 112020031492904-pat00014
공식 2:
Figure 112020031492904-pat00015
본 발명 실시예에서 n 번째 역방향 훈련 샘플에 대해, 공식 3을 사용하여 R2L 교사 모델이 자기 최적화를 수행하는 서브 최적화 목표를 결정하고, N 개의 훈련 샘플의 각 훈련 샘플의 서브 최적화 목표에 기반하여 R2L 교사 모델이 자기 최적화를 수행하는 최적화 목표를 결정할 수 있다. 예를 들어, R2L 교사 모델이 자기 최적화를 수행하는 최적화 목표는 공식 4를 사용하여 나타낸다.
공식 3:
Figure 112020031492904-pat00016
공식 4:
Figure 112020031492904-pat00017
여기서,
Figure 112020031492904-pat00018
은 지시 함수이고, N은 훈련 데이터 샘플 개수를 나타내고,
Figure 112020031492904-pat00019
은 n 번째 훈련 샘플 목표 언어 시퀀스 길이를 나타내며,
Figure 112020031492904-pat00020
는 훈련 샘플 목표 언어 어휘 목록 크기를 나타낸다.
본 발명 실시예에서 제1 교사 모델 및 제2 교사 모델을 얻은 후, N 개의 훈련 샘플에서의 각 훈련 샘플에 대해 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소를 각각 결정할 수 있다.
본 발명에서 N 개의 훈련 샘플에서의 n 번째 훈련 샘플에 대해, 도 4에 도시된 바와 같은 방식을 사용하여 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소를 결정할 수 있다. 도 4를 참조하면, 아래와 같은 단계를 포함한다.
단계 S1211에 있어서, n 번째 목표 언어 시퀀스에 대한 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 학생 모델의 제3 예측 결과를 획득한다.
본 발명 실시예에 있어서, 학생 모델을 훈련시킬 경우, 제1 교사 모델, 제2 교사 모델 및 학생 모델을 이용하여 n 번째 목표 언어 시퀀스를 각각 예측하고, 예측 결과에 따라 제1 가이드 요소 및 제2 가이드 요소를 결정할 수 있다. 설명의 편의를 위해, 본 발명에서, n 번째 목표 언어 시퀀스에 대한 제1 교사 모델의 예측 결과는, 제1 예측 결과로 지칭된다. 제2 교사 모델의 n 번째 목표 언어 시퀀스에 대한 예측 결과는, 제2 예측 결과로 지칭된다. n 번째 목표 언어 시퀀스에 대한 학생 모델의 예측 결과는, 제3 예측 결과로 지칭된다.
단계 S1212에 있어서, 제1 가이드 요소로서 제1 교사 모델의 제1 예측 결과에 대한 학생 모델의 제3 예측 결과의 제1 손실 함수를 결정한다. 제2 가이드 요소로서 제2 교사 모델의 제2 예측 결과에 대한 학생 모델의 제3 예측 결과의 제2 손실 함수를 결정한다.
한 가지 실시형태에 있어서, 본 발명 실시예에서, 이미 훈련된 제1 교사 모델 및 제2 교사 모델을 이용하여 N 개의 훈련 샘플 및 N 개의 역방향 훈련 샘플이 목표 언어 엔드의 각 용어에서의 확률 분포를 각각 획득하고, 획득된 확률 분포를 이용하여 학생 모델을 최적화한다. 예를 들어, 하나의 서브 최적화 목표를 사용하여 학생 모델을 최적화하고, 상기 서브 최적화 목표의 손실 함수는 세 개 부분을 포함하고, 제1 부분의 손실 함수는 NLL 손실 함수이고, 제2 부분의 손실 함수는 제1 교사 모델의 용어 확률 분포 및 학생 모델 목표 언어 용어 확률 분포의 KL 발산 손실 함수이며, 제3 부분의 손실 함수는 제2 교사 모델의 용어 확률 분포 및 학생 모델 목표 언어 용어 확률 분포의 KL 발산 손실 함수이다.
한 가지 실시형태에 있어서, 본 발명에서 제1 교사 모델이 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 확률 분포(하기 제1 확률 분포로 지칭됨)를 각각 결정한다. 제2 교사 모델이 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 확률 분포(하기 제2 확률 분포로 지칭됨)를 각각 결정한다. 학생 모델이 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 확률 분포(하기 제3 확률 분포로 지칭됨)를 획득하고, 제3 확률 분포 및 제1 확률 분포에 기반하여 제1 손실 함수를 결정한다. 제3 확률 분포 및 제2 확률 분포에 기반하여 제2 손실 함수를 결정한다.
예를 들어, 제1 교사 모델은 L2R 교사 모델이고, 제2 교사 모델은 R2L 교사 모델이다. 학생 모델을 훈련시킬 경우, 훈련 샘플
Figure 112020031492904-pat00021
의 목표 언어 시퀀스(
Figure 112020031492904-pat00022
)에서의 각 용어를 예측할 경우, 학생 모델이 현재 목표 언어 시퀀스에서 각 어휘(
Figure 112020031492904-pat00023
)가 전체 목표 언어 어휘 목록(V)에서의 확률 분포(
Figure 112020031492904-pat00024
)를 획득할 수 있고, 즉 제3 확률 분포로 이해할 수 있다.
훈련 과정에서, L2R 교사 모델이
Figure 112020031492904-pat00025
시퀀스에서의 확률 분포(
Figure 112020031492904-pat00026
)를 동기적으로 획득하며, 즉 제1 확률 분포로 이해할 수 있다.
제1 확률 분포 및 제2 확률 분포에 기반하여 제1 손실 함수를 결정한다. 예를 들어, L2R 교사 모델이 학생 모델을 최적화하는 증류 손실 함수, 즉 KL 발산 손실 함수를 제1 손실 함수로 사용하고, 예를 들어, 제1 손실 함수는,
Figure 112020031492904-pat00027
이다.
유사하게, R2L 교사 모델이 학생 모델을 최적화하는 증류 손실 함수, 즉 KL 발산 손실 함수를 제2 손실 함수로 사용하고, 예를 들어, 제2 손실 함수는,
Figure 112020031492904-pat00028
이다.
일 예시에 있어서, 학생 모델이 현재 사용되는 훈련 샘플 <x, y>의 경우, 여기서, x=<a,b,c>, y=<aa,bb,cc>로 가정한다. 전체 목표 언어 어휘 목록은 [aa, bb,cc] 세 개 단어이다. L2R 교사 모델에 대해, <x,y> 이 샘플에 대해 포워드 예측(forward prediction)을 수행하고, 즉 (a, b, c)에 기반하여 aa의 확률(따라서 어휘 목록에는 (aa, bb, cc) 세 개의 단어만 존재하므로, 예측된 aa의 확률은 aa:0.9, bb:0.05, cc:0.05일 수 있고, 이 어휘 목록의 모든 단어의 확률의 합은 1임)을 예측하고, (a, b, c, aa)에 기반하여 bb 확률을 예측하며, (a, b, c, bb)에 기반하여 cc 확률을 예측하며, 이러한 L2R 교사 모델에 의해 예측된 확률은
Figure 112020031492904-pat00029
로 나타내며, 유사하게, 학생 모델이 <x, y> 데이터에서 훈련할 경우에도 동일한(aa, bb, cc) 예측 확률(
Figure 112020031492904-pat00030
)을 획득할 수 있으며, 이때,
Figure 112020031492904-pat00031
를 학생 모델 서브 최적화 목표에서의 손실 요소로 사용한다.
유사하게, R2L 교사 모델의 경우, 구별점은 다음과 같으며, 즉 그에 의해 예측된 순서가 (a, b, c)에 따라 cc 확률을 예측하고, (a, b, c, cc)에 따라 bb 확률을 예측하며, (a, b, c, bb)에 따라 aa 확률을 예측한 다음, 세 개의 확률 순서에 대해 역동작을 수행하여 R2L 모델에 의해 학생 모델에 사용된 훈련 샘플<x, y>에서의 y 시퀀스 <aa, bb, cc>의 용어 분포 예측 확률을 획득하며, L2R 학생 모델과 유사하게, 이때 계속하여 학생 모델의 서브 최적화 목표에 하나의 R2L 교사 모델에 의해 가이드되는 손실 요소
Figure 112020031492904-pat00032
를 추가한다.
본 발명 실시예에서 학생 모델을 훈련시킬 경우, 학생 모델의 훈련 샘플은 변경되지 않은 상태로 유지되고, 구별점은 하기와 같으며, 즉 학생 모델 최적화 목표 외에, 또한 제1 교사 모델 및 제2 교사 모델을 동일한 훈련 샘플에 추가함으로써 획득된 교사 모델이 목표 언어 시퀀스 및 목표 언어 시퀀스 역방향 시퀀스의 각 용어의 목표 언어 어휘 목록(V)에서의 확률 분포를 예측하여, 이 교사 모델을 이용한 예측을 별도의 신호로하여 학생 모델의 훈련을 최적화한다. 예를 들어, 제1 가이드 요소 및 제2 가이드 요소는
Figure 112020031492904-pat00033
으로 각각 표시된다. n 번째 훈련 샘플에 대해, 제1 가이드 요소 및 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되는 공동 최적화 목표를 결정하는 것은
Figure 112020031492904-pat00034
,
Figure 112020031492904-pat00035
Figure 112020031492904-pat00036
사이의 가중 합산일 수 있다. 여기서,
Figure 112020031492904-pat00037
은 n 번째 훈련 샘플에 대한 학생 모델의 자기 최적화 요소이다.
본 발명에서, n 번째 훈련 샘플의 자기 최적화 요소는, n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 목록 크기에 기반하여, 학생 모델의 n 번째 훈련 샘플에 대한 네가티브 로그 우도 손실 함수를 결정하는 방식으로 결정되고, 상기 네가티브 로그 우도 손실 함수는 자기 최적화 요소로 이해될 수 있다.
본 발명 실시예에 있어서, 학생 모델의 n 번째 훈련 샘플에 대한 네가티브 로그 우도 손실 함수의 결정 과정은 상기 교사 모델이 자기 최적화를 수행하는 최적화 목표의 결정 과정을 참조할 수 있고, 본 발명 실시예에서 더 이상 설명하지 않는다.
본 발명 실시예에 있어서, 제1 가이드 요소에 대응되는 가중치는 제1 가중치로 지칭되고, 제2 가이드 요소에 대응되는 가중치는 제2 가중치로 지칭되며, 학생 모델의 n 번째 훈련 샘플에 대한 자기 최적화 요소의 가중치는 제3 가중치로 지칭된다.
한 가지 실시형태에 있어서, 제1 가이드 요소에 대응되는 제1 가중치 및 제2 가이드 요소에 대응되는 제2 가중치를 결정하고; 학생 모델의 n 번째 훈련 샘플에 대한 자기 최적화 요소를 획득하며, 자기 최적화 요소에 대응되는 제3 가중치를 결정하며; 제1 가중치, 제2 가중치 및 제3 가중치에 기반하여, 제1 가이드 요소, 제2 가이드 요소 및 자기 최적화 요소에 대해 가중 합산를 수행하여, n 번째 훈련 샘플의 서브 최적화 목표를 획득한다. 즉 서브 최적화 목표는 다음 세 항목의 합계 즉
Figure 112020031492904-pat00038
와 제3 가중치의 곱,
Figure 112020031492904-pat00039
와 제1 가중치의 곱 및
Figure 112020031492904-pat00040
와 제2 가중치의 곱의 합계일 수 있다.
본 발명 실시예에 있어서, 제1 가중치, 제2 가중치 및 제3 가중치는 0보다 크고 1보다 작거나 같은 값이다. 여기서, 제1 가중치, 제2 가중치는 각각 L2R 교사 모델 및 R2L 교사 모델을 조정하여 학생 모델을 가이드하는 가중치이다. 한 가지 실시형태에 있어서, 제3 가중치는 1이다.
예를 들어, 학생 모델의 공동 최적화 목표는 다음의 공식,
Figure 112020031492904-pat00041
로 나타낼 수 있다.
여기서, α 및 β는 각각 L2R 교사 모델 및 R2L 교사 모델을 조정하여 학생 모델을 가이드하는 가중치이며, 0보다 큰 값이다.
본 발명 실시예에 있어서, α 및 β의 합은 1이다.
본 발명의 전술한 실시예에서 언급한 신경 네트워크 모델 압축 방법은 양방향 지식 증류 신경 기계 번역 학생 모델 훈련으로 이해할 수 있다. 예를 들어, 도 5에 도시된 바와 같은 양방향 지식 증류 신경 기계 번역 학생 모델 훈련 아키텍처일 수 있다.
도 5에서, 두 개의 교사 모델은 학생 모델보다 더 깊은 네트워크 계층을 갖고 있는 동시에, 각 계층에는 더 많은 뉴런이 구비되며, 네트워크 구조 및 모델 파라미터양이 상이한 것 외에, 교사 모델 및 학생 모델은 동일한 소스 언어 및 목표 언어 어휘 목록을 공유한다.
본 발명 실시예에 있어서, N 개의 훈련 샘플에 기반하여 제1 교사 모델 및 제2 교사 모델을 각각 훈련시키고, N 개의 훈련 샘플에서의 각 훈련 샘플에 대해, 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소를 이용하여, 훈련 샘플의 공동 최적화 목표를 결정한다. N 개의 훈련 샘플에서의 각 훈련 샘플 및 이에 대응되는 공동 최적화 목표에 기반하여, 학생 모델을 훈련시킴으로써, 교사 모델의 지식을 학생 모델에 더 효과적으로 전달하여, 학생 모델의 번역 품질을 개선시킬 수 있다.
동일한 구상에 기반하여, 본 발명 실시예는 또한 기계 번역을 위한 신경 네트워크 모델 압축 장치를 제공한다.
이해할 수 있는 것은, 본 발명 실시예에서 제공한 기계 번역을 위한 신경 네트워크 모델 압축 장치는 상기 기능을 구현하기 위해, 각 기능에 상응하는 하드웨어 구조 및 소프트웨어 모듈 중 적어도 하나를 포함한다. 본 발명 실시예에서 개시한 각 예시적인 유닛 및 알고리즘 단계를 결합하여, 본 발명 실시예는 하드웨어 또는 하드웨어와 컴퓨터 소프트웨어의 결합 형태로 구현될 수 있다. 어느 기능이 하드웨어에 의해 실행되거나 컴퓨터 소프트웨어가 하드웨어를 구동하는 형태로 구현될지는 기술방안의 특정 응용 및 설계 약정 조건에 따라 결정된다. 본 분야의 기술자는 각 특정 응용에 대해 상이한 방법을 사용하여 설명된 기능을 구현할 수 있으나, 이러한 구현은 본 발명의 실시예의 범위를 벗어나는 것으로 간주되어서는 안된다.
도 6은 일 예시적 실시예에 따라 도시된 기계 번역을 위한 신경 네트워크 모델 압축 장치 블록도이다. 도 2를 참조하면, 상기 기계 번역을 위한 신경 네트워크 모델 압축 장치(100)는 교사 모델 훈련 유닛(101), 공동 최적화 목표 결정 유닛(102) 및 학생 모델 훈련 유닛(103)을 포함한다.
교사 모델 훈련 유닛(101)은, N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성되고, N은 1보다 큰 양의 정수이다. 공동 최적화 목표 결정 유닛은, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하도록 구성된다. 학생 모델 훈련 유닛(103)은, 각 N 개의 훈련 샘플 및 이에 대응되는 공동 최적화 목표에 기반하여, 학생 모델을 훈련시키도록 구성된다.
또 다른 한 가지 실시형태에 있어서, N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, 상기 n은 1보다 크거나 같고 N보다 작거나 같은 양의 정수이다.
교사 모델 훈련 유닛(101)은, N 개의 훈련 샘플에 기반하여,
N 개의 훈련 샘플에 기반하여, 제1 교사 모델을 훈련시키는 방식; N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득하는 방식 - n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스임 - ; 및 N 개의 역방향 훈련 샘플에 기반하여, 제2 교사 모델을 훈련시키는 방식;으로, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, n 번째 훈련 샘플에 대해, 공동 최적화 목표 결정 유닛(102)은,
n 번째 목표 언어 시퀀스에 대한 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 학생 모델의 제3 예측 결과를 획득하는 방식; 제1 가이드 요소로서 제1 교사 모델의 제1 예측 결과에 대한 학생 모델의 제3 예측 결과의 제1 손실 함수를 결정하는 방식; 및 제2 가이드 요소로서 제2 교사 모델의 제2 예측 결과에 대한 학생 모델의 제3 예측 결과의 제2 손실 함수를 결정하는 방식;으로 제1 교사 모델의 제1 가이드 요소 및 제2 교사 모델의 제2 가이드 요소를 각각 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, 공동 최적화 목표 결정 유닛(102)은,
학생 모델이 n 번째 목표 언어 시퀀스에 포함된 각 목표 용어를 예측할 경우의 제3 확률 분포 및 제1 교사 모델이 n 번째 목표 언어 시퀀스에 포함된 각 목표 용어를 예측할 경우의 제1 확률 분포를 획득하고, 제3 확률 분포 및 제1 확률 분포에 기반하여 제1 손실 함수를 결정하는 방식으로 제1 교사 모델의 제1 예측 결과에 대한 학생 모델의 제3 예측 결과의 제1 손실 함수를 결정하도록 구성된다.
공동 최적화 목표 결정 유닛(102)은,
학생 모델이 n 번째 목표 언어 시퀀스에 포함된 각 목표 용어를 예측할 경우의 제3 확률 분포 및 제2 교사 모델이 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 용어를 예측할 경우의 제2 확률 분포를 획득하고, 제3 확률 분포 및 제2 확률 분포에 기반하여 제2 손실 함수를 결정하는 방식으로 제2 교사 모델의 제2 예측 결과에 대한 학생 모델의 제3 예측 결과의 제2 손실 함수를 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, n 번째 훈련 샘플에 대해, 공동 최적화 목표 결정 유닛(102)은, 제1 가이드 요소 및 제2 가이드 요소에 따라,
제1 가이드 요소에 대응되는 제1 가중치 및 제2 가이드 요소에 대응되는 제2 가중치를 결정하는 방식; 학생 모델의 n 번째 훈련 샘플에 대한 자기 최적화 요소를 획득하고, 자기 최적화 요소에 대응되는 제3 가중치를 결정하는 방식; 및 제1 가중치, 제2 가중치 및 제3 가중치에 기반하여, 제1 가이드 요소, 제2 가이드 요소 및 자기 최적화 요소에 대해 가중 합산을 수행하여, 서브 최적화 목표를 획득하는 방식;으로 상기 훈련 샘플에 대응되는 서브 최적화 목표를 결정하도록 구성된다.
또 다른 한 가지 실시형태에 있어서, 제1 가중치 및 제2 가중치의 합은 1이다.
또 다른 한 가지 실시형태에 있어서, 공동 최적화 목표 결정 유닛(102)은,
n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 크기에 기반하여, 학생 모델의 n 번째 훈련 샘플에 대한 네가티브 로그 우도 손실 함수를 결정하는 방식; 및 네가티브 로그 우도 손실 함수를, 자기 최적화 요소로 사용하는 방식;으로 학생 모델의 n 번째 훈련 샘플에 대한 자기 최적화 요소를 결정한다.
상기 실시예에서의 장치에 관련하여, 장치에서의 각 모듈이 동작을 실행하는 구체적인 방식은 상기 방법에 관련된 실시예에서 상세히 설명되었으므로, 여기서 더이상 반복적으로 설명하지 않는다.
도 7은 일 예시적 실시예에 따라 도시된 기계 번역을 위한 신경 네트워크 모델 압축 장치(200)의 블록도이다. 예를 들어, 장치(200)는 휴대폰, 컴퓨터, 디지털 단말, 메시징 기기, 게임 콘솔, 태블릿 기기, 의료 기기, 피트니스 기기, 개인 휴대용 단말 등일 수 있다.
도 7을 참조하면, 장치(200)는 처리 컴포넌트(202), 메모리(204), 전력 컴포넌트(206), 멀티미디어 컴포넌트(208), 오디오 컴포넌트(210), 입력/출력(I/O) 인터페이스(212), 센서 컴포넌트(214) 및 통신 컴포넌트(216) 중 하나 또는 복수 개의 컴포넌트를 포함할 수 있다.
처리 컴포넌트(202)는 일반적으로 디스플레이, 전화 통화, 데이터 통신, 카메라 동작 및 기록 동작과 관련된 동작과 같은 장치(200)의 전체적인 동작을 제어한다. 처리 컴포넌트(202)는, 상기 방법의 전부 또는 일부 단계를 완료하기 위한 명령어를 실행하는 하나 또는 복수 개의 프로세서(220)를 포함할 수 있다. 또한, 처리 컴포넌트(202)는 처리 컴포넌트(202) 및 다른 컴포넌트 사이의 상호작용을 용이하도록 하기 위해, 하나 또는 복수 개의 모듈을 포함할 수 있다. 예를 들어, 처리 컴포넌트(202)는 멀티미디어 컴포넌트(208) 및 처리 컴포넌트(202) 사이의 상호작용을 용이하도록 하기 위해, 멀티미디어 모듈을 포함할 수 있다.
메모리(204)는 장치(200)의 동작을 지원하기 위해, 다양한 타입의 데이터를 저장하도록 구성된다. 이러한 데이터의 예는 장치(200)에서 동작되는 임의의 애플리케이션 프로그램 또는 방법의 명령어, 연락인 데이터, 전화번호부 데이터, 메시지, 사진, 비디오 등을 포함한다. 메모리(204)는 정적 랜덤 액세스 메모리(Static Random Access Memory, SRAM), 전기적 소거 가능한 프로그램 가능 판독 전용 메모리(Electrically Erasable Programmable Read Only Memory, EEPROM), 소거 가능한 프로그램 가능 판독 전용 메모리(Erasable Programmable Read Only Memory, EPROM), 프로그램 가능 판독 전용 메모리(Programmable Read Only Memory, PROM), 판독 전용 메모리(Read Only Memory, ROM), 자기 메모리, 플래시 메모리, 자기 디스크 또는 광 디스크 중 어느 한 타입의 휘발성 또는 비 휘발성 저장 기기 또는 이들의 조합에 의해 구현될 수 있다.
전력 컴포넌트(206)는 장치(200)의 다양한 컴포넌트에 전력을 공급한다. 전력 컴포넌트(206)는 전원 관리 시스템, 하나 또는 복수 개의 전원 및 장치(200)를 위해 전력을 생성, 관리 및 분배하는 것과 관련된 다른 컴포넌트를 포함할 수 있다.
멀티미디어 컴포넌트(208)는 상기 장치(200) 및 사용자 사이의 하나의 출력 인터페이스를 제공하는 스크린을 포함한다. 일부 실시예에 있어서, 스크린은 액정 모니터(Liquid Crystal Display, LCD) 및 터치 패널(Touch Panel, TP)을 포함할 수 있다. 스크린이 터치 패널을 포함하는 경우, 사용자로부터의 입력 신호를 수신하기 위해, 스크린은 터치 스크린으로서 구현될 수 있다. 터치 패널은 터치, 슬라이드 및 터치 패널 상의 제스처를 감지하기 위한 하나 또는 복수 개의 터치 센서를 포함한다. 상기 터치 센서는 터치 또는 슬라이드 동작의 경계를 감지할 수 있을 뿐만 아니라, 상기 터치 또는 슬라이드 동작과 관련된 지속 시간 및 압력을 검출할 수 있다. 일부 실시예에 있어서, 멀티미디어 컴포넌트(208)는 전방 카메라 및 후방 카메라 중 적어도 하나를 포함한다. 기기(200)가 촬영 모드 또는 비디오 모드와 같은 동작 모드에 있을 경우, 전방 카메라 및 후방 카메라 중 적어도 하나는 외부의 멀티미디어 데이터를 수신할 수 있다. 각 전방 카메라 및 후방 카메라는 하나의 고정된 광학 렌즈 시스템 또는 초점 거리 및 광학 줌 기능을 구비할 수 있다.
오디오 컴포넌트(210)는 오디오 신호를 출력 및 입력 중 적어도 하나를 하도록 구성된다. 예를 들어, 오디오 컴포넌트(210)는 하나의 마이크로폰(MICrophone, MIC)을 포함하며, 장치(200)가 콜 모드, 녹음 모드 및 음성 인식 모드와 같은 동작 모드에 있을 경우, 마이크로폰은 외부 오디오 신호를 수신하도록 구성된다. 수신된 오디오 신호는 메모리(204)에 추가로 저장되거나 통신 컴포넌트(216)에 의해 전송될 수 있다. 일부 실시예에 있어서, 오디오 컴포넌트(210)는 오디오 신호를 출력하기 위한 하나의 스피커를 더 포함한다.
I/O 인터페이스(212)는 처리 컴포넌트(202)와 외부 인터페이스 모듈 사이에서 인터페이스를 제공하고, 상기 외부 인터페이스 모듈은 키보드, 클릭 휠, 버튼 등일 수 있다. 이러한 버튼에는 홈 버튼, 볼륨 버튼, 시작 버튼 및 잠금 버튼이 포함되지만 이에 한정되지 않는다.
센서 컴포넌트(214)는 장치(200)에 다양한 측면의 상태 평가를 제공하기 위한 하나 또는 복수 개의 센서를 포함한다. 예를 들어, 센서 컴포넌트(214)는 기기(200)의 온/오프 상태, 컴포넌트의 상대 위치를 검출할 수 있으며, 예를 들어, 상기 컴포넌트는 장치(200)의 모니터와 키패드이며, 센서 컴포넌트(214)는 또한 장치(200) 또는 장치(200)에서 하나의 컴포넌트의 위치 변화, 사용자와 장치(200) 접촉의 존재 유무, 장치(200) 방향 또는 가속/감속 및 장치(200)의 온도 변화를 검출할 수 있다. 센서 컴포넌트(214)는 그 어떤 물리적 접촉이 없이 근처의 물체의 존재를 검출하도록 구성되는 근접 센서를 포함할 수 있다. 센서 컴포넌트(214)는 또한 이미징 애플리케이션에 사용하기 위한 상보성 금속 산화막 반도체(Complementary Metal Oxide Semiconductor, CMOS) 이미지 센서 또는 전하 결합 소자형(Charged Coupled Device, CCD) 이미지 센서와 같은 광 센서를 더 포함할 수 있다. 일부 실시예에 있어서, 상기 센서 컴포넌트(214)는 가속도 센서, 자이로 센서, 자기 센서, 압력 센서 또는 온도 센서를 더 포함할 수 있다.
통신 컴포넌트(216)는 장치(200)와 다른 기기 사이의 유선 또는 무선 형태로의 통신을 용이하게 하도록 구성된다. 장치(200)는 WiFi, 2G 또는 3G 또는 이들의 조합과 같은 통신 기준에 기반한 무선 인터넷에 액세스할 수 있다. 하나의 예시적 실시예에 있어서, 통신 컴포넌트(216)는 방송 채널에 의해 외부 방송 관리 시스템으로부터의 방송 신호 또는 방송 관련 정보를 수신한다. 하나의 예시적 실시예에 있어서, 상기 통신 컴포넌트(216)는 근거리 통신을 추진하는 근거리 무선 통신(Near Field Communication, NFC) 모듈을 더 포함한다. 예를 들어, NFC 모듈은 무선 주파수 식별자(Radio Frequency Identification, RFID) 기술, 적외선 통신 규격(Infrared Data Association, IrDA) 기술, 초광대역 (Ultra Wideband, UWB) 기술, 블루투스 기술 및 다른 기술을 기반으로 구현될 수 있다.
예시적 실시예에 있어서, 장치(200)는 하나 또는 복수 개의 주문형 집적 회로(ApplicationSpecificIntegratedCircuit, ASIC), 디지털 신호 프로세서(Digital Signal Processor, DSP), 디지털 신호 처리 기기(Digital Signal Processor Device, DSPD), 프로그래머블 논리 장치(Programmable Logic Device, PLD), 필드 프로그래머블 게이트 어레이(Field Programmable Gate Array, FPGA), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 또는 다른 전자 부품에 의해 구현되며, 장치(800)는 상기 방법을 실행하기 위한 것이다.
예시적 실시예에 있어서, 명령어를 포함하는 메모리(204)와 같은 명령어를 포함하는 비 일시적 컴퓨터 판독 가능 저장 매체를 제공하며, 상기 명령어는 상기 방법을 완료하도록 장치(200)의 프로세서(220)에 의해 실행된다. 예를 들어, 상기 비 일시적 컴퓨터 판독 가능 저장 매체는 ROM, 랜덤 액세스 메모리(RAM), CD-ROM, 자기 테이프, 플로피 디스크 및 광학 데이터 저장 기기 등일 수 있다.
이해할 수 있는 것은, 본 발명에서 "복수 개"는 두 개 또는 두 개 이상을 의미하며, 다른 수량사도 마찬가지이다. " 및/또는"은 관련 대상의 상관 관계를 설명하고, 세 가지의 관계가 존재함을 나타내며, 예를 들어, A 및/또는 B는, A가 단독적으로 존재, A 및 B가 동시에 존재, B가 단독적으로 존재하는 세 가지 상황을 나타낸다. 문장 부호 "/"는, 일반적으로 선후 관련 대상이 "또는"의 관계임을 나타낸다. 단수 형태인 “한 가지”, "상기” 및 "해당"은 본문이 다른 의미를 명확하게 나타내지 않는 한, 복수 형태를 포함한다.
또한 이해할 수 있는 것은, 용어 "제1", "제2" 등은 다양한 정보를 설명하기 위한 것이나, 이러한 정보는 이러한 용어에 한정되지 않아야 한다. 이러한 용어는 다만 동일한 타입의 정보를 서로 구별하기 위해서만 사용되며, 특정 순서나 중요성을 나타내지 않는다. 실제로, "제1", "제2" 등 표현은 자주 호환되어 사용 가능하다. 예를 들어, 본 발명의 범위를 벗어나지 않는 한, 제1 정보는 제2 정보로 지칭될 수 있고, 유사하게 제2 정보도 제1 정보로 지칭될 수 있다.
또한 이해할 수 있는 것은, 본 발명 실시예에 있어서 비록 첨부 도면에서 특정 순서로 동작을 설명하였지만, 도시된 특정 순서 또는 순차적 순서에 따라 이러한 동작을 실행하도록 요구하거나 원하는 결과를 얻기 위해 도시된 전부 동작을 실행하도록 요구하는 것으로 간주되면 안된다. 특정 환경에서, 멀티 작업 및 병행 처리는 유리할 수 있다.
본 기술분야의 기술자는 명세서를 고려하고 본문에 개시된 발명을 실천한 후, 본 발명의 다른 실시방안을 용이하게 생각해낼 수 있을 것이다. 본 출원은 본 발명의 임의의 변형, 용도 또는 적응성 변화를 포함하도록 의도되며, 이러한 변형, 용도 또는 적응성 변화는 본 발명의 일반적인 원리에 따르며, 본 발명에서 개시되지 않은 본 기술분야의 공지된 상식이나 통상적인 기술수단을 포함한다. 명세서 및 실시예는 다만 예시적인 것으로 간주되며, 본 발명의 진정한 범위 및 사상은 아래의 청구범위에 의해 지적된다.
이해해야 할 것은, 본 발명은 위에서 설명되고 도면에 도시된 정확한 구조에 한정되지 않으며, 이 범위를 벗어나지 않고 다양한 수정 및 변경을 진행할 수 있다. 본 발명의 범위는 첨부된 청구범위에 의해서만 한정된다.

Claims (16)

  1. 단말 기기에 적용되는 기계 번역을 위한 신경 네트워크 모델 압축 방법으로서,
    N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하는 단계 - 상기 N은 1보다 큰 양의 정수임 - ;
    상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하는 단계; 및
    상기 공동 최적화 목표에 기반하여 학생 모델을 훈련시키는 단계를 포함하고;
    상기 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, 상기 n은 1보다 크거나 같고 N보다 작거나 같은 양의 정수이며;
    상기 N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하는 단계는,
    상기 N 개의 훈련 샘플에 기반하여, 상기 제1 교사 모델을 훈련시키는 단계;
    상기 N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득하는 단계 - n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스임 - ; 및
    상기 N 개의 역방향 훈련 샘플에 기반하여, 상기 제2 교사 모델을 훈련시키는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  2. 삭제
  3. 제1항에 있어서,
    n 번째 훈련 샘플에 대해, 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하는 단계는,
    n 번째 목표 언어 시퀀스에 대한 상기 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 상기 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 상기 학생 모델의 제3 예측 결과를 획득하는 단계;
    상기 제1 가이드 요소로서 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 단계; 및
    상기 제2 가이드 요소로서 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  4. 제3항에 있어서,
    상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 단계는,
    상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제1 교사 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제1 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제1 확률 분포에 기반하여 상기 제1 손실 함수를 결정하는 단계를 포함하고;
    상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 단계는,
    상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제2 교사 모델이 상기 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제2 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제2 확률 분포에 기반하여 상기 제2 손실 함수를 결정하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  5. 제1항에 있어서,
    n 번째 훈련 샘플에 대해, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되는 서브 최적화 목표를 결정하는 단계는,
    상기 제1 가이드 요소에 대응되는 제1 가중치 및 상기 제2 가이드 요소에 대응되는 제2 가중치를 결정하는 단계;
    상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 획득하고, 상기 자기 최적화 요소에 대응되는 제3 가중치를 결정하는 단계; 및
    상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치에 기반하여, 상기 제1 가이드 요소, 상기 제2 가이드 요소 및 상기 자기 최적화 요소에 대해 가중 합산을 수행하여, 상기 서브 최적화 목표를 획득하는 단계를 포함하는 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  6. 제5항에 있어서,
    상기 제1 가중치 및 상기 제2 가중치의 합은 1인 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  7. 제5항에 있어서,
    상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소는,
    n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 목록 크기에 기반하여, 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 네가티브 로그 우도 손실 함수를 결정하는 방식; 및
    상기 네가티브 로그 우도 손실 함수를, 상기 자기 최적화 요소로 사용하는 방식;으로 결정되는 것을 특징으로 하는 신경 네트워크 모델 압축 방법.
  8. 기계 번역을 위한 신경 네트워크 모델 압축 장치로서,
    N 개의 훈련 샘플에 기반하여, 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성된 교사 모델 훈련 유닛 - 상기 N은 1보다 큰 양의 정수임 - ;
    상기 N 개의 훈련 샘플 중의 각 훈련 샘플에 대해 상기 제1 교사 모델의 제1 가이드 요소 및 상기 제2 교사 모델의 제2 가이드 요소를 각각 결정하고, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라, 상기 훈련 샘플에 대응되고 학생 모델을 최적화하기 위한 서브 최적화 목표를 결정하며, 상기 N 개의 훈련 샘플 중의 각 훈련 샘플 및 이에 대응되는 서브 최적화 목표에 기반하여, 공동 최적화 목표를 결정하도록 구성된 공동 최적화 목표 결정 유닛; 및
    상기 공동 최적화 목표에 기반하여 학생 모델을 훈련시키도록 구성된 학생 모델 훈련 유닛을 포함하고;
    상기 N 개의 훈련 샘플에서의 n 번째 훈련 샘플은 n 번째 소스 언어 시퀀스 및 n 번째 목표 언어 시퀀스로 구성된 이중 언어 문장 쌍을 포함하고, 상기 n은 1보다 크거나 같고 N보다 작거나 같은 양의 정수이며;
    상기 교사 모델 훈련 유닛은,
    상기 N 개의 훈련 샘플에 기반하여, 상기 제1 교사 모델을 훈련시키는 방식;
    상기 N 개의 훈련 샘플에 기반하여, N 개의 역방향 훈련 샘플을 획득하는 방식 - n 번째 역방향 훈련 샘플에 포함된 n 번째 역방향 목표 언어 시퀀스는 n 번째 훈련 샘플에 포함된 n 번째 목표 언어 시퀀스의 역방향 시퀀스임 - ; 및
    상기 N 개의 역방향 훈련 샘플에 기반하여, 상기 제2 교사 모델을 훈련시키는 방식;으로 훈련된 제1 교사 모델 및 훈련된 제2 교사 모델을 획득하도록 구성되는 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  9. 삭제
  10. 제8항에 있어서,
    n 번째 훈련 샘플에 대해, 상기 공동 최적화 목표 결정 유닛은,
    n 번째 목표 언어 시퀀스에 대한 상기 제1 교사 모델의 제1 예측 결과, n 번째 목표 언어 시퀀스의 역방향 시퀀스에 대한 상기 제2 교사 모델의 제2 예측 결과 및 n 번째 목표 언어 시퀀스에 대한 상기 학생 모델의 제3 예측 결과를 획득하는 방식;
    상기 제1 가이드 요소로서 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하는 방식; 및
    상기 제2 가이드 요소로서 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하는 방식;으로 상기 제1 교사 모델에 관련된 제1 가이드 요소 및 상기 제2 교사 모델에 관련된 제2 가이드 요소를 각각 결정하도록 구성되는 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  11. 제10항에 있어서,
    상기 공동 최적화 목표 결정 유닛은,
    상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제1 교사 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제1 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제1 확률 분포에 기반하여 상기 제1 손실 함수를 결정하는 방식으로 상기 제1 교사 모델의 상기 제1 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제1 손실 함수를 결정하도록 구성되고,
    상기 공동 최적화 목표 결정 유닛은,
    상기 학생 모델이 상기 n 번째 목표 언어 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제3 확률 분포 및 상기 제2 교사 모델이 상기 n 번째 목표 언어 시퀀스의 역방향 시퀀스에 포함된 각 목표 어휘를 예측할 경우의 제2 확률 분포를 획득하고, 상기 제3 확률 분포 및 상기 제2 확률 분포에 기반하여 상기 제2 손실 함수를 결정하는 방식으로 상기 제2 교사 모델의 상기 제2 예측 결과에 대한 상기 학생 모델의 상기 제3 예측 결과의 제2 손실 함수를 결정하도록 구성되는 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  12. 제8항에 있어서,
    n 번째 훈련 샘플에 대해, 상기 공동 최적화 목표 결정 유닛은, 상기 제1 가이드 요소 및 상기 제2 가이드 요소에 따라,
    상기 제1 가이드 요소에 대응되는 제1 가중치 및 상기 제2 가이드 요소에 대응되는 제2 가중치를 결정하는 방식;
    상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 획득하고, 상기 자기 최적화 요소에 대응되는 제3 가중치를 결정하는 방식; 및
    상기 제1 가중치, 상기 제2 가중치 및 상기 제3 가중치에 기반하여, 상기 제1 가이드 요소, 상기 제2 가이드 요소 및 상기 자기 최적화 요소에 대해 가중 합산을 수행하여, 상기 서브 최적화 목표를 획득하는 방식;으로 상기 훈련 샘플에 대응되는 서브 최적화 목표를 결정하도록 구성되는 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  13. 제12항에 있어서,
    상기 제1 가중치 및 상기 제2 가중치의 합은 1인 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  14. 제12항에 있어서,
    상기 공동 최적화 목표 결정 유닛은,
    n 번째 훈련 샘플 목표 언어 시퀀스 길이 및 훈련 샘플 목표 언어 어휘 목록 크기에 기반하여, 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 네가티브 로그 우도 손실 함수를 결정하는 방식; 및
    상기 네가티브 로그 우도 손실 함수를, 상기 자기 최적화 요소로 사용하는 방식;으로 상기 n 번째 훈련 샘플에 대한 상기 학생 모델의 자기 최적화 요소를 결정하는 것을 특징으로 하는 신경 네트워크 모델 압축 장치.
  15. 기계 번역을 위한 신경 네트워크 모델 압축 장치로서,
    프로세서; 및
    프로세서 실행 가능한 명령어를 저장하기 위한 메모리를 포함하고,
    상기 프로세서는, 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 신경 네트워크 모델 압축 방법을 실행하도록 구성되는 것을 특징으로 하는 기계 번역을 위한 신경 네트워크 모델 압축 장치.
  16. 비 일시적 컴퓨터 판독 가능한 저장 매체로서,
    상기 저장 매체에서의 명령어가 프로세서에 의해 실행될 경우, 프로세서로 하여금 제1항, 제3항 내지 제7항 중 어느 한 항에 따른 신경 네트워크 모델 압축 방법을 실행할 수 있도록 하는 것을 특징으로 하는 비 일시적 컴퓨터 판독 가능한 저장 매체.
KR1020200036527A 2019-11-25 2020-03-26 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체 KR102475588B1 (ko)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
CN201911167600.6A CN111126079B (zh) 2019-11-25 2019-11-25 用于机器翻译的神经网络模型压缩方法、装置及存储介质
CN201911167600.6 2019-11-25

Publications (2)

Publication Number Publication Date
KR20210065013A KR20210065013A (ko) 2021-06-03
KR102475588B1 true KR102475588B1 (ko) 2022-12-08

Family

ID=70227881

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200036527A KR102475588B1 (ko) 2019-11-25 2020-03-26 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체

Country Status (5)

Country Link
US (1) US11556761B2 (ko)
EP (1) EP3825924A1 (ko)
JP (1) JP7030885B2 (ko)
KR (1) KR102475588B1 (ko)
CN (1) CN111126079B (ko)

Families Citing this family (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN111597825B (zh) * 2020-05-13 2021-07-23 北京字节跳动网络技术有限公司 语音翻译方法、装置、可读介质及电子设备
CN111627428B (zh) * 2020-05-15 2023-11-14 北京青牛技术股份有限公司 构建压缩的语音识别模型的方法
US11996116B2 (en) * 2020-08-24 2024-05-28 Google Llc Methods and systems for implementing on-device non-semantic representation fine-tuning for speech classification
CN112287697A (zh) * 2020-11-03 2021-01-29 沈阳雅译网络技术有限公司 一种加快小型智能移动设备中翻译软件运行速度的方法
US11450225B1 (en) * 2021-10-14 2022-09-20 Quizlet, Inc. Machine grading of short answers with explanations
CN115063875B (zh) * 2022-08-16 2022-12-16 北京百度网讯科技有限公司 模型训练方法、图像处理方法、装置和电子设备

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102492318B1 (ko) * 2015-09-18 2023-01-26 삼성전자주식회사 모델 학습 방법 및 장치, 및 데이터 인식 방법
US10565318B2 (en) * 2017-04-14 2020-02-18 Salesforce.Com, Inc. Neural machine translation with latent tree attention
CN109783824B (zh) * 2018-12-17 2023-04-18 北京百度网讯科技有限公司 基于翻译模型的翻译方法、装置及存储介质
US11568306B2 (en) * 2019-02-25 2023-01-31 Salesforce.Com, Inc. Data privacy protected machine learning systems

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190325308A1 (en) * 2016-12-30 2019-10-24 Google Llc Multi-task learning using knowledge distillation

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Shan You et al., "Learning from Multiple Teacher Networks," KDD 2017 Research Paper (2017.08.13.)*

Also Published As

Publication number Publication date
JP2021086601A (ja) 2021-06-03
KR20210065013A (ko) 2021-06-03
JP7030885B2 (ja) 2022-03-07
US20210158126A1 (en) 2021-05-27
CN111126079A (zh) 2020-05-08
US11556761B2 (en) 2023-01-17
EP3825924A1 (en) 2021-05-26
CN111126079B (zh) 2023-11-07

Similar Documents

Publication Publication Date Title
KR102475588B1 (ko) 기계 번역을 위한 신경 네트워크 모델 압축 방법, 장치 및 저장 매체
RU2749970C1 (ru) Способ сжатия модели нейронной сети, а также способ и устройство для перевода языкового корпуса
US11580408B2 (en) Search method, device and storage medium for neural network model structure
CN107291690B (zh) 标点添加方法和装置、用于标点添加的装置
CN107221330B (zh) 标点添加方法和装置、用于标点添加的装置
WO2021128880A1 (zh) 一种语音识别方法、装置和用于语音识别的装置
CN113362812B (zh) 一种语音识别方法、装置和电子设备
JP2017535007A (ja) 分類器トレーニング方法、種類認識方法及び装置
CN111242303B (zh) 网络训练方法及装置、图像处理方法及装置
CN109165738B (zh) 神经网络模型的优化方法及装置、电子设备和存储介质
CN108628813B (zh) 处理方法和装置、用于处理的装置
CN107564526B (zh) 处理方法、装置和机器可读介质
CN107274903B (zh) 文本处理方法和装置、用于文本处理的装置
CN111612070A (zh) 基于场景图的图像描述生成方法及装置
CN112001364A (zh) 图像识别方法及装置、电子设备和存储介质
CN110633470A (zh) 命名实体识别方法、装置及存储介质
CN114175149A (zh) 自适应日志模型和用户界面
CN111104807A (zh) 一种数据处理方法、装置和电子设备
CN108984628B (zh) 内容描述生成模型的损失值获取方法及装置
CN112631435A (zh) 一种输入方法、装置、设备及存储介质
WO2022147692A1 (zh) 一种语音指令识别方法、电子设备以及非瞬态计算机可读存储介质
CN113593539A (zh) 流式端到端语音识别方法、装置及电子设备
CN110858099B (zh) 候选词生成方法及装置
CN110908523A (zh) 一种输入方法及装置
CN107301188B (zh) 一种获取用户兴趣的方法及电子设备

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant