KR20230070764A - 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치 - Google Patents

음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치 Download PDF

Info

Publication number
KR20230070764A
KR20230070764A KR1020210156679A KR20210156679A KR20230070764A KR 20230070764 A KR20230070764 A KR 20230070764A KR 1020210156679 A KR1020210156679 A KR 1020210156679A KR 20210156679 A KR20210156679 A KR 20210156679A KR 20230070764 A KR20230070764 A KR 20230070764A
Authority
KR
South Korea
Prior art keywords
acoustic scene
model
scene classification
classification model
weight
Prior art date
Application number
KR1020210156679A
Other languages
English (en)
Inventor
정영호
박수영
김민한
백승재
신승현
이석진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020210156679A priority Critical patent/KR20230070764A/ko
Priority to US17/987,364 priority patent/US20230154485A1/en
Publication of KR20230070764A publication Critical patent/KR20230070764A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F18/00Pattern recognition
    • G06F18/20Analysing
    • G06F18/24Classification techniques
    • G06F18/241Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches
    • G06F18/2413Classification techniques relating to the classification model, e.g. parametric or non-parametric approaches based on distances to training or reference patterns
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • G06N20/20Ensemble learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N5/00Computing arrangements using knowledge-based models
    • G06N5/02Knowledge representation; Symbolic representation
    • G06N5/022Knowledge engineering; Knowledge acquisition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Data Mining & Analysis (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • General Physics & Mathematics (AREA)
  • Computing Systems (AREA)
  • Mathematical Physics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Bioinformatics & Cheminformatics (AREA)
  • Bioinformatics & Computational Biology (AREA)
  • Evolutionary Biology (AREA)
  • Quality & Reliability (AREA)
  • Medical Informatics (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)

Abstract

음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치가 개시된다. 본 발명의 일실시예에 따른 음향 장면 분류 모델의 학습 방법은, 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하는 단계, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 보조 모델의 가중치에 기초하여, 상기 음향 장면 분류 모델의 학습을 유도하는 상기 보조 모델의 가중치를 갱신하는 단계, 상기 보조 모델에 상기 학습 데이터를 입력하여 제2 결과를 출력하는 단계, 상기 제1 결과, 상기 제2 결과 및 상기 음향 데이터의 라벨링에 기초하여 비용 함수를 계산하는 단계 및 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하는 단계를 포함할 수 있다.

Description

음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치 {METHOD OF TRAINING ACOUSTIC SCENE CLASSIFICATION MODEL, AND CLASSIFYING ACOUSTIC SCENE, AND ELECTRONIC DEVICE PERPORMING THE METHODS}
본 발명은 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치에 관한 것이다.
인공 신경망 기반 시스템의 성능을 개선하기 위해 여러 기법들이 고안되고 있으며, 신경망 학습 과정에서 얻어진 여러 모델을 저장한 후 추론 과정에서 각 저장된 모델의 추론 결과를 독립적으로 얻어낸 뒤 결합하는 모델 앙상블(ensemble) 기법이 사용되고 있다.
모델 앙상블 기법은 결합되는 각 모델의 개수만큼 전체 추론 모델의 복잡도가 증가하기 때문에, 모바일 환경과 같이 추론 모델의 복잡도가 제한된 환경에서 모델 앙상블 기법을 이용한 추론 모델 성능 개선이 어렵다.
본 발명은 추론 모델의 복잡도가 제한된 환경에서, 추론 모델의 복잡도를 증가시키지 않고, 앙상블 효과를 통하여 음향 장면 분류 모델의 성능을 개선할 수 있는 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치를 제공한다.
본 발명의 일실시예에 따른 음향 장면 분류 모델의 학습 방법은, 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하는 단계, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 보조 모델의 가중치에 기초하여, 상기 음향 장면 분류 모델의 학습을 유도하는 상기 보조 모델의 가중치를 갱신하는 단계, 상기 보조 모델에 상기 학습 데이터를 입력하여 제2 결과를 출력하는 단계, 상기 제1 결과, 상기 제2 결과 및 상기 음향 데이터의 라벨링에 기초하여 비용 함수를 계산하는 단계 및 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하는 단계를 포함할 수 있다.
상기 보조 모델의 가중치를 갱신하는 단계는, 가중치 계수에 따라 결정되는 상기 음향 장면 분류 모델의 가중치 및 이전 에포크의 상기 보조 모델의 가중치의 반영 비율에 기초하여, 상기 보조 모델의 가중치를 갱신할 수 있다.
상기 보조 모델의 가중치를 갱신하는 단계는, 상기 가중치 계수가 클수록, 상기 음향 장면 분류 모델의 가중치의 반영 비율을 높게 하고, 이전 에포크의 상기 보조 모델의 가중치의 반영 비율을 낮게 하여, 상기 보조 모델의 가중치를 갱신할 수 있다.
상기 보조 모델의 가중치를 갱신하는 단계는, 상기 에포크가 증가함에 따라 상기 가중치 계수를 증가시키되, 상기 가중치 계수가 설정된 최대 가중치 계수 이하가 되도록 할 수 있다.
상기 보조 모델의 가중치를 갱신하는 단계는, 상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 음향 장면 분류 모델의 가중치에 따라 상기 보조 모델의 가중치가 갱신되도록 상기 가중치 계수를 결정할 수 있다.
상기 제1 결과를 출력하는 단계는, 상기 학습 데이터에 노이즈(noise)를 추가하여, 상기 음향 장면 분류 모델에 입력할 수 있다.
상기 비용 함수를 계산하는 단계는, 상기 제1 결과 및 상기 학습 데이터의 라벨링을 이용하여 제1 비용 함수를 계산하는 단계, 상기 제1 결과 및 상기 제2 결과를 이용하여 제2 비용 함수를 계산하는 단계 및 상기 제2 비용 함수에 비용 함수 계수를 곱하고, 상기 제1 비용 함수를 합하는 단계를 포함할 수 있다.
상기 비용 함수를 계산하는 단계는, 상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 제1 비용 함수에 따라 상기 비용 함수를 계산하도록 상기 비용 함수 계수를 결정할 수 있다.
본 발명의 일실시예에 따른 음향 장면 분류 방법은 음향 장면을 포함하는 음향 데이터를 식별하는 단계 및 상기 음향 데이터를 학습된 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측하는 단계를 포함하고, 상기 음향 장면 분류 모델은, 상기 음향 장면 분류 모델의 학습을 유도하는 보조 모델을 이용하여 학습될 수 있다.
상기 음향 장면 분류 모델은, 상기 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 상기 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하고, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 상기 보조 모델의 가중치에 기초하여, 상기 보조 모델의 가중치를 갱신하고, 상기 보조 모델에 상기 음향 데이터를 입력하여 제2 결과를 출력하고, 상기 제1 결과, 상기 제2 결과 및 상기 음향 데이터의 라벨링에 기초하여 비용 함수를 계산하고, 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하여 학습될 수 있다.
본 발명의 일실시예에 따른 전자 장치는, 프로세서를 포함하고, 상기 프로세서는, 음향 장면을 포함하는 음향 데이터를 식별하고, 상기 음향 데이터를 학습된 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측하고, 상기 음향 장면 분류 모델은, 상기 음향 장면 분류 모델의 학습을 유도하는 보조 모델을 이용하여 학습될 수 있다.
상기 음향 장면 분류 모델은, 상기 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 상기 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하고, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 상기 보조 모델의 가중치에 기초하여, 상기 보조 모델의 가중치를 갱신하고, 상기 보조 모델에 상기 학습 데이터를 입력하여 제2 결과를 출력하고, 상기 제1 결과, 상기 제2 결과 및 상기 학습 데이터의 라벨링에 기초하여 비용 함수를 계산하고, 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하여 학습될 수 있다.
상기 보조 모델의 가중치는, 가중치 계수에 따라 결정되는 상기 음향 장면 분류 모델의 가중치 및 이전 에포크의 상기 보조 모델의 가중치의 반영 비율에 기초하여 갱신될 수 있다.
상기 보조 모델의 가중치는, 상기 가중치 계수가 클수록, 상기 음향 장면 분류 모델의 가중치의 반영 비율이 높고, 이전 에포크의 상기 보조 모델의 가중치의 반영 비율이 낮을 수 있다.
상기 가중치 계수는, 상기 에포크가 증가함에 따라 설정된 최대 가중치 계수 이하의 범위에서 증가할 수 있다.
상기 가중치 계수는, 상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 음향 장면 분류 모델의 가중치에 따라 상기 보조 모델의 가중치가 갱신되도록 결정될 수 있다.
상기 제1 결과는, 노이즈(noise)가 추가된 상기 학습 데이터를 상기 음향 장면 분류 모델에 입력하여 출력될 수 있다.
상기 비용 함수는, 상기 제1 결과 및 상기 학습 데이터의 라벨링을 이용하여 제1 비용 함수를 계산하고, 상기 제1 결과 및 상기 제2 결과를 이용하여 제2 비용 함수를 계산하고, 상기 제2 비용 함수에 비용 함수 계수를 곱하고, 상기 제1 비용 함수를 합하여 계산될 수 있다.
상기 비용 함수는, 상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 제1 비용 함수에 따라 계산될 수 있다.
본 발명의 일실시예에 따르면 신경망 기반의 음향 장면 분류 모델의 성능을 개선시킬 수 있으며, 추론 모델의 복잡도를 증가시키지 않고, 성능을 개선할 수 있다.
본 발명의 일실시예에 따르면 모바일 환경과 같이 모델의 복잡도가 제한되어 있는 환경에서 음향 장면 분류 모델의 성능을 개선할 수 있다.
본 발명의 일실시예에 따르면, 보조 모델을 이용하여 음향 장면 분류 모델과 같은 신경망을 학습시키는 방법은, 기존의 학습 모델을 변형하지 않으므로, 기존에 효과적으로 동작하고 있는 모델에 본 발명에 따른 모델 학습 방법을 적용하여, 모델의 성능을 개선할 수 있다.
도 1은 본 발명의 일실시예에 따른 전자 장치의 음향 장면 분류 모델을 학습시키는 동작을 나타낸 도면이다.
도 2는 본 발명의 일실시예에 따른 음향 장면 분류 모델의 학습 방법을 위한 동작을 나타낸 도면이다.
도 3은 본 발명의 일실시예에 따른 음향 장면 분류 모델의 전체 학습을 나타낸 도면이다.
도 4는 본 발명의 일실시예에 따른 전자 장치를 이용한 음향 장면을 분류하는 동작을 나타낸 도면이다.
도 5는 본 발명의 일실시예에 따른 에포크(epoch)에 따른 비용 함수 계수 및 학습율을 나타낸 도면이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
도 1은 본 발명의 일실시예에 따른 전자 장치(100)의 음향 장면 분류 모델(110)을 학습시키는 동작을 나타낸 도면이다.
도 1을 참조하면, 본 발명의 일실시예에 따른 전자 장치(100)는 음향 장면 분류 모델(110)의 학습을 유도하는 보조 모델(120)을 이용하여 음향 장면 분류 모델(110)을 학습시킬 수 있다. 일례로, 음향 장면 분류 모델(110)은 적용된 보조 모델(120)에 따른 앙상블 효과를 이용하여 학습될 수 있다.
도 1을 참조하면, 일실시예에 따른 전자 장치(100)는 음향 장면으로 라벨링 된 학습 데이터(160)를 음향 장면 분류 모델(110)에 입력하여, 음향 장면을 예측한 제1 결과를 출력할 수 있다.
일례로, 음향 장면 분류 모델(110)은 신경망 모델로, 공지된 다양한 신경망 모델이 적용될 수 있다. 예를 들어, 신경망 모델은 복수의 인공 신경망 레이어들을 포함할 수 있다. 인공 신경망은 심층 신경망(DNN: deep neural network), CNN(convolutional neural network), RNN(recurrent neural network), RBM(restricted boltzmann machine), DBN(deep belief network), BRDNN(bidirectional recurrent deep neural network) 또는 심층 Q-네트워크(deep Q-networks) 중 하나일 수 있으나, 전술한 예에 한정되지 않는다. 신경망 모델은 하드웨어 구조 이외에, 추가적으로 또는 대체적으로, 소프트웨어 구조를 포함할 수 있다.
일례로, 전자 장치(100)는 학습 데이터(160)에 노이즈(150)를 추가하여, 음향 장면 분류 모델(110)에 입력할 수 있다. 예를 들어, 전자 장치(100)는 노이즈(150)를 학습 데이터(160)에 추가하여, 음향 장면 분류 모델(110)을 학습시키는 에포크마다 변동성을 가지도록 음향 장면 분류 모델(110)을 학습시킬 수 있다.
일실시예에 따른 전자 장치(100)는 음향 장면 분류 모델(110)의 가중치 및 이전 에포크(epoch)의 보조 모델(120)의 가중치에 기초하여, 보조 모델(120)의 가중치를 갱신할 수 있다. 전자 장치(100)는 음향 장면 분류 모델(110)의 가중치 및 이전 에포크의 보조 모델(120)의 가중치에 기초하여, 보조 모델(120)의 가중치를 갱신함으로써, 음향 장면 분류 모델(110)과 보조 모델(120)의 가중 평균에 따라 음향 장면 분류 모델(110)을 학습시킬 수 있다.
일례로, 보조 모델(120)의 가중치는 음향 장면 분류 모델(110)의 가중치에 따라 갱신될 수 있다. 일례로, 보조 모델(120)은 음향 장면 분류 모델(110)의 학습을 유도하기 위한 모델로, 보조 모델(120)을 이용하여 음향 장면 분류 모델(110)을 학습시키는 모델을 앙상블 유도 모델로 호칭할 수 있다.
일례로, 전자 장치(100)는 음향 장면 분류 모델(110)의 가중치들의 지수적 이동 평균(Exponential Moving Average, EMA) 또는 지수적 가중 이동 평균(Exponential Weighted Moving Average)로 보조 모델(120)의 가중치를 갱신할 수 있다. 상기에서 예시한 보조 모델(120)의 가중치를 갱신하기 위한 지수적 이동 평균 등은 예시적인 것으로, 음향 장면 분류 모델(110)의 가중치에 기초하여 보조 모델(120)의 가중치를 갱신하는 방법은 상기 예시들로 한정되지 않는다. 예를 들어, 전자 장치(100)는 음향 장면 분류 모델(110)의 가중치들의 이동 평균을 이용하여 보조 모델(120)의 가중치를 갱신할 수 있다.
하기 식 1은, 다양한 실시예들에 따른 전자 장치(100)가 보조 모델(120)의 가중치를 갱신하는 수학식을 의미할 수 있다. 일례로, 하기 식 1을 참조하면, 전자 장치(100)는 가중치 계수에 따라 보조 모델(120)의 가중치를 갱신할 수 있다. 예를 들어, 전자 장치(100)는 가중치 계수에 따라, 갱신되는 보조 모델(120)의 가중치에 대한 음향 장면 분류 모델(110)의 가중치 및 이전 에포크의 보조 모델(120)의 가중치의 반영 비율을 결정할 수 있다.
[식 1]
Figure pat00001
상기 식 1에서
Figure pat00002
는 보조 모델(120)의 가중치,
Figure pat00003
는 음향 장면 분류 모델(110)의 가중치,
Figure pat00004
는 가중치 계수를 의미할 수 있다. 상기 식 1에서, 우항의
Figure pat00005
는 이전 에포크의 보조 모델(120)의 가중치, 좌항의
Figure pat00006
는 갱신되는 보조 모델(120)의 가중치를 의미할 수 있다.
상기 식 1에서,
Figure pat00007
는 이전 에포크의 보조 모델(120)의 가중치의 반영 비율, 가중치 계수
Figure pat00008
는 음향 장면 분류 모델(110)의 가중치의 반영 비율을 의미할 수 있다.
상기 식 1을 참조하면, 전자 장치(100)는 가중치 계수가 클수록, 음향 장면 분류 모델(110)의 가중치의 반영 비율을 높게 하고, 이전 에포크의 보조 모델(120)의 가중치의 반영 비율을 낮게 하여, 보조 모델(120)의 가중치를 갱신할 수 있다. 상기 식 1에서 가중치 계수
Figure pat00009
가 커지면 이전 에포크의 보조 모델(120)의 가중치의 반영 비율
Figure pat00010
는 낮고, 음향 장면 분류 모델(110)의 가중치의 반영 비율
Figure pat00011
는 높아질 수 있다.
일실시예에 따르면, 보조 모델(120)의 가중치는 음향 장면 분류 모델(110)의 가중치들, 예컨대 이전 에포크들의 음향 장면 분류 모델(110)의 가중치들의 지수적 이동 평균으로 갱신될 수 있고, 보조 모델(120)은 지수적 이동 평균 모델로 호칭될 수 있다. 가중치 계수는 이동 평균 계수로 호칭될 수 있다.
상기 식 1에서, 가중치 계수
Figure pat00012
는 음향 장면 분류 모델(110)의 가중치의 창함수 유효 길이를 조절하는 상수를 의미할 수 있다. 예를 들어, 가중치 계수
Figure pat00013
가 높을수록, 보조 모델(120)의 가중치에 이전 에포크들의 음향 장면 분류 모델(110)의 가중치는 적게 반영되고, 현재 에포크의 음향 장면 분류 모델(110)의 가중치가 크게 반영될 수 있다. 가중치 계수
Figure pat00014
가 높을수록, 보조 모델(120)의 가중치는 현재 에포크의 음향 장면 분류 모델(110)의 가중치에 더 민감하게 반응할 수 있다.
상기 식 1에서, 보조 모델(120)의 가중치는 음향 장면 분류 모델(110)의 가중치, 이전 에포크의 보조 모델(120)의 가중치 및 가중치 계수에 따라 갱신될 수 있다. 상기 식 1에 따르면, 보조 모델(120)의 가중치는 음향 장면 분류 모델(110)의 가중치들에 따라 결정되는 것으로 이해될 수 있다.
예를 들어, 상기 식 1에서 이전 에포크의 보조 모델(120)의 가중치 및 음향 장면 분류 모델(110)의 가중치에 따라 보조 모델(120)의 가중치를 갱신하는 것은, 음향 장면 분류 모델(110)의 가중치들의 지수적 이동 평균에 따라 보조 모델(120)의 가중치를 갱신되는 것과 동일하게 이해될 수 있다.
일례로, 전자 장치(100)는 에포크가 증가함에 따라 가중치 계수를 증가시키되, 가중치 계수가 설정된 최대 가중치 계수 이하가 되도록 할 수 있다.
[식 2]
Figure pat00015
상기 식 2에서
Figure pat00016
는 가중치 계수,
Figure pat00017
는 설정된 최대 가중치 계수, n은 에포크, min(a, b)는 a, b 값 중 작은 값을 의미할 수 있다. 상기 식 2에 따르면, 가중치 계수
Figure pat00018
는 에포크에 따라 결정되는
Figure pat00019
과 최대 가중치 계수
Figure pat00020
중 작은 값으로 결정될 수 있다.
일실시예에 따른 전자 장치(100)는 보조 모델(120)에 학습 데이터(160)를 입력하여 제2 결과를 출력할 수 있다. 예를 들어, 보조 모델(120)에서 출력되는 제2 결과는 제1 결과와 실질적으로 동일한 형태로, 예측된 음향 장면에 관한 것일 수 있다.
일례로, 보조 모델(120)은 음향 장면 분류 모델(110)의 학습을 유도, 예컨대 음향 장면 분류 모델(110)의 앙상블 유도 학습을 위한 모델일 수 있다. 예를 들어, 보조 모델(120)은 음향 장면 분류 모델(110)과 동일한 신경망 구조를 포함할 수 있다.
일례로, 보조 모델(120)은 음향 장면 분류 모델(110)과 동일한 신경망 구조를 포함하고, 음향 장면 분류 모델(110)의 가중치에 따라 결정되는 보조 모델(120)의 가중치를 포함할 수 있다. 전자 장치(100)는 보조 모델(120)에 학습 데이터(160)를 입력하여, 제1 결과와 형식적으로 동일한 제2 결과를 출력할 수 있다.
일실시예에 따른 전자 장치(100)는 제1 결과, 제2 결과 및 학습 데이터(160)의 라벨링을 이용하여, 비용 함수를 계산할 수 있다.
일례로, 전자 장치(100)는 제1 결과 및 학습 데이터(160)의 라벨링을 이용하여 제1 비용 함수(130)를 계산할 수 있다. 일례로, 전자 장치(100)는 제1 결과 및 제2 결과를 이용하여 제1 비용 함수(140)를 계산할 수 있다. 예를 들어, 제1 비용 함수(130)는 음향 장면 분류 모델(110)의 제1 출력과 학습 데이터(160)의 라벨링을 이용하여 계산되는 것으로, 분류 비용 함수로 호칭될 수 있다. 예를 들어, 제1 비용 함수(140)는 음향 장면 분류 모델(110)의 제1 출력과 보조 모델(120)의 제2 출력을 이용하여 계산되는 것으로, 일관성 비용 함수로 호칭될 수 있다.
일례로, 제1 비용 함수(130)는 음향 장면 분류 모델(110)의 제1 결과와 정답인 라벨링 간의 차이를 비교할 수 있고, 제1 비용 함수(140)는 음향 장면 분류 모델(110)의 제1 결과와 보조 모델(120)의 제2 결과 간의 차이를 비교할 수 있다.
일례로, 전자 장치(100)는 제1 비용 함수(130)와 제1 비용 함수(140)의 가중치 합으로 비용 함수를 계산할 수 있다. 예를 들어, 전자 장치(100)는, 제1 비용 함수(130)와 제1 비용 함수(140)에 비용 함수 계수를 곱한 값을 합하여 비용 함수를 계산할 수 있다.
예를 들어, 전자 장치(100)는 하기 식 3과 같이 비용 함수를 계산할 수 있다.
[식 3]
Figure pat00021
상기 식 3에서,
Figure pat00022
는 비용 함수,
Figure pat00023
는 제1 비용 함수(130),
Figure pat00024
는 비용 함수 계수,
Figure pat00025
는 제1 비용 함수(140)를 의미할 수 있다.
일실시예에 따른 전자 장치(100)는 비용 함수를 이용하여 음향 장면 분류 모델(110)의 가중치를 갱신할 수 있다. 일례로, 전자 장치(100)는 비용 함수를 최적화하도록 음향 장면 분류 모델(110)의 가중치를 갱신할 수 있다.
도 2는 본 발명의 일실시예에 따른 음향 장면 분류 모델(110)의 학습 방법을 위한 동작을 나타낸 도면이다.
도 2를 참조하면, 일실시예에 따른 전자 장치(100)는 동작 210에서 학습 데이터(160)를 음향 장면 분류 모델(110)에 입력하여 제1 결과를 출력할 수 있다. 일례로, 학습 데이터(160)는 음향 장면으로 라벨링 된 음향 데이터 내지 음향 신호일 수 있다. 일례로, 제1 결과는 음향 장면 분류 모델(110)이 학습 데이터(160)를 이용하여 예측한 음향 장면일 수 있고, 학습 데이터(160)의 라벨링에 대응하는 형태의 데이터일 수 있다.
일실시예에 따른 전자 장치(100)는 동작 220에서 음향 장면 분류 모델(110)의 가중치 및 이전 에포크의 보조 모델(120)의 가중치에 기초하여, 보조 모델(120)의 가중치를 갱신할 수 있다.
일례로, 보조 모델(120)의 가중치는 이전 에포크들의 음향 장면 분류 모델(110)의 가중치들의 지수적 이동 평균으로 갱신될 수 있다.
일실시예에 따른 전자 장치(100)는 동작 230에서 학습 데이터(160)를 보조 모델(120)에 입력하여 제2 결과를 출력할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 240에서 제1 결과, 제2 결과 및 학습 데이터(160)의 라벨링을 이용하여 비용 함수를 계산할 수 있다. 일례로, 전자 장치(100)는 제1 결과와 라벨링 간의 차이를 이용하여 제1 비용 함수(130)를 계산하고, 제1 결과와 제2 결과 간의 차이를 이용하여 제1 비용 함수(140)를 계산할 수 있다. 전자 장치(100)는 제1 비용 함수(130)와 제1 비용 함수(140)에 비용 함수 계수를 곱한 값을 더하여, 비용 함수를 계산할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 250에서 비용 함수를 이용하여 음향 장면 분류 모델(110)의 가중치를 갱신할 수 있다. 일례로, 전자 장치(100)는 갱신된 음향 장면 분류 모델(110)의 가중치를 이용하여, 다음 에포크의 보조 모델(120)의 가중치를 갱신할 수 있다.
도 3은 본 발명의 일실시예에 따른 음향 장면 분류 모델(110)의 전체 학습을 나타낸 도면이다. 도 3을 참조하면, 일실시예에 따른 전자 장치(100)는 설정된 에포크 미만의 음향 장면 분류 모델(110)의 학습에서, 보조 모델(120)을 이용하지 않고 음향 장면 분류 모델(110)을 학습시킬 수 있다.
일례로, 전자 장치(100)는 에포크가 설정된 에포크 미만일 때, 보조 모델(120)을 이용하지 않고 음향 장면 분류 모델(110)을 학습시킬 수 있다. 예를 들어, 전자 장치(100)는 설정된 에포크 미만의 음향 장면 분류 모델(110)의 학습에서, 음향 장면 분류 모델(110)이 단독 학습되도록 가중치 계수 및 비용 함수 계수를 결정할 수 있다. 예를 들어, 전자 장치(100)는 설정된 에포크 미만에서, 앙상블 유도 모델을 동작하지 않고 음향 장면 분류 모델(110)을 학습시키고, 설정된 에포크 이상에서 앙상블 유도 모델을 동작하여 음향 장면 분류 모델(110)을 학습시킬 수 있다.
일례로, 설정된 에포크 미만에서 음향 장면 분류 모델(110)이 단독 학습되는 것은, 보조 모델(120)의 가중치가 음향 장면 분류 모델(110)의 가중치와 동일하게 갱신되고, 비용 함수가 제1 결과 및 라벨링의 차이에 따라 계산되는 제1 비용 함수(130)로 계산되는 것을 의미할 수 있다.
도 3을 참조하면, 일실시예에 따른 전자 장치(100)는 동작 310에서 음향 장면 분류 모델(110)의 가중치에 따라 보조 모델(120)의 가중치를 갱신하도록 가중치 계수를 결정할 수 있다.
예를 들어, 전자 장치(100)는 상기 식 1에서 가중치 계수
Figure pat00026
를 1로 설정하여, 음향 장면 분류 모델(110)의 가중치에 따라 보조 모델(120)의 가중치를 갱신할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 320에서 제1 비용 함수(130)에 따라 비용 함수를 계산하도록 비용 함수 계수를 결정할 수 있다.
예를 들어, 전자 장치(100)는 상기 식 3에서 비용 함수 계수
Figure pat00027
를 0으로 설정하여, 제1 비용 함수(130)에 따라 비용 함수를 계산할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 330에서 음향 장면 분류 모델(110)을 학습시킬 수 있다. 예를 들어, 전자 장치(100)는 동작 330에서 도 2에 도시된 동작 210 내지 250에 따라 음향 장면 분류 모델(110)을 학습시킬 수 있다. 일례로, 동작 330에서 학습 데이터(160)를 이용하여 음향 장면 분류 모델(110)이 1회 학습된 경우, 에포크가 1 증가될 수 있다.
일실시예에 따른 전자 장치(100)는 동작 340에서 에포크와 설정된 에포크를 비교할 수 있다. 일례로, 설정된 에포크는 음향 장면 분류 모델(110)이 단독으로 학습, 예컨대 앙상블 유도 모델이 동작하지 않는 구간을 의미할 수 있다.
일례로, 동작 340에서 에포크가 설정된 에포크 미만인 경우, 전자 장치(100)는 동작 310 내지 330을 수행할 수 있다. 예를 들어, 전자 장치(100)는 동작 310 내지 330을 반복하여 수행할 때마다, 에포크가 1씩 증가할 수 있다. 전자 장치(100)는 에포크가 설정된 에포크 이상이 될 때까지, 동작 310 내지 330을 반복하여 수행할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 340에서 에포크가 설정된 에포크 이상인 경우, 동작 350에서 에포크 및 설정된 최대 가중치 계수를 고려하여, 가중치 계수를 결정할 수 있다. 예를 들어, 전자 장치(100)는 상기 식 2에 따라 가중치 계수를 결정할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 360에서 설정된 값으로 비용 함수 계수를 설정할 수 있다.
일실시예에 따른 전자 장치(100)는 동작 370에서 음향 장면 분류 모델(110)을 학습시킬 수 있다. 예를 들어, 전자 장치(100)는 동작 370에서 도 2에 도시된 동작 210 내지 250에 따라 음향 장면 분류 모델(110)을 학습시킬 수 있다. 일례로, 동작 370에서 학습 데이터(160)를 이용하여 음향 장면 분류 모델(110)이 1회 학습된 경우, 에포크가 1 증가될 수 있다.
일실시예에 따른 전자 장치(100)는 동작 380에서 음향 장면 분류 모델(110)의 학습이 완료되었는지 여부를 판단할 수 있다. 일례로, 전자 장치(100)는 에포크를 설정된 전체 반복 학습 횟수와 비교하여, 음향 장면 분류 모델(110)의 학습이 완료되었는지를 판단할 수 있다.
일례로, 전자 장치(100)는 동작 380에서 학습이 완료되지 않은 경우, 동작 350 내지 370에 따라 음향 장면 분류 모델(110)을 학습시킬 수 있다.
일례로, 전자 장치(100)는 동작 330과 동작 370에서의 학습율(learning rate)를 다르게 설정할 수 있다. 예를 들어, 전자 장치(100)는 동작 330에서 학습율을 자유롭게 설정하고, 동작 370에서는 학습율을 낮게 설정할 수 있다. 일례로, 전자 장치(100)는 설정된 에포크 이상의 학습의 학습율보다 설정된 에포크 미만의 학습의 학습율을 높게 설정할 수 있다.
일례로, 전자 장치(100)는 지도(supervised) 학습 기반으로 보조 모델(120)을 이용하여 음향 장면 분류 모델(110)을 학습시키는 구조를 포함할 수 있다. 전자 장치(100)는 보조 모델(120)을 이용한 효과, 예컨대 앙상블 유도 모델을 이용한 앙상블 효과를 이용하여 모델 성능을 개선시킬 수 있다. 전자 장치(100)는 도 3과 같이 설정된 에포크 미만에서는 음향 장면 분류 모델(110)을 단독으로 학습시킴으로써, 음향 장면 분류 모델(110)을 효과적으로 학습시킬 수 있다.
도 4는 본 발명의 일실시예에 따른 전자 장치(400)를 이용한 음향 장면을 분류하는 동작을 나타낸 도면이다.
도 4를 참조하면, 일실시예에 따른 전자 장치(400)는 음향 장면을 포함하는 음향 데이터(410)를 식별할 수 있다. 일실시예에 따른 전자 장치는 음향 데이터(410)를 음향 장면 분류 모델(110)에 입력하여, 예측된 음향 장면을 출력할 수 있다.
도 4에서, 음향 장면 분류 모델(110)은 음향 장면 분류 모델(110)의 학습을 유도하는 보조 모델(120)을 이용하여 학습된 것일 수 있다. 예를 들어, 도 4에 도시된 음향 장면 분류 모델(120)은 도 1 내지 도 3에 도시된 전자 장치(100) 내지 음향 장면 분류 모델의 학습 방법에 따라 학습된 신경망 모델일 수 있다.
도 5는 본 발명의 일실시예에 따른 에포크(epoch)에 따른 비용 함수 계수 및 학습율을 나타낸 도면이다. 도 5는, 도 3에서 설명한 전자 장치(100)가 설정된 에포크 미만에서 음향 장면 분류 모델(110)의 가중치에 따라 보조 모델(120)의 가중치를 갱신하고, 제1 비용 함수(130)에 따라 비용 함수를 계산하는 일 예를 나타낸 도면이다.
도 5는 설정된 에포크가 300인 예로, 전자 장치(100)는 에포크 300 미만에서 식 3의 비용 함수 계수
Figure pat00028
를 0으로 설정하여 비용 함수를 계산할 수 있다. 전자 장치(100)는 에포크 300 미만에서 음향 장면 분류 모델(110)의 학습율을 자유롭게 설정할 수 있다.
일례로, 비용 함수 계수
Figure pat00029
가 0인 에포크 구간을 앙상블 유도 모델 비동작 영역, 비용 함수 계수
Figure pat00030
가 0이 아닌 에포크 구간을 앙상블 유도 모델 동작 영역으로 호칭할 수 있다. 일례로, 전자 장치(100)는 비용 함수 계수
Figure pat00031
가 0이 아닌 에포크 구간을 앙상블 유도 모델 동작 영역에서 학습율을 일정하게 설정할 수 있다.
도 5에 도시된 실시예와 다른 실시예로, 전자 장치(100)는 에포크 300 미만에서 식 1의 가중치 계수
Figure pat00032
를 1로 설정하여 보조 함수의 가중치를 갱신할 수 있다.
일례로, 전자 장치(100)는 설정된 에포크 미만에서 비용 함수 계수
Figure pat00033
를 0으로 하거나, 또는 가중치 계수
Figure pat00034
를 1로 설정하여 음향 장면 분류 모델을 학습시킬 수 있다.
예를 들어, 비용 함수 계수
Figure pat00035
가 0인 경우, 식 3에 따라 비용 함수는 제1 비용 함수(130)로 계산될 수 있다. 전자 장치(100)는 제1 비용 함수(130)를 최소화하도록 음향 장면 분류 모델(110)의 가중치를 갱신할 수 있으므로, 비용 함수 계수
Figure pat00036
가 0일 때 음향 장면 분류 모델(110)은 단독으로 학습될 수 있다.
예를 들어, 가중치 계수
Figure pat00037
가 1인 경우, 식 1에 따라 보조 모델(120)의 가중치는 음향 장면 분류 모델(110)의 가중치와 동일하게 갱신될 수 있다. 보조 모델(120)의 가중치가 음향 장면 분류 모델(110)의 가중치와 동일하므로, 제1 결과와 제2 결과가 동일할 수 있고, 제2 비용 함수(140)가 0이 될 수 있다. 제2 비용 함수(140)가 0이므로, 전자 장치(100)는 제1 비용 함수(130)에 따라 비용 함수를 계산할 수 있고, 가중치 계수
Figure pat00038
가 1일 때 음향 장면 분류 모델(110)은 단독으로 학습될 수 있다.
한편, 본 발명에 따른 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 즉 정보 캐리어, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체) 또는 전파 신호에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체 및 전송매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
100, 400: 전자 장치
110: 음향 장면 분류 모델
120: 보조 모델
130: 제1 비용 함수
140: 제2 비용 함수
150: 노이즈
160: 학습 데이터
410: 음향 데이터
430: 예측된 음향 장면

Claims (19)

  1. 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하는 단계;
    상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 보조 모델의 가중치에 기초하여, 상기 음향 장면 분류 모델의 학습을 유도하는 상기 보조 모델의 가중치를 갱신하는 단계;
    상기 보조 모델에 상기 학습 데이터를 입력하여 제2 결과를 출력하는 단계;
    상기 제1 결과, 상기 제2 결과 및 상기 음향 데이터의 라벨링에 기초하여 비용 함수를 계산하는 단계 및
    상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하는 단계
    를 포함하는, 음향 장면 분류 모델의 학습 방법.
  2. 제1항에 있어서,
    상기 보조 모델의 가중치를 갱신하는 단계는,
    가중치 계수에 따라 결정되는 상기 음향 장면 분류 모델의 가중치 및 이전 에포크의 상기 보조 모델의 가중치의 반영 비율에 기초하여, 상기 보조 모델의 가중치를 갱신하는, 음향 장면 분류 모델의 학습 방법.
  3. 제2항에 있어서,
    상기 보조 모델의 가중치를 갱신하는 단계는,
    상기 가중치 계수가 클수록, 상기 음향 장면 분류 모델의 가중치의 반영 비율을 높게 하고, 이전 에포크의 상기 보조 모델의 가중치의 반영 비율을 낮게 하여, 상기 보조 모델의 가중치를 갱신하는, 음향 장면 분류 모델의 학습 방법.
  4. 제2항에 있어서,
    상기 보조 모델의 가중치를 갱신하는 단계는,
    상기 에포크가 증가함에 따라 상기 가중치 계수를 증가시키되, 상기 가중치 계수가 설정된 최대 가중치 계수 이하가 되도록 하는, 음향 장면 분류 모델의 학습 방법.
  5. 제2항에 있어서,
    상기 보조 모델의 가중치를 갱신하는 단계는,
    상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 음향 장면 분류 모델의 가중치에 따라 상기 보조 모델의 가중치가 갱신되도록 상기 가중치 계수를 결정하는, 음향 장면 분류 모델의 학습 방법.
  6. 제1항에 있어서,
    상기 제1 결과를 출력하는 단계는,
    상기 학습 데이터에 노이즈(noise)를 추가하여, 상기 음향 장면 분류 모델에 입력하는, 음향 장면 분류 모델의 학습 방법.
  7. 제1항에 있어서,
    상기 비용 함수를 계산하는 단계는,
    상기 제1 결과 및 상기 학습 데이터의 라벨링을 이용하여 제1 비용 함수를 계산하는 단계;
    상기 제1 결과 및 상기 제2 결과를 이용하여 제2 비용 함수를 계산하는 단계 및
    상기 제2 비용 함수에 비용 함수 계수를 곱하고, 상기 제1 비용 함수를 합하는 단계
    를 포함하는, 음향 장면 분류 모델의 학습 방법.
  8. 제7항에 있어서,
    상기 비용 함수를 계산하는 단계는,
    상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 제1 비용 함수에 따라 상기 비용 함수를 계산하도록 상기 비용 함수 계수를 결정하는, 음향 장면 분류 모델의 학습 방법.
  9. 음향 장면을 포함하는 음향 데이터를 식별하는 단계 및
    상기 음향 데이터를 학습된 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측하는 단계
    를 포함하고,
    상기 음향 장면 분류 모델은,
    상기 음향 장면 분류 모델의 학습을 유도하는 보조 모델을 이용하여 학습되는, 음향 장면 분류 방법.
  10. 제9항에 있어서,
    상기 음향 장면 분류 모델은,
    상기 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 상기 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하고, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 상기 보조 모델의 가중치에 기초하여, 상기 보조 모델의 가중치를 갱신하고, 상기 보조 모델에 상기 음향 데이터를 입력하여 제2 결과를 출력하고, 상기 제1 결과, 상기 제2 결과 및 상기 음향 데이터의 라벨링에 기초하여 비용 함수를 계산하고, 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하여 학습되는, 음향 장면 분류 방법.
  11. 전자 장치에 있어서,
    프로세서를 포함하고,
    상기 프로세서는,
    음향 장면을 포함하는 음향 데이터를 식별하고, 상기 음향 데이터를 학습된 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측하고,
    상기 음향 장면 분류 모델은,
    상기 음향 장면 분류 모델의 학습을 유도하는 보조 모델을 이용하여 학습되는, 전자 장치.
  12. 제11항에 있어서,
    상기 음향 장면 분류 모델은,
    상기 음향 장면으로 라벨링 된 학습 데이터를 반복 학습되는 상기 음향 장면 분류 모델에 입력하여, 상기 음향 장면을 예측한 제1 결과를 출력하고, 상기 음향 장면 분류 모델의 가중치 및 이전 에포크(epoch)의 상기 보조 모델의 가중치에 기초하여, 상기 보조 모델의 가중치를 갱신하고, 상기 보조 모델에 상기 학습 데이터를 입력하여 제2 결과를 출력하고, 상기 제1 결과, 상기 제2 결과 및 상기 학습 데이터의 라벨링에 기초하여 비용 함수를 계산하고, 상기 비용 함수에 기초하여, 상기 음향 장면 분류 모델의 가중치를 갱신하여 학습되는, 전자 장치.
  13. 제12항에 있어서,
    상기 보조 모델의 가중치는,
    가중치 계수에 따라 결정되는 상기 음향 장면 분류 모델의 가중치 및 이전 에포크의 상기 보조 모델의 가중치의 반영 비율에 기초하여 갱신되는, 전자 장치.
  14. 제13항에 있어서,
    상기 보조 모델의 가중치는,
    상기 가중치 계수가 클수록, 상기 음향 장면 분류 모델의 가중치의 반영 비율이 높고, 이전 에포크의 상기 보조 모델의 가중치의 반영 비율이 낮은, 전자 장치.
  15. 제13항에 있어서,
    상기 가중치 계수는,
    상기 에포크가 증가함에 따라 설정된 최대 가중치 계수 이하의 범위에서 증가하는, 전자 장치.
  16. 제13항에 있어서,
    상기 가중치 계수는,
    상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 음향 장면 분류 모델의 가중치에 따라 상기 보조 모델의 가중치가 갱신되도록 결정되는, 전자 장치.
  17. 제12항에 있어서,
    상기 제1 결과는,
    노이즈(noise)가 추가된 상기 학습 데이터를 상기 음향 장면 분류 모델에 입력하여 출력되는, 전자 장치.
  18. 제12항에 있어서,
    상기 비용 함수는,
    상기 제1 결과 및 상기 학습 데이터의 라벨링을 이용하여 제1 비용 함수를 계산하고, 상기 제1 결과 및 상기 제2 결과를 이용하여 제2 비용 함수를 계산하고, 상기 제2 비용 함수에 비용 함수 계수를 곱하고, 상기 제1 비용 함수를 합하여 계산되는, 전자 장치.
  19. 제18항에 있어서,
    상기 비용 함수는,
    상기 에포크가 상기 음향 장면 분류 모델이 단독 학습하도록 설정된 에포크 미만인 경우, 상기 제1 비용 함수에 따라 계산되는, 전자 장치.
KR1020210156679A 2021-11-15 2021-11-15 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치 KR20230070764A (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210156679A KR20230070764A (ko) 2021-11-15 2021-11-15 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치
US17/987,364 US20230154485A1 (en) 2021-11-15 2022-11-15 Methods of training acoustic scene classification model and classifying acoustic scene and electronic device for performing the methods

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210156679A KR20230070764A (ko) 2021-11-15 2021-11-15 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치

Publications (1)

Publication Number Publication Date
KR20230070764A true KR20230070764A (ko) 2023-05-23

Family

ID=86323963

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210156679A KR20230070764A (ko) 2021-11-15 2021-11-15 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치

Country Status (2)

Country Link
US (1) US20230154485A1 (ko)
KR (1) KR20230070764A (ko)

Also Published As

Publication number Publication date
US20230154485A1 (en) 2023-05-18

Similar Documents

Publication Publication Date Title
KR102410820B1 (ko) 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
US10410114B2 (en) Model training method and apparatus, and data recognizing method
US11521066B2 (en) Method and apparatus for partitioning deep neural networks
KR102158683B1 (ko) 외부 메모리로 신경망들 증강
AU2020385049B2 (en) Identifying optimal weights to improve prediction accuracy in machine learning techniques
JP7055630B2 (ja) 音声認識のための学習方法、学習装置、コンピュータプログラム及び記憶媒体
CN112116090B (zh) 神经网络结构搜索方法、装置、计算机设备及存储介质
JP2019528476A (ja) 音声認識方法及び装置
KR20200128938A (ko) 모델 학습 방법 및 장치
JP2022527536A (ja) 強化学習を通じた公平性の改善
US20220027738A1 (en) Distributed synchronous training architecture using stale weights
KR20190129580A (ko) 음성 인식 모델을 개인화하는 방법 및 장치
CN111627458A (zh) 一种声源分离方法及设备
US20220156508A1 (en) Method For Automatically Designing Efficient Hardware-Aware Neural Networks For Visual Recognition Using Knowledge Distillation
US11790232B2 (en) Method and apparatus with neural network data input and output control
CN110930996A (zh) 模型训练方法、语音识别方法、装置、存储介质及设备
US20230040889A1 (en) Training network to minimize worst-case error
US20190318237A1 (en) Systems, methods, and computer-readable media for improved real-time audio processing
KR20220032861A (ko) 하드웨어에서의 성능을 고려한 뉴럴 아키텍처 서치 방법 빛 장치
KR20230070764A (ko) 음향 장면 분류 모델의 학습 방법 및 음향 장면 분류 방법, 및 상기 방법을 수행하는 전자 장치
Pattanaik et al. Nonlinear Dynamic System Identification of ARX Model for Speech Signal Identification.
CN114386565A (zh) 提供神经网络
JP2022554126A (ja) 情報処理装置、情報処理方法、及びプログラム
US11995555B1 (en) Training a neural network with quantized weights
KR20190125694A (ko) 학습 및 추론 장치 및 그 방법