KR20210136724A - 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법 - Google Patents

다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법 Download PDF

Info

Publication number
KR20210136724A
KR20210136724A KR1020200055389A KR20200055389A KR20210136724A KR 20210136724 A KR20210136724 A KR 20210136724A KR 1020200055389 A KR1020200055389 A KR 1020200055389A KR 20200055389 A KR20200055389 A KR 20200055389A KR 20210136724 A KR20210136724 A KR 20210136724A
Authority
KR
South Korea
Prior art keywords
audio signal
label information
learning
unit
loss function
Prior art date
Application number
KR1020200055389A
Other languages
English (en)
Inventor
임우택
박수영
서상원
정영호
이태진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020200055389A priority Critical patent/KR20210136724A/ko
Publication of KR20210136724A publication Critical patent/KR20210136724A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Artificial Intelligence (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

오디오 신호 학습장치가 개시된다. 본 개시의 일 실시 예에 따른 오디오 신호 학습장치는, 입력 데이터로서 사용되는 오디오 신호를 관리하고, 상기 오디오 신호를 프레임 단위 및 세그먼트 단위로 분할하고, 상기 프레임 단위 및 세그먼트 단위로 분할된 구간에 대해 각각 제1 및 제2레이블 정보를 구성 및 관리하는 학습 데이터 관리부와, 상기 오디오 신호 및 상기 제1레이블 정보를 각각 상기 입력 데이터 및 레이블 정보로 사용하여 오디오 신호 학습모델의 학습을 처리하되, 상기 제1 및 제2레이블 정보에 각각 대응되는 제1 및 제2산출함수를 산출하고, 상기 제1 및 제2산출함수에 기초하여 오디오 신호 학습모델의 학습을 제어하는 오디오 신호 학습부를 포함할 수 있다.

Description

다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법{APPARATUS FOR LEARNING AUDIO SIGNAL USING MULTI-SCALE PREDICTION LOSS FUNCTION AND METHOD FOR THE SAME}
본 개시는 음향신호 분석 방법 및 장치에 관한 것이며, 보다 구체적으로는 음향 신호를 학습하는 방법 및 장치에 대한 것이다.
소리 이벤트를 검출하고 인식하는 기술은 실생활에서 환경 컨텍스트(context) 인식, 위험상황 인식, 미디어 콘텐츠 인식, 유선 통신 상의 상황분석 등 다양한 분야에 응용 가능한 기술로 지속적으로 연구되고 있다.
현재 이용되고 있는 소리 이벤트 인식 기술은, 오디오 신호로부터 MFCC(Mel-Frequency Cepstral Coefficient), energy, spectral flux, zero crossing rate 등 다양한 특징 값을 추출하여 우수한 특징을 검증하는 연구와, Gaussian mixture model 또는 rule 기반의 분류 방법 등에 대한 연구가 주로 이루어지고 있다.
나아가, 기계학습 기술에 대한 연구가 활발하게 진행되면서, 소리 이벤트 인식에 기계학습 기술을 적용하는 방안이 연구되고 있다.
실 생활에서 녹음된 오디오 신호는 주변 잡음 및 많은 필요 없는 이벤트들을 포함하고 있기 때문에, 실 생활에서 녹음된 오디오 신호로부터 소리 이벤트를 검출하는 것이 용이하지 않다. 구체적으로, 연속적인 오디오 신호에 대해서 소리 이벤트가 발생했는지 아닌지를 판단한 후, 어떤 이벤트 클래스가 발생했는지도 인식해야 하므로, 소리 이벤트를 검출하기가 어렵다. 또한, 오디오 신호에서 2개 이상의 소리 이벤트가 동시에 발생할 수도 있으므로, 단일 이벤트(monophonic)뿐 아니라, 다중 이벤트(polyphonic)를 인식해야 한다.
기계학습을 이용하여 소리 이벤트 인식할 경우 상대적으로 높은 인식률을 실현할 수 있다. 기계학습을 통해 인공 신경망을 학습시 손실 함수를 계산하게 된다. 일반적으로, 소리 이벤트 인식하는 인식 신경망의 학습시 오디오 신호의 프레임에 대한 손실함수 만을 사용하여 가지고 네트워크를 학습한다.
예를 들어, 10초의 오디오 신호를 사용하여 인식 신경망을 학습시, 출력 노드의 개수는 신경망의 구성에 따라 결정되며 이는 예측되는 시간 프레임의 스케일을 의미한다. 이러한 시간 프레임의 스케일을 작게 가져갈수록 더 작은 단위의 정교한 시간 예측이 가능하지만, 예측해야 하는 출력의 개수가 늘어나기 때문에 인식에 대한 정확도는 상대적으로 낮다.
나아가, 일반적으로 소리 이벤트는 오디오 신호의 전체 구간에서 발생되지 않고, 오디오 신호의 일부 구간에서 발생될 수 있다. 따라서, 프레임의 스케일을 크게 설정하여 손실함수를 산출할 경우, 손실함수의 결과값이 0으로 수렴하게 되며, 정확도가 0으로 예측되는 구간이 많아진다. 따라서, 학습 초반부터 높은 정확도를 나타내게 되는데, 이렇게 나타나는 정확도는 프레임의 모든 클래스에 대한 바이너리 손실 함수 및 정확도를 계산하는 것이기 때문에, 실제 소리 이벤트가 존재하는 프레임에 대한 정확도를 신뢰할 수 없는 문제가 있다.
본 개시의 기술적 과제는 다중 스케일 손실 함수를 통해 학습을 수행함으로써, 프레임 단위에 대한 정규화(regularization)를 실현할 수 있으며, 보다 안정된 네트워크 및 우수한 성능을 구비하는 인공 신경망을 구축하는 오디오 신호 학습장치 및 방법을 제공하는데 있다.
본 개시의 다른 기술적 과제는 소리 이벤트에 대한 학습모델의 학습시, 프레임 단위에 대한 예측과 세그먼트 단위에 대한 예측을 동시에 수행하는 다중 스케일 손실 함수를 통해 학습을 수행하는 방법 및 장치를 제공하는 것이다.
본 개시에서 이루고자 하는 기술적 과제들은 이상에서 언급한 기술적 과제들로 제한되지 않으며, 언급하지 않은 또 다른 기술적 과제들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
본 개시의 일 양상에 따르면, 오디오 신호 학습장치가 제공될 수 있다. 상기 장치는 입력 데이터로서 사용되는 오디오 신호를 관리하고, 상기 오디오 신호를 프레임 단위 및 세그먼트 단위로 분할하고, 상기 프레임 단위 및 세그먼트 단위로 분할된 구간에 대해 각각 제1 및 제2레이블 정보를 구성 및 관리하는 학습 데이터 관리부와, 상기 오디오 신호 및 상기 제1레이블 정보를 각각 상기 입력 데이터 및 레이블 정보로 사용하여 오디오 신호 학습모델의 학습을 처리하되, 상기 제1 및 제2레이블 정보에 각각 대응되는 제1 및 제2산출함수를 산출하고, 상기 제1 및 제2산출함수에 기초하여 오디오 신호 학습모델의 학습을 제어하는 오디오 신호 학습부를 포함할 수 있다.
본 개시의 다른 양상에 따르면, 오디오 신호 학습방법이 제공될 수 있다. 상기 방법은 입력 데이터로서 사용되는 오디오 신호를 프레임 단위로 분할하고, 상기 프레임 단위로 분할된 구간에 대한 제1레이블 정보를 구성하는 과정과, 상기 오디오 신호를 세그먼트 단위로 분할하고, 상기 제1레이블 정보를 사용하여 상기 세그먼트 단위에 대한 제2레이블 정보를 구성하는 과정과, 상기 오디오 신호 및 상기 제1레이블 정보를 각각 상기 입력 데이터 및 레이블 정보로 사용하여 오디오 신호 학습모델의 학습을 처리하는 과정과, 상기 오디오 신호 학습모델의 학습에서 확인되는 데이터를 기반으로 상기 제1레이블 정보에 대응되는 제1산출함수를 산출하는 과정과, 상기 오디오 신호 학습모델의 학습에서 확인되는 데이터 및 상기 제2레이블 정보를 기반으로, 상기 제2레이블 정보에 대응되는 제2산출함수를 산출하는 과정과, 상기 제1 및 제2산출함수를 조합한 최종 산출함수를 산출하는 과정과, 상기 최종 산출함수를 기반으로 상기 오디오 신호 학습모델의 학습을 제어하는 과정을 포함할 수 있다.
본 개시에 대하여 위에서 간략하게 요약된 특징들은 후술하는 본 개시의 상세한 설명의 예시적인 양상일 뿐이며, 본 개시의 범위를 제한하는 것은 아니다.
본 개시에 따르면, 소리 이벤트에 대한 학습모델의 학습시, 프레임 단위에 대한 예측과 세그먼트 단위에 대한 예측을 동시에 수행하는 다중 스케일 손실 함수를 통해 학습을 수행하는 방법 및 장치가 제공될 수 있다.
본 개시에 따르면, 다중 스케일 손실 함수를 통해 학습을 수행함으로써, 프레임 단위에 대한 정규화(regularization)를 실현할 수 있으며, 보다 안정된 네트워크 및 우수한 성능을 구비하는 인공 신경망을 구축할 수 있다.
본 개시에서 얻을 수 있는 효과는 이상에서 언급한 효과들로 제한되지 않으며, 언급하지 않은 또 다른 효과들은 아래의 기재로부터 본 개시가 속하는 기술분야에서 통상의 지식을 가진 자에게 명확하게 이해될 수 있을 것이다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 학습장치를 도시하는 블록도이다.
도 2는 본 개시의 일 실시예에 따른 오디오 신호 학습장치에 의해 제1 및 제2레이블 정보가 구성되는 동작을 나타내는 도면이다.
도 3은 본 개시의 일 실시예에 따른 오디오 신호 학습장치에 구비되는 학습 데이터 관리부의 상세 구성을 도시하는 블록도이다.
도 4는 본 개시의 일 실시예에 따른 오디오 신호 학습장치에 구비된 오디오 신호 학습부가 최종 손실함수를 산출하는 동작을 예시하는 도면이다.
도 5는 본 개시의 일 실시예에 따른 오디오 신호 학습방법의 순서를 도시하는 흐름도이다.
도 6은 본 개시의 일 실시예에 따른 오디오 신호 학습방법 및 장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.
이하에서는 첨부한 도면을 참고로 하여 본 개시의 실시 예에 대하여 본 개시가 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 상세히 설명한다. 그러나, 본 개시는 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시 예에 한정되지 않는다.
본 개시의 실시 예를 설명함에 있어서 공지 구성 또는 기능에 대한 구체적인 설명이 본 개시의 요지를 흐릴 수 있다고 판단되는 경우에는 그에 대한 상세한 설명은 생략한다. 그리고, 도면에서 본 개시에 대한 설명과 관계없는 부분은 생략하였으며, 유사한 부분에 대해서는 유사한 도면 부호를 붙였다.
본 개시에 있어서, 어떤 구성요소가 다른 구성요소와 "연결", "결합" 또는 "접속"되어 있다고 할 때, 이는 직접적인 연결관계뿐만 아니라, 그 중간에 또 다른 구성요소가 존재하는 간접적인 연결관계도 포함할 수 있다. 또한 어떤 구성요소가 다른 구성요소를 "포함한다" 또는 "가진다"고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 배제하는 것이 아니라 또 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
본 개시에 있어서, 서로 구별되는 구성요소들은 각각의 특징을 명확하게 설명하기 위함이며, 구성요소들이 반드시 분리되는 것을 의미하지는 않는다. 즉, 복수의 구성요소가 통합되어 하나의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있고, 하나의 구성요소가 분산되어 복수의 하드웨어 또는 소프트웨어 단위로 이루어질 수도 있다. 따라서, 별도로 언급하지 않더라도 이와 같이 통합된 또는 분산된 실시 예도 본 개시의 범위에 포함된다.
본 개시에 있어서, 다양한 실시 예에서 설명하는 구성요소들이 반드시 필수적인 구성요소들은 의미하는 것은 아니며, 일부는 선택적인 구성요소일 수 있다. 따라서, 일 실시 예에서 설명하는 구성요소들의 부분집합으로 구성되는 실시 예도 본 개시의 범위에 포함된다. 또한, 다양한 실시 예에서 설명하는 구성요소들에 추가적으로 다른 구성요소를 포함하는 실시 예도 본 개시의 범위에 포함된다.
이하, 첨부한 도면을 참조하여 본 개시의 실시 예들에 대해서 설명한다.
도 1은 본 개시의 일 실시예에 따른 오디오 신호 학습장치를 도시하는 블록도이다.
도 1을 참조하면, 본 개시의 일 실시예에 따른 오디오 신호 학습장치는, 학습 데이터 관리부(110), 및 오디오 신호 학습부(120)를 포함한다.
학습 데이터 관리부(110)는 오디오 신호 학습부(120)에 구비되는 학습모델(125)의 학습에 사용되는 학습 데이터를 입력 데이터 및 출력 데이터(예, 레이블 데이터)를 구성 및 제공할 수 있다. 특히, 학습 데이터 관리부(110)는 입력 오디오 신호를 프레임 단위 및 세그먼트 단위로 분할할 수 있으며, 이렇게 구성된 프레임 단위 및 세그먼트 단위를 대상으로 사운드 이벤트의 존재 여부를 마킹한 레이블 정보를 구성할 수 있다. 예컨대, 도 2를 참조하면, 학습 데이터 관리부(110)는 입력 오디오 신호(200)에 대해 프레임 단위(210) 및 세그먼트 단위(220)를 구성할 수 있다. 사운드 이벤트는 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등을 포함할 수 있는데, 학습 데이터 관리부(110)는 프레임 단위(210)의 각 구간에 다양한 사운드 이벤트(251, 252, 253)가 존재하는지 여부를 마킹하여 제1레이블 정보(270)를 구성할 수 있다. 즉, 학습 데이터 관리부(110)는 프레임 단위(210)에 구비되는 제1구간(211)에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하는지 여부를 확인하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등의 존재여부를 마킹하여 제1레이블 정보(270)를 구성할 수 있다. 예컨대, 프레임 단위(210)에 구비되는 제1구간(211)에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재할 경우, 각각 1로 설정하여 마킹하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하지 않을 경우 각각 0으로 설정하여 마킹할 수 있다. 학습 데이터 관리부(110)는 프레임 단위(210)에 구비되는 전체 구간에 대하여 전술한 동작을 적용하여 제1레이블 정보(270) 구성을 완료할 수 있다.
마찬가지로, 학습 데이터 관리부(110)는 세그먼트 단위(220)에 구비되는 구간에 박수 소리 이벤트, 웃음 소리 이벤트, 사이렌 소리 이벤트 등이 존재하는지 여부를 확인하고, 박수 소리 이벤트, 웃음 소리 이벤트, 사이렌 소리 이벤트 등의 존재여부를 마킹하여 제2레이블 정보(280)를 구성할 수 있다. 예컨대, 세그먼트 단위(220)에 구비되는 제1구간에 박수 소리 이벤트, 웃음 소리 이벤트, 사이렌 소리 이벤트 등이 존재할 경우, 각각 1로 설정하여 마킹하고, 박수 소리 이벤트, 웃음 소리 이벤트, 사이렌 소리 이벤트 등이 존재하지 않을 경우 각각 0으로 설정하여 마킹할 수 있다. 학습 데이터 관리부(110)는 세그먼트 단위(220)에 구비되는 전체 구간에 대하여 전술한 동작을 적용하여 제2레이블 정보(280) 구성을 완료할 수 있다.
비록, 본 개시의 일 실시예에서, 소리 이벤트의 종류를 예시하지만 본 개시가 이를 한정하는 것은 아니며 다양하게 변경될 수 있다.
또한, 프레임 단위(210)의 구간을 20ms로 설정하고, 세그먼트 단위(220)의 구간을 1sec로 설정하는 것을 예시하였으나, 본 개시가 이를 한정하는 것은 아니며 다양하게 변경될 수 있다. 이때, 세그먼트 단위는 프레임 단위에 비하여 상대적으로 넓게(coarse) 설정되면 충분하다.
나아가, 도3을 참조하면, 학습 데이터 관리부(110)는 제1레이블 정보 구성부(111) 및 제2레이블 정보 구성부(112)를 포함할 수 있다. 제1레이블 정보 구성부(111)는 전술한 바와 같이, 프레임 단위(210)에 구비되는 구간별 소리 이벤트 존재 여부에 따라, 해당 구간을 1 또는 0으로 설정하여 구성한 제1레이블 정보(
Figure pat00001
)(270)를 구성할 수 있다. 한편, 제2레이블 정보(280)는 기본적으로 제1레이블 정보(270)를 얻을 때와 유사하지만, 제2레이블 정보(280)는 제1레이블 정보(270)에 비하여 상대적으로 넓게(coarse) 설정된 구간에 대한 레이블 정보이므로, 한 세그먼트 내에 이벤트가 조금이라도 겹쳐져서 등장하게 되면 해당 세그먼트의 레이블은 1로 설정될 수 있다. 즉, 세그먼트 단위(220)의 구간 내에 이벤트가 존재하면 해당 구간은 사운드 이벤트가 존재하는 구간이기 때문에 1로 설정된 레이블 정보(
Figure pat00002
)가 구성될 수 있다. 이를 고려하여, 제2레이블 정보 구성부(112)는 프레임 단위의 레이블 정보(즉, 제1레이블 정보(270))를 사용하여 세그먼트 단위의 레이블 정보(
Figure pat00003
)(즉, 제2레이블 정보(280))를 구성할 수 있으며, 하기의 수학식 1을 통해 산출할 수 있다.
Figure pat00004
다른 예로서, 제2레이블 정보 구성부(112)는 세그먼트 단위(220)에 구비되는 각각의 구간에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하는지 여부를 확인하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등의 존재여부를 마킹하여 제2레이블 정보(280)를 구성할 수도 있다.
또한, 학습 데이터 관리부(110)는 전술한 동작을 통해 구성된 제1 및 2레이블 정보(270, 280)를 복수의 오디오 신호 학습부(120)에 제공할 수 있다.
한편, 오디오 신호 학습부(120)는 학습 데이터 관리부(110)가 제공하는 오디오 신호(200)를 입력 데이터로 설정하고, 제1레이블 정보(270)를 출력 데이터로서 설정하여 오디오 신호 학습 모델(125)의 학습을 수행할 수 있다. 오디오 신호 학습부(120)는 오디오 신호 학습 모델(125)의 학습시 제1손실함수를 산출하는 제1손실함수 산출부(131)를 포함할 수 있다. 제1손실함수 산출부(131)는 하기의 수학식 2의 연산을 통해 제1손실함수를 산출할 수 있다.
Figure pat00005
yframe_level은 프레임 단위의 손실함수, 즉, 제1손실함수를 나타내며, Diff는 차이값을 산출하는 함수이며, ygt_frame는 프레임 단위의 ground truth 레이블로서 제1레이블 정보(270)를 나타내며, y'pred_frame은 오디오 신호 학습 모델(125)에 의해 예측된 레이블을 나타낸다.
나아가, 오디오 신호 학습부(120)는 세그먼트 단위의 손실함수, 즉, 제2손실함수를 산출하는 제2손실함수 산출부(132)를 포함할 수 있다. 제2손실함수 산출부(132)는 하기의 수학식 3의 연산을 통해 제2손실함수를 산출할 수 있다.
Figure pat00006
ysegment_level은 세그먼트 단위의 손실함수, 즉, 제2손실함수를 나타내며, Diff는 차이값을 산출하는 함수이며, ygt_seg는 세그먼트 단위의 ground truth 레이블로서 제2레이블 정보(270)를 나타내며, y'pred_seg는 세그먼트 단위에 대해 예측된 레이블을 나타낸다.
나아가, 제2손실함수 산출부(132)는 프레임 단위에 대해 예측된 레이블, 즉, 오디오 신호 학습 모델(125)에 의해 예측된 레이블을 사용하여 세그먼트 단위에 대해 예측된 레이블(
Figure pat00007
)을 구할 수 있다. 예컨대, 제2손실함수 산출부(132)는 수학식 4의 연산을 통해 세그먼트 단위에 대해 예측된 레이블을 산출할 수 있다.
Figure pat00008
전술한 동작을 통해 세그먼트 단위에 대해 예측된 레이블을 산출하므로, 프레임 단위의 예측 값이 bias되지 않도록 제한이 가해지며, 세그먼트 단위의 손실함수, 즉, 제2손실함수(
Figure pat00009
)가 정규화 요소로서 기능할 수 있다.
나아가, 오디오 신호 학습부(120)는 제1 및 제2손실함수 산출부(131, 132)에서 각각 산출된 제1 및 제2손실함수를 사용하여 최종 손실함수를 산출하는 최종 손실함수 산출부(135)를 더 포함할 수 있다. 최종 손실함수 산출부(135)는 제1 및 제2손실함수를 가산하여 최종 손실함수를 산출할 수 있으며, 이때, 정규화 요소로서 기능하는 세그먼트 단위의 손실함수, 즉, 제2손실함수(
Figure pat00010
)에는 소정의 가중치가 반영될 수 있다. 구체적으로, 최종 손실함수 산출부(135)는 하기의 수학식 5의 연산을 통해 최종 손실함수(ytotal)를 산출할 수 있다.
Figure pat00011
나아가, 오디오 신호 학습부(130)는 전술한 최종 손실함수를 사용하여 오디오 신호 학습 모델(125)의 학습을 제어할 수 있다. 이와 같이, 오디오 신호 학습부(130)가 오디오 신호 학습 모델(125)의 학습시 프레임 단위의 예측값과 세그먼트 단위의 예측 값을 모두 반영한 최종 손실함수를 사용하므로, 프레임 단위에 대한 레이블링에 의해 야기되는 biased 모델 학습 문제를 완화시킬 수 있다.
도 5는 본 개시의 일 실시예에 따른 오디오 신호 학습방법의 순서를 도시하는 흐름도이다.
본 개시의 일 실시예에 따른 오디오 신호 학습방법은 전술한 본 개시의 일 실시예에 따른 오디오 신호 학습장치에 의해 수행될 수 있다.
우선, 오디오 신호 학습장치는 학습모델의 학습에 사용되는 데이터를 구성할 수 있다. 특히, 오디오 신호 학습장치는 입력 오디오 신호를 프레임 단위 및 세그먼트 단위로 분할할 수 있으며, 이렇게 구성된 프레임 단위 및 세그먼트 단위를 대상으로 사운드 이벤트의 존재 여부를 마킹한 레이블 정보를 구성할 수 있다. 구체적으로, S501 단계에서, 오디오 신호 학습장치는 입력 오디오 신호에 대해 프레임 단위 및 세그먼트 단위를 구성할 수 있다. 사운드 이벤트는 박수 소리 이벤트, 웃음 소리 이벤트, 사이렌 소리 이벤트 등을 포함할 수 있는데, 오디오 신호 학습장치는 프레임 단위의 각 구간에 다양한 사운드 이벤트가 존재하는지 여부를 마킹하여 레이블 정보(270, 도 2참조)를 구성할 수 있다. 즉, 오디오 신호 학습장치는 프레임 단위(210)에 구비되는 제1구간(211)에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하는지 여부를 확인하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등의 존재여부를 마킹하여 제1레이블 정보(270)를 구성할 수 있다. 예컨대, 프레임 단위(210)에 구비되는 제1구간(211)에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재할 경우, 각각 1로 설정하여 마킹하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하지 않을 경우 각각 0으로 설정하여 마킹할 수 있다. 오디오 신호 학습장치는 프레임 단위(210)에 구비되는 전체 구간(211)에 대하여 전술한 동작을 적용하여 제1레이블 정보(270) 구성을 완료할 수 있다.
비록, 본 개시의 일 실시예에서, 소리 이벤트의 종류를 예시하지만 본 개시가 이를 한정하는 것은 아니며 다양하게 변경될 수 있다.
본 개시의 일 실시예에서, 프레임 단위(210) 구간을 20ms로 설정하고, 세그먼트 단위(220) 구간을 1sec로 설정하는 것을 예시하지만, 본 개시가 이를 한정하는 것은 아니며 다양하게 변경될 수 있다. 세그먼트 단위는 프레임 단위에 비하여 상대적으로 넓게(coarse) 설정되면 충분하다.
S502 단계에서, 오디오 신호 학습장치는 제2레이블 정보를 구성하는 동작을 수행할 수 있다. 제2레이블 정보(280, 도 2 참조)는 기본적으로 제1레이블 정보(270)를 얻을 때와 유사하지만, 제2레이블 정보(280)는 제1레이블 정보(270)에 비하여 상대적으로 넓게(coarse) 설정된 구간에 대한 레이블 정보이므로, 한 세그먼트 내에 이벤트가 조금이라도 겹쳐져서 등장하게 되면 해당 세그먼트의 레이블은 1로 설정될 수 있다. 즉, 세그먼트 단위 구간 내에 이벤트가 존재하면 해당 구간은 사운드 이벤트가 존재하는 구간이기 때문에 1로 설정된 레이블 정보(
Figure pat00012
)가 구성될 수 있다. 이를 고려하여, 오디오 신호 학습장치는 프레임 단위의 레이블 정보(즉, 제1레이블 정보(270))를 사용하여 세그먼트 단위의 레이블 정보(즉, 제2레이블 정보(280))를 구성할 수 있으며, 전술한 수학식 1의 연산을 통해 산출할 수 있다.
다른 예로서, 오디오 신호 학습장치는 세그먼트 단위의 구간에 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등이 존재하는지 여부를 확인하고, 박수 소리 이벤트(251), 웃음 소리 이벤트(252), 사이렌 소리 이벤트(253) 등의 존재여부를 마킹하여 제2레이블 정보(280)를 구성할 수도 있다.
다음으로, S503 단계에서, 오디오 신호 학습장치는 전술한 입력 오디오 신호와 제1레이블 정보를 사용하여 오디오 신호 학습 모델에 대한 학습을 수행할 수 있다. 이때, 오디오 신호 학습장치는 오디오 신호를 입력 데이터로 설정하고, 제1레이블 정보를 출력 데이터로서 설정하여 오디오 신호 학습 모델의 학습을 수행할 수 있다.
오디오 신호 학습장치는 오디오 신호 학습 모델의 학습을 수행하면서 출력되는 결과값을 사용하여 손실함수를 산출할 수 있다. 구체적으로, 오디오 신호 학습장치는 제1레이블 정보와 오디오 신호 학습 모델을 통해 예측된 레이블을 사용하여 제1손실함수를 산출할 수 있다. 제1손실함수의 산출은 전술한 수학식 2의 연산을 통해 수행될 수 있다(S504).
S505 단계에서, 오디오 신호 학습장치는 세그먼트 단위의 손실함수, 즉, 제2손실함수를 산출할 수 있다. 이때, 오디오 신호 학습장치는 전술한 수학식 3의 연산을 통해 제2손실함수를 산출할 수 있는데, 제2손실함수의 산출시 요구되는 세그먼트 단위에 대해 예측된 레이블(
Figure pat00013
)은 프레임 단위에 대해 예측된 레이블, 즉, 오디오 신호 학습 모델에 의해 예측된 레이블을 사용하여 산출할 수 있다. 구체적으로, 세그먼트 단위에 대해 예측된 레이블(
Figure pat00014
)은 전술한 수학식 4의 연산을 통해 산출할 수 있다. 전술한 동작을 통해 세그먼트 단위에 대해 예측된 레이블을 산출하므로, 프레임 단위의 예측 값이 bias되지 않도록 제한이 가해지며, 세그먼트 단위의 손실함수, 즉, 제2손실함수(
Figure pat00015
)가 정규화 요소로서 기능할 수 있다.
S506 단계에서, 오디오 신호 학습장치는 제1 및 제2손실함수를 사용하여 최종 손실함수를 산출할 수 있다. 예컨대, 오디오 신호 학습장치는 제1 및 제2손실함수를 가산하여 최종 손실함수를 산출할 수 있으며, 이때, 정규화 요소로서 기능하는 세그먼트 단위의 손실함수, 즉, 제2손실함수(
Figure pat00016
)에는 소정의 가중치가 반영될 수 있다. 오디오 신호 학습장치가 최종 손실함수를 산출하는 동작은 전술한 수학식 5의 연산에 의해 수행될 수 있다.
S507 단계에서, 오디오 신호 학습장치는 전술한 최종 손실함수를 사용하여 오디오 신호 학습 모델의 학습을 제어할 수 있다. 이와 같이, 오디오 신호 학습장치가 오디오 신호 학습 모델의 학습시 프레임 단위의 예측값과 세그먼트 단위의 예측 값을 모두 반영한 최종 손실함수를 사용하므로, 프레임 단위에 대한 레이블링에 의해 야기되는 biased 모델 학습 문제를 완화시킬 수 있다.
나아가, 오디오 신호 학습 모델의 학습이 완료될때 까지, 전술한 S503 내지 S507 단계는 반복적으로 수행될 수 있다(S508).
도 6은 본 개시의 일 실시예에 따른 오디오 신호 학습방법 및 장치를 실행하는 컴퓨팅 시스템을 예시하는 블록도이다.
도 6을 참조하면, 컴퓨팅 시스템(1000)은 버스(1200)를 통해 연결되는 적어도 하나의 프로세서(1100), 메모리(1300), 사용자 인터페이스 입력 장치(1400), 사용자 인터페이스 출력 장치(1500), 스토리지(1600), 및 네트워크 인터페이스(1700)를 포함할 수 있다.
프로세서(1100)는 중앙 처리 장치(CPU) 또는 메모리(1300) 및/또는 스토리지(1600)에 저장된 명령어들에 대한 처리를 실행하는 반도체 장치일 수 있다. 메모리(1300) 및 스토리지(1600)는 다양한 종류의 휘발성 또는 불휘발성 저장 매체를 포함할 수 있다. 예를 들어, 메모리(1300)는 ROM(Read Only Memory) 및 RAM(Random Access Memory)을 포함할 수 있다.
따라서, 본 명세서에 개시된 실시예들과 관련하여 설명된 방법 또는 알고리즘의 단계는 프로세서(1100)에 의해 실행되는 하드웨어, 소프트웨어 모듈, 또는 그 2 개의 결합으로 직접 구현될 수 있다. 소프트웨어 모듈은 RAM 메모리, 플래시 메모리, ROM 메모리, EPROM 메모리, EEPROM 메모리, 레지스터, 하드 디스크, 착탈형 디스크, CD-ROM과 같은 저장 매체(즉, 메모리(1300) 및/또는 스토리지(1600))에 상주할 수도 있다. 예시적인 저장 매체는 프로세서(1100)에 커플링되며, 그 프로세서(1100)는 저장 매체로부터 정보를 판독할 수 있고 저장 매체에 정보를 기입할 수 있다. 다른 방법으로, 저장 매체는 프로세서(1100)와 일체형일 수도 있다. 프로세서 및 저장 매체는 주문형 집적회로(ASIC) 내에 상주할 수도 있다. ASIC는 사용자 단말기 내에 상주할 수도 있다. 다른 방법으로, 프로세서 및 저장 매체는 사용자 단말기 내에 개별 컴포넌트로서 상주할 수도 있다.
본 개시의 예시적인 방법들은 설명의 명확성을 위해서 동작의 시리즈로 표현되어 있지만, 이는 단계가 수행되는 순서를 제한하기 위한 것은 아니며, 필요한 경우에는 각각의 단계가 동시에 또는 상이한 순서로 수행될 수도 있다. 본 개시에 따른 방법을 구현하기 위해서, 예시하는 단계에 추가적으로 다른 단계를 포함하거나, 일부의 단계를 제외하고 나머지 단계를 포함하거나, 또는 일부의 단계를 제외하고 추가적인 다른 단계를 포함할 수도 있다.
본 개시의 다양한 실시 예는 모든 가능한 조합을 나열한 것이 아니고 본 개시의 대표적인 양상을 설명하기 위한 것이며, 다양한 실시 예에서 설명하는 사항들은 독립적으로 적용되거나 또는 둘 이상의 조합으로 적용될 수도 있다.
또한, 본 개시의 다양한 실시 예는 하드웨어, 펌웨어(firmware), 소프트웨어, 또는 그들의 결합 등에 의해 구현될 수 있다. 하드웨어에 의한 구현의 경우, 하나 또는 그 이상의 ASICs(Application Specific Integrated Circuits), DSPs(Digital Signal Processors), DSPDs(Digital Signal Processing Devices), PLDs(Programmable Logic Devices), FPGAs(Field Programmable Gate Arrays), 범용 프로세서(general processor), 컨트롤러, 마이크로 컨트롤러, 마이크로 프로세서 등에 의해 구현될 수 있다.
본 개시의 범위는 다양한 실시 예의 방법에 따른 동작이 장치 또는 컴퓨터 상에서 실행되도록 하는 소프트웨어 또는 머신-실행가능한 명령들(예를 들어, 운영체제, 애플리케이션, 펌웨어(firmware), 프로그램 등), 및 이러한 소프트웨어 또는 명령 등이 저장되어 장치 또는 컴퓨터 상에서 실행 가능한 비-일시적 컴퓨터-판독가능 매체(non-transitory computer-readable medium)를 포함한다.

Claims (14)

  1. 입력 데이터로서 사용되는 오디오 신호를 관리하고, 상기 오디오 신호를 프레임 단위 및 세그먼트 단위로 분할하고, 상기 프레임 단위 및 세그먼트 단위에 대해 각각 제1 및 제2레이블 정보를 구성 및 관리하는 학습 데이터 관리부와,
    상기 오디오 신호 및 상기 제1레이블 정보를 각각 상기 입력 데이터 및 레이블 정보로 사용하여 오디오 신호 학습모델의 학습을 처리하되, 상기 제1 및 제2레이블 정보에 각각 대응되는 제1 및 제2산출함수를 산출하고, 상기 제1 및 제2산출함수에 기초하여 오디오 신호 학습모델의 학습을 제어하는 오디오 신호 학습부를 포함하는 오디오 신호 학습장치.
  2. 제1항에 있어서,
    상기 오디오 신호 학습부는,
    상기 제1 및 제2산출함수를 조합한 최종 산출함수를 산출하고, 상기 최종 산출함수를 기반으로 상기 오디오 신호 학습모델의 학습을 제어하는 오디오 신호 학습장치.
  3. 제1항에 있어서,
    상기 학습 데이터 관리부는,
    상기 프레임 단위로 분할된 구간에 대한 제1레이블 정보를 구성하는 제1레이블 정보 구성부와,
    복수의 상기 프레임 단위를 포함하는 상기 세그먼트 단위를 구성하고, 상기 세그먼트 단위에 대한 제2레이블 정보를 구성하되, 상기 제1레이블 정보를 기반으로 상기 제2레이블 정보를 구성하는 제2레이블 정보 생성부를 포함하는 오디오 신호 학습장치.
  4. 제3항에 있어서,
    상기 제2레이블 정보 생성부는 하기의 수학식 1의 연산을 통해 상기 제2레이블 정보를 생성하는 오디오 신호 학습장치.
    [수학식 1]
    Figure pat00017

    여기서, 상기
    Figure pat00018
    은 상기 제1레이블 정보를 나타내고, 상기
    Figure pat00019
    는 상기 제2레이블 정보를 나타냄.
  5. 제1항에 있어서,
    상기 오디오 신호 학습부는,
    상기 제1레이블 정보와, 상기 오디오 신호 학습모델의 예측에 의해 구성되며 상기 프레임 단위에 대응되는 제1예측 레이블의 차이값을 기반으로 상기 제1손실함수를 산출하는 제1손실함수 산출부와,
    상기 제2레이블 정보와, 상기 세그먼트 단위에 대응되며 상기 제1예측 레이블에 기초하여 구성된 제2예측 레이블의 차이값을 기반으로 상기 제2손실함수를 산출하는 제2손실함수 산출부를 포함하는 오디오 신호 학습장치.
  6. 제5항에 있어서,
    상기 제2손실함수 산출부는,
    하기의 수학식 2의 연산을 통해 상기 제2예측 레이블을 산출하는 오디오 신호 학습장치.
    [수학식 2]
    Figure pat00020

    여기서, y'pred_frame은 상기 제1예측 레이블을 나타내며, y'pred_seg는 상기 제2예측 레이블을 나타냄.
  7. 제2항에 있어서,
    상기 최종 손실함수 산출부는,
    상기 제2손실함수에 상기 가중치를 반영하고, 상기 가중치가 반영된 상기 제2손실함수와 상기 제1손실함수를 가산하여, 상기 최종 손실함수를 산출하는 오디오 신호 학습장치.
  8. 오디오 신호 학습방법에 있어서,
    입력 데이터로서 사용되는 오디오 신호를 프레임 단위 단위로 분할하고, 상기 프레임 단위에 대한 제1레이블 정보를 구성하는 과정과,
    상기 오디오 신호를 세그먼트 단위로 분할하고, 상기 제1레이블 정보를 사용하여 상기 세그먼트 단위에 대한 제2레이블 정보를 구성하는 과정과,
    상기 오디오 신호 및 상기 제1레이블 정보를 각각 상기 입력 데이터 및 레이블 정보로 사용하여 오디오 신호 학습모델의 학습을 처리하는 과정과,
    상기 오디오 신호 학습모델의 학습에서 확인되는 데이터를 기반으로 상기 제1레이블 정보에 대응되는 제1산출함수를 산출하는 과정과,
    상기 오디오 신호 학습모델의 학습에서 확인되는 데이터 및 상기 제2레이블 정보를 기반으로, 상기 제2레이블 정보에 대응되는 제2산출함수를 산출하는 과정과,
    상기 제1 및 제2산출함수를 조합한 최종 산출함수를 산출하는 과정과,
    상기 최종 산출함수를 기반으로 상기 오디오 신호 학습모델의 학습을 제어하는 과정을 포함하는 오디오 신호 학습방법.
  9. 제8항에 있어서,
    상기 제2레이블 정보를 구성하는 과정은,
    복수의 상기 프레임 단위를 포함하는 단위로 상기 세그먼트 단위를 구성하고, 상기 세그먼트 단위에 대한 제2레이블 정보를 구성하되, 상기 제1레이블 정보를 기반으로 상기 제2레이블 정보를 구성하는 오디오 신호 학습방법.
  10. 제9항에 있어서,
    상기 제2레이블 정보를 구성하는 과정은,
    하기의 수학식 3의 연산을 통해 상기 제2레이블 정보를 생성하는 오디오 신호 학습방법.
    [수학식 3]
    Figure pat00021

    여기서, 상기
    Figure pat00022
    은 상기 제1레이블 정보를 나타내고, 상기
    Figure pat00023
    는 상기 제2레이블 정보를 나타냄.
  11. 제8항에 있어서,
    상기 제1산출함수를 산출하는 과정은,
    상기 제1레이블 정보와, 상기 오디오 신호 학습모델의 예측에 의해 구성되며 상기 프레임 단위에 대응되는 제1예측 레이블의 차이값을 기반으로 상기 제1손실함수를 산출하는 오디오 신호 학습방법.
  12. 제11항에 있어서,
    상기 제2산출함수를 산출하는 과정과,
    상기 제2레이블 정보와, 상기 세그먼트 단위에 대응되며 상기 제1예측 레이블에 기초하여 구성된 제2예측 레이블의 차이값을 기반으로 상기 제2손실함수를 산출하는 오디오 신호 학습방법.
  13. 제12항에 있어서,
    상기 제2산출함수를 산출하는 과정은,
    하기의 수학식 4의 연산을 통해 상기 제2예측 레이블을 산출하는 오디오 신호 학습방법.
    [수학식 4]
    Figure pat00024

    여기서, y'pred_frame은 상기 제1예측 레이블을 나타내며, y'pred_seg는 상기 제2예측 레이블을 나타냄.
  14. 제8항에 있어서,
    상기 최종 산출함수를 산출하는 과정은,
    상기 제2손실함수에 상기 가중치를 반영하고, 상기 가중치가 반영된 상기 제2손실함수와 상기 제1손실함수를 가산하여, 상기 최종 손실함수를 산출하는 오디오 신호 학습방법.
KR1020200055389A 2020-05-08 2020-05-08 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법 KR20210136724A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020200055389A KR20210136724A (ko) 2020-05-08 2020-05-08 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020200055389A KR20210136724A (ko) 2020-05-08 2020-05-08 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법

Publications (1)

Publication Number Publication Date
KR20210136724A true KR20210136724A (ko) 2021-11-17

Family

ID=78703323

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020200055389A KR20210136724A (ko) 2020-05-08 2020-05-08 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법

Country Status (1)

Country Link
KR (1) KR20210136724A (ko)

Similar Documents

Publication Publication Date Title
US11403345B2 (en) Method and system for processing unclear intent query in conversation system
KR102570278B1 (ko) 교사 모델로부터 학생 모델을 트레이닝하는데 사용되는 학습 데이터를 생성하는 장치 및 방법
US10832685B2 (en) Speech processing device, speech processing method, and computer program product
US9818409B2 (en) Context-dependent modeling of phonemes
WO2021232594A1 (zh) 语音情绪识别方法、装置、电子设备及存储介质
Kons et al. Audio event classification using deep neural networks.
WO2020258502A1 (zh) 文本分析方法、装置、计算机装置及存储介质
JP6732296B2 (ja) オーディオ情報処理方法およびデバイス
US9589560B1 (en) Estimating false rejection rate in a detection system
US20170025119A1 (en) Apparatus and method of acoustic score calculation and speech recognition
Narasimhan et al. Simultaneous segmentation and classification of bird song using CNN
US9570069B2 (en) Sectioned memory networks for online word-spotting in continuous speech
WO2021174760A1 (zh) 声纹数据生成方法、装置、计算机装置及存储介质
CN111931929A (zh) 一种多任务模型的训练方法、装置及存储介质
US20190385610A1 (en) Methods and systems for transcription
KR102264233B1 (ko) 문장, 문서 특징값 및 문장 가중치 간의 상관관계를 학습한 인공 신경망에 의해 생성된 설명이 부가된 문서 분류 방법
US20210158086A1 (en) Automated sound matching within an audio recording
US20200286485A1 (en) Methods and systems for transcription
US20210073628A1 (en) Deep neural network training method and apparatus, and computer device
US11244166B2 (en) Intelligent performance rating
US11004217B2 (en) Object tracking system, object tracking method, and non-transitory computer readable medium
KR20210136724A (ko) 다중 스케일 예측 손실 함수를 이용한 오디오 신호 학습장치 및 방법
US20220309290A1 (en) Amplification of initial training data
CN110874553A (zh) 一种识别模型训练方法及装置
AU2021251463B2 (en) Generating performance predictions with uncertainty intervals