KR102658473B1 - 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치 - Google Patents

다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치 Download PDF

Info

Publication number
KR102658473B1
KR102658473B1 KR1020210034713A KR20210034713A KR102658473B1 KR 102658473 B1 KR102658473 B1 KR 102658473B1 KR 1020210034713 A KR1020210034713 A KR 1020210034713A KR 20210034713 A KR20210034713 A KR 20210034713A KR 102658473 B1 KR102658473 B1 KR 102658473B1
Authority
KR
South Korea
Prior art keywords
event
acoustic
sound
energy information
signal
Prior art date
Application number
KR1020210034713A
Other languages
English (en)
Other versions
KR20220129859A (ko
Inventor
정영호
박수영
이태진
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020210034713A priority Critical patent/KR102658473B1/ko
Priority to US17/672,403 priority patent/US12020715B2/en
Publication of KR20220129859A publication Critical patent/KR20220129859A/ko
Application granted granted Critical
Publication of KR102658473B1 publication Critical patent/KR102658473B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/018Audio watermarking, i.e. embedding inaudible data in the audio signal
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Quality & Reliability (AREA)
  • Biomedical Technology (AREA)
  • Biophysics (AREA)
  • Data Mining & Analysis (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Measurement Of Velocity Or Position Using Acoustic Or Ultrasonic Waves (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Geophysics And Detection Of Objects (AREA)

Abstract

다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치가 개시된다. 레이블 인코딩 방법은 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별하는 단계; 상기 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리하는 단계; 상기 음향 이벤트 신호들 각각의 에너지 정보를 결정하는 단계; 및 상기 에너지 정보에 기초하여 레이블 인코딩을 수행하는 단계를 포함할 수 있다.

Description

다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치{METHOD AND APPARATUS FOR Label encoding in polyphonic sound event intervals}
본 발명은 레이블 인코딩 방법 및 장치에 관한 것으로, 보다 구체적으로는 복수의 음향 이벤트가 발생한 구간에서 레이블 인코딩하는 방법 및 장치에 관한 것이다.
심층 신경망 기반 음향 이벤트 인식 모델 학습에 필요한 정답 정보를 얻기 위해 일반적으로 원-핫 인코딩(one-hot encoding) 방식의 레이블 인코딩 과정을 수행한다.
종래의 레이블 인코딩 과정은 먼저, 실생활에서 녹음된 음향 신호에서 인간의 귀로 인지할 수 있는 음향 이벤트의 레이블과 해당 음향 이벤트의 발생 시간(onset) 및 소멸 시간(offset) 정보를 찾아내는 어노테이션 처리 과정을 수행할 수 있다. 다음으로, 종래의 레이블 인코딩 과정은 어노테이션 과정을 통해 얻은 정보인 음향 이벤트 레이블 및 시간 정보(onset/offset)로부터 레이블 인코딩 과정을 거쳐 심층 신경망 모델 학습에 필요한 정답(ground truth) 정보를 획득할 수 있다. 이때, 정답 정보는 어노테이션 과정에서 구한 개별 음향 이벤트가 존재하는 onset/offset 구간내에서는 '1'을, 존재하지 않는 나머지 구간에 대해서는 '0'으로 설정하는 원-핫 인코딩 방법을 적용하여 획득할 수 있다.
그러나, 다중 음향 이벤트가 발생하는 구간에서는 동시에 발생한 여러 음향 이벤트 성분들이 뒤섞인 음향 특징 정보가 발생하므로, 레이블 인코딩에 따른 정답 정보에 오류가 발생하여 심층 신경망 기반 음향 이벤트 인식 모델의 인식 성능에 한계가 발생하고 있는 실정이다.
따라서, 다중 음향 이벤트가 발생하는 구간에서 동시에 발생한 다른 음향 이벤트들의 영향이 반영된 새로운 정답 정보를 출력할 수 있는 레이블 인코딩 방법이 요청 되고 있다.
본 발명은 다중 음향 이벤트 구간이 포함된 음향 신호의 음향 이벤트들 각각의 에너지 정보에 기초하여 레이블 인코딩을 수행하는 방법 및 장치를 제공한다.
또한, 본 발명은 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높임으로써, 심층 신경망 기반 음향 이벤트 인식 모델이 포함된 음향 이벤트 인식 장치의 음향 이벤트 인식 성능을 향상시키는 방법 및 장치를 제공한다.
본 발명의 일실시예에 따른 레이블 인코딩 방법은 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별하는 단계; 상기 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리하는 단계; 상기 음향 이벤트 신호들 각각의 에너지 정보를 결정하는 단계; 및 상기 에너지 정보에 기초하여 레이블 인코딩을 수행하는 단계를 포함할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 방법은 상기 음향 신호의 어노테이션(Annotation) 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 상기 음향 신호를 복수의 분할 구간으로 분할하는 단계;를 더 포함할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 방법의 이벤트 구간을 식별하는 단계는, 상기 분할 구간들 각각에 포함된 음향 이벤트의 개수를 검색하여 복수의 음향 이벤트들이 포함된 분할 구간을 이벤트 구간으로 식별할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 방법의 상기 레이블 인코딩을 수행하는 단계는, 상기 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 상기 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 상기 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 방법의 상기 스케일 펙터, 및 바이어스는, 심층 신경망 모델 학습에 사용되는 인자이며, 합이 기 설정된 값을 가지도록 결정될 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 장치는 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별하는 이벤트 구간 식별부; 상기 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리하는 음원 분리부; 상기 음향 이벤트 신호들 각각의 에너지 정보를 결정하는 에너지 정보 결정부; 및 상기 에너지 정보에 기초하여 레이블 인코딩을 수행하는 인코더를 포함할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 장치는 상기 음향 신호의 어노테이션 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 상기 음향 신호를 복수의 분할 구간으로 분할하는 이벤트 분할부;를 더 포함할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 장치의 상기 이벤트 구간 식별부는, 상기 분할 구간들 각각에 포함된 음향 이벤트의 개수를 검색하여 복수의 음향 이벤트들이 포함된 분할 구간을 이벤트 구간으로 식별할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 장치의 상기 인코더는, 상기 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 상기 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 상기 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행할 수 있다.
본 발명의 일실시예에 따른 레이블 인코딩 장치의 상기 스케일 펙터, 및 바이어스는, 심층 신경망 모델 학습에 사용되는 인자이며, 합이 기 설정된 값을 가지도록 결정될 수 있다.
본 발명의 일실시예에 의하면, 다중 음향 이벤트 구간이 포함된 음향 신호의 음향 이벤트들 각각의 에너지 정보에 기초하여 레이블 인코딩을 수행함으로써, 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높일 수 있다.
그리고, 본 발명의 일실시예에 의하면, 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높임으로써, 심층 신경망 기반 음향 이벤트 인식 모델이 포함된 음향 이벤트 인식 장치의 음향 이벤트 인식 성능을 향상시킬 수 있다.
도 1은 본 발명의 일실시예에 따른 레이블 인코딩 장치를 도시한 도면이다.
도 2는 본 발명의 일실시예에 따라 다중 음향 이벤트 구간을 식별하는 과정의 일례이다.
도 3은 본 발명의 일실시예에 따라 다중 음향 이벤트 구간을 레이블 인코딩하는 과정의 일례이다.
도 4는 본 발명의 일실시예에 따른 레이블 인코딩 방법을 도시한 플로우차트이다.
이하에서, 첨부된 도면을 참조하여 실시예들을 상세하게 설명한다. 그러나, 실시예들에는 다양한 변경이 가해질 수 있어서 특허출원의 권리 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 실시예들에 대한 모든 변경, 균등물 내지 대체물이 권리 범위에 포함되는 것으로 이해되어야 한다.
실시예에서 사용한 용어는 단지 설명을 목적으로 사용된 것으로, 한정하려는 의도로 해석되어서는 안된다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 레이블 인코딩 장치를 도시한 도면이다.
레이블 인코딩 장치(110)는 도 1에 도시된 바와 같이 이벤트 분할부(110), 이벤트 구간 식별부(120), 음원 분리부(130), 에너지 정보 결정부(140), 및 인코더(150) 를 포함할 수 있다. 이때, 이벤트 분할부(110), 이벤트 구간 식별부(120), 음원 분리부(130), 에너지 정보 결정부(140), 및 인코더(150)는 서로 다른 프로세서, 또는 하나의 프로세서에서 수행되는 프로그램에 포함된 각각의 모듈일 수 있다.
이벤트 분할부(110)는 음향 신호의 어노테이션(Annotation) 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 음향 신호를 복수의 분할 구간으로 분할할 수 있다.
이벤트 구간 식별부(120)는 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별할 수 있다. 이때, 이벤트 구간 식별부(120)는 이벤트 분할부(110)가 분할한 분할 구간들 각각에 포함된 음향 이벤트의 개수를 검색할 수 있다. 그리고, 이벤트 구간 식별부(120)는 분할 구간들 중에서 복수의 음향 이벤트들이 포함된 것으로 검색된 분할 구간을 이벤트 구간으로 식별할 수 있다.
음원 분리부(130)는 이벤트 구간 식별부(120)가 식별한 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리할 수 있다.
이때, 음원 분리부(130)에서 분리된 음향 이벤트 신호들은 시간 영역 신호 혹은 주파수 영역 신호로 표현할 수 있다. 음원 분리부(130)에서 분리된 음향 이벤트 신호들이 시간 영역 신호인 경우, 에너지 정보 결정부(140)는 분리된 음향 이벤트 신호들에 푸리에(Fourier) 변환을 적용하여 주파수 영역 신호로 변환할 수도 있다. 예를 들어, 음향 신호에 비명 소리와 뛰는 소리가 동시에 발생한 다중 음향 이벤트가 포함된 경우, 음원 분리부(130)는 개별 분리된 음향 이벤트 신호인 '비명 소리'와 '뛰는 소리' 로 분리할 수 있다.
에너지 정보 결정부(140)는 음원 분리부(130)에서 분리된 음향 이벤트 신호들 각각의 에너지 정보를 결정할 수 있다. 예를 들어, 분리된 신호가 시간 영역 신호인 경우, 에너지 정보 결정부(140)는 해당 시간 성분 제곱의 합인 을 분리된 개별 음향 이벤트 신호들의 에너지 값으로 결정할 수 있다. 또한, 분리된 신호가 주파수 영역 신호인 경우, 에너지 정보 결정부(140)는 해당 주파수 성분 제곱의 합인 을 분리된 개별 음향 이벤트 신호들의 에너지 값으로 결정할 수 있다.
인코더(150)는 에너지 정보 결정부(140)가 결정한 에너지 정보에 기초하여 레이블 인코딩을 수행할 수 있다. 이때, 인코더(150)는 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행할 수 있다. 이때, 스케일 펙터, 및 바이어스는, 심층 신경망 모델 학습에 사용되는 인자이며, 합이 기 설정된 값을 가지도록 결정될 수 있다.
레이블 인코딩 장치(110)는 다중 음향 이벤트 구간이 포함된 음향 신호의 음향 이벤트들 각각의 에너지 정보에 기초하여 레이블 인코딩을 수행함으로써, 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높일 수 있다.
그리고, 레이블 인코딩 장치(110)는 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높임으로써, 심층 신경망 기반 음향 이벤트 인식 모델이 포함된 음향 이벤트 인식 장치의 음향 이벤트 인식 성능을 향상시킬 수 있다.
또한, 레이블 인코딩 장치(110)는 인식 성능을 향상시킨 음향 이벤트 인식 기술을 노약자/청각장애인/스마트카 등을 대상으로 하는 위험회피, 시설 보안 감시, 미디어 자동 태깅, 상황 인지, 환경 소음 모니터링, 장비 상태 모니터링 등의 다양한 응용 분야에 적용함으로써 경제적 파급 효과를 얻을 수 있다.
도 2는 본 발명의 일실시예에 따라 다중 음향 이벤트 구간을 식별하는 과정의 일례이다.
이벤트 분할부(110)는 도 2에 도시된 바와 같이 다중 음향 이벤트가 발생한 이벤트 구간이 포함된 음향 신호(200)을 수신할 수 있다.
그리고, 이벤트 분할부(110)는 어노테이션 정보에 기초하여 이벤트 구간에 대한 분할(segmentation) 처리를 수행함으로써, 음향 신호를 복수의 분할 구간들(210)으로 분할할 수 있다.
이때, 분할 구간들(210)은 어노테이션 정보에 포함된 각 음향 이벤트 별 온셋(onset 정보와 오프셋(offset) 정보를 시간 순서대로 나열하여 결정될 수 있다.
예를 들어, 분할 구간 T1은 자동차 이동음의 onset에서 시작되고, 분할구간 T2는 경적 소리의 onset에서 시작될 수 있다. 또한, 분할구간 T3는 첫번째 사이렌의 onset에서 시작되고, 분할구간 T4는 경적 소리의 offset에서 시작되며, 분할구간 T5는 첫번째 사이렌의 offset에서 시작될 수 있다.
그리고, 이벤트 구간 식별부(120)는 이벤트 분할부(110)가 분할한 분할 구간들(210) 각각에 포함된 음향 이벤트의 개수를 검색할 수 있다. 이때, 이벤트 구간 식별부(120)는 분할 구간들(210) 중에서 복수의 음향 이벤트들이 포함된 것으로 검색된 분할 구간을 이벤트 구간으로 식별할 수 있다.
도 2에서 는 다중 음향 이벤트가 발생한 구간에 대한 인덱스이고, 번째 다중 음향 이벤트 구간에서 발생한 음향 이벤트 개수일 수 있다.
도 3은 본 발명의 일실시예에 따라 다중 음향 이벤트 구간을 레이블 인코딩하는 과정의 일례이다.
인코더(150)는 에너지 정보 결정부(140)가 결정한 에너지 정보에 기초하여 분할 구간들(210) 별로 레이블 인코딩(300)을 수행할 수 있다. 이때, 도 3은 값의 인덱스에 개별 음향 이벤트 영문 레이블 첫 문자로 대체하여, 자동차 이동음(car_passing_by) 음향 이벤트에 대해서는 로, 경적 소리(horn) 음향 이벤트에 대해서는 로, 사이렌(siren) 음향 이벤트에 대해서는 로 표기한다.
예를 들어, 인코더(150)는 수학식 1을 이용하여 개별 음향 이벤트의 에너지 정보 기반 레이블 인코딩(300)을 수행할 수 있다.
이때, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트에 대한 인코딩된 레이블 정보일 수 있다. 또한, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트 에너지 정보이고, 번째 다중 음향 이벤트 구간에서의 개별 음향 이벤트 에너지의 합일 수 있다. 예를 들어, 는 수학식 2에 따라 계산될 수 있다.
이때, 번째 다중 음향 이벤트 구간에서 발생한 음향 이벤트 개수일 수 있다. 또한, 스케일 팩터 와 바이어스 는 효과적인 심층 신경망 모델 학습을 위해 추가된 인자이며, 스케일 팩터 는 바이어스 와 수학식 3의 조건을 만족하도록 설정될 수 있다.
도 4는 본 발명의 일실시예에 따른 레이블 인코딩 방법을 도시한 플로우차트이다.
단계(410)에서 이벤트 분할부(110)는 음향 신호의 어노테이션(Annotation) 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 음향 신호를 복수의 분할 구간으로 분할할 수 있다.
단계(420)에서 이벤트 구간 식별부(120)는 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별할 수 있다. 이때, 이벤트 구간 식별부(120)는 단계(410)에서 분할한 분할 구간들 중에서 복수의 음향 이벤트들이 포함된 분할 구간을 이벤트 구간으로 식별할 수 있다.
단계(430)에서 음원 분리부(130)는 단계(420)에서 식별한 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리할 수 있다.
단계(440)에서 에너지 정보 결정부(140)는 단계(420)에서 분리된 음향 이벤트 신호들 각각의 에너지 정보를 결정할 수 있다.
단계(450)에서 인코더(150)는 단계(440)에서 결정한 에너지 정보에 기초하여 레이블 인코딩을 수행할 수 있다. 이때, 인코더(150)는 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행할 수 있다.
본 발명은 다중 음향 이벤트 구간이 포함된 음향 신호의 음향 이벤트들 각각의 에너지 정보에 기초하여 레이블 인코딩을 수행함으로써, 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높일 수 있다.
또한, 본 발명은 심층 신경망 기반 음향 이벤트 인식 모델의 학습 효과를 높임으로써, 심층 신경망 기반 음향 이벤트 인식 모델이 포함된 음향 이벤트 인식 장치의 음향 이벤트 인식 성능을 향상시킬 수 있다.
한편, 본 발명에 따른 레이블 인코딩 장치 또는 레이블 인코딩 방법은 컴퓨터에서 실행될 수 있는 프로그램으로 작성되어 마그네틱 저장매체, 광학적 판독매체, 디지털 저장매체 등 다양한 기록 매체로도 구현될 수 있다.
본 명세서에 설명된 각종 기술들의 구현들은 디지털 전자 회로조직으로, 또는 컴퓨터 하드웨어, 펌웨어, 소프트웨어로, 또는 그들의 조합들로 구현될 수 있다. 구현들은 데이터 처리 장치, 예를 들어 프로그램가능 프로세서, 컴퓨터, 또는 다수의 컴퓨터들의 동작에 의한 처리를 위해, 또는 이 동작을 제어하기 위해, 컴퓨터 프로그램 제품, 예를 들어 기계 판독가능 저장 장치(컴퓨터 판독가능 매체)에서 유형적으로 구체화된 컴퓨터 프로그램으로서 구현될 수 있다. 상술한 컴퓨터 프로그램(들)과 같은 컴퓨터 프로그램은 컴파일된 또는 인터프리트된 언어들을 포함하는 임의의 형태의 프로그래밍 언어로 기록될 수 있고, 독립형 프로그램으로서 또는 모듈, 구성요소, 서브루틴, 또는 컴퓨팅 환경에서의 사용에 적절한 다른 유닛으로서 포함하는 임의의 형태로 전개될 수 있다. 컴퓨터 프로그램은 하나의 사이트에서 하나의 컴퓨터 또는 다수의 컴퓨터들 상에서 처리되도록 또는 다수의 사이트들에 걸쳐 분배되고 통신 네트워크에 의해 상호 연결되도록 전개될 수 있다.
컴퓨터 프로그램의 처리에 적절한 프로세서들은 예로서, 범용 및 특수 목적 마이크로프로세서들 둘 다, 및 임의의 종류의 디지털 컴퓨터의 임의의 하나 이상의 프로세서들을 포함한다. 일반적으로, 프로세서는 판독 전용 메모리 또는 랜덤 액세스 메모리 또는 둘 다로부터 명령어들 및 데이터를 수신할 것이다. 컴퓨터의 요소들은 명령어들을 실행하는 적어도 하나의 프로세서 및 명령어들 및 데이터를 저장하는 하나 이상의 메모리 장치들을 포함할 수 있다. 일반적으로, 컴퓨터는 데이터를 저장하는 하나 이상의 대량 저장 장치들, 예를 들어 자기, 자기-광 디스크들, 또는 광 디스크들을 포함할 수 있거나, 이것들로부터 데이터를 수신하거나 이것들에 데이터를 송신하거나 또는 양쪽으로 되도록 결합될 수도 있다. 컴퓨터 프로그램 명령어들 및 데이터를 구체화하는데 적절한 정보 캐리어들은 예로서 반도체 메모리 장치들, 예를 들어, 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(Magnetic Media), CD-ROM(Compact Disk Read Only Memory), DVD(Digital Video Disk)와 같은 광 기록 매체(Optical Media), 플롭티컬 디스크(Floptical Disk)와 같은 자기-광 매체(Magneto-Optical Media), 롬(ROM, Read Only Memory), 램(RAM, Random Access Memory), 플래시 메모리, EPROM(Erasable Programmable ROM), EEPROM(Electrically Erasable Programmable ROM) 등을 포함한다. 프로세서 및 메모리는 특수 목적 논리 회로조직에 의해 보충되거나, 이에 포함될 수 있다.
또한, 컴퓨터 판독가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용매체일 수 있고, 컴퓨터 저장매체를 모두 포함할 수 있다.
본 명세서는 다수의 특정한 구현물의 세부사항들을 포함하지만, 이들은 어떠한 발명이나 청구 가능한 것의 범위에 대해서도 제한적인 것으로서 이해되어서는 안되며, 오히려 특정한 발명의 특정한 실시형태에 특유할 수 있는 특징들에 대한 설명으로서 이해되어야 한다. 개별적인 실시형태의 문맥에서 본 명세서에 기술된 특정한 특징들은 단일 실시형태에서 조합하여 구현될 수도 있다. 반대로, 단일 실시형태의 문맥에서 기술한 다양한 특징들 역시 개별적으로 혹은 어떠한 적절한 하위 조합으로도 복수의 실시형태에서 구현 가능하다. 나아가, 특징들이 특정한 조합으로 동작하고 초기에 그와 같이 청구된 바와 같이 묘사될 수 있지만, 청구된 조합으로부터의 하나 이상의 특징들은 일부 경우에 그 조합으로부터 배제될 수 있으며, 그 청구된 조합은 하위 조합이나 하위 조합의 변형물로 변경될 수 있다.
마찬가지로, 특정한 순서로 도면에서 동작들을 묘사하고 있지만, 이는 바람직한 결과를 얻기 위하여 도시된 그 특정한 순서나 순차적인 순서대로 그러한 동작들을 수행하여야 한다거나 모든 도시된 동작들이 수행되어야 하는 것으로 이해되어서는 안 된다. 특정한 경우, 멀티태스킹과 병렬 프로세싱이 유리할 수 있다. 또한, 상술한 실시형태의 다양한 장치 컴포넌트의 분리는 그러한 분리를 모든 실시형태에서 요구하는 것으로 이해되어서는 안되며, 설명한 프로그램 컴포넌트와 장치들은 일반적으로 단일의 소프트웨어 제품으로 함께 통합되거나 다중 소프트웨어 제품에 패키징 될 수 있다는 점을 이해하여야 한다.
한편, 본 명세서와 도면에 개시된 본 발명의 실시 예들은 이해를 돕기 위해 특정 예를 제시한 것에 지나지 않으며, 본 발명의 범위를 한정하고자 하는 것은 아니다. 여기에 개시된 실시 예들 이외에도 본 발명의 기술적 사상에 바탕을 둔 다른 변형 예들이 실시 가능하다는 것은, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 자명한 것이다.
100: 레이블 인코딩 장치
110: 이벤트 분할부
120: 이벤트 구간 식별부
130: 음원 분리부
140: 에너지 정보 결정부
150: 인코더

Claims (11)

  1. 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별하는 단계;
    상기 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리하는 단계;
    상기 음향 이벤트 신호들 각각의 에너지 정보를 결정하는 단계; 및
    상기 에너지 정보에 기초하여 레이블 인코딩을 수행하는 단계
    를 포함하고,
    상기 에너지 정보를 결정하는 단계는,
    음향 이벤트 신호가 시간 영역 신호인 경우, 상기 음향 이벤트 신호의 시간 성분 제곱의 합을 상기 음향 이벤트 신호의 에너지 정보로 결정하고,
    음향 이벤트 신호가 주파수 영역 신호인 경우, 상기 음향 이벤트 신호의 주파수 성분 제곱의 합을 상기 음향 이벤트 신호의 에너지 정보로 결정하며,
    상기 레이블 인코딩을 수행하는 단계는,
    수학식 1을 이용하여 개별 음향 이벤트의 에너지 정보 기반 레이블 인코딩을 수행하는 레이블 인코딩 방법.
    [수학식 1]

    이때, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트에 대한 인코딩된 레이블 정보이다. 또한, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트 에너지 정보이고, 번째 다중 음향 이벤트 구간에서의 개별 음향 이벤트 에너지의 합이며, 는 스케일 팩터이고, 는 바이어스이다.
  2. 제1항에 있어서,
    상기 음향 신호의 어노테이션(Annotation) 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 상기 음향 신호를 복수의 분할 구간으로 분할하는 단계;
    를 더 포함하는 레이블 인코딩 방법.
  3. 제2항에 있어서,
    상기 이벤트 구간을 식별하는 단계는,
    상기 분할 구간들 각각에 포함된 음향 이벤트의 개수를 검색하여 복수의 음향 이벤트들이 포함된 분할 구간을 이벤트 구간으로 식별하는 레이블 인코딩 방법.
  4. 제1항에 있어서,
    상기 레이블 인코딩을 수행하는 단계는,
    상기 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 상기 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 상기 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행하는 레이블 인코딩 방법.
  5. 제4항에 있어서,
    상기 스케일 펙터는,
    심층 신경망 모델 학습에 사용되는 바이어스와의 합이 기 설정된 값을 가지도록 결정되는 레이블 인코딩 방법.
  6. 제1항 내지 제5항 중 어느 한 항의 방법을 실행하기 위한 프로그램이 기록된 컴퓨터에서 판독 가능한 기록 매체.
  7. 음향 신호에서 복수의 음향 이벤트가 발생한 이벤트 구간을 식별하는 이벤트 구간 식별부;
    상기 이벤트 구간에 대하여 음원 분리를 수행하여 음향 이벤트 각각에 대응하는 음향 이벤트 신호들로 분리하는 음원 분리부;
    상기 음향 이벤트 신호들 각각의 에너지 정보를 결정하는 에너지 정보 결정부; 및
    상기 에너지 정보에 기초하여 레이블 인코딩을 수행하는 인코더
    를 포함하고,
    상기 에너지 정보 결정부는,
    음향 이벤트 신호가 시간 영역 신호인 경우, 상기 음향 이벤트 신호의 시간 성분 제곱의 합을 상기 음향 이벤트 신호의 에너지 정보로 결정하고,
    음향 이벤트 신호가 주파수 영역 신호인 경우, 상기 음향 이벤트 신호의 주파수 성분 제곱의 합을 상기 음향 이벤트 신호의 에너지 정보로 결정하며,
    상기 인코더는,
    수학식 1을 이용하여 개별 음향 이벤트의 에너지 정보 기반 레이블 인코딩을 수행하는 레이블 인코딩 장치.
    [수학식 1]

    이때, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트에 대한 인코딩된 레이블 정보이다. 또한, 번째 다중 음향 이벤트 구간에서의 번째 음향 이벤트 에너지 정보이고, 번째 다중 음향 이벤트 구간에서의 개별 음향 이벤트 에너지의 합이며, 는 스케일 팩터이고, 는 바이어스이다.
  8. 제7항에 있어서,
    상기 음향 신호의 어노테이션 정보에 포함된 음향 이벤트별 온셋(onset) 정보 및 오프셋(offset) 정보를 이용하여 상기 음향 신호를 복수의 분할 구간으로 분할하는 이벤트 분할부;
    를 더 포함하는 레이블 인코딩 장치.
  9. 제8항에 있어서,
    상기 이벤트 구간 식별부는,
    상기 분할 구간들 각각에 포함된 음향 이벤트의 개수를 검색하여 복수의 음향 이벤트들이 포함된 분할 구간을 이벤트 구간으로 식별하는 레이블 인코딩 장치.
  10. 제7항에 있어서,
    상기 인코더는,
    상기 이벤트 구간에 포함된 음향 이벤트들 각각의 에너지 정보와 상기 이벤트 구간에 포함된 음향 이벤트들의 에너지 정보의 합, 스케일 펙터, 및 바이어스를 이용하여 상기 이벤트 구간에 포함된 음향 이벤트들 각각에 대한 레이블 인코딩을 수행하는 레이블 인코딩 장치.
  11. 제10항에 있어서,
    상기 스케일 펙터는,
    심층 신경망 모델 학습에 사용되는 바이어스와의 합이 기 설정된 값을 가지도록 결정되는 레이블 인코딩 장치.
KR1020210034713A 2021-03-17 2021-03-17 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치 KR102658473B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020210034713A KR102658473B1 (ko) 2021-03-17 2021-03-17 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치
US17/672,403 US12020715B2 (en) 2021-03-17 2022-02-15 Method and apparatus for label encoding in polyphonic sound event intervals

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020210034713A KR102658473B1 (ko) 2021-03-17 2021-03-17 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20220129859A KR20220129859A (ko) 2022-09-26
KR102658473B1 true KR102658473B1 (ko) 2024-04-18

Family

ID=83283978

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020210034713A KR102658473B1 (ko) 2021-03-17 2021-03-17 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치

Country Status (1)

Country Link
KR (1) KR102658473B1 (ko)

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Huang,Yuxin et.al, Multi-Branch Learning for Weakly-Labeled Sound Event Detection, Acoustics, Speech and Signal Processing (ICASSP), ICASSP 2020 - 2020 IEEE International Conference on, IEEE, May. 20*
Mesaros,Annamaria et.al, Metrics for Polyphonic Sound Event Detection, Applied sciences, MDPI AG, Jun. 2016, Vol.6, no.6, pp.162*
서상원 et.al, 실생활 음향 데이터 기반 이중 CNN 구조를 특징으로 하는 음향 이벤트 인식 알고리즘, 방송공학회논문지 , 한국방송ㆍ미디어공학회, Nov. 2018, Vol.23, no.6, pp.855-865*

Also Published As

Publication number Publication date
KR20220129859A (ko) 2022-09-26
US20220301571A1 (en) 2022-09-22

Similar Documents

Publication Publication Date Title
Su et al. Weakly-supervised audio event detection using event-specific gaussian filters and fully convolutional networks
Salamon et al. Unsupervised feature learning for urban sound classification
Kelz et al. Deep polyphonic ADSR piano note transcription
US11386916B2 (en) Segmentation-based feature extraction for acoustic scene classification
KR20030070179A (ko) 오디오 스트림 구분화 방법
CN103229233B (zh) 用于识别说话人的建模设备和方法、以及说话人识别系统
Pishdadian et al. Finding strength in weakness: Learning to separate sounds with weak supervision
Sidiropoulos et al. On the use of audio events for improving video scene segmentation
Castán et al. Audio segmentation-by-classification approach based on factor analysis in broadcast news domain
Castán et al. Albayzín-2014 evaluation: audio segmentation and classification in broadcast news domains
KR101667557B1 (ko) 실시간 음원 분류 장치 및 방법
Alsina-Pagès et al. Anomalous events removal for automated traffic noise maps generation
US20210390949A1 (en) Systems and methods for phoneme and viseme recognition
Kunešová et al. Multitask detection of speaker changes, overlapping speech and voice activity using wav2vec 2.0
JPWO2019244298A1 (ja) 属性識別装置、属性識別方法、およびプログラム
CN110189767B (zh) 一种基于双声道音频的录制移动设备检测方法
KR102658473B1 (ko) 다중 음향 이벤트 구간에서의 레이블 인코딩 방법 및 장치
US12020715B2 (en) Method and apparatus for label encoding in polyphonic sound event intervals
Nitanda et al. Accurate audio-segment classification using feature extraction matrix
CN112309428B (zh) 获得歌声检测模型
KR20210060127A (ko) 영상 콘텐츠 분할 방법 및 시스템
Xie et al. Image processing and classification procedure for the analysis of australian frog vocalisations
Xie et al. Feature extraction based on bandpass filtering for frog call classification
Zhang et al. A two phase method for general audio segmentation
Duong et al. Visual-guided audio source separation: an empirical study

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
AMND Amendment
E601 Decision to refuse application
AMND Amendment
X701 Decision to grant (after re-examination)