KR20200115731A - 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 - Google Patents

컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 Download PDF

Info

Publication number
KR20200115731A
KR20200115731A KR1020190030483A KR20190030483A KR20200115731A KR 20200115731 A KR20200115731 A KR 20200115731A KR 1020190030483 A KR1020190030483 A KR 1020190030483A KR 20190030483 A KR20190030483 A KR 20190030483A KR 20200115731 A KR20200115731 A KR 20200115731A
Authority
KR
South Korea
Prior art keywords
acoustic
acoustic signal
log
signal characteristic
convolutional neural
Prior art date
Application number
KR1020190030483A
Other languages
English (en)
Other versions
KR102635469B1 (ko
Inventor
정영호
서상원
이태진
임우택
김휘용
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020190030483A priority Critical patent/KR102635469B1/ko
Priority to US16/562,110 priority patent/US11205442B2/en
Publication of KR20200115731A publication Critical patent/KR20200115731A/ko
Application granted granted Critical
Publication of KR102635469B1 publication Critical patent/KR102635469B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/045Combinations of networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/0212Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation
    • G10L19/0216Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders using orthogonal transformation using wavelet decomposition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • G10L19/26Pre-filtering or post-filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Theoretical Computer Science (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • Biophysics (AREA)
  • General Health & Medical Sciences (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Computing Systems (AREA)
  • Molecular Biology (AREA)
  • General Engineering & Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Probability & Statistics with Applications (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Measurement Of Mechanical Vibrations Or Ultrasonic Waves (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

신경망을 기반으로 서로 상이한 음향 신호 특징 파라미터들 간의 연관성을 이용하여 음향 이벤트의 인식 성능을 향상시키는 음향 이벤트 인식 방법일 수 있다. 구체적으로, 음향 이벤트를 포함하는 음향 신호로부터 음향 신호 특징 파라미터를 추출하고, 이를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크를 적용하여 음향 신호에 포함된 음향 이벤트를 인식할 수 있다.

Description

컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치{METHOD AND APPARATUS FOR RECOGNITION OF SOUND EVENTS BASED ON CONVOLUTIONAL NEURAL NETWORK}
아래 실시예들은 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치에 관한 것으로, 구체적으로 서로 상이한 음향 신호 특징 파라미터들 간의 연관성에 대한 학습이 가능한 3차원 구조의 음향 신호 특징 파라미터에 관한 것이다.
최근 들어 음향 인식 기술은 시설 감시, 위험상황 인지, 장소 인식, 멀티미디어 이벤트 감지 등을 포함한 다양한 분야에 응용될 수 있다. 우리는 일상 생활에서 비명 소리, 자동차 경적 소리, 아기 울음 소리, 충격음, 개 짖는 소리, 천둥 소리 등 다양한 음향 이벤트들을 접하고 있으며, 특히 청각 능력이 저하된 노약자 혹은 청각 장애인에게는 시각적으로 인지되지 못한 위험상황을 효과적으로 피하기 위해 음향 인식 기술은 반드시 필요하다.
음향 인식 기술은 인식 대상에 따라 이벤트와 장면 인식 기술로 구분할 수 있다. 음향 이벤트는 비명 소리, 개 짖는 소리와 같은 특정 시간에 나타났다가 사라지는 음향 개체를 의미하며, 음향 장면은 레스토랑, 사무실, 가정, 공원 등과 같이 특정 장소에서 나타날 수 있는 음향 이벤트들의 집합을 나타낸다. 따라서 음향 장면 인식은 음향 이벤트 인식에 비해 높은 인식 성능을 보인다.
음향 이벤트 인식 기술은 동시에 인식하고자 하는 이벤트의 수에 따라 모노포닉 혹은 폴리포닉 형태로 구분된다. 모노포닉 음향 이벤트 인식의 경우에는 해당 시점에 하나의 음향 이벤트 인식 결과만을, 폴리포닉 음향 이벤트 인식의 경우에는 해당 시점에 복수개의 음향 이벤트 인식 결과를 제공할 수 있다. 대부분의 응용 분야에서 다중(폴리포닉) 음향 이벤트 인식 기술에 대한 수요가 높다.
신경망 기반 음향 이벤트 인식의 경우, 일반적으로 오디오 웨이브폼 혹은 음향 신호 특징 파라미터 중 하나를 입력으로 사용한다. 오디오 웨이브폼을 입력으로 사용하는 경우에는 별도의 특징 추출을 위한 사전 신호처리 단계없이 신경망에서 특징 추출 및 이벤트 인식을 함께 수행한다. 그러나 이와 같은 end-to-end 신경망은 음향 신호 특징 파라미터를 입력으로 하는 신경망에 비해 상대적으로 모델 복잡도가 증가하게 되어 학습에 소요되는 시간이 늘어나며, 또한 충분한 학습용 데이터가 확보되지 못한 경우에는 낮은 성능을 보인다. 음향 신호 특징 파라미터 기반 신경망의 경우에는 대표적으로 로그 멜필터 뱅크 에너지(log mel-filter bank energy)를 입력으로 사용한다. 그러나 대부분의 경우, 모노 음향 신호를 대상으로 변환한 로그 멜필터 뱅크 에너지 특징 파라미터를 입력으로 사용하거나, 스테레오 신호를 대상으로 변환한 2개의 로그 멜필터 뱅크 에너지 특징 파라미터를 연접(concatenation)시켜 입력으로 사용한다.
이와 같이, 특징 파라미터를 연접하여 입력으로 사용하는 경우, 특징 파라미터들 간 연관성에 대한 트레이닝이 신경망 전체에서 수행되지 못하여, 연관성 정보가 음향 이벤트 인식에 충분히 활용되지 못할 수 있다.
본 발명은 신경망을 기반으로 서로 상이한 음향 신호 특징 파라미터들 간의 연관성을 이용하여 음향 이벤트의 인식 성능을 향상시키는 음향 이벤트 인식 방법을 제공할 수 있다.
본 발명은 서로 다른 음향 신호 특징 파라미터를 신호 처리하여 생성된 3차원 구조의 특징 파라미터들을 신경망의 입력으로 사용하는 음향 이벤트 인식 방법을 제공할 수 있다.
일 실시예에 따르면, 음향 이벤트를 포함하는 음향 신호를 식별하는 단계; 상기 음향 신호로부터 적어도 하나의 음향 신호 특징 파라미터를 추출하는 단계; 및 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 적용하여, 상기 음향 신호에 포함된 음향 이벤트를 인식하는 단계를 포함하고, 상기 컨볼루션 뉴럴 네트워크는, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하여 생성된 적어도 하나의 피처 맵을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram)인, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram)인, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 로그 스펙트로그램은, 상기 윈도윙의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프 관계인, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy)이고, 상기 멜 필터뱅크(mel filterbank)는, 주파수에 따라 서로 다른 해상도를 고려하여, 상기 이산 푸리에 변환한 결과에 멜 스케일(mel scale)이 적용되는, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램(cepstrogram)인, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수를 조절하는, 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법일 수 있다.
일 실시예에 따르면, 음향 이벤트 인식 방법에 적용되는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)의 트레이닝 방법에 있어서, 음향 이벤트를 포함하는 음향 신호로부터 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하는 단계; 및 상기 정규화된 음향 신호 특징 파라미터에 기초하여 생성된 적어도 하나의 피처 맵(feature map)을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는 단계를 포함하는, 컨볼루션 뉴럴 네트워크의 트레이닝 방법일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, ⅰ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram) ⅱ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram) ⅲ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy) ⅳ) 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램을 포함하는, 컨볼루션 뉴럴 네트워크의 트레이닝 방법일 수 있다.
상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수가 조절되는, 컨볼루션 뉴럴 네트워크의 트레이닝 방법일 수 있다.
일 실시예에 따르면, 컨볼루션 뉴럴 네트워크가 적용된 음향 이벤트 인식 장치에 있어서, 상기 음향 이벤트 인식 장치는 프로세서 및 컴퓨터로 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는, 음향 이벤트를 포함하는 음향 신호를 식별하고, 상기 음향 신호로부터 적어도 하나의 음향 신호 특징 파라미터를 추출하고, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 적용하여 상기 음향 신호에 포함된 음향 이벤트를 인식하고, 상기 컨볼루션 뉴럴 네트워크는, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하여 생성된 적어도 하나의 피처 맵을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는, 음향 이벤트 인식 장치일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram)인, 음향 이벤트 인식 장치일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram)인, 음향 이벤트 인식 장치일 수 있다.
상기 로그 스펙트로그램은, 상기 윈도윙의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프 관계인, 음향 이벤트 인식 장치일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy)이고, 상기 멜 필터뱅크(mel filterbank)는, 주파수에 따라 서로 다른 해상도를 고려하여, 상기 이산 푸리에 변환한 결과에 멜 스케일(mel scale)이 적용되는, 음향 이벤트 인식 장치일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램인, 음향 이벤트 인식 장치일 수 있다.
상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수를 조절하는, 음향 이벤트 인식 장치일 수 있다.
일 실시예에 따르면, 음향 이벤트 인식 방법에 적용되는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)의 트레이닝 장치에 있어서, 상기 트레이닝 장치는 프로세서 및 컴퓨터로 읽을 수 있는 명령어를 포함하는 메모리를 포함하고, 상기 명령어가 상기 프로세서에서 실행되면, 상기 프로세서는, 음향 이벤트를 포함하는 음향 신호로부터 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하고, 상기 정규화된 음향 신호 특징 파라미터에 기초하여 생성된 적어도 하나의 피처 맵(feature map)을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는, 트레이닝 장치일 수 있다.
상기 적어도 하나의 음향 신호 특징 파라미터는, ⅰ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram) ⅱ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram) ⅲ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy) ⅳ) 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램을 포함하는, 트레이닝 장치일 수 있다.
상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수가 조절되는, 트레이닝 장치일 수 있다.
본 발명의 일 실시예에 따르면, 음향 이벤트 인식 방법은 신경망을 기반으로 서로 상이한 음향 신호 특징 파라미터들 간의 연관성을 이용하여 음향 이벤트의 인식 성능을 향상시킬 수 있다.
본 발명의 일 실시예에 따르면, 음향 이벤트 인식 방법은 서로 다른 음향 신호 특징 파라미터를 신호 처리하여 생성된 3차원 구조의 특징 파라미터들을 신경망의 입력으로 사용할 수 있다.
도 1은 일 실시예에 따른, 음향 신호 특징 파라미터에 기반한 신경망을 이용하는 음향 이벤트 인식 과정을 나타낸 도면이다.
도 2는 일 실시예에 따른, 음향 신호 특징 파라미터 추출 과정을 나타낸 도면이다.
도 3은 일 실시예에 따른, 음향 신호 특징 파라미터의 처리 구조를 나타낸 도면이다.
도 4는 일 실시예에 따른 로그 스펙트로그램을 나타내며, 도 5는 일 실시예에 따른 로그 멜 필터뱅크 에너지를 나타내며, 도 6은 일 실시예에 따른 켑스트로그램을 나타내며, 도 7은 일 실시예에 따른 스케일로그램을 나타낼 수 있다.
도 8은 일 실시예에, 음향 이벤트 인식 장치가 수행하는 음향 이벤트 인식 방법을 나타낸다.
이하, 실시예들을 첨부된 도면을 참조하여 상세하게 설명한다. 그러나, 특허출원의 범위가 이러한 실시예들에 의해 제한되거나 한정되는 것은 아니다. 각 도면에 제시된 동일한 참조 부호는 동일한 부재를 나타낸다.
아래 설명하는 실시예들에는 다양한 변경이 가해질 수 있다. 아래 설명하는 실시예들은 실시 형태에 대해 한정하려는 것이 아니며, 이들에 대한 모든 변경, 균등물 내지 대체물을 포함하는 것으로 이해되어야 한다.
제1 또는 제2 등의 용어는 다양한 구성요소들을 설명하는데 사용될 수 있지만, 이런 용어들은 하나의 구성요소를 다른 구성요소로부터 구별하는 목적으로만 이해되어야 한다. 예를 들어, 제1 구성요소는 제2 구성요소로 명명될 수 있고, 유사하게 제2 구성요소는 제1 구성요소로도 명명될 수 있다.
실시예에서 사용한 용어는 단지 특정한 실시예를 설명하기 위해 사용된 것으로, 실시예를 한정하려는 의도가 아니다. 단수의 표현은 문맥상 명백하게 다르게 뜻하지 않는 한, 복수 개의 표현을 포함한다. 본 명세서에서, "포함하다" 또는 "가지다" 등의 용어는 명세서 상에 기재된 특징, 숫자, 단계, 동작, 구성 요소, 부품 또는 이들을 조합한 것이 존재함을 지정하려는 것이지, 하나 또는 그 이상의 다른 특징들이나 숫자, 단계, 동작, 구성요소, 부품 또는 이들을 조합한 것들의 존재 또는 부가 가능성을 미리 배제하지 않는 것으로 이해되어야 한다.
다르게 정의되지 않는 한, 기술적이거나 과학적인 용어를 포함해서 여기서 사용되는 모든 용어들은 실시예가 속하는 기술 분야에서 통상의 지식을 가진 자에 의해 일반적으로 이해되는 것과 동일한 의미를 가지고 있다. 일반적으로 사용되는 사전에 정의되어 있는 것과 같은 용어들은 관련 기술의 문맥 상 가지는 의미와 일치하는 의미를 가지는 것으로 해석되어야 하며, 본 출원에서 명백하게 정의하지 않는 한, 이상적이거나 과도하게 형식적인 의미로 해석되지 않는다.
또한, 첨부 도면을 참조하여 설명함에 있어, 도면 부호에 관계없이 동일한 구성 요소는 동일한 참조 부호를 부여하고 이에 대한 중복되는 설명은 생략하기로 한다. 실시예를 설명함에 있어서 관련된 공지 기술에 대한 구체적인 설명이 실시예의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우 그 상세한 설명을 생략한다.
이하, 본 발명의 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 일 실시예에 따른, 음향 신호 특징 파라미터에 기반한 신경망을 이용하는 음향 이벤트 인식 과정을 나타낸 도면이다.
음향 신호(110)는 음향 이벤트를 포함할 수 있다. 음향 이벤트는 비명 소리, 개 짖는 소리와 같이 특정 시간에 나타났다가 사라지는 음향 객체를 나타낼 수 있다.
음향 이벤트 인식 장치(120)는 음향 신호(110)으로부터 적어도 하나의 음향 신호 특징 파라미터를 추출할 수 있다. 이때, 음향 이벤트 인식 장치(120)는 신호 처리를 통해 로그 스펙트로그램(Log spectrogram), 로그 멜 필터뱅크 에너지(Log mel filterbank energy), 켑스트로그램(Cepstrogram), 스케일로그램(Scalogram)중에서 적어도 하나를 포함하는 음향 신호 특징 파라미터를 추출할 수 있다.
음향 이벤트 인식 장치(120)는 음향 이벤트 인식 방법에 적용되는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)의 입력으로 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용할 수 있다. 이때, 음향 신호 특징 파라미터는 시간-주파수 영역에서 다양한 음향 특성을 나타낼 수 있다. 따라서, 컨볼루션 뉴럴 네트워크는 서로 상이한 음향 신호 특징 파라미터들 간 연관성을 이용하기 위해 음향 신호 특징 파라미터들 간의 연관성에 대한 트레이닝을 신경망 전체에서 수행함으로써, 음향 이벤트를 효과적으로 인식할 수 있다.
음향 이벤트 인식 장치(120)는 음향 신호(110)에 포함된 음향 이벤트를 인식한 결과(130)를 출력할 수 있다. 이때, 음향 이벤트 인식 장치(120)는 추출된 음향 신호 특징 파라미터와 트레이닝된 컨볼루션 뉴럴 네트워크를 이용하여 음향 이벤트 인식 결과(130)를 표시할 수 있다.
일 실시예에 따르면, 서로 상이한 음향 신호 특징 파라미터들 간 연관성을 이용하여 음향 신호에 포함된 음향 이벤트를 효과적으로 인식할 수 있다. 따라서, 음향 이벤트 인식 장치(120)가 수행하는 음향 이벤트 인식 방법은 노약자/청각 장애인/위험회피/시설 보안 감시/미디어 자동 태깅과 같은 다양한 응용 분야에 적용될 수 있다.
도 2는 일 실시예에 따른, 음향 신호 특징 파라미터 추출 과정을 나타낸 도면이다. 음향 신호 특징 파라미터는 로그 스펙트로그램, 로그 멜 필터뱅크 에너지, 켑스트로그램, 스케일로그램을 포함할 수 있다. 이때, 도 4는 일 실시예에 따른 로그 스펙트로그램을 나타내며, 도 5는 일 실시예에 따른 로그 멜 필터뱅크 에너지를 나타내며, 도 6은 일 실시예에 따른 켑스트로그램을 나타내며, 도 7은 일 실시예에 따른 스케일로그램을 나타낼 수 있다.
마이크를 통해 수집된 음향 신호(201)는 프레이밍(203)을 통해 음향 신호 특징 파라미터 추출을 위해 프레임 단위로 구분될 수 있고, 프레임 단위는 사전에 설정될 수 있다. 이때, 인접한 프레임 간 음향 신호의 특성 변화를 검출하기 위해 인접한 프레임 간의 겹침(overlap)이 될 수 있다.
프레임 단위로 구분된 음향 신호(201)에 대해 윈도윙(205)이 프레임 단위로 적용될 수 있다. 이때, 윈도윙(205)이 적용됨으로써, 프레임 양끝의 신호 불연속성이 줄어들 수 있고, 이로 인해 이산 푸리에 변환(Discrete Fourier Transform, DFT)(207) 적용시 발생될 수 있는 사이드로브(sidelobe)의 누설이 방지될 수 있다.
만약, 윈도윙(205) 이후 이산 푸리에 변환(DFT)(207)을 적용한 결과에 대해 로그(log)(221)를 취할 경우 음향 신호 특징 파라미터인 로그 스펙트로그램(Log spectrogram)(223)을 추출할 수 있다. 구체적으로, 음향 신호(201)에 대해 주파수 성분별 시간 변화량을 표현하기 위해, 로그 스펙트로그램(223)은 미리 설정된 프레임 구간의 샘플들에 윈도윙(205) 및 이산 푸리에 변환(207)을 적용하여 도출된 수학식 1과 같은 선형 스펙트로그램에 아래의 수학식 2와 같은 로그를 취한 것이다. 여기서, 이산 푸리에 변환(207)은 STFT(Short Time Fourier Transform)일 수 있다. 이때, 윈도윙(205)의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프가 될 수 있다. 예를 들면, 주파수 해상도를 높이기 위해 윈도윙 길이를 늘리면 상대적으로 시간 해상도가 낮아질 수 있고, 또는 주파수 해상도를 낮추기 위해 윈도윙 길이를 줄이면 상대적으로 시간 해상도가 높아질 수 있다.
Figure pat00001
Figure pat00002
또는 윈도윙(205) 이후 이산 푸리에 변환(DFT)(207)을 적용한 결과에 대해 멜 필터뱅크(Mel Filterbank)(211) 및 로그(log)(213)을 취할 경우, 음향 신호 특징 파라미터인 로그 멜 필터뱅크 에너지(Log Mel Filterbank energy)(215)를 추출할 수 있다. 구체적으로, 로그 멜 필터뱅크 에너지(215)는 사람의 청각기관이 저주파수 대역에서 높은 해상도의 민감도를 갖는 반면 고주파수 대역에서 낮은 해상도의 민감도를 갖는 특성을 고려할 수 있다. 따라서, 로그 멜 필터뱅크 에너지(215)는 전술한 STFT의 파워 스펙트럼(power spectrum)에 아래의 수학식 3의 멜 스케일(Mel scale)을 적용한 아래의 수학식 4의 멜 필터뱅크(mel filterbank)를 적용한 주파수 대역별 에너지에 로그(213)를 적용하여 추출될 수 있다. 이때, 수학식 4의 멜 필터뱅크는 삼각 멜 필터뱅크(triangle mel filterbank)일 수 있다. 여기서, fmel은 고주파 대역보다 저주파 대역에 민감한 인간의 청각 특성을 반영하기 위해 주파수 스케일을 멜 스케일로 변환한 것을 나타낸다.
수학식 4에서, k(1≤k≤K)는 DFT 길이가 K인 경우 주파수 인덱스를 나타낸다. 또한, 음향 신호의 최소 주파수와 최대 주파수를 멜 스케일 변환하고, 멜 스케일 구간을 분석하고자 하는 필터 뱅크 개수 M만큼 등간격으로 구분한다. 이때, 필터 뱅크 인덱스가 m(1≤m≤M)인 필터 뱅크 Hm의 멜 스케일 기반 중심 주파수를 수학식 3에 의해 역반환하여 주파수 fm을 결정할 수 있고, fm에 가장 가까운 주파수 인덱스 값으로 매핑한 것이 f(m)일 수 있다.
Figure pat00003
Figure pat00004
이때, 로그 멜 필터뱅크 에너지(215)에 이산 코사인 변환(Discrete Cosine Transform, DCT)(217)을 적용해 획득한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여, 음향 신호 특징 파라미터인 멜 주파수 켑스트럴 계수(Mel Frequency Cepstral Coefficient, MFCC)기반 켑스트로그램(cepstrogram)을 추출할 수 있다. 따라서, 켑스트로그램(219)은 시간에 따라 주파수 성분 변화를 나타내는 로그 스펙트로그램(223) 및 로그 멜 필터뱅크 에너지(215)와 달리, 시간에 따른 멜 주파수 켑스트럴 계수 변화를 나타낼 수 있다.
또한, 음향 신호 특징 파라미터인 웨이블릿 기반 스케일로그램(scalogram)(227)은 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)(225)을 적용하여 추출될 수 있다. 구체적으로, 전술한 STFT와는 달리 시간 해상도-주파수 해상도는 아래의 수학식 5의 모 웨이블릿(mother wavelet)
Figure pat00005
에 대한 스케일링 인자(scaling factor) a와 시간 이동 인자(time shift factor) b의 임의 조합을 통해 가변될 수 있어, 웨이블릿 기반 스케일로그램(227)은 다중 해상도를 분석할 수 있다. 예를 들면, a가 1보다 크면 모 웨이블릿
Figure pat00006
는 시간 축에서 좁아지거나 a가 1보다 작으면 모 웨이블릿
Figure pat00007
는 시간 축에서 넓어질 수 있어, 해상도는 조절될 수 있다. 여기서, X(a,b)는 a,b의 값을 조정함으로써 하나의 시간-주파수 해상도를 갖는 STFT와는 달리 다양한 시간-주파수 해상도의 신호 분석이 가능한 연속 웨이블릿 변환을 나타낼 수 있다.
Figure pat00008
일 실시예에 따르면, 전술한 음향 신호 특징 파라미터들은 동일한 윈도윙 구간을 기준으로 시간축(x축)에 따라 상이한 음향 특성축(y축)을 가질 수 있어, 음향 신호 특징 파라미터의 성분 개수가 동일하지 않을 수 있다. 서로 상이한 음향 신호 특징 파라미터들 간 연관성을 이용하여 음향 이벤트를 효과적으로 인식하기 위해 신경망에 추출된 음향 신호 특징 파라미터를 입력할 때, 음향 특성축에 대한 성분 개수가 동일할 필요가 있다. 이를 위해, 주파수 해상도에 의해 추출된 음향 신호 특징 파라미터 중 하나를 기준으로 나머지 음향 신호 특징 파라미터의 성분 개수가 동일하게 되도록 조절될 수 있다. 예를 들면, 음향 신호 특징 파라미터인 로그 스펙트로그램의 성분 개수를 기준으로, 나머지 음향 신호 특징 파라미터인 로그 멜 필터뱅크 에너지, 켑스트로그램, 스케일로그램의 성분 개수가 동일하게 되도록 조절될 수 있다.
구체적으로, 나머지 음향 신호 특징 파라미터인 로그 멜 필터뱅크 에너지의 성분 개수를 조절하기 위해, 전술한 수학식 3으로부터 음향 신호에 대한 샘플링 주파수의 1/2을 대입하여 fmel을 결정할 수 있다. 이 후, 로그 스펙트로그램의 성분 개수만큼, 0부터 fmel까지 선형적으로 나누어진 구간에서 전술한 수학식 4를 통해 각각의 멜 필터뱅크의 중심 주파수 f(m)을 결정할 수 있다. 이때, m값이 멜 필터뱅크의 개수에 해당하며, 이는 로그 스펙트로그램의 성분 개수와 동일하다.
또한, 나머지 음향 신호 특징 파라미터인 멜 주파수 켑스트럴 계수 기반 켑스트로그램의 성분 개수는 다음의 과정을 통해 로그 스펙트로그램의 성분 개수와 동일하도록 조절될 수 있다. 구체적으로, 켑스트로그램의 경우 이산 코사인 변환을 통해 획득한 전체 DCT 계수를 사용하지 않고, 음향 이벤트 인식 성능에 상대적으로 중요한 영향을 미치는 일부 DCT 계수만을 이용할 수 있다. 이런 경우, 켑스트로그램의 성분 개수는 로그 스펙트로그램의 성분 개수와 동일하지 않을 수 있고, 이를 해결하기 위해 델타(delta) 계수 및 델타-델타(delta-delta 혹은 acceleration) 계수를 추가할 수 있다. 델타 계수 dt는 아래의 수학식 6을 통해 결정될 수 있으며, 여기서, Ct는 t 시간 프레임에서의 DCT 계수이고, N은 델타 계수를 구하는 시간 프레임 구간, n을 1에서 N까지 가변하면서 현재 t 시간 프레임을 기준으로 과거(t-n) 및 미래(t+n)의 DCT 계수의 변화 정도를 나타낸다.
Figure pat00009
Figure pat00010
델타-델타 계수 ddt는 수학식 7를 통해 결정될 수 있으며, 여기서, d t 는 t 시간 프레임 구간에서의 델타 계수이고, 일정한 시간 프레임 구간 N에서의 MFCC 계수의 변화 정도를 나타낼 수 있다. 또한, 델타-델타 계수도 수학식 6의 델타 계수를 이용하여 동일한 방식으로 계산될 수 있으며, 델타 값의 변화 정도를 나타낼 수 있다. 따라서, DCT 계수, 델타 계수 및 델타-델타 계수의 성분 개수를 각각 로그 스펙트로그램의 성분 개수의 1/3씩으로 하거나 또는, 조합된 계수(예를 들면, DCT 계수와 델타 계수의 조합 또는 DCT 계수와델타-델타 계수의 조합 등)의 성분 개수를 각각 로그 스펙트로그램의 성분 개수의 1/2씩으로 함으로써, 켑스트로그램의 성분 개수는 로그 스펙트로그램의 성분 개수와 동일하도록 조절될 수 있다.
또한, 이산 웨이블릿 변환(DWT)을 통해 획득된 DWT 계수 중에서 로그 스펙트로그램의 성분 개수만큼 선택됨으로써, 나머지 음향 신호 특징 파라미터인 웨이블릿 기반 스케일로그램의 성분 개수는 로그 스펙트로그램의 성분 개수와 동일하도록 조절될 수 있다.
일 실시예에 따르면, 음향 신호 특징 파라미터(x)로서 추출된 스케일로그램(227), 켑스트로그램(219), 로그 멜 필터뱅크 에너지(215), 로그 스펙트로그램(223)는 평균(
Figure pat00011
)과 표준편차(s)를 이용하여 아래의 수학식 8에 따라 정규화(normalization)(229)되어 3차원 구조(231)로 출력될 수 있다.
Figure pat00012
도 3은 일 실시예에 따른, 음향 신호 특징 파라미터의 처리 구조를 나타낸 도면이다.
도 3의 음향 신호 특징 파라미터(301, 303, 305, 307)는 동일한 시간 축 및 음향 특성 축의 스케일을 가질 수 있다. 즉, 전술한 과정을 통해 음향 신호 특징 파라미터(301, 303, 305, 307)의 음향 특성 축에 대한 성분 개수는 동일하도록 조절된 상태일 수 있다.
도 3에 나타난 바와 같이, 컨볼루션 뉴럴 네트워크 기반한 신경망의 첫번째 은닉층은 피처 맵 #1, 피처 맵 #2, ~, 피처 맵 #N을 포함할 수 있다. 이때, 컨볼루션 뉴럴 네트워크의 커널(kernel) 혹은 필터(filter)의 수는 피처 맵의 개수인 N과 같을 수 있다. 여기서, 피처 맵 #1은 각각의 음향 신호 특징 파라미터(301, 303, 305, 307)에 대해 첫번째 필터를 적용한 결과를 합하여 구성될 수 있다. 또한, 피처 맵 #2는 각각의 음향 신호 특징 파라미터(301, 303, 305, 307)에 대해 두번째 필터를 적용한 결과를 합하여 구성될 수 있다. 마찬가지로, 피처 맵 #N은 각각의 음향 신호 특징 파라미터(301, 303, 305, 307)에 대해 N번째 필터를 적용한 결과를 합하여 구성될 수 있다.
각각의 음향 신호 특징 파라미터(301, 303, 305, 307)에 대해 대응하는 필터를 적용한 결과를 합하여 구성된 피처 맵 #1 ~ 피처 맵 #N으로 구성된 첫번째 은닉층()(309)은 관련 결과를 신경망의 은닉층(311)에 전달할 수 있다.
일 실시예에 따르면, 서로 다른 음향 신호 특징 파라미터(301, 303, 305,307)이 갖는 상호 연관성이 신경망의 첫번째 은닉층에서부터 트레이닝될 수 있어, 음향 신호에 포함된 음향 이벤트 인식 성능이 향상될 수 있다.
도 8은 일 실시예에, 음향 이벤트 인식 장치가 수행하는 음향 이벤트 인식 방법을 나타낸다. 일 실시예에 따르면, 컨볼루션 뉴럴 네트워크는 트레이닝 장치에 의해 트레이닝될 수 있고, 트레이닝된 컨볼루션 뉴럴 네트워크는 음향 이벤트 인식 장치에 적용되어 음향 이벤트 인식에 이용될 수 있다.
단계(810)에서, 음향 이벤트 인식 장치는 음향 이벤트를 포함하는 음향 신호를 식별할 수 있다. 이때, 음향 이벤트는 특정 시간에 나타났다가 사라지는 음향 개체를 나타낼 수 있다.
단계(820)에서, 음향 이벤트 인식 장치는 음향 신호로부터 적어도 하나의 음향 신호 특징 파라미터를 추출할 수 있다. 음향 신호 특징 파라미터는 로그 스펙트로그램, 로그 멜 필터뱅크 에너지, 켑스트로그램, 스케일로그램을 포함할 수 있다.
예를 들면, 적어도 하나의 음향 신호 특징 파라미터는, 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram)일 수 있다.
다른 예를 들면, 적어도 하나의 음향 신호 특징 파라미터는, 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram)일 수 있다. 이때, 로그 스펙트로그램은 윈도윙의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프 관계를 가질 수 있다.
다른 예를 들면, 적어도 하나의 음향 신호 특징 파라미터는, 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy)일 수 있다. 이때, 멜 필터뱅크(mel filterbank)는 주파수에 따라 서로 다른 해상도를 고려하여, 이산 푸리에 변환한 결과에 멜 스케일(mel scale)이 적용될 수 있다.
다른 예를 들면, 적어도 하나의 음향 신호 특징 파라미터는, 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램(cepstrogram)일 수 있다.
여기서, 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수가 동일하도록 조절될 수 있다. 구체적으로, 로그 스펙트로그램의 음향 특성 축에 대한 성분 개수와 동일하도록, 나머지 음향 신호 특징 파라미터(로그 멜 필터뱅크 에너지, 켑스트로그램, 스케일로그램)의 음향 특성 축에 대한 성분 개수가 조절될 수 있다.
단계(830)에서, 음향 이벤트 인식 장치는 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크를 적용하여, 음향 신호에 포함된 음향 이벤트를 인식할 수 있다.
이때, 컨볼루션 뉴럴 네트워크는 히든 레이어, 출력 레이어를 포함할 수 있다. 첫번째 히든 레이어는, 음향 이벤트를 포함하는 음향 신호로부터 추출되어 정규화된 적어도 하나의 음향 신호 특징 파라미터에 기초하여 생성된 적어도 하나의 피처 맵을 포함할 수 있다. 이 후, 첫번째 히든 레이어와 연결된 다른 히든 레이어를 통해 트레이닝될 수 있고, 신경망 전체에서 음향 신호 특징 파라미터들이 갖는 상호 연관성이 트레이닝될 수 있다.
이상에서 설명된 장치는 하드웨어 구성요소, 소프트웨어 구성요소, 및/또는 하드웨어 구성요소 및 소프트웨어 구성요소의 조합으로 구현될 수 있다. 예를 들어, 실시예들에서 설명된 장치 및 구성요소는, 예를 들어, 프로세서, 콘트롤러, ALU(arithmetic logic unit), 디지털 신호 프로세서(digital signal processor), 마이크로컴퓨터, FPA(field programmable array), PLU(programmable logic unit), 마이크로프로세서, 또는 명령(instruction)을 실행하고 응답할 수 있는 다른 어떠한 장치와 같이, 하나 이상의 범용 컴퓨터 또는 특수 목적 컴퓨터를 이용하여 구현될 수 있다. 처리 장치는 운영 체제(OS) 및 운영 체제 상에서 수행되는 하나 이상의 소프트웨어 애플리케이션을 수행할 수 있다. 또한, 처리 장치는 소프트웨어의 실행에 응답하여, 데이터를 접근, 저장, 조작, 처리 및 생성할 수도 있다. 이해의 편의를 위하여, 처리 장치는 하나가 사용되는 것으로 설명된 경우도 있지만, 해당 기술분야에서 통상의 지식을 가진 자는, 처리 장치가 복수 개의 처리 요소(processing element) 및/또는 복수 유형의 처리 요소를 포함할 수 있음을 알 수 있다. 예를 들어, 처리 장치는 복수 개의 프로세서 또는 하나의 프로세서 및 하나의 콘트롤러를 포함할 수 있다. 또한, 병렬 프로세서(parallel processor)와 같은, 다른 처리 구성(processing configuration)도 가능하다.
소프트웨어는 컴퓨터 프로그램(computer program), 코드(code), 명령(instruction), 또는 이들 중 하나 이상의 조합을 포함할 수 있으며, 원하는 대로 동작하도록 처리 장치를 구성하거나 독립적으로 또는 결합적으로(collectively) 처리 장치를 명령할 수 있다. 소프트웨어 및/또는 데이터는, 처리 장치에 의하여 해석되거나 처리 장치에 명령 또는 데이터를 제공하기 위하여, 어떤 유형의 기계, 구성요소(component), 물리적 장치, 가상 장치(virtual equipment), 컴퓨터 저장 매체 또는 장치, 또는 전송되는 신호 파(signal wave)에 영구적으로, 또는 일시적으로 구체화(embody)될 수 있다. 소프트웨어는 네트워크로 연결된 컴퓨터 시스템 상에 분산되어서, 분산된 방법으로 저장되거나 실행될 수도 있다. 소프트웨어 및 데이터는 하나 이상의 컴퓨터 판독 가능 기록 매체에 저장될 수 있다.
실시예에 따른 방법은 다양한 컴퓨터 수단을 통하여 수행될 수 있는 프로그램 명령 형태로 구현되어 컴퓨터 판독 가능 매체에 기록될 수 있다. 컴퓨터 판독 가능 매체는 프로그램 명령, 데이터 파일, 데이터 구조 등을 단독으로 또는 조합하여 포함할 수 있다. 매체에 기록되는 프로그램 명령은 실시예를 위하여 특별히 설계되고 구성된 것들이거나 컴퓨터 소프트웨어 당업자에게 공지되어 사용 가능한 것일 수도 있다. 컴퓨터 판독 가능 기록 매체의 예에는 하드 디스크, 플로피 디스크 및 자기 테이프와 같은 자기 매체(magnetic media), CD-ROM, DVD와 같은 광기록 매체(optical media), 플롭티컬 디스크(floptical disk)와 같은 자기-광 매체(magneto-optical media), 및 롬(ROM), 램(RAM), 플래시 메모리 등과 같은 프로그램 명령을 저장하고 수행하도록 특별히 구성된 하드웨어 장치가 포함된다. 프로그램 명령의 예에는 컴파일러에 의해 만들어지는 것과 같은 기계어 코드뿐만 아니라 인터프리터 등을 사용해서 컴퓨터에 의해서 실행될 수 있는 고급 언어 코드를 포함한다. 상기된 하드웨어 장치는 실시예의 동작을 수행하기 위해 하나 이상의 소프트웨어 모듈로서 작동하도록 구성될 수 있으며, 그 역도 마찬가지이다.
이상과 같이 실시예들이 비록 한정된 도면에 의해 설명되었으나, 해당 기술분야에서 통상의 지식을 가진 자라면 상기를 기초로 다양한 기술적 수정 및 변형을 적용할 수 있다. 예를 들어, 설명된 기술들이 설명된 방법과 다른 순서로 수행되거나, 및/또는 설명된 시스템, 구조, 장치, 회로 등의 구성요소들이 설명된 방법과 다른 형태로 결합 또는 조합되거나, 다른 구성요소 또는 균등물에 의하여 대치되거나 치환되더라도 적절한 결과가 달성될 수 있다.

Claims (20)

  1. 음향 이벤트를 포함하는 음향 신호를 식별하는 단계;
    상기 음향 신호로부터 적어도 하나의 음향 신호 특징 파라미터를 추출하는 단계; 및
    상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 적용하여, 상기 음향 신호에 포함된 음향 이벤트를 인식하는 단계
    를 포함하고,
    상기 컨볼루션 뉴럴 네트워크는, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하여 생성된 적어도 하나의 피처 맵을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  2. 제1항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram)인,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  3. 제1항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram)인,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  4. 제3항에 있어서,
    상기 로그 스펙트로그램은, 상기 윈도윙의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프 관계인,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  5. 제1항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy)이고,
    상기 멜 필터뱅크(mel filterbank)는, 주파수에 따라 서로 다른 해상도를 고려하여, 상기 이산 푸리에 변환한 결과에 멜 스케일(mel scale)이 적용되는,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  6. 제5항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램(cepstrogram)인,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  7. 제3항에 있어서,
    상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수를 조절하는,
    컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법.
  8. 음향 이벤트 인식 방법에 적용되는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)의 트레이닝 방법에 있어서,
    음향 이벤트를 포함하는 음향 신호로부터 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하는 단계; 및
    상기 정규화된 음향 신호 특징 파라미터에 기초하여 생성된 적어도 하나의 피처 맵(feature map)을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는 단계
    를 포함하는, 컨볼루션 뉴럴 네트워크의 트레이닝 방법.
  9. 제8항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    ⅰ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram) ⅱ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram) ⅲ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy) ⅳ) 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램
    을 포함하는, 컨볼루션 뉴럴 네트워크의 트레이닝 방법.
  10. 제9항에 있어서,
    상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수가 조절되는,
    컨볼루션 뉴럴 네트워크의 트레이닝 방법.
  11. 컨볼루션 뉴럴 네트워크가 적용된 음향 이벤트 인식 장치에 있어서,
    상기 음향 이벤트 인식 장치는 프로세서 및 컴퓨터로 읽을 수 있는 명령어를 포함하는 메모리를 포함하고,
    상기 명령어가 상기 프로세서에서 실행되면,
    상기 프로세서는,
    음향 이벤트를 포함하는 음향 신호를 식별하고, 상기 음향 신호로부터 적어도 하나의 음향 신호 특징 파라미터를 추출하고, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 이용하여 트레이닝된 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)를 적용하여 상기 음향 신호에 포함된 음향 이벤트를 인식하고,
    상기 컨볼루션 뉴럴 네트워크는, 상기 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하여 생성된 적어도 하나의 피처 맵을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는,
    음향 이벤트 인식 장치.
  12. 제11항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram)인,
    음향 이벤트 인식 장치.
  13. 제11항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram)인,
    음향 이벤트 인식 장치.
  14. 제13항에 있어서,
    상기 로그 스펙트로그램은, 상기 윈도윙의 길이에 따라 주파수 해상도와 시간 해상도 간의 트레이드 오프 관계인,
    음향 이벤트 인식 장치.
  15. 제11항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy)이고,
    상기 멜 필터뱅크(mel filterbank)는, 주파수에 따라 서로 다른 해상도를 고려하여, 상기 이산 푸리에 변환한 결과에 멜 스케일(mel scale)이 적용되는,
    음향 이벤트 인식 장치.
  16. 제15항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램인,
    음향 이벤트 인식 장치.
  17. 제13항에 있어서,
    상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수를 조절하는,
    음향 이벤트 인식 장치.
  18. 음향 이벤트 인식 방법에 적용되는 컨볼루션 뉴럴 네트워크(Convolutional Neural Network, CNN)의 트레이닝 장치에 있어서,
    상기 트레이닝 장치는 프로세서 및 컴퓨터로 읽을 수 있는 명령어를 포함하는 메모리를 포함하고,
    상기 명령어가 상기 프로세서에서 실행되면,
    상기 프로세서는,
    음향 이벤트를 포함하는 음향 신호로부터 추출된 적어도 하나의 음향 신호 특징 파라미터를 정규화하고, 상기 정규화된 음향 신호 특징 파라미터에 기초하여 생성된 적어도 하나의 피처 맵(feature map)을 포함하는 첫번째 히든 레이어를 통해 트레이닝하는,
    트레이닝 장치.
  19. 제18항에 있어서,
    상기 적어도 하나의 음향 신호 특징 파라미터는,
    ⅰ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 구분된 프레임 단위로 이산 웨이블릿 변환(Discrete Wavelet Transform, DWT)을 적용한 스케일로그램(scalogram) ⅱ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 로그를 적용하는 로그 스펙트로그램(log spectrogram) ⅲ) 상기 식별된 음향 신호를 미리 설정된 프레임 단위로 구분하고, 상기 프레임 단위로 윈도윙(windowing)을 적용한 후 이산 푸리에 변환(Discrete Fourier Transform, DFT)한 결과에 멜 필터뱅크(mel filterbank) 및 로그를 적용하는 로그 멜 필터뱅크 에너지(log mel filterbank energy) ⅳ) 상기 로그 멜 필터뱅크 에너지에 이산 코사인 변환(Discrete Cosine Transform, DCT)를 적용해 도출한 DCT 계수와 델타(delta) 계수 및 델타-델타(delta-delta) 계수를 이용하여 도출된 켑스트로그램
    을 포함하는, 트레이닝 장치.
  20. 제19항에 있어서,
    상기 윈도윙이 적용된 프레임 구간에 대해 미리 설정된 음향 신호 특징 파라미터의 성분 개수에 기초하여 나머지 음향 신호 특징 파라미터의 성분 개수가 조절되는,
    트레이닝 장치.
KR1020190030483A 2019-03-18 2019-03-18 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치 KR102635469B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020190030483A KR102635469B1 (ko) 2019-03-18 2019-03-18 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
US16/562,110 US11205442B2 (en) 2019-03-18 2019-09-05 Method and apparatus for recognition of sound events based on convolutional neural network

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020190030483A KR102635469B1 (ko) 2019-03-18 2019-03-18 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20200115731A true KR20200115731A (ko) 2020-10-08
KR102635469B1 KR102635469B1 (ko) 2024-02-13

Family

ID=72514798

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020190030483A KR102635469B1 (ko) 2019-03-18 2019-03-18 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치

Country Status (2)

Country Link
US (1) US11205442B2 (ko)
KR (1) KR102635469B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN114499655A (zh) * 2021-11-23 2022-05-13 烽火通信科技股份有限公司 一种提高otdr事件识别的方法及装置
KR20220098964A (ko) * 2021-01-05 2022-07-12 한국전자통신연구원 음향 신호를 인식하는 학습 모델의 트레이닝 방법과 그 학습 모델을 이용한 음향 신호의 인식 방법 및 그 방법들을 수행하는 장치
WO2022169334A1 (ko) * 2021-02-08 2022-08-11 삼성전자 주식회사 인공지능 모델을 이용한 공간 내 에너지 또는 사운드 파워를 예측하는 방법 및 확성기 시스템

Families Citing this family (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20210073168A (ko) * 2019-12-10 2021-06-18 한국전자통신연구원 노치 필터를 이용한 학습 데이터 증강 장치 및 방법
TWI747392B (zh) * 2020-07-22 2021-11-21 國立雲林科技大學 嬰兒哭聲辨識修正方法及其系統
CN112289341A (zh) * 2020-11-03 2021-01-29 国网智能科技股份有限公司 变电站设备声音异常识别方法及系统
CN112735466B (zh) * 2020-12-28 2023-07-25 北京达佳互联信息技术有限公司 一种音频检测方法及装置
CN112634882B (zh) * 2021-03-11 2021-06-04 南京硅基智能科技有限公司 端到端实时语音端点检测神经网络模型、训练方法
CN113205829A (zh) * 2021-04-29 2021-08-03 上海智大电子有限公司 一种综合监控设备运行状态的方法及系统
CN113326899A (zh) * 2021-06-29 2021-08-31 西藏新好科技有限公司 一种基于深度学习模型的仔猪被压检测方法
CN113488070B (zh) * 2021-09-08 2021-11-16 中国科学院自动化研究所 篡改音频的检测方法、装置、电子设备及存储介质
CN113793622B (zh) * 2021-09-10 2023-08-29 中国科学院声学研究所 一种音频场景识别方法、系统及装置
CN113870896A (zh) * 2021-09-27 2021-12-31 动者科技(杭州)有限责任公司 基于时频图和卷积神经网络的运动声音判假方法、装置
CN114202892B (zh) * 2021-11-16 2023-04-25 北京航天试验技术研究所 一种氢泄漏监测方法
CN117292693B (zh) * 2023-11-27 2024-02-09 安徽大学 融入自注意力机制的crnn珍稀动物识别与定位方法

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012001216A1 (en) * 2010-07-01 2012-01-05 Nokia Corporation Method and apparatus for adapting a context model
US20150279351A1 (en) 2012-12-19 2015-10-01 Google Inc. Keyword detection based on acoustic alignment
WO2014108890A1 (en) * 2013-01-09 2014-07-17 Novospeech Ltd Method and apparatus for phoneme separation in an audio signal
KR102195897B1 (ko) 2013-06-05 2020-12-28 삼성전자주식회사 음향 사건 검출 장치, 그 동작 방법 및 그 동작 방법을 컴퓨터에서 실행시키기 위한 프로그램을 기록한 컴퓨터 판독 가능 기록 매체
KR101844932B1 (ko) 2014-09-16 2018-04-03 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
KR101805976B1 (ko) 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
KR101749254B1 (ko) 2015-12-21 2017-06-20 서울대학교산학협력단 딥 러닝 기반의 통합 음향 정보 인지 시스템
KR102069699B1 (ko) 2016-01-18 2020-01-23 한국전자통신연구원 음성인식 장치 및 방법
KR102204975B1 (ko) 2016-01-22 2021-01-19 한국전자통신연구원 심층 신경망 기반 음성인식 방법 및 그 장치
KR20170095582A (ko) 2016-02-15 2017-08-23 한국전자통신연구원 뉴럴 네트워크를 이용한 오디오 인식 장치 및 방법
US10249294B2 (en) 2016-09-09 2019-04-02 Electronics And Telecommunications Research Institute Speech recognition system and method
US10140980B2 (en) 2016-12-21 2018-11-27 Google LCC Complex linear projection for acoustic modeling
KR20180084464A (ko) 2017-01-17 2018-07-25 한국전자통신연구원 다중 입력 심층신경망 기반 원거리 음성인식용 음향모델링 및 음성인식 방법
KR101969504B1 (ko) 2017-05-02 2019-04-16 서강대학교산학협력단 심층 신경망을 기반으로 한 사운드 이벤트 검출 방법 및 사운드 이벤트 검출 장치
US10347238B2 (en) * 2017-10-27 2019-07-09 Adobe Inc. Text-based insertion and replacement in audio narration
US10747231B2 (en) 2017-11-17 2020-08-18 Intel Corporation Identification of audio signals in surrounding sounds and guidance of an autonomous vehicle in response to the same
US10978050B2 (en) * 2018-02-20 2021-04-13 Intellivision Technologies Corp. Audio type detection

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
Huzaifah, Muhammad., Comparison of time-frequency representations for environmental sound classification using convolutional neural networks., arXiv preprint arXiv:1706.07156, 2017* *
Serizel, Romain, et al., Acoustic features for environmental sound analysis., Computational analysis of sound scenes and events, 2018* *
Valenti, Michele, et al., A convolutional neural network approach for acoustic scene classification., 2017 International Joint Conference on Neural Networks (IJCNN). IEEE, 2017* *

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20220098964A (ko) * 2021-01-05 2022-07-12 한국전자통신연구원 음향 신호를 인식하는 학습 모델의 트레이닝 방법과 그 학습 모델을 이용한 음향 신호의 인식 방법 및 그 방법들을 수행하는 장치
WO2022169334A1 (ko) * 2021-02-08 2022-08-11 삼성전자 주식회사 인공지능 모델을 이용한 공간 내 에너지 또는 사운드 파워를 예측하는 방법 및 확성기 시스템
US11553298B2 (en) 2021-02-08 2023-01-10 Samsung Electronics Co., Ltd. Automatic loudspeaker room equalization based on sound field estimation with artificial intelligence models
CN114499655A (zh) * 2021-11-23 2022-05-13 烽火通信科技股份有限公司 一种提高otdr事件识别的方法及装置
CN114499655B (zh) * 2021-11-23 2023-05-16 烽火通信科技股份有限公司 一种提高otdr事件识别的方法及装置

Also Published As

Publication number Publication date
US20200302949A1 (en) 2020-09-24
US11205442B2 (en) 2021-12-21
KR102635469B1 (ko) 2024-02-13

Similar Documents

Publication Publication Date Title
KR102635469B1 (ko) 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
KR100873396B1 (ko) 오디토리 이벤트에 기초한 특성을 이용하여 오디오를비교하는 방법
JP4272050B2 (ja) オーディトリーイベントに基づく特徴付けを使ったオーディオの比較
US9426564B2 (en) Audio processing device, method and program
CN110880329B (zh) 一种音频识别方法及设备、存储介质
CN111261189B (zh) 一种车辆声音信号特征提取方法
Hauzenberger et al. Drone detection using audio analysis
CN109147798B (zh) 语音识别方法、装置、电子设备及可读存储介质
CN111986699B (zh) 基于全卷积网络的声音事件检测方法
CN108847253B (zh) 车辆型号识别方法、装置、计算机设备及存储介质
CN110942766A (zh) 音频事件检测方法、系统、移动终端及存储介质
KR102617476B1 (ko) 분리 음원을 합성하는 장치 및 방법
CN114596879B (zh) 一种虚假语音的检测方法、装置、电子设备及存储介质
Jung et al. A study of a valid frequency range using correlation analysis of throat signal
KR102590887B1 (ko) 음원의 공간적 위치 및 비음수 행렬 분해를 이용한 음원 분리 방법 및 장치
Gaurav et al. An efficient speaker identification framework based on Mask R-CNN classifier parameter optimized using hosted cuckoo optimization (HCO)
KR102508550B1 (ko) 음악 구간 검출 장치 및 방법
Salhi et al. Robustness of auditory teager energy cepstrum coefficients for classification of pathological and normal voices in noisy environments
US20220216881A1 (en) Training method for learning model for recognizing acoustic signal, method of recognizing acoustic signal using the learning model, and devices for performing the methods
CN113903344B (zh) 基于多通道小波分解共同降噪的深度学习声纹识别方法
Baghel et al. Classification of multi speaker shouted speech and single speaker normal speech
Mallidi et al. Robust speaker recognition using spectro-temporal autoregressive models.
Wickramasinghe et al. DNN controlled adaptive front-end for replay attack detection systems
CN113488069A (zh) 基于生成式对抗网络的语音高维特征快速提取方法和装置
Alene et al. Frequency-domain Features for Environmental Accident Warning Recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant