KR20230146865A - 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법 - Google Patents

소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법 Download PDF

Info

Publication number
KR20230146865A
KR20230146865A KR1020220045821A KR20220045821A KR20230146865A KR 20230146865 A KR20230146865 A KR 20230146865A KR 1020220045821 A KR1020220045821 A KR 1020220045821A KR 20220045821 A KR20220045821 A KR 20220045821A KR 20230146865 A KR20230146865 A KR 20230146865A
Authority
KR
South Korea
Prior art keywords
data
learning
noise
voice
augmented
Prior art date
Application number
KR1020220045821A
Other languages
English (en)
Inventor
백윤주
김태구
이종수
임재봉
Original Assignee
부산대학교 산학협력단
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 부산대학교 산학협력단 filed Critical 부산대학교 산학협력단
Priority to KR1020220045821A priority Critical patent/KR20230146865A/ko
Publication of KR20230146865A publication Critical patent/KR20230146865A/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N20/00Machine learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/22Interactive procedures; Man-machine interfaces
    • G10L17/24Interactive procedures; Man-machine interfaces the user being prompted to utter a password or a predefined phrase
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • G10L19/032Quantisation or dequantisation of spectral components
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Software Systems (AREA)
  • Signal Processing (AREA)
  • Theoretical Computer Science (AREA)
  • Data Mining & Analysis (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Evolutionary Computation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법에 관한 것으로, 원본 음성 파형으로부터 학습을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계 처리부;학습 단계 처리부에서 경량화된 키워드 검출을 위한 모델을 음성 인식 디바이스에 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계 처리부;를 포함하는 것이다.

Description

소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법{System and Method for Spotting Embedded Voice Keyword Considering Noisy Environment}
본 발명은 음성 키워드 검출에 관한 것으로, 구체적으로 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법에 관한 것이다.
높은 편리성을 가진 음성인식 기술의 발전과 세계 음성인식 시장 규모의 증가에 따라 다양한 제품과 음성인식 기술의 융합이 증가하고 있다. 특히 음성은 사람이 사용하기 가장 편리한 의사소통 도구로써 손이나 눈이 자유롭지 못한 상황에서도 상시 입력이 가능하다.
이러한 높은 편리성을 활용하기 위해 음성 인터페이스 기술에 관한 연구가 활발하며, 이런 추세에 더불어 서버 없이 로컬에서 독립적으로 동작하는 음성인식 인터페이스에 관한 연구도 활발하다.
특히 음성 인식 기술은 고객 응대, 명령 및 제어, 교육 서비스 등 사람과 기계와의 상호작용을 통해 다양한 서비스를 제공하고 있다. 이러한 음성 인식 기술 서비스를 구현하기 위해서 음성인식 기능을 개선하기 위한 다양한 연구들이 진행되고 있다.
음성인식 기술 서비스는 높은 인식률을 제공하기 위해서 많은 연산량을 처리할 수 있는 고성능 기기가 필요하다.
고성능 기기는 많은 비용이 필요하므로 보통 서버와 통신 기능을 사용하여 구현된다. 하지만 서버와의 통신은 사용자가 많아지면 연산을 위해 처리해야할 양이 많아지거나, 지연시간의 증가와 같은 한계가 있으며 통신이 되지 않으면 음성인식이 작동하지 않는 문제가 있다.
소음환경에서의 음성인식 기술은 다양한 방면으로 연구되고 있다. 소음환경의 발화 에서 음성을 개선(speech enhancement)하거나 잡음을 감쇄(noise reduction)시키려는 연구, 소음에 강건(noise robustness)한 모델을 만들기 위해 소음을 체계적으로 주입하여 학습시키는 방법 등 학습기법에 관련된 연구 등이 있다.
하지만 음성개선 및 잡음 감쇄 연구의 경우 다른 연구에 비해 많은 연산량을 요구하므로 자원 제약적인 초소형 임베디드 디바이스에서 동작이 어렵다.
최근에는 인공지능 기술을 활용하여 음성인식 기술에 적용하는 연구가 있다. 인공지능의 성능을 향상시키기 위해서는 일반적으로 네트워크의 깊이와 넓이를 더 크게 만드는 방법이 있다.
하지만 이런 방법은 자원 제약적인 경량 임베디드 디바이스 환경에서는 적용이 어렵고 막대한 전력 소모로 인한 배터리 문제도 고려해야 한다.
이와 같이 다양한 환경에서 강건한 모델을 만들고자 하는 연구가 늘어나고 있다. 소음환경에서 인식 성능 개선을 위한 연구나 키워드 검출 기술을 응용하여 사람과 로봇의 상호작용(HRI, Human Robot Interaction) 등의 연구도 활발하다.
하지만 키워드 검출 기술을 사용하고자 하는 환경은 사용자마다 상이하고 일상생활 이외에도 차량 및 공장 환경에서는 항상 동일한 소음만 발생하지 않는다.
이러한 소음환경에서 원활한 동작을 위해서는 다양한 소음 강도와 종류에 강건한 키워드 검출 시스템을 개발해야 할 필요가 있다.
대한민국 공개특허 제10-2021-0052921호 대한민국 공개특허 제10-2019-0062369호 대한민국 공개특허 제10-2016-0112793호
본 발명은 종래 기술의 음성 키워드 검출 기술의 문제점을 해결하기 위한 것으로, 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 음성 데이터와 소음 데이터의 데이터 증강을 하고, 증강된 음성 데이터와 소음 데이터를 합성하고 합성한 소음이 포함된 음성데이터를 사용하여 학습한 딥러닝 모델을 키워드 검출에 사용하여 음성 인식 효율을 높일 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 적은 데이터를 사용하여 키워드 검출을 위한 모델 생성을 단순 간편하게 구현하여 특정 키워드 인식을 검출하기 위해서 대량의 데이터를 각자 따로 수집해야 하는 불편함을 해결할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 원본 음성 파형으로부터 제안하는 학습기법을 거친 후 양자화를 통해 제작한 음성 인식 디바이스에 포팅하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 효율적으로 검출할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 발화 특성 및 소음환경을 동시에 고려하여 다양한 사람의 특성을 포함한 데이터를 학습할 수 있도록 하고, 임베디드 환경을 고려한 경량화를 통하여 자원 제약적인 환경을 고려한 음성인식 기술을 제공할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명은 원본 음성 파형으로부터 제안하는 학습 기법을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계(training phase)와 음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계(Inference phase)를 통하여 강건한 음성인식 서비스를 제공할 수 있도록 한 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법을 제공하는데 그 목적이 있다.
본 발명의 다른 목적들은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
상기와 같은 목적을 달성하기 위한 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템은 원본 음성 파형으로부터 학습을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계 처리부;학습 단계 처리부에서 경량화된 키워드 검출을 위한 모델을 음성 인식 디바이스에 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계 처리부;를 포함하는 것을 특징으로 한다.
여기서, 학습 단계 처리부에 입력되는 데이터의 전처리를 위하여, 음성 데이터를 일정 시간만큼 데이터를 잘라내고 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 적용하여 단순 음성 데이터에서 시간과 공간 주파수 성분으로 분해하여 특징 피처(feature)를 나타내는 스펙트로그램(spectrogram)으로 변환하고, Mel scalling과 DCT기법을 추가로 사용하여 데이터의 특징을 효과적으로 표현할 수 있는 MFCC(Mel Frequency Cepstral Coefficient) 피처를 사용하여 딥러닝의 입력 데이터로 사용하는 것을 특징으로 한다.
그리고 학습 단계 처리부는, 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용하는 데이터 증강부와, 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하는 학습용 데이터 누적생성부와, 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정하는 학습 데이터량 설정부와, 학습을 위한 피처(feature) 추출을 하는 특징 추출부를 포함하는 것을 특징으로 한다.
그리고 데이터 증강부는, 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시키는 것을 특징으로 한다.
그리고 학습용 데이터 누적생성부는, random noise injection과 curriculum noise injection을 사용하여 소음 강도를 적용하여 최종적으로 노이즈가 포함된 음성 데이터의 증강된 데이터 세트(augmented data)를 생성하는 것을 특징으로 한다.
그리고 학습 데이터량 설정부는, 모델의 학습 중에 평가 데이터 세트(validation set)에서의 성능 향상이 없으면 자동적으로 증강된 데이터 세트를 생성하여 누적 학습을 하고, 증강된 데이터의 누적으로 복습되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 증강된 데이터세트만 학습할 수 있도록 하는 것을 특징으로 한다.
그리고 특징 추출부는, sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용하여, window가 sliding 될 때마다 무작위로 적용여부를 결정하여 지속적으로 서로 다르게 변이된 spectrogram augmentation으로 다양한 변이를 포함한 데이터로 학습하도록 하는 것을 특징으로 한다.
다른 목적을 달성하기 위한 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 방법은 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용하는 데이터 증강 단계와, 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하는 학습용 데이터 누적생성 단계와, 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정하는 학습 데이터량 설정 단계와, 학습을 위한 피처(feature) 추출을 하는 특징 추출 단계를 포함하는 학습 단계;음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계;를 포함하는 것을 특징으로 한다.
여기서, 데이터 증강 단계에서, 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시키는 것을 특징으로 한다.
그리고 학습용 데이터 누적생성 단계에서, random noise injection과 curriculum noise injection을 사용하여 소음 강도를 적용하여 최종적으로 노이즈가 포함된 음성 데이터의 증강된 데이터 세트(augmented data)를 생성하는 것을 특징으로 한다.
그리고 학습 데이터량 설정 단계에서, 모델의 학습 중에 평가 데이터 세트(validation set)에서의 성능 향상이 없으면 자동적으로 증강된 데이터 세트를 생성하여 누적 학습을 하고, 증강된 데이터의 누적으로 복습되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 증강된 데이터세트만 학습할 수 있도록 하는 것을 특징으로 한다.
그리고 특징 추출 단계에서, sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용하여, window가 sliding 될 때마다 무작위로 적용여부를 결정하여 지속적으로 서로 다르게 변이된 spectrogram augmentation으로 다양한 변이를 포함한 데이터로 학습하도록 하는 것을 특징으로 한다.
이상에서 설명한 바와 같은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법은 다음과 같은 효과가 있다.
첫째, 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한다.
둘째, 음성 데이터와 소음 데이터의 데이터 증강을 하고, 증강된 음성 데이터와 소음 데이터를 합성하고 합성한 소음이 포함된 음성데이터를 사용하여 학습한 딥러닝 모델을 키워드 검출에 사용하여 음성 인식 효율을 높일 수 있도록 한다.
셋째, 적은 데이터를 사용하여 키워드 검출을 위한 모델 생성을 단순 간편하게 구현하여 특정 키워드 인식을 검출하기 위해서 대량의 데이터를 각자 따로 수집해야 하는 불편함을 해결할 수 있다.
넷째, 원본 음성 파형으로부터 제안하는 학습 기법을 거친 후 양자화를 통해 제작한 음성 인식 디바이스에 포팅하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 효율적으로 검출할 수 있도록 한다.
다섯째, 발화 특성 및 소음환경을 동시에 고려하여 다양한 사람의 특성을 포함한 데이터를 학습할 수 있도록 하고, 임베디드 환경을 고려한 경량화를 통하여 자원 제약적인 환경을 고려한 음성인식 기술을 제공할 수 있다.
도 1은 음성 데이터를 입력으로 키워드 인식을 하는 딥러닝 모델의 일 예를 나타낸 구성도
도 2는 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 전체 구성도
도 3은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 구성 블록도
도 4는 딥러닝 입력데이터 전처리 과정을 나타낸 구성도
도 5는 DS-CNN의 모델 구조도
도 6은 양자화를 통한 모델 경량화를 나타낸 구성도
도 7은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 학습 과정을 나타낸 구성도
도 8은 학습 단계 처리부의 상세 구성도
도 9는 본 발명에 따른 학습 단계에서의 데이터 증강 방법의 일 예를 나타낸 구성도
도 10은 본 발명에 따른 학습 단계에서의 noise injection 방법의 일 예를 나타낸 구성도
도 11은 sliding window 동작 과정의 일 예를 나타낸 구성도
도 12는 피처 추출 및 spectrogram augmentation 적용과 학습을 나타낸 구성도
도 13은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 방법을 나타낸 구성도
도 14는 본 발명에 따른 키워드 자동 하습 기술의 동작 다이어그램
이하, 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법의 바람직한 실시 예에 관하여 상세히 설명하면 다음과 같다.
본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법의 특징 및 이점들은 이하에서의 각 실시 예에 대한 상세한 설명을 통해 명백해질 것이다.
도 1은 음성 데이터를 입력으로 키워드 인식을 하는 딥러닝 모델의 일 예를 나타낸 구성도이다.
본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법은 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한 것이다.
이를 위하여, 본 발명은 음성 데이터와 소음 데이터의 데이터 증강을 하고, 증강된 음성 데이터와 소음 데이터를 합성하고 합성한 소음이 포함된 음성데이터를 사용하여 학습한 딥러닝 모델을 키워드 검출에 사용하는 구성을 포함할 수 있다.
본 발명은 특정 키워드 인식을 검출하기 위해서 대량의 데이터를 각자 따로 수집해야 하는 불편함을 해결하기 위하여 적은 데이터를 사용하여 키워드 검출을 위한 모델 생성을 단순 간편하게 구현하는 구성을 포함할 수 있다.
본 발명은 원본 음성 파형으로부터 제안하는 학습기법을 거친 후 양자화를 통해 제작한 음성 인식 디바이스에 포팅하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 효율적으로 검출할 수 있도록 하는 구성을 포함할 수 있다.
본 발명은 발화 특성 및 소음환경을 동시에 고려하여 다양한 사람의 특성을 포함한 데이터를 학습할 수 있도록 하고, 임베디드 환경을 고려한 경량화를 통하여 자원 제약적인 환경을 고려한 음성인식 기술을 제공하기 위한 구성을 포함할 수 있다.
본 발명은 원본 음성 파형으로부터 제안하는 학습 기법을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계(training phase)와 음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계(Inference phase)를 통하여 강건한 음성인식 서비스를 제공하기 위한 구성을 포함할 수 있다.
딥러닝을 사용한 데이터 특징 추출에 관하여 설명하며 다음과 같다.
딥러닝 모델은 기계학습 모델의 하나로, 도 1에서와 같이, 입력과 출력 사이에 여러 개의 레이어들로 구성되어 있다.
딥러닝은 전처리한 음성데이터를 입력데이터로 사용하여 화자로부터 나오는 음성 신호로부터 미리 정해진 음성 키워드만을 찾아내는 키워드 검출 기술을 인식하게 학습한다.
일반적으로 널리 사용되는 딥러닝 구조는 컨볼루션 신경망 기반 네트워크를 사용하고 있다. 컨볼루션 커널은 입력데이터인 음성 데이터에서의 특징을 읽어내어 다체널의 피처맵을 생성한다. 학습을 진행하면서 컨볼루션 커널은 키워드를 인식 할 수 있는 가중치 세트(weight set)를 구성한다. 즉 화자의 키워드 검출을 위한 딥러닝의 학습은 키워드 인식에 최적화되도록 컨볼루션 커널이 조정되는 과정이다.
특정 소음 강도에 학습된 모델은 학습되지 않은 소음 강도에 대하여 강건하지 못한 성능을 보인다. 이를 개선하기 위해 학습 데이터에 다양한 소음 강도를 임의로 주입하여 학습하는 방법이 있다.
대표적으로 random noise injection 기법은 매 epoch마다 소음 강도를 무작위로 선택해 소음을 주입하여 일정한 신호 대 잡음 비율에 맞춰 학습된 모델보다 더 다양한 소음 크기 환경에서 강건한 모델을 생성한다.
또한, curriculum learning 기법은 주입하는 소음 강도 범위를 단계(stage)별로 점진적으로 변경하여 학습시켜 소음에 대한 강건성을 향상시키는 방법이 있다.
본 발명에서는 키워드 검출을 위해서 음성 데이터와 소음 데이터의 데이터 증강과 증강된 음성 데이터와 소음 데이터를 합성한다. 합성한 소음이 포함된 음성데이터를 사용하여 학습한 딥러닝 모델을 키워드 검출에 사용한다.
음성 인식 연구에서 모델 생성을 위해 부족한 데이터 문제를 해결하기 위해서 데이터 증강 기법을 사용하는 경우가 있다. 하지만 화자의 말의 특성을 고려한 음성 데이터의 증강과 실제 환경에서 생성되는 여러 노이즈를 고려한 소음 데이터의 증강에 대한 연구는 미비하다.
따라서, 화자의 음성과 소음의 특성을 고려하여 데이터 증강에 사용한다. 음성 데이터의 경우 화자의 성별, 나이, 감정, 성격에 따라 음성 데이터의 톤이나 템포가 달라지는 것을 이용하여 데이터 증강을 수행한다.
소음 데이터의 경우 화이트 노이즈 또는 가우시안 노이즈와 같은 기본적인 노이즈 뿐 아니라 생활환경에서 발생되는 여러 가지 노이즈들의 특성을 고려하여 노이즈 데이터를 생성한다.
본 발명은 특정 키워드 인식을 검출하기 위해서 대량의 데이터를 각자 따로 수집해야 하는 불편함을 해결하기 위하여 적은 데이터를 사용하여 키워드 검출을 위한 모델 생성을 단순 간편하게 구현할 수 있도록 한다.
도 2는 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 전체 구성도이다.
본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템은 원본 음성 파형으로부터 학습을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계 처리부(100)와, 학습 단계 처리부(100)에서 경량화된 키워드 검출을 위한 모델을 음성 인식 디바이스에 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계 처리부(200)를 포함한다.
도 3은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 구성 블록도이다.
본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 구조는 크게 학습 단계(training phase)와 추론 단계(Inference phase)로 구분된다.
학습 단계에서는 원본 음성 파형으로부터 제안하는 학습 기법을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화 한다.
추론 단계에서는 제작한 음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하게 한다.
도 4는 딥러닝 입력데이터 전처리 과정을 나타낸 구성도이다.
본 발명에서는 음성인식을 위해 마이크에서 입력된 음성데이터를 전처리하여 사용한다.
음성 데이터를 일정 시간만큼 데이터를 잘라내고 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 적용하여 단순 음성 데이터에서 시간과 공간 주파수 성분으로 분해하여 특징 피처(feature)를 나타내는 스펙트로그램(spectrogram)으로 변환한다.
그리고 Mel scalling과 DCT기법을 추가로 사용하여 데이터의 특징을 효과적으로 표현할 수 있는 MFCC(Mel Frequency Cepstral Coefficient) 피처를 사용하여 딥러닝의 입력 데이터로 사용한다.
구체적으로, 먼저 연속적인 음성 신호로부터 입력으로 사용할 프레임 단위로 윈도잉(windowing/framing)을 한다.
다음 단계로 데이터의 시작 부분과 끝부분이 다르면 시계열 데이터에 포함되지 않은 신호가 나오는 깁스 현상(Gibbs phenomenon)이 일어날 수 있다. 이러한 현상을 방지하기 위하여 hann window를 적용한다.
다음 단계에서는 각각의 윈도우들에 대해 푸리에 고속 변환(FFT, Fast Fourier transform)을 적용하여 주파수 성분을 추출해 학습에 사용한다.
하지만 푸리에 고속 변환에는 시간에 대한 정보가 사라지고 주파수 성분만 존재하므로 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 적용한다.
단시간 푸리에 변환은 음파를 시간 또는 공간 주파수 성분으로 분해할 수 있는 변환이다. 단시간 푸리에 변환으로 음성, 음악, 음향 등의 데이터에서 특징 feature를 추출할 수 있다. 이러한 특징 feature는 3차원의 heat map 데이터이며 이를 2차원의 이미지 형태로 변환하기 위하여 주파수-시간 2차원 그래프에 진폭의 크기에 따라 다른 색으로 표현하여 생성하는데, 이를 스펙트로그램(spectrogram)이라 부른다.
스펙트로그램은 소리의 정보를 시각적으로 표현하기 위한 도구로 파형과 스펙트럼의 특징이 조합되어 있다.
스펙트로그램으로도 학습 feature로 사용할 수 있지만 개선된 음성 feature 추출을 위해 mel-scale을 진행한다. mel-scale은 사람의 달팽이관의 특수한 성질을 기반으로한 값이다. 달팽이관은 주파수가 낮은 대역에서는 주파수의 변화를 잘 감지하는데, 주파수가 높은 대역에서는 주파수의 변화를 잘 감지하지 못한다. 달팽이관의 구조상 저주파 대역을 감지하는 부분은 굵지만, 고주파 대역을 감지하는 부분으로 갈수록 얇아지는 특성 때문이다.
이러한 이유로 스펙트로그램을 특징 벡터를 입력으로 사용하기보다는 mel-scale을 사용하여 사람의 청각 특성에 맞추어 추출하는 것이 더욱 효과적으로 feature를 추출할 수 있다.
Mel-scale을 사용하여 triangular filter를 구현하면 mel-filter bank를 생성할 수 있다. 이러한 필터에 스펙트로그램을 통과시키게 되면 mel-spectrogram이라는 2차원의 이미지 형태의 feature를 추출할 수 있다.
다음 단계로 mel-spectrogram은 주파수끼리 correlation이 형성되어 있으므로 이러한 상관관계를 decorrelate 해주어 입력 feature로 사용한다. 이는 DCT(Discrete Cosine Transform)연산을 적용하여 생성할 수 있으며 이러한 과정을 통해 최종적으로 MFCC(Mel Frequency Cepstral Coefficient)를 생성하여 입력으로 사용할 수 있다.
도 5는 DS-CNN의 모델 구조도이다.
경량 임베디드 기기에서는 저사양의 프로세서를 사용하기 때문에 연산량을 고려하여 경량 딥러닝 모델 DS-CNN(Depthwise Separable Convolution Neural Network)을 사용한다.
DS-CNN은 일반적인 CNN에 비해 연산량 및 파라미터가 크게 감소한다. 또한 일반적으로 딥러닝 모델은 실수형인 32bit(FP32)로 계산되지만 32bit의 해상력을 16bit 또는 8bit 로 양자화를 적용하여 해당하는 범위에 포함되는 값으로 변환하여 모델의 크기를 감소시킨다.
도 6은 양자화를 통한 모델 경량화를 나타낸 구성도이다.
도 7은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템의 학습 과정을 나타낸 구성도이다.
본 발명에서는 다양한 변이를 적절히 포함하여 학습 시킬 수 있는 학습기법을 통해 소음 환경에서 강건한 음성인식 서비스를 목표로 한다. 학습하는 음성 데이터를 다양하게 고려하기 위해서 크게 4단계의 과정을 진행한다. 모델 학습 기법의 전체 과정은 도 7에서와 같다.
도 7은 본 발명에 따른 SWiTRA(Sliding Window Training with Randomized Augmentation) 학습기법의 전체 개요를 나타낸 것이다.
본 발명에 따른 학습 방법은 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시켜 각각의 증강기법을 확률적으로 적용하는 curriculum speech augmentation과 curriculum noise augmentation 과정으로 점선으로 표시된 증강부로 시작된다.
다음으로 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하고 sliding window에서는 누적된 데이터로부터 학습시킬 데이터의 양을 정한다.
그 후 window 범위에 포함되는 데이터에서 feature를 추출한 후 일정 epoch동안 성능 향상이 없을 때까지 학습을 진행한다.
이후 증강부로 돌아가 학습 데이터를 추가로 생성하는 과정으로 구성되어 있다. 이러한 과정을 통해 다양한 변이를 포함한 데이터를 학습할 수 있도록 설계하였다.
도 8은 학습 단계 처리부의 상세 구성도이다.
학습 단계 처리부(100)는 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시켜 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용하는 데이터 증강부(10)와, 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하는 학습용 데이터 누적생성부(20)와, 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정하는 학습 데이터량 설정부(30)와, 학습을 위한 피처(feature) 추출을 하는 특징 추출부(40)를 포함한다.
도 9는 본 발명에 따른 학습 단계에서의 데이터 증강 방법의 일 예를 나타낸 구성도이다.
첫번째 단계로, 본 발명에서는 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시켜 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용한다.
curriculum speech augmentation과 curriculum noise augmentation에서는 인간의 학습 프로세스를 모방하는 curriculum learning 학습기법을 적용하였으며 데이터의 학습 난이도는 증강기법의 적용 개수로 정의하여 점진적으로 적용할 수 있는 증강기법의 개수를 늘려가도록 설계한다.
이러한 체계적인 증강기법은 음성과 소음의 다양성을 고려하여 학습하기 때문에 소음 환경에서 강건한 음성인식을 가능하게 한다.
표 1은 speech augmentation의 상세 내용을 나타낸 것이다.
표 2는 noise augmentation의 상세 내용을 나타낸 것이다.
도 10은 본 발명에 따른 학습 단계에서의 noise injection 방법의 일 예를 나타낸 구성도이다.
두 번째 단계는 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성한다.
본 발명에서는 random noise injection과 curriculum noise injection 기법을 사용하여 소음 강도를 체계적으로 적용하여 최종적으로 노이즈가 포함된 음성 데이터의 증강된 데이터 세트(augmented data)를 생성한다.
표 3은 noise injection의 상세 내용을 나타낸 것이다.
도 11은 sliding window 동작 과정의 일 예를 나타낸 구성도이다.
세 번째 단계에서는 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정한다.
모델의 학습 중에 평가 데이터 세트(validation set)에서의 성능 향상이 없으면 자동적으로 증강된 데이터 세트를 생성하여 누적 학습한다.
또한 증강된 데이터의 누적으로 복습되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 증강된 데이터세트만 학습할 수 있도록 한다.
구체적으로, 증강부를 통해 만들어진 증강된 데이터(augmented data)를 학습하며 k epoch 동안 validation set에 대하여 성능 향상이 없으면 추가로 augmentation data를 생성하여 누적하여 학습한다.
또한, augmented data의 누적으로 복습 되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 augmented data만 학습할 수 있도록 설계한다.
Window size를 s 라고 했을 때 학습시키는 데이터의 양은 증강된 데이터세트로부터 정수배로 늘어나며 최대 augmented data x s 까지 증가하게 된다.
Window의 크기 s만큼 데이터세트가 생성되었을 경우 window는 도 11에서와 같이 sliding 되면서 오래된 augmented data는 window 바깥으로 밀려나게 되고 새로 생성된 데이터가 window 영역 안으로 들어오게 되며 이는 window가 생성된 augmented data의 크기만큼 sliding된다.
도 12는 피처 추출 및 spectrogram augmentation 적용과 학습을 나타낸 구성도이다.
네 번째 단계에서는 학습을 위한 피처(feature) 추출 과정이다.
sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용한다. 이는 window가 sliding 될 때마다 무작위로 적용여부를 결정하여 지속적으로 서로 다르게 변이된 spectrogram augmentation으로 다양한 변이를 포함한 데이터로 학습하도록 한다.
본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 방법을 구체적으로 설명하면 다음과 같다.
도 13은 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 방법을 나타낸 구성도이다.
먼저, 음성 데이터를 일정 시간만큼 데이터를 잘라내고 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 적용하여 단순 음성 데이터에서 시간과 공간 주파수 성분으로 분해하여 특징 피처(feature)를 나타내는 스펙트로그램(spectrogram)으로 변환한다.(S1301)
이어, Mel scalling과 DCT기법을 추가로 사용하여 데이터의 특징을 효과적으로 표현할 수 있는 MFCC(Mel Frequency Cepstral Coefficient) 피처를 사용하여 딥러닝의 입력 데이터로 사용한다.(S1302)
그리고 원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시켜 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용한다.(S1303)
이어, 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성한다.(S1304)
그리고 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 결정한다.(S1305)
이어, sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용하여 학습한다.(S1306)
그리고 음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출한다.(S1307)
도 14는 본 발명에 따른 키워드 자동 하습 기술의 동작 다이어그램이다.
높은 성능의 딥러닝 학습에는 양질의 학습 데이터가 필요하지만 음성데이터 수집 시 발생할 수 있는 모든 상황에서의 데이터 수집은 현실적으로 어려움이 많다.
따라서, 자동적으로 데이터를 증강하여 데이터를 수집하는 접근법이 필요하다. 본 발명에서 제안하는 모델 학습 기법은 음성 데이터와 임의의 소음 데이터를 사용하여 데이터 증강을 통해 소음이 포함된 음성데이터를 생성한다.
이를 응용하여 지정된 키워드를 학습을 위한 음성데이터의 자동 생성, 데이터 증대를 통해 키워드를 자동 학습한다. 따라서 자동학습 방법을 사용하여 응용 서비스에 따라 간편하게 키워드 판별 시스템에 응용할 수 있다.
이상에서 설명한 본 발명에 따른 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법은 다양한 변이를 적절히 포함하여 학습시키는 것에 의해 소음 환경에서 강건한 음성인식 서비스를 제공할 수 있도록 한 것으로, 음성 데이터와 소음 데이터의 데이터 증강을 하고, 증강된 음성 데이터와 소음 데이터를 합성하고 합성한 소음이 포함된 음성데이터를 사용하여 학습한 딥러닝 모델을 키워드 검출에 사용하여 음성 인식 효율을 높일 수 있도록 한다.
이상에서의 설명에서와 같이 본 발명의 본질적인 특성에서 벗어나지 않는 범위에서 변형된 형태로 본 발명이 구현되어 있음을 이해할 수 있을 것이다.
그러므로 명시된 실시 예들은 한정적인 관점이 아니라 설명적인 관점에서 고려되어야 하고, 본 발명의 범위는 전술한 설명이 아니라 특허청구 범위에 나타나 있으며, 그와 동등한 범위 내에 있는 모든 차이점은 본 발명에 포함된 것으로 해석되어야 할 것이다.
100. 학습 단계 처리부
200. 추론 단계 처리부

Claims (12)

  1. 원본 음성 파형으로부터 학습을 거친 후 경량화된 모델 구조와 양자화를 통해 딥러닝 모델을 경량화하는 학습 단계 처리부;
    학습 단계 처리부에서 경량화된 키워드 검출을 위한 모델을 음성 인식 디바이스에 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계 처리부;를 포함하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  2. 제 1 항에 있어서, 학습 단계 처리부에 입력되는 데이터의 전처리를 위하여,
    음성 데이터를 일정 시간만큼 데이터를 잘라내고 단시간 푸리에 변환(STFT, Short Time Fourier Transform)을 적용하여 단순 음성 데이터에서 시간과 공간 주파수 성분으로 분해하여 특징 피처(feature)를 나타내는 스펙트로그램(spectrogram)으로 변환하고,
    Mel scalling과 DCT기법을 추가로 사용하여 데이터의 특징을 효과적으로 표현할 수 있는 MFCC(Mel Frequency Cepstral Coefficient) 피처를 사용하여 딥러닝의 입력 데이터로 사용하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  3. 제 1 항에 있어서, 학습 단계 처리부는,
    원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용하는 데이터 증강부와,
    증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하는 학습용 데이터 누적생성부와,
    누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정하는 학습 데이터량 설정부와,
    학습을 위한 피처(feature) 추출을 하는 특징 추출부를 포함하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  4. 제 3 항에 있어서, 데이터 증강부는,
    원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시키는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  5. 제 3 항에 있어서, 학습용 데이터 누적생성부는,
    random noise injection과 curriculum noise injection을 사용하여 소음 강도를 적용하여 최종적으로 노이즈가 포함된 음성 데이터의 증강된 데이터 세트(augmented data)를 생성하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  6. 제 3 항에 있어서, 학습 데이터량 설정부는,
    모델의 학습 중에 평가 데이터 세트(validation set)에서의 성능 향상이 없으면 자동적으로 증강된 데이터 세트를 생성하여 누적 학습을 하고,
    증강된 데이터의 누적으로 복습되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 증강된 데이터세트만 학습할 수 있도록 하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  7. 제 3 항에 있어서, 특징 추출부는,
    sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용하여,
    window가 sliding 될 때마다 무작위로 적용여부를 결정하여 지속적으로 서로 다르게 변이된 spectrogram augmentation으로 다양한 변이를 포함한 데이터로 학습하도록 하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 시스템.
  8. 원본 음향 데이터와 소음 파형 데이터세트 각각의 증강 기법을 확률적으로 적용하는 데이터 증강 단계와, 증강된 음성 및 소음을 무작위적인 비율로 조합하는 noise injection으로 학습용 데이터를 누적하여 생성하는 학습용 데이터 누적생성 단계와, 누적된 증강된 데이터로부터 학습시킬 데이터의 양을 정하는 학습 데이터량 설정 단계와, 학습을 위한 피처(feature) 추출을 하는 특징 추출 단계를 포함하는 학습 단계;
    음성 인식 디바이스에 키워드 검출을 위한 경량화된 모델을 적용하여 연속적인 사용자의 발화에서 사전에 정의된 음성 키워드만을 검출하는 추론 단계;를 포함하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 방법.
  9. 제 8 항에 있어서, 데이터 증강 단계에서,
    원본 음향 데이터세트에 적용할 수 있는 증강기법의 개수를 점진적으로 증가시키는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 방법.
  10. 제 8 항에 있어서, 학습용 데이터 누적생성 단계에서,
    random noise injection과 curriculum noise injection을 사용하여 소음 강도를 적용하여 최종적으로 노이즈가 포함된 음성 데이터의 증강된 데이터 세트(augmented data)를 생성하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 방법.
  11. 제 8 항에 있어서, 학습 데이터량 설정 단계에서,
    모델의 학습 중에 평가 데이터 세트(validation set)에서의 성능 향상이 없으면 자동적으로 증강된 데이터 세트를 생성하여 누적 학습을 하고,
    증강된 데이터의 누적으로 복습되는 데이터의 총량을 조절하기 위해 일정 크기의 window를 구성하여 일정 범위의 증강된 데이터세트만 학습할 수 있도록 하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 방법.
  12. 제 8 항에 있어서, 특징 추출 단계에서,
    sliding window된 증강된 데이터에 대하여 스펙트로그램 추출 후 spectrogram augmentation을 적용하여,
    window가 sliding 될 때마다 무작위로 적용여부를 결정하여 지속적으로 서로 다르게 변이된 spectrogram augmentation으로 다양한 변이를 포함한 데이터로 학습하도록 하는 것을 특징으로 하는 소음환경을 고려한 임베디드 음성 키워드 검출 방법.
KR1020220045821A 2022-04-13 2022-04-13 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법 KR20230146865A (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020220045821A KR20230146865A (ko) 2022-04-13 2022-04-13 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020220045821A KR20230146865A (ko) 2022-04-13 2022-04-13 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법

Publications (1)

Publication Number Publication Date
KR20230146865A true KR20230146865A (ko) 2023-10-20

Family

ID=88514754

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020220045821A KR20230146865A (ko) 2022-04-13 2022-04-13 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법

Country Status (1)

Country Link
KR (1) KR20230146865A (ko)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160112793A (ko) 2015-03-20 2016-09-28 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
KR20190062369A (ko) 2019-05-30 2019-06-05 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR20210052921A (ko) 2019-11-01 2021-05-11 엘지전자 주식회사 소음 환경에서의 음성 합성

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20160112793A (ko) 2015-03-20 2016-09-28 한국전자통신연구원 잡음 환경에서의 음성 인식을 위한 특징 보상 장치 및 방법
KR20190062369A (ko) 2019-05-30 2019-06-05 네이버 주식회사 키워드 오인식을 방지하는 음성 제어 장치 및 이의 동작 방법
KR20210052921A (ko) 2019-11-01 2021-05-11 엘지전자 주식회사 소음 환경에서의 음성 합성

Similar Documents

Publication Publication Date Title
Zhao et al. Monaural speech dereverberation using temporal convolutional networks with self attention
JP7258182B2 (ja) 音声処理方法、装置、電子機器及びコンピュータプログラム
US9818431B2 (en) Multi-speaker speech separation
US9640194B1 (en) Noise suppression for speech processing based on machine-learning mask estimation
Rivet et al. Mixing audiovisual speech processing and blind source separation for the extraction of speech signals from convolutive mixtures
Schädler et al. Separable spectro-temporal Gabor filter bank features: Reducing the complexity of robust features for automatic speech recognition
CN109215665A (zh) 一种基于3d卷积神经网络的声纹识别方法
Sailor et al. Filterbank learning using convolutional restricted Boltzmann machine for speech recognition
Braun et al. On training targets for noise-robust voice activity detection
Nishimura et al. Versatile recognition using Haar-like feature and cascaded classifier
Kothapally et al. Skipconvgan: Monaural speech dereverberation using generative adversarial networks via complex time-frequency masking
Vuong et al. A modulation-domain loss for neural-network-based real-time speech enhancement
Paikrao et al. Consumer Personalized Gesture Recognition in UAV Based Industry 5.0 Applications
Wang et al. TeCANet: Temporal-contextual attention network for environment-aware speech dereverberation
Sharma Speaker recognition using machine learning techniques
KR20230146865A (ko) 소음환경을 고려한 임베디드 음성 키워드 검출 시스템 및 방법
Marković et al. Application of teager energy operator on linear and mel scales for whispered speech recognition
Zhao et al. Time-Domain Target-Speaker Speech Separation with Waveform-Based Speaker Embedding.
Li et al. A Convolutional Neural Network with Non-Local Module for Speech Enhancement.
Guzewich et al. Improving Speaker Verification for Reverberant Conditions with Deep Neural Network Dereverberation Processing.
Kim et al. Speech recognition using hidden markov models in embedded platform
Guzewich et al. Cross-Corpora Convolutional Deep Neural Network Dereverberation Preprocessing for Speaker Verification and Speech Enhancement.
Nishimura et al. Speech recognition for a humanoid with motor noise utilizing missing feature theory
Skariah et al. Review of speech enhancement methods using generative adversarial networks
Bao et al. A novel training target of DNN used for casa-based speech enhancement