KR20180098806A - 자연어 인식 성능 개선 방법 및 장치 - Google Patents

자연어 인식 성능 개선 방법 및 장치 Download PDF

Info

Publication number
KR20180098806A
KR20180098806A KR1020170025397A KR20170025397A KR20180098806A KR 20180098806 A KR20180098806 A KR 20180098806A KR 1020170025397 A KR1020170025397 A KR 1020170025397A KR 20170025397 A KR20170025397 A KR 20170025397A KR 20180098806 A KR20180098806 A KR 20180098806A
Authority
KR
South Korea
Prior art keywords
speech
phase
feature
natural language
voice
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
KR1020170025397A
Other languages
English (en)
Other versions
KR102017244B1 (ko
Inventor
김현우
정호영
박전규
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020170025397A priority Critical patent/KR102017244B1/ko
Priority to US15/697,923 priority patent/US10388275B2/en
Publication of KR20180098806A publication Critical patent/KR20180098806A/ko
Application granted granted Critical
Publication of KR102017244B1 publication Critical patent/KR102017244B1/ko
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/0499Feedforward networks
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/084Backpropagation, e.g. using gradient descent
    • GPHYSICS
    • G06COMPUTING OR CALCULATING; COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/08Learning methods
    • G06N3/09Supervised learning
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/02Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using spectral analysis, e.g. transform vocoders or subband vocoders
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L19/00Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis
    • G10L19/04Speech or audio signals analysis-synthesis techniques for redundancy reduction, e.g. in vocoders; Coding or decoding of speech or audio signals, using source filter models or psychoacoustic analysis using predictive techniques
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/027Syllables being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/04Time compression or expansion
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L25/84Detection of presence or absence of voice signals for discriminating voice from noise

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Artificial Intelligence (AREA)
  • Theoretical Computer Science (AREA)
  • Evolutionary Computation (AREA)
  • Signal Processing (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Software Systems (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Machine Translation (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Image Analysis (AREA)

Abstract

본 발명의 일면에 따른 자연어 인식 성능 개선 장치는 음성 신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 주파수 변환부; 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 크기 특징 추출부; 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 위상 특징 추출부; 상기 크기 특징과 상기 위상 특징을 심층 신경망의 입력으로 하고, 음절 핵을 검출하는 음절 핵 검출부; 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 음성 검출부; 상기 검출된 음절 핵과 상기 검출된 음성 구간의 시간을 이용하여 발성 속도를 결정하는 발성 속도 결정부; 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 계산부; 및 상기 시간축 변환 정도를 이용하여 음향 모델에 적합한 음성의 길이로 변환하는 시간축 변환부;를 포함한다.

Description

자연어 인식 성능 개선 방법 및 장치{Method and apparatus for performance improvement in spontaneous speech recognition}
본 발명은 자연어 인식 성능 개선 방법 및 장치에 관한 것으로 구체적으로, 다양한 발성 속도를 갖는 자연어 인식 성능을 향상시키는 방법 및 장치에 관한 것이다.
일반적으로 자연어(spontaneous speech)에서는 다양한 발성 속도(speaking-rate)가 관찰되는데, 적절 속도로 발성한 음성으로 학습된 음성 인식기에서는 자연어 인식 성능이 떨어지게 된다. 이러한 발성 속도의 변이를 대처하는 방법으로 특징이나 신호 영역에서 음향 모델에 적합한 음성의 길이를 조절하는 방법이 있다.
예컨대, 특징 영역에서 켑스트럼 길이 정규화(cepstrum length normalization) 방법과 신호 영역에서 PSOLA(Pitch Synchronous Overlap and Add) 기반 시간축 변환(time scale modification) 방법이 있다. 켑스트럼 길이 변화율이나 PSOLA의 중첩률 조절을 위해서 발성 속도의 측정이 선행되어야 한다.
일정 시간 동안 발성한 음절 수를 추정하는 방법으로 발성 속도를 결정할 수 있다. 음절은 대부분 모음으로 구성된 음절 핵(syllabic nucleus)을 포함하고 있는데, 음절 핵은 두음(onset)과 말음(code)에 비해 에너지와 주기성이 큰 성질을 가지고 있어서, 음절 책과 다른 음절 핵 사이에서 에너지와 주기성이 약해지거나 사라지고 음절 핵에서 강해지는 현상 발생한다. 음절 핵에서 에너지와 주기성의 정점이 형성되기 때문에, 에너지와 주기성을 이용하여 음절 핵을 검출하고, 정점의 개수를 음절 수로 사용한다.
구체적으로 음성 신호를 복수의 프레임으로 분할하고, 매 프레임마다 에너지 관련 특징(전대역 에너지, 부대역 에너지, 포락선의 상관도, 저대역 변조 에너지 등)과 주기성 관련 특징(피치, 하모닉 성분 크기)을 추출한 후, 특징의 정점을 검출하여 정점의 개수를 음성 구간의 길이로 나누어 발성 속도를 결정한다. 그러나, 선행 기술에 따르면, '과일', '거의', '수입'과 같이 음절 핵과 음절 핵이 직접 이어지거나, 음절 핵 사이에 두음과 말음으로 공명음('ㄴ', 'ㅁ', 'ㄹ', 'ㅇ')이 존재할 때, 음절 핵과 다른 음절 핵 사이에서 에너지와 주기성이 약해지거나 사라졌다가 다시 강해지는 현상이 발생하지 않기 때문에 에너지와 주기성의 정점 검출이 어려운 문제가 있다.
최근 활발하게 연구되는 심층 신경망(Deep Neural Network)은 입력 계층과 출력 계층 사이에 다수의 은닉 계층들로 이루어진 신경망으로 입력과 출력의 복잡한 관계를 표현한다. 특히 입력 신호의 프레임간 동적 정보를 활용하고, 암시적인 입력 신호의 특징을 추출함으로써 출력과의 관계를 정교하게 표현해주는 장점이 있다. 이러한 장점은 음절 핵이 이어지거나 음절 핵 사이에서 공명음이 존재할 때, 음절 핵을 검출하기 어려운 문제를 해결할 수 있다.
본 발명은 전술한 문제를 해결하기 위하여, 자연어 인식 성능 개선 방법 및 장치를 제공하는 것을 그 목적으로 한다.
본 발명에서는 심층 신경망 기반으로 음절 핵을 검출하고, 발성 속도에 따라 길이 변화율 또는 중첩율을 조절하여 자연어 인식 성능을 개선하는 방법을 제공한다. 심층 신경망의 성능을 높이기 위하여, 크기 특징 외에 위상 특징을 입력으로 사용하고 다중 프레임 출력을 사용하는 방법을 제공한다.
본 발명의 목적은 다양한 발성 속도를 갖는 자연어 인식 성능을 향상시키기 위하여, 심층 신경망을 토대로 발성 속도를 결정하고, 길이 변화율 또는 중첩율을 조절하는 방법 및 장치를 제공하는 것이다. 주파수 영역으로 변환된 음성 신호의 크기 특징 외에 위상 특징을 추출하고, 다중 프레임 출력을 사용하는 심층 신경망을 토대로 음절 핵을 검출하고, 음성 검출기로 검출된 음성 구간의 시간으로 음절 핵의 개수를 발성 속도를 결정하고, 발성 속도에 따라 길이 변화율 또는 중첩률을 계산하고, 음향 모델에 적합한 음성의 길이로 켑스트럼 길이 정규화 또는 시간축 변환을 수행함으로써 자연어 인식 성능을 개선하는 방법 및 장치를 제공하는 것을 목적으로 한다.
본 발명의 목적은 이상에서 언급한 목적으로 제한되지 않으며, 언급되지 않은 또 다른 목적들은 아래의 기재로부터 당업자에게 명확하게 이해될 수 있을 것이다.
전술한 목적을 달성하기 위한 본 발명의 일 측면에 따른 자연어 인식 성능 개선 장치는, 음성 신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 주파수 변환부; 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 크기 특징 추출부; 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 위상 특징 추출부; 상기 크기 특징과 상기 위상 특징을 심층 신경망의 입력으로 하고, 음절 핵을 검출하는 음절 핵 검출부; 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 음성 검출부; 상기 검출된 음절 핵과 상기 검출된 음성 구간의 시간을 이용하여 발성 속도를 결정하는 발성 속도 결정부; 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 계산부; 및 상기 시간축 변환 정도를 이용하여 음향 모델에 적합한 음성의 길이로 변환하는 시간축 변환부를 포함할 수 있다.
상기 크기 특징은 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도 중 적어도 하나를 포함한다.
상기 위상 특징은 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산 중 적어도 하나를 포함한다.
상기 시간축 변환 정도는 변화율 또는 중첩률 중 어느 하나일 수 있다.
상기 음성 검출부는, 깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행한다.
상기 음절 핵 검출부에서 사용하는 심층 신경망은, 훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 입력으로 하고, 상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고, 상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고, 상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련한다.
상기 음소의 분류 항목은, 묵음, 자음, 음절 핵 및 연속 음절 핵을 포함한다.
상기 다중 프레임 출력은, 음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것이다.
한편, 본 발명의 다른 측면에 따른 자연어 인식 성능 개선 방법은, (1) 소정의 시간 간격으로 음성 신호를 복수의 프레임으로 분할하고 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 단계; (2) 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 단계; (3) 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 단계; (4) 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출하는 단계; (5) 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 단계; (6) 상기 검출된 음절 구간의 시간을 이용하여 발성 속도를 결정하는 단계; (7) 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 단계; 및 (8) 상기 시간축 변환 정도를 이용하여 음향 모델에 적합하게 음성의 길이를 변환하는 단계를 포함할 수 있다.
상기 크기 특징을 추출하는 단계는, 상기 크기 특징으로서, 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도를 추출하는 단계를 포함한다.
상기 위상 특징을 추출하는 단계는, 상기 위상 특징으로서, 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산를 추출하는 단계이다.
시간축 변환 정도를 계산하는 단계는, 상기 시간축 변환 정도로서, 변화율 또는 중첩률 중 어느 하나를 계산하는 단계이다.
음성 구간과 비음성 구간을 검출하는 단계는, 깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 단계를 포함한다.
상기 음절 핵을 검출하는 단계는, 상기 심층 신경망의 입력으로서, 훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 이용하고, 상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고, 상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고, 상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 단계이다.
상기 음소의 분류 항목은, 묵음, 자음, 음절 핵 및 연속 음절 핵을 포함한다.
상기 다중 프레임 출력은, 음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 단계이다.
본 발명에 따르면, 심층 신경망을 이용하여 발성 속도를 결정하고 길이 변화율 또는 중첩률을 조절하여 다양한 발성 속도를 갖는 자연어에 대한 인식 성능을 개선할 수 있다. 심층 신경망 기반의 음절 핵 검출에서 크기 특징 외에 위상 특징을 입력으로 사용하고 다중 프레임 출력을 사용함으로써, 음절 핵이 이어지거나 음절 핵 사이에서 공명음이 존재하더라도 효과적으로 음절 핵을 검출할 수 있다. 본 발명에 따르면, 발성 속도 결정의 정확도를 높일 수 있고, 음절 핵 사이의 시간을 측정함으로써 장음화 현상을 검출하는데에도 효과가 있다.
도 1은 본 발명에 따른 자연어 인식 성능 개선 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도.
도 2는 본 발명에 따른 자연어 인식 성능 개선 장치의 일실시예를 나타내는 구성도.
도 3은 훈련 음성 신호로부터 심층 신경망을 훈련하는 장치의 일실시예를 나타내는 구성도.
도 4는 인공 신경망의 예측 방법을 설명하기 위한 예시도.
도 5는 본 발명의 일실시예에 따른 자연어 인식 성능 개선 방법을 나타내는 흐름도.
도 6는 본 발명의 일실시예에 따른 훈련 음성 신호로부터 심층 신경망을 훈련하는 방법을 나타내는 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 것이며, 단지 본 실시예들은 본 발명의 개시가 완전하도록 하며, 본 발명이 속하는 기술분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 한편, 본 명세서에서 사용된 용어는 실시예들을 설명하기 위한 것이며 본 발명을 제한하고자 하는 것은 아니다. 본 명세서에서, 단수형은 문구에서 특별히 언급하지 않는 한 복수형도 포함한다. 명세서에서 사용되는 "포함한다(comprises)" 및/또는 "포함하는(comprising)"은 언급된 구성소자, 단계, 동작 및/또는 소자는 하나 이상의 다른 구성소자, 단계, 동작 및/또는 소자의 존재 또는 추가를 배제하지 않는다.
이하, 본 발명의 바람직한 실시예에 대하여 첨부한 도면을 참조하여 상세히 설명하기로 한다.
도 1은 본 발명에 따른 자연어 인식 성능 개선 방법이 구현되는 컴퓨터 시스템의 구성을 설명하기 위한 예시도이다.
한편, 본 발명의 실시예에 따른 자연어 인식 성능 개선 방법은 컴퓨터 시스템에서 구현되거나, 또는 기록매체에 기록될 수 있다. 도 1에 도시된 바와 같이, 컴퓨터 시스템은 적어도 하나 이상의 프로세서(110)와, 메모리(120)와, 사용자 입력 장치(150)와, 데이터 통신 버스(130)와, 사용자 출력 장치(160)와, 저장소(140)를 포함할 수 있다. 전술한 각각의 구성 요소는 데이터 통신 버스(130)를 통해 데이터 통신을 한다.
컴퓨터 시스템은 네트워크(180)에 연결된 네트워크 인터페이스(170)를 더 포함할 수 있다. 상기 프로세서(110)는 중앙처리 장치(central processing unit (CPU))이거나, 혹은 메모리(120) 및/또는 저장소(140)에 저장된 명령어를 처리하는 반도체 장치일 수 있다.
상기 메모리(120) 및 상기 저장소(140)는 다양한 형태의 휘발성 혹은 비휘발성 저장매체를 포함할 수 있다. 예컨대, 상기 메모리(120)는 ROM(123) 및 RAM(126)을 포함할 수 있다.
따라서, 본 발명의 실시예에 따른 자연어 인식 성능 개선 방법은 컴퓨터에서 실행 가능한 방법으로 구현될 수 있다. 본 발명의 실시예에 따른 자연어 인식 성능 개선 방법이 컴퓨터 장치에서 수행될 때, 컴퓨터로 판독 가능한 명령어들이 본 발명에 따른 운영 방법을 수행할 수 있다.
한편, 상술한 본 발명에 따른 자연어 인식 성능 개선 방법은 컴퓨터로 읽을 수 있는 기록매체에 컴퓨터가 읽을 수 있는 코드로서 구현되는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체로는 컴퓨터 시스템에 의하여 해독될 수 있는 데이터가 저장된 모든 종류의 기록 매체를 포함한다. 예를 들어, ROM(Read Only Memory), RAM(Random Access Memory), 자기 테이프, 자기 디스크, 플래시 메모리, 광 데이터 저장장치 등이 있을 수 있다. 또한, 컴퓨터로 판독 가능한 기록매체는 컴퓨터 통신망으로 연결된 컴퓨터 시스템에 분산되어, 분산방식으로 읽을 수 있는 코드로서 저장되고 실행될 수 있다.
도 2는 본 발명에 따른 자연어 인식 성능 개선 장치의 일실시예를 나타내는 구성도이다.
도 2에 따르면, 본 발명에 따른 자연어 인식 성능 개선 장치는 종래의 기술과 달리, 음성 신호의 동적 정보를 활용하여 음절 핵을 검출하기 위하여 심층 신경망을 토대로 발성 속도를 결정한다.
본 발명에 따른 자연어 인식 성능 개선 장치는 주파수 변환부, 특징 추출부, 음절 핵 검출부, 음성 검출부, 발성 속도 결정부, 길이 변화율 밀 중첩률 계산부, 길이 정규화 및 시간축 변환부를 포함한다.
주파수 변환부는 소정의 시간 간격(예컨대, 30ms)으로 음성신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환(Discrete Fourier Transform, DFT) 을 적용하여 시간 영역에서 주파수 영역으로 변환한다. 여기서, 통상적인 푸리에 변환은 다음 식과 같다.
Figure pat00001
이산 푸리에 변환은 다음 식과 같다.
Figure pat00002
이산 푸리에 변환은 이산적인 신호에 대하여, 푸리에 변환과 같은 효과를 얻을 수 있다. 이산 푸리에 변환을 처리하기 위하여, 쿨리-튜키 알고리즘 또는 프라임 팩터 알고리즘, 브룬 알고리즘, 레이더 알고리즘, 블루스타인 알고리즘 등의 고속 푸리에 변환 알고리즘을 이용할 수 있다.
특징 추출부는 크기 특징 추출부; 및 위상 특징 추출부;를 포함한다.
크기 특징 추출부는 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 멜-스케일 필터뱅크 로그 에너지(mel-scale filterbank log energy), MFCC(Mel-Frequency Cepstral Coefficient), LPC(Linear Prediction Coefficient), 피치, 하모닉 성분, 스펙트럼 평탄도(spectral flatness) 등의 정보를 추출한다.
위상 특징 추출부는 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 특징을 추출한다. 음성 신호의 위상은 직접적이고 접근 가능한 정보를 명시적으로 보여주지 못하기 때문에 일반적으로 음성 신호 처리 분야에서 사용되지 아니하나, 심층 신경망을 통하여 분석하는 경우, 입력 신호의 암시적인 정보를 추출할 수 있는 장점이 있어, 본 발명에서는 위상 특징을 크기 특징과 함께 사용한다.
상기 추출된 위상 특징은 델타-위상 스펙트럼(delta-phase spectrum), 위상 왜곡 편차(phase distortion deviation), 그룹 지연(group delay), 순환 분산(circular variance)를 포함한다.
음절 핵 검출부는 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출한다. 여기서 심층 신경망은 사전에 훈련 음성 신호로부터 획득한다.
음성 검출부는 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출한다. 예컨대, 깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하여 우도비 검정(Likelihood Ratio Test, LRT)을 수행하여 음성 구간을 검출한다.
발성 속도 결정부는 상기 검출된 음절 핵의 음절 수(fram_count)로 사용하고, 상기 음성 검출기로 검출된 음성 구간의 시간 구간(speech_interval)으로 음절 수를 나누어 발성 속도(rate)를 결정한다. 발성 속도는 음절 시간 간격이 일정하다는 전제에서 일정 길이 이상의 음성 구간이 존재해야 측정할 수 있다.
Figure pat00003
길이 변화율 및 중첩률 계산부는 상기 발성 속도를 사용하여 시간축 변환의 정도를 나타내는 길이 변화율 및 중첩률을 계산한다. 예컨대, PSOLA의 중첩률(factor)을 아래와 같이 선형적으로 조절할 수 있다.
Figure pat00004
이때, 느린 속도로 발성하는 자연어의 인식기 성능은 크게 떨어지지 않기 때문에 시간 변환을 적용하지 않는다. 또한 일정 범위를 벗어난 중첩률을 사용하여 PSOLA 기법을 적용하면 부자연스러운 합성음이 되어 인식 성능이 저하되기 때문에 최대 중첩률을 1.5로 제한한다.
길이 정규화 및 시간축 변환부는 상기 길이 변화율 또는 중첩률을 사용하여 음향 모델에 적합한 음성의 길이로 켑스트럼 길이 정규화 또는 시간축 변환을 수행한다. 예컨대, 기존의 PSOLA 기반 시간축 변환을 사용한다. PSOLA 기법은 피치 단위로 분석된 음성을 중첩해서 더하는 알고리즘으로 합성된 신호의 정점 간격이 일치하기 때문에 피치의 변화가 발생하지 않는다.
도 3은 훈련 음성 신호로부터 심층 신경망을 훈련하는 장치의 일 실시예를 나타내는 구성도이다.
주파수 변환부는 훈련 음성 신호를 주파수 영역으로 변환한다.
특징 추출부는 상기 변환된 훈련 음성 신호로부터 크기 특징과 위상 특징을 추출한다. 훈련 출력 생성부는 훈련 음성 신호의 전사 정보로부터 심층 신경망에 사용할 출력을 생성한다. 훈련 음성 신호의 전사 정보에서 획득한 음소를 "묵음", "자음", "음절 핵", "연속 음절 핵" 4가지로 분류하고, 각 분류 항목에 "1", "2", "3", "4"의 번호를 부여하여 심층 신경망 모델의 출력으로 사용한다. 이는 예시적인 것이며, 분류의 종류, 분류 방법을 한정하는 것은 아니다.
예컨대, 음성 인식 분야에서 널리 사용되는 TIMIT 훈련 음성 데이터 베이스는 발음 기준으로 61개의 음소가 존재하고, 이에 대하여 "묵음", "자음", "음절 핵"을 분류한 것을 아래의 표에 나타내었다.
출력 분류 음소
1 묵음 h#, epi, pau
2 자음 jh, ch, b, d, g, p, t, k, dx, s, sh, z, zh, f, th, v, dh, m, n, nx, ng, l, r, w, y, hh, hv, q, bcl, dcl, gcl, pcl ,tcl, kcl
3 음절 핵 ae, aa, ah, eh, iy, ih, uh, uw, aw, ay, ey, oy, ow, ao, ax, ax-h, ix, ux, er, axr, el, em, en, eng
"연속 음절 핵"은 음절 핵이 연이어 나올 때, 뒤의 음절 핵을 "연속 음절 핵"으로 선정한다. 훈련 음성 신호의 전사 정보로부터 획득한 음소를 표 1을 이용하여 분류하고, 분류 항목의 번호는 음소에 해당하는 음성 구간에서 추출된 특징의 출력이 된다. 그런데 보통 훈련 음성 신호의 전사 정보는 음소에 해당하는 시간 정보를 가지고 있지 아니하므로, 음소가 해당하는 음성 신호의 구간을 추정하기 위하여 GMM-HMM(Gaussian Mixture Model-Hidden Markov Model) 기반의 음성 인식기로 강제 정렬(forced alignment)을 수행하여, 음소에 해당하는 음성 신호 구간을 추정한다. 이때, 강제 정렬의 정확도가 높을수록 성능도 향상된다. 잡음 환경에서 획득한 훈련 음성 신호에서는 상태 강제 정렬 정확도가 떨어지므로, 잡음 처리 과정을 거친 후, GMM-HMM 기반의 음성 인식기로 강제 정렬을 수행한다. 이때, 출력이 "음절 핵"에서 "연속 음절 핵"으로 변하는 전이 구간에서 훈련이 잘 되도록, 이웃 프레임들의 출력을 묶어 다중 프레임 출력을 사용할 수 있다. 음절 핵 검출 모델 훈련부는 상기 크기 특징과 위상 특징을 입력으로 하고, 상기 음소 분류 항목의 번호를 출력으로 하여 심층 신경망 모델을 적용한다.
음절 핵 검출 모델 훈련부는 음성 핵 검출을 위한 심층 신경망 모델이 적용된 크로스 엔트로피(CE, Cross Entropy)를 기준치로 하여 역전파(back-propagation) 알고리즘을 적용하여 훈련한다.
도 4는 인공 신경망의 예측 방법을 설명하기 위한 예시도를 나타낸다.
인공 신경망은 최초의 입력 데이터로 이루어진 입력층과 최후의 출력 데이터로 이루어진 출력층을 포함하고, 입력 데이터로부터 출력 데이터를 산출하는 중간 층으로서 은닉층을 포함한다. 은닉층은 하나 이상 존재하며, 2 이상의 은닉층을 포함하는 인공 신경망을 심층 신경망이라 한다. 각 층에 존재하는 노드에서 실제 연산이 이루어지고, 각 노드는 연결선으로 연결된 다른 노드의 출력값을 토대로 연산할 수 있다.
도 4에서 보이는 바와 같이 원칙적으로 입력데이터 상호간 또는 동일 층에 속하는 노드들 간에는 서로 영향을 주지 아니하며, 각 층은 상위 또는 하위의 인접한 층의 노드에만 입력값 또는 출력값으로서 서로 데이터를 주고 받는 것이다.
도 4에서는 층간의 모든 노드 사이에 연결선이 연결되어 있으나, 필요에 따라 인접한 각 층에 속하는 노드 사이에 연결선이 없을 수도 있다. 다만, 연결선이 없는 경우는 해당 입력값에 대하여 가중치를 0으로 설정하여 처리할 수도 있다.
인공 신경망의 예측 방향에 따라 입력층으로부터 출력층의 결과값을 예측한 경우, 학습과정에서 결과값들로부터 입력값을 예측할 수 있게 된다. 통상 인공 신경망에 있어서 입력값과 출력값이 일대일 대응관계에 있지 아니하므로, 출력층으로서 입력층을 그대로 복구하는 것은 불가능하나, 예측 알고리즘을 고려하여 역전파(back-propagation, backpropa) 알고리즘에 의해 결과값으로부터 산출된 입력데이터가 최초의 입력데이터와 상이하다면, 인공 신경망의 예측이 부정확하다고 볼 수 있으므로, 제약조건 하에서 산출된 입력 데이터가 최초의 입력 데이터와 유사해지도록 예측 계수를 변경하여 학습을 훈련할 수 있게 된다.
도 5는 본 발명의 일실시예에 따른 자연어 인식 성능 개선 방법을 나타내는 흐름도이다.
도 5에 따르면, 자연어 인식 개선 방법은 (1) 소정의 시간 간격으로 음성 신호를 복수의 프레임으로 분할하고 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 단계; (2) 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 단계; (3) 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 단계; (4) 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출하는 단계; (5) 깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행함으로써 음성 구간을 검출하는 단계; (6) 상기 검출된 음절 구간의 시간을 이용하여 발성 속도를 결정하는 단계; (7) 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 단계; 및 (8) 상기 시간축 변환 정도를 이용하여 음향 모델에 적합하게 음성의 길이를 변환하는 단계;를 포함한다.
상기 크기 특징은 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도 중 적어도 하나를 포함하는 것이다.
상기 위상 특징은 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산 중 적어도 하나를 포함하는 것이다.
상기 시간축 변환 정도는 변화율 또는 중첩률 중 어느 하나인 것이다.
도 6은 본 발명의 일실시예에 따른 훈련 음성 신호로부터 심층 신경망을 훈련하는 방법을 나타내는 흐름도이다.
도 6에 따르면 심층 신경망 훈련 방법은 (1) 훈련 음성 신호를 주파수 영역으로 변환하는 단계; (2) 상기 변환된 훈련 음성 신호로부터 크기 특징 및 위상 특징을 추출하는 단계; (3) 훈련 음성 신호의 전사 정보에서 획득한 음소를 묵음, 자음, 음절 핵 및 연속 음절 핵 중 어느 하나로 분류하여 심층 신경망에 사용할 출력을 생성하는 단계; 및 (4) 상기 크기 특징과 위상 특징을 입력으로 하여 상기 음소 분류 항목을 출력으로 하는 심층 신경망을 CE를 기준치로 역전파 알고리즘으로 훈련하는 단계;를 포함한다.
바람직하게는 상기 (3) 단계는 훈련 음성 신호의 전사 정보가 음소에 해당하는 시간 정보를 가지고 있지 않은 경우, GMM-HMM 기반의 음성 인식기로 강제 정렬을 수행하여 음소에 해당하는 음성 신호 구간을 추정하는 단계를 더 포함할 수 있다.
바람직하게는 상기 (3) 단계는 출력이 음절 핵에서 연속 음절 핵으로 변하는 전이 구간에서 훈련이 잘 되도록, 이웃 프레임들의 출력을 묶어 다중 프레임 출력을 사용하는 단계를 더 포함할 수 있다.
바람직하게는 출력으로 사용되는 상기 묵음, 자음, 음절 핵, 연속 음절 핵에 대하여 일련 번호(예컨대, 1, 2, 3, 4)를 부여할 수 있다.
이상, 본 발명의 구성에 대하여 첨부 도면을 참조하여 상세히 설명하였으나, 이는 예시에 불과한 것으로서, 본 발명이 속하는 기술 분야에 통상의 지식을 가진 자라면 본 발명의 기술적 사상의 범위 내에서 다양한 변형과 변경이 가능함은 물론이다. 따라서 본 발명의 보호 범위는 전술한 실시예에 국한되어서는 아니 되며 이하의 특허청구범위의 기재에 의하여 정해져야 할 것이다.
100: 컴퓨터 시스템
110: 프로세서
120: 메모리
123: ROM
126: RAM
130: 데이터 통신 버스
140: 저장소
150: 사용자 입력 장치
160: 사용자 출력 장치
170: 네트워크 인터페이스
180: 네트워크

Claims (16)

  1. 음성 신호를 복수의 프레임으로 분할하고, 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 주파수 변환부;
    상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 크기 특징 추출부;
    상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 위상 특징 추출부;
    상기 크기 특징과 상기 위상 특징을 심층 신경망의 입력으로 하고, 음절 핵을 검출하는 음절 핵 검출부;
    상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 음성 검출부;
    상기 검출된 음절 핵과 상기 검출된 음성 구간의 시간을 이용하여 발성 속도를 결정하는 발성 속도 결정부;
    상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 계산부; 및
    상기 시간축 변환 정도를 이용하여 음향 모델에 적합한 음성의 길이로 변환하는 시간축 변환부;
    를 포함하는 자연어 인식 성능 개선 장치.
  2. 제1항에 있어서,
    상기 크기 특징은 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도 중 적어도 하나를 포함하는 것
    인 자연어 인식 성능 개선 장치.
  3. 제1항에 있어서,
    상기 위상 특징은 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산 중 적어도 하나를 포함하는 것
    인 자연어 인식 성능 개선 장치.
  4. 제1항에 있어서,
    상기 시간축 변환 정도는 변화율 또는 중첩률 중 어느 하나인 것
    인 자연어 인식 성능 개선 장치.
  5. 제1항에 있어서,
    상기 음성 검출부는,
    깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 것
    인 자연어 인식 성능 개선 장치.
  6. 제1항에 있어서,
    상기 음절 핵 검출부에서 사용하는 심층 신경망은,
    훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 입력으로 하고,
    상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고,
    상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고,
    상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 것
    인 자연어 인식 성능 개선 장치.
  7. 제6항에 있어서,
    상기 음소의 분류 항목은
    묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것
    인 자연어 인식 성능 개선 장치.
  8. 제6항에 있어서,
    상기 다중 프레임 출력은
    음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것
    인 자연어 인식 성능 개선 장치.
  9. (1) 소정의 시간 간격으로 음성 신호를 복수의 프레임으로 분할하고 이산 푸리에 변환을 적용하여 시간 영역에서 주파수 영역으로 변환하는 단계;
    (2) 상기 주파수 영역으로 변환된 음성 신호의 크기로부터 크기 특징을 추출하는 단계;
    (3) 상기 주파수 영역으로 변환된 음성 신호의 위상으로부터 위상 특징을 추출하는 단계;
    (4) 상기 크기 특징과 위상 특징을 심층 신경망의 입력으로 사용하여 음절 핵을 검출하는 단계;
    (5) 상기 입력 음성 신호로부터 음성 구간과 비음성 구간을 검출하는 단계;
    (6) 상기 검출된 음절 구간의 시간을 이용하여 발성 속도를 결정하는 단계;
    (7) 상기 발성 속도를 이용하여 시간축 변환 정도를 계산하는 단계; 및
    (8) 상기 시간축 변환 정도를 이용하여 음향 모델에 적합하게 음성의 길이를 변환하는 단계;
    를 포함하는 자연어 인식 개선 방법.
  10. 제9항에 있어서,
    상기 크기 특징을 추출하는 단계는,
    상기 크기 특징으로서, 멜-스케일 필터뱅크 로그 에너지, MFCC, LPC, 피치, 하모닉 성분, 스펙트럼 평탄도를 추출하는 단계인 것
    인 자연어 인식 성능 개선 방법.
  11. 제9항에 있어서,
    상기 위상 특징을 추출하는 단계는,
    상기 위상 특징으로서, 델타-위상 스펙트럼, 위상 왜곡 편차, 그룹 지연, 순환 분산를 추출하는 단계인 것
    인 자연어 인식 성능 개선 방법.
  12. 제9항에 있어서,
    시간축 변환 정도를 계산하는 단계는,
    상기 시간축 변환 정도로서, 변화율 또는 중첩률 중 어느 하나를 계산하는 단계인 것
    인 자연어 인식 성능 개선 방법.
  13. 제9항에 있어서,
    음성 구간과 비음성 구간을 검출하는 단계는,
    깨끗한 음성과 잡음의 DFT 계수 분포를 정규 분포로 모델링하고 우도비 검정을 수행하는 단계인 것
    인 자연어 인식 성능 개선 방법.
  14. 제9항에 있어서,
    상기 음절 핵을 검출하는 단계는,
    상기 심층 신경망의 입력으로서, 훈련 음성 신호와, 훈련 음성 신호의 전사 정보를 이용하고,
    상기 훈련 음성 신호를 주파수 영역으로 변환하여 크기 특징 및 위상 특징을 추출하고,
    상기 훈련 음성 신호의 전사 정보로부터 음소의 분류 항목을 다중 프레임 출력으로 구성하고,
    상기 크기 특징, 위상 특징을 입력으로 하고 상기 다중 프레임 출력으로 구성된 음소의 분류 항목을 출력으로 하는 심층 신경망을 훈련하고, 크로스 엔트로피를 기준치로 하여 역전파 알고리즘으로 훈련하는 단계인 것
    인 자연어 인식 성능 개선 방법.
  15. 제14항에 있어서,
    상기 음소의 분류 항목은,
    묵음, 자음, 음절 핵 및 연속 음절 핵을 포함하는 것
    인 자연어 인식 성능 개선 방법.
  16. 제14항에 있어서,
    상기 다중 프레임 출력은
    음성 신호의 전사 정보와 음성 인식기를 사용하여 강제 정렬을 수행함으로써 음소의 분류 항목에 해당하는 음성 신호 구간을 추정하고, 이웃 프레임들의 음소의 분류 항목을 묶어 다중 프레임 출력하는 것
    인 자연어 인식 성능 개선 방법.
KR1020170025397A 2017-02-27 2017-02-27 자연어 인식 성능 개선 방법 및 장치 Expired - Fee Related KR102017244B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020170025397A KR102017244B1 (ko) 2017-02-27 2017-02-27 자연어 인식 성능 개선 방법 및 장치
US15/697,923 US10388275B2 (en) 2017-02-27 2017-09-07 Method and apparatus for improving spontaneous speech recognition performance

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020170025397A KR102017244B1 (ko) 2017-02-27 2017-02-27 자연어 인식 성능 개선 방법 및 장치

Publications (2)

Publication Number Publication Date
KR20180098806A true KR20180098806A (ko) 2018-09-05
KR102017244B1 KR102017244B1 (ko) 2019-10-21

Family

ID=63246428

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020170025397A Expired - Fee Related KR102017244B1 (ko) 2017-02-27 2017-02-27 자연어 인식 성능 개선 방법 및 장치

Country Status (2)

Country Link
US (1) US10388275B2 (ko)
KR (1) KR102017244B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751268A (zh) * 2019-09-27 2020-02-04 北京理工大学 基于端到端卷积神经网络的相位混叠误差去除方法及装置
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
CN115148195A (zh) * 2022-06-16 2022-10-04 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法和音频分类方法

Families Citing this family (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20190206417A1 (en) * 2017-12-28 2019-07-04 Knowles Electronics, Llc Content-based audio stream separation
US10522167B1 (en) * 2018-02-13 2019-12-31 Amazon Techonlogies, Inc. Multichannel noise cancellation using deep neural network masking
US11282534B2 (en) 2018-08-03 2022-03-22 Sling Media Pvt Ltd Systems and methods for intelligent playback
CN109671433B (zh) * 2019-01-10 2023-06-16 腾讯科技(深圳)有限公司 一种关键词的检测方法以及相关装置
US20210104243A1 (en) * 2019-10-04 2021-04-08 Steven N. Verona Audio recording method with multiple sources
CN111243624B (zh) * 2020-01-02 2023-04-07 武汉船舶通信研究所(中国船舶重工集团公司第七二二研究所) 人员状态评估的方法和系统
CN113269216A (zh) * 2020-02-17 2021-08-17 富士通株式会社 用于检测声音事件的装置和方法以及存储介质
CN111429921B (zh) * 2020-03-02 2023-01-03 厦门快商通科技股份有限公司 声纹识别方法、系统、移动终端及存储介质
US11664037B2 (en) 2020-05-22 2023-05-30 Electronics And Telecommunications Research Institute Methods of encoding and decoding speech signal using neural network model recognizing sound sources, and encoding and decoding apparatuses for performing the same
CN111863036B (zh) * 2020-07-20 2022-03-01 北京百度网讯科技有限公司 语音检测的方法和装置
US11645465B2 (en) * 2020-12-10 2023-05-09 International Business Machines Corporation Anaphora resolution for enhanced context switching
US11948599B2 (en) * 2022-01-06 2024-04-02 Microsoft Technology Licensing, Llc Audio event detection with window-based prediction
US20230317070A1 (en) * 2022-03-31 2023-10-05 Vocollect, Inc. Apparatuses, systems, and methods for speech recognition by speech rate and hint-based techniques
US20240378298A1 (en) * 2023-05-10 2024-11-14 Dell Products L.P. Intelligent software composition management with performance and security alerts

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257643A (ja) * 2010-06-10 2011-12-22 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびプログラム
KR20160032536A (ko) * 2014-09-16 2016-03-24 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법
JP2016128935A (ja) * 2011-04-01 2016-07-14 株式会社ソニー・インタラクティブエンタテインメント 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出

Family Cites Families (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4820059A (en) * 1985-10-30 1989-04-11 Central Institute For The Deaf Speech processing apparatus and methods
JPH02195400A (ja) * 1989-01-24 1990-08-01 Canon Inc 音声認識装置
US5381512A (en) * 1992-06-24 1995-01-10 Moscom Corporation Method and apparatus for speech feature recognition based on models of auditory signal processing
US5787387A (en) * 1994-07-11 1998-07-28 Voxware, Inc. Harmonic adaptive speech coding method and system
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
US5749066A (en) * 1995-04-24 1998-05-05 Ericsson Messaging Systems Inc. Method and apparatus for developing a neural network for phoneme recognition
US5799276A (en) * 1995-11-07 1998-08-25 Accent Incorporated Knowledge-based speech recognition system and methods having frame length computed based upon estimated pitch period of vocalic intervals
US6006175A (en) * 1996-02-06 1999-12-21 The Regents Of The University Of California Methods and apparatus for non-acoustic speech characterization and recognition
US6233550B1 (en) * 1997-08-29 2001-05-15 The Regents Of The University Of California Method and apparatus for hybrid coding of speech at 4kbps
US6092039A (en) * 1997-10-31 2000-07-18 International Business Machines Corporation Symbiotic automatic speech recognition and vocoder
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3673507B2 (ja) * 2002-05-16 2005-07-20 独立行政法人科学技術振興機構 音声波形の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、音声信号の特徴を高い信頼性で示す部分を決定するための装置およびプログラム、ならびに擬似音節核抽出装置およびプログラム
US8639502B1 (en) * 2009-02-16 2014-01-28 Arrowhead Center, Inc. Speaker model-based speech enhancement system
WO2011026247A1 (en) * 2009-09-04 2011-03-10 Svox Ag Speech enhancement techniques on the power spectrum
WO2014144579A1 (en) * 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9830905B2 (en) * 2013-06-26 2017-11-28 Qualcomm Incorporated Systems and methods for feature extraction
IN2014MU00739A (ko) * 2014-03-04 2015-09-25 Indian Inst Technology Bombay
US9620105B2 (en) * 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
KR101805976B1 (ko) 2015-03-02 2017-12-07 한국전자통신연구원 음성 인식 장치 및 방법
US9763006B2 (en) 2015-03-26 2017-09-12 International Business Machines Corporation Noise reduction in a microphone using vowel detection

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011257643A (ja) * 2010-06-10 2011-12-22 Nippon Hoso Kyokai <Nhk> 雑音抑圧装置およびプログラム
JP2016128935A (ja) * 2011-04-01 2016-07-14 株式会社ソニー・インタラクティブエンタテインメント 聴覚注意手がかりを用いた音声の音節/母音/音素の境界の検出
KR20160032536A (ko) * 2014-09-16 2016-03-24 한국전자통신연구원 신호처리 알고리즘이 통합된 심층 신경망 기반의 음성인식 장치 및 이의 학습방법

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110751268A (zh) * 2019-09-27 2020-02-04 北京理工大学 基于端到端卷积神经网络的相位混叠误差去除方法及装置
CN110751268B (zh) * 2019-09-27 2022-07-26 北京理工大学 基于端到端卷积神经网络的相位混叠误差去除方法及装置
CN111627422A (zh) * 2020-05-13 2020-09-04 广州国音智能科技有限公司 语音加速检测方法、装置、设备及可读存储介质
CN115148195A (zh) * 2022-06-16 2022-10-04 腾讯音乐娱乐科技(深圳)有限公司 音频特征提取模型的训练方法和音频分类方法

Also Published As

Publication number Publication date
US10388275B2 (en) 2019-08-20
US20180247642A1 (en) 2018-08-30
KR102017244B1 (ko) 2019-10-21

Similar Documents

Publication Publication Date Title
KR102017244B1 (ko) 자연어 인식 성능 개선 방법 및 장치
Shahnawazuddin et al. Pitch-Adaptive Front-End Features for Robust Children's ASR.
US9336777B2 (en) Speech processing device, speech processing method, and speech processing program
KR101236539B1 (ko) 가중 자동회귀 이동평균 필터와 전역 켑스트럼 평균 및 분산 정규화를 이용한 특징 보상 장치 및 방법
US20080167862A1 (en) Pitch Dependent Speech Recognition Engine
Hasija et al. Recognition of children Punjabi speech using tonal non-tonal classifier
Nidhyananthan et al. Language and text-independent speaker identification system using GMM
Sinha et al. Continuous density hidden markov model for context dependent Hindi speech recognition
Chavan et al. Speech recognition in noisy environment, issues and challenges: A review
Shekofteh et al. Autoregressive modeling of speech trajectory transformed to the reconstructed phase space for ASR purposes
Costa et al. Speech and phoneme segmentation under noisy environment through spectrogram image analysis
Zolnay et al. Extraction methods of voicing feature for robust speech recognition.
Makhijani et al. Speech enhancement using pitch detection approach for noisy environment
Hidayat et al. Speech recognition of KV-patterned Indonesian syllable using MFCC, wavelet and HMM
Unnibhavi et al. LPC based speech recognition for Kannada vowels
Vachhani et al. Use of PLP cepstral features for phonetic segmentation
Jadhav et al. Review of various approaches towards speech recognition
Ishizuka et al. A feature for voice activity detection derived from speech analysis with the exponential autoregressive model
Ajmera Effect of age and gender on lp smoothed spectral envelope
Li et al. Speech recognition of mandarin syllables using both linear predict coding cepstra and Mel frequency cepstra
CN107039046B (zh) 一种基于特征融合的语音声效模式检测方法
Tangwongsan et al. Highly efficient and effective techniques for Thai syllable speech recognition
Amrous et al. Robust arabic multi-stream speech recognition system in noisy environment
Laleye et al. Automatic boundary detection based on entropy measures for text-independent syllable segmentation
Sinha et al. Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR

Legal Events

Date Code Title Description
PA0109 Patent application

St.27 status event code: A-0-1-A10-A12-nap-PA0109

A201 Request for examination
PA0201 Request for examination

St.27 status event code: A-1-2-D10-D11-exm-PA0201

PG1501 Laying open of application

St.27 status event code: A-1-1-Q10-Q12-nap-PG1501

E902 Notification of reason for refusal
PE0902 Notice of grounds for rejection

St.27 status event code: A-1-2-D10-D21-exm-PE0902

P11-X000 Amendment of application requested

St.27 status event code: A-2-2-P10-P11-nap-X000

P13-X000 Application amended

St.27 status event code: A-2-2-P10-P13-nap-X000

E701 Decision to grant or registration of patent right
PE0701 Decision of registration

St.27 status event code: A-1-2-D10-D22-exm-PE0701

GRNT Written decision to grant
PR0701 Registration of establishment

St.27 status event code: A-2-4-F10-F11-exm-PR0701

PR1002 Payment of registration fee

St.27 status event code: A-2-2-U10-U11-oth-PR1002

Fee payment year number: 1

PG1601 Publication of registration

St.27 status event code: A-4-4-Q10-Q13-nap-PG1601

PR1001 Payment of annual fee

St.27 status event code: A-4-4-U10-U11-oth-PR1001

Fee payment year number: 4

PC1903 Unpaid annual fee

St.27 status event code: A-4-4-U10-U13-oth-PC1903

Not in force date: 20230828

Payment event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

PC1903 Unpaid annual fee

St.27 status event code: N-4-6-H10-H13-oth-PC1903

Ip right cessation event data comment text: Termination Category : DEFAULT_OF_REGISTRATION_FEE

Not in force date: 20230828