KR102413692B1 - 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 - Google Patents

음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 Download PDF

Info

Publication number
KR102413692B1
KR102413692B1 KR1020150105358A KR20150105358A KR102413692B1 KR 102413692 B1 KR102413692 B1 KR 102413692B1 KR 1020150105358 A KR1020150105358 A KR 1020150105358A KR 20150105358 A KR20150105358 A KR 20150105358A KR 102413692 B1 KR102413692 B1 KR 102413692B1
Authority
KR
South Korea
Prior art keywords
window
score
acoustic
frame
extracted
Prior art date
Application number
KR1020150105358A
Other languages
English (en)
Other versions
KR20170011905A (ko
Inventor
송인철
최영상
Original Assignee
삼성전자주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 삼성전자주식회사 filed Critical 삼성전자주식회사
Priority to KR1020150105358A priority Critical patent/KR102413692B1/ko
Priority to US15/187,428 priority patent/US10714077B2/en
Priority to JP2016134954A priority patent/JP6837298B2/ja
Priority to CN201610584600.6A priority patent/CN106373561B/zh
Priority to EP16180760.7A priority patent/EP3121810B1/en
Publication of KR20170011905A publication Critical patent/KR20170011905A/ko
Application granted granted Critical
Publication of KR102413692B1 publication Critical patent/KR102413692B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06NCOMPUTING ARRANGEMENTS BASED ON SPECIFIC COMPUTATIONAL MODELS
    • G06N3/00Computing arrangements based on biological models
    • G06N3/02Neural networks
    • G06N3/04Architecture, e.g. interconnection topology
    • G06N3/044Recurrent networks, e.g. Hopfield networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/19Grammatical context, e.g. disambiguation of the recognition hypotheses based on word sequence rules
    • G10L15/197Probabilistic grammars, e.g. word n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/18Artificial neural networks; Connectionist approaches
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Theoretical Computer Science (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computing Systems (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Mathematical Physics (AREA)
  • Software Systems (AREA)
  • Molecular Biology (AREA)
  • General Health & Medical Sciences (AREA)
  • Data Mining & Analysis (AREA)
  • Biophysics (AREA)
  • Biomedical Technology (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Signal Processing (AREA)
  • Machine Translation (AREA)

Abstract

음성 인식을 위한 음향 점수 계산 장치가 개시된다. 일 실시예에 따르면, 음향 점수 계산 장치는 음성 프레임을 윈도우 단위로 순차적으로 추출하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 순차적으로 추출된 윈도우 단위로 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.

Description

음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치{APPARATUS AND METHOD FOR CACULATING ACOUSTIC SCORE FOR SPEECH RECOGNITION, SPEECH RECOGNITION APPARATUS AND METHOD, AND ELECTRONIC DEVICE}
음성 인식 기술에 관한 것으로, 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network) 기반으로 점진적 음성 인식을 수행하는 기술과 관련된다.
일반적으로 음성 인식 엔진은 음향 모델(Acoustic Model), 언어 모델(Language Model) 및 디코더(Decoder)로 구성된다. 음향 모델은 입력되는 음성 신호의 각 프레임에 대해 발음별 확률을 계산하고, 언어 모델은 특정 단어나 문장이 얼마나 자주 사용되는지에 관한 정보를 제공한다. 디코더는 음향 모델과 언어 모델에서 제공하는 정보를 기초로 입력된 음성이 어떤 단어나 문장에 가까운지를 계산하여 출력한다. 일반적으로 GMM(Gaussian Mixture Model) 음향 모델이 주로 사용되었으며, 최근 DNN(Deep Neural Network) 음향 모델의 등장으로 음성 인식 성능이 크게 향상되었다. 특히, BRDNN(Bidirectional Recurrent Deep Neural Network)은 음성과 같이 시간적으로 변하는 데이터를 잘 모델링할 수 있어 현재 음성 인식 분야에서 가장 좋은 성능을 가진 음향 모델로 알려져 있다.
BRDNN은 음성의 각 프레임에 대하여 발음별 확률을 계산할 때, 양방향 정보 즉, 앞쪽과 뒷쪽의 프레임 정보를 함께 고려하여 계산하기 때문에 항상 전체 음성을 입력으로 받게 된다. 따라서, 사용자의 음성이 입력되는 도중에 인식 결과를 내는 점진적 디코딩 방식에 적용하기에는 어려움이 있다.
BRDNN 기반의 음향 모델을 기반으로 점진적 디코딩을 수행하기 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법과 전자 장치가 제시된다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 장치는 음성 프레임을 윈도우 단위로 순차적으로 추출하는 전처리부 및 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 순차적으로 추출된 윈도우 단위로 음향 점수를 계산하는 점수 계산부를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
또한, 음향 점수 계산 장치는 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 패딩 추가부를 더 포함할 수 있다.
이때, 추출된 윈도우의 일부 프레임은 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임과 중첩할 수 있다.
점수 계산부는 추출된 윈도우에 대하여 음향 점수가 계산되면, 인접 윈도우의 패딩 프레임에 대하여 기 계산된 음향 점수를 기초로 통계적 기법을 이용하여 중첩하는 일부 프레임에 대한 음향 점수를 재계산할 수 있다.
이때, 통계적 기법은 산술 평균 및 기하 평균 중의 적어도 하나를 포함할 수 있다.
이때, 윈도우의 사이즈 및 패딩 사이즈는 음성 인식의 목적, 적용 분야, 적용 장치의 컴퓨팅 성능 중의 하나 이상을 기초로 결정될 수 있다.
일 양상에 따르면, 음성 인식을 위한 음향 점수 계산 방법은 음성 프레임을 윈도우 단위로 순차적으로 추출하는 단계 및 심층 신경망(Deep Neural Network) 음향 모델을 이용하여 추출되는 윈도우 단위로 음향 점수를 계산하는 단계를 포함할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
음향 점수 계산 방법은 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 단계를 더 포함할 수 있다.
이때, 추출된 윈도우의 일부 프레임은 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임과 중첩할 수 있다.
인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 기초로 통계적 기법을 이용하여 중첩된 일부 프레임에 대한 음향 점수를 재계산하는 단계를 더 포함할 수 있다.
이때, 통계적 기법은 산술 평균 및 기하 평균 중의 적어도 하나를 포함할 수 있다.
이때, 윈도우 사이즈 및 패딩 사이즈는 음성 인식의 목적, 적용 분야, 적용 장치의 컴퓨팅 성능 중의 하나 이상을 기초로 결정될 수 있다.
일 양상에 따르면, 음성 인식 장치는 인식할 음성 신호의 프레임이 연속적으로 입력이 되는 동안, 프레임을 윈도우 단위로 추출하는 전처리부, 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 추출된 윈도우 단위로 음향 점수를 출력하는 음향 모델 적용부 및 순차적으로 출력되는 윈도우 단위의 음향 점수를 기초로, 현재 윈도우까지의 점진적 인식 결과를 출력하는 해석부를 포함할 수 있다.
음성 인식 장치는 언어 모델을 이용하여 단어/문장별 점수를 출력하는 언어 모델 적용부를 더 포함할 수 있고, 해석부는 출력된 단어/문장별 점수를 더 기초로 하여, 현재 윈도우까지의 점진적 인식 결과를 출력할 수 있다.
해석부는 미리 설정된 기준을 만족하는 경우 현재 윈도우까지의 점진적 인식 결과를 음성 신호에 대한 최종 인식 결과로 출력할 수 있다.
이때, 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)일 수 있다.
이때, 언어 모델은 N-Gram 또는 신경망(Neural Network) 모델을 기반으로 할 수 있다.
음향 모델 적용부는 추출된 윈도우의 양쪽에 패딩 프레임을 추가하여 패딩 프레임이 추가된 윈도우의 각 프레임에 대하여 음향 점수를 계산하되, 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 고려하여 추출된 윈도우의 음향 점수를 계산할 수 있다.
일 양상에 따르면, 음성 인식 방법은 인식할 음성 신호의 프레임이 연속적으로 입력이 되는 동안, 그 프레임을 윈도우 단위로 추출하는 단계, 심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 추출된 윈도우 단위로 음향 점수를 출력하는 단계 및 순차적으로 출력되는 윈도우 단위의 음향 점수를 기초로, 현재 윈도우까지의 점진적 인식 결과를 출력하는 단계를 포함할 수 있다.
또한, 음성 인식 방법은 언어 모델을 이용하여 단어/문장별 점수를 출력하는 단계를 더 포함할 수 있고, 점진적 인식 결과를 출력하는 단계는 출력된 단어/문장별 점수를 더 기초로 하여, 현재 윈도우까지의 점진적 인식 결과를 출력할 수 있다.
또한, 음성 인식 방법은 미리 설정된 기준을 만족하는지 여부를 판단하는 단계 및 판단 결과 미리 설정된 기준을 만족하는 경우 현재 윈도우까지의 점진적 인식 결과를 음성 신호에 대한 최종 인식 결과로 출력하는 단계를 더 포함할 수 있다.
또한, 음성 인식 방법은 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 단계를 더 포함할 수 있고, 음향 점수를 출력하는 단계는 패딩 프레임이 추가된 윈도우의 각 프레임에 대하여 음향 점수를 계산하되, 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 고려하여 추출된 윈도우의 음향 점수를 계산할 수 있다.
일 양상에 따르면, 전자 장치는 사용자로부터 음성 신호를 입력받는 음성 입력부, 사용자의 음성 신호가 입력되는 동안, 심층 신경망(Deep Neural Network) 음향 모델을 이용하여 현재 입력된 음성 신호의 프레임을 윈도우 단위로 음향 점수를 출력하고, 출력된 윈도우 단위의 음향 점수를 점진적으로 해석하여 사용자의 음성 신호를 인식하는 음성 인식부 및 인식 결과에 해당하는 동작을 수행하는 처리부를 포함할 수 있다.
이때, 동작은 인식 결과를 텍스트 또는 음성으로 출력, 다른 언어로 번역 및 전자 장치에 관한 명령어의 처리 중의 적어도 하나를 포함할 수 있다.
BRDNN 기반의 음향 모델을 기반으로 점진적 디코딩을 수행하도록 함으로써 사용자가 음성을 입력하는 도중에 전체 음성에 대한 음성 인식 결과를 제공할 수 있다.
도 1은 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 2는 다른 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 3은 일반적인 BRDNN 기반의 음향 모델을 설명하기 위한 도면이다.
도 4 및 도 5는 일 실시예에 따른 BRDNN 기반의 음향 모델을 설명하기 위한 도면이다.
도 6은 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 7은 다른 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 8은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 9는 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 10은 일 실시예에 따른 음성 인식 기술이 적용된 전자 장치의 블록도이다.
도 11은 도 10의 전자 장치가 수행하는 음성 인식 동작의 흐름도이다.
기타 실시예들의 구체적인 사항들은 상세한 설명 및 도면들에 포함되어 있다. 기재된 기술의 이점 및 특징, 그리고 그것들을 달성하는 방법은 도면과 함께 상세하게 후술되어 있는 실시예들을 참조하면 명확해질 것이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
이하, 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치의 실시예들을 도면들을 참고하여 자세히 설명하도록 한다.
도 1은 일 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 1을 참조하면, 음성 인식을 위한 음향 점수 계산 장치(100)는 전처리부(110) 및 점수 계산부(120)를 포함할 수 있다.
전처리부(110)는 인식하고자 하는 음성 신호를 음성 프레임으로 변환하고, 변환된 음성 프레임을 윈도우 단위로 추출한다. 이때, 전처리부(110)는 음성 프레임을 서로 중첩되지 않도록 연속적인 윈도우로 나누어 차례대로 추출할 수 있다.
예를 들어, 인식하고자 하는 전체 음성 신호에 대한 음성 프레임의 개수가 N, 설정된 윈도우의 사이즈가 K라고 할 때, 전처리부(110)는 첫 번째 프레임부터 K번째 프레임이 입력될 때까지 대기하고, K 번째 프레임이 입력되면 첫 번째 프레임부터 K번째 프레임까지를 첫 번째 윈도우(W1)로 출력한다. 이후 계속해서 K+1 번째 프레임부터 2K 번째 프레임까지를 두 번째 윈도우(W2)로 출력하고, 마지막 프레임이 입력될 때까지 K 개의 프레임 단위로 윈도우를 추출하는 과정을 수행한다.
여기서, 윈도우의 사이즈는 음성 인식 분야, 적용 장치의 컴퓨팅 성능 등을 기초로 결정될 수 있다. 다만, 이에 제한되지 않으며 그 밖의 다양한 기준들이 함께 고려될 수 있다. 이때, 윈도우 사이즈는 전체 음성 신호의 프레임 개수보다 적은 개수로 설정될 수 있다.
일 예로, 음성 인식 분야가 다른 언어로의 번역이라면, 음성 인식 결과를 신속하게 제공하는 것보다는 정확하게 제공하는 것이 더 중요할 수 있으므로, 윈도우 사이즈는 상대적으로 크게 설정될 수 있다.
다른 예로, 음성 인식 분야가 TV와 같은 장치의 명령어를 처리하는 것이라면, 그 장치와 관련된 명령어의 수는 제한되어 있으며 신속하게 명령을 처리하는 것이 더 중요할 수 있으므로 윈도우 사이즈는 상대적으로 작게 설정될 수 있다.
이때, 음성 인식 기술이 적용되어 있는 장치의 컴퓨팅 성능이 함께 고려될 수 있다. 여기서, 장치는 TV, 내비게이션, 자동차 전자 장치, 스마트폰, 태블릿 PC, 스마트 와치, 데스크탑 컴퓨터, 노트북 PC 등을 포함하나 이에 제한되는 것은 아니다.
한편, 윈도우 사이즈는 이와 같은 다양한 기준들에 기초하여 미리 설정이 될 수 있다. 또는, 전처리부(110)가 음성 인식 과정에서 사용자에 의해 설정된 기준이나 컴퓨팅 성능 등을 수집하여 동적으로 결정하거나 조정하는 것도 가능하다.
점수 계산부(120)는 DNN(Deep Neural Network) 음향 모델을 이용하여 순차적으로 추출되는 윈도우 단위로 음향 점수를 계산할 수 있다. 이때, DNN 음향 모델은 BRDNN(Bidirectional Recurrent Deep Neural Network) 음향 모델일 수 있다. 이때, 음향 점수는 음소별, 발음별, 형태소별, 음절별 또는 단어별 확률이나 상태 정보를 포함할 수 있다. 다만, 이에 제한되는 것은 아니며, 언어를 형태학적으로 구분할 수 있는 가능한 모든 단위에 대한 확률이나 상태 정보 등을 포함할 수 있다. 이하에서는 설명의 편의를 위해 음향 점수 중의 발음별 점수 예컨대, 발음별 확률을 예로 들어 설명하기로 한다.
점수 계산부(120)는 전처리부(110)에 의해서 윈도우가 추출될 때마다, 추출된 윈도우에 속한 프레임을 음향 모델에 입력하여 추출된 윈도우에 속한 각 프레임에 대한 발음별 점수를 계산할 수 있다. 이와 같이, 점수 계산부(120)는 전처리부(110)에 의해 추출되는 윈도우 단위로 발음별 점수를 계산할 수 있다. 이때, 발음별 점수는 특정 프레임에 대하여 발음(예: a,e,i,o,u)별 확률이나 상태 정보를 포함할 수 있다.
개시된 실시예에 따르면, 전체 음성 프레임을 음향 모델에 입력하지 않고, 윈도우 단위로 음향 모델에 입력하여 발음별 점수를 계산하므로, 도 8을 참조하여 자세히 후술하는 바에 의해서도 알 수 있듯이, 음성 인식 장치는 사용자가 음성을 입력하는 도중에 윈도우 단위로 점진적으로 해석하여 음성 인식 결과를 반환하는 것이 가능해진다.
도 2는 다른 실시예에 따른 음향 점수 계산 장치의 블록도이다.
도 2를 참조하면, 음향 점수 계산 장치(200)는 전처리부(210), 점수 계산부(220) 및 패딩 추가부(230)를 포함할 수 있다. 이때, 전처리부(210) 및 패딩 추가부(230)는 기능상 구분한 것으로, 패딩 추가부(230)의 기능은 전처리부(210)에서 수행되는 것이 가능하다. 전처리부(210) 및 점수 계산부(220)의 구성은 도 1의 음향 점수 계산 장치(100)의 전처리부(210) 및 점수 계산부(220)와 동일하므로 자세한 설명은 생략한다.
전처리부(210)는 인식하고자 하는 음성 신호를 음성 프레임으로 변환하고, 변환된 음성 프레임을 서로 중첩되지 않도록 연속적인 윈도우로 나누어 차례대로 추출할 수 있다. 이때, 윈도우의 사이즈는 전술한 바와 같이 음성 인식 분야, 적용 장치의 컴퓨팅 성능과 같은 다양한 기준들을 고려하여 결정되며, 전체 음성 신호의 프레임 개수보다 적은 개수로 설정될 수 있다.
예를 들어, 번역 등과 같이 정확성이 보다 중요한 분야의 경우에는 윈도우 사이즈가 상대적으로 크게 설정될 수 있으며, 제한된 명령어를 처리하는 임베디드 환경에서는 신속성이 보다 중요하므로 윈도우 사이즈는 상대적으로 작게 설정될 수 있다.
전처리부(210)는 미리 설정된 윈도우 사이즈를 참고하여 윈도우를 추출할 수 있으며, 이와 같은 기준들을 기초로 동적으로 결정하여 윈도우를 추출할 수도 있다.
패딩 추가부(220)는 전처리부(210)에 의해 윈도우가 추출되면, 추출된 현재 윈도우의 양쪽에 패딩 프레임을 추가한다.
일반적인 BRDNN 음향 모델은 특정 프레임의 발음별 확률을 계산할 때 양방향 프레임 정보를 함께 고려한다. 본 실시예에 있어서, 특정 윈도우에 속한 프레임 중의 왼쪽, 오른쪽 끝에 가까운 프레임은 각각 왼쪽, 오른쪽 프레임 정보가 부족하여 계산되는 발음별 점수가 비교적 정확하지 않을 수 있다.
이를 위해, 패딩 추가부(220)는 현재 윈도우에 인접하는 양쪽 윈도우의 일부 프레임을 현재 윈도우의 패딩 프레임으로 추가할 수 있다. 추가된 패딩 프레임은 현재 윈도우에 속한 프레임의 발음별 확률을 계산할 때 추가 정보로서 활용된다. 이때, 패딩 사이즈 즉, 추가되는 패딩 프레임의 개수는 전술한 바와 같이 음성 인식 분야, 적용 장치의 컴퓨팅 성능과 같은 다양한 기준들을 고려하여 결정될 수 있다.
예를 들어, 윈도우의 사이즈(K)가 4이고, 왼쪽 패딩 사이즈(LP)가 2, 오른쪽 패딩 사이즈(RP)가 2라고 하면, 추출된 현재 윈도우의 프레임 4개와 양쪽에 각각 2개의 프레임이 추가되어 총 8개의 프레임이 점수 계산부(220)로 입력될 하나의 윈도우 단위가 될 수 있다. 다만, 현재 윈도우가 첫 번째 윈도우(W1)인 경우에는 왼쪽에 실제로 추가되는 패딩 프레임의 개수는 0이 된다. 현재 윈도우가 마지막 윈도우인 경우에는 오른쪽에 추가되는 패딩 프레임의 개수는 0부터 2까지가 될 수 있다.
즉, 전처리부(210)가 프레임 1부터 프레임 4까지를 첫 번째 윈도우(W1)로 추출하면, 패딩 추가부(230)는 이후 입력되는 프레임 5와 6을 첫 번째 윈도우(W1)의 오른쪽에 패딩 프레임으로 추가한다. 이때, 전처리부(220)는 프레임 5부터 프레임 8까지를 두 번째 윈도우(W2)로 추출하고, 패딩 추가부(230)는 인접하는 첫 번째 윈도우(W1)에 속하는 프레임 3과 4를 두 번째 윈도우(W2)의 왼쪽에 패딩 프레임으로 추가하고, 이후 입력되는 프레임 9 및 10을 윈도우(W2)의 오른쪽에 패딩 프레임으로 추가한다. 전처리부(210)와 패딩 추가부(230)는 마지막 음성 프레임이 입력될 때까지 이러한 과정을 반복 수행한다.
점수 계산부(220)는 DNN(Deep Neural Network) 음향 모델을 이용하여 순차적으로 추출되는 윈도우 단위로 발음별 점수를 계산할 수 있다. 이때, DNN 음향 모델은 BRDNN(Bidirectional Recurrent Deep Neural Network) 음향 모델일 수 있다.
또한, 점수 계산부(220)는 전처리부(210)에 의해서 윈도우가 추출되고, 패딩 추가부(230)에 의해 추출된 윈도우에 패딩 프레임이 추가되면, 패딩 프레임이 추가된 현재 윈도우를 음향 모델에 입력하여 윈도우에 속한 각 프레임 및 패딩 프레임에 대한 발음별 점수를 계산할 수 있다.
일 실시예에 따르면, 점수 계산부(220)는 음향 모델을 통하여 현재 윈도우에 속한 각 프레임 및 패딩 프레임에 대한 발음별 점수가 계산되면, 현재 윈도우에 속한 일부 프레임과 인접 윈도우의 패딩 프레임이 중첩되는지를 판단할 수 있다. 판단 결과, 중첩하는 프레임이 존재하면, 중첩하는 인접 윈도우의 패딩 프레임에 대해 기 계산된 발음별 점수를 기초로 현재 윈도우의 일부 프레임에 대하여 발음별 점수를 다시 계산할 수 있다.
일 예로, 점수 계산부(220)는 현재 윈도우의 일부 프레임(f)에 대한 특정 발음의 점수 a와 인접 윈도우의 패딩 프레임(f)에 대한 특정 발음의 점수를 b라 할 때, 아래의 수학식 1과 같이 산술 평균(Arithmetic Mean)하여 현재 윈도우의 일부 프레임(f)에 대한 최종 점수 s(f)를 계산할 수 있다.
Figure 112015072345810-pat00001
다른 예로, 점수 계산부(220)는 아래의 수학식 2와 같이 기하 평균(Geometric Mean)을 활용하여 현재 윈도우의 일부 프레임(f)에 대한 최종 점수 s(f)를 계산할 수 있다.
Figure 112015072345810-pat00002
또 다른 예로, 점수 계산부(220)는 a와 b에 가중치(α)를 서로 다르게 부여하고 아래의 수학식 3 또는 수학식 4와 같이 산술 평균 또는 기하 평균하여 최종 점수 s(f)를 계산할 수 있다.
Figure 112015072345810-pat00003
Figure 112015072345810-pat00004
이와 같이, 연속적으로 인접하는 두 윈도우에 대하여 두 번 계산된 발음별 점수를 종합하여 최종 점수를 계산하므로 더욱 정확한 점수 계산이 가능해진다. 또한, 수학식 1 내지 4는 일 예에 불과하고, 그 밖의 다양한 통계적 기법을 활용하여 중첩되는 프레임에 대한 점수 계산이 가능하다.
도 3은 일반적인 BRDNN 기반의 음향 모델을 설명하기 위한 도면이다. 도 4 및 도 5는 일 실시예에 따른 BRDNN 기반의 음향 모델을 설명하기 위한 도면이다.
도 3을 참조하면, 일반적인 BRDNN 음향 모델에서는 전체 음성 신호가 입력이 되면, 전체 음성 신호에 대한 음성 프레임 전체가 BRDNN 음향 모델의 입력 노드에 입력이 되고, 전체 음성 프레임에 대하여 발음(예: a,e,i,o,u)별로 확률을 출력한다.
도 4 및 도 5를 참조하면, 일 실시예의 음향 점수 계산 장치(200)는 음성 신호가 입력이 되는 도중에 윈도우 단위로 BRDNN 음향 모델의 입력 노드에 음성 프레임을 입력하여 윈도우 단위로 발음별 확률을 출력한다.
이때, 도 4 및 도 5는 윈도우 사이즈는 4, 패딩 사이즈는 2로 설정된 것을 예시한 것으로, 음성 프레임은 시간 순서상 왼쪽부터 오른쪽으로 입력이 진행되고, 차례대로 1, 2, 3, 4 …, 18 번 프레임이라고 가정한다.
도 4를 참조하면, 전처리부(210)는 음성 신호가 입력이 되는 도중에 윈도우 사이즈에 해당하는 4 개의 음성 프레임이 입력될 때까지 기다리고, 1 번부터 4 번 프레임까지 입력이 되면 첫 번째 윈도우(W1)를 추출한다. 이때, 패딩 추가부(230)는 5, 6번 프레임이 입력이 되면, 5,6 번 프레임을 추출된 첫 번째 윈도우(W1)의 오른쪽에 패딩 프레임으로 추가한다.
점수 계산부(220)는 첫 번째 윈도우(W1)에 대한 패딩 프레임 추가가 완료되면, 윈도우(W1)의 각 프레임, 즉 1 번부터 6 번 프레임을 음향 모델에 입력하여 발음별 확률 점수를 출력한다.
계속해서, 전처리부(210)는 5 번부터 8번 프레임까지 입력이 되면 두 번째 윈도우(W2)를 추출한다. 이때, 패딩 추가부(230)는 두 번째 윈도우(W2)가 추출되면, 첫 번째 윈도우에 속한 3, 4 번 프레임을 두 번째 윈도우(W2)의 왼쪽에 패딩 프레임으로 추가하고, 이후 연속적으로 입력되는 9, 10 번 프레임을 윈도우(W2)의 오른쪽에 패딩 프레임으로 추가한다.
마찬가지로, 점수 계산부(220)는 두 번째 윈도우(W2)에 대한 패딩 프레임 추가가 완료되면, 윈도우(W2)의 각 프레임, 즉 3 번부터 10 번 프레임을 음향 모델에 입력하여 발음별 확률 점수를 출력한다.
전처리부(210), 패딩 추가부(230) 및 점수 계산부(220)는 음성 신호가 연속적으로 입력이 되는 동안 이러한 과정을 반복해 가면서 윈도우 단위로 발음별 점수를 계산한다.
도 5는 연속하는 두 번째 윈도우(W2)와 세 번째 윈도우(W3)를 음향 모델에 순차적으로 입력하여 발음별 점수를 계산한 것을 예시한 것이다. 이때, 음향 모델, 특히 BRDNN 음향 모델은 윈도우(W2)에 속한 프레임의 점수 계산시 좌우 패딩 프레임(LP2, RP2)을 활용하고, 세 번째 윈도우(W3)에 속한 프레임의 점수 계산시 좌우 패딩 프레임(LP3, RP3)을 활용한다.
이때, 도시된 바와 같이, 세 번째 윈도우(W3)에 속한 일부 프레임은 두 번째 윈도우(W2)의 오른쪽 패딩 프레임(RP2)과 중첩이 된다. 이 경우, 점수 계산부(220)는 두 번째 윈도우(W2)의 오른쪽 패딩 프레임(RP2)에 대해 계산된 발음별 점수와 세 번째 윈도우(W3)에 속한 프레임에 대해 계산된 발음별 점수를 전술한 바와 같은 통계적 기법을 활용하여 재계산하고, 그 결과를 세 번째 윈도우(W3)에 속한 중첩되는 프레임에 대한 발음별 점수로 최종 출력할 수 있다.
도 6은 일 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 6의 실시예는 도 1의 음향 점수 계산 장치(100)에 의해 수행될 수 있다. 전술한 바에 의해 해석될 수 있으며 자세한 설명은 생략한다.
먼저, 음향 점수 계산 장치(100)는 인식하고자 하는 음성 신호를 음성 프레임으로 변환하고, 변환된 음성 프레임을 윈도우 단위로 추출한다(310). 이때, 음성 프레임을 서로 중첩되지 않도록 연속적으로 추출할 수 있다. 여기서, 윈도우의 사이즈는 음성 인식 분야, 적용 장치의 컴퓨팅 성능 등의 다양한 기준에 따라 결정될 수 있으며, 미리 설정되거나 음성 인식 과정에서 동적으로 설정되거나 조정될 수도 있다.
그 다음, 음향 점수 계산 장치(100)는 DNN(Deep Neural Network) 음향 모델을 이용하여 순차적으로 추출되는 윈도우 단위로 발음별 점수를 계산할 수 있다(320). 이때, DNN 음향 모델은 BRDNN(Bidirectional Recurrent Deep Neural Network) 음향 모델일 수 있다.
음향 점수 계산 장치(100)는 윈도우가 추출될 때마다, 순차적으로 윈도우를 음향 모델에 입력하여 윈도우 단위로 발음별 점수를 계산할 수 있다.
그 다음, 음향 점수 계산 장치(100)는 음성 인식 장치가 점진적 음성 인식을 수행할 수 있도록 단계(320)에서 계산된 윈도우의 발음별 점수를 출력할 수 있다(330).
그 다음, 계속해서 입력되는 음성 프레임이 존재하면(340), 윈도우를 추출하는 단계(310)로 이동하여 이하 과정을 반복 수행하고, 음성 입력이 종료되어 더 이상의 음성 프레임이 존재하지 않으면(340) 점수 계산 과정을 종료한다.
도 7은 다른 실시예에 따른 음향 점수 계산 방법의 흐름도이다.
도 7의 실시예의 음향 점수 계산 방법은 도 2의 음향 점수 계산 장치(200)가 수행할 수 있다. 도 2 내지 도 5를 참조하여 자세히 설명하였으므로 이하 상세한 설명은 생략한다.
음향 점수 계산 장치(200)는 인식하고자 하는 음성 신호를 음성 프레임으로 변환하고, 변환된 음성 프레임을 서로 중첩되지 않도록 연속적인 윈도우로 나누어 차례대로 추출할 수 있다(410). 이때, 윈도우의 사이즈는 전술한 바와 같이 음성 인식 분야, 적용 장치의 컴퓨팅 성능과 같은 다양한 기준들을 고려하여 결정되며, 전체 음성 신호의 프레임 개수보다 적은 개수로 설정될 수 있다.
그 다음, 윈도우가 추출되면, 추출된 현재 윈도우의 양쪽에 패딩 프레임을 추가한다(420). 이때, 현재 윈도우에 인접하는 양쪽 윈도우의 일부 프레임을 현재 윈도우의 패딩 프레임으로 추가할 수 있다. 추가된 패딩 프레임은 현재 윈도우에 속한 프레임의 발음별 확률을 계산할 때 추가 정보로서 활용될 수 있다. 이때, 패딩 사이즈는 전술한 바와 같이 음성 인식 분야, 적용 장치의 컴퓨팅 성능과 같은 다양한 기준들을 고려하여 결정될 수 있다.
그 다음, DNN(Deep Neural Network) 음향 모델을 이용하여 순차적으로 추출되는 윈도우의 각 프레임에 대하여 발음별 점수를 계산한다(430). 이때, DNN 음향 모델은 BRDNN(Bidirectional Recurrent Deep Neural Network) 음향 모델일 수 있다.
그 다음, 음향 모델을 통하여 현재 윈도우에 속한 각 프레임 및 패딩 프레임에 대한 발음별 점수가 계산되면, 현재 윈도우에 속한 일부 프레임과 인접 윈도우의 패딩 프레임이 중첩되는지를 판단할 수 있다(440).
그 다음, 중첩하는 프레임이 존재하면(440), 중첩하는 인접 윈도우의 패딩 프레임에 대해 기 계산된 발음별 점수를 기초로 현재 윈도우의 일부 프레임에 대하여 발음별 점수를 다시 계산할 수 있다(450).
이때, 전술한 바와 같이, 중첩하는 두 윈도우의 프레임들에 대해 계산된 발음별 점수를 산술 평균이나 기하 평균을 하여 최종 점수를 계산할 수 있으며, 필요에 따라서 중첩하는 프레임들에 대해 계산된 발음별 점수에 가중치를 부여하고 산술 평균이나 기하 평균을 하여 최종 점수를 계산할 수 있다.
그 다음, 현재 추출된 윈도우에 대해 계산된 발음별 점수를 음성 인식 장치가 점진적 음성 인식을 수행할 수 있도록 출력할 수 있다(460).
그 다음, 음성 신호가 계속해서 입력되어 아직 처리되지 않은 음성 프레임이 존재하는 경우(470), 그 음성 프레임으로부터 윈도우를 추출하는 단계(410)로 이동하고, 그렇지 않으면 종료한다.
도 8은 일 실시예에 따른 음성 인식 장치의 블록도이다.
도 8의 음성 인식 장치(500)는 전술한 실시예들에 따른 음향 점수 계산 장치(100,200)가 하드웨어 또는 소프트웨어 형태로 구현된 장치일 수 있다.
도 8을 참조하면, 전처리부(510), 음향 모델 적용부(520), 언어 모델 적용부(530) 및 해석부(540)를 포함할 수 있다.
전처리부(510)는 인식할 음성 신호의 프레임이 연속적으로 입력되는 동안에, 윈도우 사이즈에 해당하는 프레임이 입력이 되면 윈도우를 추출한다.
음향 모델 적용부(520)는 전처리부(510)에 의해 추출된 윈도우를 DNN 음향 모델, 특히 BRDNN 음향 모델에 입력하여 윈도우의 각 프레임에 대하여 발음별 점수를 계산한다.
일 실시예에 따르면, 전처리부(510)는 추출된 윈도우의 양쪽에 패딩 프레임을 추가할 수 있으며, 음향 모델 적용부(520)는 패딩 프레임이 추가된 윈도우를 DNN 음향 모델에 입력하여 패딩 프레임을 포함한 윈도우의 각 프레임에 대하여 발음별 점수를 계산할 수 있다. 이때, DNN 음향 모델은 BRDNN 음향 모델일 수 있다.
이때, 윈도우에 패딩 프레임의 추가로 인해 현재 윈도우의 일부 프레임과 인접하는 윈도우, 예컨대 현재 윈도우의 직전에 추출된 윈도우의 오른쪽 패딩 프레임이 중첩할 수 있다. 이 경우, 음향 모델 적용부(520)는 현재 윈도우의 중첩된 프레임에 대하여 직전 윈도우의 오른쪽 패딩 프레임에 대한 발음별 점수를 기초로 통계적 기법을 활용하여 재계산할 수 있다.
언어 모델 적용부(530)는 언어 모델을 이용하여 단어/문장에 관한 정보, 예컨대 단어/문장의 실제 사용 빈도에 관한 점수를 출력할 수 있다. 이때, 언어 모델은 N-Gram 또는 신경망(Neural Network)을 기반으로 할 수 있다.
해석부(540)는 다양한 해석 기법을 활용하여 윈도우 단위로 출력되는 발음별 점수 및 언어 모델 적용부(530)의 출력 결과를 점진적으로 해석하여, 현재 윈도우까지의 점진적 인식 결과를 출력할 수 있다.
예를 들어, 음성 프레임이 입력되는 동안에 첫 번째 윈도우에 대한 발음별 점수가 출력되면 언어 모델의 단어/문장별 점수를 함께 고려하여 첫 번째 윈도우에 대하여 인식 결과를 출력한다. 이후 두 번째 윈도우에 대한 발음별 점수가 출력되면 두 번째 윈도우에 대해 출력된 발음별 점수와 언어 모델의 단어/문장별 점수를 고려하여 두 번째 윈도우까지의 인식 결과를 출력한다. 이와 같이, 새로운 윈도우에 대하여 발음별 점수가 출력되면 점진적으로 해석해 가면서 인식 결과를 출력할 수 있다.
이때, 해석부(540)는 최종 인식 결과 출력에 관한 미리 설정된 기준을 확인하고, 미리 설정된 기준을 만족하는 경우 현재 윈도우까지의 점진적 인식 결과를 인식하고자 하는 전체 음성 신호에 대한 최종 인식 결과로 출력할 수 있다. 이때, 미리 설정된 기준은 윈도우의 개수이거나, 인식 결과에 대한 임계치일 수 있다. 다만, 이는 하나의 예를 설명하는 것으로서 예시된 바에 한정되지 않는다.
예를 들어, 신속한 인식 결과 제공을 위해 윈도우 개수가 상대적으로 적은 수(예: 2)로 설정되는 경우, 해석부(540)는 두 번째 윈도우까지의 점진적 인식 결과를 최종 인식 결과로 출력할 수 있다.
또한, 두 번째 윈도우까지의 발음별 점수와 언어 모델의 단어/문장별 점수를 해석한 결과, 특정 단어/문장이 사용될 확률이 미리 설정된 임계치(예: 70%) 이상인 경우, 두 번째 윈도우까지의 인식 결과를 최종 인식 결과로 출력할 수 있다.
개시된 실시예에 따르면, BRDNN 기반의 음향 모델을 적용하여 정확한 음성 인식이 가능함과 동시에 전체 음성이 입력되기 전이라도 최종 인식 결과 제공이 가능해진다.
도 9는 일 실시예에 따른 음성 인식 방법의 흐름도이다.
도 9의 음성 인식 방법은 도 8의 음성 인식 장치(500)에 의해 수행될 수 있다.
먼저, 음성 인식 장치(500)는 인식할 음성 신호의 프레임이 연속적으로 입력되는 동안에, 입력된 음성 신호의 프레임을 윈도우 단위로 추출한다(610).
그 다음, 음성 인식 장치(500)는 추출된 윈도우를 DNN 음향 모델, 특히 BRDNN 음향 모델에 입력하여 윈도우의 각 프레임에 대하여 발음별 점수를 계산하고 출력할 수 있다(620).
일 실시예에 따르면, 음성 인식 장치(500)는 추출된 윈도우의 양쪽에 패딩 프레임을 추가하고, 패딩 프레임이 추가된 윈도우를 DNN 음향 모델에 입력하여 패딩 프레임을 포함한 윈도우의 각 프레임에 대하여 발음별 점수를 계산할 수 있다. 이때, 윈도우에 패딩 프레임의 추가로 인해 현재 윈도우의 일부 프레임과 인접하는 윈도우의 패딩 프레임이 중첩하는 경우, 현재 윈도우의 중첩된 프레임에 대하여 직전 윈도우의 패딩 프레임에 대해 기 계산된 발음별 점수를 기초로 통계적 기법을 활용하여 재계산할 수 있다.
그 다음, 음성 인식 장치(500)는 언어 모델을 이용하여 단어/문장별 점수를 출력할 수 있다(630). 이때, 언어 모델은 N-Gram 또는 신경망(Neural Network)을 기반의 언어 모델일 수 있다.
그 다음, 음성 인식 장치(500)는 다양한 해석 기법을 활용하여 윈도우 단위로 출력되는 발음별 점수 및 언어 모델 적용부(530)의 출력 결과를 점진적으로 해석하여, 현재 윈도우까지의 점진적 인식 결과를 출력할 수 있다(640).
그 다음, 음성 인식 장치(500)는 소정 기준을 확인하여(650) 만족하는 경우 현재 윈도우까지의 점진적 인식 결과를 전체 음성 신호에 대한 최종 인식 결과로 출력할 수 있다(660). 이때, 미리 설정된 기준은 윈도우의 개수 또는 인식 결과의 임계치일 수 있으나, 이에 한정되지 않는다.
확인 결과(650), 소정 기준을 만족하지 않으면 음성 프레임으로부터 다음 윈도우를 추출하는 단계(610)로 이동한다.
도 10은 일 실시예에 따른 음성 인식 기술이 적용된 전자 장치의 블록도이다.
일 실시예들에 따른 전자 장치(700)는 TV, 내비게이션, 자동차 전자 장치, 스마트폰, 태블릿 PC, 스마트 와치, 데스크탑 컴퓨터, 노트북 PC 등을 포함할 수 있으나 이에 제한되지 않는다.
도 10을 참조하면, 전자 장치(700)는 음성 입력부(710), 음성 인식부(720) 및 처리부(730)를 포함할 수 있다. 음성 인식부(720)는 도 8의 실시예에 따른 음성 인식 장치(500)를 하드웨어 또는 소프트웨어 형태로 제작하여 탑재한 것일 수 있다. 이때, 음성 인식부(720)는 앞에서 설명한 실시예들에 따라 해석이 될 수 있으므로 자세한 설명은 생략하기로 한다.
음성 입력부(710)는 전자 장치(700)의 마이크로폰 등을 통해 사용자가 입력하는 음성 신호를 수신할 수 있다. 도시된 바와 같이, 사용자의 음성 신호는 다른 언어로의 번역을 위한 문장이나, TV 제어, 자동차 주행 제어 등을 위한 명령어 등과 관련될 수 있다.
음성 인식부(720)는 아날로그 형태로 입력되는 사용자의 음성 신호를 디지털 신호로 변환하여 다수의 음성 프레임으로 나누는 전처리 과정을 수행할 수 있다. 또한, 음성 프레임을 음향 모델에 입력하기 위하여 윈도우 단위로 추출할 수 있다.
또한, 음성 인식부(720)는 추출된 윈도우의 양쪽에 패딩 프레임을 추가하고, 패딩 프레임이 추가된 윈도우의 모든 프레임을 음향 모델에 입력하여 각 프레임에 대한 발음별 점수를 계산할 수 있다. 이때, 패딩 프레임의 추가로 인해 연속되는 윈도우들 간의 중첩되는 프레임이 존재하면, 그 중첩되는 프레임에 대한 발음별 점수는 다양한 통계적 기법을 활용하여 재계산될 수 있다. 또한, 음성 인식부(720)는 언어 모델을 이용하여 단어/문장별 점수를 출력할 수 있다.
또한, 음성 인식부(720)는 음향 모델 및 언어 모델의 출력 결과를 활용하여 윈도우 단위로 점진적으로 해석하여 현재 윈도우까지의 점진적 인식 결과를 출력하고, 소정 기준을 만족하는 경우 현재 윈도우까지의 인식 결과를 인식할 전체 음성 신호에 대한 최종 인식 결과로 출력할 수 있다.
처리부(730)는 음성 인식부(720)에 의해 출력된 음성 인식 결과를 기초로 상응하는 동작을 수행할 수 있다. 예를 들어, 사용자가 입력한 음성의 인식 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 전자 장치(700)와 관련된 명령어(예: 전원 온/오프, 볼륨 조절 등)의 처리 동작을 수행할 수 있다.
또는, 다른 언어로 번역하는 경우 음성 인식 결과를 번역하고자 하는 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다. 다만, 이에 한정되는 것은 아니며 그 밖의 다양한 분야에서 활용이 가능하다.
도 11은 도 10의 전자 장치(700)가 수행하는 음성 인식 동작의 흐름도이다.
먼저, 전자 장치(700)는 마이크로폰 등을 통해 사용자가 입력하는 음성 신호를 수신할 수 있다(810).
그 다음, 전자 장치(700)는 사용자의 음성 신호의 프레임을 윈도우 단위로 추출하고, 음향 모델을 이용하여 추출된 윈도우 단위로 발음별 점수를 계산하고, 윈도우 단위로 차례대로 출력되는 발음별 점수를 점진적으로 해석하여 음성 신호를 인식할 수 있다(820). 이때, 언어 모델을 이용하여 단어/문장별 점수를 계산하고, 계산된 단어/문장별 점수를 함께 고려하여 해석할 수 있다.
이때, 전자 장치(700)는 추출된 윈도우의 양쪽에 패딩 프레임을 추가하여 음향 모델에 입력할 수 있으며, 패딩 프레임의 추가로 인해 중첩되는 윈도우의 프레임에 대하여는 그 윈도우 프레임과 중첩되는 인접 윈도우의 패딩 프레임의 계산 결과를 기초로 통계적 기법을 활용하여 재계산함으로써, 보다 정확한 발음별 점수를 계산할 수 있다.
일 실시예에 따르면, 전자 장치(700)는 전자 장치(700)의 컴퓨팅 성능이나, 음성 인식 분야(예: 번역, 명령어 처리)에 따라 미리 설정된 기준의 만족 여부를 체크하고, 만족하는 경우 현재 윈도우까지의 인식 결과를 전체 음성 신호에 대한 최종 인식 결과로 반환할 수 있다.
그 다음, 전자 장치(700)는 출력된 음성 인식 결과를 기초로 상응하는 동작을 수행할 수 있다(830). 예를 들어, 사용자가 입력한 음성의 인식 결과를 스피커 등을 통해 음성으로 출력하거나, 디스플레이에 텍스트 형태로 제공할 수 있다. 또는 전자 장치(700)와 관련된 명령어(예: 전원 온/오프, 볼륨 조절 등)의 처리 동작을 수행할 수 있다. 또는, 다른 언어로 번역하는 경우 음성 인식 결과를 번역하고자 하는 다른 언어로 번역하고, 번역된 결과를 음성이나 텍스트 형태로 출력할 수 있다.
한편, 본 실시 예들은 컴퓨터로 읽을 수 있는 기록 매체에 컴퓨터가 읽을 수 있는 코드로 구현하는 것이 가능하다. 컴퓨터가 읽을 수 있는 기록 매체는 컴퓨터 시스템에 의하여 읽혀질 수 있는 데이터가 저장되는 모든 종류의 기록 장치를 포함한다.
컴퓨터가 읽을 수 있는 기록 매체의 예로는 ROM, RAM, CD-ROM, 자기 테이프, 플로피디스크, 광 데이터 저장장치 등이 있으며, 또한 캐리어 웨이브(예를 들어 인터넷을 통한 전송)의 형태로 구현하는 것을 포함한다. 또한, 컴퓨터가 읽을 수 있는 기록 매체는 네트워크로 연결된 컴퓨터 시스템에 분산되어, 분산 방식으로 컴퓨터가 읽을 수 있는 코드가 저장되고 실행될 수 있다. 그리고 본 실시예들을 구현하기 위한 기능적인(functional) 프로그램, 코드 및 코드 세그먼트들은 본 발명이 속하는 기술 분야의 프로그래머들에 의하여 용이하게 추론될 수 있다.
본 개시가 속하는 기술분야의 통상의 지식을 가진 자는 개시된 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 실시될 수 있다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다.
100, 200: 음향 점수 계산 장치 110, 210: 전처리부
120, 220: 점수 계산부 230: 패딩 추가부
500: 음성 인식 장치 510: 전처리부
520: 음향 모델 적용부 530: 언어 모델 적용부
540: 해석부 700: 전자 장치
710: 음성 입력부 720: 음성 인식부
730: 처리부

Claims (26)

  1. 음성 인식을 위한 음향 점수 계산 장치에 있어서,
    음성 프레임을 윈도우 단위로 순차적으로 추출하는 전처리부; 및
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 순차적으로 추출된 윈도우 단위로 음향 점수를 계산하는 점수 계산부를 포함하고,
    상기 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 패딩 추가부를 더 포함하고,
    상기 추출된 윈도우의 일부 프레임은 상기 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임과 중첩하며,
    상기 점수 계산부는
    상기 추출된 윈도우에 대하여 음향 점수가 계산되면, 상기 인접 윈도우의 패딩 프레임에 대하여 기 계산된 음향 점수를 기초로 통계적 기법을 이용하여 상기 중첩하는 일부 프레임에 대하여 음향 점수를 재계산하는 음향 점수 계산 장치.
  2. 제1항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 장치.
  3. 삭제
  4. 삭제
  5. 삭제
  6. 제1항에 있어서,
    상기 통계적 기법은 산술 평균 및 기하 평균 중의 적어도 하나를 포함하는 음향 점수 계산 장치.
  7. 제1항에 있어서,
    상기 윈도우의 사이즈 및 상기 패딩 사이즈는 음성 인식 분야 및 적용 장치의 컴퓨팅 성능 중의 하나 이상을 기초로 결정되는 음향 점수 계산 장치.
  8. 음성 인식을 위한 음향 점수 계산 방법에 있어서,
    음성 프레임을 윈도우 단위로 순차적으로 추출하는 단계; 및
    심층 신경망(Deep Neural Network) 음향 모델을 이용하여 상기 순차적으로 추출된 윈도우 단위로 음향 점수를 계산하는 단계를 포함하고,
    상기 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 단계를 더 포함하고,
    상기 추출된 윈도우의 일부 프레임은 상기 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임과 중첩하며,
    상기 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 기초로 통계적 기법을 이용하여 상기 중첩된 일부 프레임에 대한 음향 점수를 재계산하는 단계를 더 포함하는 음향 점수 계산 방법.
  9. 제8항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음향 점수 계산 방법.
  10. 삭제
  11. 삭제
  12. 삭제
  13. 제8항에 있어서,
    상기 통계적 기법은 산술 평균 및 기하 평균 중의 적어도 하나를 포함하는 음향 점수 계산 방법.
  14. 제8항에 있어서,
    상기 윈도우 사이즈 및 상기 패딩 사이즈는 음성 인식 분야 및 적용 장치의 컴퓨팅 성능 중의 하나 이상을 기초로 결정되는 음향 점수 계산 방법.
  15. 인식할 음성 신호의 프레임이 연속적으로 입력이 되는 동안, 상기 프레임을 윈도우 단위로 추출하는 전처리부;
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 추출된 윈도우 단위로 음향 점수를 출력하는 음향 모델 적용부; 및
    상기 출력된 윈도우 단위의 음향 점수를 기초로, 현재 윈도우까지의 점진적 인식 결과를 출력하는 해석부를 포함하고,
    상기 음향 모델 적용부는
    상기 추출된 윈도우의 양쪽에 패딩 프레임을 추가하여 패딩 프레임이 추가된 윈도우의 각 프레임에 대하여 음향 점수를 계산하되, 상기 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 고려하여 상기 추출된 윈도우의 음향 점수를 계산하는 음성 인식 장치.
  16. 제15항에 있어서,
    언어 모델을 이용하여 단어/문장별 점수를 출력하는 언어 모델 적용부를 더 포함하고,
    상기 해석부는
    상기 출력된 단어/문장별 점수를 더 기초로 하여, 상기 현재 윈도우까지의 점진적 인식 결과를 출력하는 음성 인식 장치.
  17. 제15항에 있어서,
    상기 해석부는
    미리 설정된 기준을 만족하는 경우 상기 현재 윈도우까지의 점진적 인식 결과를 상기 음성 신호에 대한 최종 인식 결과로 출력하는 음성 인식 장치.
  18. 제15항에 있어서,
    상기 심층 신경망은 양방향 순환 심층 신경망(Bidirectional Recurrent Deep Neural Network)인 음성 인식 장치.
  19. 제16항에 있어서,
    상기 언어 모델은 N-Gram 또는 신경망(Neural Network) 모델을 기반으로 하는 음성 인식 장치.
  20. 삭제
  21. 인식할 음성 신호의 프레임이 연속적으로 입력이 되는 동안, 상기 프레임을 윈도우 단위로 추출하는 단계;
    심층 신경망(Deep Neural Network) 기반의 음향 모델을 이용하여 상기 추출된 윈도우 단위로 음향 점수를 출력하는 단계; 및
    상기 출력된 윈도우 단위의 음향 점수를 기초로, 현재 윈도우까지의 점진적 인식 결과를 출력하는 단계를 포함하고,
    상기 추출된 윈도우의 양쪽에 패딩 프레임을 추가하는 단계를 더 포함하고,
    상기 음향 점수를 출력하는 단계는
    상기 패딩 프레임이 추가된 윈도우의 각 프레임에 대하여 음향 점수를 계산하되, 상기 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 고려하여 상기 추출된 윈도우의 음향 점수를 계산하는 음성 인식 방법.
  22. 제21항에 있어서,
    언어 모델을 이용하여 단어/문장별 점수를 출력하는 단계를 더 포함하고,
    상기 점진적 인식 결과를 출력하는 단계는
    상기 출력된 단어/문장별 점수를 더 기초로 하여, 상기 현재 윈도우까지의 점진적 인식 결과를 출력하는 음성 인식 방법.
  23. 제21항에 있어서,
    미리 설정된 기준을 만족하는지 여부를 판단하는 단계; 및
    상기 판단 결과 미리 설정된 기준을 만족하는 경우 상기 현재 윈도우까지의 점진적 인식 결과를 상기 음성 신호에 대한 최종 인식 결과로 출력하는 단계를 더 포함하는 음성 인식 방법.
  24. 삭제
  25. 사용자로부터 음성 신호를 입력받는 음성 입력부;
    사용자의 음성 신호가 입력되는 동안, 현재 입력된 음성 신호의 프레임을 윈도우 단위로 추출하고, 심층 신경망(Deep Neural Network) 음향 모델을 이용하여 상기 추출된 윈도우 단위로 음향 점수를 출력하고, 출력된 윈도우 단위의 음향 점수를 점진적으로 해석하여 사용자의 음성 신호를 인식하는 음성 인식부; 및
    상기 인식 결과에 해당하는 동작을 수행하는 처리부를 포함하고,
    상기 음성 인식부는
    상기 추출된 윈도우의 양쪽에 패딩 프레임을 추가하여 패딩 프레임이 추가된 윈도우의 각 프레임에 대하여 음향 점수를 계산하되, 상기 추출된 윈도우의 인접 윈도우에 추가된 패딩 프레임에 대해 기 계산된 음향 점수를 고려하여 상기 추출된 윈도우의 음향 점수를 계산하는 전자 장치.
  26. 제25항에 있어서,
    상기 동작은 상기 인식 결과를 텍스트 또는 음성으로 출력, 다른 언어로 번역 및 상기 전자 장치에 관한 명령어의 처리 중의 적어도 하나를 포함하는 전자 장치.
KR1020150105358A 2015-07-24 2015-07-24 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치 KR102413692B1 (ko)

Priority Applications (5)

Application Number Priority Date Filing Date Title
KR1020150105358A KR102413692B1 (ko) 2015-07-24 2015-07-24 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US15/187,428 US10714077B2 (en) 2015-07-24 2016-06-20 Apparatus and method of acoustic score calculation and speech recognition using deep neural networks
JP2016134954A JP6837298B2 (ja) 2015-07-24 2016-07-07 音響点数を計算する装置及び方法、音声を認識する装置及び方法並びに電子装置
CN201610584600.6A CN106373561B (zh) 2015-07-24 2016-07-22 声学得分计算和语音识别的设备和方法
EP16180760.7A EP3121810B1 (en) 2015-07-24 2016-07-22 Apparatus and method of acoustic score calculation and speech recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020150105358A KR102413692B1 (ko) 2015-07-24 2015-07-24 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치

Publications (2)

Publication Number Publication Date
KR20170011905A KR20170011905A (ko) 2017-02-02
KR102413692B1 true KR102413692B1 (ko) 2022-06-27

Family

ID=56507519

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020150105358A KR102413692B1 (ko) 2015-07-24 2015-07-24 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치

Country Status (5)

Country Link
US (1) US10714077B2 (ko)
EP (1) EP3121810B1 (ko)
JP (1) JP6837298B2 (ko)
KR (1) KR102413692B1 (ko)
CN (1) CN106373561B (ko)

Families Citing this family (22)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8515052B2 (en) 2007-12-17 2013-08-20 Wai Wu Parallel signal processing system and method
US11080591B2 (en) * 2016-09-06 2021-08-03 Deepmind Technologies Limited Processing sequences using convolutional neural networks
CN112289342B (zh) 2016-09-06 2024-03-19 渊慧科技有限公司 使用神经网络生成音频
US10366173B2 (en) * 2016-09-09 2019-07-30 Electronics And Telecommunications Research Institute Device and method of simultaneous interpretation based on real-time extraction of interpretation unit
US10825445B2 (en) * 2017-03-23 2020-11-03 Samsung Electronics Co., Ltd. Method and apparatus for training acoustic model
KR102410831B1 (ko) * 2017-03-23 2022-06-21 삼성전자주식회사 음향 모델을 트레이닝하는 방법 및 그 장치
KR101891778B1 (ko) * 2017-04-07 2018-08-24 네이버 주식회사 음원의 하이라이트 구간을 결정하는 방법, 장치 및 컴퓨터 프로그램
WO2018209608A1 (en) * 2017-05-17 2018-11-22 Beijing Didi Infinity Technology And Development Co., Ltd. Method and system for robust language identification
KR102410820B1 (ko) * 2017-08-14 2022-06-20 삼성전자주식회사 뉴럴 네트워크를 이용한 인식 방법 및 장치 및 상기 뉴럴 네트워크를 트레이닝하는 방법 및 장치
CN109697977B (zh) * 2017-10-23 2023-10-31 三星电子株式会社 语音识别方法和设备
KR102075796B1 (ko) * 2017-11-14 2020-03-02 주식회사 엘솔루 자동 음성인식 장치 및 방법
US10628486B2 (en) * 2017-11-15 2020-04-21 Google Llc Partitioning videos
US10423727B1 (en) 2018-01-11 2019-09-24 Wells Fargo Bank, N.A. Systems and methods for processing nuances in natural language
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
CN111091817B (zh) * 2018-10-24 2022-10-11 中国科学院声学研究所 一种基于窗口输入的双向回馈神经网络的语音识别方法
KR102093822B1 (ko) * 2018-11-12 2020-03-26 한국과학기술연구원 음원 분리 장치
US20220199074A1 (en) * 2019-04-18 2022-06-23 Dolby Laboratories Licensing Corporation A dialog detector
CN110648690B (zh) * 2019-09-26 2020-12-15 广州三人行壹佰教育科技有限公司 一种音频评测方法及服务器
CN110827837B (zh) * 2019-10-18 2022-02-22 中山大学 一种基于深度学习的鲸鱼活动音频分类方法
US11195533B2 (en) * 2020-03-25 2021-12-07 Disney Enterprises, Inc. Systems and methods for incremental natural language understanding
US11776529B2 (en) * 2020-04-28 2023-10-03 Samsung Electronics Co., Ltd. Method and apparatus with speech processing
KR20210132855A (ko) * 2020-04-28 2021-11-05 삼성전자주식회사 음성 처리 방법 및 장치

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116744A (ja) * 2006-11-06 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 連続音声認識方法、連続音声認識装置、プログラム
US20150095027A1 (en) * 2013-09-30 2015-04-02 Google Inc. Key phrase detection

Family Cites Families (65)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2699447B2 (ja) 1988-09-17 1998-01-19 ソニー株式会社 信号処理装置
US5093899A (en) 1988-09-17 1992-03-03 Sony Corporation Neural network with normalized learning constant for high-speed stable learning
JPH0642159B2 (ja) * 1989-10-03 1994-06-01 株式会社エイ・ティ・アール自動翻訳電話研究所 連続音声認識装置
US5502790A (en) * 1991-12-24 1996-03-26 Oki Electric Industry Co., Ltd. Speech recognition method and system using triphones, diphones, and phonemes
JPH06348299A (ja) * 1993-06-07 1994-12-22 Nippondenso Co Ltd 音素認識装置および音素認識方法
CN1057625C (zh) 1994-04-28 2000-10-18 摩托罗拉公司 使用神经网络变换文本为声频信号的方法
US5621848A (en) 1994-06-06 1997-04-15 Motorola, Inc. Method of partitioning a sequence of data frames
KR100202424B1 (ko) 1995-12-08 1999-06-15 정호선 실시간 음성인식방법
JP2996926B2 (ja) * 1997-03-11 2000-01-11 株式会社エイ・ティ・アール音声翻訳通信研究所 音素シンボルの事後確率演算装置及び音声認識装置
US5913194A (en) 1997-07-14 1999-06-15 Motorola, Inc. Method, device and system for using statistical information to reduce computation and memory requirements of a neural network based speech synthesis system
DE69926462T2 (de) * 1998-05-11 2006-05-24 Koninklijke Philips Electronics N.V. Bestimmung des von einer phasenänderung herrührenden rauschanteils für die audiokodierung
US6317710B1 (en) * 1998-08-13 2001-11-13 At&T Corp. Multimedia search apparatus and method for searching multimedia content using speaker detection by audio data
US6173258B1 (en) 1998-09-09 2001-01-09 Sony Corporation Method for reducing noise distortions in a speech recognition system
US6308155B1 (en) 1999-01-20 2001-10-23 International Computer Science Institute Feature extraction for automatic speech recognition
US6947890B1 (en) 1999-05-28 2005-09-20 Tetsuro Kitazoe Acoustic speech recognition method and system using stereo vision neural networks with competition and cooperation
US6453284B1 (en) 1999-07-26 2002-09-17 Texas Tech University Health Sciences Center Multiple voice tracking system and method
DE19957221A1 (de) 1999-11-27 2001-05-31 Alcatel Sa Exponentielle Echo- und Geräuschabsenkung in Sprachpausen
JP4543294B2 (ja) * 2000-03-14 2010-09-15 ソニー株式会社 音声認識装置および音声認識方法、並びに記録媒体
US7197456B2 (en) 2002-04-30 2007-03-27 Nokia Corporation On-line parametric histogram normalization for noise robust speech recognition
JP2004191705A (ja) * 2002-12-12 2004-07-08 Renesas Technology Corp 音声認識装置
CN100495535C (zh) * 2003-02-19 2009-06-03 松下电器产业株式会社 语音识别装置及语音识别方法
KR20040100592A (ko) 2003-05-23 2004-12-02 엘지전자 주식회사 이동 기기에서의 실시간 화자독립가변어 음성인식 방법
US7480615B2 (en) 2004-01-20 2009-01-20 Microsoft Corporation Method of speech recognition using multimodal variational inference with switching state space models
US9117460B2 (en) * 2004-05-12 2015-08-25 Core Wireless Licensing S.A.R.L. Detection of end of utterance in speech recognition system
EP1831870B1 (en) * 2004-12-28 2008-07-30 Loquendo S.p.A. Automatic speech recognition system and method
US7590529B2 (en) * 2005-02-04 2009-09-15 Microsoft Corporation Method and apparatus for reducing noise corruption from an alternative sensor signal during multi-sensory speech enhancement
JP2007057844A (ja) * 2005-08-24 2007-03-08 Fujitsu Ltd 音声認識システムおよび音声処理システム
US7496548B1 (en) 2005-09-26 2009-02-24 Quintura, Inc. Neural network for electronic search applications
JP4557919B2 (ja) * 2006-03-29 2010-10-06 株式会社東芝 音声処理装置、音声処理方法および音声処理プログラム
KR100883657B1 (ko) * 2007-01-26 2009-02-18 삼성전자주식회사 음성 인식 기반의 음악 검색 방법 및 장치
CN101515456A (zh) * 2008-02-18 2009-08-26 三星电子株式会社 语音识别接口装置及其语音识别方法
US8503653B2 (en) * 2008-03-03 2013-08-06 Alcatel Lucent Method and apparatus for active speaker selection using microphone arrays and speaker recognition
CN101826263B (zh) * 2009-03-04 2012-01-04 中国科学院自动化研究所 基于客观标准的自动化口语评估系统
PL2234103T3 (pl) * 2009-03-26 2012-02-29 Fraunhofer Ges Forschung Urządzenie i sposób manipulacji sygnałem audio
JP5243325B2 (ja) * 2009-03-30 2013-07-24 Kddi株式会社 音声認識に仮名漢字変換システムを用いた端末、方法及びプログラム
EP2363852B1 (en) 2010-03-04 2012-05-16 Deutsche Telekom AG Computer-based method and system of assessing intelligibility of speech represented by a speech signal
CN105304090B (zh) * 2011-02-14 2019-04-09 弗劳恩霍夫应用研究促进协会 使用对齐的前瞻部分将音频信号编码及解码的装置与方法
US8756061B2 (en) * 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
CN102915728B (zh) * 2011-08-01 2014-08-27 佳能株式会社 声音分段设备和方法以及说话者识别系统
CN102956238B (zh) * 2011-08-19 2016-02-10 杜比实验室特许公司 用于在音频帧序列中检测重复模式的方法及设备
CN102436816A (zh) * 2011-09-20 2012-05-02 安徽科大讯飞信息科技股份有限公司 一种语音数据解码方法和装置
DE102012200512B4 (de) * 2012-01-13 2013-11-14 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Vorrichtung und Verfahren zum Berechnen von Lautsprechersignalen für eine Mehrzahl von Lautsprechern unter Verwendung einer Verzögerung im Frequenzbereich
US8725498B1 (en) * 2012-06-20 2014-05-13 Google Inc. Mobile speech recognition with explicit tone features
US8527276B1 (en) 2012-10-25 2013-09-03 Google Inc. Speech synthesis using deep neural networks
US9672811B2 (en) * 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
CN104038804B (zh) * 2013-03-05 2017-09-29 三星电子(中国)研发中心 基于语音识别的字幕同步装置和方法
US9842585B2 (en) * 2013-03-11 2017-12-12 Microsoft Technology Licensing, Llc Multilingual deep neural network
US9190053B2 (en) * 2013-03-25 2015-11-17 The Governing Council Of The Univeristy Of Toronto System and method for applying a convolutional neural network to speech recognition
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
US9984706B2 (en) * 2013-08-01 2018-05-29 Verint Systems Ltd. Voice activity detection using a soft decision mechanism
CN103400577B (zh) * 2013-08-01 2015-09-16 百度在线网络技术(北京)有限公司 多语种语音识别的声学模型建立方法和装置
JP6222821B2 (ja) * 2013-10-10 2017-11-01 日本放送協会 誤り修正モデル学習装置、及びプログラム
US9715660B2 (en) 2013-11-04 2017-07-25 Google Inc. Transfer learning for deep neural network based hotword detection
JP5777178B2 (ja) * 2013-11-27 2015-09-09 国立研究開発法人情報通信研究機構 統計的音響モデルの適応方法、統計的音響モデルの適応に適した音響モデルの学習方法、ディープ・ニューラル・ネットワークを構築するためのパラメータを記憶した記憶媒体、及び統計的音響モデルの適応を行なうためのコンピュータプログラム
US9858919B2 (en) * 2013-11-27 2018-01-02 International Business Machines Corporation Speaker adaptation of neural network acoustic models using I-vectors
US9665823B2 (en) * 2013-12-06 2017-05-30 International Business Machines Corporation Method and system for joint training of hybrid neural networks for acoustic modeling in automatic speech recognition
US9484022B2 (en) * 2014-05-23 2016-11-01 Google Inc. Training multiple neural networks with different accuracy
US10186282B2 (en) * 2014-06-19 2019-01-22 Apple Inc. Robust end-pointing of speech signals using speaker recognition
US9858922B2 (en) * 2014-06-23 2018-01-02 Google Inc. Caching speech recognition scores
WO2016037311A1 (en) * 2014-09-09 2016-03-17 Microsoft Technology Licensing, Llc Variable-component deep neural network for robust speech recognition
CN104681036B (zh) * 2014-11-20 2018-09-25 苏州驰声信息科技有限公司 一种语言音频的检测系统及方法
US10540957B2 (en) * 2014-12-15 2020-01-21 Baidu Usa Llc Systems and methods for speech transcription
CN104575490B (zh) * 2014-12-30 2017-11-07 苏州驰声信息科技有限公司 基于深度神经网络后验概率算法的口语发音评测方法
US10580401B2 (en) * 2015-01-27 2020-03-03 Google Llc Sub-matrix input for neural network layers
US9892731B2 (en) * 2015-09-28 2018-02-13 Trausti Thor Kristjansson Methods for speech enhancement and speech recognition using neural networks

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2008116744A (ja) * 2006-11-06 2008-05-22 Nippon Telegr & Teleph Corp <Ntt> 連続音声認識方法、連続音声認識装置、プログラム
US20150095027A1 (en) * 2013-09-30 2015-04-02 Google Inc. Key phrase detection

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
비특허문헌1(ACCURATE AND COMPACT LARGE VOCABULARY SPEECH RECOGNITION ON MOBILE DEVICES)*
비특허문헌2(HYBRID SPEECH RECOGNITION WITH DEEP BIDIRECTIONAL LSTM)*

Also Published As

Publication number Publication date
EP3121810A1 (en) 2017-01-25
EP3121810B1 (en) 2018-05-09
JP2017027044A (ja) 2017-02-02
US10714077B2 (en) 2020-07-14
CN106373561A (zh) 2017-02-01
KR20170011905A (ko) 2017-02-02
US20170025119A1 (en) 2017-01-26
JP6837298B2 (ja) 2021-03-03
CN106373561B (zh) 2021-11-30

Similar Documents

Publication Publication Date Title
KR102413692B1 (ko) 음성 인식을 위한 음향 점수 계산 장치 및 방법, 음성 인식 장치 및 방법, 전자 장치
US11848008B2 (en) Artificial intelligence-based wakeup word detection method and apparatus, device, and medium
JP6802005B2 (ja) 音声認識装置、音声認識方法及び音声認識システム
KR102371188B1 (ko) 음성 인식 장치 및 방법과 전자 장치
KR102423302B1 (ko) 음성 인식에서의 음향 점수 계산 장치 및 방법과, 음향 모델 학습 장치 및 방법
JP6328260B2 (ja) 意図推定装置及び意図推定方法
US9558741B2 (en) Systems and methods for speech recognition
JP2023542685A (ja) 音声認識方法、音声認識装置、コンピュータ機器、及びコンピュータプログラム
JP6875819B2 (ja) 音響モデル入力データの正規化装置及び方法と、音声認識装置
CN112349289B (zh) 一种语音识别方法、装置、设备以及存储介质
US20230274727A1 (en) Instantaneous learning in text-to-speech during dialog
CN112397056B (zh) 语音评测方法及计算机存储介质
CN112017633B (zh) 语音识别方法、装置、存储介质及电子设备
JP2010078877A (ja) 音声認識装置、音声認識方法及び音声認識プログラム
JP7291099B2 (ja) 音声認識方法及び装置
JP6580281B1 (ja) 翻訳装置、翻訳方法、および翻訳プログラム
CN111128181B (zh) 背诵题评测方法、装置以及设备
CN113920987A (zh) 一种语音识别的方法、装置、设备及存储介质
KR20200117826A (ko) 음성 인식 방법 및 장치
CN114373445B (zh) 语音生成方法、装置、电子设备及存储介质
CN113506561B (zh) 文本拼音的转换方法及装置、存储介质及电子设备
KR20240068723A (ko) Rnn-T로 구현된 자동 음성 인식 시스템에서 음향과 텍스트 표현의 융합
Ali et al. Voice controlled urdu interface using isolated and continuous speech recognizer
CN114360525A (zh) 一种语音识别方法及系统

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant