KR20170081883A - 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 - Google Patents

개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 Download PDF

Info

Publication number
KR20170081883A
KR20170081883A KR1020160000869A KR20160000869A KR20170081883A KR 20170081883 A KR20170081883 A KR 20170081883A KR 1020160000869 A KR1020160000869 A KR 1020160000869A KR 20160000869 A KR20160000869 A KR 20160000869A KR 20170081883 A KR20170081883 A KR 20170081883A
Authority
KR
South Korea
Prior art keywords
acoustic model
speech recognition
score
voice recognition
recognition server
Prior art date
Application number
KR1020160000869A
Other languages
English (en)
Other versions
KR102434604B1 (ko
Inventor
김동현
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160000869A priority Critical patent/KR102434604B1/ko
Priority to US15/193,216 priority patent/US10079022B2/en
Publication of KR20170081883A publication Critical patent/KR20170081883A/ko
Application granted granted Critical
Publication of KR102434604B1 publication Critical patent/KR102434604B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/30Distributed recognition, e.g. in client-server systems, for mobile phones or network applications
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Telephonic Communication Services (AREA)
  • Probability & Statistics with Applications (AREA)
  • Evolutionary Computation (AREA)

Abstract

개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법이 개시된다. 본 발명에 따른 음성 인식 단말은, 입력받은 음성 신호의 특징 데이터를 추출하는 특징 추출부, 추출된 상기 특징 데이터를 이용하여 음향 모델 스코어를 연산하는 음향스코어 연산부, 그리고 상기 음향 모델 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버에 전송하고, 상기 음성 인식 서버로부터 전사 데이터를 수신하는 통신부를 포함하며, 상기 전사 데이터는, 상기 음성 인식 서버가 상기 음향 모델 스코어를 이용하여 언어 네트워크의 경로를 연산하고, 연산된 경로를 이용하여 인식된 것을 특징으로 한다.

Description

개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법{VOICE RECOGNITION TERMINAL, VOICE RECOGNITION SERVER AND VOICE RECOGNITION METHOD PERFORMING A PERSONALIZED VOICE RECOGNITION FOR PERFORMING PERSONALIZED VOICE RECOGNITION}
본 발명은 음성 인식에 관한 것으로, 특히 음향 모델을 포함하는 음성 인식 단말, 음성 인식을 수행하는 서버 및 음성 인식 단말의 음성 인식 방법 기술에 관한 것이다.
음성 인식(voice recognition)이란, 음성 신호를 해석하여 패턴화되어 있는 데이터 베이스와 조합함으로써 음성 신호를 문자열로 변환하거나 언어적 의미 내용을 식별하는 것을 의미한다. 음성 인식은 문자 단위로 수행되거나, 문자철과 발음 관계가 다양한 경우에는 적어도 단어 단위에서의 인식이 필요하다.
음성 인식을 수행할 단어 또는 문장이 기 설정되어 있고, 기 설정된 단어 또는 문장만 음성 인식 장치로 제공하는 경우의 음성 인식은 간단한 편이다. 그러나, 일반 문장이나 대화를 대상으로 음성 인식을 수행하는 기술은 자연 언어가 가진 애매성, 다양성 때문에 상당히 높은 기술력을 요구한다.
음성 인식 기술은 입력받은 음성 신호를 음성 인식 장치가 분석하고, 특징을 추출한 다음, 미리 수집된 음성 모델 데이터베이스와의 유사도를 측정하여 가장 유사한 것을 문자 또는 명령어로 변환한다. 음성 인식 기술은 일종의 패턴 인식 과정으로 사람마다 목소리와 발음, 억양 등이 다르므로 종래의 음성 인식 기술은 최대한 많은 사람들로부터 음성 데이터를 수집하여 이로부터 공통된 특성을 추출하고, 기준 패턴을 생성하였다.
인식 대상 화자에 따른 음성 인식 기술은 화자 독립 인식 방법, 화자 적응 인식 방법 및 화자 종속 인식 방법으로 구분될 수 있다. 먼저, 화자 독립 인식 방법은 임의의 화자 발성을 인식할 수 있는 방법으로, 사전에 다양한 화자의 음성에 관한 정보를 추출하여 데이터베이스화함으로써 별도의 훈련 과정 없이 사용 가능한 방법이다. 그리고 화자 적응 인식 방법은 사용자가 자신의 목소리에 대한 인식률을 높이기 위하여 화자 독립 인식 장치를 자신의 목소리에 적용시키는 방법이다.
또한, 화자 종속 인식 방법은 특정 화자 또는 사용자가 자신의 음성으로 미리 인식기를 훈련시키는 과정이 요구되며, 화자 종속 인식 방법이 적용된 음성 인식 장치는 훈련된 음성만 인식할 수 있다. 그리고 화자 종속 인식 방법은 비교적 구현이 간단하여 각종 단말기에 탑재되어 응용되고 있으나, 사용자가 훈련 과정을 거쳐야 하는 불편함이 있다.
최근에는 이러한 종래의 음성 인식 방법에 개인화 특성을 반영하는 기술이 연구되고 있다. 음성 인식 시스템을 단말 형태로 구현하면 개인화된 각 단말에 맞게 화자 적응과 같은 개인화 작업을 수행할 수 있다. 그러나, 대어휘 언어 모델을 수용하는 음성 인식 장치를 구현하기 어렵다는 단점이 있다. 반면, 음성 인식 서버와의 통신을 이용하는 온라인 음성 인식 방법은 대어휘 언어 모델을 수용할 수 있으나, 개인화 정보를 음성 인식 서버에 별도로 저장해야 하는 부담이 있다.
서버의 저장 부담을 낮추면서, 개인화된 특성을 반영한 음성 인식 기술로 단말에 고빈도 어휘의 음성 인식기를 설치하는 기술이 개발되었다. 또한, 단말에서 음소 인식을 수행하고, 수행된 음소를 서버로 전송하여 서버가 음성 인식을 수행하는 기술이 제안되기도 하였다. 그러나, 이러한 음성 인식 방법을 통하여 화자 적응을 수행할 수 있다는 장점은 있으나, 단말과 서버에 언어 네트워크를 포함하는 두 개의 음성 인식 시스템이 구비되어야 하고, 단말과 서버에서 2 단계의 음성 인식을 수행해야 한다는 절차적 제약이 있다.
따라서, 음성 인식을 수행하는 단말과 서버가 역할을 분담하여, 개인화된 음성 인식을 지원하면서, 동시에 음성 인식 절차를 간소화 하는 기술의 필요성이 절실하게 대두된다.
한국 공개 특허 제10-2011-0133739호, 2011년 12월 14일 공개(명칭: 다중 모델 적응화와 음성 인식 장치 및 방법)
본 발명의 목적은 음성 인식 단말을 소지한 화자별 개인화 특성을 반영한 음성 인식 기술을 제공하는 것이다.
또한, 본 발명의 목적은 음성 인식 서버가 화자의 개인화 특성을 반영하기 위한 별도의 데이터베이스나 저장공간을 구비하지 않고도 개인화 특성을 반영한 음성 인식을 수행하는 것이다.
또한, 본 발명의 목적은 개인화 특성을 반영하기 위한 개인의 음성 데이터와 같은 개인 정보를 서버에 전송하지 않아도 되므로, 음성 인식 단말을 소지한 사용자의 개인 정보를 보호할 수 있는 것이다.
또한, 본 발명의 목적은 음성 인식 단말에 포함된 음향 모델 스코어에서 대부분의 연산이 수행되므로, 음성 인식 서버의 연산 부화를 효과적으로 줄이는 것이다.
상기한 목적을 달성하기 위한 본 발명에 따른 음성 인식 단말은, 입력받은 음성 신호의 특징 데이터를 추출하는 특징 추출부, 추출된 상기 특징 데이터를 이용하여 음향 모델 스코어를 연산하는 음향스코어 연산부, 그리고 상기 음향 모델 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버에 전송하고, 상기 음성 인식 서버로부터 전사 데이터를 수신하는 통신부를 포함하며, 상기 전사 데이터는, 상기 음성 인식 서버가 상기 음향 모델 스코어를 이용하여 언어 네트워크의 경로를 연산하고, 연산된 경로를 이용하여 인식된 것을 특징으로 한다.
이 때, 상기 음성 인식 서버로 전송할 상기 음향 모델 스코어를 선택하는 데이터 선택부를 더 포함할 수 있다.
이 때, 상기 데이터 선택부는, 연산된 상기 음향 모델 스코어 중에서 n-best 후보만 선택할 수 있다.
이 때, 상기 데이터 선택부는, 연산된 상기 음향 모델 스코어 중에서 상기 음성 인식 서버로부터 수신한 후보 정보에 상응하는 상기 음향 모델 스코어를 선택할 수 있다.
이 때, 상기 데이터 선택부는, 연산된 상기 음향 모델 스코어 중에서 마지막 은닉 계층의 n-best 상태 스코어를 선택할 수 있다.
이 때, 상기 추출된 특징 데이터와 상기 음성 인식 서버로부터 수신된 전사 데이터를 매칭하여 적응용 데이터로 저장하는 저장부를 더 포함할 수 있다.
이 때, 저장된 상기 적응용 데이터를 이용하여 음향 모델의 적응을 수행하는 음향모델 적응부를 더 포함할 수 있다.
이 때, 상기 음향 모델 적응부는, 기 설정된 시간, 상기 음성 신호가 입력되지 않는 시간, 상기 음성 인식 서버와 통신을 수행하지 않는 시간 중에서 어느 한 시간에 상기 음향 모델의 적응을 수행할 수 있다.
이 때, 상기 음향 모델 스코어는 고정 소수점으로 표현되고, 상기 상태 정보는 이진 값으로 표현될 수 있다.
또한, 본 발명의 일실시예에 따른 음성 인식 서버는, 음성 신호의 특징 데이터를 추출하고, 음향 모델 스코어를 연산하는 음성 인식 단말로부터 하나 이상의 프레임 단위로 묶인 상기 음향 모델 스코어와 상태 정보를 수신하는 수신부, 수신된 상기 음향 모델 스코어를 대용량 언어 네트워크에 적용하여 전사 데이터를 생성하는 음성 인식부, 그리고 음성 인식의 결과로 생성된 상기 전사 데이터를 상기 음성 인식 단말로 전송하는 전송부를 포함한다.
이 때, 상기 수신부는, 상위 토큰의 스코어 연산에 필요한 상태 정보를 상기 음성 인식 단말로부터 수신할 수 있다.
이 때, 상기 음성 인식부는, 상기 음성 인식 단말로부터 수신한 마지막 은닉 계층의 n-best 상태 스코어를 최종 출력 계층에 대응하는 모델에 적용하여 최종 음향 모델 스코어를 연산하고, 상기 연산된 최종 음향 모델 스코어를 이용하여 음성 인식을 수행할 수 있다.
또한, 본 발명의 일실시예에 따른 음성 인식 단말을 이용한 음성 인식 방법은, 입력받은 음성 신호의 특징 데이터를 추출하는 단계, 추출된 상기 특징 데이터를 이용하여 음향 모델 스코어를 연산하는 단계, 상기 음향 모델 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버에 전송하는 단계, 그리고 상기 음성 인식 서버로부터 전사 데이터를 수신하는 단계를 포함하며, 상기 전사 데이터는, 상기 음성 인식 서버가 상기 음향 모델 스코어를 이용하여 언어 네트워크의 경로를 연산하고, 연산된 경로를 이용하여 인식된 것일 수 있다.
본 발명에 따르면, 음성 인식 단말을 소지한 화자별 개인화 특성을 반영한 음성 인식 기술을 제공할 수 있다.
또한, 본 발명은 음성 인식 서버가 화자의 개인화 특성을 반영하기 위한 별도의 데이터베이스나 저장공간을 구비하지 않고도 개인화 특성을 반영한 음성 인식을 수행할 수 있다.
또한, 본 발명은 개인화 특성을 반영하기 위한 개인의 음성 데이터와 같은 개인 정보를 서버에 전송하지 않아도 되므로, 음성 인식 단말을 소지한 사용자의 개인 정보를 보호할 수 있다.
또한, 본 발명은 음성 인식 단말에 포함된 음향 모델 스코어에서 대부분의 연산이 수행되므로, 음성 인식 서버의 연산 부화를 효과적으로 줄일 수 있다.
도 1은 본 발명의 일실시예에 따른 음성 인식 단말의 구성을 나타낸 블록도이다.
도 2는 본 발명의 일실시예에 따른 음성 인식 서버의 구성을 나타낸 블록도이다.
도 3은 본 발명의 일실시예에 따른 음성 인식 단말의 음성 인식 방법을 나타낸 동작 흐름도이다.
도 4는 본 발명의 일실시예에 따른 음성 인식 단말과 음성 인식 서버의 데이터 흐름을 도시한 도면이다.
도 5 및 도 6은 음성 인식 단말의 음향 모델을 나타낸 도면이다.
본 발명을 첨부된 도면을 참조하여 상세히 설명하면 다음과 같다. 여기서, 반복되는 설명, 본 발명의 요지를 불필요하게 흐릴 수 있는 공지 기능, 및 구성에 대한 상세한 설명은 생략한다. 본 발명의 실시형태는 당 업계에서 평균적인 지식을 가진 자에게 본 발명을 보다 완전하게 설명하기 위해서 제공되는 것이다. 따라서, 도면에서의 요소들의 형상 및 크기 등은 보다 명확한 설명을 위해 과장될 수 있다.
이하, 본 발명에 따른 바람직한 실시예를 첨부된 도면을 참조하여 상세하게 설명한다.
도 1은 본 발명의 일실시예에 따른 음성 인식 단말의 구성을 나타낸 블록도이다.
도 1에 도시한 바와 같이, 음성 인식 단말(100)은 특징 추출부(110), 음향스코어 연산부(120), 데이터 선택부(130), 통신부(140), 저장부(150) 및 음향모델 적응부(160)를 포함한다.
먼저, 특징 추출부(110)는 입력받은 음성 신호의 특징 데이터를 추출하고, 추출된 특징 데이터를 벡터열로 변환한다. 이때, 특징 추출부(110)는 입력받은 음성 신호의 매 프레임마다 특징을 추출할 수 있다.
또한, 특징 추출부(110)는 특징 데이터를 추출하기 전에, 음성 인식의 대상이 되는 구간인 인식 구간을 추출하고, 잡음을 처리하는 전처리를 수행할 수 있다.
다음으로 음향스코어 연산부(120)는 추출된 특징 데이터를 이용하여 음향 모델 스코어를 연산한다. 여기서, 음향 모델 스코어는 고정 소수점으로 표현될 수 있으며, 음향스코어 연산부(120)는 n-best 상태 스코어(n-best state score)를 연산할 수 있다.
그리고 데이터 선택부(130)는 음성 인식 서버(200)로 전송할 n-best 상태 스코어를 선택한다. 데이터 선택부(130)는 음성 인식 단말(100)이 음성 인식 서버(200)로 전송하는 데이터 량을 절감하기 위하여 음성 인식 서버(200)로 전송할 데이터를 선택할 수 있다.
이때, 데이터 선택부(130)는 연산된 음향 모델 스코어 중에서 n-best 후보만을 선택할 수 있다. 실제 음향 데이터와 일치하는 전사 값인 출력 상태(Output state)인 후보는 개수가 적으며, 그 외의 상태인 경우 비교적 관련성이 적다. 따라서, 데이터 선택부(130)는 음향 모델 스코어 중에서 n-best 후보만을 음성 인식 서버(200)로 전송할 음향 모델 스코어로 선택할 수 있다.
또한, 데이터 선택부(130)는 연산된 음향 모델 스코어 중에서 음성 인식 서버(200)로부터 수신된 후보 정보에 상응하는 음향 모델 스코어를 선택할 수 있다.
음성 인식 서버(200)가 토큰 패싱(token passing) 알고리즘 등을 수행하여 최적의 경로를 찾는 연산을 수행할 경우, 음성 인식 서버(200)는 누적된 경로에서 상위 스코어 토큰에 해당하는 상태(state)의 정보를 음성 인식 단말(100)로 전송한다. 그리고 음성 인식 단말(100)은 수신된 상태 정보에 상응하는 스코어만을 음성 인식 서버(200)로 전송할 수 있다.
그리고 데이터 선택부(130)는 연산된 음향 모델 스코어 중에서 마지막 은닉 계층(last hidden layer)의 n-best 상태 스코어를 선택할 수 있다.
음성 인식 단말(100)이 음향 모델의 마지막 은닉 계층(last hidden layer)까지만 포함하고, 최종 출력 계층(output layer)에 해당하는 모델은 음성 인식 서버(200)에 포함되어 있을 수 있다. 이 경우, 음성 인식 단말(100)은 마지막 은닉 계층(last hidden layer)의 n-best 상태 값을 음성 인식 서버(200)로 전송하고, 음성 인식 서버(200)는 전달된 값을 이용하여 최종 출력 계층(output layer)의 상태 값을 연산한 최종 음향 모델 스코어를 가질 수 있다.
또한, 통신부(140)는 n-best 상태 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버(200)에 전송한다. 여기서, 상태 정보는 이진 값으로 표현될 수 있으며, 데이터 선택부(130)에서 선택된 값 일 수 있다.
그리고 통신부(140)는 음성 인식 서버(200)로부터 전사 데이터를 수신한다. 여기서, 전사 데이터는 음성 인식 서버(200)가 음향 모델 스코어를 이용하여 언어 네트워크 경로를 연산하고, 연산된 경로를 이용하여 인식된 것이다.
다음으로 저장부(150)는 추출된 특징 데이터와 음성 인식 서버(200)로부터 수신된 전사 데이터를 매칭하여 적용용 데이터로 저장할 수 있다.
그리고 음향모델 적응부(160)는 저장된 적응용 데이터를 이용하여 음향 모델의 적응을 수행한다.
이때, 음향모델 적응부(160)는 기 설정된 시간, 음성 신호가 입력되지 않는 시간, 음성 인식 서버(200)와 통신을 수행하지 않는 시간 중에서 어느 여분의 시간에 음향 모델의 적응을 수행할 수 있다.
도 2는 본 발명의 일실시예에 따른 음성 인식 서버의 구성을 나타낸 블록도이다.
음성 인식 서버(200)는 수신부(210), 음성 인식부(220) 및 전송부(230)를 포함한다.
먼저, 수신부(210)는 음성 인식 단말(100)로부터 하나 이상의 프레임 단위로 묶인 n-best 상태 스코어와 상태(state) 정보를 수신한다. 그리고 수신부(210)는 상위 토큰의 스코어 연산에 필요한 상태 정보를 음성 인식 단말(100)로부터 수신할 수 있다.
다음으로 음성 인식부(220)는 음향 모델 스코어를 대용량 언어 네트워크에 적용하여 전사 데이터를 생성한다.
음성 인식부(220)는 음성 인식 단말(100)로부터 수신한 마지막 은닉 계층(last hidden layer)의 n-best 상태 스코어를 최종 출력 계층(output layer)에 대응하는 모델에 적용하여 최종 음향 모델 스코어를 연산할 수 있다. 그리고 연산된 최종 음향 모델 스코어를 이용하여 음성 인식을 수행할 수 있다.
마지막으로, 전송부(230)는 음성 인식의 결과로 생성된 전사 데이터를 음성 인식 단말(100)로 전송한다.
이하에서는 도 3 내지 도 6을 통하여 본 발명의 일실시예에 따른 음성 인식 단말의 음성 인식 방법에 대하여 더욱 상세하게 설명한다.
도 3은 본 발명의 일실시예에 따른 음성 인식 단말의 음성 인식 방법을 나타낸 동작 흐름도이고, 도 4는 본 발명의 일실시예에 따른 음성 인식 단말과 음성 인식 서버의 데이터 흐름을 도시한 도면이다.
먼저, 음성 인식 단말(100)은 입력받은 음성 신호의 특징 데이터를 추출한다(S310). 그리고 음성 인식 단말(100)은 추출된 특징 데이터를 벡터열로 변환한다.
이때, 음성 인식 단말(100)은 입력받은 음성 신호의 매 프레임 단위로 특징을 추출할 수 있다.
그리고 음성 인식 단말(100)은 추출된 특징 데이터를 이용하여 음향 모델 스코어를 연산한다(S320). 여기서, 음향 모델 스코어는 n-best 상태 스코어(n-best state score)를 의미하며, n-best 상태 스코어는 고정 소수점으로 표현될 수 있다.
이때, 음성 인식 단말(100)은 심층 신경망(DNN, Deep neural network)을 이용하여 음향 모델을 표현할 수 있다. 심층 신경망(DNN)을 이용한 음성 인식 장치에 있어서, 대부분의 연산이 심층 신경망(DNN) 스코어를 측정하는데 소요되므로, 본 발명의 실시예에 따른 음성 인식 단말(100)은 음성 인식 서버(200)가 아닌 단말 측에서 연산을 수행하여 음성 인식 서버(200)의 부담을 줄일 수 있다.
연산된 음향 모델 스코어는 음성 인식 단말(100)과 동기화된 음성 인식 서버(200)로 실시간 또는 기 설정된 주기로 전송될 수 있다. 그리고 음성 인식 서버(200)는 수신된 음향 모델 스코어를 언어 네트워크 경로 탐색에 적용하여 최적의 단어 열을 선택하고, 선택된 단어 열을 포함하는 음성 인식 결과를 음성 인식 단말(100)로 전송할 수 있다.
또한, 음성 인식 단말(100)은 음성 인식 서버(200)로 전송할 음향 모델 스코어를 선택한다(S330).
본 발명의 실시예에 따른 음성 인식 단말(100)은 음성 인식 서버(200)로 전송할 데이터 량을 절감하기 위하여, 음성 인식 서버(200)로 전송할 데이터를 선택할 수 있다. 이때, 음성 인식 단말(100)은 심층 신경망(Deep neural network, DNN), 합성곱 신경망(Convolutional Neural Network, CNN), 순환 신경망(Recurrent Neural Network, RNN), 제한 볼츠만 머신 (Restricted Boltzmann Machine, RBM), 심층 신뢰 신경망 (Deep Belief Network, DBN) 등의 음향 모델을 이용하여 음향 모델 스코어를 연산할 수 있으며, 설명의 편의상 음향 모델이 심층 신경망(DNN)을 이용하는 것으로 설명하였으나, 이에 한정되지는 않는다.
도 5 및 도 6은 음성 인식 단말의 음향 모델을 나타낸 도면이다.
도 5에 도시한 바와 같이, 심층 신경망(DNN)은 입력 계층(input layer)과 출력 계층(output layer) 사이에 복수개의 은닉 계층(hidden layer)들이 존재하는 인공신경망(ANN, Artificial Neural Network)을 의미하며, 심층 신경망(DNN)은 복잡한 비선형 관계들을 모델링 할 수 있다.
그리고 심층 신경망(DNN)은 입력 계층으로부터 은닉 계층 거쳐 출력 계층에 도달할 때까지, 각기 다른 상태(state) 수를 갖는 계층들은 이전 계층 상태 수와 다음 계층 상태 수를 곱한 수만큼의 연결이 다음 계층의 상태들과 발생한다. 또한, 음성 인식 단말(100)이 음성 인식 서버(200)로 전송해야 하는 음향 모델 상태 스코어는 최종 계층의 상태에서 발생한 값이다.
예를 들어, 일반적인 온라인 서비스에서 사용하는 출력 계층(output layer)의 상태 개수가 8,000개 라고 가정한다. 이 경우, 8,000개의 float 타입(4byte)이 매 프레임인 10 밀리 초마다 음성 인식 서버(200)로 전송되어야 한다. 즉, 1초에 3.2Mbyte(8,000*4*100byte/sec)를 음성 인식 서버(200)로 전송해야 하는 것으로, 보통 16KHz의 음성 데이터를 전송할 때 1초에 약 32Kbyte(16,000*2(short type) byte/sec)가 필요한 것에 비하여 전송할 데이터 량이 매우 많다.
따라서, 본 발명의 실시예에 따른 음성 인식 단말(100)은 음성 인식 서버(200)로 전송할 데이터를 선택하여 음성 인식 서버(200)로 전송할 데이터의 량을 절감할 수 있다.
첫 번째로, 음성 인식 단말(100)은 연산된 음향 모델 스코어 중에서 n-best 후보만을 선택할 수 있다.
실제 음향 데이터와 일치하는 전사 값인 출력 계층 상태는 적은 수의 후보를 포함하는 반면, 그 외의 상태들은 비교적 음향 데이터와 관련이 적다. 따라서, 음성 인식 단말(100)은 출력 계층 상태 스코어 중에서 음향학적으로 스코어가 높은 값을 갖는 상태 후보들만 음성 인식 서버(200)로 전송할 수 있다.
예를 들어, 전체 상태 중에서 매 프레임 음향 데이터와 일치하는 후보군을 상위 200개의 상태 스코어로 설정할 경우, 200*4*100byte/sec가 되어 음성 인식 단말(100)은 음성 인식 서버(200)로 1초에 약 80kbye를 전송한다. 그리고 상태 스코어들이 일정한 범위 값을 벗어나지 않으므로, 4byte float 타입을 대신하여 2byte 고정 소수점 방식으로 처리할 경우, 음성 인식 단말(100)은 약 40Kbyte로 전송할 수 있다.
이때, n-best에 해당하는 상태들을 구별할 정보가 필요하므로, 음성 인식 단말(100)은 배열로 구성된 상태 이진 정보를 음성 인식 서버(200)로 후보와 함께 전송한다. 예를 들어, 상태가 8,000개 인 경우, 음성 인식 단말(100)은 음성 인식 서버(200)로 8,000bit를 전송한다.
설명의 편의상, 8,000 상태와 200개의 n-best를 가정하여 1초에 41Kbyte를 전송해야 하는 것으로 설명하였으나, 이에 한정하지 않으며, n-best는 적용에 따라 100으로 변경 가능하므로, 초당 21Kbyte의 전송도 가능하다.
두 번째로, 음성 인식 단말(100)은 연산된 음향 모델 스코어 중에서 음성 인식 서버(200)로부터 수신된 후보 정보에 상응하는 음향 모델 스코어만 선택할 수 있다.
음성 인식 서버(200)에서 최적의 경로를 찾는 연산을 Viterbi와 같은 토큰 패싱 알고리즘으로 수행하며, 이때, 음성 인식 서버(200)는 누적된 경로에서 상위 스코어 토큰에 상응하는 상태 정보를 음성 인식 단말(100)로 전송하여 필요한 상태의 스코어만을 요청할 수 있다. 그리고 요청을 수신한 음성 인식 단말(100)은 요청에 상응하는 상태의 스코어만 음성 인식 서버(200)로 전송한다.
초기에는 n-best 방법을 적용하다가. 상위 토큰의 상태 개수가 n-best보다 작아질 경우, 음성 인식 서버(200)는 음성 인식 단말(100)로 해당 상태에 대한 이진 정보 배열을 전송한다. 그리고 음성 인식 단말(100)은 수신된 이진 정보 배열을 이용하여 해당 상태들의 스코어를 음성 인식 서버(200)로 전송한다.
이처럼, 후보 정보에 상응하는 음향 모델 스코어만 음성 인식 서버(200)로 전송할 경우, 가변적으로 추가적인 데이터 량을 절감할 수 있다.
세 번째로, 음성 인식 단말(130)은 연산된 음향 모델 스코어 중에서 마지막 은닉 계층(last hidden layer)의 n-best 상태 스코어를 선택할 수 있다.
도 6에 도시된 바와 같이, 음성 인식 단말(100)의 음향 모델은 마지막 은닉 계층(last hidden layer)까지만 포함하고, 최종 출력 계층(output layer)에 해당하는 모델은 음성 인식 서버(200)가 포함할 수 있다. 그리고 음성 인식 서버(200)는 음성 인식 단말(100)에서 전달된 마지막 은닉 계층(last hidden layer)의 상태 값을 가지고, 최종 출력 계층까지 연산하여 최종적으로 음향 모델 스코어 값을 가질 수 있다.
마지막 은닉 계층(last hidden layer)의 n-best 상태 스코어를 음성 인식 서버(200)로 전송하는 방법은 출력 계층이 최종적으로 분류되는 영역이므로 비교적 많은 상태들을 가지고 있는 반면, 은닉 계층(hidden layer)은 추상적인 값이 집약되는 부분으로, 상대적으로 적은 상태를 가지고 처리하는 이점을 활용하여 데이터 량을 절감시키는 방법이다.
예를 들어, 8,000개의 상태들로 출력 계층(output layer)을 표현하는 경우, 1,500개의 상태들로 최종 은닉 계층(hidden layer)을 구성할 수 있다. 또한, DNN 학습 방법에서 은닉 계층(hidden layer)의 n-best만 이용하여 학습하는 방법과 마찬가지로, 음성 인식에서도 마지막 은닉 계층(last hidden layer)의 n-best를 적용하여 10%의 상태를 전송할 수 있다. 이때, 150state*2byte*100byte/sec로 초당 약 30Kbyte가 소요되며, 추가적으로 1,500 bit(0.2Kbyte)의 이진 배열 전송이 필요하다.
설명의 편의상, 매 프레임 단위로 데이터를 전송하는 것으로 설명하였으나, 이에 한정하지 않고, 음성 인식 단말(100)은 프레임 묶음 단위로 음성 인식 서버(200)로 전송하여 전송 빈도를 줄일 수 있으며, 추가적인 압축 기법을 적용하여 전송 데이터 량을 더 절감할 수 있다.
다음으로, 음성 인식 단말(100)은 음성 인식 서버(200)로 음향 모델 스코어와 상태 정보를 전송한다(S340).
여기서, 전송되는 음향 모델 스코어는 S330 단계에서 음성 인식 단말(100)이 선택한 음향 모델 스코어를 의미한다. 그러나, 본 발명의 실시예에 따른 음성 인식 단말(100)이 S330 단계의 수행을 생략하는 경우, S320 단계에서 연산된 음향 모델 스코어를 의미할 수 있다.
그리고, 음성 인식 단말(100)은 음성 인식 서버(200)로부터 전사 데이터를 수신하여 저장한다(S350).
마지막으로, 음성 인식 단말(100)은 음향 모델 적응을 수행한다(S360).
음성 인식 단말(100)은 음성 인식 서버(200)로부터 수신된 음성 인식 결과인 전사 데이터를 이용하여 음향모델 적응을 수행함으로써, 음성 인식의 개인화를 반영할 수 있다.
본 발명의 실시예에 따른 음성 인식 단말(100)은 음성 인식 서버(200)의 연산 및 부가적인 메모리 부담 없이 개인화가 잘 반영된 음성 인식을 구현하기 위한 것으로, 음성 인식 단말(100)이 개인의 음향학적 특성을 지속적으로 반영하여 개인화를 수행한다.
음성 인식 단말(100)은 추출된 음성 신호의 특징 데이터와 음성 인식 서버(200)로부터 수신된 전사 데이터를 지속적으로 누적하여 적응용 데이터를 생성한다. 이때, 음성 인식 단말(100)은 비지도 음향 모델을 이용하여 적응을 수행할 수 있다.
또한, 음향 모델의 특성을 반영하기 위하여 다양한 DNN 적응 기법을 적용할 수 있으며, 특히 지속적으로 누적된 개인화 데이터를 간헐적으로 이용할 때의 성능을 고려하여 적응용 데이터를 이용한 재학습(fine tuning)방법으로 화자 적응을 수행할 수 있다.
이때, 음향 모델이 도 7에 도시된 바와 같을 경우, 음성 인식 단말(100)의 마지막 은닉 계층(last hidden layer)까지만 음향 모델 적응이 수행되어, 개인화된 음향 모델로 갱신된다. 반면, 음성 인식 서버(200)의 출력 계층(output layer)은 기본적인 화자 독립 시스템의 상태를 유지한다.
이상에서와 같이 본 발명에 따른 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법은 상기한 바와 같이 설명된 실시예들의 구성과 방법이 한정되게 적용될 수 있는 것이 아니라, 상기 실시예들은 다양한 변형이 이루어질 수 있도록 각 실시예들의 전부 또는 일부가 선택적으로 조합되어 구성될 수도 있다.
100: 음성 인식 단말
110: 특징 추출부
120: 음향 스코어 연산부
130: 데이터 선택부
140: 통신부
150: 저장부
160: 음향모델 적응부
200: 음성 인식 서버
210: 수신부
220: 음성 인식부
230: 전송부
510, 610: DNN 음향 모델의 출력 계층
520, 620: DNN 음향 모델의 은닉 계층
530, 630: DNN 음향 모델의 입력 계층

Claims (20)

  1. 입력받은 음성 신호의 특징 데이터를 추출하는 특징 추출부,
    추출된 상기 특징 데이터를 이용하여 음향 모델 스코어를 연산하는 음향스코어 연산부, 그리고
    상기 음향 모델 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버에 전송하고, 상기 음성 인식 서버로부터 전사 데이터를 수신하는 통신부
    를 포함하며,
    상기 전사 데이터는,
    상기 음성 인식 서버가 상기 음향 모델 스코어를 이용하여 언어 네트워크의 경로를 연산하고, 연산된 경로를 이용하여 인식된 것을 특징으로 하는 음성 인식 단말.
  2. 제1항에 있어서,
    상기 음성 인식 서버로 전송할 상기 음향 모델 스코어를 선택하는 데이터 선택부를 더 포함하는 음성 인식 단말.
  3. 제2항에 있어서,
    상기 데이터 선택부는,
    연산된 상기 음향 모델 스코어 중에서 n-best 후보만 선택하는 음성 인식 단말.
  4. 제2항에 있어서,
    상기 데이터 선택부는,
    연산된 상기 음향 모델 스코어 중에서 상기 음성 인식 서버로부터 수신한 후보 정보에 상응하는 상기 음향 모델 스코어를 선택하는 음성 인식 단말.
  5. 제2항에 있어서,
    상기 데이터 선택부는,
    연산된 상기 음향 모델 스코어 중에서 마지막 은닉 계층의 n-best 상태 스코어를 선택하는 음성 인식 단말.
  6. 제1항에 있어서,
    상기 추출된 특징 데이터와 상기 음성 인식 서버로부터 수신된 전사 데이터를 매칭하여 적응용 데이터로 저장하는 저장부를 더 포함하는 음성 인식 단말.
  7. 제6항에 있어서,
    저장된 상기 적응용 데이터를 이용하여 음향 모델의 적응을 수행하는 음향모델 적응부를 더 포함하는 음성 인식 단말.
  8. 제7항에 있어서,
    상기 음향 모델 적응부는,
    기 설정된 시간, 상기 음성 신호가 입력되지 않는 시간, 상기 음성 인식 서버와 통신을 수행하지 않는 시간 중에서 어느 한 시간에 상기 음향 모델의 적응을 수행하는 것을 특징으로 하는 음성 인식 단말.
  9. 제1항에 있어서,
    상기 음향 모델 스코어는 고정 소수점으로 표현되고, 상기 상태 정보는 이진 값으로 표현되는 것을 특징으로 하는 음성 인식 단말.
  10. 음성 신호의 특징 데이터를 추출하고, 음향 모델 스코어를 연산하는 음성 인식 단말로부터 하나 이상의 프레임 단위로 묶인 상기 음향 모델 스코어와 상태 정보를 수신하는 수신부,
    수신된 상기 음향 모델 스코어를 대용량 언어 네트워크에 적용하여 전사 데이터를 생성하는 음성 인식부, 그리고
    음성 인식의 결과로 생성된 상기 전사 데이터를 상기 음성 인식 단말로 전송하는 전송부
    를 포함하는 음성 인식 서버.
  11. 제10항에 있어서,
    상기 수신부는,
    상위 토큰의 스코어 연산에 필요한 상태 정보를 상기 음성 인식 단말로부터 수신하는 음성 인식 서버.
  12. 제10항에 있어서,
    상기 음성 인식부는,
    상기 음성 인식 단말로부터 수신한 마지막 은닉 계층의 n-best 상태 스코어를 최종 출력 계층에 대응하는 모델에 적용하여 최종 음향 모델 스코어를 연산하고, 상기 연산된 최종 음향 모델 스코어를 이용하여 음성 인식을 수행하는 음성 인식 서버.
  13. 음성 인식 단말을 이용한 음성 인식 방법에 있어서,
    입력받은 음성 신호의 특징 데이터를 추출하는 단계,
    추출된 상기 특징 데이터를 이용하여 음향 모델 스코어를 연산하는 단계,
    상기 음향 모델 스코어와 상태 정보를 하나 이상의 프레임 단위로 음성 인식 서버에 전송하는 단계, 그리고
    상기 음성 인식 서버로부터 전사 데이터를 수신하는 단계
    를 포함하며,
    상기 전사 데이터는,
    상기 음성 인식 서버가 상기 음향 모델 스코어를 이용하여 언어 네트워크의 경로를 연산하고, 연산된 경로를 이용하여 인식된 것을 특징으로 하는 음성 인식 방법.
  14. 제13항에 있어서,
    상기 음성 인식 서버로 전송할 상기 음향 모델 스코어를 선택하는 단계를 더 포함하는 음성 인식 방법.
  15. 제14항에 있어서,
    상기 음향 모델 스코어를 선택하는 단계는,
    연산된 상기 음향 모델 스코어 중에서 n-best 후보만 선택하는 음성 인식 방법.
  16. 제14항에 있어서,
    상기 음향 모델 스코어를 선택하는 단계는,
    연산된 상기 음향 모델 스코어 중에서 상기 음성 인식 서버로부터 수신한 후보 정보에 상응하는 상기 음향 모델 스코어를 선택하는 음성 인식 방법.
  17. 제14항에 있어서,
    상기 음향 모델 스코어를 선택하는 단계
    연산된 상기 음향 모델 스코어 중에서 마지막 은닉 계층의 n-best 상태 스코어를 선택하는 음성 인식 방법.
  18. 제13항에 있어서,
    상기 추출된 특징 데이터와 상기 음성 인식 서버로부터 수신된 전사 데이터를 매칭하여 적응용 데이터로 저장하는 단계를 더 포함하는 음성 인식 방법.
  19. 제18항에 있어서,
    저장된 상기 적응용 데이터를 이용하여 음향 모델의 적응을 수행하는 단계를 더 포함하는 음성 인식 방법.
  20. 제19항에 있어서,
    상기 음향 모델의 적응을 수행하는 단계는,
    기 설정된 시간, 상기 음성 신호가 입력되지 않는 시간, 상기 음성 인식 서버와 통신을 수행하지 않는 시간 중에서 어느 한 시간에 상기 음향 모델의 적응을 수행하는 것을 특징으로 하는 음성 인식 방법.
KR1020160000869A 2016-01-05 2016-01-05 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법 KR102434604B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160000869A KR102434604B1 (ko) 2016-01-05 2016-01-05 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US15/193,216 US10079022B2 (en) 2016-01-05 2016-06-27 Voice recognition terminal, voice recognition server, and voice recognition method for performing personalized voice recognition

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160000869A KR102434604B1 (ko) 2016-01-05 2016-01-05 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법

Publications (2)

Publication Number Publication Date
KR20170081883A true KR20170081883A (ko) 2017-07-13
KR102434604B1 KR102434604B1 (ko) 2022-08-23

Family

ID=59235774

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160000869A KR102434604B1 (ko) 2016-01-05 2016-01-05 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법

Country Status (2)

Country Link
US (1) US10079022B2 (ko)
KR (1) KR102434604B1 (ko)

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190024920A (ko) 2019-02-11 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20190024190A (ko) 2017-08-31 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20190024919A (ko) 2019-02-11 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20200067787A (ko) 2020-05-29 2020-06-12 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20200089412A (ko) 2019-01-17 2020-07-27 (주)휴맥스 음성 인식 제어 시스템 및 방법
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof

Families Citing this family (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102522924B1 (ko) * 2016-03-18 2023-04-19 한국전자통신연구원 음성인식을 위한 초벌학습 장치 및 방법
US10867595B2 (en) * 2017-05-19 2020-12-15 Baidu Usa Llc Cold fusing sequence-to-sequence models with language models
CN107591150A (zh) * 2017-08-16 2018-01-16 珠海市魅族科技有限公司 语音识别方法及装置、计算机装置及计算机可读存储介质
US10715522B2 (en) * 2018-01-31 2020-07-14 Salesforce.Com Voiceprint security with messaging services
US10210860B1 (en) * 2018-07-27 2019-02-19 Deepgram, Inc. Augmented generalized deep learning with special vocabulary
CN109903750B (zh) * 2019-02-21 2022-01-04 科大讯飞股份有限公司 一种语音识别方法及装置
KR20200129639A (ko) * 2019-05-09 2020-11-18 삼성전자주식회사 모델 학습 방법 및 장치
CN110289015B (zh) * 2019-05-27 2021-09-17 北京大米科技有限公司 一种音频处理方法、装置、服务器、存储介质及系统
CN112712797A (zh) * 2020-12-29 2021-04-27 平安科技(深圳)有限公司 语音识别方法、装置、电子设备及可读存储介质

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003066989A (ja) * 2001-08-23 2003-03-05 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
KR20110133739A (ko) 2010-06-07 2011-12-14 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
JP2012063651A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
US20140129224A1 (en) * 2012-11-08 2014-05-08 Industrial Technology Research Institute Method and apparatus for utterance verification

Family Cites Families (37)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US5937384A (en) * 1996-05-01 1999-08-10 Microsoft Corporation Method and system for speech recognition using continuous density hidden Markov models
ATE258332T1 (de) * 1998-11-25 2004-02-15 Entropic Ltd Netzwerk- und sprachmodelle zur verwendung in einem spracherkennungssystem
US6964023B2 (en) * 2001-02-05 2005-11-08 International Business Machines Corporation System and method for multi-modal focus detection, referential ambiguity resolution and mood classification using multi-modal input
US7720683B1 (en) * 2003-06-13 2010-05-18 Sensory, Inc. Method and apparatus of specifying and performing speech recognition operations
US7725319B2 (en) * 2003-07-07 2010-05-25 Dialogic Corporation Phoneme lattice construction and its application to speech recognition and keyword spotting
US7917361B2 (en) * 2004-09-17 2011-03-29 Agency For Science, Technology And Research Spoken language identification system and methods for training and operating same
WO2006069600A1 (en) * 2004-12-28 2006-07-06 Loquendo S.P.A. Automatic speech recognition system and method
US8200495B2 (en) * 2005-02-04 2012-06-12 Vocollect, Inc. Methods and systems for considering information about an expected response when performing speech recognition
US8195462B2 (en) * 2006-02-16 2012-06-05 At&T Intellectual Property Ii, L.P. System and method for providing large vocabulary speech processing based on fixed-point arithmetic
KR100826875B1 (ko) * 2006-09-08 2008-05-06 한국전자통신연구원 온라인 방식에 의한 화자 인식 방법 및 이를 위한 장치
KR100897554B1 (ko) * 2007-02-21 2009-05-15 삼성전자주식회사 분산 음성인식시스템 및 방법과 분산 음성인식을 위한 단말기
US8180635B2 (en) * 2008-12-31 2012-05-15 Texas Instruments Incorporated Weighted sequential variance adaptation with prior knowledge for noise robust speech recognition
US8700399B2 (en) * 2009-07-06 2014-04-15 Sensory, Inc. Systems and methods for hands-free voice control and voice search
KR101253104B1 (ko) * 2009-09-01 2013-04-10 한국전자통신연구원 패턴 데이터베이스화 장치 및 그 방법, 이를 이용한 음성 이해 장치 및 그 방법
US9558183B2 (en) * 2009-09-04 2017-01-31 Synchronoss Technologies, Inc. System and method for the localization of statistical classifiers based on machine translation
US8401852B2 (en) * 2009-11-30 2013-03-19 Microsoft Corporation Utilizing features generated from phonic units in speech recognition
GB2482874B (en) * 2010-08-16 2013-06-12 Toshiba Res Europ Ltd A speech processing system and method
JP5558284B2 (ja) 2010-09-15 2014-07-23 株式会社Nttドコモ 音声認識システム、音声認識方法、および音声認識プログラム
KR20120045582A (ko) * 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
US9489950B2 (en) * 2012-05-31 2016-11-08 Agency For Science, Technology And Research Method and system for dual scoring for text-dependent speaker verification
US9728184B2 (en) * 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
KR101905827B1 (ko) * 2013-06-26 2018-10-08 한국전자통신연구원 연속어 음성 인식 장치 및 방법
CN104143328B (zh) * 2013-08-15 2015-11-25 腾讯科技(深圳)有限公司 一种关键词检测方法和装置
US9483727B2 (en) * 2013-09-18 2016-11-01 Fair Isaac Corporation Reduction of computation complexity of neural network sensitivity analysis
US9449598B1 (en) * 2013-09-26 2016-09-20 Amazon Technologies, Inc. Speech recognition with combined grammar and statistical language models
US9620108B2 (en) * 2013-12-10 2017-04-11 Google Inc. Processing acoustic sequences using long short-term memory (LSTM) neural networks that include recurrent projection layers
EP3192015A1 (en) * 2014-09-09 2017-07-19 Intel Corporation Improved fixed point integer implementations for neural networks
US20160093297A1 (en) * 2014-09-26 2016-03-31 Michael E. Deisher Method and apparatus for efficient, low power finite state transducer decoding
US9530404B2 (en) * 2014-10-06 2016-12-27 Intel Corporation System and method of automatic speech recognition using on-the-fly word lattice generation with word histories
US20160267380A1 (en) * 2015-03-13 2016-09-15 Nuance Communications, Inc. Method and System for Training a Neural Network
US9990917B2 (en) * 2015-04-13 2018-06-05 Intel Corporation Method and system of random access compression of transducer data for automatic speech recognition decoding
US10127904B2 (en) * 2015-05-26 2018-11-13 Google Llc Learning pronunciations from acoustic sequences
US9818409B2 (en) * 2015-06-19 2017-11-14 Google Inc. Context-dependent modeling of phonemes
JP6580882B2 (ja) * 2015-06-24 2019-09-25 株式会社東芝 音声認識結果出力装置、音声認識結果出力方法及び音声認識結果出力プログラム
US9740678B2 (en) * 2015-06-25 2017-08-22 Intel Corporation Method and system of automatic speech recognition with dynamic vocabularies
KR102386854B1 (ko) * 2015-08-20 2022-04-13 삼성전자주식회사 통합 모델 기반의 음성 인식 장치 및 방법
US9792907B2 (en) * 2015-11-24 2017-10-17 Intel IP Corporation Low resource key phrase detection for wake on voice

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003066989A (ja) * 2001-08-23 2003-03-05 Nippon Hoso Kyokai <Nhk> 音声認識方法および音声認識装置ならびに音声認識プログラム
KR20110133739A (ko) 2010-06-07 2011-12-14 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
KR101154011B1 (ko) * 2010-06-07 2012-06-08 주식회사 서비전자 다중 모델 적응화와 음성인식장치 및 방법
JP2012063651A (ja) * 2010-09-17 2012-03-29 Toshiba Corp 音声認識装置、音声認識方法及び音声認識プログラム
US20140129224A1 (en) * 2012-11-08 2014-05-08 Industrial Technology Research Institute Method and apparatus for utterance verification

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
이동현 외, '보조 자료와 음성 전사를 사용한 강의 검색 시스템', 한글 및 한국어 정보처리 학술대회 논문집, 2008. *

Cited By (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190024190A (ko) 2017-08-31 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20200089412A (ko) 2019-01-17 2020-07-27 (주)휴맥스 음성 인식 제어 시스템 및 방법
KR20190024920A (ko) 2019-02-11 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
KR20190024919A (ko) 2019-02-11 2019-03-08 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR20200067787A (ko) 2020-05-29 2020-06-12 (주)휴맥스 음성 인식 영상 피드백 제공 시스템 및 방법

Also Published As

Publication number Publication date
KR102434604B1 (ko) 2022-08-23
US20170194002A1 (en) 2017-07-06
US10079022B2 (en) 2018-09-18

Similar Documents

Publication Publication Date Title
KR102434604B1 (ko) 개인화된 음성 인식을 수행하기 위한 음성 인식 단말, 음성 인식 서버 및 음성 인식 방법
US10074363B2 (en) Method and apparatus for keyword speech recognition
US10210862B1 (en) Lattice decoding and result confirmation using recurrent neural networks
US6751595B2 (en) Multi-stage large vocabulary speech recognition system and method
US11823678B2 (en) Proactive command framework
US6018708A (en) Method and apparatus for performing speech recognition utilizing a supplementary lexicon of frequently used orthographies
CN104157285B (zh) 语音识别方法、装置及电子设备
US10170107B1 (en) Extendable label recognition of linguistic input
EP4018437B1 (en) Optimizing a keyword spotting system
Kadyan et al. Refinement of HMM model parameters for Punjabi automatic speech recognition (PASR) system
Masumura et al. Large context end-to-end automatic speech recognition via extension of hierarchical recurrent encoder-decoder models
US11450320B2 (en) Dialogue system, dialogue processing method and electronic apparatus
Deng et al. Improving accent identification and accented speech recognition under a framework of self-supervised learning
CN112017645A (zh) 一种语音识别方法及装置
CN113436612B (zh) 基于语音数据的意图识别方法、装置、设备及存储介质
KR101424193B1 (ko) 타 언어권 화자음성에 대한 음성인식 시스템의 성능 향상을위한 비직접적 데이터 기반 발음변이 모델링 시스템 및방법
KR102167157B1 (ko) 발음 변이를 적용시킨 음성 인식 방법
WO2002103675A1 (en) Client-server based distributed speech recognition system architecture
US5764851A (en) Fast speech recognition method for mandarin words
Yousfi et al. Holy Qur'an speech recognition system Imaalah checking rule for warsh recitation
US20150262575A1 (en) Meta-data inputs to front end processing for automatic speech recognition
CN112420054B (zh) 一种基于说话人向量复用的语音识别系统及方法
KR20190140803A (ko) 감정 임베딩과 순환형 신경망을 이용한 대화 시스템 및 방법
Barman et al. State of the art review of speech recognition using genetic algorithm
Dumitru et al. Vowel, Digit and Continuous Speech Recognition Based on Statistical, Neural and Hybrid Modelling by Using ASRS_RL

Legal Events

Date Code Title Description
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant