KR101610151B1 - 개인음향모델을 이용한 음성 인식장치 및 방법 - Google Patents

개인음향모델을 이용한 음성 인식장치 및 방법 Download PDF

Info

Publication number
KR101610151B1
KR101610151B1 KR1020140141167A KR20140141167A KR101610151B1 KR 101610151 B1 KR101610151 B1 KR 101610151B1 KR 1020140141167 A KR1020140141167 A KR 1020140141167A KR 20140141167 A KR20140141167 A KR 20140141167A KR 101610151 B1 KR101610151 B1 KR 101610151B1
Authority
KR
South Korea
Prior art keywords
speaker
acoustic model
voice
speech recognition
voice data
Prior art date
Application number
KR1020140141167A
Other languages
English (en)
Inventor
방규섭
이창헌
Original Assignee
현대자동차 주식회사
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 현대자동차 주식회사 filed Critical 현대자동차 주식회사
Priority to KR1020140141167A priority Critical patent/KR101610151B1/ko
Priority to DE102015213715.5A priority patent/DE102015213715A1/de
Priority to US14/810,554 priority patent/US20160111084A1/en
Priority to CN201510601128.8A priority patent/CN105529026B/zh
Application granted granted Critical
Publication of KR101610151B1 publication Critical patent/KR101610151B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • G10L15/32Multiple recognisers used in sequence or in parallel; Score combination systems therefor, e.g. voting systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Artificial Intelligence (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Telephonic Communication Services (AREA)
  • Computer Vision & Pattern Recognition (AREA)

Abstract

개인음향모델을 이용한 음성 인식장치 및 방법이 제공되며, 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치는 음성 데이터를 수집하는 수집부, 음성 데이터에 기초하여 학습을 수행하고 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부, 공통음향모델과 음성 데이터, 그리고 개인음향모델을 저장하는 저장부, 그리고 화자의 음성인식 요청에 따라 화자의 음성 데이터 수집량에 기초하여 공통음향모델 또는 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함한다.

Description

개인음향모델을 이용한 음성 인식장치 및 방법{SPEECH RECOGNITION DEVICE AND METHOD USING INDIVIDUAL SOUND MODEL}
개인음향모델을 이용한 음성 인식장치 및 방법이 제공된다.
음성인식 시스템에서는 미리 저장되어 있는 음향모델을 사용하여 음성인식을 수행한다. 이때, 음향모델은 음성신호가 어떤 형태로 표현되는지를 나타내며 기본 단위로는 음소(phoneme)를 사용하고 인접한 음소의 변화에 따른 음운 변화 현상을 제대로 반영하기 위해 트라이폰(triphone)과 같은 문맥의존 음향모델을 사용하기도 한다. 그러나, 트라이폰의 경우 최대 모델 개수는 n*n*n(n=음소개수)이라는 점에서 각각의 음향모델을 학습하기 위해서는 다량의 음성데이터가 필요하다.
종래 음성데이터는 무향실에서 직접 녹음하거나 서버를 통해 수집하고 있으나, 이러한 방법은 다량의 음성데이터를 수집하기가 어렵고 음성데이터의 품질을 보장할 수 없다. 또한, 다양한 음색을 골고루 포함하는 음성데이터를 수집하는데 한계가 있으며, 수집된 음성데이터에 기초하여 음향모델을 학습하고 이를 이용하여 음성인식을 수행한다는 점에서 수집된 음성데이터와 다른 음색을 포함하는 음성데이터에 대하여 음성인식 성능이 저하되는 문제가 있다. 예를 들어, 일반적으로 제공되는 음성인식 시스템은 성인 남성과 성인 여성의 음성데이터를 바탕으로 학습된 음향모델을 사용하므로, 성인 남성 또는 성인 여성과 음색이 다른 노인 또는 어린아이들의 음성데이터를 이용한 음성인식이 어렵다.
본 발명의 하나의 실시예가 해결하려는 과제는 화자의 음성데이터에 기초하여 화자별 음향모델을 생성하고 이를 이용하여 음성인식을 수행하는 개인음향모델을 이용한 음성 인식장치 및 방법을 제공하는 것이다.
상기 과제 이외에도 구체적으로 언급되지 않은 다른 과제를 달성하는 데 본 발명에 따른 실시예가 사용될 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성 데이터를 수집하는 수집부, 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부, 공통음향모델과 상기 음성 데이터, 그리고 상기 개인음향모델을 저장하는 저장부, 그리고 상기 화자의 음성인식 요청에 따라 상기 화자의 음성 데이터 수집량에 기초하여 상기 공통음향모델 또는 상기 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함하는 개인음향모델을 이용한 음성 인식장치를 제안한다.
여기서, 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 전처리부를 포함할 수 있다.
또한, 상기 수집부는 원격지 서버로부터 언어모델과 문맥정보를 수집하고, 상기 음성인식부는 상기 개인음향모델, 상기 언어모델, 그리고 상기 문맥정보에 기초하여 음성인식을 수행할 수 있다.
또한, 상기 학습부는 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 다수의 화자에 대응하는 공통음향모델을 생성할 수 있다.
또한, 상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.
또한, 상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.
또한, 상기 음성인식부는 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 수집량 비교부, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하는 제1 음성인식 처리부, 그리고 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 제2 음성인식 처리부를 포함할 수 있다.
상기 과제를 해결하기 위해 본 발명의 하나의 실시예는, 음성데이터, 공통음향모델, 언어모델 그리고 문맥정보를 수집하는 단계, 상기 음성데이터를 학습하여 상기 음성데이터의 주체가 되는 화자의 개인음향모델을 생성하는 단계, 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 단계, 그리고 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하고, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법을 제안한다.
여기서, 상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.
또한, 상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터일 수 있다.
또한, 상기 수집단계는 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 단계를 포함할 수 있다.
또한, 상기 개인음향모델 생성단계는 다수의 화자의 음성데이터에 기초하여 상기 다수의 화자에 대응하는 공통음향모델을 생성하는 단계를 포함할 수 있다.
본 발명의 하나의 실시예에 의하면 화자 개개인의 음향모델을 이용하여 음성인식을 수행함으로써 음성인식 성능을 향상시킬 수 있다. 또한, 음향모델 학습에 필요한 음성데이터의 수집 시간 및 비용을 절감할 수 있다.
도 1은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치이다.
도 2는 본 발명의 하나의 실시예에 따른 음성인식부의 상세 구성이다.
도 3은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식방법이다.
아래에서는 첨부한 도면을 참고하여 본 발명의 실시예들을 상세히 설명한다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때, 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다. 또한, 명세서에 기재된 "…부"의 용어는 적어도 하나의 기능이나 동작을 처리하는 단위를 의미하며, 이는 하드웨어나 소프트웨어 또는 하드웨어 및 소프트웨어의 결합으로 구현될 수 있다.
명세서 전체에서 "화자"는 음성 데이터 기반의 전자장치 즉, 음성제어장치 또는 음성통화장치의 사용자를 의미하며, "음성데이터"는 상기 사용자의 발화음성을 의미한다.
도 1은 본 발명의 하나의 실시예에 따른 개인음향모델을 이용한 음성 인식장치이다.
도 1의 음성 인식장치(200)는 음성 데이터 기반의 전자장치(100)와 무선통신망을 통해 연결되며, 서버로 구현될 수 있다.
도 1의 음성 인식장치(200)는 수집부(210), 전처리부(220), 제1 저장부(230), 학습부(240), 제2 저장부(250), 특징벡터 추출부(260), 음성인식부(270), 그리고 제어부(280)를 포함한다.
수집부(210)는 음성 데이터 기반의 전자장치(100)로부터 음성데이터를 수집한다. 이때, 음성 데이터 기반의 전자장치(100)는 사용자 음성에 의해 동작이 제어되는 음성제어장치(110)와 음성 또는 영상통화를 제공하는 음성통화장치(120)를 포함한다.
수집부(210)는 원격지의 서버로부터 음성인식에 사용되는 언어모델, 문맥정보, 그리고 공통음향모델을 수집하고 상기 언어모델, 상기 문맥정보, 상기 공통음향모델은 제2 저장부(250)에 저장된다.
전처리부(220)는 수집부(210)를 통해 수집된 음성데이터 내의 노이즈를 검출하고 상기 노이즈를 제거한다.
제1 저장부(230)는 전처리부(220)에서 노이즈가 제거된 상기 음성데이터를 저장한다.
학습부(240)는 제1 저장부(230)에 저장된 상기 음성데이터를 학습하여 음향모델을 생성한다. 이때, 한 명의 화자의 음성데이터를 학습하여 상기 한 명의 화자에 대응하는 개인음향모델을 생성한다.
학습부(240)는 제1 저장부(230)에 저장된 한 명 이상의 화자의 음성데이터를 학습하여 상기 한 명 이상의 화자 즉, 다수의 화자에 공통으로 대응하는 공통음향모델을 생성할 수 있다.
제2 저장부(250)는 학습부(240)에서 생성된 상기 개인음향모델 또는 상기 공통음향모델을 저장한다.
특징벡터 추출부(260)는 상기 화자로부터 음성인식 요청이 수신되면, 상기 화자의 음성데이터로부터 특징벡터를 추출한다.
특징벡터 추출부(260)는 MFCC(Mel Frequency Cepstral Coefficient) 추출법, LPC(Linear Predictive Coding) 추출법, 고역강조 추출법, 창 함수 추출법 등의 종래 기술을 사용하여 특성벡터를 추출하며, 종래기술에 대한 상세한 설명은 생략한다.
음성인식부(270)는 특징벡터 추출부(260)에서 전달되는 특성벡터에 기초하여 음성인식을 수행한다.
도 2는 본 발명의 하나의 실시예에 따른 음성인식부의 상세 구성이다.
도 2의 음성인식부(270)는 수집량 비교부(271), 제1 음성인식 처리부(272), 제2 음성인식 처리부(273)을 포함한다.
수집량 비교부(271)는 음성인식을 요청한 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교한다.
제1 음성인식 처리부(272)와 제2 음성인식 처리부(273)는 수집량 비교부(271)의 비교결과에 따라 상기 화자의 음성인식을 수행한다.
구체적으로, 제1 음성인식 처리부(272)는 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델, 상기 문맥정보, 그리고 상기 언어모델에 기초하여 음성인식을 수행한다.
반대로, 제2 음성인식 처리부(273)는 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델, 상기 문맥정보, 그리고 상기 언어모델에 기초하여 음성인식을 수행한다. 이때, 상기 공통음향모델은 수집부(210)를 통해 원격지 서버로부터 수집된 공통음향모델이거나, 또는 학습부(240)를 통해 생성된 공통음향모델일 수 있다.
제어부(280)는 음성인식부(270)의 음성인식 결과에 기초하여 음성제어장치(110) 또는 음성통화장치(120)를 제어한다.
도 1의 음성인식 장치(200)에서 제1 저장부(230)는 상기 음성데이터를 화자별로 분류하여 저장한다. 구체적으로, 음성제어장치(110)와 음성통화장치(120)가 차량 내에 설치되어 있을 경우, 수집부(210)는 화자의 차량 탑승시 차량으로부터 전송되는 차량정보와 상기 화자의 음성데이터를 수집하고, 제1 저장부(230)는 상기 차량정보에 기초하여 상기 화자의 음성데이터를 분류하여 저장한다. 또한, 음성제어장치(110)와 음성통화장치(120)에서 공통적으로 사용되는 화자의 계정에 기초하여 상기 화자를 식별하고 상기 화자의 음성데이터를 분류하여 저장할 수 있다.
도 1의 음성인식 장치(200)에서 학습부(240)는 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교한 결과에 따라 개인음향모델 또는 공통음향모델을 선택적으로 생성할 수 있다.
도 3은 본 발명의 제1 실시예에 따른 개인음향모델을 이용한 음성 인식방법이다.
먼저, 수집부(210)를 통해 제1 화자의 탑승을 감지한 차량으로부터 전송되는 차량정보와 상기 제1 화자의 음성데이터를 수집한다(s11).
이후, 제1 저장부(230)에 상기 제1 화자의 음성데이터를 저장한다(s12).
이때, s11단계와 s12단계 사이에서 전처리부(220)를 통해 상기 음성데이터 내에 존재하는 노이즈를 검출하여 제거할 수 있다.
이후, 학습부(240)를 통해 음향모델을 생성한다(s13). 이때, 제1 저장부(230)에 저장되어 있는 상기 제1 화자의 음성데이터에 기초하여 상기 제1 화자에 대응하는 개인음향모델을 생성한다. 또한, 제1 저장부(230)에 저장되어 있는 다수의 화자 즉, 제1 화자, 제2 화자, … , 제n 화자의 음성데이터에 기초하여 다수의 화자에 공통으로 대응하는 공통음향모델을 생성할 수 있다.
이후, 상기 제1 화자의 음성인식 요청을 수신하고, 특성벡터 추출부(260)를 통해 상기 제1 화자의 음성데이터로부터 특성벡터를 추출한다(s14).
이후, 수집량 비교부(271)를 통해 제1 저장부(230)에 저장되어 있는 상기 제1 화자의 음성데이터 수집량과 미리 설정되어 있는 임계값을 비교한다(s15).
s15단계의 비교결과, 상기 제1 화자의 음성데이터 수집량이 미리 설정되어 있는 임계값 이상인 경우 제1 음성인식 처리부(272)를 통해 상기 제1 화자의 개인음향모델, 제2 저장부(250)에 저장되어 있는 문맥정보와 언어모델에 기초하여 상기 제1 화자의 음성인식을 수행한다(s16).
s15단계의 비교결과, 상기 제1 화자의 음성데이터 수집량이 미리 설정되어 있는 임계값 미만인 경우 제2 음성인식 처리부(273)를 통해 상기 공통음향모델, 제2 저장부(250)에 저장되어 있는 문맥정보와 언어모델에 기초하여 상기 제1 화자의 음성인식을 수행한다(s17). 이때, 상기 공통음향모델은 수집부(210)를 통해 원격지 서버로부터 수집하거나 또는 학습부(240)를 통해 생성할 수 있다.
도 3의 개인음향모델을 이용한 음성 인식방법은 음성제어장치(110)와 음성통화장치(120)가 차량 내에 설치되어 있는 경우를 가정하여 설명하였으나, 이에 한정되는 것은 아니며, 음성제어장치(110)와 음성통화장치(120)에서 공통으로 사용되는 화자의 계정에 기초하여 화자를 식별하고 상기 화자의 음성데이터를 분류하여 저장하거나 음성인식을 수행할 수 있다.
본 발명의 실시예에 따르면 화자의 음성데이터 수집량에 기초하여 음향모델을 선택하고 선택된 음향모델을 이용하여 음성인식을 수행함으로써 화자별로 음성인식 성능을 향상시킬 수 있다.
본 발명의 실시예에 따르면 화자의 음성데이터를 누적하여 저장하고 누적된 음성데이터에 기초하여 실시간 또는 주기적으로 개인음향모델을 학습함으로써 화자별로 음성인식 성능을 향상시킬 수 있다.
이상에서 본 발명의 실시예에 대하여 상세하게 설명하였으나, 본 발명의 권리범위가 이에 한정되는 것은 아니며 본 발명이 속하는 분야에서 통상의 지식을 가진 자가 여러 가지로 변형 및 개량한 형태 또한 본 발명의 권리범위에 속한다.
110 : 음성제어장치 120 : 음성통화장치
210 : 수집부 220 : 전처리부
230 : 제1 저장부 240 : 학습부
250 : 제2 저장부 260 : 특징벡터 추출부
270 : 음성인식부 280 : 제어부

Claims (12)

  1. 음성 데이터를 수집하는 수집부,
    상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 화자의 개인음향모델을 생성하는 학습부,
    다수의 화자에 공통으로 대응하는 공통음향모델과 상기 음성 데이터, 그리고 상기 개인음향모델을 저장하는 저장부, 그리고
    상기 화자의 음성인식 요청에 따라 상기 화자의 음성 데이터 수집량에 기초하여 상기 공통음향모델 또는 상기 개인음향모델을 선택하여 음성인식을 수행하는 음성인식부를 포함하며,
    상기 음성인식부는 상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 수집량 비교부,
    상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 개인음향모델에 기초하여 음성인식을 수행하는 제1 음성인식 처리부, 그리고
    상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 제2 음성인식 처리부를 포함하는 개인음향모델을 이용한 음성 인식장치.
  2. 제1항에서,
    상기 음성 데이터 내의 노이즈를 검출하여 제거하는 전처리부를 포함하는 개인음향모델을 이용한 음성 인식장치.
  3. 제1항 또는 제2항에서,
    상기 수집부는 원격지 서버로부터 언어모델과 문맥정보를 수집하고,
    상기 음성인식부는 상기 개인음향모델, 상기 언어모델, 그리고 상기 문맥정보에 기초하여 음성인식을 수행하는 개인음향모델을 이용한 음성 인식장치.
  4. 제1항 또는 제2항에서,
    상기 학습부는 상기 음성 데이터에 기초하여 학습을 수행하고 상기 음성 데이터의 주체가 되는 다수의 화자에 대응하는 공통음향모델을 생성하는 개인음향모델을 이용한 음성 인식장치.
  5. 제1항에서,
    상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치.
  6. 제1항에서,
    상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식장치.
  7. 삭제
  8. 음성데이터, 다수의 화자에 공통으로 대응하는 공통음향모델, 언어모델 그리고 문맥정보를 수집하는 단계,
    상기 음성데이터를 학습하여 상기 음성데이터의 주체가 되는 화자의 개인음향모델을 생성하는 단계,
    상기 화자의 음성인식 요청에 따라 상기 화자의 음성데이터 수집량을 미리 설정된 임계값과 비교하는 단계, 그리고
    상기 화자의 음성데이터 수집량이 미리 설정된 임계값 이상인 경우 상기 생성된 화자의 개인음향모델에 기초하여 음성인식을 수행하고, 상기 화자의 음성데이터 수집량이 미리 설정된 임계값 미만인 경우 상기 공통음향모델에 기초하여 음성인식을 수행하는 단계
    를 포함하는 개인음향모델을 이용한 음성 인식방법.
  9. 제8항에서,
    상기 음성데이터는 차량 내의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법.
  10. 제8항에서,
    상기 음성데이터는 동일 계정의 음성제어장치 또는 음성통화장치를 사용하는 화자의 음성데이터인 개인음향모델을 이용한 음성 인식방법.
  11. 제8항에서,
    상기 수집단계는 상기 음성 데이터 내의 노이즈를 검출하여 제거하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법.
  12. 제8항에서,
    상기 개인음향모델 생성단계는,
    다수의 화자의 음성데이터에 기초하여 상기 다수의 화자에 대응하는 공통음향모델을 생성하는 단계를 포함하는 개인음향모델을 이용한 음성 인식방법.
KR1020140141167A 2014-10-17 2014-10-17 개인음향모델을 이용한 음성 인식장치 및 방법 KR101610151B1 (ko)

Priority Applications (4)

Application Number Priority Date Filing Date Title
KR1020140141167A KR101610151B1 (ko) 2014-10-17 2014-10-17 개인음향모델을 이용한 음성 인식장치 및 방법
DE102015213715.5A DE102015213715A1 (de) 2014-10-17 2015-07-21 Spracherkennungsvorrichtung und Spracherkennungsverfahren
US14/810,554 US20160111084A1 (en) 2014-10-17 2015-07-28 Speech recognition device and speech recognition method
CN201510601128.8A CN105529026B (zh) 2014-10-17 2015-09-18 语音识别装置和语音识别方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020140141167A KR101610151B1 (ko) 2014-10-17 2014-10-17 개인음향모델을 이용한 음성 인식장치 및 방법

Publications (1)

Publication Number Publication Date
KR101610151B1 true KR101610151B1 (ko) 2016-04-08

Family

ID=55638192

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020140141167A KR101610151B1 (ko) 2014-10-17 2014-10-17 개인음향모델을 이용한 음성 인식장치 및 방법

Country Status (4)

Country Link
US (1) US20160111084A1 (ko)
KR (1) KR101610151B1 (ko)
CN (1) CN105529026B (ko)
DE (1) DE102015213715A1 (ko)

Cited By (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
KR20200025750A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US11074910B2 (en) 2017-01-09 2021-07-27 Samsung Electronics Co., Ltd. Electronic device for recognizing speech
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR102613698B1 (ko) * 2023-07-31 2023-12-14 주식회사 효돌 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치

Families Citing this family (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109155128B (zh) * 2016-05-20 2022-12-27 三菱电机株式会社 声学模型学习装置、声学模型学习方法、语音识别装置和语音识别方法
CN106710591A (zh) * 2016-12-13 2017-05-24 云南电网有限责任公司电力科学研究院 用于电力终端的语音客服系统
US10325592B2 (en) 2017-02-15 2019-06-18 GM Global Technology Operations LLC Enhanced voice recognition task completion
CN108630193B (zh) * 2017-03-21 2020-10-02 北京嘀嘀无限科技发展有限公司 语音识别方法及装置
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN109102801A (zh) 2017-06-20 2018-12-28 京东方科技集团股份有限公司 语音识别方法和语音识别装置
JP6891736B2 (ja) * 2017-08-29 2021-06-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
CN109559759B (zh) * 2017-09-27 2021-10-08 华硕电脑股份有限公司 具备增量注册单元的电子设备及其方法
US11182565B2 (en) 2018-02-23 2021-11-23 Samsung Electronics Co., Ltd. Method to learn personalized intents
CN108538293B (zh) * 2018-04-27 2021-05-28 海信视像科技股份有限公司 语音唤醒方法、装置及智能设备
CN108717854A (zh) * 2018-05-08 2018-10-30 哈尔滨理工大学 基于优化gfcc特征参数的说话人识别方法
KR102562227B1 (ko) * 2018-06-12 2023-08-02 현대자동차주식회사 대화 시스템, 그를 가지는 차량 및 차량의 제어 방법
US11314940B2 (en) 2018-05-22 2022-04-26 Samsung Electronics Co., Ltd. Cross domain personalized vocabulary learning in intelligent assistants
CN111326141A (zh) * 2018-12-13 2020-06-23 南京硅基智能科技有限公司 一种处理获取人声数据的方法
CN113096646B (zh) * 2019-12-20 2022-06-07 北京世纪好未来教育科技有限公司 音频识别方法、装置、电子设备及存储介质
CN113555032B (zh) * 2020-12-22 2024-03-12 腾讯科技(深圳)有限公司 多说话人场景识别及网络训练方法、装置

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100415217B1 (ko) * 1998-09-09 2004-01-16 아사히 가세이 가부시키가이샤 음성인식 장치
US6754626B2 (en) * 2001-03-01 2004-06-22 International Business Machines Corporation Creating a hierarchical tree of language models for a dialog system based on prompt and dialog context
US6941264B2 (en) * 2001-08-16 2005-09-06 Sony Electronics Inc. Retraining and updating speech models for speech recognition
US20050004799A1 (en) * 2002-12-31 2005-01-06 Yevgenly Lyudovyk System and method for a spoken language interface to a large database of changing records
CN101281745B (zh) * 2008-05-23 2011-08-10 深圳市北科瑞声科技有限公司 一种车载语音交互系统
CN102237086A (zh) * 2010-04-28 2011-11-09 三星电子株式会社 用于语音识别设备的补偿装置和方法
CN102280106A (zh) * 2010-06-12 2011-12-14 三星电子株式会社 用于移动通信终端的语音网络搜索方法及其装置
EP2575128A3 (en) * 2011-09-30 2013-08-14 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
CN103187053B (zh) * 2011-12-31 2016-03-30 联想(北京)有限公司 输入方法和电子设备
US9158760B2 (en) * 2012-12-21 2015-10-13 The Nielsen Company (Us), Llc Audio decoding with supplemental semantic audio recognition and report generation
KR101493452B1 (ko) 2013-05-31 2015-02-16 국방과학연구소 함정 전투체계의 트래픽 모델링 방법

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11074910B2 (en) 2017-01-09 2021-07-27 Samsung Electronics Co., Ltd. Electronic device for recognizing speech
CN110556097A (zh) * 2018-06-01 2019-12-10 声音猎手公司 定制声学模型
CN110556097B (zh) * 2018-06-01 2023-10-13 声音猎手公司 定制声学模型
KR20200025750A (ko) * 2018-08-31 2020-03-10 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
KR102637339B1 (ko) * 2018-08-31 2024-02-16 삼성전자주식회사 음성 인식 모델을 개인화하는 방법 및 장치
US11631400B2 (en) 2019-02-11 2023-04-18 Samsung Electronics Co., Ltd. Electronic apparatus and controlling method thereof
KR102613698B1 (ko) * 2023-07-31 2023-12-14 주식회사 효돌 사용자 음성 데이터에 기초하여 사용자 유형화를 수행하는방법 및 장치

Also Published As

Publication number Publication date
US20160111084A1 (en) 2016-04-21
CN105529026A (zh) 2016-04-27
CN105529026B (zh) 2021-01-01
DE102015213715A1 (de) 2016-04-21

Similar Documents

Publication Publication Date Title
KR101610151B1 (ko) 개인음향모델을 이용한 음성 인식장치 및 방법
CN110310623B (zh) 样本生成方法、模型训练方法、装置、介质及电子设备
CN107928673B (zh) 音频信号处理方法、装置、存储介质和计算机设备
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
JP4796309B2 (ja) モバイル・デバイス上のマルチセンサによるスピーチ改良のための方法および装置
US20170323653A1 (en) Speech Enhancement and Audio Event Detection for an Environment with Non-Stationary Noise
CN112435684B (zh) 语音分离方法、装置、计算机设备和存储介质
US20140379332A1 (en) Identification of a local speaker
KR20170060108A (ko) 실행 중 범위 정규화를 이용하는 신경망 음성 활동 검출
KR101863097B1 (ko) 키워드 인식 장치 및 방법
KR101888058B1 (ko) 발화된 단어에 기초하여 화자를 식별하기 위한 방법 및 그 장치
KR20200132613A (ko) 웨이크 언 보이스(Wake on Voice, WoV) 기술을 이용한 음성 인식 수행 방법 및 장치
KR100639968B1 (ko) 음성 인식 장치 및 그 방법
KR101065188B1 (ko) 진화 학습에 의한 화자 적응 장치 및 방법과 이를 이용한 음성인식 시스템
JP2015069063A (ja) 音声認識システム、音声認識方法、及び音声認識プログラム
US20200251120A1 (en) Method and system for individualized signal processing of an audio signal of a hearing device
KR20190130533A (ko) 음성 검출기를 구비한 보청기 및 그 방법
CN116490920A (zh) 用于针对由自动语音识别系统处理的语音输入检测音频对抗性攻击的方法、对应的设备、计算机程序产品和计算机可读载体介质
RU2597487C2 (ru) Устройство обработки, способ обработки, программа, машиночитаемый носитель записи информации и система обработки
KR20150093059A (ko) 화자 검증 장치 및 방법
CN109065026B (zh) 一种录音控制方法及装置
CN112992153B (zh) 音频处理方法、声纹识别方法、装置、计算机设备
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Loh et al. Speech recognition interactive system for vehicle

Legal Events

Date Code Title Description
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20190327

Year of fee payment: 4