KR101971696B1 - 음향모델 생성 장치 및 방법 - Google Patents

음향모델 생성 장치 및 방법 Download PDF

Info

Publication number
KR101971696B1
KR101971696B1 KR1020160158129A KR20160158129A KR101971696B1 KR 101971696 B1 KR101971696 B1 KR 101971696B1 KR 1020160158129 A KR1020160158129 A KR 1020160158129A KR 20160158129 A KR20160158129 A KR 20160158129A KR 101971696 B1 KR101971696 B1 KR 101971696B1
Authority
KR
South Korea
Prior art keywords
acoustic model
native
speech
foreign language
unit
Prior art date
Application number
KR1020160158129A
Other languages
English (en)
Other versions
KR20180059031A (ko
Inventor
강병옥
박전규
오유리
이성주
이윤근
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160158129A priority Critical patent/KR101971696B1/ko
Publication of KR20180059031A publication Critical patent/KR20180059031A/ko
Application granted granted Critical
Publication of KR101971696B1 publication Critical patent/KR101971696B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G06F17/28
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F40/00Handling natural language data
    • G06F40/40Processing or translation of natural language
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/04Training, enrolment or model building

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Artificial Intelligence (AREA)
  • Computational Linguistics (AREA)
  • Theoretical Computer Science (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • Stored Programmes (AREA)
  • Machine Translation (AREA)

Abstract

본 발명은 기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부, 비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 state와 유사한 state를 제2 음향모델부(200)에서 검색하고, 상기 원어민 발성 음성 DB, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련함으로써, 보다 성능이 우수한 외국어 음향모델을 생성할 수 있다.

Description

음향모델 생성 장치 및 방법{APPARATUS AND METHOD FOR CREATING OPTIMUM ACOUSTIC MODEL}
본 발명은 비원어민 대상 외국어 음성인식 성능 향상을 위한 음향모델 생성장치 및 방법에 관한 것이다.
음성 인식 기술은 발전을 거듭하여 현재 상용화 단계에 접어들었으며 다양한 분야에 적용되고 있다. 그 중 타언어로 서비스되는 음성인식 및 외국어 학습의 분야에서는 비원어민이 외국어를 발성하여 음성인식을 수행해야 하는 경우가 증가되고 있다.
보다 구체적으로, 한국인과 같은 비원어민을 대상으로 한 외국어 음성인식 분야가 증가되고 있다.
한국인 발성 외국어 음성인식과 같은 비원어민을 대상으로 한 외국어 음성인식은 해당 언어의 원어민을 대상으로 한 경우에 비해 대체로 음성인식 성능이 저하된다. 음성인식 성능 저하의 가장 큰 원인은 입력된 음성과 음성인식 시스템을 구성하는 음향모델에 저장된 데이터가 불일치하는 것이다.
세부적으로, 입력되는 음성과 음향모델 사이의 불일치는 하기 3가지 원인으로 요약될 수 있다.
첫째, 영어의 F, X, V음과 같이, 비원어민(한국인)의 모국어(한글)에는 없지만 외국어(영어)에는 있는 특정 단어가 원인이다.
둘째, 원어민에 비해 부정확한 비원어민의 발음이 원인이다.
셋째, 음향모델에 저장된 외국어의 비원어민 및 원어민 발성 음성 DB의 부족이 원인이다.
이와 관련하여, 한국공개특허공보 제2014-0135358 호(발명의 명칭: 타국인 발화 음성을 위한 음성 인식 장치)는, 입력된 음성에서 인식에 유용한 정보를 추출하여 특징벡터로 변환하는 특징추출부; 소정의 음향모델을 저장하는 음향모델 데이터베이스; 소정의 언어모델을 저장하는 언어모델 데이터베이스; 원어민의 발음모델에 타국인이 범할 수 있는 문법오류에 의해 발생하는 변이 발음이 더욱 포함된 발음모델을 저장하는 발음모델 데이터베이스; 상기 특징벡터를 토대로 상기 음향모델 데이터베이스, 상기 발음모델 데이터베이스, 및 상기 언어모델 데이터베이스를 이용하여 가장 확률이 높은 단어열을 찾는 탐색부; 및 상기 탐색부의 출력을 이용하여 상기 입력된 음성의 인식 결과를 제공하는 인식결과 출력부를 포함하는 음성 인식 장치를 개시하고 있다.
본 발명의 일 실시예는 비원어민의 자국어 음향모델과 를 이용하여, 원어민에 비해 부정확한 비원어민의 발음 특성을 개선할 수 있고, 음향모델의 DB의 부족을 개선할 수 있는 음향모델 생성 장치 및 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 일 측면에 따른 음향모델 생성 장치는, 기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부, 비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 state와 유사한 state를 제2 음향모델부에서 검색하여 맵핑 관계를 형성하고, 상기 를 대상으로 state 단위의 시간 정렬을 수행하고, 프레임단위의 비원어민의 자국어 음성 구간을 추출하고, 상기 원어민 발성 음성 DB, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련하여 최종 외국어 음향모델을 생성하는 음향모델 생성부를 포함하는 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 원어민 발성 음성 DB, 비원어민 외국어 발성 음성 DB 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB를 보강하여 기준 외국어 음향모델을 훈련함으로써, 최종적으로 기준 외국어 음향모델보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.
더하여, 본 발명에서는 원어민 또는 비원어민의 외국어 발성 DB 뿐만 아니라 비원어민의 자국어 발성 음성 DB를 보강하여 음향모델을 훈련함으로써, 보다 풍부하고 다양한 음성 데이터를 보유하여 음향모델의 DB 부족을 해소할 수 있다.
도 1 은 본 발명의 일 실시예에 따른 음향모델 생성 장치의 구성도이다.
도 2는 도1의 제1음향모델부의 구성도이다.
도 3은 도 1의 제2 음향모델부의 구성도이다.
도 4는 본 발명의 일 실시예에 따른 음향모델 생성방법을 나타내는 도면이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
이하에서는, 도면을 참조하여 본 발명의 일 실시예에 따른 문장 재구성 장치 및 그 방법에 대하여 상세히 설명하도록 한다.
도 1 은 본 발명의 일 실시예에 따른 음향모델 생성 장치의 구성도이고, 도 2는 도 1의 제1음향모델부(100)의 구성도이고, 도 3은 도 1의 제2 음향모델부(200)의 구성도이다.
도 1에 도시된 바와 같이, 본 발명의 음향모델 생성 장치는 제1 음향모델부(100), 제2 음향모델부(200) 및 음향모델 생성부(300)를 포함한다.
도 2에 도시된 바와 같이, 제1 음향모델부(100)는 기준 외국어 음향모델(110), 원어민 발성 음성 DB(Date Base)(120) 및 비원어민 외국어 발성 음성 DB(130)를 포함한다.
제1 음향모델부(100)의 기준 외국어 음향모델(110)은 원어민 발성 음성 DB(120)와 비원어민 외국어 발성 음성 DB(130)를 이용하여 가우시안 혼합 모델(GMM, Gaussian Mixture Model) 및 은닉 마코브 모델(HMM, Hidden Markov Model) 기반의 음성인식용 외국어 음향모델로 훈련된다.
이때, 기준 외국어 음향모델(110)은 결정트리 기반 혹은 데이터 기반의 스테이트 타잉(state tying)과정을 거쳐 생성된 스테이트 세트(state set)를 가지고 있으며, 각 state는 단일 혹은 다수의 GMM으로 구성될 수 있다.
도 3에 도시된 바와 같이, 제2 음향모델부(200)는 비원어민의 자국어 음향모델(210) 및 비원어민의 자국어 발성 음성 DB(220)를 포함한다.
제2 음향모델부(200)의 비원어민의 자국어 음향모델(210)은 (220)를 이용하여 GMM 및 HMM 기반의 비원어민의 자국어 음성인식용 음향모델로 훈련될 수 있다.
본 발명의 비원어민의 자국어 음향모델(210)은 기존에 훈련된 비원어민의 자국어 음성인식용 음향모델을 활용할 수도 있다.
이때, 비원어민의 자국어 음향모델(110)은 결정트리 기반 혹은 데이터 기반의 스테이트 타잉(state tying)과정을 거쳐 생성된 스테이트 세트(state set)를 가지고 있으며, 각 state는 단일 혹은 다수의 GMM으로 구성될 수 있다. State는 음향모델을 구성하는 최소단위이다.
음향모델 생성부(300)는 제1 음향모델부(100)를 기준으로, 제1 음향모델부(100)의 각 state와 유사한 state를 제2 음향모델부(200)에서 검색하여 mapping pair관계를 찾아낸다. 그리고, (220)를 대상으로 state 단위의 시간 정렬(time alignment)를 수행하고, 프레임(frame)단위의 비원어민의 자국어 음성 구간을 추출한다.
음향모델 생성부(300)는 원어민 발성 음성 DB(110), 비원어민 외국어 발성 음성 DB(120) 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB(210)를 보강하여 기준 외국어 음향모델(110)을 훈련함으로써, 최종적으로 기준 외국어 음향모델(100)보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.
도 4는 본 발명의 일 실시예에 따른 음향모델 생성방법을 나타내는 도면으로, 도 4를 참조하여 음향모델 생성부(300)을 동작을 보다 구체적으로 설명한다.
도 4에 도시된 바와 같이, 음향모델 생성부(300)는 제1 음향모델부(100)를 기준으로, 제1 음향모델부(100)의 각 state와 유사하다고 판단되는 제2 음향모델부(200)의 state를 검색하여 mapping pair 관계를 찾아낸다(S410).
보다 구체적으로, 기준 외국어 음향모델(110)의 각 state에 매핑될 수 있는 유사한 비원어민의 자국어 음향모델(210)의 state를 결정하는 클러스터링 과정에서는 2가지 기준이 사용될 수 있다.
첫번째, 2개의 state 각각의 로그 우도(log likelihood)의 합과 결합된 log likelihood의 차이가 일정 기준보다 작을 경우, 두 상태는 관측데이터 관점에서 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로, 클러스터링이 가능하다.
논리식으로 표현하면 하기 수학식1과 같으며, L은 log likelihood 함수이다.
[수학식 1]
Figure 112016115554349-pat00001
두번째, state tying 과정을 통해 결정된 2개의 state가 공유하는 로지컬 트리-폰(logical tri-phone)의 집합이 같을 경우 두 상태는 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로 클러스터링이 가능하다.
두 집합이 완전히 동일하지 않더라도, 어느 한 집합이 다른 집합을 포함하는 관계에 있고, 포함되는 상태를 공유하는 다른 logical tri-phone이 없을 경우 두 상태는 결합이 가능하다. 논리식으로 표현하면 하기 수학식 2와 같으며, T는 logical tri-phone 함수이다.
[수학식 2]
Figure 112016115554349-pat00002
다음으로, 음향모델 생성부(300)는 비원어민의 자국어 발성 음성 DB(220)를 대상으로 state 단위의 time alignment를 수행하고(S420), time alignment를 통해 각 state 학습에 사용되는 frame 단위의 음성 구간을 찾아낸다(S430).
이와 같이, 음향모델 생성부(300)는 단계(S410)에서 생성한 각 state pair 의 학습에 사용될 수 있는 frame 단위의 비원어민의 자국어 음성 구간을 추출할 수 있다.
마지막으로, 음향모델 생성부(300)는 원어민 발성 음성 DB(110), 비원어민 외국어 발성 음성 DB(120) 와 함께 각 state에 따라 추출된 비원어민의 자국어 발성 음성 DB(210)를 보강하여 기준 외국어 음향모델(110)을 훈련한다(S440). 이로 인해, 음향모델 생성부(300)는 기준 외국어 음향모델(100)보다 성능이 나은 최종 외국어 음향모델을 생성할 수 있다.
더하여, 본 발명에서는 원어민 또는 비원어민의 외국어 발성 DB 뿐만 아니라 비원어민의 자국어 발성 음성 DB를 보강하여 음향모델을 훈련함으로써, 보다 풍부하고 다양한 음성 데이터를 보유하여 음향모델의 DB 부족을 해소할 수 있다.
본 발명의 일 실시예에 따른 음향모델 생성장치에서의 운영 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행 가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 장치는 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 제1 음향모델부
110: 기준 외국어 음향모델
120: 원어민 발성 음성 DB
130: 비원어민 외국어 발성 음성 DB
200: 제2음향모델부
210: 비원어민의 자국어 음향모델
220: 비원어민의 자국어 발성 음성 DB
300: 음향모델 생성부

Claims (7)

  1. 음향모델 생성 장치에 있어서,
    기준 외국어 음향모델, 원어민 발성 음성 DB 및 비원어민 외국어 발성 음성 DB를 포함하는 제1 음향모델부,
    비원어민의 자국어 음향모델과 비원어민의 자국어 발성 음성 DB를 포함하는 제2 음향모델부, 및
    상기 제1 음향모델부를 기준으로, 상기 제1 음향모델부의 각 상태(state)와 유사한 것으로 판단된 상태를 제2 음향모델부에서 검색하여 맵핑 관계를 형성하고, 상기 비원어민의 자국어 발성 음성 DB를 대상으로 상태 단위의 시간 정렬을 수행하고, 프레임단위의 비원어민의 자국어 음성 구간을 추출하고, 상기 원어민 발성 음성 DB 및, 상기 비원어민 외국어 발성 음성 DB 와 함께 각 상태에 따라 추출된 상기 비원어민의 자국어 발성 음성 DB를 보강하여 상기 기준 외국어 음향모델을 훈련하여 최종 외국어 음향모델을 생성하는 음향모델 생성부를 포함하는 음향모델 생성 장치.
  2. 제 1 항에 있어서,
    상기 기준 외국어 음향모델은 상기 원어민 발성 음성 DB 및 상기 비원어민 외국어 발성 DB를 이용하여 가우시안 혼합 모델 및 은닉 마코브 모델 기반의 음성인식용 외국어 음향모델로 훈련되는 것인 음향모델 생성 장치.
  3. 제 1 항에 있어서,
    상기 비원어민 자국어 음향모델은 상기 비원어민의 자국어 발성 음성 DB를 이용하여 GMM 및 HMM 기반의 자국어 음성인식용 음향모델로 훈련되는 것인 음향모델 생성 장치.
  4. 제 1 항에 있어서,
    상기 기준 외국어 음향모델 및 상기 비원어민 자국어 음향모델은 결정트리 기반 또는 데이터 기반의 상태 공유(state tying) 과정을 통해 생성된 상태 세트(state set)를 포함하는 것인 음향모델 생성 장치.
  5. 제 1 항에 있어서,
    상기 음향모델 생성부는 상기 제 2 음향모델부의 각 상태 중 두 개의 상태 각각의 로그 우도의 합과, 상기 두 개의 상태가 결합된 로그 우도의 차이가 일정 기준보다 작은 경우에 대응하는 상태를 검색하여 상기 맵핑 관계를 형성하는 것인 음향모델 생성 장치.
  6. 제 1 항에 있어서,
    상기 제 2 음향모델부의 각 상태 중 두 개의 상태에 대응되는 논리적 트라이폰 집합이 동일한 경우, 상기 두 개의 상태를 클러스터링하는 것인 음향모델 생성 장치.
  7. 제 1 항에 있어서,
    상기 제 2 음향모델부의 각 상태 중 두 개의 상태의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 상태와 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 상기 두 상태를 결합하는 것인 음향모델 생성 장치.
KR1020160158129A 2016-11-25 2016-11-25 음향모델 생성 장치 및 방법 KR101971696B1 (ko)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR1020160158129A KR101971696B1 (ko) 2016-11-25 2016-11-25 음향모델 생성 장치 및 방법

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160158129A KR101971696B1 (ko) 2016-11-25 2016-11-25 음향모델 생성 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20180059031A KR20180059031A (ko) 2018-06-04
KR101971696B1 true KR101971696B1 (ko) 2019-04-25

Family

ID=62628215

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160158129A KR101971696B1 (ko) 2016-11-25 2016-11-25 음향모델 생성 장치 및 방법

Country Status (1)

Country Link
KR (1) KR101971696B1 (ko)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN109559749B (zh) * 2018-12-24 2021-06-18 思必驰科技股份有限公司 用于语音识别系统的联合解码方法及系统

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
Byung Ok KANG et al., ‘Combining multiple acoustic models in GMM spaces for robust speech recognition’, IEICE Trans. INF. & SYST., Vol. E99-D, No.3, March 2016.*

Also Published As

Publication number Publication date
KR20180059031A (ko) 2018-06-04

Similar Documents

Publication Publication Date Title
Le et al. Deep shallow fusion for RNN-T personalization
KR102375115B1 (ko) 엔드-투-엔드 모델들에서 교차-언어 음성 인식을 위한 음소-기반 컨텍스트화
KR100755677B1 (ko) 주제 영역 검출을 이용한 대화체 음성 인식 장치 및 방법
US7996209B2 (en) Method and system of generating and detecting confusing phones of pronunciation
US20220262352A1 (en) Improving custom keyword spotting system accuracy with text-to-speech-based data augmentation
Imseng et al. Using out-of-language data to improve an under-resourced speech recognizer
US11227579B2 (en) Data augmentation by frame insertion for speech data
JP2014170295A (ja) 物体認識システム及び物体認識方法
Imseng et al. Comparing different acoustic modeling techniques for multilingual boosting
Imseng et al. Fast and flexible Kullback-Leibler divergence based acoustic modeling for non-native speech recognition
US10417345B1 (en) Providing customer service agents with customer-personalized result of spoken language intent
Hu et al. Phoneme-based contextualization for cross-lingual speech recognition in end-to-end models
KR20160098910A (ko) 음성 인식 데이터 베이스 확장 방법 및 장치
KR101483947B1 (ko) 핵심어에서의 음소 오류 결과를 고려한 음향 모델 변별 학습을 위한 장치 및 이를 위한 방법이 기록된 컴퓨터 판독 가능한 기록매체
KR101971696B1 (ko) 음향모델 생성 장치 및 방법
Deekshitha et al. Multilingual spoken term detection: a review
Chen et al. Acoustic data-driven pronunciation lexicon generation for logographic languages
JP2015060210A (ja) データ収集装置、音声対話装置、方法およびプログラム
Rasipuram Improving grapheme-based ASR by probabilistic lexical modeling approach
Audhkhasi et al. Empirical link between hypothesis diversity and fusion performance in an ensemble of automatic speech recognition systems.
US20220392439A1 (en) Rescoring Automatic Speech Recognition Hypotheses Using Audio-Visual Matching
Kilgour et al. The 2013 KIT IWSLT Speech-to-Text Systems for German and English
Rasipuram et al. Integrated pronunciation learning for automatic speech recognition using probabilistic lexical modeling
Nallasamy et al. Semi-supervised learning for speech recognition in the context of accent adaptation
Lei et al. DBN-based multi-stream models for Mandarin toneme recognition

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right