KR20130068251A - 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 - Google Patents
최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 Download PDFInfo
- Publication number
- KR20130068251A KR20130068251A KR1020110135230A KR20110135230A KR20130068251A KR 20130068251 A KR20130068251 A KR 20130068251A KR 1020110135230 A KR1020110135230 A KR 1020110135230A KR 20110135230 A KR20110135230 A KR 20110135230A KR 20130068251 A KR20130068251 A KR 20130068251A
- Authority
- KR
- South Korea
- Prior art keywords
- state
- log likelihood
- unit
- acoustic model
- gaussian
- Prior art date
Links
- 238000000034 method Methods 0.000 title claims abstract description 27
- 238000012549 training Methods 0.000 claims abstract description 12
- 238000004364 calculation method Methods 0.000 claims abstract description 5
- 239000000203 mixture Substances 0.000 abstract description 32
- 230000003252 repetitive effect Effects 0.000 abstract description 3
- 238000007476 Maximum Likelihood Methods 0.000 abstract 1
- 230000006870 function Effects 0.000 description 7
- 238000012545 processing Methods 0.000 description 6
- 238000010586 diagram Methods 0.000 description 5
- 238000004590 computer program Methods 0.000 description 4
- 238000013507 mapping Methods 0.000 description 3
- 240000007829 Haematoxylum campechianum Species 0.000 description 2
- 230000007423 decrease Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 238000000605 extraction Methods 0.000 description 1
- 238000004519 manufacturing process Methods 0.000 description 1
- 238000012986 modification Methods 0.000 description 1
- 230000004048 modification Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/06—Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
- G10L15/063—Training
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/14—Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Probability & Statistics with Applications (AREA)
- Artificial Intelligence (AREA)
- Circuit For Audible Band Transducer (AREA)
Abstract
본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 한다.
Description
본 발명은 음성인식(speech recognition)에 관한 것으로, 특히 최대 로그 우도법(maximum log likelihood)을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어(gaussian mixture)를 갖는 음향모델(acoustic model)을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법에 관한 것이다.
일반적으로, 음향모델링 기술은 음성인식을 위해 불특정 다수 화자의 다양한 발음특성을 모델링 하는 것을 목적으로, 대용량의 음성데이터로부터 통계적 방식으로 모델 파라메터(parameter) 형태의 참조패턴을 생성하는 기술이다.
음성인식 단계에서는 입력 음성신호를 대상으로 각 참조패턴을 구성하는 모델 파라메터의 스코어(score)를 계산하여 가장 가까운 참조패턴을 찾게 된다. 대용량 어휘 음성인식을 위해서는 다양한 화자, 환경 등을 반영하는 수백 ∼ 수천 시간 단위의 음성 데이터베이스(voice data base)를 필요로 하고, 이 음성데이터 베이스를 모델링 하기 위해서는 많은 수의 모델 파라메터를 갖는 참조패턴을 필요로 한다.
이때, 대개 각 참조패턴을 구성하는 모델 파라메터는 가우시안 분포의 모델 파라메터로 모델링 되고, 앞서 기술한 음향모델 스코어 계산을 위해서는 많은 양의 계산을 필요로 한다. 따라서 각 참조패턴을 구성하는 모델 파라메터의 수가 적을수록 적은 계산량으로 음향모델 스코어를 계산 할 수 있고, 음성인식 수행속도를 줄일 수 있을 것이다.
그러나, 종래의 음향모델링 기술에서는 참조 패턴을 구성하는 가우시안 분포의 믹스튜어를 매핑함에 있어서 가우시안 믹스튜어의 수를 음향모델링에 최적화된 수로 결정하지 않고 있어 음향모델링을 위한 계산량이 많아져 음성인식의 속도가 저하되는 문제점이 있었다.
따라서, 본 발명은 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법을 제공하고자 한다.
상술한 본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성 장치로서, 음성 데이터 베이스에 저장된 음성 데이터를 입력받아 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하는 믹스튜어 증가부와, 상기 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 가우시안 믹스튜어를 수렴시키는 반복 훈련부와, 각 트라이폰 유닛 상태에서의 점유 확률을 계산하는 상태 점유 확률 계산부와, 상기 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산하는 상태 로그 우도 계산부와, 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상기 상태 로그 우도 계산부에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑하는 상태별 최대 로그 우도 믹스튜어 판단부와, 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상기매핑된 믹스튜어의 상태 모델을 선택하여 음향모델을 생성하는 최적 음향 모델 생성부를 포함한다.
본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있는 이점이 있다.
도 1은 본 발명의 실시예에 따른 최대 로그 우도법 기반의 최적 음향모델 생성 장치의 블록 구성도,
도 2는 본 발명의 실시예에 따른 최대 로그 우도법 기반의 최적 음향모델 생성 동작 제어 흐름도.
도 2는 본 발명의 실시예에 따른 최대 로그 우도법 기반의 최적 음향모델 생성 동작 제어 흐름도.
본 발명의 이점 및 특징, 그리고 그것들을 달성하는 방법은 첨부되는 도면과 함께 상세하게 후술되어 있는 실시 예들을 참조하면 명확해질 것이다. 그러나 본 발명은 이하에서 개시되는 실시 예들에 한정되는 것이 아니라 서로 다른 다양한 형태로 구현될 수 있으며, 단지 본 실시 예들은 본 발명의 개시가 완전하도록 하고, 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자에게 발명의 범주를 완전하게 알려주기 위해 제공되는 것이며, 본 발명은 청구항의 범주에 의해 정의될 뿐이다. 명세서 전체에 걸쳐 동일 참조 부호는 동일 구성 요소를 지칭한다.
본 발명의 실시 예들을 설명함에 있어서 공지 기능 또는 구성에 대한 구체적인 설명이 본 발명의 요지를 불필요하게 흐릴 수 있다고 판단되는 경우에는 그 상세한 설명을 생략할 것이다. 그리고 후술되는 용어들은 본 발명의 실시 예에서의 기능을 고려하여 정의된 용어들로서 이는 사용자, 운용자의 의도 또는 관례 등에 따라 달라질 수 있다. 그러므로 그 정의는 본 명세서 전반에 걸친 내용을 토대로 내려져야 할 것이다.
첨부된 블록도의 각 블록과 흐름도의 각 단계의 조합들은 컴퓨터 프로그램 인스트럭션들에 의해 수행될 수도 있다. 이들 컴퓨터 프로그램 인스트럭션들은 범용 컴퓨터, 특수용 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서에 탑재될 수 있으므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비의 프로세서를 통해 수행되는 그 인스트럭션들이 블록도의 각 블록 또는 흐름도의 각 단계에서 설명된 기능들을 수행하는 수단을 생성하게 된다. 이들 컴퓨터 프로그램 인스트럭션들은 특정 방식으로 기능을 구현하기 위해 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 지향할 수 있는 컴퓨터 이용 가능 또는 컴퓨터 판독 가능 메모리에 저장되는 것도 가능하므로, 그 컴퓨터 이용가능 또는 컴퓨터 판독 가능 메모리에 저장된 인스트럭션들은 블록도의 각 블록 또는 흐름도 각 단계에서 설명된 기능을 수행하는 인스트럭션 수단을 내포하는 제조 품목을 생산하는 것도 가능하다. 컴퓨터 프로그램 인스트럭션들은 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에 탑재되는 것도 가능하므로, 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비 상에서 일련의 동작 단계들이 수행되어 컴퓨터로 실행되는 프로세스를 생성해서 컴퓨터 또는 기타 프로그램 가능한 데이터 프로세싱 장비를 수행하는 인스트럭션들은 블록도의 각 블록 및 흐름도의 각 단계에서 설명된 기능들을 실행하기 위한 단계들을 제공하는 것도 가능하다.
또한, 각 블록 또는 각 단계는 특정된 논리적 기능(들)을 실행하기 위한 하나 이상의 실행 가능한 인스트럭션들을 포함하는 모듈, 세그먼트 또는 코드의 일부를 나타낼 수 있다. 또, 몇 가지 대체 실시 예들에서는 블록들 또는 단계들에서 언급된 기능들이 순서를 벗어나서 발생하는 것도 가능함을 주목해야 한다. 예컨대, 잇달아 도시되어 있는 두 개의 블록들 또는 단계들은 사실 실질적으로 동시에 수행되는 것도 가능하고 또는 그 블록들 또는 단계들이 때때로 해당하는 기능에 따라 역순으로 수행되는 것도 가능하다.
도 1은 본 발명의 실시예에 따른 최대 로그 우드법 기반의 음향 모델 생성장치의 블록 구성을 도시한 것으로, 본 발명의 음향 모델 생성장치는 믹스튜어 증가부(100), 반복 훈련부(102), 상태 점유 확률 계산부(104), 상태 로그 우도 계산부(106), 믹스튜어 증가 판단부(108), 상태별 최대 로그 우도 믹스튜어 판단부(110), 최적 음향모델 생성부(112) 등을 포함한다.
이하, 도 1을 참조하여 음향모델 생성장치 각 구성요소에서의 동작을 상세히 설명하기로 한다.
먼저, 믹스튜어 증가부(100)는 음향모델 생성을 위한 과정 중 하나로 음성 데이터 베이스에 저장된 음성 데이터에 대해 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하고, 믹스튜어 증가 판단부(108)로부터의 제어에 따라 가우시안 믹스튜어의 수를 증가시킨다.
반복 훈련부(102)는 믹스튜어 증가부(100)에 설정된 현재 상태의 가우시안 믹스튜어(gaussian mixture)에 대해 n차례 반복 훈련을 통해 음성 데이터에 보다 적합하게 되는 모델링의 형태로 가우시안 믹스튜어의 평균과 분산이 조정되도록 하여 가우시안 믹스튜어를 수렴시킨다.
상태 점유 확률 계산부(104)는 각 트라이폰 유닛 상태에서의 점유 확률을 계산한다. 이때 점유 확률의 계산값은 상태 로그 우도 계산부(106)에서 계산되는 로그 우도의 계산시 참조될 수 있다.
상태 로그 우도 계산부(106)는 믹스튜어 증가부(100)에 설정된 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산한다. 이때, 상태 로그 우도 계산부(106)는 상태 점유 확률 계산부(104)에서 계산된 점유 확률을 이용하여 로그 우도를 계산하며, 이와 같이 계산된 로그 우도 값은 현재의 음향 모델이 어느 정도 최적화가 이루어졌는지를 판단하는 근거로 활용된다.
믹스튜어 증가 판단부(108)는 음성 데이터의 음향 모델링 훈련 과정 중 믹스튜어 증가부(100)에서 생성되는 가우시안 믹스튜어의 수를 더 증가시킬지를 판단하여 더 증가시켜야 하는 경우 믹스튜어 증가부(100)로 믹스튜어의 수를 증가시키도록 제어한다.
상태별 최대 로그 우도 믹스튜어 판단부(110)는 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상태 로그 우도 계산부(106)에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑(mapping)한다. 예를 들어, 각 트라이폰 유닛에 대해 4개, 8개 또는 10개 등의 믹스튜어가 생성되어 모델링이 수행되고 이에 따른 로그 우도 값이 각각 계산될 수 있는데, 상태별 최대 로그 우도 믹스튜어 판단부(110)는 위 계산된 로그 우도 값 중 가장 높은 로그 우도를 갖는 믹스튜어의 수를 해당 트라이폰 유닛에 매핑시킴으로서, 불필요하게 높은 수의 믹스튜어가 사용되어 계산량이 복잡해지는 것을 방지시키게 된다.
최적 음향 모델 생성부(112)는 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 얻어진 최적 믹스튜어의 상태 모델을 선택하여 최적 음향모델을 생성한다.
도 2는 본 발명의 실시예에 따른 최대 로그 우드법 기반의 음향 모델 생성장치에서 최적의 음향모델을 생성하는 동작 제어 흐름을 도시한 것이다. 이하, 도 1 및 도 2를 참조하여 본 발명의 실시예를 상세히 설명하기로 한다.
먼저, 음향모델 생성 과정이 시작되는 경우, 믹스튜어 증가부(100)는 음성 데이터 베이스에 저장된 음성 데이터를 입력받아(S200) 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하고, 믹스튜어 증가 판단부(108)로부터의 제어에 따라 가우시안 믹스튜어의 수를 증가시킨다(S202).
위와 같이, 각 트라이폰 유닛 상태에 대한 가우시간 믹스튜어가 생성되는 경우, 반복 훈련부(102)는 믹스튜어 증가부(100)에 설정된 현재 상태의 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 음성 데이터에 보다 적합하게 되는 모델링의 형태로 가우시안 믹스튜어의 평균과 분산이 조정되도록 하여 가우시안 믹스튜어를 수렴시킨다(S204).
반복 훈련부(102)로부터 가우시안 믹스튜어가 반복 훈련을 통해 수렴되는 경우, 상태 점유 확률 계산부(104)는 각 트라이폰 유닛 상태에서의 점유 확률을 계산한다(S206). 이때 점유 확률의 계산값은 상태 로그 우도 계산부(106)에서 계산되는 로그 우도의 계산시 참조될 수 있다.
그러면, 상태 로그 우도 계산부(106)는 상태 점유 확률 계산부(104)에서 계산된 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산한다(S208). 이와 같이 계산된 로그 우도 값은 현재의 음향 모델이 어느 정도 최적화가 이루어졌는지를 판단하는 근거로 활용된다.
이어, 상태별 최대 로그 우도 믹스튜어 판단부(110)는 각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상태 로그 우도 계산부(106)에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑한다(S210). 예를 들어, 각 트라이폰 유닛에 대해 4개, 8개 또는 10개 등의 믹스튜어가 생성되어 모델링이 수행되고 이에 따른 로그 우도 값이 각각 계산될 수 있는데, 상태별 최대 로그 우도 믹스튜어 판단부는 위 계산된 로그 우도 값 중 가장 높은 로그 우도를 갖는 믹스튜어의 수를 해당 트라이폰 유닛에 매핑시킴으로서, 불필요하게 높은 수의 믹스튜어가 사용되어 계산량이 복잡해지는 것을 방지시키게 된다.
위와 같이, 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 믹스튜어 수가 매핑되는 경우, 최적 음향 모델 생성부(112)는 여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상태별 최대 로그 우도 믹스튜어 판단부(110)에서 얻어진 최적 믹스튜어의 상태 모델을 선택하여 최적 음향모델을 생성한다(S212).
상기한 바와 같이, 본 발명은 최대 로그 우도법 기반의 최적 음향모델 생성에 있어서, 최대 로그 우도법을 기반으로 각 트라이폰 유닛에 대해 최적 개수의 가우시안 믹스튜어를 갖는 음향모델을 추정함으로써, 음성인식 수행중의 계산량을 줄여 음성인식 속도를 높일 수 있도록 한다.
한편 상술한 본 발명의 설명에서는 구체적인 실시예에 관해 설명하였으나, 여러 가지 변형이 본 발명의 범위에서 벗어나지 않고 실시될 수 있다. 따라서 발명의 범위는 설명된 실시 예에 의하여 정할 것이 아니고 특허청구범위에 의해 정하여져야 한다.
100 : 믹스튜어 증가부 102 : 반복 훈련부
104 : 상태점유 확률 계산부 106 : 상태 로그우도 계산부
108 : 믹스튜어 증가 판단부
110 : 상태별 최대 로그우도 믹스튜어 판단부
112 : 최적 음향모델 생성부
104 : 상태점유 확률 계산부 106 : 상태 로그우도 계산부
108 : 믹스튜어 증가 판단부
110 : 상태별 최대 로그우도 믹스튜어 판단부
112 : 최적 음향모델 생성부
Claims (1)
- 음성 데이터 베이스에 저장된 음성 데이터를 입력받아 각 트라이폰 유닛 상태의 일정 수의 가우시안 믹스튜어를 생성하는 믹스튜어 증가부와,
상기 가우시안 믹스튜어에 대해 n차례 반복 훈련을 통해 가우시안 믹스튜어를 수렴시키는 반복 훈련부와,
각 트라이폰 유닛 상태에서의 점유 확률을 계산하는 상태 점유 확률 계산부와,
상기 점유 확률을 이용하여 현재의 가우시안 믹스튜어의 수를 갖는 음성 데이터 각 트라이폰 유닛 상태의 로그 우도를 계산하는 상태 로그 우도 계산부와,
각 믹스튜어 단계를 갖는 트라이폰 유닛 상태에 대해 상기 상태 로그 우도 계산부에 의해 가장 높은 로그 우도를 갖는 믹스튜어 수를 매핑하는 상태별 최대 로그 우도 믹스튜어 판단부와,
여러 가지 믹스튜어 단계를 갖는 트라이폰 유닛 상태의 음향모델로부터 상기매핑된 믹스튜어의 상태 모델을 선택하여 음향모델을 생성하는 최적 음향 모델 생성부
를 포함하는 최대 로그 우도법 기반의 최적 음향모델 생성 장치.
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110135230A KR20130068251A (ko) | 2011-12-15 | 2011-12-15 | 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
KR1020110135230A KR20130068251A (ko) | 2011-12-15 | 2011-12-15 | 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 |
Publications (1)
Publication Number | Publication Date |
---|---|
KR20130068251A true KR20130068251A (ko) | 2013-06-26 |
Family
ID=48863904
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
KR1020110135230A KR20130068251A (ko) | 2011-12-15 | 2011-12-15 | 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 |
Country Status (1)
Country | Link |
---|---|
KR (1) | KR20130068251A (ko) |
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150041289A (ko) * | 2013-10-08 | 2015-04-16 | 한국전자통신연구원 | 다중 음향공간 gmm을 이용한 음향모델 생성 방법 |
US10117040B2 (en) | 2015-06-25 | 2018-10-30 | Electronics And Telecommunications Research Institute | Audio system and method of extracting indoor reflection characteristics |
US10136238B2 (en) | 2014-10-06 | 2018-11-20 | Electronics And Telecommunications Research Institute | Audio system and method for predicting acoustic feature |
KR20190048840A (ko) | 2017-10-31 | 2019-05-09 | 삼성에스디에스 주식회사 | 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치 |
KR20190073852A (ko) | 2017-12-19 | 2019-06-27 | 서강대학교산학협력단 | 우도 최대화를 이용한 빔포밍 방법 |
-
2011
- 2011-12-15 KR KR1020110135230A patent/KR20130068251A/ko not_active Application Discontinuation
Cited By (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
KR20150041289A (ko) * | 2013-10-08 | 2015-04-16 | 한국전자통신연구원 | 다중 음향공간 gmm을 이용한 음향모델 생성 방법 |
US10136238B2 (en) | 2014-10-06 | 2018-11-20 | Electronics And Telecommunications Research Institute | Audio system and method for predicting acoustic feature |
US10117040B2 (en) | 2015-06-25 | 2018-10-30 | Electronics And Telecommunications Research Institute | Audio system and method of extracting indoor reflection characteristics |
KR20190048840A (ko) | 2017-10-31 | 2019-05-09 | 삼성에스디에스 주식회사 | 자동으로 최적의 통계 모델을 결정하는 방법 및 그 장치 |
KR20190073852A (ko) | 2017-12-19 | 2019-06-27 | 서강대학교산학협력단 | 우도 최대화를 이용한 빔포밍 방법 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
US10332507B2 (en) | Method and device for waking up via speech based on artificial intelligence | |
CN110853663B (zh) | 基于人工智能的语音增强方法、服务器及存储介质 | |
US9508347B2 (en) | Method and device for parallel processing in model training | |
US20110301953A1 (en) | System and method of multi model adaptation and voice recognition | |
US7437288B2 (en) | Speech recognition apparatus | |
US9653093B1 (en) | Generative modeling of speech using neural networks | |
KR20130068251A (ko) | 최대 로그 우도법 기반의 최적 음향모델 생성 장치 및 방법 | |
US10515312B1 (en) | Neural network model compaction using selective unit removal | |
WO2015003436A1 (en) | Method and device for parallel processing in model training | |
WO2021047201A9 (zh) | 一种语音识别方法及装置 | |
WO2015089148A2 (en) | Reducing dynamic range of low-rank decomposition matrices | |
US9886948B1 (en) | Neural network processing of multiple feature streams using max pooling and restricted connectivity | |
CN104538024A (zh) | 语音合成方法、装置及设备 | |
JP2008203469A (ja) | 音声認識装置及び方法 | |
CN108885787A (zh) | 训练图像修复模型的方法、图像修复方法、装置、介质及设备 | |
CN110751941B (zh) | 语音合成模型的生成方法、装置、设备及存储介质 | |
JP2006011257A5 (ko) | ||
KR101727306B1 (ko) | 언어모델 군집화 기반 음성인식 장치 및 방법 | |
KR102393761B1 (ko) | 이미지 처리를 위한 인공 신경망 모델 학습 방법 및 시스템 | |
CN112633516B (zh) | 性能预测和机器学习编译优化方法及装置 | |
JP2004117624A (ja) | 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム | |
JP4901657B2 (ja) | 音声認識装置、その方法、そのプログラム、その記録媒体 | |
WO2010109725A1 (ja) | 音声処理装置、音声処理方法、及び、音声処理プログラム | |
CN116127716B (zh) | 汽轮机阀门流量特性辨识方法及装置 | |
JP2003099083A (ja) | 音声認識装置 |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
WITN | Withdrawal due to no request for examination |