KR20170086214A - 음성인식 장치 및 방법 - Google Patents

음성인식 장치 및 방법 Download PDF

Info

Publication number
KR20170086214A
KR20170086214A KR1020160005755A KR20160005755A KR20170086214A KR 20170086214 A KR20170086214 A KR 20170086214A KR 1020160005755 A KR1020160005755 A KR 1020160005755A KR 20160005755 A KR20160005755 A KR 20160005755A KR 20170086214 A KR20170086214 A KR 20170086214A
Authority
KR
South Korea
Prior art keywords
state
acoustic model
sets
cluster
training
Prior art date
Application number
KR1020160005755A
Other languages
English (en)
Other versions
KR102069699B1 (ko
Inventor
강병옥
박전규
송화전
이윤근
정의석
Original Assignee
한국전자통신연구원
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 한국전자통신연구원 filed Critical 한국전자통신연구원
Priority to KR1020160005755A priority Critical patent/KR102069699B1/ko
Priority to US15/187,581 priority patent/US9959862B2/en
Publication of KR20170086214A publication Critical patent/KR20170086214A/ko
Application granted granted Critical
Publication of KR102069699B1 publication Critical patent/KR102069699B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/065Adaptation
    • G10L15/07Adaptation to the speaker
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/04Training, enrolment or model building
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/022Demisyllables, biphones or triphones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0635Training updating or merging of old and new templates; Mean values; Weighting
    • G10L2015/0636Threshold criteria for the updating

Abstract

본 발명에 따른 심층 신경망 음향모델에 기초한 음성인식 장치는 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성하고, 상기 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성하며, 상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습하며, 사용자 인터페이스를 통해 사용자의 음성 및 상기 음성의 특성 정보를 입력받으면, 상기 다중 집합 훈련 음성 데이터 중 상기 음성의 특성 정보에 대응하는 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 집합 훈련 음성 데이터에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 상기 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식한다.

Description

음성인식 장치 및 방법{APPARATUS AND METHOD FOR RECOGNIZING SPEECH}
본 발명은 음성인식 장치 및 방법에 관한 것으로, 구체적으로는 심층 신경망 음향모델에 기반한 음성인식 장치 및 방법에 관한 것이다.
심층 신경망(Deep-Neural-Network, 이하 DNN)이 은닉 마르코프 모델(Hidden-Markov-Model, 이하 HMM)과 결합된 문맥 종속(Context-Dependent) DNN-HMM 기술은 기존의 CD-Gaussian-mixture-model-HMM(CD-GMM-HMM, 이하 GMM-HMM) 기술을 대체하여 현재 음성인식을 위한 음향 모델에 활발하게 적용되고 있다.
종래 기술에 따른 DNN-HMM 기술은 다음과 같은 과정을 통해 수행된다.
먼저, HMM 학습 과정을 통해 DNN 구조의 출력 노드 또는 타겟에 해당하는 HMM의 상태를 결정하고, 훈련 음성 데이터의 상태 레벨 정렬 정보(state-level alignment)를 추출한다.
DNN 학습 과정은 HMM 학습 결과로 이미 결정되는 상태(state) 및 훈련 음성 데이터의 상태 레벨 정렬 정보를 전달받아, 단순히 패턴 인식 측면에서 가장 변별력이 있는 형태의 특징 및 모델 파라미터를 얻는 과정이라 할 수 있다.
이때, 상태 레벨 정렬 정보는 DNN 학습 과정에 포함시켜 상태 레벨 재정렬(state-level realignment) 후 반복 학습이 가능한 방법으로 획득할 수도 있으나, 종래 DNN 학습 기술에서는 이미 이전 단계에서 결정된 상태, 즉 출력 노드는 변경되지 않는다는 문제가 있다.
한편, 대어휘 음성인식을 위한 HMM 상태는 일반적으로 결정트리(decision tree) 기반의 방식을 통해 결정된다. 하지만, 예를 들어 중국어/한국어/영어와 같은 다중 모국어 화자의 영어 음성인식을 위한 음향모델과 같이, 서로 다른 음향적 통계 특성을 갖는 대규모 훈련 음성 데이터를 하나의 결정트리로 상태(state)를 결정하는 것은 효율성이 떨어지게 된다.
DNN 구조를 기반으로 한 기계학습을 채용한 DNN-HMM 구조의 음향모델은 현재 음성인식을 포함한 패턴인식 분야에서 월등히 높은 변별 성능으로 인해 기존의 GMM-HMM 기반 음향모델을 대체하여 사용하고 있다.
그러나 종래의 DNN-HMM 기반 학습 기술은 이미 결정된 상태(state)를 대상으로 이를 가장 잘 변별할 수 있는 특징 및 파라미터를 포함하는 구조를 학습하는 방법이므로, 다중 모국어 화자와 같이 서로 전혀 다른 음향적 통계 특성을 갖는 음성인식 응용 분야에는 적합하지 않다는 문제가 있다.
이와 관련하여, 한국공개특허공보 제10-2006-0133610호(발명의 명칭: 히든 마르코프 모델을 이용한 심음 분류 방법)는 심음 분류 방법에 있어서, 심음 데이터를 이용하여 HMM을 모델링하고, 모델링된 HMM을 인식하는 기술을 개시하고 있다.
본 발명의 실시예는 서로 전혀 다른 음향적 통계 특성을 갖는 다중 집합 훈련 음성데이터를 대상으로 음향모델을 학습하기 위한 다중 집합 상태 클러스터를 결정하는 방법과, 서로 다른 다중 집합 음향적 통계 특성을 수용하는 공통의 DNN 구조 파라미터와 다중 집합 상태 클러스터를 수용하는 DNN-HMM 구조를 가지면서도, 특정 집합의 훈련 음성데이터에 대해 해당하는 상태 집합 클러스터를 출력 노드로 하여 훈련을 수행하는 방법, 사용자의 음성과 함께 입력된 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 하여 음성인식을 수행하는 방법을 제공하고자 한다.
다만, 본 실시예가 이루고자 하는 기술적 과제는 상기된 바와 같은 기술적 과제로 한정되지 않으며, 또 다른 기술적 과제들이 존재할 수 있다.
상술한 기술적 과제를 달성하기 위한 기술적 수단으로서, 본 발명의 제 1 측면에 따른 심층 신경망 음향모델에 기초한 음성인식 장치는 메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함한다. 이때, 상기 프로세서는 상기 프로그램을 실행시킴에 따라, 다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성하고, 상기 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성하며, 상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습하며, 사용자 인터페이스를 통해 사용자의 음성 및 상기 음성의 특성 정보를 입력받으면, 상기 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 상기 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식한다.
또한, 본 발명의 제 2 측면에 따른 심층 신경망 음향모델에 기초한 음성인식 방법은 다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성하는 단계; 상기 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성하는 단계; 상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습하는 단계; 사용자 인터페이스를 통해 사용자의 음성 및 상기 음성의 특성 정보를 입력받는 단계 및 상기 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 상기 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식하는 단계를 포함한다.
전술한 본 발명의 과제 해결 수단 중 어느 하나에 의하면, 서로 다른 음향적 통계 특성을 수용하는 공통의 DNN 구조 파라미터와, 다중 집합 상태 클러스터를 수용하는 DNN-HMM 구조를 가지면서도, 선택된 특정 집합의 입력 음성에 대하여 더 적은 수의 상태 집합 출력 노드를 대상으로 훈련 및 인식을 수행함으로써, 더욱 최적화된 DNN-HMM 구조 음향모델 파라미터를 학습 및 음성인식에 사용할 수 있다는 장점이 있다.
특히, 본 발명에 따르면 다중 모국어 화자를 대상으로 한 음성인식과 같이, 서로 다른 음향적 통계 특성을 갖는 음성 입력에 대한 대어휘 음성인식이 가능하다.
도 1은 본 발명의 일 실시예에 따른 음성인식 장치의 블록도이다.
도 2a 내지 도 2c는 다중 집합 상태 클러스터를 생성하고, 심층 신경망 구조 파라미터를 학습하여, 사용자의 음성을 인식하는 과정을 설명하기 위한 도면이다.
도 3은 본 발명의 일 실시예에 따른 음성인식 방법의 순서도이다.
도 4는 다중 집합 상태 클러스터를 생성하는 방법의 순서도이다.
아래에서는 첨부한 도면을 참조하여 본 발명이 속하는 기술 분야에서 통상의 지식을 가진 자가 용이하게 실시할 수 있도록 본 발명의 실시예를 상세히 설명한다. 그러나 본 발명은 여러 가지 상이한 형태로 구현될 수 있으며 여기에서 설명하는 실시예에 한정되지 않는다. 그리고 도면에서 본 발명을 명확하게 설명하기 위해서 설명과 관계없는 부분은 생략하였다.
명세서 전체에서 어떤 부분이 어떤 구성요소를 "포함"한다고 할 때 이는 특별히 반대되는 기재가 없는 한 다른 구성요소를 제외하는 것이 아니라 다른 구성요소를 더 포함할 수 있는 것을 의미한다.
도 1은 본 발명의 일 실시예에 따른 음성인식 장치(100)의 블록도이다.
본 발명의 일 실시예에 따른 심층 신경망 음향모델에 기초한 음성인식 장치(100)는 메모리(110) 및 프로세서(120)를 포함한다.
메모리(110)에는 다중 집합 클러스터를 생성하고, 심층 신경망 구조 파라미터를 학습하여 사용자의 음성을 인식하기 위한 프로그램이 저장된다. 여기에서, 메모리(110)는 전원이 공급되지 않아도 저장된 정보를 계속 유지하는 비휘발성 저장장치 및 휘발성 저장장치를 통칭하는 것이다.
예를 들어, 메모리(110)는 콤팩트 플래시(compact flash; CF) 카드, SD(secure digital) 카드, 메모리 스틱(memory stick), 솔리드 스테이트 드라이브(solid-state drive; SSD) 및 마이크로(micro) SD 카드 등과 같은 낸드 플래시 메모리(NAND flash memory), 하드 디스크 드라이브(hard disk drive; HDD) 등과 같은 마그네틱 컴퓨터 기억 장치 및 CD-ROM, DVD-ROM 등과 같은 광학 디스크 드라이브(optical disc drive) 등을 포함할 수 있다.
프로세서(120)는 메모리(110)에 저장된 프로그램을 실행시킨다.
프로세서(120)는 프로그램을 실행시킴에 따라, 다중 집합 상태 클러스터를 생성하는 단계, 심층 신경망 구조 파라미터를 학습하는 단계 및 학습된 심층 신경망 구조에 기초하여 사용자 인터페이스를 통해 입력받은 사용자의 음성을 인식하는 단계를 수행한다. 이와 같이 프로세서(120)에 의해 수행되는 각 단계에 대하여 도 2a 내지 도 2c를 참조하여 보다 구체적으로 설명하도록 한다.
참고로, 본 발명의 실시예에 따른 도 1에 도시된 구성 요소들은 소프트웨어 또는 FPGA(Field Programmable Gate Array) 또는 ASIC(Application Specific Integrated Circuit)와 같은 하드웨어 형태로 구현될 수 있으며, 소정의 역할들을 수행할 수 있다.
그렇지만 '구성 요소들'은 소프트웨어 또는 하드웨어에 한정되는 의미는 아니며, 각 구성 요소는 어드레싱할 수 있는 저장 매체에 있도록 구성될 수도 있고 하나 또는 그 이상의 프로세서들을 재생시키도록 구성될 수도 있다.
따라서, 일 예로서 구성 요소는 소프트웨어 구성 요소들, 객체지향 소프트웨어 구성 요소들, 클래스 구성 요소들 및 태스크 구성 요소들과 같은 구성 요소들과, 프로세스들, 함수들, 속성들, 프로시저들, 서브루틴들, 프로그램 코드의 세그먼트들, 드라이버들, 펌웨어, 마이크로 코드, 회로, 데이터, 데이터베이스, 데이터 구조들, 테이블들, 어레이들 및 변수들을 포함한다.
구성 요소들과 해당 구성 요소들 안에서 제공되는 기능은 더 작은 수의 구성 요소들로 결합되거나 추가적인 구성 요소들로 더 분리될 수 있다.
도 2a 내지 도 2c는 다중 집합 상태 클러스터를 생성하고, 심층 신경망 구조 파라미터를 학습하여, 사용자의 음성을 인식하는 과정을 설명하기 위한 도면이다.
먼저 도 2a를 참조하면, 프로세서(120)는 다중 집합 훈련 음성 데이터(210)에 포함된 복수의 집합 훈련 음성 데이터(211) 각각에 대응하는 음향모델 상태 집합(221, 223)을 생성한다. 그리고 생성된 음향모델 상태 집합(221, 223)으로부터 다중 집합 상태 클러스터(220)를 생성한다.
다중 집합 훈련 음성 데이터(210)는 음향모델 훈련에 사용되는 음성 데이터이다. 이때, 다중 집합 훈련 음성 데이터(210)는 서로 다른 음향적 통계 특성을 갖는 복수의 집합 훈련 음성 데이터(211)를 포함하고 있다.
그리고 복수의 집합 훈련 음성 데이터(211)의 서로 다른 음향적 통계 특성은 예를 들어, 조용한 환경과 극한 잡음 환경을 수용하는 음성인식을 위하여 음향모델을 훈련하기 위한 데이터일 수 있다.
또 다른 예로, 서로 다른 음향적 통계 특성은 서로 다른 모국어를 갖는 각 화자에 대응되는 음향적 통계 특성일 수 있다. 즉, 복수의 집합 훈련 음성 데이터(211)가 3개인 경우, 3개의 서로 다른 음향적 통계 특성을 갖는 영어/한국어/중국어 모국어를 갖는 각 화자 집합의 통합 영어 음향모델을 훈련하기 위한 데이터일 수 있다.
일 예로, 프로세서(120)는 한국어를 모국어로 갖는 화자의 훈련용 영어 음성 데이터 집합으로부터 한국어 모국어 화자의 영어 음향모델 상태 집합을 생성한다. 이후, 중국어/영어를 모국어로 갖는 화자에 대해서도 동일한 방법으로 각각의 훈련용 영어 음성 데이터 집합으로부터 영어 음향모델 상태 집합을 생성한다.
이때, 음향모델 상태 집합(221, 223)은 GMM-HMM 모델이므로 각각 서로 다른 결정트리와 상태 집합을 포함할 수 있다.
이와 같은 과정을 통해, 복수의 집합 훈련 음성 데이터(211) 각각에 대응하는 음향모델 상태 집합(221, 223)을 생성하면, 프로세서(120)는 생성된 복수의 음향모델 상태 집합(221, 223)을 수집하여 다중 상태 집합을 생성한다.
그리고 프로세서(120)는 다중 상태 집합을 클러스팅하여 다중 집합 상태 클러스터(220)를 생성한다. 이때, 프로세서(120)는 다중 상태 집합에 포함된 복수의 음향모델 상태 집합(221, 223)의 개별 상태들 중에서 비슷한 음향 공간을 차지하는 상태를 대상으로 통합(merge)하는 과정을 통해 다중 상태 집합 클러스터(220)를 생성할 수 있다.
구체적으로, 프로세서(120)는 복수의 음향모델 상태 집합(221, 223) 각각의 상태에 대한 상태 로그 우도(state log likelihood)를 산출하고, 산출된 상태 로그 우도 및 복수의 음향모델 상태 집합(221, 223)의 상태 공유(state tying) 정보에 기초하여 유사 상태 클러스터를 병합함으로써, 다중 집합 상태 클러스터(220)를 생성할 수 있다.
먼저, 프로세서(120)는 수학식 1을 통해 상태 로그 우도를 산출할 수 있다.
[수학식 1]
Figure pat00001
위 식에서 L(s)는 해당 상태(state)의 상태 우도, F는 각 상태 s를 구성하는 프레임의 수,
Figure pat00002
는 상태 s의 관측 음성 데이터 벡터
Figure pat00003
의 사후 관측확률,
Figure pat00004
는 상태 관측 확률을 의미한다.
위 수학식 1은 가우스 분포(Gaussian distribution)의 경우 하기 수학식 2로 변환이 가능하며, 실제 상태 로그 우도 계산시에는 수학식 2가 사용된다.
[수학식 2]
Figure pat00005
위 수학식 2에서 n은 관측 음성 데이터 벡터
Figure pat00006
의 차원에 해당한다.
이와 같이 상태 로그 우도가 산출되고 나면, 프로세서(120)는 산출된 상태 로그 우도와 복수의 음향모델 상태 집합(221, 223)의 각 상태 공유 정보에 기초하여 비슷한 음향 공간을 차지하는 유사 상태 클러스터를 병합한다.
이와 같은 유사 상태 클러스터는 다음과 같은 방법에 의해 병합될 수 있다.
먼저, 프로세서(120)는 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 상태가 병합된 경우에 대응되는 상태 로그 우도(L(state1), L(state2))를 산출할 수 있다. 그리고 임의의 두 음향모델 상태 집합의 상태 로그 우도의 합(L(state1)+L(state2))과, 결합된 경우에 대응되는 상태 로그 우도 L(statemerged))의 차(ΔLmerged)가 기 설정된 임계값(Threshold) 이하인 경우, 두 음향모델 상태 집합을 병합할 수 있다.
이와 같은 병합 기준은 수학식 3과 같이 나타낼 수 있다.
[수학식 3]
Figure pat00007
위 수학식 3과 같이, 두 상태가 결합되었을 때의 상태 로그 우도의 차(ΔLmerged)가 임계값(Threshold) 이하인 경우, 두 상태는 관측 데이터 관점에서 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로, 병합이 가능하다.
이와 달리, 프로세서(120)는 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합에 대응되는 논리적 트라이폰(logical tri-phone) 집합이 동일한 경우, 두 음향모델 상태 집합을 병합할 수 있다.
이와 같은 병합 기준은 수학식 4와 같이 나타낼 수 있다.
[수학식 4]
Figure pat00008
수학식 4에 나타난 바와 같이, 다중 상태 집합에서 선택된 임의의 두 상태 state1과 state2를 공유하는 논리적 트라이폰의 집합이 동일한 경우, 두 상태는 서로 비슷한 음향공간을 차지한다고 볼 수 있으므로 병합이 가능하다.
이때, 본 발명의 일 실시예에 따른 프로세서(120)는 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 음향모델 상태 집합과 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 두 음향모델 상태 집합을 병합할 수 있다.
즉, 두 음향모델 상태 집합의 논리적 트라이폰 집합이 완전히 동일하지 않더라도, 어느 한 집합이 다른 집합을 포함하는 관계에 있고, 포함되는 상태를 공유하는 다른 논리적 트라이폰 집합이 없는 경우, 두 상태를 병합할 수 있다.
이와 같이 유사 상태 클러스터를 병합함에 따라, 원칙적으로는 음향모델 상태 집합은 다중 집합 상태 클러스터 상에서 독립된 상태 공간(223)을 구성하되, 병합된 음향모델 상태 집합은 상태 공간(221)을 공유하도록 구성될 수 있다.
예를 들어, 한국어를 모국어로 갖는 화자의 영어 음향모델 상태 집합은 단독 상태 공간을 구성할 수도 있고, 병합된 경우 다른 모국어 화자의 영어 음향모델의 상태 공간을 공유할 수도 있다.
이와 같이 유사 상태 클러스터를 병합함에 따라 생성된 다중 집합 상태 클러스터(220)는 서로 다른 음향적 통계 특성을 갖는 다중 집합 훈련 음성 데이터(210)에 대해 최적화된 상태들로 구성될 수 있다.
다음으로, 도 2b를 참조하면, 프로세서(120)는 다중 집합 훈련 음성 데이터(210)를 입력 노드로 설정하고, 다중 집합 상태 클러스터(220)를 출력 노드로 설정하여, 심층 신경망 구조 파라미터(230)를 학습한다.
이때, 프로세서(120)는 음향모델 상태 집합 각각에 대한 상태 레벨 정렬(state-level alignment) 정보를 생성하고, 생성된 상태 레벨 정렬 정보를 포함하는 다중 집합 훈련 음성 데이터(210)를 입력 노드로 설정할 수 있다.
본 발명의 일 실시예의 경우, 프로세서(120)는 상태 레벨 정렬 정보를 해당 집합 훈련 데이터로 훈련한 도 2a에서의 HMM 모델로부터 생성할 수 있는바, 더욱 정확한 정렬 정보를 가질 수 있다는 장점이 있다.
프로세서(120)는 상태 레벨 정렬 정보로부터 얻어진 각 상태별 훈련 데이터 및 레이블을 입력 노드로 설정하고, 다중 집합 상태 클러스터(220)로부터 얻어진 상태들을 출력 노드로 설정하여, 심층 신경망 구조 파라미터(230)를 학습하게 된다.
한편, 심층 신경망 구조 파라미터(230)는 다음과 같은 과정을 통해 학습될 수 있다. 먼저, 집합 훈련 음성 데이터(211)의 각 샘플에 대해 상태 레벨 정렬 정보로부터 정답이 결정된 특정 출력 노드(상태)가 온(on)이 되고, 나머지 출력 노드는 오프(off)가 되도록하는 조건이 만족되도록 심층 신경망 구조 파라미터(230)를 학습시킨다. 프로세서(120)는 이러한 과정을 거쳐 사전에 설정된 횟수만큼의 반복을 통해 최적의 학습된 심층 신경망 구조 파라미터(230)를 생성할 수 있다.
이때, 프로세서(120)는 다중 집합 훈련 음성 데이터(210)에 포함된 각각의 집합 훈련 음성 데이터(211)를 입력 노드로 설정하고, 각각의 집합 훈련 음성 데이터(211)에 각각 대응되는 다중 집합 상태 클러스터(220)에 포함된 음향모델 상태 집합(221, 223)을 출력 노드로 설정할 수 있다.
예를 들어, 프로세서(120)는 먼저 한국어를 모국어로 갖는 화자의 훈련용 영어 음성 데이터 집합을 입력 노드로 설정하고, 한국어 모국어 화자의 영어 음향모델 상태 집합이 출력 노드로 설정되도록 하여 학습을 수행한다.
이후, 순차적으로 다른 모국어 화자의 훈련용 음성 데이터 집합을 입력 노드로 설정하고, 다른 모국어 화자의 영어 음향모델 상태 집합을 출력 노드로 설정하여 학습을 수행한다.
이 과정에서, 프로세서(120)는 입력 노드 집합과 관계가 없는 다른 상태 클러스터로의 출력 노드 연결을 끊고, 해당 집합 상태 클러스터로의 출력 노드 연결이 학습되게 함으로써, 더욱 정밀한 형태의 학습이 진행되게끔 할 수 있다.
다음으로, 도 2c를 참조하면, 프로세서(120)는 도 2b에서와 같이 DNN 학습단계에 의해 학습되어 획득된 최종 심층 신경망 구조 파라미터(230)와, 도 2a에서 설명한 각 단계에 의해 획득된 다중 집합 상태 클러스터(220)를 갖는 DNN-HMM 구조의 음향모델을 사용하여 사용자 인터페이스를 통해 입력된 사용자의 음성을 인식할 수 있다.
프로세서(120)는 사용자 인터페이스를 통해 사용자의 음성 및 사용자의 음성의 특성 정보를 입력받는다. 이때, 사용자의 음성의 특성 정보는 예를 들어, 영어/한국어/중국어 등과 같은 모국어 정보일 수 있다. 프로세서(120)는 사용자로부터 입력받은 음성의 특성 정보에 대응하는 음향모델 상태 집합(221)을 출력 노드로 설정하여, 학습된 심층 신경망 구조 파라미터(230)에 기초하여 사용자의 음성을 인식할 수 있다.
즉, 음성 인식 단계에서 화자는 본인의 모국어를 알고 있으므로, 모국어 선택 버튼을 입력하는 등 사용자 인터페이스를 통해 특정 모국어 음성 집합을 입력받으면, 프로세서(120)는 전체 다중 집합 상태 클러스터(220) 중 특정 음향모델 상태 집합(221)만을 출력 노드로 설정함으로써 음성 인식이 가능하게 된다.
이하에서는 도 3 및 도 4를 참조하여 본 발명의 일 실시예에 따른 음성인식 방법을 설명하도록 한다.
도 3은 본 발명의 일 실시예에 따른 음성인식 방법의 순서도이다. 도 4는 다중 집합 상태 클러스터를 생성하는 방법의 순서도이다.
본 발명의 일 실시예에 따른 음성인식 방법은 먼저, 다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성한다(S310).
다음으로, 생성된 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성한다(S320). 이때, 다중 집합 상태 클러스터는 도 4에 도시된 각 단계에 의해 생성될 수 있다.
도 4를 참조하면, 다중 집합 상태 클러스터를 생성하는 단계는, 먼저 복수의 음향모델 상태 집합을 수집하여 다중 상태 집합을 생성한다(S321). 그리고 아래의 단계와 같이 다중 상태 집합을 클러스팅하여 다중 상태 집합 클러스터를 생성한다
구체적으로, 복수의 음향모델 상태 집합 각각에 대한 상태 로그 우도를 산출하고(S323), 상태 로그 우도 및 복수의 음향모델 상태 집합의 상태 공유 정보에 기초하여 유사 상태 클러스터를 병합한다(S325).
이때, 유사 상태 클러스터를 병합하는 단계는 아래와 같은 방법에 의해 수행될 수 있다.
먼저, 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 상태가 결합된 경우에 대응되는 상태 로그 우도를 산출하고, 임의의 두 음향모델 상태 집합의 상태 로그 우도의 합과, 결합된 경우에 대응되는 상태 로그 우도의 차가 기 설정된 임계값 이하인 경우, 두 음향모델 상태 집합을 병합할 수 있다.
이와 달리, 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합에 대응되는 논리적 트라이폰 집합이 동일한 경우, 두 음향모델 상태 집합을 병합할 수 있다. 이때, 논리적 트라이폰 집합이 완전히 동일하지 않은 경우에도, 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 음향모델 상태 집합과 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 두 음향모델 상태 집합을 병합할 수 있다.
이와 같이 유사 상태 클러스터가 병합됨에 따라 다중 집합 상태 클러스터는 생성될 수 있다(S327).
다시 도 3을 참조하면, 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습한다(S330). 구체적으로, 음향모델 상태 집합 각각에 대하여 생성된 상태 레벨 정렬 정보를 포함하는 다중 집합 훈련 음성 데이터에 포함된 각각의 집합 훈련 음성 데이터를 입력 노드로 설정하고, 각각의 집합 훈련 음성 데이터에 각각 대응되는 다중 집합 상태 클러스터에 포함된 음향모델 상태집합을 출력 노드로 설정함에 따라, 심층 신경망 구조 파라미터를 학습할 수 있다.
다음으로, 사용자 인터페이스를 통해 사용자의 음성 및 사용자의 음성의 특성 정보를 입력받으면 (S340), 입력된 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식한다(S350).
상술한 설명에서, 단계 S310 내지 S350은 본 발명의 구현예에 따라서, 추가적인 단계들로 더 분할되거나, 더 적은 단계들로 조합될 수 있다. 또한, 일부 단계는 필요에 따라 생략될 수도 있고, 단계 간의 순서가 변경될 수도 있다. 아울러, 기타 생략된 내용이라 하더라도 도 1 내지 도 2c에서의 음성인식 장치(100)에 관하여 이미 기술된 내용은 도 3 및 도 4의 음성인식 방법에도 적용된다.
상술한 본 발명의 일 실시예에 따르면, 서로 다른 음향적 통계 특성을 수용하는 공통의 DNN 구조 파라미터와, 다중 집합 상태 클러스터를 수용하는 DNN-HMM 구조를 가지면서도, 선택된 특정 집합의 입력 음성에 대하여 더 적은 수의 상태 집합 출력 노드를 대상으로 훈련 및 인식을 수행함으로써, 더욱 최적화된 DNN-HMM 구조 음향모델 파라미터를 학습 및 음성인식에 사용할 수 있다는 장점이 있다.
특히, 본 발명에 따르면 다중 모국어 화자를 대상으로 한 음성인식과 같이, 서로 다른 음향적 통계 특성을 갖는 음성 입력에 대한 대어휘 음성인식이 가능하다.
본 발명의 일 실시예에 따른 대화 음성인식 장치(100)에서의 음성인식 방법은 컴퓨터에 의해 실행되는 매체에 저장된 컴퓨터 프로그램 또는 컴퓨터에 의해 실행가능한 명령어를 포함하는 기록 매체의 형태로도 구현될 수 있다. 컴퓨터 판독 가능 매체는 컴퓨터에 의해 액세스될 수 있는 임의의 가용 매체일 수 있고, 휘발성 및 비휘발성 매체, 분리형 및 비분리형 매체를 모두 포함한다. 또한, 컴퓨터 판독가능 매체는 컴퓨터 저장 매체 및 통신 매체를 모두 포함할 수 있다. 컴퓨터 저장 매체는 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈 또는 기타 데이터와 같은 정보의 저장을 위한 임의의 방법 또는 기술로 구현된 휘발성 및 비휘발성, 분리형 및 비분리형 매체를 모두 포함한다. 통신 매체는 전형적으로 컴퓨터 판독가능 명령어, 데이터 구조, 프로그램 모듈, 또는 반송파와 같은 변조된 데이터 신호의 기타 데이터, 또는 기타 전송 메커니즘을 포함하며, 임의의 정보 전달 매체를 포함한다.
본 발명의 방법 및 시스템은 특정 실시예와 관련하여 설명되었지만, 그것들의 구성 요소 또는 동작의 일부 또는 전부는 범용 하드웨어 아키텍쳐를 갖는 컴퓨터 시스템을 사용하여 구현될 수 있다.
전술한 본 발명의 설명은 예시를 위한 것이며, 본 발명이 속하는 기술분야의 통상의 지식을 가진 자는 본 발명의 기술적 사상이나 필수적인 특징을 변경하지 않고서 다른 구체적인 형태로 쉽게 변형이 가능하다는 것을 이해할 수 있을 것이다. 그러므로 이상에서 기술한 실시예들은 모든 면에서 예시적인 것이며 한정적이 아닌 것으로 이해해야만 한다. 예를 들어, 단일형으로 설명되어 있는 각 구성 요소는 분산되어 실시될 수도 있으며, 마찬가지로 분산된 것으로 설명되어 있는 구성 요소들도 결합된 형태로 실시될 수 있다.
본 발명의 범위는 상기 상세한 설명보다는 후술하는 특허청구범위에 의하여 나타내어지며, 특허청구범위의 의미 및 범위 그리고 그 균등 개념으로부터 도출되는 모든 변경 또는 변형된 형태가 본 발명의 범위에 포함되는 것으로 해석되어야 한다.
100: 음성인식 장치 110: 메모리
120: 프로세서 210: 다중 집합 훈련 음성 데이터
211: 집합 훈련 음성 데이터 220: 다중 집합 상태 클러스터
221, 223: 음향모델 상태 집합 230: 심층 신경망 구조 파라미터

Claims (19)

  1. 심층 신경망 음향모델에 기초한 음성인식 장치에 있어서,
    메모리 및 상기 메모리에 저장된 프로그램을 실행시키는 프로세서를 포함하되,
    상기 프로세서는 상기 프로그램을 실행시킴에 따라,
    다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성하고, 상기 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성하며,
    상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습하며,
    사용자 인터페이스를 통해 사용자의 음성 및 상기 음성의 특성 정보를 입력받으면, 상기 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 상기 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식하는 것인 음성인식 장치.
  2. 제 1 항에 있어서,
    상기 프로세서는 상기 복수의 음향모델 상태 집합을 수집하여 다중 상태 집합을 생성하고, 상기 다중 상태 집합을 클러스팅하여 상기 다중 집합 상태 클러스터를 생성하는 것인 음성인식 장치.
  3. 제 2 항에 있어서,
    상기 프로세서는 상기 복수의 음향모델 상태 집합 각각의 상태에 대한 상태 로그 우도를 산출하고, 상기 상태 로그 우도 및 상기 복수의 음향모델 상태 집합의 상태 공유 정보에 기초하여 유사 상태 클러스터를 병합하여 상기 다중 집합 상태 클러스터를 생성하는 것인 음성인식 장치.
  4. 제 3 항에 있어서,
    상기 프로세서는 상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 상태가 병합된 경우에 대응되는 상태 로그 우도를 산출하고, 상기 임의의 두 음향모델 상태 집합의 상태 로그 우도의 합과 상기 결합된 경우에 대응되는 상태 로그 우도의 차가 기 설정된 임계값 이하인 경우, 상기 두 음향모델 상태 집합을 병합하는 것인 음성인식 장치.
  5. 제 3 항에 있어서,
    상기 프로세서는 상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합에 대응되는 논리적 트라이폰 집합이 동일한 경우, 상기 두 음향모델 상태 집합을 병합하는 것인 음성인식 장치.
  6. 제 3 항에 있어서,
    상기 프로세서는 상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 음향모델 상태 집합과 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 상기 두 음향모델 상태 집합을 병합하는 것인 음성인식 장치.
  7. 제 4 항 내지 제 6 항 중 어느 한 항에 있어서,
    상기 음향모델 상태 집합은 상기 다중 집합 상태 클러스터 상에서 독립된 상태 공간을 구성하되, 상기 병합된 음향모델 상태 집합은 상기 상태 공간을 공유하도록 구성되는 것인 음성인식 장치.
  8. 제 1 항에 있어서,
    상기 프로세서는 상기 음향모델 상태 집합 각각에 대한 상태 레벨 정렬 정보를 생성하고, 상기 생성된 상태 레벨 정렬 정보를 포함하는 상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하는 것인 음성인식 장치.
  9. 제 1 항에 있어서,
    상기 프로세서는 상기 다중 집합 훈련 음성 데이터에 포함된 각각의 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 각각의 집합 훈련 음성 데이터에 각각 대응되는 상기 다중 집합 상태 클러스터에 포함된 음향모델 상태집합을 출력 노드로 설정하는 것인 음성인식 장치.
  10. 제 1 항에 있어서,
    상기 복수의 집합 훈련 음성 데이터는 각각 서로 다른 음향적 통계 특성을 갖는 것인 음성인식 장치.
  11. 제 10 항에 있어서,
    상기 서로 다른 음향적 통계 특성은 서로 다른 모국어를 갖는 각 화자에 대응되는 음향적 통계 특성인 것인 음성인식 장치.
  12. 심층 신경망 음향모델에 기초한 음성인식 방법에 있어서,
    다중 집합 훈련 음성 데이터에 포함된 복수의 집합 훈련 음성 데이터 각각에 대응하는 음향모델 상태 집합을 생성하는 단계;
    상기 음향모델 상태 집합으로부터 다중 집합 상태 클러스터를 생성하는 단계;
    상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 다중 집합 상태 클러스터를 출력 노드로 설정하여, 심층 신경망 구조 파라미터를 학습하는 단계;
    사용자 인터페이스를 통해 사용자의 음성 및 상기 음성의 특성 정보를 입력받는 단계 및
    상기 음성의 특성 정보에 대응하는 음향모델 상태 집합을 출력 노드로 설정하여, 상기 학습된 심층 신경망 구조 파라미터에 기초하여 사용자의 음성을 인식하는 단계를 포함하는 음성인식 방법.
  13. 제 12 항에 있어서,
    상기 다중 집합 상태 클러스터를 생성하는 단계는,
    상기 복수의 음향모델 상태 집합을 수집하여 다중 상태 집합을 생성하는 단계 및
    상기 다중 상태 집합을 클러스팅하여 상기 다중 집합 상태 클러스터를 생성하는 단계를 포함하는 것인 음성인식 방법.
  14. 제 13 항에 있어서,
    상기 다중 상태 집합을 클러스팅하여 상기 다중 집합 상태 클러스터를 생성하는 단계는,
    상기 복수의 음향모델 상태 집합 각각의 상태에 대한 상태 로그 우도를 산출하는 단계 및
    상기 상태 로그 우도 및 상기 복수의 음향모델 상태 집합의 상태 공유 정보에 기초하여 유사 상태 클러스터를 병합하는 단계를 포함하는 것인 음성인식 방법.
  15. 제 14 항에 있어서,
    상기 유사 상태 클러스터를 병합하는 단계는,
    상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 상태가 결합된 경우에 대응되는 상태 로그 우도를 산출하는 단계 및
    상기 임의의 두 음향모델 상태 집합의 상태 로그 우도의 합과 상기 결합된 경우에 대응되는 상태 로그 우도의 차가 기 설정된 임계값 이하인 경우, 상기 두 음향모델 상태 집합을 병합하는 단계를 포함하는 것인 음성 인식 방법.
  16. 제 14 항에 있어서,
    상기 유사 상태 클러스터를 병합하는 단계는,
    상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합에 대응되는 논리적 트라이폰 집합이 동일한 경우, 상기 두 음향모델 상태 집합을 병합하는 것인 음성 인식 방법.
  17. 제 14 항에 있어서,
    상기 유사 상태 클러스터를 병합하는 단계는,
    상기 다중 상태 집합에 포함된 임의의 두 음향모델 상태 집합의 논리적 트라이폰 집합이 서로 포함 관계에 있고, 다른 음향모델 상태 집합과 포함 관계에 있는 논리적 트라이폰 집합이 존재하지 않는 경우, 상기 두 음향모델 상태 집합을 병합하는 것인 음성 인식 방법.
  18. 제 12 항에 있어서,
    상기 음향모델 상태 집합 각각에 대한 상태 레벨 정렬 정보를 생성하는 단계를 더 포함하되,
    상기 심층 신경망 구조 파라미터를 학습하는 단계는,
    상기 생성된 상태 레벨 정렬 정보를 포함하는 상기 다중 집합 훈련 음성 데이터를 입력 노드로 설정하는 것인 음성인식 방법.
  19. 제 12 항에 있어서,
    상기 심층 신경망 구조 파라미터를 학습하는 단계는,
    상기 다중 집합 훈련 음성 데이터에 포함된 각각의 집합 훈련 음성 데이터를 입력 노드로 설정하고, 상기 각각의 집합 훈련 음성 데이터에 각각 대응되는 상기 다중 집합 상태 클러스터에 포함된 음향모델 상태집합을 출력 노드로 설정하는 것인 음성인식 방법.
KR1020160005755A 2016-01-18 2016-01-18 음성인식 장치 및 방법 KR102069699B1 (ko)

Priority Applications (2)

Application Number Priority Date Filing Date Title
KR1020160005755A KR102069699B1 (ko) 2016-01-18 2016-01-18 음성인식 장치 및 방법
US15/187,581 US9959862B2 (en) 2016-01-18 2016-06-20 Apparatus and method for recognizing speech based on a deep-neural-network (DNN) sound model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR1020160005755A KR102069699B1 (ko) 2016-01-18 2016-01-18 음성인식 장치 및 방법

Publications (2)

Publication Number Publication Date
KR20170086214A true KR20170086214A (ko) 2017-07-26
KR102069699B1 KR102069699B1 (ko) 2020-01-23

Family

ID=59314613

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020160005755A KR102069699B1 (ko) 2016-01-18 2016-01-18 음성인식 장치 및 방법

Country Status (2)

Country Link
US (1) US9959862B2 (ko)
KR (1) KR102069699B1 (ko)

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190062008A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
KR102464945B1 (ko) * 2021-08-18 2022-11-10 한국과학기술정보연구원 기계 학습을 이용한 신호 데이터 상태 분석 장치 및 방법

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN107564513B (zh) 2016-06-30 2020-09-08 阿里巴巴集团控股有限公司 语音识别方法及装置
KR20190041790A (ko) 2017-10-13 2019-04-23 한국전자통신연구원 신경망 번역 모델 구축 장치 및 방법
KR20190105368A (ko) 2018-03-05 2019-09-17 한국전자통신연구원 심층신경망 모델의 선형 근사화 방법 및 장치
KR102635469B1 (ko) 2019-03-18 2024-02-13 한국전자통신연구원 컨볼루션 뉴럴 네트워크에 기반한 음향 이벤트 인식 방법 및 장치
KR20210079666A (ko) * 2019-12-20 2021-06-30 엘지전자 주식회사 음향 모델을 학습시키기 위한 인공 지능 장치

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US946071A (en) * 1907-10-09 1910-01-11 Ira Robbins Company Envelop-sealing machine.
US20090119105A1 (en) * 2006-03-31 2009-05-07 Hong Kook Kim Acoustic Model Adaptation Methods Based on Pronunciation Variability Analysis for Enhancing the Recognition of Voice of Non-Native Speaker and Apparatus Thereof
US20110288869A1 (en) * 2010-05-21 2011-11-24 Xavier Menendez-Pidal Robustness to environmental changes of a context dependent speech recognizer

Family Cites Families (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
DE19636739C1 (de) 1996-09-10 1997-07-03 Siemens Ag Verfahren zur Mehrsprachenverwendung eines hidden Markov Lautmodelles in einem Spracherkennungssystem
ITTO980383A1 (it) 1998-05-07 1999-11-07 Cselt Centro Studi Lab Telecom Procedimento e dispositivo di riconoscimento vocale con doppio passo di riconoscimento neurale e markoviano.
KR20120045582A (ko) 2010-10-29 2012-05-09 한국전자통신연구원 음향 모델 생성 장치 및 방법
KR20140079092A (ko) 2012-12-18 2014-06-26 한국전자통신연구원 음향그룹의 전이확률을 활용한 문맥독립 성별인식 방법 및 장치
US9460711B1 (en) * 2013-04-15 2016-10-04 Google Inc. Multilingual, acoustic deep neural networks
US9728184B2 (en) 2013-06-18 2017-08-08 Microsoft Technology Licensing, Llc Restructuring deep neural network acoustic models
US9721561B2 (en) * 2013-12-05 2017-08-01 Nuance Communications, Inc. Method and apparatus for speech recognition using neural networks with speaker adaptation

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US946071A (en) * 1907-10-09 1910-01-11 Ira Robbins Company Envelop-sealing machine.
US20090119105A1 (en) * 2006-03-31 2009-05-07 Hong Kook Kim Acoustic Model Adaptation Methods Based on Pronunciation Variability Analysis for Enhancing the Recognition of Voice of Non-Native Speaker and Apparatus Thereof
US20110288869A1 (en) * 2010-05-21 2011-11-24 Xavier Menendez-Pidal Robustness to environmental changes of a context dependent speech recognizer

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR20190062008A (ko) * 2017-11-28 2019-06-05 한국전자통신연구원 음성인식용 음향모델을 위한 심층 신경망 기반 상태 결정 장치 및 방법
US11282501B2 (en) 2018-10-19 2022-03-22 Samsung Electronics Co., Ltd. Speech recognition method and apparatus
KR102464945B1 (ko) * 2021-08-18 2022-11-10 한국과학기술정보연구원 기계 학습을 이용한 신호 데이터 상태 분석 장치 및 방법

Also Published As

Publication number Publication date
US20170206894A1 (en) 2017-07-20
KR102069699B1 (ko) 2020-01-23
US9959862B2 (en) 2018-05-01

Similar Documents

Publication Publication Date Title
KR102069699B1 (ko) 음성인식 장치 및 방법
US10249294B2 (en) Speech recognition system and method
CN105679317B (zh) 用于训练语言模型并识别语音的方法和设备
CN106328127B (zh) 语音识别设备,语音识别方法和电子装置
CN105122279B (zh) 在识别系统中保守地适配深度神经网络
US10629185B2 (en) Statistical acoustic model adaptation method, acoustic model learning method suitable for statistical acoustic model adaptation, storage medium storing parameters for building deep neural network, and computer program for adapting statistical acoustic model
ES2540995T3 (es) Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
Shannon Optimizing expected word error rate via sampling for speech recognition
JP2005091476A (ja) 音声モデルの雑音適応化システム、雑音適応化方法、及び、音声認識雑音適応化プログラム
Del-Agua et al. Speaker-adapted confidence measures for ASR using deep bidirectional recurrent neural networks
Chien Online hierarchical transformation of hidden Markov models for speech recognition
JP7209330B2 (ja) 識別器、学習済モデル、学習方法
KR20160059265A (ko) 신뢰도 측점 점수를 고려한 음향 모델 학습 방법 및 장치
Bacchiani et al. Context dependent state tying for speech recognition using deep neural network acoustic models
Lu et al. Pykaldi2: Yet another speech toolkit based on kaldi and pytorch
JPWO2007105409A1 (ja) 標準パタン適応装置、標準パタン適応方法および標準パタン適応プログラム
JP2019105899A (ja) 学習方法
JP2012177815A (ja) 音響モデル学習装置、および音響モデル学習方法
JP5079760B2 (ja) 音響モデルパラメータ学習装置、音響モデルパラメータ学習方法、音響モデルパラメータ学習プログラム
JP4964194B2 (ja) 音声認識モデル作成装置とその方法、音声認識装置とその方法、プログラムとその記録媒体
Cui et al. Hidden markov acoustic modeling with bootstrap and restructuring for low-resourced languages
JP5738216B2 (ja) 特徴量補正パラメータ推定装置、音声認識システム、特徴量補正パラメータ推定方法、音声認識方法及びプログラム
JP2004117503A (ja) 音声認識用音響モデル作成方法、その装置、そのプログラムおよびその記録媒体、上記音響モデルを用いる音声認識装置
JP2019078857A (ja) 音響モデルの学習方法及びコンピュータプログラム
KR20170091903A (ko) 심층 신경망 기반의 음성 인식 시스템 및 방법

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right