KR102134201B1 - 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 - Google Patents

숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 Download PDF

Info

Publication number
KR102134201B1
KR102134201B1 KR1020187019678A KR20187019678A KR102134201B1 KR 102134201 B1 KR102134201 B1 KR 102134201B1 KR 1020187019678 A KR1020187019678 A KR 1020187019678A KR 20187019678 A KR20187019678 A KR 20187019678A KR 102134201 B1 KR102134201 B1 KR 102134201B1
Authority
KR
South Korea
Prior art keywords
training data
training
acoustic
model
phoneme
Prior art date
Application number
KR1020187019678A
Other languages
English (en)
Other versions
KR20180091903A (ko
Inventor
푸장 우
빙화 치안
웨이 리
케 리
용지안 우
페위에 후앙
Original Assignee
텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 텐센트 테크놀로지(센젠) 컴퍼니 리미티드 filed Critical 텐센트 테크놀로지(센젠) 컴퍼니 리미티드
Publication of KR20180091903A publication Critical patent/KR20180091903A/ko
Application granted granted Critical
Publication of KR102134201B1 publication Critical patent/KR102134201B1/ko

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/183Speech classification or search using natural language modelling using context dependencies, e.g. language models
    • G10L15/187Phonemic context, e.g. pronunciation rules, phonotactical constraints or phoneme n-grams
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • G10L2015/025Phonemes, fenemes or fenones being the recognition units
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Computational Linguistics (AREA)
  • Probability & Statistics with Applications (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Signal Processing (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)
  • Electrically Operated Instructional Devices (AREA)
  • Character Discrimination (AREA)
  • Telephonic Communication Services (AREA)

Abstract

숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법이 제공된다. 음성 복호화 네트워크를 구축하기 위한 방법은, 숫자를 음성 녹음하여 얻어지는 훈련 데이터를 획득하는 단계(110) - 훈련 데이터는 복수의 음성 세그먼트를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -; 훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계(130); 훈련 데이터 내의 숫자에 대응하는 특징 시퀀스 및 폰에 따라, 단일 음소 음향 모델로 시작하는 점진적인 훈련을 수행함으로써 음향 모델을 획득하는 단계(150); 및 언어 모델을 획득하고, 언어 모델 및 훈련을 통해 획득된 음향 모델을 통해 음성 복호화 네트워크를 구축하는 단계(170)를 포함한다.

Description

숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
본 출원은 2016년 3월 29일에 출원된 중국 특허출원 제201610188168.9호("METHOD AND APPARATUS FOR CONSTRUCTING SPEECH DECODING NETWORK IN DIGIT SPEECH RECOGNITION")에 대해 우선권을 주장하는 바이며, 그 전체 내용이 원용에 의해 본 명세서에 포함된다. 본 개시는 음성 인식 기술 분야에 관한 것으로, 상세하게는 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법, 장치, 및 저장 매체에 관한 것이다.
음성 인식이란 음성 신호가 음성 복호화기에 의해 단어로 변환되는 과정을 말한다. 음성 복호화기를 보통 음향 모델과 언어 모델로 구성된 음성 복호화 네트워크라고도 한다. 음향 모델 및 언어 모델은 각각 음성-음절 확률(speech-to-syllable probability)과 음절-단어 확률(syllable-to-word probability)을 계산하는 것에 대응한다. 음향 모델과 언어 모델은 모두 다수의 언어 데이터에 의한 훈련 및 추가적인 모델링을 통해 획득된다.
0에서 9까지의 숫자를 인식하기 위한 음성 인식을 숫자 음성 인식이라고도 한다. 숫자 음성 인식은 2가지 유형의 방법을 이용하여 구현될 수 있다. 하나의 유형은 고립 단어 인식 기술(isolated word recognition technology)을 채택하여 음성의 숫자를 인식하는 것이고, 다른 유형은 범용 연속 음성 인식 기술을 채택하여 음성의 숫자를 인식하는 것이다.
고립 단어 인식 기술에 기반을 둔 숫자 음성 인식에서는, 숫자 음성이 입력될 때 숫자들 사이에 명확한 간격이 존재해야 한다.
따라서, 음성 인식을 위해 범용 연속 음성 인식 기술(universal continuous speech recognition technology)이 더 자주 사용된다. 범용 연속 음성 인식 기술은 숫자를 인식할 뿐만 아니라 다른 언어 콘텐츠도 인식한다.
숫자 음성에 있어서 인식 정확도를 개선하기 위해, 본 출원의 실시예는 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법, 장치, 및 저장 매체를 제공한다.
본 명세서의 실시예에 의해 채택된 기술적인 방식은 다음과 같다.
숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법은, 숫자를 음성 녹음하여 얻어지는 훈련 데이터(training data)를 획득하는 단계 - 상기 훈련 데이터는 복수의 음성 세그먼트(speech segment)를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -; 상기 훈련 데이터에 대해 음향적 특징 추출(acoustic feature extraction)을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계; 단일 음소 음향 모델(mono-phoneme acoustic model)에서 시작하는 점진적 훈련(progressive training)을 수행함으로써, 상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 음소에 따른 음향 모델을 획득하는 단계; 및 언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하는 단계를 포함한다.
숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치는, 숫자를 음성 녹음하여 얻어지는 훈련 데이터를 획득하도록 구성된 훈련 데이터 획득 모듈 - 상기 훈련 데이터는 복수의 음성 세그먼트를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -; 상기 훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하도록 구성된 음향 특징 추출 모듈; 단일 음소 음향 모델에서 시작하는 점진적인 훈련을 수행함으로써, 상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 상기 음소에 따른 음향 모델을 획득하도록 구성된 음향 모델 획득 모듈; 및 언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하도록 구성된 언어 모델 획득 모듈을 포함한다.
컴퓨터 판독가능 비휘발성 저장 매체는 기계 판독 가능 명령을 저장하고 있고, 상기 기계 판독 가능 명령은 프로세서에 의해 실행됨으로써,
숫자를 음성 녹음하여 얻어지는 훈련 데이터를 획득하는 단계 - 상기 훈련 데이터는 복수의 음성 세그먼트를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -;
상기 훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계;
상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 음소에 따라, 단일 음소 음향 모델에서 시작하는 점진적 훈련을 수행함으로써 음향 모드를 획득하는 단계; 및
언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하는 단계를 수행하는 것을 특징으로 한다.
단일 음소 음향 모델에서 시작하는 점진적인 훈련이 수행되어 음향 모델을 획득할 수 있도록, 각각의 음성 세그먼트에 대응하는 특징 시퀀스 및 훈련 데이터 내의 숫자에 대응하는 음소에 따라, 훈련 데이터 내의 각각의 음성 세그먼트에 대해 음향적 특징 추출이 수행되고, 그 다음에 획득된 언어 모델을 이용하여 음성 복호화 네트워크가 구성된다. 다시 말해서, 음성 복호화 네트워크의 음향 모델이 점진적인 훈련 방식을 이용하여 획득되고, 즉 단일 음소 음향 모델이 훈련 기반으로서 채택되고, 그 다음에 제2 훈련이 수행되어 음향 모델을 획득함으로써, 음향 모델 훈련의 수렴 속도가 빨라지고 또한 숫자 음성의 인식 정확도가 효과적으로 높아진다.
도 1은 고립 인식 기술의 방법 흐름도이다.
도 2는 범용 연속 음성 인식 기술의 방법 흐름도이다.
도 3은 본 발명의 일부 실시예에 의해 제공되는, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법을 나타낸 흐름도이다.
도 4는 본 출원의 일부 실시예에서 도 3의 훈련 데이터에 대해 음향적 특징 추출을 수행하기 위한 방법 흐름도이다.
도 5는 본 출원의 일부 실시예에서 도 3의 단일 음소 음향 모델에서 시작하는 점진적인 훈련을 수행하여 음향 모델을 획득하기 위한 방법 흐름도이다.
도 6은 본 출원의 일부 실시예에서 도 5의 단일 음소의 구분된 상태에 따라 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행하기 위한 방법 흐름도이다.
도 7은 본 출원의 일부 실시예에 따라 단일 음소에 대한 GMM-HMM을 구성하는 것을 나타낸 개략도이다.
도 8은 본 출원의 일부 실시예에서 도 5의 3-음소의 구분된 상태에 따라 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행하기 위한 방법 흐름도이다.
도 9는 본 출원의 일부 실시예에 따른, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치의 구조 블록도이다
도 10은 본 출원의 일부 실시예에서 도 9의 음향 특징 추출 모듈의 구조 블록도이다.
도 11은 본 출원의 일부 실시예에서 도 9의 음향 모델 획득 모듈의 구조 블록도이다.
도 12는 본 출원의 일부 실시예에서 도 11의 제1 모델 획득 유닛의 구조 블록도이다.
도 13은 본 출원의 일부 실시예에서 도 11의 제2 모델 획득 유닛의 구조 블록도이다.
도 14는 본 출원의 일부 실시예에 따른, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치를 개략적으로 나타낸 구조도이다.
이하의 설명에서는 본 개시의 특징과 이점을 나타내는 전형적인 실시예에 대해 상세하게 설명할 것이다. 본 개시에서는 본 개시의 범위에서 벗어나지 않고 다양한 실시예로 다양한 변경이 제공되며, 본 개시의 설명과 도면이 본질적으로 예시적인 것일 뿐이며, 본 개시를 제한하는 데 사용되지 않는다고 이해해야 한다.
전술한 바와 같이, 2가지 유형의 방법을 이용하여 숫자 음성 인식이 구현될 수 있다. 하나의 유형은 고립 단어 인식 기술(isolated word recognition technology)이고, 다른 유형은 범용 연속 음성 인식 기술(universal continuous speech recognition technology)이다.
한편, 도 1에 도시된 바와 같이, 고립 단어 인식 기술에 기반하여 구성되는 음성 인식 방법에서는, 입력된 숫자 음성의 시작 위치가 종단점 검출을 통해 먼저 결정되고, 시작 위치가 결정된 숫자 음성이 복수의 유효한 음성 세그먼트(speech segment)로 분할되며, 그 다음에 각각의 음성 세그먼트에 대해 특징 추출(feature extraction)이 수행된다. 최종적으로, 추출된 특징과 사전 설정된 숫자 음성 템플릿 간의 음성 유사도를 매칭하기 위해, 동적 타임 워핑(dynamic time warping, DTW) 알고리즘이 채택된다. 가장 유사한 숫자 음성 템플릿에 대응하는 숫자는 숫자 음성의 인식 결과이다. 고립 단어 인식 기술에 기반하는 숫자 음성 인식에서는, 숫자 음성이 입력될 때 숫자들 사이에 명확한 간격이 존재할 필요가 있다. 연속 숫자 입력이 채택되면 인식되지 않거나 잘못된 인식으로 이어질 수 있는데, 이로 인해 숫자 음성의 인식 정확도가 크게 저하된다. 따라서, 고립 단어 인식 기술에 기반하는 숫자 음성 인식은 분명한 한계를 가지고 있다.
한편, 도 2에 도시된 바와 같이, 범용 연속 음성 인식 기술에 기반하는 음성 인식 방법에서는, 입력된 숫자 음성이 먼저 음향적으로 특징 추출이 되고, 추출된 음향적 특징이 숫자 시퀀스로서 복호화 네트워크 내의 음향 모델로서 인식되며, 그 다음에 숫자 시퀀스의 발생 확률이 복호화 네트워크 내의 언어 모델의 통계의 대상이 된다. 가장 큰 발생 확률을 가진 숫자 시퀀스는 숫자 음성의 인식 결과이다. 하지만, 이 기술의 인식 대상은 숫자를 포함할 뿐만 아니라 다른 언어 콘텐츠도 포함하며, 이로 인해 이 기술에 의해 사용된 음향 모델과 언어 모델이 너무 복잡해지고, 인식 속도가 상대적으로 느려지며, 숫자가 쉽게 잘못 인식되어 다른 다음(polyphonic) 단어가 되며, 그래서 숫자 음성의 인식 정확도가 충분히 높지 않다. 이 기술의 언어 모델의 인식 대상이 0부터 9까지의 10개의 숫자로 제한된다고 하더라도, 인식 정확도의 개선이 여전히 제한된다.
전술한 2가지 유형의 음성 인식 방법에는 인식 정확도가 높지 않다는 문제점이 존재한다. 숫자 음성의 인식 정확도를 개선하기 위하여, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법이 제안된다. 이 방법은 작동 능력을 갖춘 컴퓨터 장비 상에서 실행되는 컴퓨터 프로그램에 의존할 수 있다.
도 3을 참조하면, 일 실시예에서, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법은 다음의 단계를 포함한다.
단계 110: 숫자 음성 녹음에 의해 얻어지는 훈련 데이터(training data)를 획득한다.
음성 복호화 네트워크를 구축하기 위해, 음향 모델과 언어 모델이 획득될 필요가 있고, 훈련 데이터는 음향 모델과 언어 모델을 훈련하기 위한 기반이다. 소위 음향 모델이란, 음성의 음성학적 특징 유형을 음소나 단어 등의 단위에 대응시키는 것을 말한다. 언어 모델은 그 다음에 단어를 완전한 문장으로 복호화한다. 다량의 훈련 데이터를 얻음으로써, 숫자 음성 인식에 적합한 음성 복호화 네트워크가 음향 모델과 언어 모델이 구성될 수 있고, 숫자 음성 인식 비교적 정확하게 수행될 수 있도록, 비교적 정확한 음향 모델과 언어 모델이 획득될 수 있다.
본 실시예에서, 훈련 데이터는 복수의 음성 세그먼트을 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자에 대응하는 음성을 포함한다.
또한, 훈련 데이터에 포함된 복수의 음성 세그먼트가 복수의 사람에 의해 녹음되고 또한 복수의 사람에 의해 녹음된 복수의 음성 세그먼트는 동일한 사람에 대응함으로써, 모델 훈련 과정 중에 동일한 사람이 서로 다른 주파수, 서로 다른 콘텐츠, 및 서로 다른 채널을 갖는 음성 세그먼트를 가지고 있는 것을 보장할 것이다.
더 바람직하게는, 훈련 데이터 내의 각각의 음성 세그먼트가 숫자와 잡음만을 포함하고, 훈련 데이터에 존재하는 숫자는 0에서 9까지의 10개의 숫자의 세트를 형성할 수 있다.
숫자와 잡음을 포함하는 음성 세그먼트는, 디지트 음성 인식에 있어서 음성 복호화 네트워크에 사용되는 훈련 데이터로서 준비된다. 구축된 음성 복호화 네트워크는 잡음과 같이 유효하지 않은 음성의 간섭에 저항할 수 있고, 숫자 음성 인식 과정에서 잡음의 간섭을 최대로 방지할 수 있다. 음성 세그먼트는 조용한 환경에서 숫자 음성 인식에 적합할 뿐만 아니라 신호 대 잡음비가 낮은 음성에 대한 인식 효과가 우수하고, 실외 환경에서 인식 능력과 잡음 방지 능력(anti-noise ability)을 향상시킬 수 있다.
각각의 음성 세그먼트는 숫자 음성을 녹음하여 얻어지고, 숫자 음성은 실제 적용 장소의 요구사항에 따라 모델 훈련 과정 중에 실시간으로 녹음되거나 또는 모델 훈련 과정 전에 사전 녹음될 수 있다.
단계 130: 훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득한다.
음향 모델이 음성의 음향적 특징 분포를 모델링하고 훈련하여 획득되므로, 음향 모델을 모델링하고 훈련하기 전에 음향적 특징이 훈련 데이터로부터 추출될 필요가 있다.
또한, 훈련 데이터가 복수의 음성 세그먼트를 포함하므로, 음향적 특징의 추출이 훈련 데이터 내의 각각의 음성 세그먼트에 대해 각각 수행됨으로써, 특징 시퀀스 대응하는 각각의 음성 세그먼트를 획득할 것이다.
추출된 음향적 특징은, 숫자 음성 인식에 적합하도록 Mel 주파수 켑스트럼 계수(Mel frequency cepstrum coefficient, MFCC) 특징과 PITCH 특징을 포함한다.
단계 150: 단일 음소 음향 모델(mono-phoneme acoustic model)에서 시작하는 점진적인 훈련(progressive training)을 수행함으로써, 특징 시퀀스 및 훈련 데이터 내의 숫자에 대응하는 음소에 따라 음향 모델을 획득한다.
숫자의 중국 발음의 특성에 따르면, 숫자의 머리글자와 모음이 음소로서 정의된다. 음소의 문맥에 따라, 음소의 전후의 문맥을 고려하지 않고, 음소는 단일 음소들만 사용 중인 것으로 간주되는 단일 음소, 2-음소, 및 3-음소(tri-phoneme)로 세분화될 수 있다. 2-음소를 사용하는 경우에만 앞 음소 또는 뒷 음소의 문맥을 고려한다. 앞 음소와 뒷 음소의 문맥은 3-음소의 사용에서 동시에 고려된다.
이것에 기초하여, 모델링 단위로서의 음소는 단일 음소, 2-음소 또는 3-음소일 수 있다. 따라서, 단일 음소 모델은 단일 음소를 모델링 단위로서 구성하여 얻어지고, 2-음소 음향 모델은 2-음소를 모델링 단위로 구성하여 얻어지며, 3-음소 음향 모델은 3음소를 모델링 단위로 구성하여 얻어진다.
각각의 음성 세그먼트의 대응하는 특징 시퀀스를 획득한 후에, 모델 훈련의 입력이 획득된다. 다시 말해서, 음성의 음향적 특징 분포를 반영하는 음향 모델은, 훈련 데이터 내의 숫자에 대응하는 음소를 모델링 단위로서 이용하여 각각의 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행하여 획득될 수 있다.
점진적 훈련은 각각의 음성 세그먼트에 대응하는 특징 시퀀스에 대해 복수의 음향 모델링과 훈련이 수행되는 점진적인 과정이다. 간단히 말해서, 점진적 훈련의 과정은, 초기 모델에서 시작하여 훈련의 대상이 되는 비교적 정확한 중간 모델을 획득함으로써 더 정확한 최종 모델을 획득하는 훈련을 수행하는 것이다. 본 실시예에서는, 단일 음소 음향 모델에 기초하여 점진적인 훈련을 수행하여 음향 모델이 획득되므로, 점진적인 훈련에 의해 획득된 음향 모델이 비교적 정확하고, 따라서 숫자 음성의 인식 정확도를 개선하는 데 유리하다.
모델링 단위로서의 음소가 다양할 수 있기 때문에, 점진적 훈련의 시작이 단일 음소 음향 모델에만 제한되지 않음을 언급할 필요가 있다.
단계 170: 언어 모델을 획득하고, 언어 모델 및 훈련에 의해 획득된 음향 모델을 이용하여 음성 복호화 네트워크를 구성한다.
언어 모델은 언어 자체의 확률 분포를 모델링하고 훈련하여 획득된다. 일부 실시예에서, 음성에서의 숫자의 발생은 대개 소정의 규칙을 따른다. 예를 들어, 음성 다이얼링에서 전화 번호에 대응하는 숫자는 소정의 규칙에 따라 배열되거나, 생생한 음성 인쇄 검증에 있어서 랜덤 코드에 대응하는 숫자도 사전 정의된 목록으로부터 샘플링되어 추출된다.
그러므로, 숫자 음성 인식을 할 때, 언어 자체의 확률 분포는 훈련 데이터 내의 숫자들의 매칭 관계에 의해 반영될 것이다. 본 실시예에서, 언어 모델은 훈련 데이터 내의 숫자들의 매칭 관계, 예를 들어 훈련 데이터 내의 숫자들과 전화 번호 배치 규칙간의 매칭 관계, 또는 훈련 데이터 내의 숫자와 랜덤 코드의 사전 정의된 목록 간의 매칭 관계를 모델링하여 획득된다. 매칭 관계가 가까울수록 훈련 데이터에서 숫자의 발생 확률이 커진다는 것을 알 수 있다. 또한, 언어 모델은 전화 번호 배열 규칙, 또는 사전 정의된 랜덤 코드의 목록을 모델링하고 학습하여 획득될 수 있다.
음향 모델 및 언어 모델을 획득한 후, 숫자 음성 인식을 구현하기 위한 음성 복호화 네트워크가 구축된다. 형성된 음성 복호화 네트워크에서의 음향 모델은 단일 음향 모델에서 시작하는 점진적 훈련에 의해 획득되므로, 연속적인 숫자 음성 인식이 적응될 수 있고, 그래서 숫자 음성의 인식 정확도가 효과적으로 개선된다.
일 실시예에서, 단계 110 이전에, 전술한 방법은 다음의 단계를 더 포함한다.
사전 설정된 조건에 따라 훈련 데이터를 획득하기 위해, 복수 개의 숫자를 포함하는 음성 세그먼트를 녹음한다.
동일한 사람이 동일한 숫자를 포함하는 음성 세그먼트를 녹음하더라도 차이가 있을 수 있다는 것을 이해할 것이다. 이것에 기초하여, 본 실시예에서, 사전 설정된 조건에 따라 복수의 숫자를 포함하는 음성 세그먼트를 녹음하면 숫자 음성의 인식 정확도를 개선하는 것이 용이해질 것이다.
사전 설정된 조건은, 다른 상황에서 동일한 사람의 녹음 조건을 시뮬레이션하기 위해 복수의 장치를 통해 녹음하는 것 또는 복수의 사람이 녹음하는 것을 포함한다. 다시 말해, 모델 훈련 과정 중에 동일한 사람이 서로 다른 주파수, 서로 다른 콘텐츠, 및 서로 다른 채널을 갖는 음성 세그먼트를 가지고 있다는 것을 보장할 수 있도록, 상이한 사전 설정된 조건(예를 들어, 복수의 장치 또는 복수의 사람)에 따라 녹음된 복수의 음성 세그먼트가 모델 훈련 과정 동안 동일한 사람에 대응함으로써, 모델 훈련용 훈련 데이터를 이후에 사용하는 정확도를 추가로 보장한다.
구체적으로, 녹음을 위한 다양한 장치는 스마트폰, 컴퓨터, 및 태블릿 컴퓨터와 같은 마이크 휴대형 장치(microphone-carrying apparatus) 일 수 있다. 다양한 장치에 실리는 마이크의 고유한 주파수 대역이 서로 다를 수 있으므로, 다양한 장치를 통해 녹음하면 훈련 데이터 내의 각각의 음성 세그먼트가 서로 다른 채널을 가지게 될 것이다.
각 사람의 말하기 속도와 억양이 각각 다르기 때문에, 예를 들어 젊은 여성의 말하기 속도가 더 빠르고, 노인의 말하기 속도가 느리기 때문에, 훈련 데이터 내의 각각의 음성 세그먼트가 다양한 주파수를 가질 수 있도록, 음성 세그먼트가 복수의 사람에 의해 녹음된다.
또한, 사전 설정된 조건은 다양한 환경을 통해 녹음하는 것을 더 포함할 수 있다. 예를 들어, 숫자 음성 인식에 있어서 낮은 신호 대 잡음비를 가진 숫자 음성의 인식 정확도를 높이고 또한 잡음 방지 기능을 향상시킬 수 있도록, 이 환경은 조용한 교실이거나 또는 잡음으로 표시된 훈련 데이터가 수집되는 시끄러운 거리일 수 있다.
도 4를 참조하면, 일 실시예에서, 단계 130은 다음의 단계를 포함한다.
단계 131: 사전 설정된 길이에 따라 각각의 음성 세그먼트를 세분화함으로써, 각각의 음성 세그먼트에 포함된 복수의 음성 프레임을 획득한다.
각각의 음성 세그먼트의 길이가 다를 수 있으므로, 음향적 특성을 추출하는 것이 불편할 것이다. 훈련 데이터에 대한 음향적 특징 추출을 수행하기 전에, 각각의 음성 세그먼트가 먼저 동일한 길이의 음성 프레임으로 세분화될 필요가 있다.
본 실시예에서, 사전 설정된 길이는 25 ms이고, 각각의 음성 세그먼트는 25 ms의 복수의 음성 프레임으로 세분화된다. 또한, 바람직한 실시예에서, 2개의 인접한 음성 프레임 간에는 중첩이 존재한다. 예를 들어, 미리 설정된 길이에 따라 음성 세그먼트의 세분화의 신뢰도를 향상시키기 위해, 25ms의 2개의 음성 프레임 간에는 10ms의 중첩이 존재한다.
단계 133: 음성 세그먼트에 포함된 복수의 음성 프레임 각각으로부터 Mel 주파수 켑스트럼 계수(MFCC) 특징과 PITCH 특징을 추출하고, MFCC 특징과 PITCH 특징을 통해 각각의 음성 프레임의 특징 벡터를 계산하여 획득함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 추가로 구성한다.
음성 프레임이 파형의 형태로 존재한다는 것을 이해할 수 있을 것이다. 파형은 시간 영역에서 기술 능력이 거의 없으므로 파형이 변환되어야 한다.
본 실시예에서, 각각의 음성 프레임이 음성 세그먼트에서 획득된 후에, 음성 프레임에 대해 MFCC 특징과 PITCH 특징 추출과 계산이 수행되고, 각각의 음성 프레임에 대응하는 파형이 다차원 벡터로 변환되며, 즉 각각의 음성 프레임의 특징 벡터가 획득되며, 그 다음에 음성 세그먼트에 포함된 숫자가 특징 벡터로 구성된 특징 시퀀스에 의해 설명된다.
음성 프레임의 특징 벡터를 획득하기 위하 과정은 구체적으로 다음과 같다.
1) i번째 음성 세그먼트 내 t번째 음성 프레임 상에서 MFCC 특징과 PITCH 특징을 추출하여
Figure 112018067731300-pct00001
를 획득하고;
2) i번째 음성 세그먼트에 단위로서 포함된 모든 T개의 음성 프레임에 대응하는 MFCC 특징과 PITCH 특징의 평균값
Figure 112018067731300-pct00002
을 계산하며;
3) 2)에서 t번째 음성 프레임과 평균값에 대응하는 MFCC 특징과 PITCH 특징 간의 차이
Figure 112018067731300-pct00003
를 계산함으로써, 이 차이를 추가적인 특징으로서 도입함으로써 음향적 특징 추출의 신뢰도를 개선하며;
4) 음향적 특징 추출의 신뢰도를 추가로 개선하기 위해, t번째 음성 프레임 전후의 복수의 인접한 음성 프레임에 대응하는 MFCC 특징과 PITCH 특징을 가진 t번째 음성 프레임에 대응하는 MFCC 특징과 PITCH 특징을 이어 맞춤으로써, 4를 예로 들어, 스플라이싱에 의해 형성되는 고차원 특징
Figure 112018067731300-pct00004
을 획득하고;
5) 추출의 신뢰도를 보장하고 또한 계산 복잡도를 감소시키기 위해, 선형 판별 분석(linear discriminant analysis, LDA)를 이용하여 고차원 특징의 차원수를 감소시킴으로써, 차원적으로 감소된 특징
Figure 112018067731300-pct00005
을 획득하고;
6) 특징들 간의 상관관계를 제거하기 위해, 차원적으로 감소된 특징에 대해 최대 선형 우도 변환(maximum linear likelihood transformation, MLLT)을 수행함으로써, 최종적으로 t번째 음성 프레임
Figure 112018067731300-pct00006
의 특징 벡터를 획득하며;
7) 각각의 음성 프레임의 특징 벡터를 결합함으로써, 훈련 데이터 내의 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득한다.
도 5를 참조하면, 일 실시예에서, 단계 150는 다음의 단계를 포함한다.
단계 151: 훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득한다.
전술한 바와 같이, 단일 음소 자체는 음소 앞뒤의 맥락을 고려하지 않고 사용중인 것으로 간주된다. 예를 들어, 숫자 1에 해당하는 단일 음소는 Y(머리글자)와 I(모음)를 포함한다.
구체적으로, 훈련 데이터에서, 숫자에 대응하는 단일 음소가 단일 음소의 세트를 통해 획득될 수 있도록, 단일 음소의 세트가 각각의 음성 세그먼트에 존재하는 복수 개의 숫자로부터 구성된다. 예를 들어, 훈련 데이터의 음성 세그먼트는 숫자 1과 숫자 3을 포함하고, 이때 숫자 1과 숫자 3으로 구성된 단일 음소의 세트가 {Y, I, S, AN}이다.
단계 153: 단일 음소의 구분된 상태에 따라, 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링 및 훈련을 수행함으로써, 단일 음소에 대응하는 단일 음소 음향 모델을 획득한다.
상태는 음소보다 기본적인 음성 단위이다. 숫자 음성 인식 과정에서, 여러 개의 상태가 음소를 구성하고, 여러 개의 음소가 숫자를 구성한다. 음향 모델을 획득하는 과정은 숫자를 다른 상태에 각각 대응시킨다.
또한, 전술한 바와 같이, 훈련 데이터 내의 복수의 숫자를 포함하는 음성 세그먼트가 먼저 세분화되어 여러 개의 음성 프레임을 형성하고, 음성 세그먼트에 대응하는 특징 시퀀스를 획득하기 위해 음향적 특징이 추출된다. 이것에 기반하여, 음향 모델링은 상태와 특징 시퀀스 간의 대응 관계를 구축하는 것이다. 모델 훈련은, 숫자 음성 인식 과정 중에, 입력된 숫자 음성으로부터 추출된 특징 시퀀스가 상태와 특징 시퀀스 간의 최적 대응 관계에 따라 다양한 상태에 대응할 수 있도록, 구축된 대응 관계를 최적화하는 것이다. 상태는 음소로 결합되고, 음소는 숫자로 결합됨으로써, 숫자 음성의 인식 결과를 얻는다.
본 실시예에서, 음성 세그먼트에 대응하는 특징 시퀀스는 단일 음소의 구분된 상태에 따라 음향적으로 모델링되고 훈련된다. 상태와 특징 시퀀스 간의 대응 관계가 음향 모델링을 통해 구축되고, 구축된 대응 관계가 그 다음에 모델 훈련을 통해 최적화된다. 다시 말해, 음성 세그먼트에 대응하는 특징 시퀀스에 대응하는 상태는 단일 음소에 대응하는 단일 음소 음향 모델을 이용하여 알려질 수 있다.
단계 155: 단일 음소 음향 모델을 이용하여 훈련 데이터를 인식함으로써 2차 훈련 데이터를 획득한다.
음성 세그먼트에 대응하는 특징 시퀀스에 대응하는 상태가 단일 음소 음향 모델을 이용하여 알려질 수 있으므로, 훈련 데이터 내의 음성 세그먼트에 대응하는 특징 시퀀스가 대응하는 최적 상태 시퀀스로서 인식될 수 있도록, 훈련 데이터가 단일 음소 음향 모델을 이용하여 인식된다.
또한, 최적 상태 시퀀스가 제2 훈련 데이터인 대응하는 숫자 시퀀스로 변환될 수 있도록, 단일 음소의 대응하는 세트가 최적 상태 시퀀스를 이용하여 획득된다.
2차 훈련 데이터가 언어 모델이 없는 음성 복호화 네트워크가 1회 복호화한 후 획득되는 인식 결과라는 것을 이해할 것이다. 후속 모델 훈련을 위한 좋은 기반을 제공하기 위해, 음성 세그먼트 내 각각의 숫자의 특정 시간 위치가 2차 훈련 데이터를 통해 알려질 것이므로, 모델 훈련의 수렴 속도의 가속화를 용이하게 한다.
단계 157: 2차 훈련 데이터 내의 음성 세그먼트에 포함된 숫자에 따라, 대응하는 3-음소를 획득한다.
본 실시예에서, 2차 훈련 데이터 내 음성 세그먼트에 포함된 숫자로 구성된 3-음소의 세트에 기초하여 3-음소가 획득된다. 예를 들어, 하나의 훈련 데이터의 음성 세그먼트는 숫자 1과 숫자 3을 포함하고, 이때 숫자 1과 숫자 3으로 구성된 3-음소의 세트가 {SIL + Y-I, Y + I-S, I + S-AN, S + AN- SIL}이다. SIL은 침묵(silence)을 나타내고, 침묵은 숫자 1의 앞에 다른 숫자가 존재하지 않는다는 것을 나타낸다. Y는 숫자 1의 머리글자를 나타내고, I는 숫자 1의 모음을 나타내며, "+"는 앞 음소의 연결을 나타내고, "-"는 뒤 음소의 연결을 나타낸다. 문맥 관계를 고려하여 설정된 단일 음소에 기초하여 3-음소의 세트가 구성된다는 것을 알 수 있다.
단계 159: 3-음소의 구분된 상태에 따라, 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 3-음소에 대응하는 음향 모델을 획득한다.
전술한 바와 같이, 숫자가 대응하는 실제 상태만을 알면 인식 결과가 얻어질 수 있다.
이에 기초하여, 본 실시예에서는, 음성 세그먼트에 대응하는 특징 시퀀스가 3-음소의 구분된 상태에 따라 음향 모델링과 훈련의 대상이 될 것이다. 이 상태와 특징 시퀀스 간의 대응 관계가 음향 모델링을 통해 구축될 것이고, 구축된 대응 관계가 그 다음에 모델 훈련을 통해 최적화된다. 다시 말해, 각각의 음성 프레임에 대응하는 상태는 3-음소에 대응하는 음향 모델을 이용하여 알려질 수 있다.
전술한 바와 같은 방법에 의해, 3-음소에 대응하는 음향 모델이 단일 음소 음향 모델에 기초하여 점진적으로 훈련됨으로써, 숫자 음성의 인식 정확도를 향상시키는 데 유리하다. 또한, 3-음소를 사용하는 데 있어서 문맥 관계가 고려되기 때문에, 3-음소에 대응하는 음향 모델이 단일 음소 음향 모델에 비해 숫자 음성 인식을 더 정확하게 수행할 수 있다.
도 6을 참조하면, 일 실시예에서, 단계 153은 다음의 단계를 포함한다.
단계 1531: 은닉 마코프 모델(hidden Markov model, HMM)을 이용하여 단일 음소에 대해 상태 설명을 수행함으로써, 단일 음소의 구분된 상태를 획득한다.
본 실시예에서, HMM은 자기 루프를 갖고 스팬이 없는 3-단계 토폴로지 구조를 이용한다. 간략하게, 단일 음소의 상태 설명이 HMM에 의해 수행된다. 도 7에 도시된 바와 같이, 각각의 단일 음소가 3가지 상태로 구분된다. 각각의 상태
Figure 112018067731300-pct00007
는 각각의 상태와 인접한 다음 상태 S i+1 로 점프할 수 있을 뿐이고, a ij 는 상태 S i 에서 상태 S j 로 점프하는 전환 확률을 나타낸다.
단계 1533: 단일 음소의 구분된 상태에 기반하는 가우시안 혼합 모델(Gaussian mixture model, GMM)을 이용하여 특징 시퀀스를 모델링한다.
도 7을 계속 참조하면, 3개의 단일 음소의 구분된 상태를 획득한 후, 각각의 상태에 대해, 음성의 음향적 특징 분포를 반영하는 GMM-HMM를 획득하기 위해, 특징 시퀀스가 GMM를 이용하여 아래의 수식 (1)에 따라 모델링될 것이다.
Figure 112018067731300-pct00008
여기서,
Figure 112018067731300-pct00009
은 특징 시퀀스가 상태 S i 에 속하는 확률을 나타내고, o는 특징 시퀀스를 나타내며, D는 특징 시퀀스(o)의 차원을 나타내고, M은 가우시안 혼합의 숫자를 나타내고,
Figure 112018067731300-pct00010
m번째 가우시안 혼합의 가중치를 나타내고,
Figure 112018067731300-pct00011
은 공분산을 나타내며,
Figure 112018067731300-pct00012
은 평균 벡터를 나타낸다.
단계 1535: GMM-HMM의 파라미터를 랜덤하게 초기화하고, 기대값 최대화 알고리즘(expectation maximization algorithm)을 이용하여 랜덤 초기화에 의해 획득된 파라미터에 대해 반복적 최적화를 수행한다.
수식 (1)로부터 알려지는
Figure 112018067731300-pct00013
이 알려져 있다면, 특징 시퀀스가 대응하는 상태에 속하는 확률이 알려져 있을 수 있다. 특징 시퀀스가 소정의 상태에 속하는 확률이 가장 크다는 것을 이해할 수 있고, 이는 특징 시퀀스에 대응하는 음성 프레임이 이 상태에 속한다는 것을 의미한다.
따라서,
Figure 112018067731300-pct00014
를 알기 위하여, 모델 훈련을 통해 수식 (1)에서 알려지지 않은 파라미터의 결정된 값, 즉 GMM-HMM의 파라미터의 결정된 값을 획득할 필요가 있다. 여기서, GMM-HMM의 파라미터는 가우시안 혼합
Figure 112018067731300-pct00015
의 가중치, 공분산
Figure 112018067731300-pct00016
, 평균 벡터
Figure 112018067731300-pct00017
, 및 전환 확률 a ij 를 포함한다.
또한, 본 실시예에서는, GMM-HMM의 파라미터가 기대값 최대화 알고리즘(EM 알고리즘)을 이용하여 반복적으로 최적화됨으로써, GMM-HMM의 파라미터의 결정된 값을 획득한다. 동시에, 무작위로 초기화된 파라미터가 모델 훈련의 현재의 초기 훈련 파라미터의 역할을 할 수 있도록, GMM-HMM의 파라미터가 파라미터 반복적 최적화의 초기 단계에서 랜덤하게 초기화된다.
구체적으로, EM 알고리즘의 각각의 반복적 최적화 과정은 다음의 2개의 단계를 포함한다.
E 단계: 알려지지 않은 파라미터의 확률 분포를 현재 훈련 파라미터에 기초하여 계산한다.
M 단계: 알려지지 않은 파라미터의 확률 분포 예상치를 극대화할 수 있는 대응 파라미터로서 최적화된 파라미터를 계산한다.
최적화된 파라미터가 GMM-HMM이 수렴될 수 없게 하는 경우에는 반복적 최적화 과정을 계속하기 위해, 현재 훈련 파라미터가 최적화된 파라미터로 갱신된다.
최적화된 파라미터가 GMM-HMM이 수렴될 수 있게 하면, GMM-HMM이 단일 음소 음향 모델이라고 결정된다.
도 7을 계속 참조하면, 단일 음소 음향 모델이 획득된 후, 음성 프레임이 대응하는 상태를 획득할 수 있고, 이 상태가 음소로 결합되며, 음소가 숫자로 결합될 수 있도록, 단일 음소 음향 모델이 입력된 숫자 음성의 음향적 특징의 분포를 반영할 수 있다.
도 8을 참조하면, 일 실시예에서, 단계 159는 다음의 단계를 포함한다.
단계 1591: HMM을 이용하여 3-음소에 대해 상태 설명을 수행함으로써, 3-음소의 구분된 상태를 획득한다.
단계 1593: GMM을 이용하여 특징 시퀀스를 모델링함으로써, 3-음소의 구분된 상태에 기초하여 GMM-HMM을 획득한다.
단계 1595: 2차 훈련 데이터에 따라 GMM-HMM의 파라미터에 대해 파라미터 추정을 수행하고, 파라미터 추정에 의해 획득된 파라미터에 대해 기대값 최대화 알고리즘을 이용하여 반복적 최적화를 수행한다.
최적화된 파라미터가 GMM-HMM이 수렴될 수 있게 하면, GMM-HMM이 음향 모델이라고 결정된다.
이 음향 모델을 구성하는 과정은 단일 음소 음향 모델을 구성하는 앞의 과정과 유사하며, 여기서는 세부사항에 대해 다시 설명하지 않는다.
2개 과정 간의 차이는, 파라미터 반복적 최적화의 초기 단계에서 음향 모델이 알려지지 않은 파라미터를 랜덤하게 초기화하지 않는다는 점이다. 대신에, 알려지지 않은 파라미터가 2차 훈련 데이터에 기초하여 파라미터 추정의 대상이 되고, 파라미터 추정에 의해 획득된 파라미터가 모델 훈련을 위한 현재 초기 훈련 파라미터 역할을 한다.
구체적으로, 2차 훈련 데이터가 최적 상태 시퀀스의 변환에 의해 형성된 숫자 시퀀스이므로, 알려진 숫자 시퀀스에 따라 알려지지 않은 파라미터에 대해 기 최대 우도 추정(maximum likelihood estimation, MLE)이 수행되고, 알려지지 않은 파라미터의 대응하는 결정 값이 획득될 수 있다.
파라미터 반복적 최적화의 초기 단계에서, 알려지지 않은 파라미터의 확률 분포를 계산하기 위해, 파라미터 추정에 의해 획득된 파라미터가 현재 훈련 파라미터의 역할을 한다. 알려지지 않은 파라미터의 확률 분포에 대해 GMM-HMM이 수렴될 때까지 예상치 최대화 풀이가 수행된다. 즉, 3-음소에 대응하는 음향 모델이 획득된다.
전술한 바와 같은 방법에 의하면, 모델 훈련의 수렴 속도가 효과적으로 향상됨으로써 숫자 음성의 인식 정확도가 높아진다. 여기서, 인식 정확도가 적어도 10% 개선된다.
도 9를 참조하면, 일 실시예에서, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치는,
숫자 음성 녹음에 의해 얻어지는 훈련 데이터를 획득하도록 구성된 훈련 데이터 획득 모듈(410) - 훈련 데이터는 복수의 음성 세그먼트를 포함하고 있음 -;
훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하도록 구성된 음향 특징 추출 모듈(430);
단일 음소 음향 모델에서 시작하는 점진적인 훈련을 수행함으로써, 특징 시퀀스 및 훈련 데이터 내의 숫자에 따른 음향 모델을 획득하도록 구성된 음향 모델 획득 모듈(450); 및
언어 모델을 획득하고, 언어 모델 및 훈련에 의해 획득된 음향 모델을 이용하여 음성 복호화 네트워크를 구축하도록 구성된 언어 모델 획득 모듈(470)을 포함한다.
일 실시예에서, 전술한 장치는,
복수 개의 숫자를 포함하는 음성 세그먼트를 사전 설정된 조건에 따라 녹음함으로써 훈련 데이터를 획득하도록 구성된 훈련 데이터 녹음 모듈을 더 포함한다. 훈련 데이터 내의 복수의 음성 세그먼트는 동일한 사람에 대응하고 있다.
도 10을 참조하면, 일 실시예에서, 음향 특징 추출 모듈(430)은,
각각의 음성 세그먼트를 사전 설정된 길이에 따라 세분화함으로써, 각각의 음성 세그먼트에 포함된 여러 개의 음성 프레임을 획득하도록 구성된 음성 세그먼트 세분화 유닛(431); 및
음성 세그먼트에 포함된 복수의 음성 프레임 각각에 대한 MFCC 특징과 PITCH 특징을 추출하고, MFCC 특징과 PITCH 특징을 통해 각각의 음성 프레임의 특징 벡터를 계산하여 획득함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 추가로 생성하도록 구성된 특징 시퀀스 생성 유닛(433)을 포함한다.
도 11을 참조하면, 일 실시예에서, 음향 모델 획득 모듈(450)은,
훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득하도록 구성된 단일 음소 획득 유닛(451);
단일 음소의 구분된 상태에 따라, 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 단일 음소에 대응하는 단일 음소 음향 모델을 획득하도록 구성된 제1 모델 획득 유닛(453);
단일 음소 음향 모델을 이용하여 훈련 데이터를 인식함으로써, 2차 훈련 데이터를 획득하도록 구성된 인식 유닛(455);
2차 훈련 데이터 내의 음성 세그먼트에 포함된 숫자에 따라, 대응하는 3-음소를 획득하도록 구성된 3-음소 획득 유닛(457); 및
3-음소의 구분된 상태에 따라, 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 3-음소에 대응하는 음향 모델을 획득하도록 구성된 제2 모델 획득 유닛(459)을 포함한다.
도 12를 참조하면, 일 실시예에서, 제1 모델 획득 유닛(453)은,
HMM을 이용하여 단일 음소에 대해 상태 설명을 수행함으로써, 단일 음소의 구분된 상태를 획득하도록 구성된 제1 상태 설명 유닛(4531);
단일 음소의 구분된 상태에 기반하는 GMM을 이용하여 특징 시퀀스를 모델링함으로써 GMM-HMM을 획득하도록 구성된 제1 모델링 유닛(4533); 및
GMM-HMM의 파라미터를 랜덤하게 초기화하고, 기대값 최대화 알고리즘을 이용하여 랜덤 초기화에 의해 획득된 파라미터에 대해 반복적 최적화를 수행하도록 구성된 제1 훈련 유닛(4535)을 포함한다.
최적화된 파라미터가 GMM-HMM이 수렴될 수 있게 하면, GMM-HMM이 단일 음소 음향 모델이라고 결정된다.
도 13을 참조하면, 일 실시예에서, 제2 모델 획득 유닛(459)은,
HMM을 이용하여 3-음소에 대해 상태 설명을 수행함으로써, 3-음소의 구분된 상태를 획득하도록 구성된 제2 상태 설명 유닛(4591);
GMM을 이용하여 특징 시퀀스를 모델링함으로써, 3-음소의 구분된 상태에 기반하는 GMM-HMM을 획득하도록 구성된 제2 모델링 유닛(4593); 및
2차 훈련 데이터에 따라 GMM-HMM의 파라미터에 대해 파라미터 추정을 수행하고, 파라미터 추정에 의해 획득된 파라미터에 대해 기대값 최대화 알고리즘을 이용하여 반복적 최적화를 수행하도록 구성된 제2 훈련 유닛(4595)을 포함한다.
최적화된 파라미터가 GMM-HMM이 수렴될 수 있게 하면, GMM-HMM이 음향 모델이라고 결정된다.
도 14를 참조하라. 도 14는 본 출원의 실시예에 의해 제공되는, 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치(500)를 개략적으로 나타낸 구조도이다. 전술한 실시예에서의 동작은 모두 도면에 도시된 구조에 기반하고 있을 수 있다.
구성 또는 성능의 차이로 인해 음성 복호화 네트워크를 구축하기 위한 장치(500)에서는 큰 차이가 있을 수 있다. 장치(500)는 전원(510), 인터페이스(530), 적어도 하나의 저장 매체(550), 및 적어도 하나의 중앙처리장치(CPU)(570)를 포함한다.
구체적으로, 전원(510)은 장치(500) 상의 각각의 하드웨어 장치에 대한 동작 전압을 제공하도록 구성된다.
인터페이스(530)는, 외부 장치와 통신하기 위한 적어도 하나의 유선 또는 무선 네트워크 인터페이스(531), 적어도 하나의 직렬-병렬 변환 인터페이스(533), 적어도 하나의 입력/출력 인터페이스(535), 적어도 하나의 USB 인터페이스(537) 등을 포함한다.
저장 매체(550)는, 자원을 저장하기 위한 캐리어로서 랜덤 액세스 매체, 자기 디스크, 광디스크 등일 수 있다. 저장 매체(550)에 저장된 자원은 운영체제(551), 응용 프로그램(553), 데이터(555) 등을 포함한다. 저장 방법은 임시 저장 또는 영구 저장일 수 있다. 운영체제(551)는, CPU(570)를 통한 대량 데이터(555)의 계산과 처리가 실현될 수 있도록 장치(500)상의 하드웨어 장치와 애플리케이션 프로그램 (553)을 관리하고 제어하도록 구성된다. 운영체제(551)는 윈도 서버TM, Mac OS XTM, UnixTM, LinuxTM, FreeBSDTM 등일 수 있다. 응용 프로그램(553)은 운영체제(551)에 기초하여 적어도 하나의 특정 태스크를 완료하는 컴퓨터 프로그램이다. 응용 프로그램(553)은 적어도 하나의 모듈(도시되지 않음)을 포함할 수 있으며, 각각의 모듈은 장치(500)에 대한 일련의 연산 명령을 각각 포함할 수 있다. 데이터(555)는 디스크 등에 저장된 훈련 데이터일 수 있다.
CPU(570)는 하나 이상의 프로세서를 포함할 수 있고, 버스를 통해 저장 매체(550)와 통신하도록 구성되며, 저장 매체(550) 내의 대량 데이터(555)를 계산하고 처리하기 위한 것이다.
추가적으로 전술한 실시예에서의 동작 중 전부 또는 일부가 장치 상의 관련된 컴퓨터 프로그램을 실행하여 완료될 수 있도록, 저장 매체(550)에 저장된 일련의 연산 명령이 CPU(570)에 의해 판독되어 저장 매체(550) 상의 운영체제(551)에 기반하는 장치(500) 상에서 실행된다.
전술한 설명은 본 출원의 바람직한 실시예일 뿐이며, 본 개시를 제한하는 데 사용되지 않는다. 본 개시의 사상과 원리 내에서 이루어지는 임의의 수정, 등가의 대체, 및 개량 등은 본 개시의 보호 범위에 포함되어야 한다.

Claims (16)

  1. 숫자의 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 방법으로서,
    숫자를 음성 녹음하여 얻어지는 훈련 데이터(training data)를 획득하는 단계 - 상기 훈련 데이터는 복수의 음성 세그먼트(speech segment)를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -;
    상기 훈련 데이터에 대해 음향적 특징 추출(acoustic feature extraction)을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계;
    단일 음소 음향 모델(mono-phoneme acoustic model)에서 시작하는 점진적 훈련(progressive training)을 수행함으로써, 상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 음소에 따른 음향 모델을 획득하는 단계; 및
    언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하는 단계
    를 포함하고,
    상기 단일 음소 음향 모델에서 시작하는 점진적 훈련을 수행함으로써, 상기 특징 시퀀스를 모델 훈련용 입력으로서 이용하고 또한 상기 훈련 데이터 내의 숫자에 대응하는 음소를 모델링 단위로서 이용하여 음향 모델을 획득하는 단계는,
    상기 훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득하는 단계;
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하는 단계 ;
    상기 단일 음소 음향 모델을 이용하여 상기 훈련 데이터를 인식함으로써, 2차 훈련 데이터를 획득하는 단계;
    상기 2차 훈련 데이터 내의 상기 음성 세그먼트에 포함된 상기 숫자에 따라, 대응하는 3-음소(tri-phoneme)를 획득하는 단계; 및
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하는 단계
    를 포함하는, 음성 복호화 네트워크를 구축하기 위한 방법.
  2. 제1항에 있어서,
    상기 숫자를 음성 녹음하여 얻어지는 훈련 데이터를 획득하는 단계 이전에,
    복수 개의 숫자를 포함하는 음성 세그먼트를 녹음함으로써, 사전 설정된 조건에 따른 훈련 데이터를 획득하는 단계 - 상기 훈련 데이터 내 상기 복수의 음성 세그먼트는 동일한 사람에 대응하고 있음 -
    를 더 포함하는 음성 복호화 네트워크를 구축하기 위한 방법.
  3. 제1항에 있어서,
    상기 훈련 데이터에 대해 음향적 특징 추출을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계는,
    사전 설정된 길이에 따라 각각의 음성 세그먼트를 세분화함으로써, 각각의 음성 세그먼트에 포함된 복수의 음성 프레임을 획득하는 단계;
    상기 음성 세그먼트에 포함된 복수의 음성 프레임 각각으로부터 Mel 주파수 켑스트럼 계수(Mel frequency cepstrum coefficient, MFCC) 특징과 PITCH 특징을 추출하고, 상기 MFCC 특징과 상기 PITCH 특징을 통해 각각의 음성 프레임의 특징 벡터를 계산하여 획득함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 추가로 구성하는 단계
    를 포함하는, 음성 복호화 네트워크를 구축하기 위한 방법.
  4. 제1항에 있어서,
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하는 단계는,
    은닉 마코프 모델(hidden Markov model, HMM)을 이용하여 상기 단일 음소에 대해 상태 설명을 수행함으로써, 상기 단일 음소의 구분된 상태를 획득하는 단계;
    상기 단일 음소의 구분된 상태에 기반하는 가우시안 혼합 모델(Gaussian mixture model, GMM)을 이용하여 상기 특징 시퀀스를 모델링함으로써, GMM-HMM을 획득하는 단계;
    상기 GMM-HMM의 파라미터를 랜덤하게 초기화하고, 랜덤 초기화에 의해 획득된 상기 파라미터에 대해 기대값 최대화 알고리즘(expectation maximization algorithm)을 이용하여 반복적 최적화를 수행하는 단계; 및
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 단일 음소 음향 모델이라고 결정하는 단계
    를 포함하는, 음성 복호화 네트워크를 구축하기 위한 방법.
  5. 제1항에 있어서,
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하는 단계는,
    HMM을 이용하여 상기 3-음소에 대해 상태 설명을 수행함으로써, 상기 3-음소의 구분된 상태를 획득하는 단계;
    GMM를 이용하여 상기 특징 시퀀스를 모델링함으로써, 상기 3-음소의 구분된 상태에 기반하는 GMM-HMM을 획득하는 단계;
    2차 훈련 데이터에 따라 상기 GMM-HMM의 파라미터에 대해 파라미터 추정을 수행하고, 파라미터 추정에 의해 획득된 상기 파라미터에 대해 기대값 최대화 알고리즘을 이용하여 반복적 최적화를 수행하는 단계; 및
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 음향 모델이라고 결정하는 단계
    를 포함하는, 음성 복호화 네트워크를 구축하기 위한 방법.
  6. 제1항에 있어서,
    상기 언어 모델은 상기 훈련 데이터 내의 상기 숫자들의 매칭 관계를 모델링하여 획득되고,
    상기 매칭 관계는, 상기 훈련 데이터 내의 상기 숫자들과 전화 번호 배치 규칙(phone number arrangement rule)간의 매칭 관계를 포함하거나 또는 상기 훈련 데이터 내의 상기 숫자들과 랜덤 코드의 사전 정의된 목록간의 매칭 관계를 포함하는, 음성 복호화 네트워크를 구축하기 위한 방법.
  7. 숫자의 음성 인식에 있어서 음성 복호화 네트워크를 구축하기 위한 장치로서,
    숫자를 음성 녹음하여 얻어지는 훈련 데이터(training data)를 획득하도록 구성된 훈련 데이터 획득 모듈 - 상기 훈련 데이터는 복수의 음성 세그먼트(speech segment)를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -;
    상기 훈련 데이터에 대해 음향적 특징 추출(acoustic feature extraction)을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하도록 구성된 음향 특징 추출 모듈;
    단일 음소 음향 모델(mono-phoneme acoustic model)에서 시작하는 점진적인 트레이닝(progressive training)을 수행함으로써, 상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 상기 음소에 따른 음향 모델을 획득하도록 구성된 음향 모델 획득 모듈; 및
    언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하도록 구성된 언어 모델 획득 모듈
    을 포함하고,
    상기 음향 모델 획득 모듈은,
    상기 훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득하도록 구성된 단일 음소 획득 유닛;
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하도록 구성된 제1 모델 획득 유닛;
    상기 단일 음소 음향 모델을 이용하여 상기 훈련 데이터를 인식함으로써, 2차 훈련 데이터를 획득하도록 구성된 인식 유닛;
    상기 2차 훈련 데이터 내의 상기 음성 세그먼트에 포함된 상기 숫자에 따라, 대응하는 3-음소(tri-phoneme)를 획득하도록 구성된 3-음소 획득 유닛; 및
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하도록 구성된 제2 모델 획득 유닛
    을 포함하는, 음성 복호화 네트워크를 구축하기 위한 장치.
  8. 제7항에 있어서,
    복수 개의 숫자를 포함하는 음성 세그먼트를 사전 설정된 조건에 따라 녹음함으로써, 훈련 데이터를 획득하도록 구성된 훈련 데이터 녹음 모듈 - 상기 훈련 데이터 내의 상기 복수의 음성 세그먼트는 동일한 사람에 대응하고 있음 -
    을 더 포함하는 음성 복호화 네트워크를 구축하기 위한 장치.
  9. 제7항에 있어서,
    상기 음향 특징 추출 모듈은,
    각각의 음성 세그먼트를 사전 설정된 길이에 따라 세분화함으로써, 각각의 음성 세그먼트에 포함된 여러 개의 음성 프레임을 획득하도록 구성된 음성 세그먼트 세분화 유닛(speech segment segmenting unit); 및
    상기 음성 세그먼트에 포함된 복수의 음성 프레임 각각에 대한 MFCC 특징과 PITCH 특징을 추출하고, 상기 MFCC 특징과 상기 PITCH 특징을 통해 각각의 음성 프레임의 특징 벡터를 계산하여 획득함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 추가로 생성하도록 구성된 특징 시퀀스 생성 유닛(feature sequence generation unit)
    을 포함하는, 음성 복호화 네트워크를 구축하기 위한 장치.
  10. 제7항에 있어서,
    상기 제1 모델 획득 유닛은,
    HMM을 이용하여 상기 단일 음소에 대해 상태 설명을 수행함으로써, 상기 단일 음소의 구분된 상태를 획득하도록 구성된 제1 상태 설명 유닛;
    상기 단일 음소의 구분된 상태에 기반하는 GMM을 이용하여 상기 특징 시퀀스를 모델링함으로써 GMM-HMM을 획득하도록 구성된 제1 모델링 유닛;
    상기 GMM-HMM의 파라미터를 랜덤하게 초기화하고, 기대값 최대화 알고리즘(expectation maximization algorithm)을 이용하여 랜덤 초기화에 의해 획득된 상기 파라미터에 대해 반복적 최적화를 수행하도록 구성된 제1 훈련 유닛
    을 포함하고,
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 단일 음소 음향 모델이라고 결정되는, 음성 복호화 네트워크를 구축하기 위한 장치.
  11. 제7항에 있어서,
    상기 제2 모델 획득 유닛은,
    은닉 마코프 모델(hidden Markov model, HMM)을 이용하여 상기 3-음소에 대해 상태 설명을 수행함으로써, 상기 3-음소의 구분된 상태를 획득하도록 구성된 제2 상태 설명 유닛;
    가우시안 혼합 모델(Gaussian mixture model, GMM)을 이용하여 상기 특징 시퀀스를 모델링함으로써, 상기 3-음소의 구분된 상태에 기반하는 GMM-HMM을 획득하도록 구성된 제2 모델링 유닛;
    상기 2차 훈련 데이터에 따라 상기 GMM-HMM의 파라미터에 대해 파라미터 추정을 수행하고, 파라미터 추정에 의해 획득된 상기 파라미터에 대해 기대값 최대화 알고리즘을 이용하여 반복적 최적화를 수행하도록 구성된 제2 훈련 유닛
    을 포함하고,
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 음향 모델이라고 결정되는, 음성 복호화 네트워크를 구축하기 위한 장치.
  12. 제7항에 있어서,
    상기 언어 모델은 상기 훈련 데이터 내의 상기 숫자들의 매칭 관계를 모델링하여 획득되고,
    상기 매칭 관계는, 상기 훈련 데이터 내의 상기 숫자들과 전화 번호 배치 규칙(phone number arrangement rule)간의 매칭 관계를 포함하거나 또는 상기 훈련 데이터 내의 상기 숫자들과 랜덤 코드의 사전 정의된 목록간의 매칭 관계를 포함하는, 음성 복호화 네트워크를 구축하기 위한 장치.
  13. 컴퓨터 판독가능 비휘발성 저장 매체로서,
    상기 저장 매체에는 기계 판독 가능 명령이 저장되어 있고,
    상기 기계 판독 가능 명령은 프로세서에 의해 실행됨으로써,
    숫자를 음성 녹음하여 얻어지는 훈련 데이터(training data)를 획득하는 단계 - 상기 훈련 데이터는 복수의 음성 세그먼트(speech segment)를 포함하고, 각각의 음성 세그먼트는 복수 개의 숫자의 음성을 포함하고 있음 -;
    상기 훈련 데이터에 대해 음향적 특징 추출(acoustic feature extraction)을 수행함으로써, 각각의 음성 세그먼트에 대응하는 특징 시퀀스를 획득하는 단계;
    상기 특징 시퀀스 및 상기 훈련 데이터 내의 숫자에 대응하는 음소에 따라, 단일 음소 음향 모델(mono-phoneme acoustic model)에서 시작하는 점진적 훈련(progressive training)을 수행함으로써 음향 모드를 획득하는 단계; 및
    언어 모델을 획득하고, 상기 언어 모델 및 훈련에 의해 획득된 상기 음향 모델을 이용하여 음성 복호화 네트워크를 구축하는 단계
    를 수행하고,
    상기 단일 음소 음향 모델에서 시작하는 점진적 훈련을 수행함으로써, 상기 특징 시퀀스를 모델 훈련용 입력으로서 이용하고 또한 상기 훈련 데이터 내의 숫자에 대응하는 음소를 모델링 단위로서 이용하여 음향 모델을 획득하는 단계는,
    상기 훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득하는 단계;
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하는 단계 ;
    상기 단일 음소 음향 모델을 이용하여 상기 훈련 데이터를 인식함으로써, 2차 훈련 데이터를 획득하는 단계;
    상기 2차 훈련 데이터 내의 상기 음성 세그먼트에 포함된 상기 숫자에 따라, 대응하는 3-음소(tri-phoneme)를 획득하는 단계; 및
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하는 단계
    를 포함하는, 컴퓨터 판독가능 비휘발성 저장 매체.
  14. 음향 모델을 훈련하기 위한 방법으로서,
    훈련 데이터의 음성 세그먼트로부터 숫자에 대응하는 단일 음소를 획득하는 단계;
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하는 단계 ;
    상기 단일 음소 음향 모델을 이용하여 상기 훈련 데이터를 인식함으로써, 2차 훈련 데이터를 획득하는 단계;
    상기 2차 훈련 데이터 내의 상기 음성 세그먼트에 포함된 상기 숫자에 따라, 대응하는 3-음소(tri-phoneme)를 획득하는 단계; 및
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하는 단계
    를 포함하는 음향 모델을 훈련하기 위한 방법.
  15. 제14항에 있어서,
    상기 단일 음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 단일 음소에 대응하는 단일 음소 음향 모델을 획득하는 단계는,
    은닉 마코프 모델(hidden Markov model, HMM)을 이용하여 상기 단일 음소에 대해 상태 설명을 수행함으로써, 상기 단일 음소의 구분된 상태를 획득하는 단계;
    상기 단일 음소의 구분된 상태에 기반하는 가우시안 혼합 모델(Gaussian mixture model, GMM)을 이용하여 상기 특징 시퀀스를 모델링함으로써, GMM-HMM을 획득하는 단계;
    상기 GMM-HMM의 파라미터를 랜덤하게 초기화하고, 랜덤 초기화에 의해 획득된 상기 파라미터에 대해 기대값 최대화 알고리즘(expectation maximization algorithm)을 이용하여 반복적 최적화를 수행하는 단계; 및
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 단일 음소 음향 모델이라고 결정하는 단계
    를 포함하는, 음향 모델을 훈련하기 위한 방법.
  16. 제14항에 있어서,
    상기 3-음소의 구분된 상태에 따라, 상기 음성 세그먼트에 대응하는 상기 특징 시퀀스에 대해 음향 모델링과 훈련을 수행함으로써, 상기 3-음소에 대응하는 음향 모델을 획득하는 단계는,
    HMM을 이용하여 상기 3-음소에 대해 상태 설명을 수행함으로써, 상기 3-음소의 구분된 상태를 획득하는 단계;
    GMM를 이용하여 상기 특징 시퀀스를 모델링함으로써, 상기 3-음소의 구분된 상태에 기반하는 GMM-HMM을 획득하는 단계;
    상기 2차 훈련 데이터에 따라 상기 GMM-HMM의 파라미터에 대해 파라미터 추정을 수행하고, 파라미터 추정에 의해 획득된 상기 파라미터에 대해 기대값 최대화 알고리즘을 이용하여 반복적 최적화를 수행하는 단계; 및
    상기 최적화된 파라미터가 상기 GMM-HMM이 수렴될 수 있게 하면, 상기 GMM-HMM이 상기 음향 모델이라고 결정하는 단계
    를 포함하는, 음향 모델을 훈련하기 위한 방법.
KR1020187019678A 2016-03-29 2017-02-27 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체 KR102134201B1 (ko)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
CN201610188168.9 2016-03-29
CN201610188168.9A CN105869624B (zh) 2016-03-29 2016-03-29 数字语音识别中语音解码网络的构建方法及装置
PCT/CN2017/074926 WO2017166966A1 (zh) 2016-03-29 2017-02-27 数字语音识别中语音解码网络的构建方法、装置及存储介质

Publications (2)

Publication Number Publication Date
KR20180091903A KR20180091903A (ko) 2018-08-16
KR102134201B1 true KR102134201B1 (ko) 2020-07-15

Family

ID=56626403

Family Applications (1)

Application Number Title Priority Date Filing Date
KR1020187019678A KR102134201B1 (ko) 2016-03-29 2017-02-27 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체

Country Status (6)

Country Link
US (1) US10699699B2 (ko)
EP (1) EP3438973B1 (ko)
JP (1) JP6665305B2 (ko)
KR (1) KR102134201B1 (ko)
CN (1) CN105869624B (ko)
WO (1) WO2017166966A1 (ko)

Families Citing this family (43)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置
CN106570461A (zh) * 2016-10-21 2017-04-19 哈尔滨工业大学深圳研究生院 基于唇动认证的视频帧图片提取方法及系统
CN106504756B (zh) * 2016-12-02 2019-05-24 珠海市杰理科技股份有限公司 嵌入式语音识别系统及方法
CN106653003A (zh) * 2016-12-26 2017-05-10 北京云知声信息技术有限公司 语音识别方法及装置
CN108364635B (zh) * 2017-01-25 2021-02-12 北京搜狗科技发展有限公司 一种语音识别的方法和装置
CN107633842B (zh) 2017-06-12 2018-08-31 平安科技(深圳)有限公司 语音识别方法、装置、计算机设备及存储介质
CN107170444A (zh) * 2017-06-15 2017-09-15 上海航空电器有限公司 航空座舱环境自适应语音特征模型训练方法
CN107680582B (zh) * 2017-07-28 2021-03-26 平安科技(深圳)有限公司 声学模型训练方法、语音识别方法、装置、设备及介质
CN108932941B (zh) * 2017-10-13 2020-07-03 北京猎户星空科技有限公司 语音识别方法、装置及计算机设备、存储介质及程序产品
CN107680597B (zh) * 2017-10-23 2019-07-09 平安科技(深圳)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN108417202B (zh) * 2018-01-19 2020-09-01 苏州思必驰信息科技有限公司 语音识别方法及系统
CN110600032A (zh) * 2018-05-23 2019-12-20 北京语智科技有限公司 一种语音识别方法及装置
CN110610695B (zh) * 2018-05-28 2022-05-17 宁波方太厨具有限公司 一种基于孤立词的语音识别方法及应用有该方法的吸油烟机
CN110634472A (zh) * 2018-06-21 2019-12-31 中兴通讯股份有限公司 一种语音识别方法、服务器及计算机可读存储介质
CN109040466B (zh) * 2018-09-20 2021-03-26 李庆湧 基于语音的移动终端解锁方法、装置、电子设备以及存储介质
CN110942763B (zh) * 2018-09-20 2023-09-12 阿里巴巴集团控股有限公司 语音识别方法及装置
CN109119072A (zh) * 2018-09-28 2019-01-01 中国民航大学 基于dnn-hmm的民航陆空通话声学模型构建方法
CN109360554A (zh) * 2018-12-10 2019-02-19 广东潮庭集团有限公司 一种基于语深度神经网络的语言识别方法
CN111462732B (zh) * 2019-01-21 2024-04-09 阿里巴巴集团控股有限公司 语音识别方法和装置
CN111583910B (zh) * 2019-01-30 2023-09-26 北京猎户星空科技有限公司 模型更新方法、装置、电子设备及存储介质
CN111583906B (zh) * 2019-02-18 2023-08-15 中国移动通信有限公司研究院 一种语音会话的角色识别方法、装置及终端
CN110110580B (zh) * 2019-03-12 2023-04-07 西北大学 一种面向Wi-Fi信号的手语孤立词识别网络构建及分类方法
CN110428819B (zh) * 2019-05-21 2020-11-24 腾讯科技(深圳)有限公司 解码网络生成方法、语音识别方法、装置、设备及介质
CN112152741B (zh) * 2019-06-28 2021-11-19 华为技术有限公司 信道模型的训练方法及装置
CN110322884B (zh) * 2019-07-09 2021-12-07 科大讯飞股份有限公司 一种解码网络的插词方法、装置、设备及存储介质
JP7326983B2 (ja) * 2019-08-13 2023-08-16 富士フイルムビジネスイノベーション株式会社 情報処理装置及び情報処理プログラム
CN110415685A (zh) * 2019-08-20 2019-11-05 河海大学 一种语音识别方法
CN110534095B (zh) 2019-08-22 2020-10-23 百度在线网络技术(北京)有限公司 语音识别方法、装置、设备以及计算机可读存储介质
CN112447168A (zh) * 2019-09-05 2021-03-05 阿里巴巴集团控股有限公司 语音识别系统、方法、音箱、显示设备和交互平台
CN110751945A (zh) * 2019-10-17 2020-02-04 成都三零凯天通信实业有限公司 一种端到端的语音识别方法
CN110853629A (zh) * 2019-11-21 2020-02-28 中科智云科技有限公司 一种基于深度学习的语音识别数字的方法
CN111179917B (zh) * 2020-01-17 2023-01-03 厦门快商通科技股份有限公司 语音识别模型训练方法、系统、移动终端及存储介质
CN112750425B (zh) * 2020-01-22 2023-11-03 腾讯科技(深圳)有限公司 语音识别方法、装置、计算机设备及计算机可读存储介质
KR102605159B1 (ko) * 2020-02-11 2023-11-23 주식회사 케이티 음성 인식 서비스를 제공하는 서버, 방법 및 컴퓨터 프로그램
CN111785256A (zh) * 2020-06-28 2020-10-16 北京三快在线科技有限公司 声学模型训练方法、装置、电子设备及存储介质
CN112562691A (zh) * 2020-11-27 2021-03-26 平安科技(深圳)有限公司 一种声纹识别的方法、装置、计算机设备及存储介质
CN112815957A (zh) * 2020-12-31 2021-05-18 出门问问(武汉)信息科技有限公司 一种语音识别路径规划方法、系统及平台
CN112394982B (zh) * 2021-01-21 2021-04-13 腾讯科技(深圳)有限公司 生成语音识别系统的方法、装置、介质及电子设备
CN113129868B (zh) * 2021-03-12 2022-02-25 北京百度网讯科技有限公司 获取语音识别模型的方法、语音识别的方法及对应装置
CN113192487B (zh) * 2021-04-30 2024-05-03 平安科技(深圳)有限公司 支持多语言混合的语音识别方法、装置、设备及存储介质
CN113724698B (zh) * 2021-09-01 2024-01-30 马上消费金融股份有限公司 语音识别模型的训练方法、装置、设备及存储介质
CN113838456A (zh) * 2021-09-28 2021-12-24 科大讯飞股份有限公司 音素提取方法、语音识别方法、装置、设备及存储介质
CN113870848B (zh) * 2021-12-02 2022-04-26 深圳市友杰智新科技有限公司 语音建模单元的构建方法、装置和计算机设备

Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
US20140214416A1 (en) * 2013-01-30 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and system for recognizing speech commands

Family Cites Families (27)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0827638B2 (ja) 1988-07-20 1996-03-21 日本電気株式会社 音素を単位とした音声認識装置
JPH11143490A (ja) * 1997-11-10 1999-05-28 Sony Corp 音声操作機能付き電子機器、電子機器における音声操作方法、及び音声操作機能付き電子機器を備える自動車
US7725307B2 (en) * 1999-11-12 2010-05-25 Phoenix Solutions, Inc. Query engine for processing voice based queries including semantic decoding
JP3426176B2 (ja) * 1999-12-27 2003-07-14 インターナショナル・ビジネス・マシーンズ・コーポレーション 音声認識装置、方法、コンピュータ・システム及び記憶媒体
US7587321B2 (en) * 2001-05-08 2009-09-08 Intel Corporation Method, apparatus, and system for building context dependent models for a large vocabulary continuous speech recognition (LVCSR) system
US7269563B2 (en) * 2003-05-12 2007-09-11 Motorola, Inc. String matching of locally stored information for voice dialing on a cellular telephone
JP4541781B2 (ja) * 2004-06-29 2010-09-08 キヤノン株式会社 音声認識装置および方法
US8335688B2 (en) * 2004-08-20 2012-12-18 Multimodal Technologies, Llc Document transcription system training
KR100717401B1 (ko) * 2006-03-02 2007-05-11 삼성전자주식회사 역방향 누적 히스토그램을 이용한 음성 특징 벡터의 정규화방법 및 그 장치
CN101030369B (zh) * 2007-03-30 2011-06-29 清华大学 基于子词隐含马尔可夫模型的嵌入式语音识别方法
WO2009025356A1 (ja) 2007-08-22 2009-02-26 Nec Corporation 音声認識装置および音声認識方法
CN101826325B (zh) * 2010-03-10 2012-04-18 华为终端有限公司 对中英文语音信号进行识别的方法和装置
CN102339605B (zh) * 2010-07-22 2015-07-15 上海果壳电子有限公司 基于先验清浊知识的基频提取方法及系统
JP5409931B2 (ja) 2010-11-30 2014-02-05 三菱電機株式会社 音声認識装置及びナビゲーション装置
CN103165129B (zh) * 2011-12-13 2015-07-01 北京百度网讯科技有限公司 一种优化语音识别声学模型的方法及系统
US9966064B2 (en) * 2012-07-18 2018-05-08 International Business Machines Corporation Dialect-specific acoustic language modeling and speech recognition
WO2014025682A2 (en) * 2012-08-07 2014-02-13 Interactive Intelligence, Inc. Method and system for acoustic data selection for training the parameters of an acoustic model
CN103971678B (zh) * 2013-01-29 2015-08-12 腾讯科技(深圳)有限公司 关键词检测方法和装置
CN103971686B (zh) * 2013-01-30 2015-06-10 腾讯科技(深圳)有限公司 自动语音识别方法和系统
CN104217717B (zh) * 2013-05-29 2016-11-23 腾讯科技(深圳)有限公司 构建语言模型的方法及装置
CN104143327B (zh) * 2013-07-10 2015-12-09 腾讯科技(深圳)有限公司 一种声学模型训练方法和装置
CN103578464B (zh) * 2013-10-18 2017-01-11 威盛电子股份有限公司 语言模型的建立方法、语音辨识方法及电子装置
CN104575497B (zh) * 2013-10-28 2017-10-03 中国科学院声学研究所 一种声学模型建立方法及基于该模型的语音解码方法
US9881609B2 (en) * 2014-04-18 2018-01-30 General Motors Llc Gesture-based cues for an automatic speech recognition system
US10146853B2 (en) * 2015-05-15 2018-12-04 International Business Machines Corporation Determining entity relationship when entities contain other entities
US9916296B2 (en) * 2015-09-24 2018-03-13 International Business Machines Corporation Expanding entity and relationship patterns to a collection of document annotators using run traces
CN105869624B (zh) * 2016-03-29 2019-05-10 腾讯科技(深圳)有限公司 数字语音识别中语音解码网络的构建方法及装置

Patent Citations (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1674092B (zh) * 2004-03-26 2010-06-09 松下电器产业株式会社 连续数字识别的声韵母跨词建模、解码方法及系统
US20140214416A1 (en) * 2013-01-30 2014-07-31 Tencent Technology (Shenzhen) Company Limited Method and system for recognizing speech commands

Also Published As

Publication number Publication date
KR20180091903A (ko) 2018-08-16
CN105869624A (zh) 2016-08-17
WO2017166966A1 (zh) 2017-10-05
CN105869624B (zh) 2019-05-10
JP2019504355A (ja) 2019-02-14
US20180277103A1 (en) 2018-09-27
US10699699B2 (en) 2020-06-30
JP6665305B2 (ja) 2020-03-13
WO2017166966A9 (zh) 2018-06-14
EP3438973A1 (en) 2019-02-06
EP3438973A4 (en) 2019-03-27
EP3438973B1 (en) 2020-07-15

Similar Documents

Publication Publication Date Title
KR102134201B1 (ko) 숫자 음성 인식에 있어서 음성 복호화 네트워크를 구성하기 위한 방법, 장치, 및 저장 매체
Karpagavalli et al. A review on automatic speech recognition architecture and approaches
US9165555B2 (en) Low latency real-time vocal tract length normalization
Arora et al. Automatic speech recognition: a review
ES2540995T3 (es) Sistema y método para reconocer un comando de voz de usuario en un entorno con ruido
CN106548775B (zh) 一种语音识别方法和系统
JP6284462B2 (ja) 音声認識方法、及び音声認識装置
CN107093422B (zh) 一种语音识别方法和语音识别系统
US20060206326A1 (en) Speech recognition method
Vyas A Gaussian mixture model based speech recognition system using Matlab
Gulzar et al. A systematic analysis of automatic speech recognition: an overview
US20110218802A1 (en) Continuous Speech Recognition
Sahu et al. A study on automatic speech recognition toolkits
Muralikrishna et al. HMM based isolated Kannada digit recognition system using MFCC
JP2007078943A (ja) 音響スコア計算プログラム
Gunasekara et al. Real-time translation of discrete sinhala speech to unicode text
WO2020049687A1 (ja) 音声処理装置、音声処理方法、およびプログラム記録媒体
Tun et al. A speech recognition system for Myanmar digits
Khalifa et al. Statistical modeling for speech recognition
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
Dhinesh et al. A low-complexity speaker-and-word recognition application for resource-constrained devices
Pai et al. Application of HMM-based chinese speech recognition on internet of things for smart home systems [J]
Sinha et al. Exploring the role of pitch-adaptive cepstral features in context of children's mismatched ASR
KR100776730B1 (ko) 가우시안 믹스쳐 모델을 사용하는 비핵심어 모델링부를포함하는 화자독립 가변어휘 핵심어 검출 시스템 및 그방법
Karpagavalli et al. Automatic Speech Recognition: Architecture, Methodologies and Challenges-A Review.

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant