KR20020019150A - Method of Producing Speech Model - Google Patents

Method of Producing Speech Model Download PDF

Info

Publication number
KR20020019150A
KR20020019150A KR1020000052274A KR20000052274A KR20020019150A KR 20020019150 A KR20020019150 A KR 20020019150A KR 1020000052274 A KR1020000052274 A KR 1020000052274A KR 20000052274 A KR20000052274 A KR 20000052274A KR 20020019150 A KR20020019150 A KR 20020019150A
Authority
KR
South Korea
Prior art keywords
speech
voice
model
phonemes
word
Prior art date
Application number
KR1020000052274A
Other languages
Korean (ko)
Other versions
KR100369478B1 (en
Inventor
이윤근
Original Assignee
백종관
(주) 보이스웨어
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 백종관, (주) 보이스웨어 filed Critical 백종관
Priority to KR10-2000-0052274A priority Critical patent/KR100369478B1/en
Publication of KR20020019150A publication Critical patent/KR20020019150A/en
Application granted granted Critical
Publication of KR100369478B1 publication Critical patent/KR100369478B1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Machine Translation (AREA)

Abstract

PURPOSE: A method of generating a voice model is provided to create a voice model in a tool kit using a variable word recognizer that easily generates and stores a voice model with respect to a specific object word. CONSTITUTION: A word set including phonemes of a corresponding language is generated(S10). Voice data according to the word set is collected(S20). The voice data is labeled in phonemes(S30). The voice data is classified into short time periods, and spectrum of each period is analyzed to extract voice characteristic to represent each phoneme in rows of characteristic vector(S40). The same phonemes contained in the voice data are collected to perform HMM training(S50). HMMs of phonemes constructing a voice model to be generated are connected(S60).

Description

음성 모델의 생성 방법{Method of Producing Speech Model}Method of Producing Speech Model

발명의 분야Field of invention

본 발명은 음성 모델을 생성하는 방법에 관한 것이다. 보다 구체적으로 본 발명은 화자 독립 방식의 가변어 인식기를 이용한 툴킷(tool kit)에서 원하는 단어 셋(set)에 대한 음성 모델을 은닉 마콥 모델의 음성 인식 기법을 이용하여 생성하는 방법에 관한 것이다. 또한 메모리에 상기한 방법으로 생성된 음성 모델을 저장하여 음성 인식 기능을 수행할 수 있도록 하는 칩을 제공하기 위한 것이다.The present invention relates to a method for generating a speech model. More specifically, the present invention relates to a method for generating a speech model for a desired set of words in a tool kit using a speaker-independent variable word recognizer using a speech recognition technique of a hidden MAC model. Another object of the present invention is to provide a chip in which a voice model generated by the above-described method is stored in a memory to perform a voice recognition function.

발명의 배경Background of the Invention

음성 인식은 전화, 휴대폰 또는 마이크를 통하여 전달된 사람의 음성 특징을 추출하고 분석하여, 미리 입력된 음성 모델에서 가장 근접한 결과를 찾아내는 최첨단 기술이다. 음성 인식용 칩은 일본의 오오키, 미국의 센서리 등 여러 회사에서 이미 제품화되어 생산하고 있다. 현재 제품화되어 사용하는 음성 인식용 칩은 음성 인식을 적용할 대상 단어가 선정되면 상기 대상 단어에 해당하는 음성 모델을 생성하여 칩의 메모리에 탑재하게 되어 있다.Speech recognition is a state-of-the-art technology that extracts and analyzes the speech characteristics of a person transmitted through a telephone, cell phone or microphone to find the closest result from a pre-entered speech model. Voice recognition chips have already been commercialized and manufactured by several companies, including Oki of Japan and Sensory of the United States. When the target word to which speech recognition is applied is selected, a chip for speech recognition that is currently commercialized and used is generated and mounted in a memory of the chip by generating a speech model corresponding to the target word.

상기 과정을 좀 더 상세히 설명하면 다수의 사람들로부터 음성을 채취하여 저장하고, 각 회사에서 제공하는 툴킷(tool kit)을 이용하여 상기 채취된 음성을 음성모델로 변환하여 주고, 그리고 상기 음성 모델을 장치의 메모리에 탑재하는 절차로 이루어진다.In more detail, the voice is collected and stored from a plurality of people, a tool kit provided by each company is used to convert the collected voice into a voice model, and the voice model is apparatus. It is done with the procedure of mounting in the memory.

상기와 같은 절차로 이루어지는 종래의 음성 인식용 칩은 화자 종속 방식의 음성 인식 형태로 음성 모델을 생성하기 때문에 인식 대상 단어가 변경되는 경우에 있어서는 새롭게 음성 모델을 만들어 칩의 메모리에 탑재를 하여야 한다. 따라서 시간도 많이 소비되어질 뿐만 아니라 비용도 많이 드는 단점이 있다. 대상 단어에 제한을 받지 않기 위해 가변어 인식기를 칩에 탑재할 수도 있으나, 이런 경우에는 알고리즘이 복잡해지며 메모리도 많이 소요되므로 장치의 가격이 비싸지는 단점이 있다.In the conventional speech recognition chip having the above-described procedure, the speech model is generated in the form of a speaker-dependent speech recognition. Therefore, when the word to be recognized is changed, a new speech model must be created and mounted in the memory of the chip. Therefore, not only is it consumed a lot of time, but also has a costly disadvantage. The variable word recognizer may be mounted on the chip so as not to be restricted by the target word. However, in this case, the algorithm is complicated and the memory is expensive.

이에 본 발명자는 화자 독립 방식의 가변 인식을 하는 가변어 인식기를 이용한 툴킷에서 일정한 대상 단어에 대한 음성 모델을 용이하게 생성할 수 있는 방법을 개발하게 된 것이다.Accordingly, the present inventors have developed a method for easily generating a speech model for a certain target word in a toolkit using a variable word recognizer that performs variable recognition of a speaker independent method.

본 발명의 목적은 상기에 제시된 문제점들을 해소할 수 있도록 가변어 인식 알고리즘을 이용해서 일정한 대상 단어에 대한 음성모델을 손쉽게 생성하여 저장할 수 있는 가변 인식을 하는 가변어 인식기를 이용한 툴킷에서 음성 모델을 생성하는 방법을 제공하기 위한 것이다.An object of the present invention is to generate a speech model in a toolkit using a variable word recognizer that can easily generate and store a speech model for a certain target word using a variable word recognition algorithm to solve the problems presented above. It is to provide a way to.

본 발명의 다른 목적은 음성 인식을 위한 음성 모델을 생성하는데 있어 다수의 음성을 채취하여 녹음하며 음성 모델로 모델링하는 절차를 포함한 번잡한 프로세스를 용이하게 수행할 수 있도록 한 가변 인식을 하는 가변어 인식기를 이용하여 음성 모델을 생성하는 방법을 제공하기 위한 것이다.Another object of the present invention is to generate a speech model for speech recognition, variable word recognizer for variable recognition to facilitate the complicated process including the procedure of taking and recording a plurality of voices and modeling the speech model To provide a method for generating a speech model using.

본 발명의 또 다른 목적은 종래 화자 종속 방식의 음성 인식 형태로 음성 모델을 생성하기 때문에 인식 대상 단어가 변경되는 경우에 있어서는 새롭게 음성모델을 만들어야 하는 문제점을 극복할 수 있도록 한 가변 인식을 하는 가변어 인식기를 이용하여 음성 모델을 생성하는 방법을 제공하기 위한 것이다.Another object of the present invention is to generate a speech model in the form of speech recognition in a speaker-dependent manner, so that when a word to be recognized is changed, a variable word that performs variable recognition to overcome the problem of creating a new speech model. It is to provide a method for generating a speech model using a recognizer.

본 발명의 상기 및 기타의 목적들은 하기 설명되는 본 발명에 의하여 모두 달성될 수 있다.The above and other objects of the present invention can be achieved by the present invention described below.

제1도는 본 발명에 따라 가변어 인식기에서 음성 모델(HMM)을 생성하는 과정을 흐름도로 도시한 것이다.1 is a flowchart illustrating a process of generating a speech model (HMM) in a variable word recognizer according to the present invention.

제2도는 본 발명에 따라 가변어 인식기에서 음성 모델을 생성하는 과정을 개념적으로 도시한 것이다.2 conceptually illustrates a process of generating a speech model in a variable word recognizer according to the present invention.

제3도는 음성모델을 저장하는 음성 인식용 칩을 블록도로 도시한 것이다.3 is a block diagram showing a chip for speech recognition storing a speech model.

본 발명은 해당 언어의 음소가 포함되는 단어셋을 생성하고, 상기 단어셋에 따른 음성 데이터를 수집하고, 상기 음성 데이터를 각각의 음소 단위로 레이블링(labeling)을 하고, 상기 음성 데이터를 짧은 시간 구간으로 분류하여 각 구간의 스펙트럼 분석을 하여 음성특징을 추출해서 각각의 음소를 특징벡터의 열로 나타내고, 상기 음성 데이터에 포함되어 있는 같은 음소를 모아 HMM훈련을 수행하고 그리고 생성하고자 하는 음성 모델을 구성하는 음소들의 상기 HMM을 연결하는 단계로 이루어진다.According to the present invention, a word set including a phoneme of a corresponding language is generated, voice data according to the word set is collected, the voice data is labeled in each phoneme unit, and the voice data is divided into a short time interval. The spectral analysis of each section is performed to extract the speech features to represent each phoneme as a column of feature vectors, to collect the same phonemes included in the speech data, to perform HMM training, and to construct a speech model. Connecting the HMM of phonemes.

본 발명에서는 인식 대상 단어의 음성 모델을 가변 인식을 하는 가변어 인식기를 이용한 툴킷에서 생성한다. 상기 툴킷은 가변어 인식기와 음소 단위의 음성 모델 데이터베이스를 포함하고 있다. 상기 가변어 인식기는 은닉 마콥 모델(HMM : Hidden Markov Model) 방식에 의해 인식 대상 단어를 모델링하며 화자 독립 방식의 음성 인식 기능을 제공하는 것으로, 해당 기술분야에서 널리 사용되고 있는 것일 뿐만 아니라 해당 기술 분야에서 통상의 지식을 가진 자라면 누구나 용이하게 실시할 수 있으므로 상세한 설명은 생략한다. 상기 은닉 마콥 모델은 각 단어의 발음상에 존재하는 각종 변화 요인들을 마콥 모델에 근거를 둔 통계적 기법으로 묘사하여 패턴 유사도를 측정하는 방법으로, 훈련 과정에서 마콥 프로세스에서의 상태천이확률 및 출력 심볼 관찰 확률을 추정한 다음, 인식과정에서는 이들 확률로부터 비터비 디코딩(Viterbi decoding)에 의해 인식단어를 결정하게 된다. 상기와 같은 음성 인식 기법 역시 해당 분야에서 통상의 기술을 가진 자에 의해서 용이하게 실시되어질 수 있으므로 상세한 설명은 생략하기로 한다. 덧붙여서 본 발명은 상기와 같은 종래의 음성 인식 기법 및 관련 기술을 이용하여 가변 인식을 수행하는 화자 독립 방식의 가변어 인식기를 포함하는 툴킷(tool kit)에서 음성 모델을 보다 용이하게 생성하는 방법을 제공하고자 하는 것이다.In the present invention, a speech model of a word to be recognized is generated in a toolkit using a variable word recognizer for variable recognition. The toolkit includes a variable word recognizer and a phonetic database of phonetic models. The variable word recognizer models a target word by a hidden markov model (HMM) method and provides a speaker independent speech recognition function, which is not only widely used in the related art but also used in the related art. Anyone with ordinary knowledge can easily perform the detailed description. The hidden makob model is a method of measuring pattern similarity by describing various change factors in the pronunciation of each word by a statistical technique based on makok model. Observing the state transition probability and the output symbol in the makob process during training. After estimating the probabilities, the recognition process determines the recognition words from the probabilities by Viterbi decoding. Since the speech recognition technique as described above may be easily implemented by those skilled in the art, a detailed description thereof will be omitted. In addition, the present invention provides a method for easily generating a speech model in a tool kit including a speaker-independent variable word recognizer that performs variable recognition using the conventional speech recognition technique and related techniques as described above. I would like to.

이하에서는 첨부하는 도면을 가지고 상기와 같은 종래의 툴킷 및 음성 인식 기법을 이용하여 음성모델을 생성하는 방법을 설명하기로 한다. 도1은 가변어 인식기에서 음성 모델(HMM)을 생성하는 과정을 도시한 것이다.Hereinafter, with reference to the accompanying drawings will be described a method for generating a speech model using the conventional toolkit and speech recognition techniques as described above. 1 illustrates a process of generating a speech model (HMM) in a variable word recognizer.

먼저 인식 대상 단어의 모든 음소가 포함되어 있는 단어(PBW : Phoneme Balanced Word) 셋을 만든다(S10).First, a set of words (PBW: Phoneme Balanced Word) including all phonemes of the recognized word is created (S10).

상기 PBW 셋을 다수의 사람들이 발성하여 만들어지는 음성 데이터를 수집한다(S20).The PBW set collects voice data generated by a plurality of people speaking (S20).

상기 수집된 음성 데이터를 각 음소 단위로 레이블링을 한다(S30).The collected voice data is labeled in units of phonemes (S30).

상기 음성 데이터를 짧은 시간구간(frame)으로 나누어 각 구간마다 스펙트럼 분석을 하여 음성특징(feature)을 추출하면 상기 음성 데이터의 각각의 음소는 특징 백터의 열로 나타내어진다. 각각의 다른 발음의 음소들은 독특한 스펙트럼 특징을 가지고 있으며 동일한 음소들은 비슷한 스펙트럼 특징을 가지고 있으므로 이러한 특징은 음성 인식에 이용된다(S40).When the speech data is divided into short time frames and subjected to spectral analysis for each section to extract speech features, each phoneme of the speech data is represented by a column of feature vectors. Since the phonemes of different pronunciations have unique spectral features and the same phonemes have similar spectral features, these features are used for speech recognition (S40).

상기 음성 데이터에 포함되어 있는 같은 음소를 모아 HMM 훈련을 거친다(S50). 상기 HMM은 여러 개의 상태(state)로 구성되어 있는 확률적 모델로써 각 음소마다 다른 HMM이 발생된다. HMM의 각 상태(state)는 시간 정보를 가지며 각상태(state) 마다 특정한 특징(feature) 벡터의 출력 확률을 갖는다. 따라서 각 음소의 HMM에는 그 음소의 시간에 따른 주파수 특성이 나타나 있다. 본 단계에서는 최적의 모델링을 하기 위해 각 파라미터를 조정하기 위해서 바움-웰치(Baum-Welch) 알고리즘을 이용한다.The same phonemes included in the voice data are collected and subjected to HMM training (S50). The HMM is a probabilistic model composed of several states, and different HMMs are generated for each phoneme. Each state of the HMM has time information and an output probability of a specific feature vector for each state. Therefore, the HMM of each phoneme shows the frequency characteristic of the phoneme over time. In this step, the Baum-Welch algorithm is used to adjust each parameter for optimal modeling.

마지막으로 구하고자 하는 음성 모델을 구성하는 음소들의 상기 HMM을 연결시켜 음성모델을 생성한다(S60).Finally, the HMM of the phonemes constituting the speech model to be obtained is connected to generate a speech model (S60).

상기와 같이 이루어지는 본 발명에 따른 음성모델을 생성하는 방법을 요약하여 설명하면, 도2에 개념적으로 도시한 바와 같이 음성 인식 대상 단어가 선정되면 툴킷에 대상 단어 리스트를 입력하게 된다. 상기 툴킷을 이루고 있는 가변어 인식기는 각각의 대상 단어를 음소 단위로 분해한 후 상기 대상 단어의 음소와 대응하는 데이터베이스에 저장되어 있는 각각의 음소 모델들을 연결시켜 음성 모델을 생성하게 되는 것이다.In summary, a method of generating a speech model according to the present invention as described above will be described. As shown in FIG. 2, if a target word for speech recognition is selected, the target word list is input to the toolkit. The variable word recognizer constituting the toolkit decomposes each target word into a phoneme unit and generates a speech model by concatenating each phoneme model stored in a database corresponding to the phoneme of the target word.

상기와 같이 음성 모델을 생성한 후 상기 음성 모델을 칩의 메모리에 저장을 함으로써 음성 인식용 칩은 구성이 된다. 이하에서는 상기와 같은 절차로 생성된 음성 모델을 저장하는 음성 인식용 칩에 대해 설명하기로 한다.The voice recognition chip is constructed by generating the voice model as described above and storing the voice model in the memory of the chip. Hereinafter, a voice recognition chip for storing a voice model generated by the above procedure will be described.

도3은 음성 모델을 저장하는 음성 인식용 칩의 구성을 블록도로 도시한 것이다. 도시한 바와 같이 음성 인식용 칩은 음성을 입력하는 입력부(101), 상기 입력부에서 입력된 아날로그 신호인 음성을 디지털로 변환하거나 디지털 신호를 아날로그 신호로 변환하는 변환부(102), 상기 변환부에서 입력된 음성의 디지털 신호와 툴킷에서 생성된 음성 모델을 비교, 연산하는 연산부(103), 툴킷에서 생성된 음성모델 및 칩의 동작에 필요한 프로그램을 저장하는 저장부(104)로 구성된다. 또한 메모리를 추가하는 경우에는 데이터버스를 통하여 외부메모리를 추가할 수도 있다.3 is a block diagram showing the configuration of a chip for speech recognition storing a speech model. As shown, the voice recognition chip includes an input unit 101 for inputting a voice, a conversion unit 102 for converting a voice, which is an analog signal input from the input unit, to a digital signal or a digital signal for an analog signal, and in the conversion unit. Comprising an operation unit 103 for comparing and calculating the digital signal of the input voice and the voice model generated by the toolkit, and a storage unit 104 for storing the voice model generated by the toolkit and the program required for the operation of the chip. In addition, when adding memory, external memory can be added via a data bus.

상기 외부 메모리는 플래쉬(flash) 메모리, 롬 또는 램으로 구성되어 메모리의 추가를 손쉽게 할 수 있다.The external memory may be configured as a flash memory, a ROM, or a RAM to easily add memory.

상기 입력부(101)는 화자가 입으로 발생하는 음파를 전기적 신호로 바꾸어 준다.The input unit 101 converts sound waves generated by a speaker into an electrical signal.

변환부(102)는 상기 입력부(101)에서 입력된 음성 신호를 디지털신호로 변환(coder)하고 디지털신호를 역으로 아날로그 신호로 변환하는(decoder) 변, 복조기 또는 부호, 복호기를 말한다.The conversion unit 102 refers to a side, a demodulator or a coder, and a decoder that converts a voice signal input from the input unit 101 into a digital signal and decodes the digital signal into an analog signal.

상기 연산부(103)는 상기 변환부(102)에서 화자의 음성 아날로그 신호를 A/D(아날로그/디지털)변환하여 얻어진 디지털 데이터에 대수적인 연산을 해 필터링이나 스펙트럼 분석 등의 신호처리를 수행하며 기본적으로 아날로그 신호의 실시간 디지털 처리를 목적으로 한다. 상기 연산부(103)는 디지털신호처리의 기본조작으로 필터링, 푸리어(fourier)변환, 상관함수의 산출, 부호화, 부호 변복조, 미분, 적분, 적응신호처리 등을 수행하게 된다.The calculation unit 103 performs algebraic operations on digital data obtained by A / D (analog / digital) conversion of the voice analog signal of the speaker in the conversion unit 102 and performs signal processing such as filtering or spectral analysis. This is for real time digital processing of analog signals. The operation unit 103 performs filtering, Fourier transform, correlation function calculation, encoding, code modulation and demodulation, derivative, integration, adaptive signal processing, etc. as a basic operation of digital signal processing.

상기 저장부(104)는 음성인식을 위한 프로그램을 저장하는 프로그램 메모리,The storage unit 104 is a program memory for storing a program for speech recognition,

상기 저정부(104)와 연산부(103)와 입·출력에서 전달되는 데이터 교환의 효율성을 높이기 위하여 이들 사이에서 교환되는 데이터가 잠시동안 저장될 수 있도록 버퍼 및 작업용 메모리 등으로 구성된다. 또한 상기 저장부(104)에서 상기에서 설명한 가변어 인식기를 포함하는 툴킷에서 생성한 음성모델을 탑재하고 있다. 만일 상기와 같이 구성되는 음성인식용 칩을 원-칩(one-chip)형태로 구성하는 경우에는 상기 음성모델을 저장부(104)의 롬(rom)에 마스킹하게 된다.In order to improve the efficiency of the data exchange transmitted from the storage unit 104 and the calculation unit 103 and the input and output, it is composed of a buffer and a working memory or the like so that the data exchanged between them can be stored for a while. In addition, the storage unit 104 includes a voice model generated by the toolkit including the variable word recognizer described above. If the voice recognition chip configured as described above is configured in the form of a one-chip, the voice model is masked on the ROM of the storage unit 104.

이하에서는 상기와 같이 구성되는 음성인식 용 칩의 동작을 설명하기로 한다.Hereinafter, the operation of the voice recognition chip configured as described above will be described.

선행적으로 상기에서 설명한 가변어 인식기를 포함하는 툴킷에서 음성모델을 생성한 후 상기 음성모델을 저정부(104)의 플래시 메모리 또는 롬에 저장을 한다.Prior to generating the voice model in the toolkit including the variable word recognizer described above, the voice model is stored in the flash memory or ROM of the storage unit 104.

입력부(101)는 화자가 발음하는 음성을 변환부(102)에 입력을 한다. 상기 화자가 발음하는 음파를 상기 변환부(102)에서는 디지털 신호인 음성 데이터로 변환하게 된다. 그러면 연산부(103)는 저장부(104)에서 음성인식 알고리즘을 불러 들여 상기 변환부(102)에서 입력된 음성데이터에서 음성 특징 벡터열을 추출하고 이 벡터열을 이용하여 상기 저장부(104)에 저장되어 있는 음성 모델의 HMM 과 입력된 음성 특징 벡터열과의 유사도(likelihood)를 측정하여 가장 유사도가 높은 것을 인식 결과로 결정한다. 일반적으로 상기와 같이 음성 인식을 하는데 있어서는 관측열이 주어졌을 때 최적의 상태열을 선택하기 위해서 비터비(viterbi) 알고리즘을 이용한다.The input unit 101 inputs the voice pronounced by the speaker into the conversion unit 102. The sound wave pronounced by the speaker is converted by the converter 102 into voice data which is a digital signal. Then, the calculating unit 103 calls a speech recognition algorithm from the storage unit 104, extracts a speech feature vector sequence from the speech data input from the converting unit 102, and uses the vector sequence to send the speech recognition vector to the storage unit 104. The similarity between the HMM of the stored speech model and the input speech feature vector sequence is measured to determine the recognition result having the highest similarity. In general, in the speech recognition as described above, a Viterbi algorithm is used to select an optimal state sequence when an observation sequence is given.

본 발명에 따라 이루어지는 음성 모델을 생성하는 방법은 가변어 인식 알고리즘을 이용해서 일정한 대상 단어에 대한 음성모델을 손쉽게 생성하여 저장할 수 있으며, 음성 인식을 위한 음성 모델을 생성하는데 있어 다수의 음성을 채취하여녹음하며 음성 모델로 모델링하는 절차를 포함한 번잡한 프로세스를 용이하게 수행할 수가 있다. 또한 인식 대상 단어가 변경되는 경우에 있어서도 용이하게 음성모델을 생성할 수가 있으며 인식 대상 단어를 손쉽게 업데이트할 수가 있는 것이다.The method for generating a speech model according to the present invention can easily generate and store a speech model for a certain target word using a variable word recognition algorithm, and extract a plurality of speech in generating a speech model for speech recognition. It can easily perform a complicated process including recording and modeling with a voice model. In addition, even when the recognition target word is changed, a voice model can be easily generated and the recognition target word can be easily updated.

본 발명의 단순한 변형 내지 변경은 이 분야의 통상의 지식을 가진 자에 의하여 용이하게 이용될 수 있으며, 이러한 변형이나 변경은 모두 본 발명의 영역에 포함되는 것으로 볼 수 있다.Simple modifications and variations of the present invention can be readily used by those skilled in the art, and all such variations or modifications can be considered to be included within the scope of the present invention.

Claims (2)

해당 언어의 음소가 포함되는 단어셋을 생성하고;Generating a word set including phonemes of the corresponding language; 상기 단어셋에 따른 음성 데이터를 수집하고;Collecting voice data according to the word set; 상기 음성 데이터를 각각의 음소 단위로 레이블링을 하고;Labeling the speech data in units of phonemes; 상기 음성 데이터를 짧은 시간 구간으로 분류하며 각 구간의 스펙트럼을 분석하여 음성특징을 추출해서 각각의 음소를 특징벡터의 열로 나타내고;Classifying the speech data into short time intervals, analyzing the spectrum of each interval, extracting speech characteristics, and representing each phoneme as a column of feature vectors; 상기 음성 데이터에 포함되어 있는 같은 음소를 모아 HMM훈련을 수행하고; 그리고Performing the HMM training by collecting the same phonemes included in the voice data; And 생성하고자 하는 음성 모델을 구성하는 음소들의 상기 HMM을 연결하는;Concatenating the HMMs of phonemes constituting a speech model to be generated; 단계로 이루어지는 가변 인식을 하는 화자 독립 방식의 가변어 인식기를 포함하는 툴킷(tool kit)에서 음성 모델을 생성하는 음성 모델의 생성 방법.A method of generating a speech model for generating a speech model in a tool kit including a speaker independent variable word recognizer for variable recognition. 제1항의 방법에 의해 가변 인식을 하는 화자 독립 방식의 가변어 인식기를 포함하는 툴킷에서 생성된 음성모델을 저장하고 있는 음성 인식용 칩.A voice recognition chip which stores a speech model generated by a toolkit including a speaker independent variable word recognizer for variable recognition according to the method of claim 1.
KR10-2000-0052274A 2000-09-05 2000-09-05 Method of Producing Speech Model KR100369478B1 (en)

Priority Applications (1)

Application Number Priority Date Filing Date Title
KR10-2000-0052274A KR100369478B1 (en) 2000-09-05 2000-09-05 Method of Producing Speech Model

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
KR10-2000-0052274A KR100369478B1 (en) 2000-09-05 2000-09-05 Method of Producing Speech Model

Publications (2)

Publication Number Publication Date
KR20020019150A true KR20020019150A (en) 2002-03-12
KR100369478B1 KR100369478B1 (en) 2003-01-30

Family

ID=19687340

Family Applications (1)

Application Number Title Priority Date Filing Date
KR10-2000-0052274A KR100369478B1 (en) 2000-09-05 2000-09-05 Method of Producing Speech Model

Country Status (1)

Country Link
KR (1) KR100369478B1 (en)

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR102089967B1 (en) 2019-01-28 2020-03-17 이상원 Portable Neck Band for Providing by Switching Cool and Warm Air

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100308274B1 (en) * 1998-09-22 2001-11-15 구자홍 Variable vocabulary recognition system

Also Published As

Publication number Publication date
KR100369478B1 (en) 2003-01-30

Similar Documents

Publication Publication Date Title
US7319960B2 (en) Speech recognition method and system
JP4202124B2 (en) Method and apparatus for constructing a speech template for a speaker independent speech recognition system
Bahl et al. Multonic Markov word models for large vocabulary continuous speech recognition
JPH0422276B2 (en)
JP2002366187A (en) Device and method for recognizing voice, program and recording medium
JPH0555040B2 (en)
JPH07334184A (en) Calculating device for acoustic category mean value and adapting device therefor
JP3189598B2 (en) Signal combining method and signal combining apparatus
GB2347775A (en) Method of extracting features in a voice recognition system
US5943647A (en) Speech recognition based on HMMs
JP2001166789A (en) Method and device for voice recognition of chinese using phoneme similarity vector at beginning or end
Badhon et al. State of art research in bengali speech recognition
KR100369478B1 (en) Method of Producing Speech Model
JPH10254473A (en) Method and device for voice conversion
Ananthakrishna et al. Effect of time-domain windowing on isolated speech recognition system performance
Moore Systems for isolated and connected word recognition
KR20050059766A (en) Voice recognition method using dynamic time warping
Ibrahim et al. A comparative survey of DTW and HMM using Hausa isolated digits recognition in human computer interaction sytem
JPH0997095A (en) Speech recognition device
Thalengala et al. Performance Analysis of Isolated Speech Recognition System Using Kannada Speech Database.
KR100349341B1 (en) Technique for the recognition rate improvement for acoustically similar speech
JPH10149190A (en) Method and device for recognizing sound
JP2003295887A (en) Method and device for speech recognition
KR20050063986A (en) Speaker depedent speech recognition sysetem using eigenvoice coefficients and method thereof
JP2006235298A (en) Speech recognition network forming method, and speech recognition device, and its program

Legal Events

Date Code Title Description
A201 Request for examination
E902 Notification of reason for refusal
E701 Decision to grant or registration of patent right
GRNT Written decision to grant
FPAY Annual fee payment

Payment date: 20130103

Year of fee payment: 11

FPAY Annual fee payment

Payment date: 20140108

Year of fee payment: 12

FPAY Annual fee payment

Payment date: 20141231

Year of fee payment: 13

FPAY Annual fee payment

Payment date: 20161220

Year of fee payment: 15

FPAY Annual fee payment

Payment date: 20181211

Year of fee payment: 17