WO2000014723A1 - Dispositif de reconnaissance de la parole - Google Patents

Dispositif de reconnaissance de la parole Download PDF

Info

Publication number
WO2000014723A1
WO2000014723A1 PCT/JP1999/004885 JP9904885W WO0014723A1 WO 2000014723 A1 WO2000014723 A1 WO 2000014723A1 JP 9904885 W JP9904885 W JP 9904885W WO 0014723 A1 WO0014723 A1 WO 0014723A1
Authority
WO
WIPO (PCT)
Prior art keywords
word
speech
label
recognition
registered
Prior art date
Application number
PCT/JP1999/004885
Other languages
English (en)
French (fr)
Inventor
Makoto Shozakai
Original Assignee
Asahi Kasei Kabushiki Kaisha
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Asahi Kasei Kabushiki Kaisha filed Critical Asahi Kasei Kabushiki Kaisha
Priority to DE69939124T priority Critical patent/DE69939124D1/de
Priority to EP99943224A priority patent/EP1126438B1/en
Priority to JP2000569386A priority patent/JP3803029B2/ja
Priority to BR9913524-8A priority patent/BR9913524A/pt
Priority to MXPA01002514A priority patent/MXPA01002514A/es
Priority to AU56478/99A priority patent/AU5647899A/en
Publication of WO2000014723A1 publication Critical patent/WO2000014723A1/ja
Priority to US09/802,768 priority patent/US6868382B2/en
Priority to HK02101185.1A priority patent/HK1040312A1/zh

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/14Speech classification or search using statistical models, e.g. Hidden Markov Models [HMMs]
    • G10L15/142Hidden Markov Models [HMMs]
    • G10L15/144Training of HMMs
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training

Definitions

  • the present invention relates to a speech recognition apparatus and method capable of performing speech recognition for a vocabulary in which registered words unique to a specific speaker and fixed words common to an unspecified speaker are mixed.
  • a technique for recognizing a registered word unique to a specific speaker is generally called specific speaker speech recognition.
  • specific-speaker speech recognition the task of registering in advance the speech of a word that a particular speaker wants to perform speech recognition occurs. Specifically, this work converts a voice sample of a word uttered in advance by a specific speaker into a sequence of feature parameters (called a template), and stores the sequence together with the word label in a memory or hard disk. Store in the device. Cepstrum analysis and linear prediction analysis are known as methods for converting audio samples into a sequence of characteristic parameters.
  • HMM speaker-independent speech recognition by HMM is also described in detail in “Digital signal processing of speech / sound information” above.
  • a speech unit is a set of phonemes described in Chapter 2 of “Digital Signal Processing of Voice and Sound Information”, and each phoneme is modeled by an HMM. Table 1 lists the labels of the phoneme set.
  • MD can be modeled using a fixed word label sequence as shown in Fig. 2B. If the phonetic model data and the fixed word label sequence by the HMM are prepared, those skilled in the art can use the V iterbi algorithm described in Chapter 4 of "Digital Signal Processing of Speech and Sound Information". A recognition device can be configured.
  • a speech recognition device to provide a function capable of recognizing a vocabulary in which registered words unique to a specific speaker and fixed words common to an unspecified speaker are mixed. For example, in car audio equipment, there is a need to control each device such as “CD” and “MD” by voice for safety reasons. Since the names of these devices can be set in common for an unspecified number of speakers, they can be implemented using unspecified speaker speech recognition technology. As a result, registration work required for specific speaker voice recognition technology can be avoided, which is preferable in terms of user interface.
  • the scales used to compare the parameter sequence of the input speech and the information of the parameter sequence of the vocabulary words stored in the storage device in these two methods are generally different. Therefore, the registered words specific to the specific speaker determined to be closest to the input voice by the specific speaker voice recognition by DTW and the unspecified speech determined to be closest to the input voice by the unspecified speaker voice recognition by HMM It is not easy to determine which of the common fixed words is closer to the input speech.
  • a voice recognition device for an unspecified speaker does not require a manufacturer to register the voices of many users individually.
  • the recognition accuracy is slightly lower than the recognition accuracy of a specific speaker.
  • a speech recognition device for a specific speaker is excellent in recognition accuracy, it is extremely difficult for a manufacturer to extract characteristic parameters from each user's voice and store it in the speech recognition device in advance. . Even if the user registers his / her own voice, for example, registering many words requires a great deal of effort.
  • an object of the present invention is to accurately recognize a registered word uttered by a specific speaker even when a voice recognition method for recognizing the voice of an unspecified speaker is used.
  • a speech recognition device and method are provided.
  • a speech recognition apparatus that performs word recognition using input model information of a speech unit model having a shorter length than a word.
  • a vocabulary label network storing means for storing the label unit of the voice unit for the fixed word commonly used, and a registered word label for creating the label sequence of the voice unit for the registered word from the input voice of the specific speaker Sequence extraction means, and registration means for additionally registering the label sequence of the created registered word in the vocabulary label network storage means, wherein the speech unit is generated by dividing each state of a hidden Markov model of a phoneme.
  • the speech recognition apparatus may further include means for registering the fixed word in the vocabulary label network storage means.
  • a label sequence of a speech unit and a label sequence of a created registered word for a fixed word commonly used for word recognition of the input speech of the unspecified speaker are parallel. May be stored in the vocabulary label network storage means in the form of a network.
  • a manufacturer of a speech recognition apparatus only needs to provide a label sequence of fixed words for a large number of unspecified users as speech recognition data, and the user can generate his / her own speech for a desired word. You can register. In other words, it is possible to add the voice recognition function of the specific speaker to the voice recognition method of the unspecified speaker method. This makes it possible to provide a speech recognition device and method suitable for both the user and the manufacturer.
  • FIG. 1 is a block diagram showing a system configuration of the embodiment of the present invention.
  • FIG. 2A is an explanatory diagram showing a fixed word label sequence of “CD (Shidi)”.
  • FIG. 2B is an explanatory diagram showing a fixed word label sequence of “MD (Emdi I)”.
  • FIG. 3 is an explanatory diagram showing the contents of the phoneme network.
  • FIG. 4A is an explanatory diagram showing a registered word label sequence of “jazz”.
  • FIG. 4B is an explanatory diagram showing a registered word label sequence of “pops”.
  • FIG. 5 is an explanatory diagram showing a vocabulary label network in which fixed words and registered words are mixed.
  • FIG. 6 is an explanatory diagram showing a vocabulary label network consisting only of fixed words.
  • FIG. 7 is an explanatory diagram showing a vocabulary label network consisting only of registered words.
  • FIG. 8 is an explanatory diagram showing the structure of the phoneme HMM.
  • FIG. 9 is an explanatory diagram showing the structure of the acoustic event HMM *.
  • FIG. 10 is an explanatory diagram showing the structure of the acoustic event HMM * .2.
  • FIG. 11 is an explanatory diagram showing the structure of the acoustic event HMM * .3.
  • FIG. 12 is an explanatory diagram showing an unconstrained acoustic event network.
  • FIG. 13 is an explanatory diagram showing an acoustic event network with a position constraint.
  • a speech recognition device is provided.
  • the model of speech units (syllables, syllables, phonology, acoustic events, etc.) is modeled, and label sequences of speech units corresponding to fixed words common to unspecified speakers.
  • the fixed words included in the input speech are recognized by the above-mentioned V iterbi algorithm using the connection information between the label sequences of each fixed word.
  • the label sequence is added to the connection information of the label sequences by using the Viterbi algorithm described above. It is considered that it is possible to recognize a vocabulary in which registered words unique to a specific speaker and fixed words common to unspecified speakers are mixed.
  • a voice unit can be connected in an arbitrary order and at an arbitrary length instead of mutual connection information of label sequences of fixed words. This can be realized by using the connection information and acquiring the sequence of all voice units included in the input voice by the Viterbi algorithm.
  • FIG. 1 shows a basic configuration of the embodiment of the present invention.
  • an analog audio signal 11 input from a microphone (not shown) is converted into a digital signal 22 by an input means a using an AD converter.
  • the digital signal 22 is converted by the conversion means b into acoustic parameters 33 at a fixed frame cycle.
  • Sound (Characteristics)
  • cepstrum described in the above-mentioned “Speech” and “Digital signal processing of sound information” may be used.
  • word registration is instructed by a switch (not shown) of the speech recognition device, and the conversion means b is connected to the registered word label sequence extraction means d.
  • the specific speaker that is, the user of the car audio (specific speaker) to which the voice recognition device is connected, inputs the voice to be registered into the microphone.
  • the analog sound signal 11 generated by the microphone is converted into an acoustic parameter 33 by the conversion means b.
  • the sound parameters are sent to the registered word label sequence extraction means d.
  • the registered word label sequence extraction means d refers to the recognition data stored in the recognition data storage means C such as a hard disk or a memory 44, recognizes the label sequence in units of speech, and extracts the acoustic parameters 33. Convert to registered word label series 5 5 5
  • Recognition data 4 4 stored in the data storage means c includes speech model data and acoustic parameters 3 3 modeled by the Hidden Markov Model 3 3 Two types of network data of voice models are stored.
  • the network data of the model of the speech unit (omitted in this case) for converting the acoustic parameters 33 into the registered word label sequence 55 is a network that expresses the permissible phoneme connections. It is.
  • the 27 phonemes in Table 1 can be connected in any order and at any length.
  • the speech of the registered word unique to the specific speaker can be converted into a phoneme label sequence by the Viterbi algorithm.
  • Figure 4A shows an example of a network of phoneme labels obtained from a jazz input signal uttered by a speaker for registration. If the phoneme recognition rate is 100%, the utterance “jazz” should yield a phoneme label sequence of j + a + z + u, but in this example, the last u has not been obtained with silence.
  • Figure 4B shows an example of a phoneme label network obtained from a "pops" input signal uttered by a speaker for registration. If the phoneme recognition rate is 100%, a speech that utters “Pobbs” should yield a phoneme label sequence of P + 0 + P + U + s + u, but p, t, Since it is generally difficult to identify k, the second p is replaced by k.
  • the network of phoneme labels obtained by the registered word label sequence extracting means d is called a registered word label sequence 55.
  • Registered word label sequence 5 5 is a vocabulary label network such as a hard disk It is additionally registered and stored in the storage means f.
  • a network of phonological labels can be extracted from spellings of fixed words common to unspecified speakers according to predetermined rules.
  • one or more phoneme label networks can be created from speech samples of one or more unspecified speakers for fixed words in the same manner as described above (registration of specific speaker words).
  • These networks are called fixed-word label sequences 66, and means for temporarily storing the data for transfer to the vocabulary label network storage means f, for example, CPU and RAM as fixed-word label sequence storage means e. I will call it.
  • the fixed word label sequences shown in FIGS. 2A and 2B can be obtained.
  • the data on the fixed-word label sequence is recorded on a recording medium such as a floppy disk or a CD by the manufacturer, and the data may be transferred from this recording medium to the fixed-word level sequence storage means e in the speech recognition device. .
  • the fixed word label sequence for the unspecified speaker is registered by being stored (stored) in the vocabulary label network storage means f via the fixed word level sequence storage means e.
  • the fixed-word labels stored by the registered word label sequence 55 and the fixed-word label sequence storage means e which are extracted from the registered word label sequence extraction means d and additionally registered in the vocabulary label network storage means f by the registration means i
  • the following three methods are conceivable as a method of constructing the vocabulary label network 77 stored in the vocabulary network storage means f from the sequence 66.
  • Figure 5 shows a vocabulary label network that connects fixed-word label sequences of “CD” and “MD” with registered word label sequences of “jazz” and “pops”.
  • the second method is to form a network including only the registered word label sequence 55 and use it as a vocabulary label network 77.
  • Figure 6 shows a vocabulary label network that connects fixed-word label sequences “CD” and “MD”. With this network, an unspecified speaker voice recognition device that can recognize either of the two fixed words “CD” and “MD” can be realized.
  • the third method is to form a network including only the registered word label sequence 55 and use it as a vocabulary label network 77.
  • Figure 7 shows a vocabulary label network that connects registered word label sequences of “jazz” and “pops”. With this network, it is possible to realize a specific speaker voice recognition device that can recognize either of two registered words “jazz” and “pops”.
  • the label sequence of the fixed word of the unspecified speaker is associated in advance with the operation command, and the registered word label sequence registered by the specific speaker (user) is associated. It is good to associate. For example, as a method for this, a selectable operation instruction is displayed in advance on a display, a display operation instruction is selected using a cursor key or the like, and a word associated with the operation instruction is spoken by a microphone. Then, the registered word label sequence 55 extracted by the registered word label sequence extracting means d is registered in the vocabulary label network storage means ⁇ ⁇ ⁇ by the registering means i.
  • association table may also store fixed word label sequences prepared by the manufacturer and corresponding operation instruction codes.
  • the connection is switched to the conversion means b and the recognition means g.
  • Acoustic parameters 33 input from the input means a and converted and output by the conversion means 33, a recognition data 45 consisting of data of phoneme models stored in the recognition data storage means c, and a vocabulary label Network storage
  • the recognition means g obtains a word recognition result 88 by the above-mentioned V iterbi algorithm in the recognition means g.
  • the recognition result 88 is output to the speaker as an output result 99 by voice or screen by an output means such as a speaker or a display.
  • the user can perform operation instructions with higher accuracy by registering frequently used operation instructions in the form of words using his / her own voice.
  • the merit of this system is that even if the registered word label sequence registered by the user (specific speaker) is misrecognized by label recognition (conversion of acoustic parameters from recognition data into labels using recognition data), There is no effect.
  • the operation instruction is registered as the label sequence of the erroneous recognition result, and even if the specific speaker inputs the operation instruction in voice in the voice recognition mode, the speech recognition device erroneously performs the same operation. Since the recognition is performed, the operation instruction associated in advance is always selected.
  • a registered word spoken by a specific speaker is recognized with high accuracy regardless of language by using an acoustic event model for an unspecified speaker generated by decomposing a phoneme as a speech unit.
  • phoneme HMM As a speech unit smaller than the phoneme. The case will be explained. Regardless of the language or the type of phoneme, phoneme is generally modeled by the four-state HMM shown in Fig. 8.
  • State 1 is the initial state, and state transition always starts from state 1.
  • State 4 is the final state, and no further state transition occurs when transitioning to this state.
  • b i (x) represents the probability that the observed vector X is output when transitioning from state i, and is called the output probability. Observation vectors correspond to the acoustic parameters 33 in Fig. 1, and cepstrum is often used.
  • the output probability b i (x) is represented by the superposition of one or more normal distributions.
  • the output probability is formulated as the probability bi (x) that the observation vector X is output when the state transitions to state i, or when the state transitions from state i to state j. It is sometimes formulated as the probability bij (x) that the vector X is output.
  • the HMM is called a continuous HMM.
  • a phoneme is modeled by a semi-continuous HMM or a discrete HMM, but the present invention is similarly applicable.
  • the four-state phonological HMM shown in FIG. 8 is divided into three two-state HMMs shown in FIG. 9, FIG. 10 and FIG. These are referred to as acoustic event HMMs, and are represented as * .1, * .2, * .3 according to the state number.
  • * represents the phoneme label in Table 1.
  • FIG. 12 shows a network in which these acoustic event HMMs can be connected in any order and at any length.
  • This network is called an unconstrained acoustic event network.
  • This unconstrained acoustic event network has a higher degree of freedom in the sequence of acoustic events than the phonological network in Fig. 3, and the ability to express acoustic event sequences is correspondingly higher. Conceivable.
  • the acoustic event sequence obtained by the V iterbi algorithm using the unconstrained audio event network of FIG. 12 is more specific speaker than the phoneme sequence obtained by the V iterbi algorithm using the phoneme network of FIG. It can be expected that the utterance of the registered word unique to is more accurately approximated.
  • the network shown in Fig. 13 is called an acoustic event network with location constraints.
  • the number of acoustic events that can be connected is one-third that of the unconstrained acoustic event network in Fig. 12.
  • the recognition performance may slightly decrease, but the processing time for finding an acoustic event sequence that approximates a registered word specific to a specific speaker can be shortened accordingly. it is conceivable that.
  • a phonological sequence of 128 words is obtained by Viterbi algorithm, and it is used as a recognition vocabulary to specify Japanese, English, French, German, and Italian. Two males and two females for speaker word recognition were selected. Table 2 shows the average and minimum recognition rates for speech recognition at that time. The ratio between voice and noise is 10 dB. [Table 2]
  • Table 3 shows the average recognition rate and the minimum recognition rate for specific speaker word recognition for Japanese, English, French, German, and Italian, when the recognition target is Japanese.
  • the system configuration shown in Fig. 1 may be configured by a digital circuit, or may be realized by software processing of a micro computer or personal computer.
  • the functions of the conversion means b, the registered word label sequence extraction means d, and the recognition means g are realized by the CPU executing the software program.
  • What kind of circuit configuration may be appropriately determined according to the use of the speech recognition device. For example, if a personal computer uses voice input for character input and control key input, the system shown in Fig. 1 should be implemented using a CPU and hard disk mounted on a personal computer.
  • a fixed word label sequence common to unspecified speakers can be registered in the speech recognition device from the CDROM or the like, but a non-volatile writable memory such as an EEPROM built in the speech recognition device is used. Of course, it may be stored in In this case, the missing word or the word for which the recognition accuracy is to be improved is registered by a specific speaker by voice.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Probability & Statistics with Applications (AREA)
  • Artificial Intelligence (AREA)
  • Information Retrieval, Db Structures And Fs Structures Therefor (AREA)
  • Telephonic Communication Services (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)
  • Machine Translation (AREA)

Description

音声認識装置 技術分野
本発明は、特定話者に固有の登録語と不特定話者に共通の固定語が混在した語彙 に対し、 音声認識が可能な音声認識装置および方法に関するものである。 背景技術
特定話者に固有の登録語を認識する技術を一般に特定話者音声認識と呼ぶ。特定 話者音声認識においては、特定話者が予め音声認識させたい単語の音声を登録する という作業が発生する。 この作業は具体的には、特定話者が予め発声した単語の音 声サンプルをある特徴パラメータの系列 (テンプレートと呼ぶ) に変換し、 その系 列を単語のラベルとともにメモリ一やハードディスクなどの記憶装置に蓄積する。 音声サンプルをある特徴パラメ一夕の系列に変換する方法としては、ケプストラム 分析や線形予測分析などが知られており、 「音声 ·音情報のディジ夕ル信号処理」
(鹿野清宏、 中村哲、 伊勢史郎共著、 (株) 昭晃堂) にも詳述されている。 特定話 者音声認識においては、記憶装置に蓄積された特徴パラメ一夕の系列と入力された 音声から変換された特徴パラメ一夕の系列とを比較し、入力された音声から変換さ れた特徴パラメ一夕の系列に最も類似した特徴パラメ一夕の系列を持つ単語のラ ベルを認識結果として出力する。
記憶装置に蓄積された特徴パラメ一夕の系列と入力された音声から変換された 特徴パラメ一夕の系列とを比較する方法としては、 動的計画法(dynami c programming) による時間軸伸縮マッチング(Dynami c T ime Warp ing, D TW) が広 く用いられており、 上記 「音声 ·音情報のディジタル信号処理」 にも詳しく述べら れている。 一方、不特定話者に共通の固定語を認識する技術を一般に不特定話者音声認識と 呼ぶ。不特定話者音声認識においては、 不特定話者に共通の固定語の特徴パラメ一 夕に関する情報が予め記憶装置に蓄積されているため、特定話者音声認識のように ユーザーが音声認識させたい単語を登録するという作業は発生しない。音声サンプ ルをある特徴パラメ一夕の系列に変換する方法としては、特定話者音声認識と同様 にケプストラム分析や線形予測分析などが知られている。 また、 不特定話者に共通 の固定語の特徴パラメータに関する情報の作成およびその情報と入力された音声 から変換された特徴パラメ一夕の系列との比較には、 隠れマルコフモデル (Hidden Markov Mode l , HMM) による方法が一般に用いられている。
HMMによる不特定話者音声認識についても、 上記 「音声 ·音情報のディジタル 信号処理」 に詳しく述べられている。 例えば、 日本語の場合、 音声単位を上記 「音 声 ·音情報のディジタル信号処理」の第 2章に記載されている音韻のセットとし、 各音韻が HMMによりモデル化されているとする。表 1に音韻のセッ卜のラベルの 一覧を示す。
【表 1】 母音 a , i, u , e , 〇 f 、 z、 s、 z h、 s h、 h 破擦音 d z、 t s、 d h、 c h 破裂音 b, p , d, t , g , k 半母音 w、 r、 y 鼻音 m, n , n g この時、 例えば 「C D (シーディー)」 は図 2 Aのような話者に共通の音韻ラベ ルのネットワーク (固定語ラベル系列と呼ぶ) でモデル化することができる。
また、 例えば 「MD (ェムディ一)」 は図 2 Bのような固定語ラベル系列でモデ ル化することができる。 HMMによる音韻モデルのデータと固定語ラベル系列を用 意すれば、 上記 「音声 ·音情報のディジタル信号処理」 の第 4章に記載されている V i t e r b iアルゴリズムにより、当業者は不特定話者音声認識装置を構成する ことができる。
音声認識装置において、特定話者に固有の登録語と不特定話者に共通の固定語が 混在した語彙に対し、認識が可能であるという機能を提供したいというニーズがあ る。 例えば、 カーオーディオ装置においては、 安全上の理由から 「C D」、 「MD」 などの各機器の制御を音声で行いたいというニーズがある。これらの機器の名前は、 不特定多数の話者で共通に設定することができるため、不特定話者音声認識技術で 実現することができる。 これにより、特定話者音声認識技術で必要な登録の作業を 回避することができ、 ユーザ一イン夕フェースの面で好ましい。
一方で、 例えば、 C Dチェンジャーに挿入された複数の C Dを声で選択し再生す るというニーズが存在する。 この場合、 C Dチェンジャーに挿入される C Dのタイ トル名、 歌手名などはユーザ一により異なると考えられる。 従って、 従来の不特定 話者音声認識技術ではなく、特定話者音声認識技術の適用が必要となる。すなわち、 ュ一ザ一が C Dチェンジャーに挿入する C Dのタイトル名、歌手名などを予め声に より登録するという作業が必要となる。 「C D」、 「MD」 などの各機器の名前と C Dのタイトル名、歌手名などが混在した語彙に対し、音声認識を行うことが可能で あれば、 「C D」、 「MD」 などの不特定話者に共通の固定語を認識できるモードと C Dのタイトル名、歌手名などの特定話者に固有の登録語を認識できるモードを切 り替える必要がなく、ユーザ一に対してより使いやすい音声認識機能を提供できる と考えられる。 これまで、 特定話者音声認識には、 D TWによる方法が広く用いられてきた。 ま た、 不特定話者音声認識には、 HMMによる方法が広く用いられてきた。 上記二一 ズを実現する 1つの方法として、 D TWによる特定話者音声認識と HMMによる不 特定話者音声認識を併用する方法が考えられる。この 2つの方法で入力音声のパラ メータ系列と記憶装置に記憶された語彙単語のパラメ一夕系列の情報とを比較す る際に用いる尺度は一般に異なっている。従って、 D TWによる特定話者音声認識 により最も入力音声に近いと判断された特定話者に固有の登録語と HMMによる 不特定話者音声認識により最も入力音声に近いと判断された不特定話者に共通の 固定語のいずれかが入力音声により近いのかを判断するのは容易ではない。
D TWによる特定話者音声認識において、固定語に対し多数の話者の音声を用い て複数のテンプレートを記憶装置に記憶させることにより、不特定話者音声認識を 実現することも可能である。 これにより、 D TWを用いて上記ニーズを実現するこ とができる。 しかしながら、 この方法では、 各固定語のテンプレートを複数持つこ とによる記憶装置の容量の増加、複数のテンプレートとの D TWによる照合時間の 増加、固定語を変更する際にあらためて多数話者の音声を収集する必要があるなど の不具合がある。
以上を要約すると、 たとえば、 力一オーディオ装置に音声認識装置を搭載する場 合、 不特定話者用の音声認識装置は、製造会社にとっては多数のユーザの声を個々 に登録する必要がないので好都合である反面、個々のユーザにとっては、認識精度 が特定話者の認識精度よりも若干落ちるというデメリツ卜がある。
また、特定話者用の音声認識装置は認識精度において優れるものの、 製造会社に とっては、個々のユーザの音声から特徴パラメ一夕を取り出し、音声認識装置に予 め記憶させることは至難である。ユーザ自身が自己の音声を登録するにしても、 た とえば、 多くの単語を登録するには多大の労力を必要とする。
さらに従来の特定話者の音声認識に使用する方法と不特定話者の音声認識に使 用する方法は種類内容が異なるので両方の音声認識方法を 1つの装置に組み込み すると装置が大型化してしまうという問題がある。 発明の開示
本発明の目的は、 このような点を考慮して、不特定話者の音声を認識する音声認 識方法を使用した場合でも、特定話者の発声する登録語を精度よく認識することが できる音声認識装置および方法を提供することにある。
本発明によれば、 入力音声を、単語より短い長さの音声単位のモデルの情報を用 いて、単語認識を行う音声認識装置であって、不特定話者の入力音声の単語認識の ために共通使用する固定語に対する、前記音声単位のラベル系列を蓄積しておく語 彙ラベルネッ卜ワーク蓄積手段と、特定話者の入力音声から登録語に対する前記音 声単位のラベル系列を作成する登録語ラベル系列抽出手段と、当該作成された登録 語のラベル系列を前記語彙ラベルネットワーク蓄積手段に追加登録する登録手段 とを具え、前記音声単位が音韻の隠れマルコフモデルの各状態を分割して生成した 音響ィベントである音声認識装置が提供される。
本発明によれば、音声認識装置は前記固定語を前記語彙ラベルネットワーク蓄積 手段に登録する手段をさらに具えてもよい。
本発明によれば、音声認識装置では前記不特定話者の入力音声の単語認識のため に共通使用する固定語に対する、 音声単位のラベル系列と、 作成された登録語のラ ベル系列とが並列のネットワークの形態で前記語彙ラベルネットワーク蓄積手段 に記憶されてもよい。
本発明によれば、 音声認識装置の製造会社では、多数の不特定のユーザを対象に した固定語のラベル系列を音声認識用データとして提供すればよく、ユーザは所望 の単語について自己の音声を登録することができる。換言すると、不特定話者方式 の音声認識方法に特定話者の音声認識機能を加味することが可能となる。これによ り、ユーザおよび製造会社双方に好適な音声認識装置および方法を提供することが 可能となる。 図面の簡単な説明
図 1は本発明実施形態のシステム構成を示すブロック図である。
図 2 Aは 「C D (シーディ一)」 の固定語ラベル系列を示す説明図である。
図 2 Bは 「MD (ェムディ一)」 の固定語ラベル系列を示す説明図である。
図 3は音韻ネットワークの内容を示す説明図である。
図 4 Aは 「ジャズ」 の登録語ラベル系列を示す説明図である。
図 4 Bは 「ポップス」 の登録語ラベル系列を示す説明図である。
図 5は固定語と登録語が混在した語彙ラベルネットワークを示す説明図である。 図 6は固定語だけの語彙ラベルネットワークを示す説明図である。
図 7は登録語だけの語彙ラベルネッ卜ワークを示す説明図である。
図 8は音韻 HMMの構造を示す説明図である。
図 9は音響イベント HMM * . 1の構造を示す説明図である。
図 1 0は音響イベント HMM * . 2の構造を示す説明図である。
図 1 1は音響イベント HMM * . 3の構造を示す説明図である。
図 1 2は無制約音響イベントネットワークを示す説明図である。
図 1 3は位置制約つき音響イベントネットワークを示す説明図である。 発明を実施するための最良の形態
本発明は、従来不特定話者音声認識に用いられてきた HMMを用いて、特定話者 に固有の登録語と不特定話者に共通の固定語が混在した語彙に対し、認識が可能な 音声認識装置を提供するものである。 H M Mを用いた不特定話者音声認識において は、 音声単位 (音節、 半音節、 音韻、 音響イベントなど) のモデルデ一夕、 不特定 話者に共通の固定語に対応する音声単位のラベル系列および各固定語のラベル系 列相互の接続情報を用いて、 先述の V i t e r b iアルゴリズムにより、 入力音声 に含まれる固定語の認識を行う。 特定話者に固有の登録語に対応する音声単位のラベル系列を何らかの手段で得' られれば、そのラベル系列を上記ラベル系列相互の接続情報に付加することにより、 先述の V i t e r b iアルゴリズムを用いて、特定話者に固有の登録語と不特定話 者に共通の固定語が混在した語彙に対する認識を行うことが可能であると考えら れる。
特定話者に固有の登録語に対応する音声単位のラベル系列を得る方法としては、 各固定語のラベル系列相互の接続情報の代わりに音声単位が任意の順番で任意の 長さで接続可能な接続情報を用いて、 V i t e r b iアルゴリズムにより、入力音 声に含まれる全ての音声単位の系列を取得することにより実現できる。
以下、 図面を参照して、 本発明の実施形態を詳細に説明する。 図 1は本発明実施 形態の基本構成を示す。
図 1において、 マイクロホン (不図示) から入力されたアナログ音声信号 1 1は ADコンバ一夕による入力手段 aによりデジタル信号 2 2に変換される。デジタル 信号 2 2は変換手段 bにより一定のフレーム周期で音響パラメータ 3 3に変換さ れる。 音響 (特徴) パラメ一夕としては、 上記 「音声'音情報のディジタル信号処 理」 にも記述されているケプストラムなどを用いればよい。
(特定話者の単語登録)
特定話者に固有の登録語を登録する場合には、音声認識装置の不図示のスィツチ により単語登録を指示し、変換手段 bを登録語ラベル系列抽出手段 dに接続する。 特定話者、 すなわち、 音声認識装置が接続されたカーオーディオのユーザ(特定話 者) は登録したい音声をマイクロホンに入力する。
マイクロホンで発生したアナロク音声信号 1 1は変換手段 bにより音響パラ メ一夕 3 3に変換される。音響パラメ一夕 3 3が登録語ラベル系列抽出手段 dに送 られる。登録語ラベル系列抽出手段 dはハードディスクやメモリ等の認識用データ 蓄積手段 Cに蓄積された認識用デ一夕 4 4を参照しながら、音声単位のラベル系列 の認識を行い、 音響パラメータ 3 3を登録語ラベル系列 5 5に変換する。 認識用 データ蓄積手段 cに蓄積された認識用データ 4 4としては、隠れマルコフモデルで モデル化された音声単位のモデルのデータおよび音響パラメ一夕 3 3を登録語ラ ベル系列 5 5に変換するための音声単位のモデルのネットヮ一クデータの 2つが 蓄積されている。
先行特許である U S P 5 , 7 3 2 , 1 8 7号に述べられているように, 音声単位 としては、 音節, 半音節, 音韻が考えられる。
以下では、音韻を例にとって、不特定話者に共通の固定語と特定話者に固有の登 録語が混在した語彙を認識する音声認識装置および方法について説明する。音響パ ラメ一夕 3 3を登録語ラベル系列 5 5に変換するための音声単位 (今の場合は省 略) のモデルのネットワークデータとは、許容される音韻の接続を表現したネット ワークのことである。
例えば、 図 3の音韻ネットワークの場合、表 1の 2 7種類の音韻が任意の順序で 任意の長さで接続しうることを示している。このネットワークデ一夕と HMMによ る音韻モデルのデ一夕を用いれば、 上記 V i t e r b iアルゴリズムにより、 特定 話者に固有の登録語の音声を音韻ラベルの系列に変換することができる。図 4 Aに、 ある話者が登録のために発声した「ジャズ」 の入力信号から得られる音韻ラベルの ネットワークの例を示す。 音韻の認識率が 1 0 0 %であれば、 「ジャズ」 と発声し た音声からは、 j + a + z + uという音韻ラベル系列が得られるはずであるが、 こ の例では、 最後の uが無声化して得られていない。
図 4 Bに、 ある話者が登録のために発声した 「ポップス」 の入力信号から得られ る音韻ラベルのネットワークの例を示す。音韻の認識率が 1 0 0 %であれば「ポッ ブス」 と発声した音声からは、 P + 0 + P + U + s + uという音韻ラベル系列が得 られるはずであるが、 p、 t、 kの識別は一般に困難であるため、 2つ目の pが k に置き換わっている。 こうして、登録語ラベル系列抽出手段 dにより得られた音韻 ラベルのネットワークを登録語ラベル系列 5 5と呼ぶことにする。登録語ラベル系 列 5 5は登録手段 iにより、ハードディスクやメモリ等の語彙ラベルネットワーク 蓄積手段 f に追加登録され、 記憶される。
(不特定話者に共通の固定語の登録)
一方、不特定話者に共通の固定語のスペルから予めあるルールに従って音韻ラベ ルのネッ卜ワークを抽出することができる。 あるいは、 固定語に対する 1つ以上の 不特定話者の音声サンプルから前記(特定話者の単語登録) と同様にして 1つ以上 の音韻ラベルネッ卜ワークを作成することもできる。これらのネッ卜ワークを固定 語ラベル系列 6 6と呼び、そのデータを語彙ラベルネットワーク蓄積手段 f に転送 するために一時記憶する手段、 例えば、 C P Uおよび R AMを固定語ラベル系列記 憶手段 eと呼ぶことにする。 例えば、 固定語 「C D」、 「MD」 に対しては、 図 2 A、 図 2 Bに示される固定語ラベル系列を得ることができる。固定語ラベル系列につい てのデータはフロッピ一ディスクや C D等の記録媒体に製造会社側で記録してお き、この記録媒体から音声認識装置内の固定語レベル系列記憶手段 eに引き渡せば よい。固定語レベル系列記憶手段 eを介して語彙ラベルネットワーク蓄積手段 f に 蓄積 (記憶) することにより不特定話者についての固定語ラベル系列を登録する。 登録語ラベル系列抽出手段 dから抽出され、登録手段 iにより語彙ラベルネット ワーク蓄積手段 f に追加登録される、登録語ラベル系列 5 5と固定語ラベル系列記 憶手段 eにより記憶された固定語ラベル系列 6 6から語彙ネットワーク蓄積手段 f に蓄積される語彙ラベルネットワーク 7 7を構成する方法としては、以下の 3つ の方法が考えられる。
まず、 1つ目は、 登録語ラベル系列 5 5と固定語ラベル系列 6 6の両方を含む ネットワークを形成し、それを語彙ラベルネットワーク 7 7とする方法である。図 5に 「C D」、 「MD」 の固定語ラベル系列と 「ジャズ」、 「ポップス」 の登録語ラベ ル系列を接続した語彙ラベルネットワークを示す。
このネットワークにより、 「C D」、 「MD」 の固定語と 「ジャズ」、 「ポップス」 の登録語の 4つの単語の内、いずれでも認識できる音声認識装置を実現することが できる。 2つ目の方法は、 登録語ラベル系列 5 5のみを含むネットワークを形成し、 それ を語彙ラベルネットワーク 7 7とする方法である。 図 6に 「C D」、 「MD」 の固定 語ラベル系列を接続した語彙ラベルネッ卜ワークを示す。このネットワークにより、 「C D」、 「MD」 の固定語の 2つの単語の内、 いずれかを認識できる不特定話者音 声認識装置を実現することができる。
3つ目の方法は、登録語ラベル系列 5 5のみを含むネットワークを形成し、それ を語彙ラベルネットワーク 7 7とする方法である。 図 7に 「ジャズ」、 「ポップス」 の登録語ラベル系列を接続した語彙ラベルネットワークを示す。このネットワーク により、 「ジャズ」、 「ポップス」 の登録語の 2つの単語の内、 いずれかを認識でき る特定話者音声認識装置を実現することができる。
なお、音声により C Dチェンジャーに動作指示を与える場合には、予め不特定話 者の固定語のラベル系列と動作命令を予め関連付けておき、 特定話者(ユーザ) が 登録した登録語ラベル系列とを関連付けるとよい。たとえば、 このための方法とし ては、 予め、 表示器に選択可能な動作指示内容を表示させた後、 カーソルキー等で 表示の動作指示を選択した後、この動作指示に関連付ける単語を音声でマイクロホ ンから入力して、登録語ラベル系列抽出手段 dにより抽出された登録語ラベル系列 5 5を登録手段 iにより語彙ラベルネッ卜ワーク蓄積手段 ίに登録する。 また、動 作指示内容を示すコードと、 対応する登録語ラベル系列とをテーブル (関連付け テーブル) 形態でハードディスク等に保存しておくと、 以後、 音声による動作指示 が可能となる。この関連付けテーブルには製造会社が用意した固定語ラベル系列と、 それらに対応する動作指示コ一ドをも記憶してもよいことは勿論である。
(音声認識処理)
ユーザは不図示のモード指示スィツチにより音声認識モードを指示すると、変換 手段 bと認識手段 gに接続が切り替わる。入力手段 aから入力され、変換手段 で 変換されて出力された音響パラメータ 3 3と認識用データ蓄積手段 cに蓄積され た音韻モデルのデ一夕からなる認識用デ一夕 4 5と、語彙ラベルネットワーク蓄積 手段 f に蓄積された語彙ラベルネットワーク 7 7を用いて、認識手段 gにおいて上 述の V i t e r b iアルゴリズムにより、 単語についての認識結果 8 8を得る。認 識結果 8 8は、 スピーカーやディスプレイなどの出力手段 により、 音声や画面に よる出力結果 9 9として話者に出力される。 また、音声により C Dチェンジャーな どに対して動作の指示を与える場合には、上述の関連付けテーブルにより音声認識 結果に対応する動作指示の内容が判別されて動作指示に対応する制御プログラム 等が実行される。
以上のシステム構成により、ユーザは頻繁に使用する動作指示については自己の 音声で単語形態で登録しておくことで、 より精度よく、動作指示を行うことができ る。 このシステムのメリツトは、 ユーザ (特定話者) が登録した登録語ラベル系列 がラベル認識(認識用データを使用した音響パラメ一夕からラベルへの変換) にお レ ^て誤認識されても、 影響がないという点である。
音声認識装置では、 誤認識結果のラベル系列のままで、 動作指示が登録され、 音 声認識モードで特定話者がその動作指示を音声で入力した場合にも、音声認識装置 は同じ内容で誤認識を行うので、 かならず、予め関連付けられた動作指示が選択さ れる。
一方、 不特定話者用の固定語ラベル系列を音声認識に使用した場合には、 ラベル 認識に誤認識が生じると、動作指示に対応するラベル系列と上記誤認識の結果が一 致しないので、 音声の動作指示が正しく認識されない場合がある。 このため、 製造 会社が用意する固定語レベル系列の中の特定のものと同じ内容の動作指示を特定 話者が音声で登録することができる、 また、特定話者の登録語ラベル系列により音 声認識モードにおいて、 正しく音声認識を行うことができる。
本実施形態では音声単位として音韻から分解されて生成された不特定話者用の 音響ィベントのモデルを用いることにより、特定話者の発声する登録語を言語に依 らず、 精度良く認識する。
以下では、音韻よりも小さな音声単位として、音韻 HMMを構成する状態を用い た場合について説明を加える。言語や音韻の種類を問わず、 一般に音韻は図 8に示 される 4つの状態からなる H M Mでモデル化されることが多い。
状態 1は初期状態であり、 状態遷移は必ず状態 1から開始される。状態 4は最終 状態であり、 この状態に遷移するとそれ以上状態遷移は発生しない。 a i jは状態 iから状態 jへの遷移する確率を表し、遷移確率と呼ばれる。 j = i + 1とすると、 a i i + a i j = 1 . 0である。
b i ( x ) は状態 iから状態遷移する際に、 観測べクトル Xが出力される確率を 表し、 出力確率と呼ばれる。 観測ベクトルは、 図 1の音響パラメ一夕 3 3に対応し、 ケプストラムがよく用いられる。 出力確率 b i ( x ) は 1個以上の正規分布の重ね 合わせで表現される。 また、 出力確率は状態 iへ状態遷移する際に、 観測べクトル Xが出力される確率 b i ( x ) として定式化される場合や、 状態 iから状態 jへ状 態遷移する際に、 観測べクトル Xが出力される確率 b i j ( x ) として定式化され る場合もある。
出力確率 b i ( x ) が 1個以上の正規分布の重ね合わせで定式化される場合、 H MMを連続 HMMと呼ぶ。その他に、 半連続 HMMや離散 HMMで音韻をモデル化 する場合があるが、 本発明は同様に適用が可能である。
図 8に示される 4状態の音韻 HMMを図 9、 図 1 0、 図 1 1の 3つの 2状態から なる HMMに分割する。 これらを音響イベント HMMと呼ぶこととし、状態番号に 合わせて、 * . 1、 * . 2、 * . 3と表すこととする。 ここで、 *は表 1の音韻ラ ベルを表す。
これらの新しく生成された HMMは音韻の中の音響的なイベントを表現してい るものと考えることができるため、 音響イベント HMMと呼ぶことにする。 これら の音響イベント HMMが任意の順番で任意の長さで接続しうるネットワークを図 1 2に示す。 このネットワークを無制約音響イベントネットワークと呼ぶ。 この無 制約音響イベントネットワークは、 図 3の音韻ネットワークに比べて、音響的なィ 卜の系列の自由度が高く、 その分、音響的なイベント系列の表現能力が高いと 考えられる。
従って、図 3の音韻ネットワークを用いて V i t e r b iアルゴリズムにより得 られる音韻系列に比べて、図 1 2の無制約音響イベントネットワークを用いて V i t e r b iアルゴリズムにより得られる音響イベント系列の方が、特定話者に固有 の登録語の発声をより精度良く近似するものと期待できる。
そこで、無制約音響イベントネットワークを用いて V i t e r b iアルゴリズム により得られる音響イベント系列を図 1の登録語ラベル系列 5 5として用いるこ とにより、 登録語に対してより高い認識性能が得られると思われる。
一方、 図 1 2の無制約音響イベントネットワークでは、特定話者に固有の登録語 の発声を近似する音響イベント系列の候補が数多く存在するため、その選択に多く の処理時間を要することも考えられる。
そこで、図 1 3に示すような状態の位置に関する制約を設けたネットワークを使 用することも処理時間を削減する上で有効であると考えられる。 図 1 3のネット ワークを位置制約つき音響イベントネットワークと呼ぶことにする。 このネット ワークでは、 図 1 2の無制約音響イベントネッ卜ワークに比べて、 接続しうる音響 イベントの数が 3分の 1になっているため、特定話者に固有の登録語を近似する音 響イベント系列の候補数が少なくなつており、若干の認識性能の低下は起こるかも 知れないが、特定話者に固有の登録語を近似する音響イベント系列を求める処理時 間もそれに応じて短縮できると考えられる。
実際に、音韻系列と音響ィベント系列で特定話者の登録語の認識性能の比較実験 を仃つた。
日本語の音韻 HMMと図 3の音韻ネットワークを用いて、 V i t e r b iァルゴ リズムにより 1 2 8単語の音韻系列を求め、 それを認識語彙として、 日本語、 英語、 仏語、独語、伊語についての特定話者単語認識を行うための男女各 2名を選んだ。 また、 その時の音声認識の平均認識率および最低認識率を表 2に示す。音声と雑音 の比率はいずれも 1 0 d Bである。 【表 2】
言語 日本語 英語 仏語 独語 伊語
平均認識率 93.6% 86.9% 88.7 92.2% 91.4%
最低認識率 92. 82.8¾ 83.6% 85.2% 87.5%
音韻ネットワークを用いた場合の
特定話者単語認識性能
次に日本語の音韻 HMMから上述の方法により分解されて生成された音響ィべ ント HMMと図 13の位置制約つき音響イベントネットワークを用いて V i t e r b iアルゴリズムにより 128単語の音響イベント系列を求め、それを認識対象 とした場合の日本語、 英語、 仏語、 独語、 伊語についての特定話者単語認識の平均 認識率および最低認識率を表 3に示す。 【表 3】
き口 ¾口s P 日本語 英語 仏語 独語 伊語
平均認識率 97.5 92.9¾ 94.0% 94.0¾ 93.6%
最低認識率 96. \% 91.1% 92.2¾ 91.4% 91.4¾
位置制約つき音響ィベントネットワークを用いた場合の
特定話者単語認識性能 表 2と表 3を比較すると言語に依らず、音韻系列を使用するよりも音響 系列を使用する方が平均認識率が 2— 6%程度向上していることが分る。 また、 最 低認識率も 4一 8 %向上していることが分る。これらの結果から図 3の音韻ネット ワークを用いて V i t e r b iアルゴリズムにより得られる音韻系列を使用した 場合に比べ、図 13の位置制約つき音響イベントネットワークを用いて V i t e r b iアルゴリズムにより得られる音響イベント系列を使用した方が、特定話者に固 有の登録語に対してより高い性能が得れることが明らかになつた。この音響ィベン 卜系列の優位性は、音響イベント系列の方が音韻系列よりも特定話者に固有の近似 度が高いことによると考えられ、 この点が本願発明の根幹をなす。
上述の実施形態については以下の形態が実施できる。
1 ) 図 1に示したシステム構成は、 デジタル回路で構成してもよい、 マイクロコン ピュー夕やパーソナルコンピュータのソフトウェア処理で実現することもできる。 この場合、 変換手段 b、 登録語ラベル系列抽出手段 d, 認識手段 gについて C P U がソフトウェアプログラムを実行することによりそれらの機能が実現される。どの ような回路構成とするかは、 音声認識装置の用途に応じて適宜決定すればよい。た とえば、パーソンナルコンピュータにおいて文字入力および制御キー入力を音声で 行う場合には、 パーソナルコンピュータに搭載された C P U, ハードディスクを使 用して図 1のシステムを実現するとよい。
2 )上述の実施形態では、不特定話者に共通の固定語ラベル系列を C D R OM等か ら音声認識装置に登録可能としているが、音声認識装置に内蔵の E E P R OM等の 不揮発性書き込み可能メモリに記憶してもよいことは勿論である。この場合には不 足する単語、あるいはより認識精度を高めたい単語を特定話者により音声で登録す る。

Claims

請 求 の 範 囲
1 . 入力音声を、 単語より短い長さの音声単位のモデルの情報を用いて、 単語認 識を行う音声認識装置において、
不特定話者の入力音声の単語認識のために共通使用する固定語に対する、前記音 声単位のラベル系列を蓄積しておく語彙ラベルネットワーク蓄積手段と、
特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成する 登録語ラベル系列抽出手段と、
当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に 追加登録する登録手段と
を具え、前記音声単位が音韻の隠れマルコフモデルの各状態を分割して生成した 音響ィベントであることを特徴とする音声認識装置。
2 . 請求項 1に記載の音声認識装置において、 前記固定語を前記語彙ラベルネッ トワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識装置。
3 . 請求項 1に記載の音声認識装置において、 前記不特定話者の入力音声の単語 認識のために共通使用する固定語に対する、 音声単位のラベル系列と、作成された 登録語のラベル系列とを並列のネットワークの形態で前記語彙ラベルネットヮ一 ク蓄積手段に記憶することを特徴とする音声認識装置。
4 . 請求項 3に記載の音声認識装置において、 前記固定語を前記語彙ラベルネッ トワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識装置。
5 . 入力音声を、 単語より短い長さの音声単位のモデルの情報を用いて、 単語認 識を行う音声認識方法において、
不特定話者の入力音声の単語認識のために共通使用する固定語に対する前記音 声単位のラベル系列を語彙ラベルネットワーク蓄積手段に蓄積しておき、
特定話者の入力音声から登録語に対する前記音声単位のラベル系列を作成し、 当該作成された登録語のラベル系列を前記語彙ラベルネットワーク蓄積手段に 追加登録し、
前記音声単位が音韻の隠れマルコフモデルの各状態を分解して生成した音響ィ ベントであることを特徴とする音声認識方法。
6 . 請求項 5に記載の音声認識方法において、 前記固定語を前記語彙ラベルネッ 卜ワーク蓄積手段に登録可能とすることを特徴とする音声認識方法。
7 . 請求項 5に記載の音声認識方法において、 前記不特定話者の入力音声の単語 認識のために共通使用する固定語に対する、 音声単位のラベル系列と、作成された 登録語のラベル系列とを並列のネットワークの形態で前記語彙ラベルネットヮー ク蓄積手段に記憶することを特徴とする音声認識方法。
8 . 請求項 7に記載の音声認識方法において、 前記固定語を前記語彙ラベルネッ トワーク蓄積手段に登録する手段をさらに具えたことを特徴とする音声認識方法。
PCT/JP1999/004885 1998-09-09 1999-09-08 Dispositif de reconnaissance de la parole WO2000014723A1 (fr)

Priority Applications (8)

Application Number Priority Date Filing Date Title
DE69939124T DE69939124D1 (de) 1998-09-09 1999-09-08 Spracherkenner und spracherkennungsverfahren
EP99943224A EP1126438B1 (en) 1998-09-09 1999-09-08 Speech recognizer and speech recognition method
JP2000569386A JP3803029B2 (ja) 1998-09-09 1999-09-08 音声認識装置
BR9913524-8A BR9913524A (pt) 1998-09-09 1999-09-08 Reconhecedor de voz, e, processo de reconhecimento de voz
MXPA01002514A MXPA01002514A (es) 1998-09-09 1999-09-08 Reconocedor de voz.
AU56478/99A AU5647899A (en) 1998-09-09 1999-09-09 Speech recognizer
US09/802,768 US6868382B2 (en) 1998-09-09 2001-03-09 Speech recognizer
HK02101185.1A HK1040312A1 (zh) 1998-09-09 2002-02-19 聲音識別裝置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP10/255196 1998-09-09
JP25519698 1998-09-09

Related Child Applications (1)

Application Number Title Priority Date Filing Date
US09/802,768 Continuation US6868382B2 (en) 1998-09-09 2001-03-09 Speech recognizer

Publications (1)

Publication Number Publication Date
WO2000014723A1 true WO2000014723A1 (fr) 2000-03-16

Family

ID=17275371

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP1999/004885 WO2000014723A1 (fr) 1998-09-09 1999-09-08 Dispositif de reconnaissance de la parole

Country Status (13)

Country Link
US (1) US6868382B2 (ja)
EP (1) EP1126438B1 (ja)
JP (1) JP3803029B2 (ja)
KR (1) KR100415217B1 (ja)
CN (1) CN1280783C (ja)
AU (1) AU5647899A (ja)
BR (1) BR9913524A (ja)
DE (1) DE69939124D1 (ja)
HK (1) HK1040312A1 (ja)
ID (1) ID27346A (ja)
MX (1) MXPA01002514A (ja)
RU (1) RU2223554C2 (ja)
WO (1) WO2000014723A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020054409A1 (ja) * 2018-09-11 2020-03-19 ソニー株式会社 音響イベント認識装置および方法、並びにプログラム

Families Citing this family (20)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100423495B1 (ko) * 2001-06-21 2004-03-18 삼성전자주식회사 음성인식에 의한 휴대용 기기의 동작제어 장치 및 방법
US7080013B2 (en) * 2002-06-06 2006-07-18 International Business Machines Corporation Categorization and recall methodology for physical media in large carousel systems
DE102004063552A1 (de) * 2004-12-30 2006-07-13 Siemens Ag Verfahren zur Ermittlung von Aussprachevarianten eines Wortes aus einem vorgebbaren Vokabular eines Spracherkennungssystems
WO2006109515A1 (ja) * 2005-03-31 2006-10-19 Pioneer Corporation 操作者認識装置、操作者認識方法、および、操作者認識プログラム
CN1889171B (zh) * 2005-06-29 2010-09-01 诺基亚(中国)投资有限公司 用于识别字符/字符串的语音识别方法和系统
US7970613B2 (en) 2005-11-12 2011-06-28 Sony Computer Entertainment Inc. Method and system for Gaussian probability data bit reduction and computation
US7778831B2 (en) * 2006-02-21 2010-08-17 Sony Computer Entertainment Inc. Voice recognition with dynamic filter bank adjustment based on speaker categorization determined from runtime pitch
US8010358B2 (en) * 2006-02-21 2011-08-30 Sony Computer Entertainment Inc. Voice recognition with parallel gender and age normalization
US20080256613A1 (en) * 2007-03-13 2008-10-16 Grover Noel J Voice print identification portal
US8442833B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Speech processing with source location estimation using signals from two or more microphones
US8442829B2 (en) * 2009-02-17 2013-05-14 Sony Computer Entertainment Inc. Automatic computation streaming partition for voice recognition on multiple processors with limited memory
US8788256B2 (en) * 2009-02-17 2014-07-22 Sony Computer Entertainment Inc. Multiple language voice recognition
US20110093266A1 (en) * 2009-10-15 2011-04-21 Tham Krister Voice pattern tagged contacts
US9153235B2 (en) 2012-04-09 2015-10-06 Sony Computer Entertainment Inc. Text dependent speaker recognition with long-term feature based on functional data analysis
WO2014025282A1 (en) 2012-08-10 2014-02-13 Khitrov Mikhail Vasilevich Method for recognition of speech messages and device for carrying out the method
CN103784255A (zh) * 2012-10-29 2014-05-14 赵士星 听力辅助系统
CN103077714B (zh) * 2013-01-29 2015-07-08 华为终端有限公司 信息的识别方法和装置
KR101610151B1 (ko) * 2014-10-17 2016-04-08 현대자동차 주식회사 개인음향모델을 이용한 음성 인식장치 및 방법
RU2701120C1 (ru) * 2018-05-14 2019-09-24 Федеральное государственное казенное военное образовательное учреждение высшего образования "Военный учебно-научный центр Военно-Морского Флота "Военно-морская академия имени Адмирала флота Советского Союза Н.Г. Кузнецова" Устройство для обработки речевого сигнала
US11283586B1 (en) 2020-09-05 2022-03-22 Francis Tiong Method to estimate and compensate for clock rate difference in acoustic sensors

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPH0141912B2 (ja) * 1981-12-17 1989-09-08 Matsushita Electric Ind Co Ltd
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JPH08123464A (ja) * 1994-10-25 1996-05-17 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
JPH0997096A (ja) * 1995-09-28 1997-04-08 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
JPH09152886A (ja) * 1995-11-30 1997-06-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル生成装置及び音声認識装置

Family Cites Families (15)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4718094A (en) * 1984-11-19 1988-01-05 International Business Machines Corp. Speech recognition system
US4817156A (en) * 1987-08-10 1989-03-28 International Business Machines Corporation Rapidly training a speech recognizer to a subsequent speaker given training data of a reference speaker
US5054074A (en) * 1989-03-02 1991-10-01 International Business Machines Corporation Optimized speech recognition system and method
US5025471A (en) * 1989-08-04 1991-06-18 Scott Instruments Corporation Method and apparatus for extracting information-bearing portions of a signal for recognizing varying instances of similar patterns
US5182773A (en) * 1991-03-22 1993-01-26 International Business Machines Corporation Speaker-independent label coding apparatus
KR930014258A (ko) * 1991-12-30 1993-07-22 이헌조 음성인식시스템에서의 음성인식 등록 선택 제어방법
JPH05232989A (ja) * 1992-02-20 1993-09-10 Nippon Telegr & Teleph Corp <Ntt> 音響モデルの話者適応化法
JP3422541B2 (ja) * 1992-12-17 2003-06-30 ゼロックス・コーポレーション キーワードのモデル化方法及び非キーワードhmmの提供方法
JP2912513B2 (ja) 1992-12-18 1999-06-28 沖電気工業株式会社 ヒドン・マルコフ・モデルの学習方法
US5732187A (en) 1993-09-27 1998-03-24 Texas Instruments Incorporated Speaker-dependent speech recognition using speaker independent models
JP3076702B2 (ja) 1993-10-08 2000-08-14 三菱電機株式会社 表示素子の保持装置
JPH0869297A (ja) * 1994-08-30 1996-03-12 Aqueous Res:Kk 音声認識装置
JPH08221090A (ja) * 1995-02-15 1996-08-30 Nippon Telegr & Teleph Corp <Ntt> 音声認識方法
JP3968133B2 (ja) * 1995-06-22 2007-08-29 セイコーエプソン株式会社 音声認識対話処理方法および音声認識対話装置
EP0925579B1 (de) * 1996-09-10 2001-11-28 Siemens Aktiengesellschaft Verfahren zur anpassung eines hidden-markov-lautmodelles in einem spracherkennungssystem

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0141912B2 (ja) * 1981-12-17 1989-09-08 Matsushita Electric Ind Co Ltd
JPS6332596A (ja) * 1986-07-25 1988-02-12 日本電信電話株式会社 音声認識装置
JPH0782348B2 (ja) * 1992-03-21 1995-09-06 株式会社エイ・ティ・アール自動翻訳電話研究所 音声認識用サブワードモデル生成方法
JPH08123464A (ja) * 1994-10-25 1996-05-17 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
JPH0997096A (ja) * 1995-09-28 1997-04-08 Victor Co Of Japan Ltd 音声認識用音響モデル生成方法
JPH09152886A (ja) * 1995-11-30 1997-06-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 不特定話者モデル生成装置及び音声認識装置

Non-Patent Citations (4)

* Cited by examiner, † Cited by third party
Title
Denshi Jouhou Tsuushin Gakkai Gijutsu Kenkyuu Houkoku, Vol. 91, No. 395, SP91-88, 19 December 1991, IEICE, (Automatic Generation of the Hidden Markov Network by Successive State Splitting on Contextual Domain and Temporal Domain), pages 57-64, XP002926555 *
Nihon Onkyou Gakkai Geisei 3 Nen Shuuki Kenkyuu Happyou Kouen Rombusnhuu I, 2-5-13, October 1991, ACOUSTICAL SOC. OF JAPAN, (Automatic Generation of the Hidden Markov Network by the Successive State Splitting Algorithm), pages 73-74, XP002926556 *
See also references of EP1126438A4 *
TAKAMI J, SAGAYAMA S: "A SUCCESSIVE STATE SPLITTING ALGORITHM FOR EFFICIENT ALLOPHONE MODELING", SPEECH PROCESSING 1. SAN FRANCISCO, MAR. 23 - 26, 1992., NEW YORK, IEEE., US, vol. 01, 23 March 1992 (1992-03-23), US, pages 573 - 576, XP002926554, ISBN: 978-0-7803-0532-8, DOI: 10.1109/ICASSP.1992.225855 *

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2020054409A1 (ja) * 2018-09-11 2020-03-19 ソニー株式会社 音響イベント認識装置および方法、並びにプログラム

Also Published As

Publication number Publication date
CN1280783C (zh) 2006-10-18
US6868382B2 (en) 2005-03-15
CN1323436A (zh) 2001-11-21
BR9913524A (pt) 2001-06-05
EP1126438B1 (en) 2008-07-16
AU5647899A (en) 2000-03-27
JP3803029B2 (ja) 2006-08-02
KR20010086402A (ko) 2001-09-10
US20020116192A1 (en) 2002-08-22
KR100415217B1 (ko) 2004-01-16
EP1126438A4 (en) 2005-04-06
DE69939124D1 (de) 2008-08-28
EP1126438A1 (en) 2001-08-22
ID27346A (id) 2001-04-05
MXPA01002514A (es) 2003-09-10
HK1040312A1 (zh) 2002-05-31
RU2223554C2 (ru) 2004-02-10

Similar Documents

Publication Publication Date Title
JP3803029B2 (ja) 音声認識装置
US7783484B2 (en) Apparatus for reducing spurious insertions in speech recognition
US7676365B2 (en) Method and apparatus for constructing and using syllable-like unit language models
US7630878B2 (en) Speech recognition with language-dependent model vectors
EP2048655B1 (en) Context sensitive multi-stage speech recognition
US7415411B2 (en) Method and apparatus for generating acoustic models for speaker independent speech recognition of foreign words uttered by non-native speakers
US7299179B2 (en) Three-stage individual word recognition
JP4224250B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003316386A (ja) 音声認識方法および音声認識装置および音声認識プログラム
JPH10501078A (ja) 音声認識システムの言語モデルのサイズを適応させるための方法および装置
US7181395B1 (en) Methods and apparatus for automatic generation of multiple pronunciations from acoustic data
WO2004047075A1 (ja) 音声処理装置および方法、記録媒体並びにプログラム
Sawant et al. Isolated spoken Marathi words recognition using HMM
Kayte et al. Implementation of Marathi Language Speech Databases for Large Dictionary
US6963832B2 (en) Meaning token dictionary for automatic speech recognition
Anand et al. Malayalam Speech Recognition system and its application for visually impaired people
JP4283133B2 (ja) 音声認識装置
Steinbiss et al. Continuous speech dictation—From theory to practice
JPH1097293A (ja) 音声認識用単語辞書作成装置及び連続音声認識装置
JP4226273B2 (ja) 音声認識装置、音声認識方法および音声認識プログラム
JP2003271185A (ja) 音声認識用情報作成装置及びその方法と、音声認識装置及びその方法と、音声認識用情報作成プログラム及びそのプログラムを記録した記録媒体と、音声認識プログラム及びそのプログラムを記録した記録媒体
JP2003345384A (ja) 音声認識装置、音声認識方法および音声認識プログラム
Sugamura et al. Speech processing technologies and telecommunications applications at NTT
JP2001100789A (ja) 連続音声認識装置の音素認識性能測定装置
JPH09212190A (ja) 音声認識装置及び文認識装置

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 99811950.4

Country of ref document: CN

AK Designated states

Kind code of ref document: A1

Designated state(s): AL AM AT AU AZ BA BB BG BR BY CA CH CN CU CZ DE DK EE ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KP KR KZ LC LK LR LS LT LU LV MD MG MK MN MW MX NO NZ PL PT RO RU SD SE SG SI SK SL TJ TM TR TT UA UG US UZ VN YU ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GH GM KE LS MW SD SL SZ UG ZW AM AZ BY KG KZ MD RU TJ TM AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE BF BJ CF CG CI CM GA GN GW ML MR NE SN TD TG

DFPE Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed before 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: IN/PCT/2001/266/KOL

Country of ref document: IN

WWE Wipo information: entry into national phase

Ref document number: PA/a/2001/002514

Country of ref document: MX

Ref document number: 1020017003092

Country of ref document: KR

Ref document number: 09802768

Country of ref document: US

WWE Wipo information: entry into national phase

Ref document number: 1999943224

Country of ref document: EP

REG Reference to national code

Ref country code: DE

Ref legal event code: 8642

WWP Wipo information: published in national office

Ref document number: 1999943224

Country of ref document: EP

WWP Wipo information: published in national office

Ref document number: 1020017003092

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1020017003092

Country of ref document: KR

WWG Wipo information: grant in national office

Ref document number: 1999943224

Country of ref document: EP