WO2002067244A1 - Speech recognition method for speech interaction, speech recognition system and speech recognition program - Google Patents

Speech recognition method for speech interaction, speech recognition system and speech recognition program Download PDF

Info

Publication number
WO2002067244A1
WO2002067244A1 PCT/JP2001/001165 JP0101165W WO02067244A1 WO 2002067244 A1 WO2002067244 A1 WO 2002067244A1 JP 0101165 W JP0101165 W JP 0101165W WO 02067244 A1 WO02067244 A1 WO 02067244A1
Authority
WO
WIPO (PCT)
Prior art keywords
speech
speech recognition
scene
voice
speaker
Prior art date
Application number
PCT/JP2001/001165
Other languages
French (fr)
Japanese (ja)
Inventor
Tadamitsu Ryu
Masato Numabe
Shinichiro Kubo
Original Assignee
Cai Co., Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Cai Co., Ltd filed Critical Cai Co., Ltd
Priority to PCT/JP2001/001165 priority Critical patent/WO2002067244A1/en
Priority to JP2002566484A priority patent/JPWO2002067244A1/en
Publication of WO2002067244A1 publication Critical patent/WO2002067244A1/en

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/06Creation of reference templates; Training of speech recognition systems, e.g. adaptation to the characteristics of the speaker's voice
    • G10L15/063Training
    • G10L2015/0631Creating reference templates; Clustering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech

Abstract

A speech recognition method for speech interaction, a speech recognition system and speech recognition program, for effectively using a memory and hard disk of limited capacities and performing a speech recognition while permitting continued interaction without unnatural pauses even when a candidate is not retrieved after a preset time or some words cannot be recognized, the method comprising the step (S1) of recording in a storage one or two or more speech recognition dictionaries prepared for respective scenes, the step (S4) of inputting speech of a speaker via a speech input unit, the step (S7) of performing a speech recognition on the speech of the speaker and speech data obtained from a word spot by using one or two or more speech recognition dictionaries, the step (S8) of preparing an interactive-sequence-based responding text when the recognition is made within a preset time, and preparing an answer-back text prompting a re-input to the speaker when it is not made within a preset time, and the step (S9) of speech-synthesizing the prepared responding text or answer-back text.

Description

明細書  Specification
音声対話のための音声認識方法、音声認識システム及び音声認識プログラム 術分野  Speech recognition method for speech dialogue, speech recognition system and speech recognition program
本発明は、 発話者の音声を認識処理し、 得られた音声データに基づいて応答 文を作成してそれを音声合成することにより対話を行う音声対話のための音 声認識方法、 音声認識システム及び音声認識プログラムに関する。  The present invention relates to a voice recognition method and a voice recognition system for voice dialogue in which a voice of a speaker is recognized, a response sentence is created based on the obtained voice data, and the response is synthesized by voice synthesis. And a speech recognition program.
技術の背景 Technology background
音声認識とは、 人間の発声した音声をコンピュータによって処理し、 その内 容を正しく認識することをいい、 この音声認識を用いることによりキーボード 等の入力手段を用いることなく文章入力を行ったり、 また、 認識結果を利用し て意志通りに機械や装置の操作を行わせる等、 その利用範囲が広く、 多方面で の応用研究がなされている。このような音声認識の利用分野の一つとして音声 対話がある。  Speech recognition refers to processing a human uttered voice by a computer and correctly recognizing the content.Using this voice recognition, it is possible to input sentences without using input means such as a keyboard. There is a wide range of applications, such as using the recognition results to operate machines and devices as intended, and applied research is being carried out in various fields. Speech dialogue is one of the applications of such speech recognition.
音声対話は、人間の発声した音声を音声認識により認識した結果に基づいて 予め定められた会話プログラムにより人間とコンピュータがあたかも人間同 士で会話を行っているかのように対話を行うものである。  Spoken dialogue is a dialogue in which a human and a computer are talking as if they were talking to each other by a predetermined conversation program based on the result of recognizing the voice uttered by the human through voice recognition.
従来の音声対話における音声認識としては、人間が普通に話す言葉をそのま まの状態で頭から認識を行う 「ディクテーシヨン」 や、 人間が話した言葉の中 からキーとなる単語を抽出してその単語を認識していく 「ワードスポッ ト」等 種々の手法が用いられている。 「ディクテーション」 の一般的な仕組みとして は、 まず人間が話した言葉を入力音声として音素列に変換し、 その音素列を単 語列に置き換えてこれを構文解析したのち、 文字列に変換する。 さらに、 論理 解析や意味解析を行って文章を生成し、 音声合成して出力する。 単語にも同音 異義語があるために各単語の属性情報を付す等して的確な認識を行うように されている。  In speech recognition in conventional speech dialogue, dictation, which recognizes words spoken by human beings as they are from the head, and extracting key words from words spoken by humans Various methods such as “word spot” are used to recognize the word. The general mechanism of “dictation” is to first convert words spoken by humans into phoneme strings as input speech, replace the phoneme strings with word strings, parse them, and then convert them to character strings. In addition, it generates text by performing logic analysis and semantic analysis, synthesizes and outputs it. Since words also have homonyms, accurate recognition is performed by adding attribute information for each word.
一方、 「ワードスポッ ト」 は、 人間が話した言葉を音声としてコンピュータ が分析し、 その音声の特徴を抽出し、 特徴量の時系列を作成する。 そして、 予 めコンピュータに備えられている各単語の特徴量の時系列を記録保存した音 声認識辞書に含まれる単語との類似度を計算し、その中から類似度の高い単語 を認識結果として出力する。  On the other hand, in “word spot,” a computer analyzes words spoken by humans as speech, extracts features of the speech, and creates a time series of feature quantities. Then, the degree of similarity to the words included in the speech recognition dictionary that records and saves the time series of the feature values of each word provided in the computer in advance is calculated, and the words having a high degree of similarity are recognized as recognition results from the words. Output.
一般に、 「ディクテ一シヨン」 を用いる場合であっても 「ワードスポヅ ト」 による場合であっても認識率を上げるためには予め音声認識に使用する音声 認識辞書に膨大な数の単語を登録しておく必要があると考えられる。しかしな がら、音声認識辞書に登録する単語の数が多いとそれだけメモリの容量を必要 とすると共に、入力された音声と音声認識辞書に記録された単語とのマッチン グに時間がかかりすぎてコンピュー夕が応答するまでに不必要な間が空いて しまい音声会話としての実用に耐えなくなるという問題があった。 その上、 音 声認識辞書に登録された単語数が多すぎると検索すべき対象が多くなるので 逆に認識率が低下するという問題も生じる。 In general, even when using "dictation", "word spot" It is considered that a huge number of words must be registered in advance in the speech recognition dictionary used for speech recognition in order to increase the recognition rate even in the case of. However, if the number of words to be registered in the speech recognition dictionary is large, the memory capacity is required accordingly, and it takes too much time to match the input speech with the words recorded in the speech recognition dictionary, and the computer takes too much time. Unnecessary time was left before the evening responded, and there was a problem that it was not practical for voice conversation. In addition, if the number of words registered in the voice recognition dictionary is too large, the number of objects to be searched increases, and consequently the recognition rate decreases.
また、 従来の音声認識システム、 特に 「ディクテ一ション」 による場合では 意味のない単語の羅列についても認識しょうとしてかえって認識率を低下さ せるという問題を有していた。 例えば、 発話者が言葉に詰まったり、 言いよど んだり した場合であってもその言葉を認識しょうとする。 その結果、 意味のな い言葉として認識してしまうのみならず、前後の言葉についても誤った認識を 誘発するという問題を生じさせていた。  In addition, the conventional speech recognition system, especially in the case of "dictation", has a problem that the recognition rate is lowered instead of trying to recognize a sequence of words that have no meaning. For example, if a speaker is stuck in a word or stutters, it will try to recognize the word. As a result, not only was it recognized as a meaningless word, but it also caused the problem of inducing incorrect recognition of the surrounding words.
さらに、 従来の音声認識においては、 入力された音声を音声認識辞書に含ま れる単語との類似度を計算し、音声認識辞書の中から類似度の高い単語を認識 結果として出力するようになっているため、実際は正しく認識できていない場 合でもとりあえず候補の単語を出力するようになっている。そのためにかえつ て認識率が低下し、 意味不明な応答文を返すという問題があった。  Furthermore, in the conventional speech recognition, a similarity between an input speech and a word included in the speech recognition dictionary is calculated, and a word having a high similarity is output from the speech recognition dictionary as a recognition result. Therefore, even if the words are not correctly recognized, candidate words are output for the time being. For this reason, there was a problem that the recognition rate declined and a meaningless response was returned.
ところで、人間同士の会話においても相手の話を聞く気になっていないとき は相手が何を話してもその内容を認識できず上の空である。 一方、 相手の聞く 気になつているときにはかなりの騒音下であって一部によく聞き取れない部 分が合ったとしても話の内容を理解することが可能である。 この違いは、 相手 の話を聞く気になつているときには聞き手としては今話題となっているシー ンを予め想定し、 相手が次に話すであろう言葉 (単語) をある程度予想した上 でその認識を行っているからである。従って、 いきなり話が飛んで今話題とな つている話題と違う話題に及ぶと聞き手としてはすぐには理解できず一瞬聞 き間違えたのかと勘違いをすることになる。  By the way, even in conversations between humans, when the other party does not want to listen to the other party's conversation, the content cannot be recognized no matter what the other party speaks, and the person is in the upper sky. On the other hand, when the other party is willing to listen, it is possible to understand the contents of the story even if there is a lot of noise and the part that cannot be heard well matches. This difference is due to the fact that if you are interested in listening to the other person's story, as a listener, the scene that is currently being talked about is assumed in advance, and after some prediction of the word (word) that the other person will speak next, This is because recognition is performed. Therefore, if the story suddenly jumps to a topic that is different from the topic that is currently the topic, the listener will not be able to immediately understand it, and will misunderstand that he or she may have mistakenly heard for a moment.
そこで、発話者が発声した単語を認識するための音声認識に用いる音声認識 辞書を話題となるシーンで使用される単語を予めシーンごとに集めて作成し た音声認識辞書を用いて音声認識を行い、この音声認識辞書を話題となってい るシーンごとに切り替えて使用することにより素早く且つ効率的に音声認識 を行い、限られたメモリやハードディスク等を有効に活用する音声対話のため の音声認識方法、音声認識システム及び音声認識プログラムを提供することを 目的とする。 Therefore, a speech recognition dictionary used for speech recognition for recognizing words uttered by the speaker is used for speech recognition using a speech recognition dictionary created in advance by collecting words used in a topic scene for each scene. , This speech recognition dictionary has become a topic Providing a voice recognition method, voice recognition system, and voice recognition program for voice dialogue that performs voice recognition quickly and efficiently by switching and using each scene, and effectively using limited memory and hard disk etc. The purpose is to
本発明は、 また、 一定時間経っても候補が検索されない場合や認識できない 単語がある場合には発話者に対してもう一度発言を促すことにより、不自然な 間を作ることなく 自然な感じで対話を行わせながら音声認識を行う音声対話 のための音声認識方法、音声認識システム及び音声認識プログラムを提供する ことを目的とする。  The present invention also provides a dialogue with a natural feeling without creating an unnatural interval by prompting the speaker to speak again when no candidate is retrieved or there is a word that cannot be recognized after a certain period of time. It is an object of the present invention to provide a voice recognition method, a voice recognition system, and a voice recognition program for voice dialogue in which voice recognition is performed while performing voice recognition.
発昍の 示 Indication of launch
請求の範囲 1に記載の発明は、 発話者の音声を認識処理し、 得られた音声デ 一夕に基づいて応答文を作成してそれを音声合成することにより対話を行う 音声対話のための音声認識方法であって、話題となるシーンに登場する所定の 単語をシーン単語として集めてシーンごとに作成された一又は二以上の音声 認識辞書をメモリや記録装置等のス トレ一ジに記録する工程と、発話者の音声 を音声入力部から入力する工程と、入力された発話者の音声をヮ一ドスポッ ト により文章解析 ·単語分解して得られた音声データを一又は二以上の音声認識 辞書を用いて音声認識を行う工程と、所定の時間内にその認識が行われた場合 には該認識結果から予め定められた表現 ·言い回しに従って文章を生成する対 話シーケンスに基づいて応答文を作成し、所定時間内に認識が行われなかった 場合には発話者に再入力を促す聞き返し文を作成する工程と、作成された応答 文又は聞き返し文を音声合成する工程とを含み構成された音声対話のための 音声認識方法を提供する。  The invention according to claim 1 is a method for performing a dialogue by recognizing and processing a speaker's voice, creating a response sentence based on the obtained voice data, and synthesizing the response sentence. A voice recognition method that collects predetermined words appearing in a topical scene as scene words and records one or more voice recognition dictionaries created for each scene in storage such as a memory or a recording device. And the step of inputting the speaker's voice from the voice input unit, and analyzing the input speaker's voice using a single spot. ・ Single or two or more voice data obtained by word decomposition A step of performing speech recognition using a recognition dictionary, and, if the recognition is performed within a predetermined time, a response sentence based on a conversational sequence that generates a sentence according to a predetermined expression / phrase from the recognition result. Create A speech dialogue that includes a step of creating a reply sentence prompting the speaker to re-enter the input when the recognition is not performed within a predetermined time, and a step of speech-synthesizing the created response sentence or the reply sentence. To provide a speech recognition method for
本発明は、 発話者の音声を音声認識し、 その認識結果に基づいて予め定めら れた表現 ·言い回しに従って作成された応答文を音声合成することによりコン ピュー夕と人間とが対話をするための音声認識方法に関するものである。 音声認識に使用する音声認識辞書は、話題となるシーンごとに作成されてい る。 例えば、 「ビジネス」、 「政治 '経済」、 「コンピュータ」、 「教育」、 「地域情 報」、 「映画 '音楽」、 「自然科学」、 「生活 '文化」、 「スポーツ」等に分けて作成 されている。 そして、 各シーンで登場する単語がシーン単語としてシーンごと に音声認識辞書に集められている。このように作成された音声認識辞書をコン ピュー夕のメモリやハードディスク等の記録装置であるス トレ一ジに保存す る。 音声認識辞書に認識すべき単語を網羅的に多数収録すると、 入力された発 話者の音声に対する音声データとのマッチングの候補が多数存在することと なりかえって認識率が下がったり認識に時間がかかったりすることがある。そ のため、音声認識辞書を話題となるシーンごとに作成し認識時間の短縮化を図 る。 また、 話題となっているシーンで使用される単語が予め用意されているの で認識率も向上する。 さらに、 メモリやハードディスク等の記録容量を節減す ることができる。 According to the present invention, a computer and a human interact by recognizing a voice of a speaker and synthesizing a response sentence created in accordance with a predetermined expression / phrase based on the recognition result. Related to a voice recognition method. The speech recognition dictionary used for speech recognition is created for each topical scene. For example, business, politics and economy, computers, education, local information, movies and music, natural science, living and culture, sports, etc. Has been created. The words that appear in each scene are collected in the speech recognition dictionary for each scene as scene words. The speech recognition dictionary created in this way is Save to a storage device such as a hard disk or hard disk. When a large number of words to be recognized are comprehensively recorded in the speech recognition dictionary, there are many candidates for matching with the speech data for the input speaker's speech, which in turn lowers the recognition rate or takes longer to recognize. Sometimes. For this purpose, a speech recognition dictionary is created for each topic scene to shorten the recognition time. In addition, since words used in a topic scene are prepared in advance, the recognition rate is improved. Further, the storage capacity of a memory, a hard disk, and the like can be reduced.
発話者の音声が音声入力部から入力されると、発話者の音声をワードスポッ トにより文章解析 ·単語分解する。 そして、 得られた音声データを上述のよう にして作成された音声認識-辞書を用いて音声認識を行う。所定の時間内に認識 が完了すると、 その認識結果から予め定められた表現 '言い回しに従って文章 を生成する対話シーケンスに基づいて発話者の発言に対する応答文を作成す る。 そして、 作成された応答文を音声合成して出力し、 発話者に話しかけるこ とにより対話を進行させる。  When the speaker's voice is input from the voice input unit, the speaker's voice is sentence-analyzed and word-decomposed by the word spot. Then, the obtained speech data is subjected to speech recognition using the speech recognition-dictionary created as described above. When the recognition is completed within a predetermined time, a response sentence to the utterance of the speaker is created based on a dialogue sequence that generates a sentence according to a predetermined expression “phrase” from the recognition result. Then, the created response sentence is synthesized and output, and the dialogue is advanced by speaking to the speaker.
一方、音声認識辞書に該当する単語は含まれているがその認識に所定時間以 上かかってしまった場合や音声認識辞書に該当する単語が含まれておらずそ の認識結果を得ることができなかった場合には前記対話シーケンスは発話者 に再入力を促す聞き返し文を作成する。 そして、 作成された聞き返し文を音声 合成して発話者に問い返す。これにより音声認識ができた場合でもできなかつ た場合でも所定時間内に必ずコンビユー夕からの応答があるので不必要な間 をおくことなくテンポのある自然な会話がスムーズに進行する。  On the other hand, if a word corresponding to the speech recognition dictionary is included but its recognition takes longer than a predetermined time, or if the word corresponding to the speech recognition dictionary is not included and the recognition result can be obtained. If not, the dialogue sequence creates a reflection sentence prompting the speaker to re-enter. Then, the created reflection sentence is synthesized by speech and asked back to the speaker. As a result, even if voice recognition is successful or not, there is always a response from the combination evening within a predetermined time, so that a natural conversation with a tempo proceeds smoothly without unnecessary intervals.
請求の範囲 2 に記載の発明は、請求の範囲 1に記載の音声対話のための音声 認識方法において、 音声認識に使用する音声認識辞書は、 発話者の音声をヮー ドスポッ トにより文章解析 ·単語分解して得られた前記音声デ一夕と、 一又は 二以上の前記音声認識辞書に含まれる前記シーン単語とを対比し、前記音声デ 一夕に対応するシーン単語を少なく とも一つ以上含む所定の音声認識辞書を 選択して使用するようにされていることを特徴とする。  The invention described in claim 2 is a speech recognition method for speech dialogue according to claim 1, wherein the speech recognition dictionary used for speech recognition is sentence analysis of a speaker's voice by a codeword. The audio data obtained by the decomposition is compared with the scene words included in one or more voice recognition dictionaries, and at least one or more scene words corresponding to the audio data are included. It is characterized in that a predetermined speech recognition dictionary is selected and used.
本発明においては、話題となるべきシーンに分けて作成した音声認識辞書を 一又は二以上用意し、それを予めコンピュータのメモリやハードディスク等の ス トレ一ジに蓄えておく。 そして、 発話者の音声をヮードスポッ トにより文章 解析.単語分解して得られた音声データをメモリゃハ一ドディスク等のス トレ ージに蓄えられた音声認識辞書に含まれるシーン単語と比較し、音声データに 該当するシーン単語を少なく とも一つ以上含む所定の認識辞書を選び出す。そ して、 選択された認識辞書を、 例えば、 キャッシュメモリ等に記録して音声認In the present invention, one or two or more speech recognition dictionaries prepared for each scene to be a topic are prepared, and the dictionaries are stored in advance in a storage such as a computer memory or a hard disk. Then, the voice of the speaker is sentenced by the code spot. Analysis: The speech data obtained by word decomposition is compared with the scene words included in the speech recognition dictionary stored in storage such as a memory / hard disk, and at least the scene words corresponding to the speech data are analyzed. A predetermined recognition dictionary including one or more recognition dictionaries is selected. Then, the selected recognition dictionary is recorded in, for example, a cache memory or the like, and voice recognition is performed.
5B¾を! ¾ける。 5B¾!
請求の範囲 3に記載の発明は、請求の範囲 1又は 2に記載の音声対話のため の音声認識方法において、 音声認識に使用する音声認識辞書は、 発話者の音声 をワードスポッ トにより文章解析,単語分解して得られた音声データから予め シーン単語同士を関連付けて各シーンごとに作成された音声データベースを 用いて話題となっているシーンを特定し、当該シーンに対応する音声認識辞書 を一又は二以上の音声認識辞書から選択して使用するようにされていること を特徴とする。  The invention according to claim 3 is the speech recognition method for speech dialogue according to claim 1 or 2, wherein the speech recognition dictionary used for speech recognition analyzes the speech of the speaker using a word spot. From the speech data obtained by word decomposition, scene words are pre-associated with each other to identify a topic of interest using a speech database created for each scene, and a speech recognition dictionary corresponding to the scene is identified. Alternatively, it is characterized by being used by selecting from two or more speech recognition dictionaries.
本発明においては、音声認識に使用する音声認識辞書を音声データから話題 となっているシーンを特定し、そのシーンに対応する音声認識辞書をス トレ一 ジに記録された一又は二以上の音声認識辞書の中から選択して音声認識に使 用する。予め各シーンに登場するシ一ン単語をそれそれ関連付けてシーンごと に集めてデータベース化した音声データベースを作成し、 これを別途記録装置 等に保存しておく。発話者の音声を処理することにより得られた音声データか ら音声デ一夕ベースを用いて話題となっているシーンを特定する。 そして、 特 定されたシーンに対応する音声認識辞書を用いて音声認識を行う。  In the present invention, a speech recognition dictionary used for speech recognition is used to identify a topic of interest from speech data, and a speech recognition dictionary corresponding to the scene is identified by one or more speeches recorded in the storage. Select from the recognition dictionary and use it for speech recognition. A speech database is created in advance by collecting scene words that appear in each scene in association with each scene and creating a database of the scenes, and storing the database separately in a recording device or the like. From the voice data obtained by processing the voice of the speaker, the scene that has become a topic is identified using the voice data base. Then, speech recognition is performed using a speech recognition dictionary corresponding to the specified scene.
請求の範囲 4に記載の発明は、請求の範囲 1〜 3のいずれか 1項に記載の音 声対話のための音声認識方法において、 音声認識に使用する音声認識辞書は、 キャッシュメモリに記録して使用すると共に、認識すべき音声データが使用中 の音声認識辞書にシーン単語として含まれていない場合又は新たに特定され たシーンが使用中の音声認識辞書と別のシーンのものである場合には該当音 声デ一夕をシーン単語として含む他の音声認識辞書又は新たに特定されたシ ーンに対応する音声認識辞書と入れ替えて使用するようにされていることを 特徴とする。  According to a fourth aspect of the present invention, in the voice recognition method for voice dialogue according to any one of the first to third aspects, the voice recognition dictionary used for voice recognition is stored in a cache memory. When the voice data to be recognized is not included as a scene word in the voice recognition dictionary in use, or when the newly specified scene is a scene different from the voice recognition dictionary in use. Is characterized in that it is used by replacing it with another voice recognition dictionary that includes the relevant voice data as a scene word or a voice recognition dictionary corresponding to a newly specified scene.
本発明においては、選択された音声認識に使用する音声認識辞書はキヤッシ ュメモリに保存して使用する。 そして、 使用中の音声認識辞書の中に認識すぺ き音声デ一夕が含まれていない音声デ一夕がある場合には当該音声デ一夕を シーン単語として含む他の音声認識辞書があるか否かを検索する。検索の結果 当該音声デ一夕をシーン単語として含む他の音声認識辞書がある場合にはキ ャッシュメモリに記録されている音声認識辞書を新たに検索された音声認識 辞書と入れ替えて使用する。 また、 前記音声データべ一スを用いて特定された シーンが使用中の音声認識辞書のシーンとは別のシーンのものである場合に も特定された別のシーンに対応する音声認識辞書を選択し使用中の音声認識 辞書と入れ替えて使用する。 In the present invention, the speech recognition dictionary used for the selected speech recognition is stored in the cache memory and used. If there is a voice data that does not include the voice data to be recognized in the voice recognition dictionary in use, the voice data is deleted. A search is performed to determine whether or not there is another speech recognition dictionary that includes a scene word. As a result of the search, if there is another voice recognition dictionary that includes the voice data as a scene word, the voice recognition dictionary recorded in the cache memory is replaced with the newly searched voice recognition dictionary. Also, when the scene specified using the voice database is a scene different from the scene of the voice recognition dictionary in use, a voice recognition dictionary corresponding to the specified another scene is selected. Replace it with the voice recognition dictionary you are using.
請求の範囲 5に記載の発明は、請求の範囲 1から 4のいずれか 1項に記載の 音声会話のための音声認識方法において、 対話シーケンスは、 発話者に対して 最初の発声を促すための問いかけを行うと共に、発話者の音声を認識すること により得られた単語に基づいて予め定められた表現 ·言い回しに従って次に問 いかけるべき応答文を生成し、該応答文を音声合成して発話者に対して問いか けることにより発話者に対して主導的に会話を進行させて音声認識を行うこ とを特徴とする。  The invention according to claim 5 is the speech recognition method for voice conversation according to any one of claims 1 to 4, wherein the dialogue sequence is for prompting a speaker to make an initial utterance. In addition to asking a question, a predetermined expression is generated based on words obtained by recognizing the speaker's voice, a response sentence to be asked next is generated in accordance with the wording, and the response sentence is synthesized by speech. The feature is that speech is recognized by initiating conversation with the speaker by asking the speaker.
本発明は、 発話者の発言を待ち、 発話者の発言に基づいて音声認識すべき対 話を進行させるのではなく、 発話者に対して常に問いかけを行い、 主導的に対 話を進めるようにされている。発話者に話しかける文章は発話者に対して発声 を促すための問いかけを行う文章と認識された単語から予め定められた表 現-言い回しに従って次に問いかけるべき応答文を生成する対話シーケンスに より作成される。 例えば、 まず、 最初にコンピュータを動作させると 「用件は 何ですか?」 「やあ、 こんにちは、 昨日は何をしていたの?」 「今日の新聞は読 んだかい?」等の話者の発言を促すような文章を生成し、 それを音声合成して 発話者に問いかける。 その問いかけに応じて発話者が発声した音声を認識し、 認識された単語から対話シーケンスにより予め定められた表現,言い回しに従 つて次に問いかけるべき応答文を生成する。 そして、 該応答文を音声合成して 発話者に対して問いかけを行い、 発話者の次の発言を待つ。 これにより、 発話 者に対して常に、 主導的に会話を進行させて対話をスムーズに進行させる。 請求の範囲 6に記載の発明は、 発話者の音声を認識処理し、 得られた音声デ 一夕に基づいて応答文を作成してそれを音声合成することにより対話を行う 音声対話のための音声認識システムであって、話題となるシーンに登場する所 定の単語をシ一.ン単語として集めてシーンごとに作成された一又は二以上の 音声認識辞書を記録するメモリや記録装置等のストレージと、発話者の音声を 入力する前記音声入力部と、入力された発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた音声データを一又は二以上の音声認識辞書を 用いて音声認識を行う手段と、所定の時間内にその認識が行われた場合には該 認識結果から予め定められた表現 ·言い回しに従って文章を生成する対話シー ケンスに基づいて応答文を作成し、所定時間内に認識が行われなかった場合に は発話者に再入力を促す聞き返し文を作成する手段と、作成された応答文又は 聞き返し文を音声合成する手段とを含み構成された音声対話のための音声認 識システムを提供する。 According to the present invention, instead of waiting for the speaker to speak and proceeding with the conversation to be voice-recognized based on the speaker's speech, the speaker always asks the speaker and proceeds with the conversation in a leading manner. Have been. The sentence to be spoken to the speaker is created by a dialogue sequence that generates a response sentence to be asked next according to a predetermined expression-phrase from the sentence that asks the speaker to speak and a recognized word. You. For example, first, first and causes a computer to operate "business What is?""Hi, Hi, what you did not do? Yesterday,""newspaper today paddle I read?" And the like of the speaker It generates a text that prompts the speaker to make a speech, and then synthesizes it into a speech to ask the speaker. In response to the question, the speaker utters the voice, and generates a response sentence to be asked next from the recognized word according to a predetermined expression and phrase based on the dialogue sequence. Then, the response sentence is voice-synthesized, and the speaker is interrogated, and the next statement of the speaker is awaited. In this way, the speaker always leads the conversation, and the conversation proceeds smoothly. The invention according to claim 6 is characterized in that the speech of the speaker is recognized, a response sentence is created based on the obtained speech data, and the response is synthesized by speech synthesis. A speech recognition system that collects one or more words that appear in a topic scene as scene words and creates one or more A storage such as a memory or a recording device for recording a voice recognition dictionary, the voice input unit for inputting the voice of the speaker, and a voice obtained by analyzing the input voice of the speaker by using a word spot and analyzing words. Means for performing voice recognition of data using one or more voice recognition dictionaries, and, if the recognition is performed within a predetermined time, generating a sentence from the recognition result in accordance with a predetermined expression / phrase Creates a response sentence based on the dialogue sequence and, if recognition is not performed within a predetermined time, creates a return sentence that prompts the speaker to re-enter the input, and voices the created response sentence or the return sentence And a synthesizing means.
請求の範囲 7に記載の発明は、請求の範囲 6に記載の音声対話のための音声 認識システムにおいて、 音声認識に使用する音声認識辞書は、 発話者の音声を ワードスポッ トにより文章解析 ·単語分解して得られた音声データと、 一又は 二以上の音声認識辞書に含まれるシーン単語とを対比し、音声データに対応す るシーン単語を少なく とも一つ以上含む所定の音声認識辞書を選択して使用 するようにされていることを特徴とする。  The invention described in claim 7 is a speech recognition system for speech dialogue according to claim 6, wherein the speech recognition dictionary used for speech recognition is a sentence analysis of a speaker's speech using a word spot. The speech data obtained by the decomposition is compared with the scene words included in one or more speech recognition dictionaries, and a predetermined speech recognition dictionary including at least one scene word corresponding to the speech data is selected. It is characterized in that it is used for
請求の範囲 8に記載の発明は、請求の範囲 6又は 7に記載の音声対話のため の音声認識システムにおいて、 音声認識に使用する音声認識辞書は、 発話者の 音声をワードスポッ トにより文章解析 ·単語分解して得られた前記音声データ から予めシーン単語同士を関連付けて各シーンごとに作成された音声データ ベースを用いて話題となっているシーンを特定し、当該シーンに対応する音声 認識辞書を一又は二以上の音声認識辞書から選択して使用するようにされて いることを特徴とする。  The invention according to claim 8 is the speech recognition system for speech dialogue according to claim 6 or 7, wherein the speech recognition dictionary used for speech recognition is a sentence analysis of a speaker's speech by a word spot. · A scene that is a topic of interest is specified by using a voice database created for each scene by associating scene words with each other in advance from the voice data obtained by word decomposition, and a voice recognition dictionary corresponding to the scene is specified. Is selected and used from one or more speech recognition dictionaries.
請求の範囲 9に記載の発明は、請求の範囲 6〜 9のいずれか 1項に記載の音 声対話のための音声認識方法において、 音声認識に使用する音声認識辞書は、 キャッシュメモリに記録して使用すると共に、認識すべき音声デ一夕が使用中 の音声認識辞書にシーン単語として含まれていない場合又は新たに特定され たシーンが使用中の音声認識辞書と別のシーンのものである場合には該当音 声データをシーン単語として含む他の音声認識辞書又は新たに特定されたシ ーンに対応する音声認識辞書と入れ替えて使用するようにされていることを 特徴とする。  The invention described in claim 9 is a speech recognition method for speech dialogue according to any one of claims 6 to 9, wherein the speech recognition dictionary used for speech recognition is recorded in a cache memory. If the speech data to be recognized is not included as a scene word in the speech recognition dictionary in use, or the newly specified scene is a scene different from the speech recognition dictionary in use. In this case, it is characterized in that another speech recognition dictionary including the relevant speech data as a scene word or a speech recognition dictionary corresponding to a newly specified scene is used.
請求の範囲 1 0に記載の発明は、請求の範囲 6から 1 0のいずれか 1項に記 載の音声会話のための音声認識システムにおいて、 対話シーケンスは、 発話者 に対して最初の発声を促すための問いかけを行うと共に、発話者の音声を認識 することにより得られた単語に基づいて予め定められた表現 ·言い回しに従つ て次に問いかけるべき応答文を生成し、該応答文を音声合成して発話者に対し て問いかけることにより発話者に対して主導的に会話を進行させて音声認識 を行うことを特徴とする。 The invention described in claim 10 is described in any one of claims 6 to 10. In the voice recognition system for voice conversation described above, the dialogue sequence is based on words obtained by recognizing the voice of the speaker while asking the speaker to prompt the first utterance. Generates a response sentence to be asked next in accordance with the prescribed expression and wording, synthesizes the response sentence into a speech, and asks the speaker. It is characterized by performing recognition.
請求の範囲 1 1に記載の発明は、 コンピュータに、 発話者の音声を認識処理 し、得られた音声デ一夕に基づいて応答文を作成してそれを音声合成すること により対話を行う音声対話のための音声認識方法を実行させる音声会話のた めの音声認識プログラムであって、 該プログラムはコンピュータを、 音声入力 部から入力された発話者の音声をワードスポッ トにより文章解析 ·単語分解し て得られた音声デ一夕を話題となるシーンに登場する所定の単語をシーン単 語として集めてシーンごとに作成されメモリや記録装置等のス トレ一ジに記 録された一又は二以上の音声認識辞書を用いて音声認識を行い、所定の時間内 にその認識が行われた場合には該認識結果から予め定められた表現 '言い回し に従って文章を生成する対話シーケンスに基づいて応答文を作成し、所定時間 内に認識が行われなかった場合には発話者に再入力を促す聞き返し文を作成 し、該応答文又は聞き返し文を音声合成するように実行させる音声対話のため の音声認識プログラムを提供する。  The invention described in Claim 11 is a computer which recognizes and processes a speaker's voice, creates a response sentence based on the obtained speech data, and synthesizes the response sentence to perform speech synthesis. This is a speech recognition program for speech conversation that executes a speech recognition method for dialogue, and the program uses a word spot to analyze a sentence of a speaker input from a speech input unit. One or two words collected from the audio data obtained as a result are collected in a storage such as a memory or a recording device by collecting predetermined words appearing in the topic scene as scene words. Speech recognition is performed using the above-described speech recognition dictionary, and if the recognition is performed within a predetermined time, a dialog sequence that generates a sentence from the recognition result according to a predetermined expression 'phrase' A response dialogue is created based on the response sentence based on the response sentence, and if the recognition is not performed within a predetermined time, a return sentence is created to prompt the speaker to re-input, and the response sentence or the return sentence is executed to perform speech synthesis. Provide a speech recognition program for
請求の範囲 1 2に記載の発明は、請求の範囲 1 1に記載の音声対話のための 音声認識プログラムにおいて、 音声認識に使用する音声認識辞書は、 発話者の 音声をヮ一ドスポッ トにより文章解析 ·単語分解して得られた音声データと、 一又は二以上の音声認識辞書に含まれるシーン単語とを対比し、音声デ一夕に 対応するシーン単語を少なく とも一つ以上含む所定の音声認識辞書を選択し て使用するように実行させることを特徴とする。  The invention according to claim 12 is a speech recognition program for speech dialogue according to claim 11, wherein the speech recognition dictionary used for speech recognition is a text-to-speech voice of a speaker. AnalysisSpeech data obtained by word decomposition is compared with scene words contained in one or more speech recognition dictionaries, and a predetermined speech containing at least one scene word corresponding to the speech data It is characterized in that a recognition dictionary is selected and executed.
請求の範囲 1 3に記載の発明は、請求の範囲 1 0又は 1 2に記載の音声対話 のための音声認識プログラムにおいて、 音声認識に使用する音声認識辞書は、 発話者の音声をワードスポッ トにより文章解析 ·単語分解して得られた音声デ 一夕から予めシーン単語同士を関連付けて各シーンごとに作成された音声デ 一夕ベースを用いて話題となっているシーンを特定し、当該シーンに対応する 音声認識辞書を一又は二以上の音声認識辞書から選択して使用するように実 行させることを特徴とする。 The invention according to claim 13 is a speech recognition program for speech dialogue according to claim 10 or 12, wherein the speech recognition dictionary used for speech recognition includes a word spot of a speaker. From the speech data obtained by word decomposition, the scene words are linked in advance to the scene data, and the scenes that are the topic are identified using the speech data base created for each scene. In order to select and use one or more speech recognition dictionaries corresponding to Is performed.
請求の範囲 1 4に記載の発明は、請求の範囲 1 1〜 1 3のいずれか 1項に記 載の音声対話のための音声認識プログラムにおいて、認識すべき音声データが キャッシュメモリに記録された使用中の音声認識辞書にシーン単語として含 まれていない場合又は新たに特定されたシーンが使用中の音声認識辞書と別 のシーンのものである場合には該当音声データをシーン単語として含む他の 音声認識辞書又は新たに特定されたシーンに対応する音声認識辞書と入れ替 えて使用するように実行させることを特徴とする。  According to the invention described in claim 14, in the speech recognition program for speech dialogue described in any one of claims 11 to 13, the speech data to be recognized is recorded in a cache memory. If the current speech recognition dictionary does not include the scene word as a scene word, or if the newly specified scene is a scene different from that of the speech recognition dictionary in use, another scene that includes the relevant speech data as a scene word is used. The speech recognition dictionary or the speech recognition dictionary corresponding to the newly specified scene is replaced with the speech recognition dictionary.
瀬急の範囲 1 5に記載の発明は、請求の範囲 1から 4のいずれか 1項に記載 の音声会話のための音声認識プログラムにおいて、 対話シーケンスを、 発話者 に対して最初の発声を促すための問いかけを行うと共に、発話者の音声を認識 することにより得られた単語に基づいて予め定められた表現 ·言い回しに従つ て次に問いかけるべき応答文を生成し、該応答文を音声合成して発話者に対し て問いかけることにより発話者に対して主導的に会話を進行させて音声認識 を行うように実行させることを特徴とする。  The invention according to Seki's scope 15 is a speech recognition program for voice conversation according to any one of claims 1 to 4, wherein the speech sequence prompts the speaker to speak first. To generate a response sentence to be asked next according to a predetermined expression and wording based on the words obtained by recognizing the voice of the speaker, and synthesize the response sentence into speech. Then, by asking the speaker, the speaker is led to perform the conversation in a leading manner and perform the speech recognition.
の な^日  No ^ ^
第 1図は、本発明に係る音声対話のための音声認識システムの一実施形態に おけるプロック図である。  FIG. 1 is a block diagram of an embodiment of a speech recognition system for speech dialogue according to the present invention.
第 2図は、図 1の音声認識システムを実現するためのコンビュー夕のプロッ ク図である。  FIG. 2 is a block diagram of a contest for realizing the speech recognition system of FIG.
第 3図は、 シーン辞書の構成を示す説明図である。  FIG. 3 is an explanatory diagram showing the configuration of a scene dictionary.
第 4図は、本発明に係る音声認識システムの第二の実施形態におけるブ口ッ ク図である。  FIG. 4 is a block diagram of a speech recognition system according to a second embodiment of the present invention.
第 5図は、 音声データベースの構成を示す説明図である。  FIG. 5 is an explanatory diagram showing the configuration of a voice database.
第 6図は、 リレーショナル型デ一夕ベースの構成を示す説明図である。 第 7図は、 音声対話の全体のフローチャートである。  FIG. 6 is an explanatory diagram showing a configuration based on a relational data type. FIG. 7 is an overall flowchart of the voice dialogue.
第 8図は、シーン辞書選択及び聞き返し文生成の流れを示すフローチヤ一ト である。  FIG. 8 is a flowchart showing a flow of selecting a scene dictionary and generating a reflection sentence.
発昍》赛施する めの慕 の形熊 Departure bear
本発明に係る音声対話のための音声認識方法、音声認識システム及び音声認 識プログラム実施の一形態を図面に基づいて説明する。初めに、 図 1に示す本 実施形態における音声認識システムの基本的な構成について説明する。図 1に 示された音声認識システムは、 概略的に、 音声入力部 3 と、 言語処理部 4 と、 音声認識部 5と、 音声合成部 6 と、 文書作成部 7と、 音声認識辞書部 8 とを有 して構成されている。 かかるシステムは、 例えば、 図 2に示すような、 プログ ラムや処理結果を記録保存するメモリゃハードディスク等のス トレージ 1 1 と、情報や命令を入力するためのキーボ一ドゃボインティ ングデバイス等の入 力装置 1 3と、 与えられたプログラムを実行処理する中央処理装置 ( C P U ) 1 5 と、入力情報や処理結果を表示するモニタ 1 7を等を有して構成される一 般のコンピュータ 1 0を用いることにより実現される。 An embodiment of a voice recognition method, a voice recognition system, and a voice recognition program for voice dialogue according to the present invention will be described with reference to the drawings. First, the book shown in Figure 1 A basic configuration of the speech recognition system according to the embodiment will be described. The speech recognition system shown in FIG. 1 generally includes a speech input unit 3, a language processing unit 4, a speech recognition unit 5, a speech synthesis unit 6, a document creation unit 7, a speech recognition dictionary unit 8 It is configured with Such a system includes, for example, storage 11 such as a memory and a hard disk for recording and storing programs and processing results as shown in FIG. 2 and a keyboard and a pointing device for inputting information and instructions. A general computer 1 including an input device 13, a central processing unit (CPU) 15 for executing and processing a given program, and a monitor 17 for displaying input information and processing results. This is realized by using 0.
まず、 音声入力部 3は、 マイクロフォン 3 aから取り込まれた発話者の音声 をコンビュ一夕で処理することが可能な電気信号である音声信号に変換処理 し、 その処理結果を言語処理部 4に渡すように構成されている。  First, the voice input unit 3 converts the speaker's voice captured from the microphone 3a into a voice signal that is an electrical signal that can be processed in a convenience store, and the processing result is sent to the language processing unit 4. It is configured to pass.
言語処理部 4は、音声入力部 3から送られてきた発話者の音声信号を従来周 知の音声認識エンジンを用いてヮードスポッ トにより文章解析'単語分解して 認識すべき必要な音声データを得るように構成されている。  The language processing section 4 analyzes the speech signal of the speaker sent from the speech input section 3 using a conventionally known speech recognition engine by using a word spot in a sentence analysis and word decomposition to obtain necessary speech data to be recognized. It is configured as follows.
音声認識部 5は、発話者の音声を言語処理部 4で処理することにより得られ た音声データと予め音声認識辞書部 8に記録保存された音声認識辞書とを対 比して当該音声データがいかなる単語であるかを認識する。  The voice recognition unit 5 compares the voice data obtained by processing the voice of the speaker with the language processing unit 4 with the voice recognition dictionary recorded and stored in the voice recognition dictionary unit 8 in advance. Recognize what the word is.
音声認識辞書部 8は、 言語処理部 4で発話者の音声を文章解析 ·単語分解し て得られた音声デ一夕から目的とする単語を認識するための音声認識辞書を 少なく とも一以上有して構成されている。この音声認識辞書は話題となるシー ンに登場する所定の単語をシーン単語として集めて形成されており様々なシ ーンごとに作成されている (以下、 シーンごとにまとめられた各音声認識辞書 を「シーン辞書 8 a」 という)。シーンとしては、例えば、 「ビジネス」、 「政治 · 経済」、 「コンピュータ」、 「教育」、 「地域情報」、 「映画 ' 音楽」、 「自然科学」 「生活 ·文化」、 「スポーツ」等があるがこれに限るものではなく種々のカテゴ リーを採用することが可能である。 また、 各シーンをさらに細分化して作成す ることも可能であり、 例えば、 「ビジネス」の中にさらに「保険 '金融」 「食品」 「電気通信」 等に分けて階層的に作成してもよい。 そして、 各シーンで登場す る単語がシーン単語として各シーンごとに集められている。 例えば、 「コンビ ユー夕 I に関するシーン辞書 8 aの中には図 3に示すようなシーン単語の他、 「サーバ」、 「クライアン ト」、 「シーピーユ一( C P u )」、 「プログラム」 「ソフ ト」、 「ビデオカード」、 「タスク」、 「マウス」、 「ディスプレイ」、 「パソコン」、 「起動」、 「システム」等のコンビユー夕が話題となったときに登場する単語が 記録されている。このように作成されたシーン辞書 8 aをコンピュータのメモ リゃハードディスク等の記録装置であるス トレージ 1 1に少なく とも一つ以 上保存する。音声認識に使用する音声認識辞書に認識すべき単語を網羅的に多 数収録すると、入力された発話者の音声に対する音声データとのマッチングの 候補が多数存在することとなりかえって認識率が下がったり認識に時間がか かることがある。 そのため、 音声認識辞書を話題となるシーンごとに作成し認 識時間の短縮化を図る。 The speech recognition dictionary unit 8 has at least one or more speech recognition dictionaries for recognizing a target word from the speech data obtained by analyzing the speech of the speaker in the language processing unit 4 and word decomposition. It is configured. This speech recognition dictionary is formed by collecting predetermined words appearing in a topic scene as scene words, and is created for each of various scenes (hereinafter, each speech recognition dictionary compiled for each scene). Is called "scene dictionary 8a"). Scenes include, for example, "business,""politics and economy,""computer,""education,""localinformation,""moviemusic,""naturalscience,""life and culture," and "sports." However, the present invention is not limited to this, and various categories can be adopted. It is also possible to create each scene by further subdividing it.For example, it can be created hierarchically by further dividing it into 'insurance' finance ',' food ','telecommunications', etc. in 'business' Good. The words that appear in each scene are collected as scene words for each scene. For example, "In the scene dictionary 8a for Combi You I, in addition to the scene words shown in Fig. 3, “Server”, “Client”, “CP”, “Program”, “Software”, “Video card”, “Task”, “Mouse”, “Display”, “PC”, “Start” The words that appear when a topic such as "system" becomes a topic are recorded. At least one or more scene dictionaries 8a created in this way are stored in a storage device 11 such as a recording device such as a hard disk of a computer. If a large number of words to be recognized are comprehensively recorded in the speech recognition dictionary used for speech recognition, there will be many candidates for matching the speech data of the input speaker with the speech data. May take some time. Therefore, a speech recognition dictionary is created for each topical scene to shorten the recognition time.
音声認識に使用するシーン辞書 8 aは、発話者の音声を言語処理部 4で処理 することにより得られた音声データと、保存された各シーン辞書 8 aに含まれ るシーン単語とを対比し、当該音声デ一夕に対応するシーン単語を少なく とも 一つ以上含む特定のシーン辞書 8 aを選択することにより使用する。 例えば、 発話者が 「今度のパソコンは C P U (シ一ピーユ一) の性能が良いので処理速 度が速い。」 と話した場合には言語処理部 4で得られた音声デ一夕に対応する 単語である 「パソコン」、 「C P U (シーピーユ一)」、 「性能」、 「処理速度」 の 単語を含む 「コンピュータ」 関係のシーン辞書 8 aが選択される。 そして、 選 択されたシーン辞書 8 aはキヤッシュメモリに蓄えられ、以後の音声認識に使 用される。  The scene dictionary 8a used for speech recognition compares the speech data obtained by processing the speech of the speaker with the language processing unit 4 with the scene words included in each of the stored scene dictionaries 8a. This is used by selecting a specific scene dictionary 8a containing at least one or more scene words corresponding to the audio data. For example, if the speaker says, "This computer has a high processing speed because of the high performance of the CPU (chip-up)," it corresponds to the audio data obtained by the language processing unit 4. The "computer" related scene dictionary 8a containing the words "PC", "CPU", "performance", and "processing speed" is selected. Then, the selected scene dictionary 8a is stored in the cache memory and used for the subsequent speech recognition.
尚、音声認識辞書の選択は音声データが二つ以上のシーン辞書 8 aに含まれ る場合には、 より多くの音声データに対応するシーン単語を含むシーン辞書 8 aを選択するように構成することもでき、 また、 キャッシュメモリに記録され ているシーン辞書 8 aを優先的に使用するように構成することもできる。  Note that the selection of the voice recognition dictionary is configured such that, when voice data is included in two or more scene dictionaries 8a, the scene dictionary 8a including scene words corresponding to more voice data is selected. Alternatively, the scene dictionary 8a recorded in the cache memory may be preferentially used.
シーン辞書 8 aの選択に関して第二の実施形態としては図 4に示すように、 発話者の音声を言語処理部 4で処理することにより得られた音声データから 予めシーン単語同士を関連付けて各シーンごとに作成された音声データべ一 ス 9を用いて話題となっているシーンを特定し、当該特定されたシーンに対応 するシーン辞書 8 aを一又は二以上のシーン辞書 8 aから選択して使用する ように構成することもできる。 具体的には、 図 5に示すような各シーンに登場 するシーン単語をそれそれ関連付けてシーンごとにデ一夕ベース化した音声 データベース 9を作成し、発話者の音声を言語処理部 4で処理することにより 得られた音声デ一夕をこの音声データベース 9を用いて話題となっているシ ーンを特定する。 そして、 特定したシーンから音声認識に使用するシーン辞書 8 aを選択してキヤッシュメモリに記憶させ音声認識に用いる。音声データべ —ス 9は、 シーン辞書 8 aと同じシーンに対応するように作成してもよいが、 使用するシーン辞書 8 aを特定できるように構成されていればシーン辞書 8 aと同じシーンに分類する必要はなく、 もつと細分化したシーンで分類しても よい。 また、 音声データベース 9 として複数のシーン辞書 8 aを集めて利用す ることも可能である。 尚、 音声認識に使用するシーン辞書 8 aは、 キャッシュ メモリに記録して使用することにより レスポンスを早く行わせるようにする とよい。 As shown in FIG. 4, in the second embodiment regarding the selection of the scene dictionary 8a, scene words are associated with each other in advance from voice data obtained by processing the voice of the Using the audio database 9 created for each of the scenes, the topic scene is identified, and the scene dictionary 8a corresponding to the identified scene is selected from one or more scene dictionaries 8a. It can also be configured for use. Specifically, the scene words appearing in each scene as shown in Fig. 5 are associated with each scene, and the audio is de-base-based for each scene. The database 9 is created, and the speech database obtained by processing the speech of the speaker by the language processing unit 4 is used to identify a topic that is a topic using the speech database 9. Then, a scene dictionary 8a to be used for speech recognition is selected from the specified scenes, stored in a cache memory, and used for speech recognition. The audio database 9 may be created so as to correspond to the same scene as the scene dictionary 8a, but the same scene as the scene dictionary 8a if it is configured to specify the scene dictionary 8a to be used. It is not necessary to classify into scenes. It is also possible to collect and use a plurality of scene dictionaries 8a as the audio database 9. The scene dictionary 8a used for voice recognition is preferably recorded in a cache memory and used so that the response can be performed quickly.
対話が進行し、今までとは異なる話題になった場合には認識すべき音声デー 夕が使用中のシーン辞書 8 aにシーン単語として含まれていない場合がある。 その場合には、 音声認識部 5は、 音声辞書部 8にある他のシーン辞書 8 aにァ クセスして当該音声データに対応するシーン単語を含むシーン辞書 8 aがあ るか否かを検索し、該当するシーン辞書 8 aがあれば当該音声データを含むシ —ン辞書 8 aを選択すると共に、キャッシュメモリに記録されている使用中の シーン辞書 8 aを新たに選択されたシーン辞書 8 aに入れ替えて使用するよ うに構成されている。 また、 上述した第二の実施形態の場合も同様に音声認識 部 5は、 話題が変り、 音声データベース 9から特定されるシーンが現在使用中 のシーン辞書 8 aのシーンとは異なるようになつた場合も音声デーベース 9 から新たなシーンを特定し、そのシーンに対応するシーン辞書 8 a選択してキ ャヅシュメモリにある今まで使用していたシーン辞書 8 aと新たに選択され たシーン辞書 8 aとを入れ替えて使用するように構成されている。  If the conversation progresses and the topic becomes different from the past, the voice data to be recognized may not be included in the used scene dictionary 8a as a scene word. In this case, the voice recognition unit 5 accesses another scene dictionary 8a in the voice dictionary unit 8 and searches for a scene dictionary 8a including a scene word corresponding to the voice data. If there is a corresponding scene dictionary 8a, a scene dictionary 8a containing the audio data is selected, and the used scene dictionary 8a recorded in the cache memory is newly selected as the scene dictionary 8a. It is configured to be used in place of a. Similarly, in the case of the second embodiment described above, the speech recognition unit 5 changes the topic, and the scene specified from the speech database 9 is different from the scene in the currently used scene dictionary 8a. In this case, a new scene is identified from the audio database 9, and a scene dictionary 8a corresponding to the scene is selected, and the previously used scene dictionary 8a and the newly selected scene dictionary 8a in the cache memory are selected. And are used interchangeably.
文書作成部 7は、 音声認識部 5で認識されたその結果から話題を抽出し、 予 め定められた表現 ·言い回しに従って文章を生成するプログラムである対話シ 一ケンスに基づいて発話者の発言に対する応答文を作成する。  The document creation unit 7 extracts topics from the results recognized by the speech recognition unit 5 and responds to the speaker's utterance based on a dialogue sequence that is a program that generates sentences according to predetermined expressions and phrases. Create a response statement.
対話シーケンスは、発話者に対して最初の発声を促すための問いかけを行う と共に、発話者の音声を認識することにより得られた単語に基づいて予め定め られた表現 ·言い回しに従って次に問いかけるべき応答文を生成し、 該応答文 を音声合成して前記発話者に対して問いかけることにより前記発話者に対し て主導的に会話を進行させて音声認識を行うように構成されている。 The dialogue sequence asks the speaker to prompt the first utterance, and a predetermined expression based on the word obtained by recognizing the speaker's voice A sentence is generated, and the response sentence is voice-synthesized and questioned to the speaker, whereby the speaker is The voice recognition is performed by initiatively proceeding with the conversation.
具体的には、 図 6に示すようなリ レーショナル型デ一夕ベースを準備する。 すなわち、 図 6に示されたリレーショナル型デ一夕ベースの各行をレコ一ド、 各列を各レコードに対するデータの属性を示すスキームに割当てる。 例えば、 「旅行」に関するデ一夕ペースであれば、 レコードとしては「目的」、 「場所」、 「人数」、 「時期」、 「出発日」、 「日数」 等の情報が記録される。 そして、 各レコ ードに対する属性であるスキーム S l〜 S nとしては、 例えば、 「目的」 に対 するスキームとして「観光」、 「ビジネス」、 「研修、」、 「ダイビング」、 「スキー」 等が記録され、 「場所」としては、 「北海道」、 「東京」、 「京都」、 「沖緝」、 「ハヮ ィ」、 「イギリス」、 「中国」 等が記録される。 そして、 発話者の音声を認識して 得られた単語をこのようにして作成されたリレ一ショナル型データベースに 当てはめる。 発話者が 「夏休みにハワイに行きたい。」 と話した場合には、 場 所である 「ハワイ」 と 「時期」 である 「夏休み」 が特定されるが、 他のレコ一 ドである 「目的」、 「人数」、 「出発日」 等が不明である。 そこで、 この不明なレ コードをから発話者の話に対応する文章を対話場面に応じた文例である応答 文、 例えば、 目的が不明の場合の文例である 「〇〇へは何をしにいくのです か?」 の 「〇〇」 の部分に先に認識された 「場所」 に関する単語である 「ハヮ ィ」 を当てはめて 「ハワイへは何をしに行くのですか?」 という文章を生成す る。 同様に、 人数が不明の場合には 「〇〇へは何人で行くのですか?」 の文例 を利用して 「ハワイへは何人で行くのですか?」文章を生成するようになって いる。  Specifically, a relational data base as shown in Fig. 6 is prepared. That is, each row of the relational data base shown in FIG. 6 is assigned to a record, and each column is assigned to a scheme indicating a data attribute for each record. For example, if it is an overnight pace related to “travel”, information such as “purpose”, “location”, “number of people”, “time”, “departure date”, “number of days” and the like are recorded as records. The schemes S1 to Sn, which are attributes for each record, include, for example, sightseeing, business, training, diving, skiing, etc. Is recorded, and "Hokkaido", "Tokyo", "Kyoto", "Oki Jip", "Hawaii", "UK", "China", etc. are recorded as "places". Then, the words obtained by recognizing the speaker's voice are applied to the relational database created in this way. If the speaker says, “I want to go to Hawaii for summer vacation,” the location “Hawaii” and the “time” “summer vacation” are identified, but the other records, “purpose” , "Number of people", "departure date" etc. are unknown. Therefore, from this unknown record, a sentence corresponding to the speaker's story is used as a response sentence corresponding to the dialogue scene, for example, a sentence example when the purpose is unknown. "〇〇" in "?" Is applied to the previously recognized word "place", and the sentence "What are you going to Hawaii?" Generate. Similarly, if the number is unknown, the sentence "How many people go to Hawaii?" Is used to generate a sentence "How many people go to Hawaii?" .
対話シーケンスは、 また、 最初にコンピュータを動作させたときには 「用件 は何ですか?」、 「やあ、 こんにちは、 昨日は何をしていたの?」、 「今日の新聞 は読んだかい?」等の話者の発言を促すような文章を生成するようになってい ο  Interactive sequence is, also, when you first to operate the computer, "What are the requirements?", "Hi, hello, what you did not do? Yesterday", "Have you read today's newspaper?" , Etc., to generate sentences that prompt the speaker to speak ο
一方、 文書作成部 7は、 シーン辞書 8 aに該当する単語は含まれているがそ の認識に所定時間以上かかってしまった場合(他のシーン辞書 8 aに該当する 単語が含まれておらずその認識結果を出力することができなかった場合も含 む) には発話者に対し 「何、 もう一度言ってよ。」 再入力を促す聞き返し文を 作成する。聞き返し文を作成して発話者に聞き返すことにより不必要な間を作 らずにスムーズに会話を進めることができると共に、発話者に対し最初に用い た言葉と同じ言葉ではなく より認識しやすい別な言葉を発話するように仕向 けることができる。聞き返し文を生成する条件である認識のために要する所定 の時間としては、 約 1〜 3秒程度が好ましい。 On the other hand, if the word corresponding to the scene dictionary 8a is included, but the recognition takes longer than a predetermined time (the word corresponding to another scene dictionary 8a is included), (Including the case where the recognition result could not be output beforehand.) In such a case, create a reflection sentence that prompts the speaker to re-enter what. By creating a reflection sentence and returning to the speaker, the conversation can proceed smoothly without making unnecessary time, and it is used first for the speaker. You can be encouraged to speak another language that is more recognizable, rather than the same as the original language. The predetermined time required for recognition, which is a condition for generating a reflection sentence, is preferably about 1 to 3 seconds.
また、 対話シーケンスは、 発話者の音声を認識することにより作成された応 答文に対して以前に発話者が回答した内容を記録した会話パターンを利用し て応答文を作成するように構成することもできる。 つまり、 作成された応答文 をそのまま音声合成して出力するのではなく、作成された文章をいつたん自シ ステムに取り込んだ上で再び応答文を作成させる。 すなわち、 発話者の音声を 認識することにより得られた単語に基づいて作成された応答文に対する発声 者の回答を会話パターンとしてハードディスク等のス トレージに記録蓄積し ておく。 そして、 音声認識により得られた単語に基づいて生成された応答文と 以前に記録された会話パターンとを比較し、同じ応答文がある場合にはその応 答文に対する発話者の回答を参照して次の応答文を生成する。対話シーケンス をこのように構成することにより、その単語に対していつも決まったパターン の応答文を作成するのではなく、人間同士が会話しているかのような感じを与 えることができる。  In addition, the dialogue sequence is configured so that a response sentence is created using a conversation pattern in which a content previously answered by the speaker is recorded with respect to the response sentence created by recognizing the speaker's voice. You can also. In other words, the created response sentence is not synthesized and output as it is, but the created sentence is taken into the system once and the response sentence is created again. That is, the speaker's answer to the response sentence created based on the word obtained by recognizing the speaker's voice is recorded and stored in a storage such as a hard disk as a conversation pattern. Then, the response sentence generated based on the words obtained by the speech recognition is compared with the previously recorded conversation pattern, and if the same response sentence is found, the answer of the speaker to the response sentence is referred to. To generate the next response sentence. By constructing the dialogue sequence in this way, it is possible to give a feeling as if humans are having a conversation, instead of creating a response sentence in a fixed pattern for the word.
音声合成部 6は、文書作成部 7で作成された会話をスタートさせるためのあ いさつ文、発話者の話に対する応答文や聞き返し文を音声合成してスピーカ 6 aから発話する。  The speech synthesizer 6 synthesizes the greeting sentence for starting the conversation created by the document creator 7, the response sentence to the speaker's speech and the return sentence, and utters it from the speaker 6 a.
次に、本発明に係る音声認識方法について上述した音声認識システムの動作 と共に説明する。  Next, the speech recognition method according to the present invention will be described together with the operation of the speech recognition system described above.
まず、話題となるシーンに登場する所定の単語をシーン単語として集めてシ ーンごとに作成された一又は二以上のシーン辞書 8 aコンピュ一夕のメモリ や記録装置等のス トレ一ジに記録する (ステップ S 1 )。  First, one or two or more scene dictionaries created for each scene by collecting predetermined words that appear in a topical scene as scene words 8a into a storage such as a memory or a recording device of a computer. Record (step S 1).
本システムを動作させると、 まず、 文章作成部 7に記録されたプログラムで ある対話シーケンスに基づいて発話者に対して音声入力を促すための文章、例 えば、「用件は何ですか?」 「やあ、 こんにちは、昨日は何をしていたの?」 「今 日の新聞は読んだかい?」 が作成される (ステップ S 2 )。 そして、 その文章 を音声合成部 6で音声合成し、 スピーカ 6 aを介して発話者に問いかける (ス テツプ S 3 )。 その問いかけに応じて発話者が発声すると、 その音声をマイク 口フォン 3 aから取り込んで音声入力部 3で電気信号である音声信号に変換 処理する (ステップ S 4 )。 そして、 その処理結果を言語処理部 4に渡す (ス テヅプ S 5 )。 When this system is operated, first, a sentence that prompts the speaker to input voice based on the dialogue sequence, which is a program recorded in the sentence creation unit 7, for example, "What is the task?""Hi, Hi, what you did not do? yesterday,""Kai you read now date of the newspaper?" is created (step S 2). Then, the sentence is synthesized by the speech synthesizer 6 and the speaker is interrogated via the speaker 6a (step S3). When the speaker utters the voice in response to the question, the voice is taken from the microphone phone 3a and converted into an electrical signal as a voice signal by the voice input unit 3. Process (step S4). Then, the processing result is passed to the language processing unit 4 (step S5).
言語処理部 4では、音声信号を従来周知の音声認識エンシーンを用いてヮ一 ドスポッ トにより文章解析 ·単語分解して認識すべき必要な音声データを得る (ステップ S 6 )。 そして、 得られた音声データと予め音声認識辞書部 8に記 録保存 ( S 1 ) されたシーン辞書 8 aとを対比して当該音声デ一夕がいかなる 単語であるかを認識する (ステップ S 7 )。 単語が認識されると対話シ一ケン スにより予め定められた表現 ·言い回しに従って次に問いかけるべき応答文を 生成する (ステップ S 8 )。 そして、 作成された応答文を音声合成部 6により 音声合成してその音声をスピーカ 6 aから発して発話者に対して問いかけを 行い、 発話者の次の発言を待つ (ステップ S 9 )。 これにより、 発話者に対し て常に、 主導的に会話を進行させて対話をスムーズに進行させる。  The language processing unit 4 obtains necessary speech data to be recognized by analyzing a speech signal by word spot analysis and word decomposition using a conventionally known speech recognition en scene (step S6). Then, the obtained speech data is compared with the scene dictionary 8a recorded and saved in the speech recognition dictionary unit 8 in advance (S1) to recognize what word the speech data is (step S1). 7). When the word is recognized, a response sentence to be asked next is generated in accordance with an expression and a phrase predetermined by the dialogue sequence (step S8). Then, the prepared response sentence is voice-synthesized by the voice synthesizer 6, and the voice is emitted from the speaker 6a to ask the speaker, and waits for the next utterance of the speaker (step S9). In this way, the conversation is always led by the speaker, and the dialogue proceeds smoothly.
会話が進行して話題が変り、得られた音声データの中に使用中のシーン辞書 8 aにシーン単語として含まれていない音声データがある場合には、図 8に示 すように、音声辞書部 8にある他のシーン辞書 8 aにアクセスして当該音声デ 一夕に対応するシーン単語を含むシーン辞書 8 aがあるか否かを検索する(ス テツプ S 1 0 )。 そして、 該当するシーン辞書 8 aがあれば当該音声デ一夕を 含むシーン辞書 8 aを選択すると共に、キャッシュメモリに記録されている使 用中のシーン辞書 8 aを新たに選択されたシーン辞書 8 aに入れ替えて使用 に供する (ステップ S 1 1 )。 同様に、 話題が変り、 音声デ一夕ペース 9から 特定されるシーンが現在使用中のシーン辞書 8 aのシーンとは異なるように なった場合も音声デーベース 9から新たなシーンを特定し、そのシーンに対応 するシーン辞書 8 a選択してキャッシュメモリにある今まで使用していたシ ーン辞書 8 aと新たに選択されたシーン辞書 8 aとを入れ替えて使用する。 一方、シーン辞書 8 aに該当する単語は含まれているがその認識に所定時間 以上かかってしまつた場合(他のシーン辞書 8 aに該当する単語が含まれてお らずその認識結果を出力することができなかった場合も含む)には対話シ一ケ ンスは、 発話者に対し 「何、 もう一度言ってよ。」 再入力を促す聞き返し文を 作成する (ステップ S 1 2 )。 そして、 作成された聞き返し文を音声合成部 6 により音声合成してその音声をスピーカ 6 aから発して発話者に対して問い かけを行い、 発話者の次の発言を待つ ( S 9 )。 以後これを繰り返す。 本発明は、 これまで説明したような音声会話のための音声認識方法をコンピ ュ一夕に実行させるためのプログラムにより実現することができ、当該プログ ラムは、 フロッピ一ディスク、 C D— R O M、 D V D、 M O等の記録媒体に記 録し、 コンピュー夕に読み込ませることにより実行させることができる。 If the conversation progresses and the topic changes, and the obtained audio data contains audio data that is not included as a scene word in the current scene dictionary 8a, as shown in Fig. 8, the audio dictionary The other scene dictionary 8a in the section 8 is accessed to search whether or not there is a scene dictionary 8a including a scene word corresponding to the audio data overnight (step S10). Then, if there is a corresponding scene dictionary 8a, the scene dictionary 8a including the audio data is selected, and the used scene dictionary 8a recorded in the cache memory is newly selected as the scene dictionary. Replace with 8a and use it (step S11). Similarly, if the topic changes and the scene specified from the audio data overnight pace 9 becomes different from the scene currently used in the scene dictionary 8a, a new scene is specified from the audio database 9, The scene dictionary 8a corresponding to the scene is selected, and the previously used scene dictionary 8a in the cache memory is replaced with the newly selected scene dictionary 8a. On the other hand, if a word corresponding to the scene dictionary 8a is included but its recognition takes more than a predetermined time (the word corresponding to another scene dictionary 8a is not included and the recognition result is output. In this case, the dialogue sequence creates a reflection sentence that prompts the speaker to re-enter “what, say again.” (Step S12). Then, the generated return sentence is voice-synthesized by the voice synthesis unit 6, and the voice is emitted from the speaker 6a to ask the speaker, and waits for the next utterance of the speaker (S9). Thereafter, this is repeated. The present invention can be realized by a program for causing a computer to execute the voice recognition method for voice conversation as described above, and the program includes a floppy disk, a CD-ROM, and a DVD. The program can be executed by recording it on a recording medium such as an MO or the like and reading it into a computer.
また、 かかる記録媒体によらなく とも、 ィン夕ーネッ トに代表される通信に よってもコンピュータに読み込ませて実行することが可能であり、いかなる方 法によるとも上述の音声認識方法をコンピュータ上で実現する限りは本発明 の思想の含まれるものである。  Also, without using such a recording medium, it is possible to read and execute the computer by communication represented by Internet, and the above-described voice recognition method can be executed on the computer by any method. As long as it is realized, the concept of the present invention is included.
縫 卜の禾 ii ffl wr能牛 Skull ii ffl wr Noh cattle
本発明に係る音声認識方法、音声認識システム及び音声認識プログラムによ れば、話題となっているシーンに対応する音声認識辞書を用いて音声認識する と共に、使用する音声認識辞書を効率よく選択して切り替えて使用することに より認識時間の短縮化を図ることができると共に、 認識率の向上、 及びメモリ の容量を節減することが可能となる。  According to the speech recognition method, the speech recognition system, and the speech recognition program according to the present invention, speech recognition is performed using a speech recognition dictionary corresponding to a topic scene, and a speech recognition dictionary to be used is efficiently selected. By switching and using, the recognition time can be shortened, the recognition rate can be improved, and the memory capacity can be reduced.
また、 本発明に係る音声認識方法、 音声認識システム及び音声認識プログラ ムによれば、一定時間経っても候補が検索されない場合や認識できない単語が ある場合には発話者に対してもう一度発言を促すように構成されていること より、不自然な間を作ることなく 自然な感じで対話を行わせながら音声認識を 行うことができる。  Further, according to the speech recognition method, the speech recognition system and the speech recognition program according to the present invention, when no candidate is searched or there is a word that cannot be recognized even after a certain period of time, the speaker is prompted to speak again. With such a configuration, it is possible to perform speech recognition while making a conversation with a natural feeling without making an unnatural interval.

Claims

請求の範囲 The scope of the claims
1 . 発話者の音声を認識処理し、 得られた音声デ一夕に基づいて応答文を作成 してそれを音声合成することにより対話を行う音声対話のための音声認識方 法であって、  1. A speech recognition method for speech dialogue in which a speaker's speech is recognized, a response sentence is created based on the obtained speech data, and a speech is synthesized by speech synthesis.
話題となるシーンに登場する所定の単語をシーン単語として集めてシーン ごとに作成された一又は二以上の音声認識辞書をメモリや記録装置等のス ト レージに記録する工程と、  Collecting predetermined words appearing in a topic scene as scene words and recording one or more speech recognition dictionaries created for each scene in storage such as a memory or a recording device;
発話者の音声を音声入力部から入力する工程と、  Inputting the voice of the speaker from a voice input unit;
入力された発話者の音声をワードスポッ トにより文章解析 ·単語分解して得 られた音声データを一又は二以上の前記音声認識辞書を用いて音声認識を行 う工程と、  Speech analysis of the input speaker's speech using word spots and speech recognition of speech data obtained by word decomposition using one or more speech recognition dictionaries;
所定の時間内にその認識が行われた場合には該認識結果から予め定められ た表現'言い回しに従って文章を生成する対話シーケンスに基づいて応答文を 作成し、所定時間内に認識が行われなかった場合には発話者に再入力を促す聞 き返し文を作成する工程と、  If the recognition is performed within a predetermined time, a response sentence is created based on a dialogue sequence that generates a sentence according to a predetermined expression 'phrase from the recognition result, and the recognition is not performed within the predetermined time. Creating a response sentence that prompts the speaker to re-enter if
作成された応答文又は聞き返し文を音声合成する工程と、  A step of speech-synthesizing the prepared response sentence or the reflected sentence,
を含み構成された音声対話のための音声認識方法。  A speech recognition method for spoken dialogue comprising:
2 . 請求の範囲 1に記載の音声対話のための音声認識方法において、  2. The speech recognition method for speech dialogue according to claim 1, wherein
音声認識に使用する音声認識辞書は、発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた前記音声データと、 一又は二以上の前記音声 認識辞書に含まれる前記シーン単語とを対比し、前記音声デ一夕に対応するシ —ン単語を少なく とも一つ以上含む所定の音声認識辞書を選択して使用する ようにされていることを特徴とする音声対話のための音声認識方法。  The speech recognition dictionary used for speech recognition is composed of the speech data obtained by analyzing the speech of the speaker using a word spot and word decomposition, and the scene words included in one or more speech recognition dictionaries. Speech recognition for speech dialogue, characterized in that a predetermined speech recognition dictionary containing at least one scene word corresponding to the speech data is selected and used. Method.
3 . 請求の範囲 1又は 2に記載の音声対話のための音声認識方法において、 音声認識に使用する音声認識辞書は、発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた前記音声データから予め前記シーン単語同士 を関連付けて各シーンごとに作成された音声データベースを用いて話題とな つているシーンを特定し、当該シーンに対応する音声認識辞書を一又は二以上 の前記音声認識辞書から選択して使用するようにされていることを特徴とす る音声対話のための音声認識方法。  3. The speech recognition method for speech dialogue according to claim 1 or 2, wherein the speech recognition dictionary used for speech recognition is obtained by text analysis and word decomposition of a speaker's speech by a voice spot. A scene that is a topic is specified using a speech database created for each scene by associating the scene words with each other in advance from speech data, and one or more speech recognition dictionaries corresponding to the scene are identified. A speech recognition method for spoken dialogue characterized by being used by selecting from a dictionary.
4 .請求の範囲 1〜 3のいずれか 1項に記載の音声対話のための音声認識方法 において、 4. A speech recognition method for speech dialogue according to any one of claims 1 to 3. At
音声認識に使用する音声認識辞書は、キャッシュメモリに記録して使用する と共に、認識すべき音声データが使用中の音声認識辞書にシーン単語として含 まれていない場合又は新たに特定されたシーンが使用中の音声認識辞書と別 のシーンのものである場合には該当音声データをシーン単語として含む他の 音声認識辞書又は新たに特定されたシーンに対応する音声認識辞書と入れ替 えて使用するようにされていることを特徴とする音声対話のための音声認識 方法。  The voice recognition dictionary used for voice recognition is recorded and used in the cache memory, and if the voice data to be recognized is not included as a scene word in the voice recognition dictionary being used, or a newly specified scene is used. In the case of a scene different from that of the middle speech recognition dictionary, the speech recognition dictionary is replaced with another speech recognition dictionary containing the relevant speech data as a scene word or a speech recognition dictionary corresponding to a newly specified scene. Speech recognition method for spoken dialogue characterized by:
5 -請求の範囲 1から 4のいずれか 1項に記載の音声会話のための音声認識方 法において、  5-The speech recognition method for speech conversation according to any one of claims 1 to 4, wherein
前記対話シーケンスは、発話者に対して最初の発声を促すための問いかけを 行うと共に、発話者の音声を認識することにより得られた単語に基づいて予め 定められた表現 ·言い回しに従って次に問いかけるべき応答文を生成し、 該応 答文を音声合成して前記発話者に対して問いかけることにより前記発話者に 対して主導的に会話を進行させて音声認識を行うことを特徴とする音声会話 のための音声認識方法。  In the dialogue sequence, the speaker should be asked to prompt the first utterance, and the next question should be asked in accordance with a predetermined expression and wording based on the word obtained by recognizing the voice of the speaker. A voice conversation characterized by generating a response sentence, voice-synthesizing the response sentence, and asking the speaker to perform a speech initiative with respect to the speaker to perform voice recognition. Speech recognition method for.
6 . 発話者の音声を認識処理し、 得られた音声データに基づいて応答文を作成 してそれを音声合成することにより対話を行う音声対話のための音声認識シ ステムであって、  6. A speech recognition system for speech dialogue in which a speaker's speech is recognized, a response sentence is created based on the obtained speech data, and the speech is synthesized by speech synthesis.
話題となるシーンに登場する所定の単語をシーン単語として集めてシーン ごとに作成された一又は二以上の音声認識辞書を記録するメモリや記録装置 等のストレ一ジと、  A storage such as a memory or a recording device for collecting predetermined words appearing in a topic scene as scene words and recording one or more speech recognition dictionaries created for each scene;
発話者の音声を入力する前記音声入力部と、  Said voice input unit for inputting the voice of the speaker,
入力された発話者の音声をワードスポッ トにより文章解析 ·単語分解して得 られた音声データを一又は二以上の前記音声認識辞書を用いて音声認識を行 う手段と、  Means for performing sentence analysis of the input speaker's voice using a word spot, and performing voice recognition on voice data obtained by word decomposition using one or more of the voice recognition dictionaries;
所定の時間内にその認識が行われた場合には該認識結果から予め定められ た表現 ·言い回しに従って文章を生成する対話シーケンスに基づいて応答文を 作成し、所定時間内に認識が行われなかった場合には発話者に再入力を促す聞 き返し文を作成する手段と、  If the recognition is performed within a predetermined time, a response sentence is created based on a dialogue sequence that generates a sentence according to a predetermined expression / phrase from the recognition result, and the recognition is not performed within the predetermined time. Means to create a response sentence that prompts the speaker to re-enter if
作成された応答文又は聞き返し文を音声合成する手段と、 を含み構成された音声対話のための音声認識システム。 Means for speech-synthesizing the prepared response sentence or the reflected sentence, A speech recognition system for spoken dialogue comprising:
7 . 請求の範囲 6に記載の音声対話のための音声認識システムにおいて、 音声認識に使用する音声認識辞書は、発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた前記音声データと、 一又は二以上の前記音声 認識辞書に含まれる前記シーン単語とを対比し、前記音声データに対応するシ7. The speech recognition system for speech dialogue according to claim 6, wherein the speech recognition dictionary used for speech recognition is the speech data obtained by text analysis and word decomposition of a speaker's speech by a voice spot. And one or more of the scene words included in the speech recognition dictionary, and a scene corresponding to the speech data is compared.
—ン単語を少なく とも一つ以上含む所定の音声認識辞書を選択して使用する ようにされていることを特徴とする音声対話のための音声認識システム。 A voice recognition system for voice dialogue, wherein a predetermined voice recognition dictionary containing at least one or more words is selected and used.
8 .請求の範囲 6又は 7に記載の音声対話のための音声認識システムにおいて、 音声認識に使用する音声認識辞書は、発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた前記音声データから予め前記シーン単語同士 を関連付けて各シーンごとに作成された音声データベースを用いて話題とな つているシーンを特定し、当該シーンに対応する音声認識辞書を一又は二以上 の前記音声認識辞書から選択して使用するようにされていることを特徴とす る音声対話のための音声認識システム。  8. The speech recognition system for speech dialogue according to claim 6 or 7, wherein the speech recognition dictionary used for speech recognition is obtained by text analysis and word decomposition of a speaker's voice using a voice spot. A scene that is a topic is specified using a speech database created for each scene by associating the scene words with each other in advance from speech data, and one or more speech recognition dictionaries corresponding to the scene are identified. A speech recognition system for speech dialogue characterized by being selected from a dictionary for use.
9 .請求の範囲 6〜 9のいずれか 1項に記載の音声対話のための音声認識方法 において、  9. The speech recognition method for speech dialogue according to any one of claims 6 to 9, wherein
音声認識に使用する音声認識辞書は、キャッシュメモリに記録して使用する と共に、認識すべき音声データが使用中の音声認識辞書にシーン単語として含 まれていない場合又は新たに特定されたシーンが使用中の音声認識辞書と別 のシーンのものである場合には該当音声デ一夕をシーン単語として含む他の 音声認識辞書又は新たに特定されたシーンに対応する音声認識辞書と入れ替 えて使用するようにされていることを特徴とする音声対話のための音声認識 方法。  The voice recognition dictionary used for voice recognition is recorded and used in the cache memory, and if the voice data to be recognized is not included as a scene word in the voice recognition dictionary being used, or a newly specified scene is used. If it is from a different scene from the middle speech recognition dictionary, replace it with another speech recognition dictionary that includes the relevant speech data as a scene word or a speech recognition dictionary corresponding to a newly specified scene. A speech recognition method for speech dialogue, characterized in that
1 0 .請求の範囲 6から 1 0のいずれか 1項に記載の音声会話のための音声認 識システムにおいて、  10. The speech recognition system for speech conversation according to any one of claims 6 to 10, wherein:
前記対話シーケンスは、発話者に対して最初の発声を促すための問いかけを 行うと共に、発話者の音声を認識することにより得られた単語に基づいて予め 定められた表現 ·言い回しに従って次に問いかけるべき応答文を生成し、 該応 答文を音声合成して前記発話者に対して問いかけることにより前記発話者に 対して主導的に会話を進行させて音声認識を行うことを特徴とする音声会話 のための音声認識システム。 In the dialogue sequence, the speaker should be asked to prompt the first utterance, and the next question should be asked in accordance with a predetermined expression and wording based on the word obtained by recognizing the voice of the speaker. A voice conversation characterized by generating a response sentence, voice-synthesizing the response sentence, and asking the speaker to perform a speech initiative with respect to the speaker to perform voice recognition. Speech recognition system for.
1 1 . コンビユー夕に、 発話者の音声を認識処理し、 得られた音声データに基 づいて応答文を作成してそれを音声合成することにより対話を行う音声対話 のための音声認識方法を実行させる音声会話のための音声認識プログラムで あって、 1 1. A speech recognition method for speech dialogue in which the speech of the speaker is recognized and processed in the evening of the combination, a response sentence is created based on the obtained speech data, and the speech is synthesized by speech synthesis. A voice recognition program for voice conversation to be executed,
該プログラムはコンビュ一夕を、音声入力部から入力された発話者の音声を ヮードスポッ トにより文章解析 ·単語分解して得られた音声データを話題とな るシーンに登場する所定の単語をシーン単語として集めてシーンごとに作成 されメモリや記録装置等のス トレージに記録された一又は二以上の音声認識 辞書を用いて音声認識を行い、所定の時間内にその認識が行われた場合には該 認識結果から予め定められた表現 '言い回しに従って文章を生成する対話シー ケンスに基づいて応答文を作成し、所定時間内に認識が行われなかった場合に は発話者に再入力を促す聞き返し文を作成し、該応答文又は聞き返し文を音声 合成するように実行させる音声対話のための音声認識プログラム。  The program analyzes the speech of the speaker input from the voice input unit using a word spot and analyzes the speech of the speaker input from the voice input unit. Speech recognition is performed using one or more speech recognition dictionaries that are collected for each scene and recorded in storage such as a memory or a recording device, and if the recognition is performed within a predetermined time, A response sentence is created based on a dialogue sequence that generates a sentence in accordance with a predetermined expression 'phrase from the recognition result, and a return sentence prompting the speaker to re-input if the recognition is not performed within a predetermined time. And a speech recognition program for speech dialogue that is executed to synthesize the response sentence or the reflected sentence.
1 2 .請求の範囲 1 1に記載の音声対話のための音声認識プログラムにおいて、 音声認識に使用する音声認識辞書は、発話者の音声をヮードスポッ トにより 文章解析 ·単語分解して得られた前記音声データと、 一又は二以上の前記音声 認識辞書に含まれる前記シーン単語とを対比し、前記音声データに対応するシ ーン単語を少なく とも一つ以上含む所定の音声認識辞書を選択して使用する ように実行させることを特徴とする音声対話のための音声認識プログラム。 12.The speech recognition program for speech dialogue according to claim 11, wherein the speech recognition dictionary used for speech recognition is obtained by analyzing a speech of a speaker by a text spot and word decomposition. Comparing the voice data with the scene words included in one or more of the voice recognition dictionaries, selecting a predetermined voice recognition dictionary including at least one or more scene words corresponding to the voice data; A speech recognition program for spoken dialogue characterized by being executed as used.
1 3 .請求の範囲 1 0又は 1 2に記載の音声対話のための音声認識プログラム において、 13. A speech recognition program for speech dialogue according to claim 10 or claim 12,
音声認識に使用する音声認識辞書は、発話者の音声をワードスポッ トにより 文章解析 ·単語分解して得られた前記音声データから予め前記シーン単語同士 を関連付けて各シーンごとに作成された音声データベースを用いて話題とな つているシーンを特定し、当該シーンに対応する音声認識辞書を一又は二以上 の前記音声認識辞書から選択して使用するように実行させることを特徴とす る音声対話のための音声認識プログラム。  The speech recognition dictionary used for speech recognition is a speech database created for each scene by associating the scene words with each other in advance from the speech data obtained by analyzing the speech of the speaker using word spots and word decomposition. A speech recognition dictionary corresponding to the scene is identified by using the speech recognition dictionary, and the selected speech recognition dictionary is selected from one or more of the speech recognition dictionaries to be used. Speech recognition program for.
1 4 .請求の範囲 1 1〜 1 3のいずれか 1項に記載の音声対話のための音声認 識プログラムにおいて、  14.The speech recognition program for speech dialogue according to any one of claims 11 to 13,
認識すべき音声データがキヤッシュメモリに記録された使用中の音声認識 辞書にシーン単語として含まれていない場合又は新たに特定されたシーンが 使用中の音声認識辞書と別のシーンのものである場合には該当音声データを シーン単語として含む他の音声認識辞書又は新たに特定されたシーンに対応 する音声認識辞書と入れ替えて使用するように実行させることを特徴とする 音声対話のための音声認識プログラム。 If the voice data to be recognized is not included as a scene word in the voice recognition dictionary in use stored in the cache memory, or if a newly specified scene is If the scene is different from the speech recognition dictionary in use, replace it with another speech recognition dictionary that includes the relevant speech data as a scene word or a speech recognition dictionary corresponding to a newly specified scene. A speech recognition program for a spoken dialogue to be executed.
1 5 .請求の範囲 1から 4のいずれか 1項に記載の音声会話のための音声認識 プログラムにおいて、  15. The speech recognition program for speech conversation according to any one of claims 1 to 4, wherein
前記対話シーケンスを、発話者に対して最初の発声を促すための問いかけを 行うと共に、発話者の音声を認識することにより得られた単語に基づいて予め 定められた表琅 ·言い回しに従って次に問いかけるべき応答文を生成し、 該応 答文を音声合成して前記発話者に対して問いかけることにより前記発話者に 対して主導的に会話を進行させて音声認識を行うように実行させることを特 徴とする音声会話のための音声認識プログラム。  The dialogue sequence is interrogated to prompt the speaker to make an initial utterance, and the next question is asked in accordance with a pre-determined language and wording based on words obtained by recognizing the speaker's voice. It is characterized in that a response sentence to be generated is generated, the response sentence is voice-synthesized and the speaker is questioned to the speaker, so that the conversation is led in a leading manner with respect to the speaker and the speech is recognized. A voice recognition program for voice conversations.
PCT/JP2001/001165 2001-02-19 2001-02-19 Speech recognition method for speech interaction, speech recognition system and speech recognition program WO2002067244A1 (en)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2001/001165 WO2002067244A1 (en) 2001-02-19 2001-02-19 Speech recognition method for speech interaction, speech recognition system and speech recognition program
JP2002566484A JPWO2002067244A1 (en) 2001-02-19 2001-02-19 Speech recognition method, speech recognition system and speech recognition program for spoken dialogue

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2001/001165 WO2002067244A1 (en) 2001-02-19 2001-02-19 Speech recognition method for speech interaction, speech recognition system and speech recognition program

Publications (1)

Publication Number Publication Date
WO2002067244A1 true WO2002067244A1 (en) 2002-08-29

Family

ID=11737031

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2001/001165 WO2002067244A1 (en) 2001-02-19 2001-02-19 Speech recognition method for speech interaction, speech recognition system and speech recognition program

Country Status (2)

Country Link
JP (1) JPWO2002067244A1 (en)
WO (1) WO2002067244A1 (en)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267399A (en) * 2004-03-19 2005-09-29 Nec Personal Products Co Ltd Speech dictionary search system and speech dictionary search program

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59109094A (en) * 1982-12-14 1984-06-23 三菱自動車工業株式会社 Microphone input unit for voice recognition equipment
EP0543329A2 (en) * 1991-11-18 1993-05-26 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
JP2871420B2 (en) * 1993-10-04 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 Spoken dialogue system
JP2001034292A (en) * 1999-07-26 2001-02-09 Denso Corp Word string recognizing device

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS59109094A (en) * 1982-12-14 1984-06-23 三菱自動車工業株式会社 Microphone input unit for voice recognition equipment
EP0543329A2 (en) * 1991-11-18 1993-05-26 Kabushiki Kaisha Toshiba Speech dialogue system for facilitating human-computer interaction
JP2871420B2 (en) * 1993-10-04 1999-03-17 株式会社エイ・ティ・アール音声翻訳通信研究所 Spoken dialogue system
JP2001034292A (en) * 1999-07-26 2001-02-09 Denso Corp Word string recognizing device

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005267399A (en) * 2004-03-19 2005-09-29 Nec Personal Products Co Ltd Speech dictionary search system and speech dictionary search program

Also Published As

Publication number Publication date
JPWO2002067244A1 (en) 2004-06-24

Similar Documents

Publication Publication Date Title
US20230317074A1 (en) Contextual voice user interface
US20230012984A1 (en) Generation of automated message responses
US11380330B2 (en) Conversational recovery for voice user interface
US10140973B1 (en) Text-to-speech processing using previously speech processed data
US10176809B1 (en) Customized compression and decompression of audio data
US10713289B1 (en) Question answering system
US10917758B1 (en) Voice-based messaging
US6961705B2 (en) Information processing apparatus, information processing method, and storage medium
US10163436B1 (en) Training a speech processing system using spoken utterances
US11862174B2 (en) Voice command processing for locked devices
US11837225B1 (en) Multi-portion spoken command framework
US10832668B1 (en) Dynamic speech processing
JPWO2003019528A1 (en) Intonation generation method, speech synthesis device and voice server using the method
US10515637B1 (en) Dynamic speech processing
US11798559B2 (en) Voice-controlled communication requests and responses
US11715472B2 (en) Speech-processing system
JP5753769B2 (en) Voice data retrieval system and program therefor
Cooper Text-to-speech synthesis using found data for low-resource languages
US8423354B2 (en) Speech recognition dictionary creating support device, computer readable medium storing processing program, and processing method
US11551666B1 (en) Natural language processing
US11393451B1 (en) Linked content in voice user interface
US10854196B1 (en) Functional prerequisites and acknowledgments
JP2004347732A (en) Automatic language identification method and system
WO2002067244A1 (en) Speech recognition method for speech interaction, speech recognition system and speech recognition program
JPH0792987A (en) Question sentence contents constitution system

Legal Events

Date Code Title Description
ENP Entry into the national phase

Ref country code: JP

Ref document number: 2002 566484

Kind code of ref document: A

Format of ref document f/p: F

AK Designated states

Kind code of ref document: A1

Designated state(s): CN JP KR US

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): AT BE CH CY DE DK ES FI FR GB GR IE IT LU MC NL PT SE TR

121 Ep: the epo has been informed by wipo that ep was designated in this application
32PN Ep: public notification in the ep bulletin as address of the adressee cannot be established

Free format text: NOTING OF LOSS OF RIGHTS PURSUANT TO RULE 69(1) EPC

122 Ep: pct application non-entry in european phase