JPS6234200A - 韻律情報を利用した会話音声理解方法 - Google Patents
韻律情報を利用した会話音声理解方法Info
- Publication number
- JPS6234200A JPS6234200A JP60173274A JP17327485A JPS6234200A JP S6234200 A JPS6234200 A JP S6234200A JP 60173274 A JP60173274 A JP 60173274A JP 17327485 A JP17327485 A JP 17327485A JP S6234200 A JPS6234200 A JP S6234200A
- Authority
- JP
- Japan
- Prior art keywords
- conversational
- sentences
- sentence
- understanding system
- information
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
Abstract
(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。
め要約のデータは記録されません。
Description
【発明の詳細な説明】
〔発明の利用分野〕
本発明は自然に発声された会話文を理解し、理解結果に
応じた応答を行なう会話音声理解システムに係り、特に
会話文を意味的なまとまりを示す単位に分割する方式に
関する。
応じた応答を行なう会話音声理解システムに係り、特に
会話文を意味的なまとまりを示す単位に分割する方式に
関する。
従来、音声を入力手段とするシステムでは、単語音声や
朗読調に発声された連続音声を対象としていた。しかし
、朗読調ではなく自然に発声された会話文(以下、これ
を単に会話文と呼ぶ。)の場合は、思考を組立てながら
発声するため、言い間違いや省略表現などによる文法的
に整っていない文が存在するほか、複数の文が続けて入
力される。そして、これらの文は句読点で区切られてい
ない。したがって会話文の理解においては、まず、会話
文を言語処理可能にするために、意味的まとまりを示す
単位に分割する必要がある。入力音声を分割する方式に
関しては、特開昭48−30302などがあるが、これ
らは、限定単語を音韻に分割する方法や文法的に整った
朗読調の文を文節に分割する方法に関するものであり、
自然な会話文の分割については配慮されていない。
朗読調に発声された連続音声を対象としていた。しかし
、朗読調ではなく自然に発声された会話文(以下、これ
を単に会話文と呼ぶ。)の場合は、思考を組立てながら
発声するため、言い間違いや省略表現などによる文法的
に整っていない文が存在するほか、複数の文が続けて入
力される。そして、これらの文は句読点で区切られてい
ない。したがって会話文の理解においては、まず、会話
文を言語処理可能にするために、意味的まとまりを示す
単位に分割する必要がある。入力音声を分割する方式に
関しては、特開昭48−30302などがあるが、これ
らは、限定単語を音韻に分割する方法や文法的に整った
朗読調の文を文節に分割する方法に関するものであり、
自然な会話文の分割については配慮されていない。
本発明の目的は1文法的に整っていない文が存在し、か
つ複数の文が連続して入力される会話文を、意味的まと
まりをもった単位に分割することにより、理解の信頼性
が高く、かつ処理量の少ない会話音声理解システムを提
供することにある。
つ複数の文が連続して入力される会話文を、意味的まと
まりをもった単位に分割することにより、理解の信頼性
が高く、かつ処理量の少ない会話音声理解システムを提
供することにある。
かかる目的を達成するため、本発明は音声の抑揚や強勢
などの韻律情報(音声パワー、基本周波数など)を用い
、会話文を意味的まとまりに分割したことを特徴とする
。この韻律情報は、発声内容に対して合理的・自然的な
情報であり、特に抑揚は、発声内容が問いかけ調の場合
は、どこの国においても文末の声の高さを高くするとい
うように言語によらない普遍的な情報となる。
などの韻律情報(音声パワー、基本周波数など)を用い
、会話文を意味的まとまりに分割したことを特徴とする
。この韻律情報は、発声内容に対して合理的・自然的な
情報であり、特に抑揚は、発声内容が問いかけ調の場合
は、どこの国においても文末の声の高さを高くするとい
うように言語によらない普遍的な情報となる。
本発明の一実施例を第1図に示す。第1図は、キーボー
ドなどよりカナ文字で入力される記述文の理解システム
を応用した会話音声理解システムの一構成図である。記
述文理解では、形態素解析部6にカナ文字列が入力され
る。形態素解析部6は辞書メモリ7を用いて文節の検出
を行ない5文節候補を出力する。そして、構文解析部8
では構文を満足する文B候補のチェーンを検出し、意味
解析部10では、更に意味的に自然なチェーンを検出し
、最も確かなものを解として出力する。会話音声理解シ
ステムでは、入力手段が音声であるため、音声をカナ文
字に変換する必要がある。このため、音声の音韻情報や
韻律情報を求める特徴抽出部1および標準パターン5と
のマツチングにより入力音声をカナ文字に変換する音声
認識部4を設ける。
ドなどよりカナ文字で入力される記述文の理解システム
を応用した会話音声理解システムの一構成図である。記
述文理解では、形態素解析部6にカナ文字列が入力され
る。形態素解析部6は辞書メモリ7を用いて文節の検出
を行ない5文節候補を出力する。そして、構文解析部8
では構文を満足する文B候補のチェーンを検出し、意味
解析部10では、更に意味的に自然なチェーンを検出し
、最も確かなものを解として出力する。会話音声理解シ
ステムでは、入力手段が音声であるため、音声をカナ文
字に変換する必要がある。このため、音声の音韻情報や
韻律情報を求める特徴抽出部1および標準パターン5と
のマツチングにより入力音声をカナ文字に変換する音声
認識部4を設ける。
記述文理解においては、処理の対象を句点で区切られた
文としており、これに基づいた構文情報などに従がって
理解を行なっている。しかし、会話文は文法的に整って
ない文が存在し、複数の文が続けて入力されることがあ
るため、これをそのまま理解しようとすると、多くの変
形を含んだ構文情報9等を用意する必要がある。したが
って、処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割する必
要がある。一般的に会話文を意味的なまとまりに分割す
るものとしては、記述文における句点が上げられる。会
話文の句点位置に相当する箇所の特徴の1つは、息つぎ
によるポーズが生じることである。したがって、無音区
間(音声パワーが雑音レベルPθ以下の区間)の長さが
閾値Pλ(例えば300m5ec)以上をポーズとし、
これを検出することにより、句点位置の検出が可能であ
る。しかし、会話文の場合は、思考を行ないながら発声
していくため、言い違いや思い違いをした後でも長いポ
ーズが生じてしまう。
文としており、これに基づいた構文情報などに従がって
理解を行なっている。しかし、会話文は文法的に整って
ない文が存在し、複数の文が続けて入力されることがあ
るため、これをそのまま理解しようとすると、多くの変
形を含んだ構文情報9等を用意する必要がある。したが
って、処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割する必
要がある。一般的に会話文を意味的なまとまりに分割す
るものとしては、記述文における句点が上げられる。会
話文の句点位置に相当する箇所の特徴の1つは、息つぎ
によるポーズが生じることである。したがって、無音区
間(音声パワーが雑音レベルPθ以下の区間)の長さが
閾値Pλ(例えば300m5ec)以上をポーズとし、
これを検出することにより、句点位置の検出が可能であ
る。しかし、会話文の場合は、思考を行ないながら発声
していくため、言い違いや思い違いをした後でも長いポ
ーズが生じてしまう。
句点位置の特徴を表わすもう一つの韻律情報として、音
声の抑揚であるイントネーションがある。
声の抑揚であるイントネーションがある。
イントネーションは、文頭において急速に立ち上がり、
その後文末に向って緩やかに低くなっていく。そして、
文末においては、話者の最低基本周波数に近づく。しか
し、言い間違いや思い違いによりポーズが生じた箇所で
は、文末の基本周波数が高いまま終わり、ポーズ後の基
本周波数もポーズ前の基本周波数とほぼ同じ高さから始
まり、文を継続しようとする傾向にある。
その後文末に向って緩やかに低くなっていく。そして、
文末においては、話者の最低基本周波数に近づく。しか
し、言い間違いや思い違いによりポーズが生じた箇所で
は、文末の基本周波数が高いまま終わり、ポーズ後の基
本周波数もポーズ前の基本周波数とほぼ同じ高さから始
まり、文を継続しようとする傾向にある。
会話文分割部2は、以上の会話文の句点に相当する位置
の特徴を利用して、会話文を意味的まとまりに分割する
。その分割方式を第2図、第3図を用いて具体的に説明
する。第2図は、ポーズ付近の韻律情報の形状例、第3
図は本方式の流れ図を示している。
の特徴を利用して、会話文を意味的まとまりに分割する
。その分割方式を第2図、第3図を用いて具体的に説明
する。第2図は、ポーズ付近の韻律情報の形状例、第3
図は本方式の流れ図を示している。
(1) まずポーズを検出するため、無音区間が21
以上続く箇所を検出し、分割候補とする。
以上続く箇所を検出し、分割候補とする。
(2)ポーズが検出された箇所のうち、ポーズ前の音声
の基本周波数Feが話者の下限周波数以下のもののみを
候補として残し、後は文中であるとする。
の基本周波数Feが話者の下限周波数以下のもののみを
候補として残し、後は文中であるとする。
(3)更に、ポーズ後に最大値を示す基本周波数Fsと
Feの差であるΔFが閾値(例えば、男性では40〜5
0)(z)以上であわば、その位置を分割点とする。
Feの差であるΔFが閾値(例えば、男性では40〜5
0)(z)以上であわば、その位置を分割点とする。
ここで話者の下限周波数とは、現在システムを利用して
いる話者の発声可能な最低周波数に定数倍(例えば1.
1〜1.2倍)したものである。そして、この情報は、
話者情報学習部3により抽出され、話者情報としてあら
かじめ登録する。話者情報は、数十音節よりなる平叙文
(例えば挨拶文)より求める。
いる話者の発声可能な最低周波数に定数倍(例えば1.
1〜1.2倍)したものである。そして、この情報は、
話者情報学習部3により抽出され、話者情報としてあら
かじめ登録する。話者情報は、数十音節よりなる平叙文
(例えば挨拶文)より求める。
本発明によれば、文法的に整っていない文が存在し、か
つ複数の文が続けて入力する会話文を意味的まとまりを
もった単位に分割できる。このため、以降の理解処理が
簡素化され、処理量が低減できるほか、理解の信頼性を
も向上できる効果がある。
つ複数の文が続けて入力する会話文を意味的まとまりを
もった単位に分割できる。このため、以降の理解処理が
簡素化され、処理量が低減できるほか、理解の信頼性を
も向上できる効果がある。
第1図は、会話音声理解システムの一構成図。
第2図は、ポーズ付近の韻律情報を説明するための図、
第3図は本方式の流れ図である。 符号の説明 1・・・特徴抽出部、2・・・会話文分解部、3・・・
話者情報学習部
第3図は本方式の流れ図である。 符号の説明 1・・・特徴抽出部、2・・・会話文分解部、3・・・
話者情報学習部
Claims (1)
- 自然な音声による会話文を理解する会話音声理解システ
ムにおいて、複数の文が続けて入力される会話文に基づ
いて韻律情報を得る手段と、上記入力される会話文の話
者の最低基本周波数を抽出する手段とを有し、これらの
手段により上記会話文を意味的まとまりをもった単位に
分割することを特徴とする韻律情報を利用した会話音声
理解方式。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60173274A JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Applications Claiming Priority (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP60173274A JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Publications (2)
Publication Number | Publication Date |
---|---|
JPS6234200A true JPS6234200A (ja) | 1987-02-14 |
JPH032319B2 JPH032319B2 (ja) | 1991-01-14 |
Family
ID=15957406
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP60173274A Granted JPS6234200A (ja) | 1985-08-08 | 1985-08-08 | 韻律情報を利用した会話音声理解方法 |
Country Status (1)
Country | Link |
---|---|
JP (1) | JPS6234200A (ja) |
Cited By (4)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62141731U (ja) * | 1986-02-28 | 1987-09-07 | ||
JP2007032373A (ja) * | 2005-07-25 | 2007-02-08 | Ebara Corp | ポンプゲート用横軸ポンプのケーシング構造、ポンプゲート用横軸ポンプ、及びポンプゲート設備 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
WO2019087811A1 (ja) * | 2017-11-02 | 2019-05-09 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
-
1985
- 1985-08-08 JP JP60173274A patent/JPS6234200A/ja active Granted
Cited By (7)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPS62141731U (ja) * | 1986-02-28 | 1987-09-07 | ||
JP2007032373A (ja) * | 2005-07-25 | 2007-02-08 | Ebara Corp | ポンプゲート用横軸ポンプのケーシング構造、ポンプゲート用横軸ポンプ、及びポンプゲート設備 |
WO2009101837A1 (ja) * | 2008-02-13 | 2009-08-20 | Nec Corporation | 記号挿入装置および記号挿入方法 |
JP5141695B2 (ja) * | 2008-02-13 | 2013-02-13 | 日本電気株式会社 | 記号挿入装置および記号挿入方法 |
US8577679B2 (en) | 2008-02-13 | 2013-11-05 | Nec Corporation | Symbol insertion apparatus and symbol insertion method |
WO2019087811A1 (ja) * | 2017-11-02 | 2019-05-09 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
JPWO2019087811A1 (ja) * | 2017-11-02 | 2020-09-24 | ソニー株式会社 | 情報処理装置、及び情報処理方法 |
Also Published As
Publication number | Publication date |
---|---|
JPH032319B2 (ja) | 1991-01-14 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Klatt | The Klattalk text-to-speech conversion system | |
Cosi et al. | Festival speaks italian! | |
KR20030085075A (ko) | 음성-음성 변환 생성 시스템 및 방법 | |
Kayte et al. | Di-phone-based concatenative speech synthesis systems for marathi language | |
Aijun et al. | Speech corpus of Chinese discourse and the phonetic research | |
KR20180025559A (ko) | 발음 사전 학습 방법 및 장치 | |
US11817079B1 (en) | GAN-based speech synthesis model and training method | |
Bijankhan et al. | Tfarsdat-the telephone farsi speech database. | |
JPS6234200A (ja) | 韻律情報を利用した会話音声理解方法 | |
Stefan-Adrian et al. | Rule-based automatic phonetic transcription for the Romanian language | |
Abujar et al. | A comprehensive text analysis for Bengali TTS using unicode | |
Ishihara et al. | Automatic transformation of environmental sounds into sound-imitation words based on Japanese syllable structure. | |
Jeon et al. | Automatic generation of Korean pronunciation variants by multistage applications of phonological rules. | |
Repe et al. | Prosody model for marathi language TTS synthesis with unit search and selection speech database | |
JPS5837698A (ja) | 音声入力和文タイプライタにおける変換方法 | |
JPH02308194A (ja) | 外国語学習装置 | |
Ziółko et al. | Statistics of diphones and triphones presence on the word boundaries in the Polish language. Applications to ASR | |
KR100306205B1 (ko) | 발음 접속 그래프를 이용한 tts 처리 방법 및 연속 음성 인식 방법 | |
Kumar et al. | Empirical Study of Speech Synthesis Markup Language and Its Implementation for Punjabi Language. | |
KR0136423B1 (ko) | 발음 제어 기호의 유효성 판정을 이용한 음운 변동 처리 방법 | |
Weibin et al. | Duration Modeling For Chinese Systhesis from C-ToBI Labeled Corpus | |
Brinckmann | The Kiel corpus of read speech as a resource for speech synthesis | |
Hakoda et al. | Japanese text-to-speech synthesizer based on residual excited speech synthesis | |
FalDessai | Development of a Text to Speech System for Devanagari Konkani | |
Kirkedal | Analysis of Phonetic Transcription for Danish Automatic Speech Recognition |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
EXPY | Cancellation because of completion of term |