JPS6234200A

JPS6234200A - 韻律情報を利用した会話音声理解方法

Info

Publication number: JPS6234200A
Application number: JP60173274A
Authority: JP
Inventors: 栄二大平; 小松　昭男
Original assignee: Agency of Industrial Science and Technology
Current assignee: National Institute of Advanced Industrial Science and Technology AIST
Priority date: 1985-08-08
Filing date: 1985-08-08
Publication date: 1987-02-14
Also published as: JPH032319B2

Abstract

(57)【要約】本公報は電子出願前の出願データであるた
め要約のデータは記録されません。

Description

【発明の詳細な説明】〔発明の利用分野〕本発明は自然に発声された会話文を理解し、理解結果に
応じた応答を行なう会話音声理解システムに係り、特に
会話文を意味的なまとまりを示す単位に分割する方式に
関する。

〔発明の背景〕

従来、音声を入力手段とするシステムでは、単語音声や
朗読調に発声された連続音声を対象としていた。しかし
、朗読調ではなく自然に発声された会話文（以下、これ
を単に会話文と呼ぶ。）の場合は、思考を組立てながら
発声するため、言い間違いや省略表現などによる文法的
に整っていない文が存在するほか、複数の文が続けて入
力される。そして、これらの文は句読点で区切られてい
ない。したがって会話文の理解においては、まず、会話
文を言語処理可能にするために、意味的まとまりを示す
単位に分割する必要がある。入力音声を分割する方式に
関しては、特開昭４８−３０３０２などがあるが、これ
らは、限定単語を音韻に分割する方法や文法的に整った
朗読調の文を文節に分割する方法に関するものであり、
自然な会話文の分割については配慮されていない。

〔発明の目的〕

本発明の目的は１文法的に整っていない文が存在し、か
つ複数の文が連続して入力される会話文を、意味的まと
まりをもった単位に分割することにより、理解の信頼性
が高く、かつ処理量の少ない会話音声理解システムを提
供することにある。

〔発明の概要〕

かかる目的を達成するため、本発明は音声の抑揚や強勢
などの韻律情報（音声パワー、基本周波数など）を用い
、会話文を意味的まとまりに分割したことを特徴とする
。この韻律情報は、発声内容に対して合理的・自然的な
情報であり、特に抑揚は、発声内容が問いかけ調の場合
は、どこの国においても文末の声の高さを高くするとい
うように言語によらない普遍的な情報となる。

〔発明の実施例〕

本発明の一実施例を第１図に示す。第１図は、キーボー
ドなどよりカナ文字で入力される記述文の理解システム
を応用した会話音声理解システムの一構成図である。記
述文理解では、形態素解析部６にカナ文字列が入力され
る。形態素解析部６は辞書メモリ７を用いて文節の検出
を行ない５文節候補を出力する。そして、構文解析部８
では構文を満足する文Ｂ候補のチェーンを検出し、意味
解析部１０では、更に意味的に自然なチェーンを検出し
、最も確かなものを解として出力する。会話音声理解シ
ステムでは、入力手段が音声であるため、音声をカナ文
字に変換する必要がある。このため、音声の音韻情報や
韻律情報を求める特徴抽出部１および標準パターン５と
のマツチングにより入力音声をカナ文字に変換する音声
認識部４を設ける。

記述文理解においては、処理の対象を句点で区切られた
文としており、これに基づいた構文情報などに従がって
理解を行なっている。しかし、会話文は文法的に整って
ない文が存在し、複数の文が続けて入力されることがあ
るため、これをそのまま理解しようとすると、多くの変
形を含んだ構文情報９等を用意する必要がある。したが
って、処理量が増大し、理解の信頼性の低下が生じてし
まう。このため会話文を意味的なまとまりに分割する必
要がある。一般的に会話文を意味的なまとまりに分割す
るものとしては、記述文における句点が上げられる。会
話文の句点位置に相当する箇所の特徴の１つは、息つぎ
によるポーズが生じることである。したがって、無音区
間（音声パワーが雑音レベルＰθ以下の区間）の長さが
閾値Ｐλ（例えば３００ｍ５ｅｃ）以上をポーズとし、
これを検出することにより、句点位置の検出が可能であ
る。しかし、会話文の場合は、思考を行ないながら発声
していくため、言い違いや思い違いをした後でも長いポ
ーズが生じてしまう。

句点位置の特徴を表わすもう一つの韻律情報として、音
声の抑揚であるイントネーションがある。

イントネーションは、文頭において急速に立ち上がり、
その後文末に向って緩やかに低くなっていく。そして、
文末においては、話者の最低基本周波数に近づく。しか
し、言い間違いや思い違いによりポーズが生じた箇所で
は、文末の基本周波数が高いまま終わり、ポーズ後の基
本周波数もポーズ前の基本周波数とほぼ同じ高さから始
まり、文を継続しようとする傾向にある。

会話文分割部２は、以上の会話文の句点に相当する位置
の特徴を利用して、会話文を意味的まとまりに分割する
。その分割方式を第２図、第３図を用いて具体的に説明
する。第２図は、ポーズ付近の韻律情報の形状例、第３
図は本方式の流れ図を示している。

（１）　　まずポーズを検出するため、無音区間が２１
以上続く箇所を検出し、分割候補とする。

（２）ポーズが検出された箇所のうち、ポーズ前の音声
の基本周波数Ｆｅが話者の下限周波数以下のもののみを
候補として残し、後は文中であるとする。

（３）更に、ポーズ後に最大値を示す基本周波数Ｆｓと
Ｆｅの差であるΔＦが閾値（例えば、男性では４０〜５
０）（ｚ）以上であわば、その位置を分割点とする。

ここで話者の下限周波数とは、現在システムを利用して
いる話者の発声可能な最低周波数に定数倍（例えば１．
１〜１．２倍）したものである。そして、この情報は、
話者情報学習部３により抽出され、話者情報としてあら
かじめ登録する。話者情報は、数十音節よりなる平叙文
（例えば挨拶文）より求める。

〔発明の効果〕

本発明によれば、文法的に整っていない文が存在し、か
つ複数の文が続けて入力する会話文を意味的まとまりを
もった単位に分割できる。このため、以降の理解処理が
簡素化され、処理量が低減できるほか、理解の信頼性を
も向上できる効果がある。

【図面の簡単な説明】

第１図は、会話音声理解システムの一構成図。第２図は、ポーズ付近の韻律情報を説明するための図、
第３図は本方式の流れ図である。符号の説明１・・・特徴抽出部、２・・・会話文分解部、３・・・
話者情報学習部

Claims

【特許請求の範囲】

自然な音声による会話文を理解する会話音声理解システ
ムにおいて、複数の文が続けて入力される会話文に基づ
いて韻律情報を得る手段と、上記入力される会話文の話
者の最低基本周波数を抽出する手段とを有し、これらの
手段により上記会話文を意味的まとまりをもった単位に
分割することを特徴とする韻律情報を利用した会話音声
理解方式。