WO2009104332A1

WO2009104332A1 - 発話分割システム、発話分割方法および発話分割プログラム

Info

Publication number: WO2009104332A1
Application number: PCT/JP2008/072851
Authority: WO
Inventors: 長友　健太郎
Original assignee: 日本電気株式会社
Priority date: 2008-02-19
Filing date: 2008-12-16
Publication date: 2009-08-27
Also published as: JP5387416B2; JPWO2009104332A1

Abstract

　時間的にオーバーラップする発話が起こり得るような対話音声において、各発話の関連性がより把握しやすいように、発話を適切な位置で分割するため、二人以上の話者による発話を入力とし、それぞれの発話をさらに分割する発話分割手段１２０を備える。ある発話に対して他の発話がオーバーラップするように発話されたなら、そのオーバーラップする発話が発せられた時点が当該発話における一つの意味的な切れ目になっていると考えられる。このため、発話分割手段１２０は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いる。

Description

発話分割システム、発話分割方法および発話分割プログラム

　本発明は、発話分割システム、発話分割方法および発話分割用プログラムに関し、特に、二人以上の話者による対話音声を入力とし、ある話者が発した発話について、他の話者によってその発話と時間的にオーバーラップするような発話が為された場合であっても、対話の流れが読み取りやすいように当該発話を適切に分割することを特徴とする発話分割システム、発話分割方法および発話分割プログラムに関する。

　音声認識技術は、これまで主に話者が一名である場合を想定して研究、開発が進められてきた。

　近年、音声認識技術を対話音声へ適用した対話音声認識システムがいくつか登場してきている。これらは、基本的には一名の話者に対して行っていた処理を、対話に参加する個々の話者ごとに施すだけのものが多い。

　今日の一般的な音声認識技術において、処理の最小単位は「発話」である。音声認識システムは、入力された音声信号を発話ごとに分割し、各発話について音声認識結果を（主にテキストとして）出力し、その結果を順に画面や記憶装置等へ出力する。

　ここで発話とは、ある程度の長さを持った音声の塊を指す。直感的には、一発話はほぼ一つの文（またはそれに準ずる発話内容の意味的な単位）に相当する。

　一般的な音声認識技術では、入力音声信号のうち、長い無音区間を含まない音声区間を発話として切り出すことで発話単位を切り出す。これは、比較的短い文であれば、ほぼ一つの発話に収める（その文の内容を音声として発声し切る）ことができるという知見に基づく。長い文の場合は、複数の発話に分かれることも多いが、これはそのような内容の発話を行う場合には息継ぎをすることがあるためである。

　発話を検出するアルゴリズムを記載した文献として、非特許文献１がある。非特許文献１では、ある一定時間内において、音声の振幅レベルが指定値以上の振幅の零交差数が一定数以上になれば音声区間開始（発話開始）、同数が一定値以下になれば発声終了（発話終了）とみなす。

　一方で、通常、入力音声を発話単位に分割する処理は発話の内容を参照せずに施されるため、複数の文に相当する音声区間が一塊の発話として切り出されることもしばしば起こり得る。また、自然発話の場合では、文法的な意味での「文」という単位自体がそもそもあまり意識されないので、自ずと発話と文の対応関係も曖昧になされることが多い。

　このように、音声認識技術の処理単位である「発話」は、「文」（またはそれに準ずる発話内容の意味的な単位）を基本とするが、「文」と等価になることは保証されていない、という性質を持つ。

　このような従来の音声認識システムを対話音声に適用する場合、各話者の音声それぞれについて発話への分割が行われ、その各々について音声認識処理を施すことになる。

　従来の対話音声認識システムの一例が、特許文献１に記載されている。この従来の対話音声認識システムは、複数話者が発したそれぞれの音声から発話を切り出す発話検出手段と、切り出された発話を切り出された順に処理する音声認識手段と、その結果を順に画面に表示する出力手段から構成される。

　このような構成を有する従来の対話音声認識システムは、つぎのように動作する。

　すなわち、発話検出手段は、複数の話者が発したそれぞれの音声信号から発話を検出する。検出された発話は、検出された順に（つまり発話開始時刻の順に）音声認識手段に送られ、音声信号からテキスト等の認識結果に変換される。最終的に認識結果は出力手段に送られ、音声認識手段が処理した順に（つまり発話検出順に）画面等に表示される。

　この方式は、会議における音声対話のように、ある時点における主たる発話者同士の発話内容が互いに独立している場合には問題なく動作する。

　例えば、統制の取れた会議の場合には、ほとんどすべての時刻においてたかだか一名のみが発話を行う。参加者は、アイコンタクトや挙手等で自ら発話権を主張するか、あるいは他の参加者の催促によって発話権の取得を促され、最終的に議長の許可をもって発話権の移譲を受けたのち、初めて発話が許される。例外は発話権の取得を主張する為の発話であるが、これも通常は現に発話権を持つ話者の発話を妨害しないことが求められる。このようなスタイルの会議としては、国会や地方議会などのフォーマルな会議が挙げられる。

　このような対話では、ある話者による発話と別の話者による発話とは必ず時間的にオーバーラップしない。従って、認識結果テキストを、発話の現れた順にただ出力するだけの特許文献１のようなシステムであっても、最終的に出力された対話全体の認識結果は、ある程度理解しやすいものとなる。

　しかしながら、よりインフォーマルな会議や、あるいは通常の日常会話、電話対話などでは、複数話者による発話のオーバーラップが頻繁に生じる。

　特に電話対話（電話越しの音声対話）ではこのオーバーラップが顕著に現れる。これは、アイコンタクト等の非音声コミュニケーション手段を用いることが出来ないという理由による。

　非音声コミュニケーション手段が利用できないため、電話対話での発話権のやり取りは音声発話をもって為される。この発話権要求発話を発するタイミングは、概ね相手の発話の切れ目を狙って行われると期待できるが、実際には発話の切れ目を上手く推察できない場合が頻発する。また、互いに相手の発話の切れ目であると判断して同時に発話を開始するケースも良く見受けられる。

　また、発話の中にはあいづちや確認など、必ずしも発話権を伴わないものも存在する。これらは対面会話においてはアイコンタクトやうなづきなどで代替可能なものもあるが、電話対話では音声発話で行うしかなく、発話のオーバーラップが増える一因となっている。

　フォーマルな会議における対話と、それ以外の対話でのもう一つの違いは、インフォーマルな対話では、発話権を要求する発話（例えば「議長」「よろしいですか」「すみません」）などが省略されるケースが見られるという点である。これは、非音声コミュニケーション手段によってある程度代替が可能である（例えば挙手した後、誰も反対でないと目視で確認できる場合など）というだけでなく、発話のオーバーラップが生じて改めて発話しなおすというプロトコルを用いるよりも、発話権要求と発話内容の伝達を同時に行った方が、長い目で見て対話全体の時間削減に繋がるという個々人の経験則に基づくものと考えられる。

　このように、インフォーマルな対話や電話越しの音声対話などでは、ある話者による発話と別の話者による発話とが時間的にオーバーラップすることがあり得る。このような場合、特許文献１のように、発話の現れた順に認識結果テキストを出力するだけでは、最終的に出力された対話全体の認識結果は、非常に見づらいものとなってしまう。

　以下、図１および図２を用いて、この理由を説明する。

　図１は、２名の話者が互いにあいづちや確認を交えながら交互に発話している様子を人手で書き起こしたものである。表は、対話の流れが明確になるようその内容を考慮しながら、各話者の発話を適切な時点で分割して書き起こしたものである。このように示すことで、話者AおよびBがそれぞれ互いのどの発話内容に対してあいづちや同意を示しているかが良く分かる。一方、その下に示した時系列図を見ると、このように理想的に発話を切り出した場合でも、一部の発話がオーバーラップしている様子が分かる。例えば発話番号1-4,1-5,1-6はそれぞれオーバーラップして発話されている。

　この対話音声を従来法に基づく音声認識システムに与えた場合の一例を図２に示す。図２では、従来の音声認識手段を用い、発話内容と無関係に発話の切り出し処理を行っている。その結果、図１では別個の「発話」であったものが、一つの「発話」にまとめられた例が散見される。例えば図２の発話2-1は、図１の発話1-1,1-3,1-5,1-7を合わせたものである。何故、こうなるかと言えば、前述したように一般的な音声認識技術では、入力音声信号のうち、長い無音区間を含まない音声区間を一つの発話として切り出すためである。同様に、話者Aの発話1-9,1-11はそれらの間の無音区間の長さが短いために一つの発話として切り出され、話者Bの発話1-4,1-6はそれら間の無音区間の長さが短いために一つの発話として切り出され、話者Bの発話1-8,1-10はそれらの間の無音区間の長さが短いために一つの発話として切り出される。

　ここで、時刻20:30:17.0に話者Bが発した「はい」という発話が、話者Aのどの発話内容に対するものであるかを知りたいとする。これは図１のような理想的な出力であれば自明である（直近の話者Aの発話1-1）が、図２では発話2-1のどの内容であるかは自明ではない。このケースでは、この「はい」は、話者Bが「先ほどお伺いした件」を了解したことを示すものかも知れないし、「連絡いただけてない」という状況を理解したことを示すものであるかも知れないし、あるいは話者Aの「はい」に対する単なる拍子合わせのためだけのものである可能性すら考えられる。

　また、時刻20:30:22.8からの話者Bの問い合わせ「それは、１時ごろの」に対する話者Aの回答は、図１であれば発話1-11の「いえ、～」で始まる否定文であることが一目で分かるが、図２では発話2-5のように肯定語「ええ」と否定語「いえ」が連続しており、不明瞭である。

　なお、図２では発話の順序関係に注目するために音声認識そのものは正しく行われたとして記載しているが、実際の認識結果には誤りが含まれるため、さらに対話の流れが読み取りにくいことを付記しておく。

　以上の例が示すように、インフォーマルな対話や、電話対話などの音声発話のみを用いる対話においては、複数話者による発話のオーバーラップが頻繁に生じ、これを従来手法のように長い無音区間を含まない音声区間を一つの発話として切り出す単純な音声認識手段によって処理すると、対話の流れを把握しづらくなり、読みづらい出力となってしまう。この例では対話音声認識結果の表示のみを問題として取り上げたが、同様の問題は、例えば対話内容を解析するような例（上述の「それは、１時ごろの」に対する返答の例）などにも影響する。

特許第３８５９６１２号 "Ｊｕｌｉｕｓにおける入力の無音区間・休止の扱い"［平成２０年２月２日検索］インターネット＜ＵＲＬ：http://julius.sourceforge.jp/index.php?q=doc/iwsp.html＞瀬戸口、高梨、河原,多数のセンサを用いたポスター会話の収録とその分析,情報処理学会研究報告SIG SLP 2007-SLP-67

　第１の問題点は、二人以上複数の話者が参加する音声対話において、二人以上の話者が発した発話が時間的にオーバーラップする場合、従来法のように長い無音区間を含まない音声区間を一つの発話として切り出す素朴な方法に基づく対話音声認識システムの出力は、対話における各発話の関連性が把握しづらくなり、ひいては、音声対話全体の認識結果の読解や自然言語処理的分析が困難に成る、という点である。

［発明の目的］
　本発明の目的は、各発話の関連性がより把握しやすい形態に容易に出力を整形できるよう、発話を適切な位置で分割することにある。

　本発明の発話分割システムは、二人以上の話者による発話を入力とし、それぞれの発話をさらに分割する発話分割手段を備える。前記発話分割手段は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いる。

　このような構成を採用し、ある発話の分割を試みる際、その発話と時間的にオーバーラップする他の発話の情報を用いて、当該発話の分割位置を決定し、分割することによって、本発明の目的を達成することができる。

　第１の効果は、時間的にオーバーラップする発話が起こり得るような対話音声においても、それぞれの発話を、音声対話中の各発話の関連性がより把握しやすい適切な位置でさらに分割することができることである。

　その理由は、対話に参加する各話者は、原則として他者の発話をできるだけ遮らないように、遮るとしてもできるだけ対話の流れを混乱させないように発話する傾向があるため、ある発話に対して他の発話がオーバーラップするように発話されたなら、そのオーバーラップする発話が発せられた時点が当該発話における一つの意味的な切れ目になっていると考えられるためである。

本発明の効果を説明するために示した、二人の話者による対話の例を示す図である。本発明の効果を説明するために示した、図１の対話を従来法を用いて音声認識した認識結果の出力例を示す図である。本発明の第１の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態の構成を示すブロック図である。本発明の第２の実施の形態における発話分割手段の構成を示すブロック図である。本発明の第３の実施の形態の構成を示すブロック図である。本発明の第４の実施の形態の構成を示すブロック図である。本発明の実施例の構成を示すブロック図である。

符号の説明

１１０…発話情報バッファリング手段
１２０、１２０Ａ…発話分割手段
１２１…発話ブロック化手段
１２２…分割点尤度保持・更新手段
１２３…分割点尤度特徴量抽出手段
１２４…分割点決定手段
２１０…発話検出手段
２２０…発話ブロック化手段
２３０…発話バッファリング手段
２４０…分割点尤度特徴量抽出手段
２５０…分割点尤度更新手段
２６０…分割点決定手段
３１０…発話検出手段
３２０…発話ブロック化手段
３３０…音声認識手段
３４０…発話バッファリング手段
３５０…分割点尤度特徴量抽出手段
３６０…分割点尤度更新手段
３７０…分割点決定手段
４１０…音声入力デバイス
４２０…発話検出モジュール
４３０…音声認識モジュール
４４０…発話情報バッファ
４５０…単語アレイバッファ
４６０…分割点尤度更新モジュール
４７０…認識結果分割モジュール
４８０…認識結果整列モジュール
４９０…表示装置

　次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。

　図３を参照すると、本発明の第１の実施の形態は、発話情報バッファリング手段１１０と、発話分割手段１２０とから構成されている。これらの手段はそれぞれ概略次のように動作する。

　発話情報バッファリング手段１１０は、発話およびその発話に関する情報（発話情報）を受け取り、一時的に保持する。ここで発話情報とは、例えば発話の開始・終了時刻などを含む。

　発話分割手段１２０は、発話情報バッファリング手段１１０から未処理の発話を一つ取り出し、その発話に対して分割処理を試みる。このとき、その発話の発話情報を参照し、この発話とオーバーラップする発話の発話情報を発話情報バッファリング手段１１０から取り出して利用する。

　次に、図３を参照しつつ本実施の形態の全体の動作について詳しく説明する。

　まず、処理対象となる発話データが、発話情報とあわせて発話情報バッファリング手段１１０に入力される。

　次に、発話分割手段１２０は、発話情報バッファリング手段１１０から、まだ発話分割処理が行われておらず、かつ発話開始時刻がもっとも早い発話を一つ選び出し、処理対象発話とする。

　さらに、発話分割手段１２０は、発話情報バッファリング手段１１０に蓄積された各発話の発話情報を参照し、処理対象発話と時間的にオーバーラップする発話を見つけ出す。

　ここで、処理対象発話とオーバーラップする発話が一つもなければ、発話分割手段１２０は処理対象発話の分割に失敗したとして処理対象発話をそのまま出力し、一方、処理対象発話とオーバーラップする発話が一つ以上あった場合、それらオーバーラップ発話の発話情報を用いて、処理対象発話を分割する。具体的には、オーバーラップする各発話の開始時刻で、処理対象発話を分割する。

　すべてのオーバーラップする発話を評価した時点で、処理対象発話の分割が完了する。発話分割手段１２０は、処理対象発話の分割結果を時刻順に出力する。

　以上の処理を、発話情報バッファリング手段１１０に未処理の発話がなくなるまで繰り返す。

　次に、本実施の形態の効果について説明する。

　本実施の形態では、分割処理の対象となる発話を発話情報バッファリング手段１１０に蓄積することで、ある発話に対して時間的にオーバーラップする他の発話を確実に発見することができる。

　なお、本実施の形態は、既に与えられた発話を、バッチ的に処理して発話分割を試みるのに適した形態である。

　すなわち、予め何らかの方法で発話に分割されていた音声が蓄積されており、これらを一度に与えることで、それら一つ一つを適切に再分割するような用途に向く。

　本実施の形態を、非バッチ的なオンライン処理で用いる場合は、適当な遅延時間を定め、その遅延時間ごとに発話情報バッファリング手段１１０に発話をバッファリングする。ただしこの場合、ある発話に対してオーバーラップする発話が実際には存在したとしても、その発話の検出確定が遅延時間内に行われなかった場合、そのオーバーラップ発話を考慮せずに分割することとなり、若干の分割精度の低下が起こり得る。

　次に、本発明の第２の実施の形態について図面を参照して詳細に説明する。

　図４Ａを参照すると、本発明の第２の実施の形態は、図３に示した第１の実施の形態と比較して、発話分割手段１２０の代わりに発話分割手段１２０Ａを備えている点で相違する。

　図４Ｂを参照すると、本発明の第２の実施の形態における発話分割手段１２０Ａは、発話ブロック化手段１２１と、分割点尤度保持・更新手段１２２と、分割点尤度特徴量抽出手段１２３と、分割点決定手段１２４を含む。これらの手段はそれぞれ概略つぎのように動作する。

　発話ブロック化手段１２１は、入力された分割処理対象発話を、後続の処理に適したブロックに分割する。

　分割点尤度保持・更新手段１２２は、処理対象発話の各ブロックについて、各ブロックが、処理対象発話の分割点となりうる尤度（分割点尤度）を保持し、また、更新する。

　分割点尤度特徴量抽出手段１２３は、処理対象発話と時間的にオーバーラップする発話を解析し、処理対象発話の各ブロックの分割点尤度を更新するために用いられる分割点尤度特徴量を抽出する。

　分割点決定手段１２４は、分割点尤度保持・更新手段１２２に保持される処理対象発話の各ブロックの分割点尤度を評価し、最終的に採用する分割点を決定し、処理対象発話をその分割点で分割して出力する。

　次に、図４Ａおよび図４Ｂを参照して本実施の形態の全体の動作について詳細に説明する。

　まず、第１の実施の形態と同様に、処理対象となる発話データが、発話情報とあわせて発話情報バッファリング手段１１０に入力される。次に、発話分割手段１２０Ａは、発話情報バッファリング手段１１０から、まだ発話分割処理が行われておらず、かつ発話開始時刻がもっとも早い発話を一つ選び出し、処理対象発話とする。そして、まず、新たな処理対象発話が、その発話の発話情報とともに、発話ブロック化手段１２１に入力される。

　発話ブロック化手段１２１は、入力された処理対象発話を定められた方法で分割し、ブロック化する。これは、例えば１０ミリ秒単位で等分する、などの方法で行われる。

　次に、分割点尤度保持・更新手段１２２は発話ブロック化手段１２１が出力した処理対象発話の各ブロックについて、分割点尤度はゼロである（分割点ではない）として初期化する。

　ここで、発話情報バッファリング手段１１０から、処理対象発話と時間的にオーバーラップする発話の発話情報が、分割点尤度特徴量抽出手段１２３に逐次入力される。すると、分割点尤度特徴量抽出手段１２３は、定められたアルゴリズムに従ってオーバーラップ発話を解析し、分割点尤度特徴量を得る。具体的には、分割点尤度特徴量として、オーバーラップ発話の開始時刻、終了時刻、発話継続時間長、オーバーラップ時間などが抽出される。

　こうして得られた分割点尤度特徴量は、順次、分割点尤度保持・更新手段１２２に入力される。分割点尤度保持・更新手段１２２はこれらの特徴量を用いて処理対象発話の各ブロックに対する分割点尤度を、定められたアルゴリズムに従って更新する。

　例えば、オーバーラップする発話の開始時刻に相当するブロックやその前後のブロックについては分割点尤度が高くなるよう更新する。

　その一方で、オーバーラップ発話の継続時間長が非常に長い場合や、処理対象発話とオーバーラップ発話のオーバーラップ時間が大きい場合には、開始時刻相当ブロックへの分割点尤度の更新は控えめに行う。これは、オーバーラップ発話の話者が、処理対象発話を無視して発話している可能性が高く、処理対象発話の分割点を求める基準としては用いない方が適切であるという経験則を反映したものである。

　また別の例としては、オーバーラップ発話の継続時間長が非常に短い場合、そのオーバーラップ発話はノイズなどの誤検出である可能性があるので、分割点尤度の更新は控えめに行うようにする。

　またさらに別の例として、もし発話情報としてその発話の非音声尤度が与えられているのであれば、オーバーラップ発話の開始時刻の直近で非音声尤度の高いブロックに対して特に高い分割点尤度を当てるようにしても良い。ここで、非音声尤度とは、ある音声の微少な１区間が雑音モデルにどの程度マッチしているかを示す確度を意味する。このような非音声尤度は、一般の音声認識処理において微少な音声区間毎に求められている。

　すべてのオーバーラップする発話を評価した時点で、分割点尤度保持・更新手段１２２には、処理対象発話の各ブロックに対する分割点尤度が求まっている。分割点決定手段１２４はこの情報を元に、定められたアルゴリズムを用いて最終的な分割点を決定する。例えば、予め与えられた閾値を超える分割点尤度を持つブロックを分割点とする。一つの発話に対する最大分割数に上限を設けてもよい。分割点決定手段１２４は、処理対象発話の分割結果を時間順に出力する。開始時刻が同じ場合には、終了時刻の早い順に出力する。

　なお、処理対象発話に対するオーバーラップ発話が一つも見つからなかった場合、分割点尤度保持・更新手段１２２に保持される各ブロックの分割点尤度はゼロのままである。この場合、分割点決定手段１２４は分割点が一つも見つからなかったとして、もとの処理対象発話をそのまま出力する。

　ここで、分割点決定手段１２４は、分割された処理対象発話を発話情報バッファリング手段１１０に改めて入力しても良い。この場合、これらの分割された発話は未処理扱いとし、一方、分割前の処理対象発話は発話情報バッファリング手段１１０から削除する。

　発話分割手段１２０Ａは、以上の処理を、発話情報バッファリング手段１１０に未処理の発話がなくなるまで繰り返す。

　次に、本実施の形態の効果について説明する。

　本実施の形態では、処理対象発話の分割点を求めるに際して、処理対象発話の各部における分割点尤度を判定することによって分割点を決定するように構成されている。このため、オーバーラップ発話のさまざまな情報を複雑に混交して、より精度の高い分割点推定を行うことができる。

　また、本実施の形態では、さらに、発話分割手段１２０Ａによって一度分割された発話を再び発話情報バッファリング手段１１０に登録するため、さらに精度の高い発話分割が可能となる。なぜなら、発話情報バッファリング手段１１０に登録されている各発話は潜在的にさらに分割可能であり、発話を分割すると、分割点尤度特徴量としてのオーバーラップ発話の終了時刻、発話継続時間長、オーバーラップ時間などが増えるためである。

　なお、本実施の形態も第１の実施の形態と同じく、既に与えられた発話を、バッチ的に処理して発話分割を試みるのに適した形態である。本実施の形態を、非バッチ的なオンライン処理で用いる場合は、適当な遅延時間を定め、その遅延時間ごとに発話情報バッファリング手段１１０に発話をバッファリングする。こうすることで、再分割された発話をその遅延時間だけの遅れで得ることが出来る。ただしこの場合、ある発話に対してオーバーラップする発話が実際には存在したとしても、その発話の検出確定が遅延時間内に行われなかった場合、そのオーバーラップ発話を考慮せずに分割することとなり、若干の分割精度の低下が起こり得る。

　次に、本発明の第３の実施の形態について図面を参照して詳細に説明する。

　図５を参照すると、本発明の第３の実施の形態は、発話検出手段２１０と、発話ブロック化手段２２０と、発話バッファリング手段２３０と、分割点尤度特徴量抽出手段２４０と、分割点尤度更新手段２５０と、分割点決定手段２６０とから構成されている。これらの手段はそれぞれ概略次のように動作する。

　発話検出手段２１０は、複数の話者によって同時に発された一つ以上複数の音声を入力とし、それぞれについて定められたアルゴリズムを用いて音声中の発話を検出し、その開始時刻および終了時刻を少なくとも含む、発話情報を出力する。また発話区間の音声信号も同時に出力される。

　発話を検出するアルゴリズムは既知の様々な手法を用いることが出来る。例えば前述した非特許文献１に記載された手法を用いることができる。

　発話ブロック化手段２２０は、入力された分割処理対象発話を、後続の処理に適したブロックに分割する。

　ただし、多くの場合、発話検出手段２１０は入力音声を何らかの方法でブロック化するので、このブロックをそのまま流用してもよく、その場合、発話ブロック化手段２２０は省略できる。発話検出手段２１０で見られるブロック化としては、例えばサンプリング周期ごとの時間区間への分割（これはつまり音声信号の量子化単位そのものである）や、音声信号をフーリエ変換等の信号処理に掛ける単位（一般にフレームと呼ばれる）などが挙げられる。

　発話バッファリング手段２３０は、各発話の発話情報と、発話そのものを保持する。また、第２の実施の形態において分割点尤度保持・更新手段１２２が保持していた、発話の各ブロックに対する分割点尤度情報も同時に保持する。

　分割点尤度特徴量抽出手段２４０は、第２の実施の形態における分割点尤度特徴量抽出手段１２３と基本的に同等の動作をする。

　分割点尤度更新手段２５０は、分割点尤度特徴量抽出手段２４０によって得られた特徴量を用いて、発話バッファリング手段２３０が保持する各発話の各ブロックに対する分割点尤度を更新する。

　分割点決定手段２６０は、発話バッファリング手段２３０に保持される一つまたは複数の処理対象発話の各ブロックの分割点尤度を評価し、最終的に採用する分割点を決定し、各処理対象発話をその分割点で分割して出力する。

　次に、図５を参照して本実施の形態の全体の動作について詳細に説明する。

　まず、二つ以上複数の音声信号が、発話検出手段２１０に入力される。発話検出手段２１０は、この入力音声を順次処理し、各時刻において、各音声で発話が開始されているか否かを検証する。また、既に発話の開始を検出した音声については、その発話が終了しているか否かを検証する。いずれかの音声について、発話検出手段２１０が発話の開始を検出すると、その時刻が発話バッファリング手段２３０に送られる。また同様に、発話の終了時刻も発話バッファリング手段２３０に送られる。

　発話検出手段２１０で処理された音声信号は、発話ブロック化手段２２０を通じてブロック化され、発話バッファリング手段２３０に送られる。既に述べたように、発話検出手段２１０が何らかのブロック化を行う場合、発話ブロック化手段２２０を省略しても構わない。

　発話バッファリング手段２３０は、時間軸方向および話者数について可変な、ブロック化された発話の二次元配列で構成される。

　新たなブロックが発話バッファリング手段２３０に入力されると、二次元配列の相当する時刻・話者の位置が確保される。もし当該ブロックの時刻が発話開始時刻以降かつ発話終了時刻以前であるなら、そのブロックに対する分割点尤度の初期値であるゼロが、二次元配列のその位置にセットされる。

　分割点尤度特徴量抽出手段２４０は、適当なタイミングで呼び出され、発話バッファリング手段２３０中の未処理のブロックについて、定められたアルゴリズムに従って解析し、分割点尤度特徴量を得る。さらに分割点尤度更新手段２５０がこの特徴量を元に各ブロックの分割点尤度を定められたアルゴリズムに従って更新する。以下に具体的な例の詳細を示す。

　第１の例は、オーバーラップする発話の開始時刻を特徴量として抽出するケースである。この場合、分割点尤度特徴量抽出手段２４０は、まず、発話バッファリング手段２３０が保持する各発話の開始時刻のうち、未だ処理していないものを時刻の早いものから一つ取り出す。次に、その時刻に相当する各発話のブロックについて、分割点尤度更新手段２５０が、分割点尤度を高くなるように更新する。

　第２の例は、オーバーラップする発話の開始時刻の前後の分割点尤度も更新するケースである。この場合、分割点尤度特徴量抽出手段２４０が起動するタイミングは、未処理のある発話開始時刻に対して、尤度更新を反映する範囲の終端に相当するブロックが、発話バッファリング手段２３０に登録された後になる。分割点尤度更新手段２５０は、処理対象となる開始時刻に相当する各ブロックと、その前後のブロックに対して、尤度を高めるよう更新する。

　第３の例は、オーバーラップする発話の継続時間に応じて、尤度更新の効果を制御するケースである。この場合、予めタイムアウト時間を定め、分割点尤度特徴量抽出手段２４０が起動するタイミングは、未処理のある発話開始時刻に対してこのタイムアウト時間が経過した時刻に相当するブロックが、発話バッファリング手段２３０に登録された後になる。分割点尤度特徴量抽出手段２４０は、発話バッファリング手段２３０に保持された情報から、処理対象となる開始時刻から始まる発話の継続時間長を求め、分割点尤度更新手段２５０は、当該発話開始時刻に相当する各発話のブロックについて分割点尤度を高くなるように更新するが、この際の尤度更新は、分割点尤度特徴量抽出手段２４０によって得られたオーバーラップ発話の継続時間長に応じて調整する。具体的には第２の実施の形態と同様に、オーバーラップ発話の継続時間長が非常に長い場合には、開始時刻相当ブロックへの分割点尤度の更新は控えめに行い、また、オーバーラップ発話の継続時間長が非常に短い場合には、そのオーバーラップ発話はノイズなどの誤検出である可能性があるので、分割点尤度の更新は控えめに行う。

　このほかの特徴量についても同様に、その特徴量を抽出するのに必要十分な遅延時間を確保しつつ、分割点尤度特徴量抽出手段２４０と分割点尤度更新手段２５０を用いて、各発話の各ブロックに対する分割点尤度を更新する。

　発話バッファリング手段２３０に保持されるあるブロックについて、そのブロックに対する分割点尤度更新が行われなくなったならば、分割点尤度決定手段２６０を用いてそのブロックを分割点として採用するかどうかを決定する。ただし、もし、一つの発話に対する分割数に上限を設けたり、その他の方法で分割前の発話全体に応じた処理を施すのであれば、特にいずれかの発話の終了時刻に相当するブロックに対する分割点尤度更新の完了を待たねばならない。

　なお、あるブロックに対する分割点尤度更新がどのタイミングで完了するかは、分割点尤度特徴量抽出手段２４０が要求する遅延時間と、分割点尤度更新手段２５０がその特徴量を反映させるブロックの範囲に応じて一意に決定できる。

　分割点尤度決定手段２６０における分割点の決定と分割された発話の出力については、第２の実施の形態と同様である。

　以上の説明では、便宜上、発話バッファリング手段２３０を二次元配列として表現したが、実際にはこの二次元配列の使われ方は疎である。従って、発話バッファリング手段２３０は、発話検出手段２１０で発話として検出された区間に相当するブロックのみを保持すればよい。

　この場合、分割点尤度決定手段２６０によって分割処理が完了したある発話について、その発話から分割点尤度特徴量抽出手段２４０によって得られる特徴量の影響を受ける他の発話が一つもないのであれば、その発話全体を発話バッファリング手段２３０から削除する。

　このようにして、必要最小限の記憶領域を用いて、オンラインに、本発明の原理に基づく発話分割が可能になる。

　次に、本実施の形態の効果について説明する。

　本実施の形態は、本発明による発話の分割を、最低限の遅延時間と必要最小限の記憶領域を用いて、オンラインに処理できる。従って本実施の形態は、本発明を非バッチ的なオンライン処理で用いる場合に好適な実施の形態であり、第１および第２の実施の形態がバッチ的な用途に適しているのと対称をなす。

　次に、本発明の第４の実施の形態について図面を参照して詳細に説明する。

　図６を参照すると、本発明の第４の実施の形態は、図５に示した第３の実施の形態と比較して、音声認識手段３３０をさらに備える点で相違する。

　音声認識手段３３０は、発話検出手段３１０によって切り出された発話ごとに、音声認識処理を施すことにより、単語列や単語ラティスなどの認識結果を出力する。

　その他の構成要素は第３の実施の形態とほぼ同様に動作するが、発話バッファリング手段３４０が発話情報の一つとして発話ごとの認識結果を保持する点と、分割点尤度特徴量抽出手段３５０および分割点尤度更新手段３６０が、発話の認識結果を分割点尤度特徴量として用いる点が異なる。

　次に、図６を参照して本実施の形態の全体の動作について詳細に説明するが、本実施の形態の全体の動作は第３の実施の形態とほぼ同様であるため、以下では第３の実施の形態からの差分のみを記述する。

　音声認識手段３３０を呼び出すタイミングは、音声認識手段３３０の機能的な制限によって二つのケースが考えられる。

　第１のケースは、音声認識手段３３０が、発話の終端が確定しなくても順次その時点で確定した認識結果を出力でき、かつ、発話のオーバーラップする音声の数の上限が予め定められており、その上限に応じた音声認識手段３３０を複数同時に動作させるケースである。この場合は、発話検出手段３１０が、入力されたいずれかの音声から発話の開始を検出したタイミングから音声認識手段３３０が動作し、発話が継続する限り音声認識処理も継続され、認識結果が得られると、適宜発話バッファリング手段３４０に送る。

　第２のケースは、音声認識手段３３０が、発話の終端が確定するまで音声認識結果を出力できない場合であるか、あるいは、潜在的に同時に起こり得るすべての発話に対して同時に複数の音声認識手段３３０を動作させられないか、のいずれかのケースである。この場合は、発話検出手段３１０が、入力されたいずれかの音声から発話の終端が検出されたタイミングで音声認識手段３３０を呼び出し、発話全体をまとめて音声認識して、その結果を発話バッファリング手段３４０に送る。

　いずれの場合も、分割点尤度特徴量抽出手段３５０および分割点尤度更新手段３６０の動作タイミングは若干の遅延が必要になるが、前者は、発話の一部に対する認識結果が確定するまでの時間だけの遅延となり、後者は、発話の終端が検出され、その発話全体に対する認識結果が得られるまでに掛かる時間だけの遅延となる。

　分割点尤度特徴量抽出手段３５０は、いずれかの発話に関する認識結果が得られた時点で動作する。ここで、分割点尤度特徴量抽出手段３５０は、認識結果として得られた単語またはその単語の品詞を評価し、分割点尤度更新手段３６０は、予め単語および品詞ごとに定められた分割点尤度更新量に基づき、その認識結果が現れた時刻に相当する他の発話のブロックおよびその前後のブロックについて、分割点尤度を更新する。

　例えば、「ええ」「ああ」「なるほど」「そうですね」などの、いわゆる「あいづち」を示す語彙が現れた場合、その時刻における他の発話の分割尤度は高くなる。

　次に、本実施の形態の効果について説明する。

　本実施の形態によれば、発話の分割において、その発話とオーバーラップする他の発話の語彙を参照することで、より精度の高い発話の分割を可能とする。これは、ある話者が意味的なあるまとまりの発話を完了した直後に、対話に参加する他の話者が発話する可能性の高い語彙や品詞に偏りがあるという性質を利用している。この性質は、例えば非特許文献２などで述べられている。

[実施例]
　次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。

　図７に示すように、本発明の実施例は、音声入力デバイス４１０と、発話検出モジュール４２０と、音声認識モジュール４３０と、発話情報バッファ４４０と、単語アレイバッファ４５０と、分割尤度更新モジュール４６０と、認識結果分割モジュール４７０と、認識結果整列モジュール４８０と、表示装置４９０とから構成される。これらの各モジュールは、それぞれ概略次のように動作する。

　音声入力デバイス４１０は、２チャンネルの音声信号をそれぞれ別々に入力して発話検出モジュール４２０に送る。

　発話検出モジュール４２０は２つ用意されており、それぞれ音声入力デバイス４１０の各チャネルに対応付けられている。

　それぞれの発話検出モジュール４２０は、入力された音声信号を順次解析し、発話の開始時刻および終了時刻を検出する。

　音声認識モジュール４３０も２つ用意され、それぞれ異なる発話検出モジュール４２０に対応付けられている。

　それぞれの音声認識モジュール４３０は、対応する発話検出モジュール４２０が検出した発話に対して音声認識処理を施し、その発話区間の音声に対する音声認識結果を単語列として出力する。

　発話情報バッファ４４０は、発話検出モジュール４２０が検出した発話ごとに、いずれのチャネルから入力された音声であるかと、発話開始時刻と、発話終了時刻と、その認識結果単語列を記録する。また、各発話が処理済か否かを示すフラグも同時に格納される。

　単語アレイバッファ４５０は、発話情報バッファ４４０からもっとも早い時刻に開始した未処理の発話を一つ取り出し、単語列を構成する単語と単語の間の個数だけの配列を確保する。この配列には、その単語と単語の間で発話を分割すべきかどうかを決定する分割点尤度が保持される。

　分割点尤度更新モジュール４６０は、その時点で単語アレイバッファ４５０に展開されている分割処理対象発話について、時間的にオーバーラップする発話を発話情報バッファ４４０から検索する。見つかったオーバーラップする発話について、その開始時刻と、継続時間長と、処理対象発話とのオーバーラップ時間とを求め、これらに応じて単語アレイバッファ４５０の各要素である分割点尤度を更新する。また、オーバーラップ発話の認識結果単語列から、あいづちに相当する語彙を検索し、これが見つかった場合、この単語が発話された時刻にもっとも近い、単語アレイバッファ４５０上に展開されている要素（すなわち単語と単語の間）の分割点尤度を更新する。

　認識結果分割モジュール４７０は、単語アレイバッファ４５０に展開されている発話について、その発話を構成する単語と単語の間における分割点尤度を参照し、予め定められた閾値を超えているならば、その位置を分割点として、発話を分割する。

　認識結果整列モジュール４８０は、認識結果分割モジュール４７０によって分割された発話をその開始時刻の順に並べなおす。

　表示装置４９０は、認識結果整列モジュール４８０の整列した順に、発話に相当する単語列を文字列として表示する。このとき、その発話がいずれのチャンネルから入力された音声に含まれるかをトレースし、そのチャネル情報も併せて表示してもよい。また、その発話の開始時刻も併せて表示してもよい。なお、出力手段を構成する認識結果整列モジュール４８０は、認識結果を表示装置４９０に出力したが、図示しない記憶装置または後続する別のシステムやプログラムに出力するようにしても良い。

　以上、本発明の実施の形態および実施例について説明したが、本発明は以上の実施の形態および実施例にのみ限定されず、その他各種の付加変更が可能である。また、本発明は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態および実施例における各手段として機能させる。

　この出願は、２００８年２月１９日に出願された日本出願特願２００８－０３７２００を基礎とする優先権を主張し、その開示の全てをここに取り込む。

　本発明によれば、対話音声認識システム、とりわけ、特にインフォーマルな会議音声認識システムや、電話応対音声認識システムといった用途に適用できる。

　これらの対話音声認識システムで、特に対話音声認識結果を画面表示したり、あるいは記憶装置に出力する、対話テキスト化システム、会議録自動作成システム、電話応対記録システムなどに利用できる。

　また、音声対話の内容を解析する音声対話解析システムに適用することで、解析精度を向上させることが可能である。特に、各話者の発話内容の係り受けを解析する談話構造解析システムなどで有用である。

Claims

　二人以上の話者による発話を入力とし、
　それぞれの発話をさらに分割する発話分割手段を備え、
　前記発話分割手段は、
　ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いることを特徴とする発話分割システム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項１に記載の発話分割システム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項１または２に記載の発話分割システム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項１、２または３に記載の発話分割システム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項１、２、３または４に記載の発話分割システム。
　発話を入力とし、単語列等に変換する音声認識手段をさらに備え、
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項１、２、３、４または５に記載の発話分割システム。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
　音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識手段に入力される発話を分割する請求項１乃至６の何れか１項に記載の発話分割システムとを備えたことを特徴とする複数音声認識結果表示システム。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
　音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識処理手段により認識された音声認識結果を分割する請求項１乃至６の何れか１項に記載の発話分割システムと、
　該発話分割システムの分割結果を出力する出力手段と、
を備えたことを特徴とする複数音声認識結果表示システム。
　請求項７または８に記載の複数音声認識結果表示システムを使用して、二人以上の話者による対話音声を認識する対話音声テキスト化システム。
　請求項７または８に記載の複数音声認識結果表示システムを使用して、電話応対音声を音声認識する電話応対音声テキスト化システム。
　発話分割手段が、二人以上の話者による発話を入力して、それぞれの発話をさらに分割するステップを含み、
　前記発話分割手段は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いることを特徴とする発話分割方法。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項１１に記載の発話分割方法。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項１１または１２に記載の発話分割方法。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項１１、１２または１３に記載の発話分割方法。
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項１１、１２、１３または１４に記載の発話分割方法。
　音声認識手段が、発話を入力とし、単語列等に変換するステップをさらに含み、
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項１１、１２、１３、１４または１５に記載の発話分割方法。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示方法であって、
　発話検出手段が、音声を入力とし、発話ごとに切り出すステップと、
　音声認識処理手段が、発話を入力とし、テキスト等に変換するステップと、
　請求項１乃至６の何れか１項に記載の発話分割システムが、前記音声認識手段に入力される発話を分割するステップと、
を含むことを特徴とする複数音声認識結果表示方法。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示方法であって、
　発話検出手段が、音声を入力とし、発話ごとに切り出すステップと、
　音声認識処理手段が、発話を入力とし、テキスト等に変換するステップと、
　請求項１乃至６の何れか１項に記載の発話分割システムが、前記音声認識処理手段により認識された音声認識結果を分割するステップと、
　出力手段が、前記発話分割システムの分割結果を出力するステップと、
を含むことを特徴とする複数音声認識結果表示方法。
　請求項１７または１８に記載の複数音声認識結果表示方法を使用して、二人以上の話者による対話音声を認識する対話音声テキスト化方法。
　請求項１７または１８に記載の複数音声認識結果表示方法を使用して、電話応対音声を音声認識する電話応対音声テキスト化方法。
　コンピュータを、
　二人以上の話者による発話を入力とし、それぞれの発話を、その発話にオーバーラップする他の発話の情報を用いてさらに分割する発話分割手段として機能させるための発話分割プログラム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項２１に記載の発話分割プログラム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項２１または２２に記載の発話分割プログラム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項２１、２２または２３に記載の発話分割プログラム。
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項２１、２２、２３または２４に記載の発話分割プログラム。
　コンピュータを、さらに、発話を入力とし、単語列等に変換する音声認識手段として機能させるプログラムであって、
　前記発話分割手段は、ある発話の分割点を求める際に、
　分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項２１、２２、２３、２４または２５に記載の発話分割プログラム。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムを構成するコンピュータを、
　音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識手段に入力される発話を分割する発話分割手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする複数音声認識結果表示プログラム。
　二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムを構成するコンピュータを、
　音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
　該発話分割手段の分割結果を出力する出力手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする複数音声認識結果表示プログラム。
　二人以上の話者による対話音声を認識する対話音声テキスト化システムを構成するコンピュータを、
　対話音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識手段に入力される発話を分割する発話分割手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする対話音声テキスト化プログラム。
　二人以上の話者による対話音声を認識する対話音声テキスト化システムを構成するコンピュータを、
　対話音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
　該発話分割手段の分割結果を出力する出力手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする対話音声テキスト化プログラム。
　電話応対音声を音声認識する電話応対音声テキスト化システムを構成するコンピュータを、
　電話応対音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識手段に入力される発話を分割する発話分割手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする電話応対音声テキスト化プログラム。
　電話応対音声を音声認識する電話応対音声テキスト化システムを構成するコンピュータを、
　電話応対音声を入力とし、発話ごとに切り出す発話検出手段と、
　発話を入力とし、テキスト等に変換する音声認識処理手段と、
　前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
　該発話分割手段の分割結果を出力する出力手段と、
　して機能させるためのプログラムであって、
　前記発話分割手段は、請求項１乃至６の何れか１項に記載の発話分割システムにより構成されていることを特徴とする電話応対音声テキスト化プログラム。