WO2009104332A1 - 発話分割システム、発話分割方法および発話分割プログラム - Google Patents

発話分割システム、発話分割方法および発話分割プログラム Download PDF

Info

Publication number
WO2009104332A1
WO2009104332A1 PCT/JP2008/072851 JP2008072851W WO2009104332A1 WO 2009104332 A1 WO2009104332 A1 WO 2009104332A1 JP 2008072851 W JP2008072851 W JP 2008072851W WO 2009104332 A1 WO2009104332 A1 WO 2009104332A1
Authority
WO
WIPO (PCT)
Prior art keywords
utterance
speech
dividing
division
voice
Prior art date
Application number
PCT/JP2008/072851
Other languages
English (en)
French (fr)
Inventor
長友 健太郎
Original Assignee
日本電気株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電気株式会社 filed Critical 日本電気株式会社
Priority to JP2009554201A priority Critical patent/JP5387416B2/ja
Publication of WO2009104332A1 publication Critical patent/WO2009104332A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/04Segmentation; Word boundary detection
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source

Abstract

 時間的にオーバーラップする発話が起こり得るような対話音声において、各発話の関連性がより把握しやすいように、発話を適切な位置で分割するため、二人以上の話者による発話を入力とし、それぞれの発話をさらに分割する発話分割手段120を備える。ある発話に対して他の発話がオーバーラップするように発話されたなら、そのオーバーラップする発話が発せられた時点が当該発話における一つの意味的な切れ目になっていると考えられる。このため、発話分割手段120は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いる。

Description

発話分割システム、発話分割方法および発話分割プログラム
 本発明は、発話分割システム、発話分割方法および発話分割用プログラムに関し、特に、二人以上の話者による対話音声を入力とし、ある話者が発した発話について、他の話者によってその発話と時間的にオーバーラップするような発話が為された場合であっても、対話の流れが読み取りやすいように当該発話を適切に分割することを特徴とする発話分割システム、発話分割方法および発話分割プログラムに関する。
 音声認識技術は、これまで主に話者が一名である場合を想定して研究、開発が進められてきた。
 近年、音声認識技術を対話音声へ適用した対話音声認識システムがいくつか登場してきている。これらは、基本的には一名の話者に対して行っていた処理を、対話に参加する個々の話者ごとに施すだけのものが多い。
 今日の一般的な音声認識技術において、処理の最小単位は「発話」である。音声認識システムは、入力された音声信号を発話ごとに分割し、各発話について音声認識結果を(主にテキストとして)出力し、その結果を順に画面や記憶装置等へ出力する。
 ここで発話とは、ある程度の長さを持った音声の塊を指す。直感的には、一発話はほぼ一つの文(またはそれに準ずる発話内容の意味的な単位)に相当する。
 一般的な音声認識技術では、入力音声信号のうち、長い無音区間を含まない音声区間を発話として切り出すことで発話単位を切り出す。これは、比較的短い文であれば、ほぼ一つの発話に収める(その文の内容を音声として発声し切る)ことができるという知見に基づく。長い文の場合は、複数の発話に分かれることも多いが、これはそのような内容の発話を行う場合には息継ぎをすることがあるためである。
 発話を検出するアルゴリズムを記載した文献として、非特許文献1がある。非特許文献1では、ある一定時間内において、音声の振幅レベルが指定値以上の振幅の零交差数が一定数以上になれば音声区間開始(発話開始)、同数が一定値以下になれば発声終了(発話終了)とみなす。
 一方で、通常、入力音声を発話単位に分割する処理は発話の内容を参照せずに施されるため、複数の文に相当する音声区間が一塊の発話として切り出されることもしばしば起こり得る。また、自然発話の場合では、文法的な意味での「文」という単位自体がそもそもあまり意識されないので、自ずと発話と文の対応関係も曖昧になされることが多い。
 このように、音声認識技術の処理単位である「発話」は、「文」(またはそれに準ずる発話内容の意味的な単位)を基本とするが、「文」と等価になることは保証されていない、という性質を持つ。
 このような従来の音声認識システムを対話音声に適用する場合、各話者の音声それぞれについて発話への分割が行われ、その各々について音声認識処理を施すことになる。
 従来の対話音声認識システムの一例が、特許文献1に記載されている。この従来の対話音声認識システムは、複数話者が発したそれぞれの音声から発話を切り出す発話検出手段と、切り出された発話を切り出された順に処理する音声認識手段と、その結果を順に画面に表示する出力手段から構成される。
 このような構成を有する従来の対話音声認識システムは、つぎのように動作する。
 すなわち、発話検出手段は、複数の話者が発したそれぞれの音声信号から発話を検出する。検出された発話は、検出された順に(つまり発話開始時刻の順に)音声認識手段に送られ、音声信号からテキスト等の認識結果に変換される。最終的に認識結果は出力手段に送られ、音声認識手段が処理した順に(つまり発話検出順に)画面等に表示される。
 この方式は、会議における音声対話のように、ある時点における主たる発話者同士の発話内容が互いに独立している場合には問題なく動作する。
 例えば、統制の取れた会議の場合には、ほとんどすべての時刻においてたかだか一名のみが発話を行う。参加者は、アイコンタクトや挙手等で自ら発話権を主張するか、あるいは他の参加者の催促によって発話権の取得を促され、最終的に議長の許可をもって発話権の移譲を受けたのち、初めて発話が許される。例外は発話権の取得を主張する為の発話であるが、これも通常は現に発話権を持つ話者の発話を妨害しないことが求められる。このようなスタイルの会議としては、国会や地方議会などのフォーマルな会議が挙げられる。
 このような対話では、ある話者による発話と別の話者による発話とは必ず時間的にオーバーラップしない。従って、認識結果テキストを、発話の現れた順にただ出力するだけの特許文献1のようなシステムであっても、最終的に出力された対話全体の認識結果は、ある程度理解しやすいものとなる。
 しかしながら、よりインフォーマルな会議や、あるいは通常の日常会話、電話対話などでは、複数話者による発話のオーバーラップが頻繁に生じる。
 特に電話対話(電話越しの音声対話)ではこのオーバーラップが顕著に現れる。これは、アイコンタクト等の非音声コミュニケーション手段を用いることが出来ないという理由による。
 非音声コミュニケーション手段が利用できないため、電話対話での発話権のやり取りは音声発話をもって為される。この発話権要求発話を発するタイミングは、概ね相手の発話の切れ目を狙って行われると期待できるが、実際には発話の切れ目を上手く推察できない場合が頻発する。また、互いに相手の発話の切れ目であると判断して同時に発話を開始するケースも良く見受けられる。
 また、発話の中にはあいづちや確認など、必ずしも発話権を伴わないものも存在する。これらは対面会話においてはアイコンタクトやうなづきなどで代替可能なものもあるが、電話対話では音声発話で行うしかなく、発話のオーバーラップが増える一因となっている。
 フォーマルな会議における対話と、それ以外の対話でのもう一つの違いは、インフォーマルな対話では、発話権を要求する発話(例えば「議長」「よろしいですか」「すみません」)などが省略されるケースが見られるという点である。これは、非音声コミュニケーション手段によってある程度代替が可能である(例えば挙手した後、誰も反対でないと目視で確認できる場合など)というだけでなく、発話のオーバーラップが生じて改めて発話しなおすというプロトコルを用いるよりも、発話権要求と発話内容の伝達を同時に行った方が、長い目で見て対話全体の時間削減に繋がるという個々人の経験則に基づくものと考えられる。
 このように、インフォーマルな対話や電話越しの音声対話などでは、ある話者による発話と別の話者による発話とが時間的にオーバーラップすることがあり得る。このような場合、特許文献1のように、発話の現れた順に認識結果テキストを出力するだけでは、最終的に出力された対話全体の認識結果は、非常に見づらいものとなってしまう。
 以下、図1および図2を用いて、この理由を説明する。
 図1は、2名の話者が互いにあいづちや確認を交えながら交互に発話している様子を人手で書き起こしたものである。表は、対話の流れが明確になるようその内容を考慮しながら、各話者の発話を適切な時点で分割して書き起こしたものである。このように示すことで、話者AおよびBがそれぞれ互いのどの発話内容に対してあいづちや同意を示しているかが良く分かる。一方、その下に示した時系列図を見ると、このように理想的に発話を切り出した場合でも、一部の発話がオーバーラップしている様子が分かる。例えば発話番号1-4,1-5,1-6はそれぞれオーバーラップして発話されている。
 この対話音声を従来法に基づく音声認識システムに与えた場合の一例を図2に示す。図2では、従来の音声認識手段を用い、発話内容と無関係に発話の切り出し処理を行っている。その結果、図1では別個の「発話」であったものが、一つの「発話」にまとめられた例が散見される。例えば図2の発話2-1は、図1の発話1-1,1-3,1-5,1-7を合わせたものである。何故、こうなるかと言えば、前述したように一般的な音声認識技術では、入力音声信号のうち、長い無音区間を含まない音声区間を一つの発話として切り出すためである。同様に、話者Aの発話1-9,1-11はそれらの間の無音区間の長さが短いために一つの発話として切り出され、話者Bの発話1-4,1-6はそれら間の無音区間の長さが短いために一つの発話として切り出され、話者Bの発話1-8,1-10はそれらの間の無音区間の長さが短いために一つの発話として切り出される。
 ここで、時刻20:30:17.0に話者Bが発した「はい」という発話が、話者Aのどの発話内容に対するものであるかを知りたいとする。これは図1のような理想的な出力であれば自明である(直近の話者Aの発話1-1)が、図2では発話2-1のどの内容であるかは自明ではない。このケースでは、この「はい」は、話者Bが「先ほどお伺いした件」を了解したことを示すものかも知れないし、「連絡いただけてない」という状況を理解したことを示すものであるかも知れないし、あるいは話者Aの「はい」に対する単なる拍子合わせのためだけのものである可能性すら考えられる。
 また、時刻20:30:22.8からの話者Bの問い合わせ「それは、1時ごろの」に対する話者Aの回答は、図1であれば発話1-11の「いえ、~」で始まる否定文であることが一目で分かるが、図2では発話2-5のように肯定語「ええ」と否定語「いえ」が連続しており、不明瞭である。
 なお、図2では発話の順序関係に注目するために音声認識そのものは正しく行われたとして記載しているが、実際の認識結果には誤りが含まれるため、さらに対話の流れが読み取りにくいことを付記しておく。
 以上の例が示すように、インフォーマルな対話や、電話対話などの音声発話のみを用いる対話においては、複数話者による発話のオーバーラップが頻繁に生じ、これを従来手法のように長い無音区間を含まない音声区間を一つの発話として切り出す単純な音声認識手段によって処理すると、対話の流れを把握しづらくなり、読みづらい出力となってしまう。この例では対話音声認識結果の表示のみを問題として取り上げたが、同様の問題は、例えば対話内容を解析するような例(上述の「それは、1時ごろの」に対する返答の例)などにも影響する。
特許第3859612号 "Juliusにおける入力の無音区間・休止の扱い"[平成20年2月2日検索]インターネット<URL:http://julius.sourceforge.jp/index.php?q=doc/iwsp.html> 瀬戸口、高梨、河原,多数のセンサを用いたポスター会話の収録とその分析,情報処理学会研究報告SIG SLP 2007-SLP-67
 第1の問題点は、二人以上複数の話者が参加する音声対話において、二人以上の話者が発した発話が時間的にオーバーラップする場合、従来法のように長い無音区間を含まない音声区間を一つの発話として切り出す素朴な方法に基づく対話音声認識システムの出力は、対話における各発話の関連性が把握しづらくなり、ひいては、音声対話全体の認識結果の読解や自然言語処理的分析が困難に成る、という点である。
[発明の目的]
 本発明の目的は、各発話の関連性がより把握しやすい形態に容易に出力を整形できるよう、発話を適切な位置で分割することにある。
 本発明の発話分割システムは、二人以上の話者による発話を入力とし、それぞれの発話をさらに分割する発話分割手段を備える。前記発話分割手段は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いる。
 このような構成を採用し、ある発話の分割を試みる際、その発話と時間的にオーバーラップする他の発話の情報を用いて、当該発話の分割位置を決定し、分割することによって、本発明の目的を達成することができる。
 第1の効果は、時間的にオーバーラップする発話が起こり得るような対話音声においても、それぞれの発話を、音声対話中の各発話の関連性がより把握しやすい適切な位置でさらに分割することができることである。
 その理由は、対話に参加する各話者は、原則として他者の発話をできるだけ遮らないように、遮るとしてもできるだけ対話の流れを混乱させないように発話する傾向があるため、ある発話に対して他の発話がオーバーラップするように発話されたなら、そのオーバーラップする発話が発せられた時点が当該発話における一つの意味的な切れ目になっていると考えられるためである。
本発明の効果を説明するために示した、二人の話者による対話の例を示す図である。 本発明の効果を説明するために示した、図1の対話を従来法を用いて音声認識した認識結果の出力例を示す図である。 本発明の第1の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態の構成を示すブロック図である。 本発明の第2の実施の形態における発話分割手段の構成を示すブロック図である。 本発明の第3の実施の形態の構成を示すブロック図である。 本発明の第4の実施の形態の構成を示すブロック図である。 本発明の実施例の構成を示すブロック図である。
符号の説明
110…発話情報バッファリング手段
120、120A…発話分割手段
121…発話ブロック化手段
122…分割点尤度保持・更新手段
123…分割点尤度特徴量抽出手段
124…分割点決定手段
210…発話検出手段
220…発話ブロック化手段
230…発話バッファリング手段
240…分割点尤度特徴量抽出手段
250…分割点尤度更新手段
260…分割点決定手段
310…発話検出手段
320…発話ブロック化手段
330…音声認識手段
340…発話バッファリング手段
350…分割点尤度特徴量抽出手段
360…分割点尤度更新手段
370…分割点決定手段
410…音声入力デバイス
420…発話検出モジュール
430…音声認識モジュール
440…発話情報バッファ
450…単語アレイバッファ
460…分割点尤度更新モジュール
470…認識結果分割モジュール
480…認識結果整列モジュール
490…表示装置
 次に、発明を実施するための最良の形態について図面を参照して詳細に説明する。
 図3を参照すると、本発明の第1の実施の形態は、発話情報バッファリング手段110と、発話分割手段120とから構成されている。これらの手段はそれぞれ概略次のように動作する。
 発話情報バッファリング手段110は、発話およびその発話に関する情報(発話情報)を受け取り、一時的に保持する。ここで発話情報とは、例えば発話の開始・終了時刻などを含む。
 発話分割手段120は、発話情報バッファリング手段110から未処理の発話を一つ取り出し、その発話に対して分割処理を試みる。このとき、その発話の発話情報を参照し、この発話とオーバーラップする発話の発話情報を発話情報バッファリング手段110から取り出して利用する。
 次に、図3を参照しつつ本実施の形態の全体の動作について詳しく説明する。
 まず、処理対象となる発話データが、発話情報とあわせて発話情報バッファリング手段110に入力される。
 次に、発話分割手段120は、発話情報バッファリング手段110から、まだ発話分割処理が行われておらず、かつ発話開始時刻がもっとも早い発話を一つ選び出し、処理対象発話とする。
 さらに、発話分割手段120は、発話情報バッファリング手段110に蓄積された各発話の発話情報を参照し、処理対象発話と時間的にオーバーラップする発話を見つけ出す。
 ここで、処理対象発話とオーバーラップする発話が一つもなければ、発話分割手段120は処理対象発話の分割に失敗したとして処理対象発話をそのまま出力し、一方、処理対象発話とオーバーラップする発話が一つ以上あった場合、それらオーバーラップ発話の発話情報を用いて、処理対象発話を分割する。具体的には、オーバーラップする各発話の開始時刻で、処理対象発話を分割する。
 すべてのオーバーラップする発話を評価した時点で、処理対象発話の分割が完了する。発話分割手段120は、処理対象発話の分割結果を時刻順に出力する。
 以上の処理を、発話情報バッファリング手段110に未処理の発話がなくなるまで繰り返す。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、分割処理の対象となる発話を発話情報バッファリング手段110に蓄積することで、ある発話に対して時間的にオーバーラップする他の発話を確実に発見することができる。
 なお、本実施の形態は、既に与えられた発話を、バッチ的に処理して発話分割を試みるのに適した形態である。
 すなわち、予め何らかの方法で発話に分割されていた音声が蓄積されており、これらを一度に与えることで、それら一つ一つを適切に再分割するような用途に向く。
 本実施の形態を、非バッチ的なオンライン処理で用いる場合は、適当な遅延時間を定め、その遅延時間ごとに発話情報バッファリング手段110に発話をバッファリングする。ただしこの場合、ある発話に対してオーバーラップする発話が実際には存在したとしても、その発話の検出確定が遅延時間内に行われなかった場合、そのオーバーラップ発話を考慮せずに分割することとなり、若干の分割精度の低下が起こり得る。
 次に、本発明の第2の実施の形態について図面を参照して詳細に説明する。
 図4Aを参照すると、本発明の第2の実施の形態は、図3に示した第1の実施の形態と比較して、発話分割手段120の代わりに発話分割手段120Aを備えている点で相違する。
 図4Bを参照すると、本発明の第2の実施の形態における発話分割手段120Aは、発話ブロック化手段121と、分割点尤度保持・更新手段122と、分割点尤度特徴量抽出手段123と、分割点決定手段124を含む。これらの手段はそれぞれ概略つぎのように動作する。
 発話ブロック化手段121は、入力された分割処理対象発話を、後続の処理に適したブロックに分割する。
 分割点尤度保持・更新手段122は、処理対象発話の各ブロックについて、各ブロックが、処理対象発話の分割点となりうる尤度(分割点尤度)を保持し、また、更新する。
 分割点尤度特徴量抽出手段123は、処理対象発話と時間的にオーバーラップする発話を解析し、処理対象発話の各ブロックの分割点尤度を更新するために用いられる分割点尤度特徴量を抽出する。
 分割点決定手段124は、分割点尤度保持・更新手段122に保持される処理対象発話の各ブロックの分割点尤度を評価し、最終的に採用する分割点を決定し、処理対象発話をその分割点で分割して出力する。
 次に、図4Aおよび図4Bを参照して本実施の形態の全体の動作について詳細に説明する。
 まず、第1の実施の形態と同様に、処理対象となる発話データが、発話情報とあわせて発話情報バッファリング手段110に入力される。次に、発話分割手段120Aは、発話情報バッファリング手段110から、まだ発話分割処理が行われておらず、かつ発話開始時刻がもっとも早い発話を一つ選び出し、処理対象発話とする。そして、まず、新たな処理対象発話が、その発話の発話情報とともに、発話ブロック化手段121に入力される。
 発話ブロック化手段121は、入力された処理対象発話を定められた方法で分割し、ブロック化する。これは、例えば10ミリ秒単位で等分する、などの方法で行われる。
 次に、分割点尤度保持・更新手段122は発話ブロック化手段121が出力した処理対象発話の各ブロックについて、分割点尤度はゼロである(分割点ではない)として初期化する。
 ここで、発話情報バッファリング手段110から、処理対象発話と時間的にオーバーラップする発話の発話情報が、分割点尤度特徴量抽出手段123に逐次入力される。すると、分割点尤度特徴量抽出手段123は、定められたアルゴリズムに従ってオーバーラップ発話を解析し、分割点尤度特徴量を得る。具体的には、分割点尤度特徴量として、オーバーラップ発話の開始時刻、終了時刻、発話継続時間長、オーバーラップ時間などが抽出される。
 こうして得られた分割点尤度特徴量は、順次、分割点尤度保持・更新手段122に入力される。分割点尤度保持・更新手段122はこれらの特徴量を用いて処理対象発話の各ブロックに対する分割点尤度を、定められたアルゴリズムに従って更新する。
 例えば、オーバーラップする発話の開始時刻に相当するブロックやその前後のブロックについては分割点尤度が高くなるよう更新する。
 その一方で、オーバーラップ発話の継続時間長が非常に長い場合や、処理対象発話とオーバーラップ発話のオーバーラップ時間が大きい場合には、開始時刻相当ブロックへの分割点尤度の更新は控えめに行う。これは、オーバーラップ発話の話者が、処理対象発話を無視して発話している可能性が高く、処理対象発話の分割点を求める基準としては用いない方が適切であるという経験則を反映したものである。
 また別の例としては、オーバーラップ発話の継続時間長が非常に短い場合、そのオーバーラップ発話はノイズなどの誤検出である可能性があるので、分割点尤度の更新は控えめに行うようにする。
 またさらに別の例として、もし発話情報としてその発話の非音声尤度が与えられているのであれば、オーバーラップ発話の開始時刻の直近で非音声尤度の高いブロックに対して特に高い分割点尤度を当てるようにしても良い。ここで、非音声尤度とは、ある音声の微少な1区間が雑音モデルにどの程度マッチしているかを示す確度を意味する。このような非音声尤度は、一般の音声認識処理において微少な音声区間毎に求められている。
 すべてのオーバーラップする発話を評価した時点で、分割点尤度保持・更新手段122には、処理対象発話の各ブロックに対する分割点尤度が求まっている。分割点決定手段124はこの情報を元に、定められたアルゴリズムを用いて最終的な分割点を決定する。例えば、予め与えられた閾値を超える分割点尤度を持つブロックを分割点とする。一つの発話に対する最大分割数に上限を設けてもよい。分割点決定手段124は、処理対象発話の分割結果を時間順に出力する。開始時刻が同じ場合には、終了時刻の早い順に出力する。
 なお、処理対象発話に対するオーバーラップ発話が一つも見つからなかった場合、分割点尤度保持・更新手段122に保持される各ブロックの分割点尤度はゼロのままである。この場合、分割点決定手段124は分割点が一つも見つからなかったとして、もとの処理対象発話をそのまま出力する。
 ここで、分割点決定手段124は、分割された処理対象発話を発話情報バッファリング手段110に改めて入力しても良い。この場合、これらの分割された発話は未処理扱いとし、一方、分割前の処理対象発話は発話情報バッファリング手段110から削除する。
 発話分割手段120Aは、以上の処理を、発話情報バッファリング手段110に未処理の発話がなくなるまで繰り返す。
 次に、本実施の形態の効果について説明する。
 本実施の形態では、処理対象発話の分割点を求めるに際して、処理対象発話の各部における分割点尤度を判定することによって分割点を決定するように構成されている。このため、オーバーラップ発話のさまざまな情報を複雑に混交して、より精度の高い分割点推定を行うことができる。
 また、本実施の形態では、さらに、発話分割手段120Aによって一度分割された発話を再び発話情報バッファリング手段110に登録するため、さらに精度の高い発話分割が可能となる。なぜなら、発話情報バッファリング手段110に登録されている各発話は潜在的にさらに分割可能であり、発話を分割すると、分割点尤度特徴量としてのオーバーラップ発話の終了時刻、発話継続時間長、オーバーラップ時間などが増えるためである。
 なお、本実施の形態も第1の実施の形態と同じく、既に与えられた発話を、バッチ的に処理して発話分割を試みるのに適した形態である。本実施の形態を、非バッチ的なオンライン処理で用いる場合は、適当な遅延時間を定め、その遅延時間ごとに発話情報バッファリング手段110に発話をバッファリングする。こうすることで、再分割された発話をその遅延時間だけの遅れで得ることが出来る。ただしこの場合、ある発話に対してオーバーラップする発話が実際には存在したとしても、その発話の検出確定が遅延時間内に行われなかった場合、そのオーバーラップ発話を考慮せずに分割することとなり、若干の分割精度の低下が起こり得る。
 次に、本発明の第3の実施の形態について図面を参照して詳細に説明する。
 図5を参照すると、本発明の第3の実施の形態は、発話検出手段210と、発話ブロック化手段220と、発話バッファリング手段230と、分割点尤度特徴量抽出手段240と、分割点尤度更新手段250と、分割点決定手段260とから構成されている。これらの手段はそれぞれ概略次のように動作する。
 発話検出手段210は、複数の話者によって同時に発された一つ以上複数の音声を入力とし、それぞれについて定められたアルゴリズムを用いて音声中の発話を検出し、その開始時刻および終了時刻を少なくとも含む、発話情報を出力する。また発話区間の音声信号も同時に出力される。
 発話を検出するアルゴリズムは既知の様々な手法を用いることが出来る。例えば前述した非特許文献1に記載された手法を用いることができる。
 発話ブロック化手段220は、入力された分割処理対象発話を、後続の処理に適したブロックに分割する。
 ただし、多くの場合、発話検出手段210は入力音声を何らかの方法でブロック化するので、このブロックをそのまま流用してもよく、その場合、発話ブロック化手段220は省略できる。発話検出手段210で見られるブロック化としては、例えばサンプリング周期ごとの時間区間への分割(これはつまり音声信号の量子化単位そのものである)や、音声信号をフーリエ変換等の信号処理に掛ける単位(一般にフレームと呼ばれる)などが挙げられる。
 発話バッファリング手段230は、各発話の発話情報と、発話そのものを保持する。また、第2の実施の形態において分割点尤度保持・更新手段122が保持していた、発話の各ブロックに対する分割点尤度情報も同時に保持する。
 分割点尤度特徴量抽出手段240は、第2の実施の形態における分割点尤度特徴量抽出手段123と基本的に同等の動作をする。
 分割点尤度更新手段250は、分割点尤度特徴量抽出手段240によって得られた特徴量を用いて、発話バッファリング手段230が保持する各発話の各ブロックに対する分割点尤度を更新する。
 分割点決定手段260は、発話バッファリング手段230に保持される一つまたは複数の処理対象発話の各ブロックの分割点尤度を評価し、最終的に採用する分割点を決定し、各処理対象発話をその分割点で分割して出力する。
 次に、図5を参照して本実施の形態の全体の動作について詳細に説明する。
 まず、二つ以上複数の音声信号が、発話検出手段210に入力される。発話検出手段210は、この入力音声を順次処理し、各時刻において、各音声で発話が開始されているか否かを検証する。また、既に発話の開始を検出した音声については、その発話が終了しているか否かを検証する。いずれかの音声について、発話検出手段210が発話の開始を検出すると、その時刻が発話バッファリング手段230に送られる。また同様に、発話の終了時刻も発話バッファリング手段230に送られる。
 発話検出手段210で処理された音声信号は、発話ブロック化手段220を通じてブロック化され、発話バッファリング手段230に送られる。既に述べたように、発話検出手段210が何らかのブロック化を行う場合、発話ブロック化手段220を省略しても構わない。
 発話バッファリング手段230は、時間軸方向および話者数について可変な、ブロック化された発話の二次元配列で構成される。
 新たなブロックが発話バッファリング手段230に入力されると、二次元配列の相当する時刻・話者の位置が確保される。もし当該ブロックの時刻が発話開始時刻以降かつ発話終了時刻以前であるなら、そのブロックに対する分割点尤度の初期値であるゼロが、二次元配列のその位置にセットされる。
 分割点尤度特徴量抽出手段240は、適当なタイミングで呼び出され、発話バッファリング手段230中の未処理のブロックについて、定められたアルゴリズムに従って解析し、分割点尤度特徴量を得る。さらに分割点尤度更新手段250がこの特徴量を元に各ブロックの分割点尤度を定められたアルゴリズムに従って更新する。以下に具体的な例の詳細を示す。
 第1の例は、オーバーラップする発話の開始時刻を特徴量として抽出するケースである。この場合、分割点尤度特徴量抽出手段240は、まず、発話バッファリング手段230が保持する各発話の開始時刻のうち、未だ処理していないものを時刻の早いものから一つ取り出す。次に、その時刻に相当する各発話のブロックについて、分割点尤度更新手段250が、分割点尤度を高くなるように更新する。
 第2の例は、オーバーラップする発話の開始時刻の前後の分割点尤度も更新するケースである。この場合、分割点尤度特徴量抽出手段240が起動するタイミングは、未処理のある発話開始時刻に対して、尤度更新を反映する範囲の終端に相当するブロックが、発話バッファリング手段230に登録された後になる。分割点尤度更新手段250は、処理対象となる開始時刻に相当する各ブロックと、その前後のブロックに対して、尤度を高めるよう更新する。
 第3の例は、オーバーラップする発話の継続時間に応じて、尤度更新の効果を制御するケースである。この場合、予めタイムアウト時間を定め、分割点尤度特徴量抽出手段240が起動するタイミングは、未処理のある発話開始時刻に対してこのタイムアウト時間が経過した時刻に相当するブロックが、発話バッファリング手段230に登録された後になる。分割点尤度特徴量抽出手段240は、発話バッファリング手段230に保持された情報から、処理対象となる開始時刻から始まる発話の継続時間長を求め、分割点尤度更新手段250は、当該発話開始時刻に相当する各発話のブロックについて分割点尤度を高くなるように更新するが、この際の尤度更新は、分割点尤度特徴量抽出手段240によって得られたオーバーラップ発話の継続時間長に応じて調整する。具体的には第2の実施の形態と同様に、オーバーラップ発話の継続時間長が非常に長い場合には、開始時刻相当ブロックへの分割点尤度の更新は控えめに行い、また、オーバーラップ発話の継続時間長が非常に短い場合には、そのオーバーラップ発話はノイズなどの誤検出である可能性があるので、分割点尤度の更新は控えめに行う。
 このほかの特徴量についても同様に、その特徴量を抽出するのに必要十分な遅延時間を確保しつつ、分割点尤度特徴量抽出手段240と分割点尤度更新手段250を用いて、各発話の各ブロックに対する分割点尤度を更新する。
 発話バッファリング手段230に保持されるあるブロックについて、そのブロックに対する分割点尤度更新が行われなくなったならば、分割点尤度決定手段260を用いてそのブロックを分割点として採用するかどうかを決定する。ただし、もし、一つの発話に対する分割数に上限を設けたり、その他の方法で分割前の発話全体に応じた処理を施すのであれば、特にいずれかの発話の終了時刻に相当するブロックに対する分割点尤度更新の完了を待たねばならない。
 なお、あるブロックに対する分割点尤度更新がどのタイミングで完了するかは、分割点尤度特徴量抽出手段240が要求する遅延時間と、分割点尤度更新手段250がその特徴量を反映させるブロックの範囲に応じて一意に決定できる。
 分割点尤度決定手段260における分割点の決定と分割された発話の出力については、第2の実施の形態と同様である。
 以上の説明では、便宜上、発話バッファリング手段230を二次元配列として表現したが、実際にはこの二次元配列の使われ方は疎である。従って、発話バッファリング手段230は、発話検出手段210で発話として検出された区間に相当するブロックのみを保持すればよい。
 この場合、分割点尤度決定手段260によって分割処理が完了したある発話について、その発話から分割点尤度特徴量抽出手段240によって得られる特徴量の影響を受ける他の発話が一つもないのであれば、その発話全体を発話バッファリング手段230から削除する。
 このようにして、必要最小限の記憶領域を用いて、オンラインに、本発明の原理に基づく発話分割が可能になる。
 次に、本実施の形態の効果について説明する。
 本実施の形態は、本発明による発話の分割を、最低限の遅延時間と必要最小限の記憶領域を用いて、オンラインに処理できる。従って本実施の形態は、本発明を非バッチ的なオンライン処理で用いる場合に好適な実施の形態であり、第1および第2の実施の形態がバッチ的な用途に適しているのと対称をなす。
 次に、本発明の第4の実施の形態について図面を参照して詳細に説明する。
 図6を参照すると、本発明の第4の実施の形態は、図5に示した第3の実施の形態と比較して、音声認識手段330をさらに備える点で相違する。
 音声認識手段330は、発話検出手段310によって切り出された発話ごとに、音声認識処理を施すことにより、単語列や単語ラティスなどの認識結果を出力する。
 その他の構成要素は第3の実施の形態とほぼ同様に動作するが、発話バッファリング手段340が発話情報の一つとして発話ごとの認識結果を保持する点と、分割点尤度特徴量抽出手段350および分割点尤度更新手段360が、発話の認識結果を分割点尤度特徴量として用いる点が異なる。
 次に、図6を参照して本実施の形態の全体の動作について詳細に説明するが、本実施の形態の全体の動作は第3の実施の形態とほぼ同様であるため、以下では第3の実施の形態からの差分のみを記述する。
 音声認識手段330を呼び出すタイミングは、音声認識手段330の機能的な制限によって二つのケースが考えられる。
 第1のケースは、音声認識手段330が、発話の終端が確定しなくても順次その時点で確定した認識結果を出力でき、かつ、発話のオーバーラップする音声の数の上限が予め定められており、その上限に応じた音声認識手段330を複数同時に動作させるケースである。この場合は、発話検出手段310が、入力されたいずれかの音声から発話の開始を検出したタイミングから音声認識手段330が動作し、発話が継続する限り音声認識処理も継続され、認識結果が得られると、適宜発話バッファリング手段340に送る。
 第2のケースは、音声認識手段330が、発話の終端が確定するまで音声認識結果を出力できない場合であるか、あるいは、潜在的に同時に起こり得るすべての発話に対して同時に複数の音声認識手段330を動作させられないか、のいずれかのケースである。この場合は、発話検出手段310が、入力されたいずれかの音声から発話の終端が検出されたタイミングで音声認識手段330を呼び出し、発話全体をまとめて音声認識して、その結果を発話バッファリング手段340に送る。
 いずれの場合も、分割点尤度特徴量抽出手段350および分割点尤度更新手段360の動作タイミングは若干の遅延が必要になるが、前者は、発話の一部に対する認識結果が確定するまでの時間だけの遅延となり、後者は、発話の終端が検出され、その発話全体に対する認識結果が得られるまでに掛かる時間だけの遅延となる。
 分割点尤度特徴量抽出手段350は、いずれかの発話に関する認識結果が得られた時点で動作する。ここで、分割点尤度特徴量抽出手段350は、認識結果として得られた単語またはその単語の品詞を評価し、分割点尤度更新手段360は、予め単語および品詞ごとに定められた分割点尤度更新量に基づき、その認識結果が現れた時刻に相当する他の発話のブロックおよびその前後のブロックについて、分割点尤度を更新する。
 例えば、「ええ」「ああ」「なるほど」「そうですね」などの、いわゆる「あいづち」を示す語彙が現れた場合、その時刻における他の発話の分割尤度は高くなる。
 次に、本実施の形態の効果について説明する。
 本実施の形態によれば、発話の分割において、その発話とオーバーラップする他の発話の語彙を参照することで、より精度の高い発話の分割を可能とする。これは、ある話者が意味的なあるまとまりの発話を完了した直後に、対話に参加する他の話者が発話する可能性の高い語彙や品詞に偏りがあるという性質を利用している。この性質は、例えば非特許文献2などで述べられている。
[実施例]
 次に、具体的な実施例を用いて本発明を実施するための最良の形態の動作を説明する。
 図7に示すように、本発明の実施例は、音声入力デバイス410と、発話検出モジュール420と、音声認識モジュール430と、発話情報バッファ440と、単語アレイバッファ450と、分割尤度更新モジュール460と、認識結果分割モジュール470と、認識結果整列モジュール480と、表示装置490とから構成される。これらの各モジュールは、それぞれ概略次のように動作する。
 音声入力デバイス410は、2チャンネルの音声信号をそれぞれ別々に入力して発話検出モジュール420に送る。
 発話検出モジュール420は2つ用意されており、それぞれ音声入力デバイス410の各チャネルに対応付けられている。
 それぞれの発話検出モジュール420は、入力された音声信号を順次解析し、発話の開始時刻および終了時刻を検出する。
 音声認識モジュール430も2つ用意され、それぞれ異なる発話検出モジュール420に対応付けられている。
 それぞれの音声認識モジュール430は、対応する発話検出モジュール420が検出した発話に対して音声認識処理を施し、その発話区間の音声に対する音声認識結果を単語列として出力する。
 発話情報バッファ440は、発話検出モジュール420が検出した発話ごとに、いずれのチャネルから入力された音声であるかと、発話開始時刻と、発話終了時刻と、その認識結果単語列を記録する。また、各発話が処理済か否かを示すフラグも同時に格納される。
 単語アレイバッファ450は、発話情報バッファ440からもっとも早い時刻に開始した未処理の発話を一つ取り出し、単語列を構成する単語と単語の間の個数だけの配列を確保する。この配列には、その単語と単語の間で発話を分割すべきかどうかを決定する分割点尤度が保持される。
 分割点尤度更新モジュール460は、その時点で単語アレイバッファ450に展開されている分割処理対象発話について、時間的にオーバーラップする発話を発話情報バッファ440から検索する。見つかったオーバーラップする発話について、その開始時刻と、継続時間長と、処理対象発話とのオーバーラップ時間とを求め、これらに応じて単語アレイバッファ450の各要素である分割点尤度を更新する。また、オーバーラップ発話の認識結果単語列から、あいづちに相当する語彙を検索し、これが見つかった場合、この単語が発話された時刻にもっとも近い、単語アレイバッファ450上に展開されている要素(すなわち単語と単語の間)の分割点尤度を更新する。
 認識結果分割モジュール470は、単語アレイバッファ450に展開されている発話について、その発話を構成する単語と単語の間における分割点尤度を参照し、予め定められた閾値を超えているならば、その位置を分割点として、発話を分割する。
 認識結果整列モジュール480は、認識結果分割モジュール470によって分割された発話をその開始時刻の順に並べなおす。
 表示装置490は、認識結果整列モジュール480の整列した順に、発話に相当する単語列を文字列として表示する。このとき、その発話がいずれのチャンネルから入力された音声に含まれるかをトレースし、そのチャネル情報も併せて表示してもよい。また、その発話の開始時刻も併せて表示してもよい。なお、出力手段を構成する認識結果整列モジュール480は、認識結果を表示装置490に出力したが、図示しない記憶装置または後続する別のシステムやプログラムに出力するようにしても良い。
 以上、本発明の実施の形態および実施例について説明したが、本発明は以上の実施の形態および実施例にのみ限定されず、その他各種の付加変更が可能である。また、本発明は、その有する機能をハードウェア的に実現することは勿論、コンピュータとプログラムとで実現することができる。プログラムは、磁気ディスクや半導体メモリ等のコンピュータ可読記録媒体に記録されて提供され、コンピュータの立ち上げ時などにコンピュータに読み取られ、そのコンピュータの動作を制御することにより、そのコンピュータを前述した各実施の形態および実施例における各手段として機能させる。
 この出願は、2008年2月19日に出願された日本出願特願2008-037200を基礎とする優先権を主張し、その開示の全てをここに取り込む。
 本発明によれば、対話音声認識システム、とりわけ、特にインフォーマルな会議音声認識システムや、電話応対音声認識システムといった用途に適用できる。
 これらの対話音声認識システムで、特に対話音声認識結果を画面表示したり、あるいは記憶装置に出力する、対話テキスト化システム、会議録自動作成システム、電話応対記録システムなどに利用できる。
 また、音声対話の内容を解析する音声対話解析システムに適用することで、解析精度を向上させることが可能である。特に、各話者の発話内容の係り受けを解析する談話構造解析システムなどで有用である。

Claims (32)

  1.  二人以上の話者による発話を入力とし、
     それぞれの発話をさらに分割する発話分割手段を備え、
     前記発話分割手段は、
     ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いることを特徴とする発話分割システム。
  2.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項1に記載の発話分割システム。
  3.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項1または2に記載の発話分割システム。
  4.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項1、2または3に記載の発話分割システム。
  5.  前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項1、2、3または4に記載の発話分割システム。
  6.  発話を入力とし、単語列等に変換する音声認識手段をさらに備え、
     前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項1、2、3、4または5に記載の発話分割システム。
  7.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
     音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識手段に入力される発話を分割する請求項1乃至6の何れか1項に記載の発話分割システムとを備えたことを特徴とする複数音声認識結果表示システム。
  8.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムであって、
     音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識処理手段により認識された音声認識結果を分割する請求項1乃至6の何れか1項に記載の発話分割システムと、
     該発話分割システムの分割結果を出力する出力手段と、
    を備えたことを特徴とする複数音声認識結果表示システム。
  9.  請求項7または8に記載の複数音声認識結果表示システムを使用して、二人以上の話者による対話音声を認識する対話音声テキスト化システム。
  10.  請求項7または8に記載の複数音声認識結果表示システムを使用して、電話応対音声を音声認識する電話応対音声テキスト化システム。
  11.  発話分割手段が、二人以上の話者による発話を入力して、それぞれの発話をさらに分割するステップを含み、
     前記発話分割手段は、ある発話の分割点の決定に際し、オーバーラップする他の発話の情報を用いることを特徴とする発話分割方法。
  12.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項11に記載の発話分割方法。
  13.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項11または12に記載の発話分割方法。
  14.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項11、12または13に記載の発話分割方法。
  15.  前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項11、12、13または14に記載の発話分割方法。
  16.  音声認識手段が、発話を入力とし、単語列等に変換するステップをさらに含み、
     前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項11、12、13、14または15に記載の発話分割方法。
  17.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示方法であって、
     発話検出手段が、音声を入力とし、発話ごとに切り出すステップと、
     音声認識処理手段が、発話を入力とし、テキスト等に変換するステップと、
     請求項1乃至6の何れか1項に記載の発話分割システムが、前記音声認識手段に入力される発話を分割するステップと、
    を含むことを特徴とする複数音声認識結果表示方法。
  18.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示方法であって、
     発話検出手段が、音声を入力とし、発話ごとに切り出すステップと、
     音声認識処理手段が、発話を入力とし、テキスト等に変換するステップと、
     請求項1乃至6の何れか1項に記載の発話分割システムが、前記音声認識処理手段により認識された音声認識結果を分割するステップと、
     出力手段が、前記発話分割システムの分割結果を出力するステップと、
    を含むことを特徴とする複数音声認識結果表示方法。
  19.  請求項17または18に記載の複数音声認識結果表示方法を使用して、二人以上の話者による対話音声を認識する対話音声テキスト化方法。
  20.  請求項17または18に記載の複数音声認識結果表示方法を使用して、電話応対音声を音声認識する電話応対音声テキスト化方法。
  21.  コンピュータを、
     二人以上の話者による発話を入力とし、それぞれの発話を、その発話にオーバーラップする他の発話の情報を用いてさらに分割する発話分割手段として機能させるための発話分割プログラム。
  22.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始時刻を少なくとも用いることを特徴とする請求項21に記載の発話分割プログラム。
  23.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の開始された時刻から分割点候補がどれだけ離れているかを少なくとも用いることを特徴とする請求項21または22に記載の発話分割プログラム。
  24.  前記発話分割手段は、ある発話の分割点を求める際に、
     オーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項21、22または23に記載の発話分割プログラム。
  25.  前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補にオーバーラップする他の発話の継続時間長を少なくとも用いることを特徴とする請求項21、22、23または24に記載の発話分割プログラム。
  26.  コンピュータを、さらに、発話を入力とし、単語列等に変換する音声認識手段として機能させるプログラムであって、
     前記発話分割手段は、ある発話の分割点を求める際に、
     分割点候補が現れた時刻またはその前後に、オーバーラップする他の発話の認識結果に現れた語彙および品詞のいずれかまたは両方を少なくとも用いることを特徴とする請求項21、22、23、24または25に記載の発話分割プログラム。
  27.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムを構成するコンピュータを、
     音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識手段に入力される発話を分割する発話分割手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする複数音声認識結果表示プログラム。
  28.  二つ以上の音声のそれぞれに音声認識処理を施した結果を出力する複数音声認識結果表示システムを構成するコンピュータを、
     音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
     該発話分割手段の分割結果を出力する出力手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする複数音声認識結果表示プログラム。
  29.  二人以上の話者による対話音声を認識する対話音声テキスト化システムを構成するコンピュータを、
     対話音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識手段に入力される発話を分割する発話分割手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする対話音声テキスト化プログラム。
  30.  二人以上の話者による対話音声を認識する対話音声テキスト化システムを構成するコンピュータを、
     対話音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
     該発話分割手段の分割結果を出力する出力手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする対話音声テキスト化プログラム。
  31.  電話応対音声を音声認識する電話応対音声テキスト化システムを構成するコンピュータを、
     電話応対音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識手段に入力される発話を分割する発話分割手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする電話応対音声テキスト化プログラム。
  32.  電話応対音声を音声認識する電話応対音声テキスト化システムを構成するコンピュータを、
     電話応対音声を入力とし、発話ごとに切り出す発話検出手段と、
     発話を入力とし、テキスト等に変換する音声認識処理手段と、
     前記音声認識処理手段により認識された音声認識結果を分割する発話分割手段と、
     該発話分割手段の分割結果を出力する出力手段と、
     して機能させるためのプログラムであって、
     前記発話分割手段は、請求項1乃至6の何れか1項に記載の発話分割システムにより構成されていることを特徴とする電話応対音声テキスト化プログラム。
PCT/JP2008/072851 2008-02-19 2008-12-16 発話分割システム、発話分割方法および発話分割プログラム WO2009104332A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2009554201A JP5387416B2 (ja) 2008-02-19 2008-12-16 発話分割システム、発話分割方法および発話分割プログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2008037200 2008-02-19
JP2008-037200 2008-02-19

Publications (1)

Publication Number Publication Date
WO2009104332A1 true WO2009104332A1 (ja) 2009-08-27

Family

ID=40985224

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2008/072851 WO2009104332A1 (ja) 2008-02-19 2008-12-16 発話分割システム、発話分割方法および発話分割プログラム

Country Status (2)

Country Link
JP (1) JP5387416B2 (ja)
WO (1) WO2009104332A1 (ja)

Cited By (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
JP2018045208A (ja) * 2016-09-16 2018-03-22 株式会社東芝 会議支援システム、会議支援方法及びプログラム
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP7440353B2 (ja) 2020-06-22 2024-02-28 賢次 亀山 トラックの荷台構造

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069292A (ja) * 1996-08-29 1998-03-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 発話関係認識装置
JPH11136369A (ja) * 1997-10-29 1999-05-21 Ntt Software Corp 多地点間接続音声制御装置
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2005308950A (ja) * 2004-04-20 2005-11-04 Sony Corp 音声処理装置および音声処理システム

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP3859612B2 (ja) * 2003-04-10 2006-12-20 株式会社アドバンスト・メディア 会議録音・書き起こしシステム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH1069292A (ja) * 1996-08-29 1998-03-10 Atr Onsei Honyaku Tsushin Kenkyusho:Kk 発話関係認識装置
JPH11136369A (ja) * 1997-10-29 1999-05-21 Ntt Software Corp 多地点間接続音声制御装置
JP2002236494A (ja) * 2001-02-09 2002-08-23 Denso Corp 音声区間判別装置、音声認識装置、プログラム及び記録媒体
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2005308950A (ja) * 2004-04-20 2005-11-04 Sony Corp 音声処理装置および音声処理システム

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN102388416A (zh) * 2010-02-25 2012-03-21 松下电器产业株式会社 信号处理装置及信号处理方法
US8498435B2 (en) 2010-02-25 2013-07-30 Panasonic Corporation Signal processing apparatus and signal processing method
US8644534B2 (en) 2010-02-25 2014-02-04 Panasonic Corporation Recording medium
US8682012B2 (en) 2010-02-25 2014-03-25 Panasonic Corporation Signal processing method
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法
JP5740575B2 (ja) * 2010-09-28 2015-06-24 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
CN103155036A (zh) * 2010-09-28 2013-06-12 松下电器产业株式会社 语音处理装置及语音处理方法
JPWO2012042768A1 (ja) * 2010-09-28 2014-02-03 パナソニック株式会社 音声処理装置および音声処理方法
CN103155036B (zh) * 2010-09-28 2015-01-14 松下电器产业株式会社 语音处理装置及语音处理方法
US9064501B2 (en) 2010-09-28 2015-06-23 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
JP2014235263A (ja) * 2013-05-31 2014-12-15 ヤマハ株式会社 音声認識装置およびプログラム
CN106297794A (zh) * 2015-05-22 2017-01-04 西安中兴新软件有限责任公司 一种语音文字的转换方法及设备
JP2018045208A (ja) * 2016-09-16 2018-03-22 株式会社東芝 会議支援システム、会議支援方法及びプログラム
JP2017182822A (ja) * 2017-05-08 2017-10-05 富士通株式会社 入力情報支援装置、入力情報支援方法および入力情報支援プログラム
CN111145782A (zh) * 2019-12-20 2020-05-12 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质
CN111145782B (zh) * 2019-12-20 2021-07-13 深圳追一科技有限公司 重叠语音识别方法、装置、计算机设备和存储介质

Also Published As

Publication number Publication date
JP5387416B2 (ja) 2014-01-15
JPWO2009104332A1 (ja) 2011-06-16

Similar Documents

Publication Publication Date Title
JP5387416B2 (ja) 発話分割システム、発話分割方法および発話分割プログラム
EP3254453B1 (en) Conference segmentation based on conversational dynamics
EP3254456B1 (en) Optimized virtual scene layout for spatial meeting playback
EP3254454B1 (en) Conference searching and playback of search results
CN110047481B (zh) 用于语音识别的方法和装置
JP6171617B2 (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
EP3254435B1 (en) Post-conference playback system having higher perceived quality than originally heard in the conference
EP3254455B1 (en) Selective conference digest
US8027836B2 (en) Phonetic decoding and concatentive speech synthesis
EP3254279B1 (en) Conference word cloud
KR20200023456A (ko) 발언 분류기
WO2016205296A1 (en) Post-teleconference playback using non-destructive audio transport
US9911411B2 (en) Rapid speech recognition adaptation using acoustic input
US11687526B1 (en) Identifying user content
US10229701B2 (en) Server-side ASR adaptation to speaker, device and noise condition via non-ASR audio transmission
CN113362828B (zh) 用于识别语音的方法和装置
WO2014133525A1 (en) Server-side asr adaptation to speaker, device and noise condition via non-asr audio transmission
EP2763136B1 (en) Method and system for obtaining relevant information from a voice communication
JP5385876B2 (ja) 音声区間検出方法、音声認識方法、音声区間検出装置、音声認識装置、そのプログラム及び記録媒体
JP2023524088A (ja) エンドツーエンドの複数話者重複音声認識
CN114385800A (zh) 语音对话方法和装置
CN116417003A (zh) 语音交互系统、方法、电子设备和存储介质
CN113779208A (zh) 用于人机对话的方法和装置
KR20180134482A (ko) 음성 인식을 이용한 주소록 관리 장치, 차량, 주소록 관리 시스템 및 음성 인식을 이용한 주소록 관리 방법
CN112216270B (zh) 语音音素的识别方法及系统、电子设备及存储介质

Legal Events

Date Code Title Description
DPE2 Request for preliminary examination filed before expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 08872667

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2009554201

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 08872667

Country of ref document: EP

Kind code of ref document: A1