WO2020036195A1

WO2020036195A1 - 話し終わり判定装置、話し終わり判定方法およびプログラム

Info

Publication number: WO2020036195A1
Application number: PCT/JP2019/031938
Authority: WO
Inventors: 節夫山田; 喜昭野田; 隆明長谷川
Original assignee: 日本電信電話株式会社
Priority date: 2018-08-15
Filing date: 2019-08-14
Publication date: 2020-02-20
Also published as: US11996119B2; JPWO2020036195A1; JP7007617B2; US20210312944A1

Abstract

本発明に係る話し終わり判定装置（１０）は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部（１１）と、話し終わり判定モデル（１４）を用いて、分割部（１１）により分割された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定部（１２）と、を備える。

Description

話し終わり判定装置、話し終わり判定方法およびプログラム

　本発明は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置、話し終わり判定方法およびプログラムに関する。

　コンタクトセンタなどでの顧客と応対担当者との対話における発話を音声認識した結果を解析し、解析結果に応じた応答を提示するシステムが検討されている。このようなシステムでは、話者の話し終わりの発話を検出することで、話者の話し終わりまでの発話内容に応じた応答、発話分類などの処理を適切に実施することができる。

　顧客と応対担当者との対話のような複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する方法として、対話における発話に対して、話し終わりの発話であるか否かの情報が付与された学習データを作成する方法が考えられる。この方法では、対話における発話に対して、話し終わりの発話であるか否かの情報が付与された学習データを用いた機械学習（非特許文献１参照）により、対話における発話が話し終わりの発話であるか否かを判定する話し終わり判定モデルが生成される。

R.-E. Fan, K.-W. Chang, C.-J. Hsieh, X.-R. Wang, and C.-J. Lin. LIBLINEAR: A library for large linear classification Journal of Machine Learning Research 9(2008), 1871-1874.

　音声認識では、無音区間が所定時間以上継続すると、その無音区間の前までの発話を１つの処理単位として音声認識が行われる。すなわち、所定時間以上の無音区間が生じるまでの発話が、１つの音声認識の結果の単位として出力される。このような音声認識の結果の単位で話し終わりであるか否かが判定されると、音声認識の結果の単位の中に話し終わりが存在する場合に、その話し終わりを正しく判定することができない。

　上記のような問題点に鑑みてなされた本発明の目的は、対話における発話が話し終わりの発話であるか否かの判定の高精度化を図ることができる話し終わり判定装置、話し終わり判定方法およびプログラムを提供することにある。

　上記課題を解決するため、本発明に係る話し終わり判定装置は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部と、対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記分割部により分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行う話し終わり判定部と、を備える。

　また、上記課題を解決するため、本発明に係る話し終わり判定方法は、複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置における話し終わり判定方法であって、前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割するステップと、対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記文字列が前記区切り記号で分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行うステップと、を含む。

　また、上記課題を解決するため、本発明に係るプログラムは、コンピュータを上記の話し終わり判定装置として機能させる。

　本発明に係る話し終わり判定装置、話し終わり判定方法およびプログラムによれば、対話における発話が話し終わりの発話であるか否かの判定の高精度化を図ることができる。

本発明の一実施形態に係る話し終わり判定装置の構成例を示す図である。図１に示す話し終わり判定モデルの生成に用いる学習データについて説明するための図である。音声認識結果から話し終わりの発話を正しく判定することができない場合について説明するための図である。図１に示す話し終わり判定装置における話し終わり判定方法について説明するための図である。

　以下、本発明を実施するための形態について、図面を参照しながら説明する。各図中、同一符号は、同一または同等の構成要素を示している。

　図１は、本発明の一実施形態に係る話し終わり判定装置１０の構成例を示す図である。本実施形態に係る話し終わり判定装置１０は、コンタクトセンタにおける顧客と応対担当者との対話のような複数の話者による対話における発話が、話者が伝えたい内容を話し終えた話し終わりの発話であるか否かを判定するものである。以下では、顧客と応対担当者との対話における発話が、話し終わりの発話であるか否かを判定する例を用いて説明する。

　図１に示す話し終わり判定装置１０は、分割部１１と、話し終わり判定部１２と、第１ルール記憶部１３と、第２ルール記憶部１５とを備える。

　分割部１１は、顧客と応対担当者との対話における発話を音声認識によりテキスト化した音声認識結果が入力される。ここで、音声認識を行う音声認識装置（図示せず）には、顧客の発話と応対担当者の発話とが異なるチャネル（２チャネル）で入力され、顧客の発話と応対担当者の発話とを区別して、音声認識が行われる。

　音声認識では、上述したように、無音区間が所定時間以上継続すると、前回の音声認識の処理単位の最後の発話後、その無音区間よりも前までの発話が１つの処理単位として音声認識が行われ、その処理単位で音声認識結果が出力される。また、音声認識では、上述した処理単位を確定するために設定される無音区間よりも短い所定時間だけ無音区間が継続すると、音声認識結果において、その無音区間に対応する位置に句読点などの文における区切りを示す区切り記号が付与される。なお、どの区切り記号が付与されるかは、例えば、前後の文脈などから適宜、選択される。例えば、参考文献１には、音声認識結果への句読点の自動挿入方法が記載されている。具体的には、参考文献１には、単語（出現形）、品詞、分節境界、直後の分節への係り受け情報、およびポーズなどの特徴に基づき、句読点を挿入する方法が記載されている。また、ある話者の話し終わり後、別の話者が、区切り記号の付与が決定される無音区間の経過前に話し始めた場合、先の話者の発話の音声認識結果の末尾には、区切り記号が付与されない場合がある。なお、音声認識結果の末尾には必ず、区切り記号が付与されるようにすることも可能である。
参考文献１：秋田　祐哉、河原　達也、「講演に対する読点の複数アノテーションに基づく自動挿入」、情報処理学会論文誌、１８８２－７７６５，Ｎｏ．５４、Ｖｏｌ.２、２０１３年

　以下では、図１に示すように、顧客と応対担当者との対話において、発話♯１１～♯３３が行われ、音声認識が行われたとする。図１では、発話♯１１，１４，１７，１９，２１，２３，２５，２６，２９，３２，３３が応対担当者の発話であり、発話♯１２，１３，１５，１６，１８，２０，２２，２４，２７，２８，３０，３１が顧客の発話であることを示している。また、図１では、１つの吹き出しが、音声認識の処理単位を示している。

　分割部１１には、処理単位ごとの音声認識の結果（以下、「音声認識結果の単位」と称する）が入力される。図１の例では、発話♯１１～３３それぞれの音声認識の結果が、音声認識結果の単位として分割部１１に入力される。

　分割部１１は、入力された音声認識結果の単位に示される文字列、すなわち、音声認識の処理単位の発話が音声認識によりテキスト化された文字列を、第１ルール記憶部１３に予め記憶されたルール（以下「第１ルール」と称する）に基づき分割する。第１ルールとしては、例えば、文における区切りを示す区切り記号が出現するまでを１つの単位として分割するというルールがある。区切り記号としては、句点（、）、読点（。）、カンマ（，）、ピリオド（．）、改行・空白、感嘆符（！）、疑問符（？）、コロン（：）、セミコロン（；）、リーダー（二点リーダー（‥）、三点リーダー（…）など）、括弧（丸括弧（（））、角括弧（［］）など）、引用符（「」）、箇条書きの項目を示す記号（“＊”、“・”など）、無音区間を示す記号（＜ｓｐ＞（short pause））および絵文字（（＾＾））などがある。これらの区切り記号は、文単位あるいは文に含まれる語句単位で、音声認識によりテキスト化された文字列を区切る、文における区切りを示す記号である。分割部１１は、このルールに基づき、対話における発話が音声認識によりテキスト化された文字列を分割して、話し終わり判定部１２に出力する。以下では、対話における発話が音声認識によりテキスト化された文字列が分割部１１により分割された各文字列を、分割文字列と称する。

　図１の例では、分割部１１は、例えば、発話♯１３の音声認識により得られた「そちらの自動車保険に入ってまして、その自動車保険について聞きたいのですが、」という文字列を、「そちらの自動車保険に入ってまして、」という分割文字列と、「その自動車保険について聞きたいのですが、」という分割文字列とに分割して、話し終わり判定部１２に出力する。

　話し終わり判定部１２は、話し終わり判定モデル１４を用いて、分割部１１から出力された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かの判定を行う。

　話し終わり判定モデル１４は、対話における発話がテキスト化された文字列が区切り記号で分割された分割文字列に対応する発話、および、連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報（教師信号）が付与された学習データの機械学習により生成されるモデルである。

　図２は、話し終わり判定モデル１４の機械学習に用いられる学習データの一例を示す図である。以下では、図２に示す発話♯３４～♯３７に基づき生成される学習データを例として説明する。なお、以下では、区切り記号として、句読点を用いる場合を例として説明する。

　図２に示す例では、発話♯３４には句読点が含まれていないため、発話♯３４全体の「ご加入の自動車保険の変更についてのお問い合わせですね」という発話に対して、教師信号が付与される。発話が、話し終わりの発話であるか否かは、例えば、その発話の後に話者交代が起こったか否かにより判定することができる。一般に、顧客と応対担当者との対話などにおいては、例えば、顧客が問い合わせたい内容を話し終えた後、応対担当者がその問い合わせに対する回答を行い、応対担当者が回答を話し終えた後、顧客が更に問い合わせを行うといった対話構造が多い。すなわち、話者交代が起こると、その直前の発話は話者交代が起こる前の話者の話し終わりの発話であることが多いという傾向がある。したがって、発話の後に話者交代が起こった場合、その発話は、話し終わりの発話である可能性が高いと判定することができる。応対担当者による発話♯３４に続く発話♯３５は顧客による発話である。すなわち、発話♯３４の後に話者交代が起こっている。したがって、図２に示すように、「ご加入の自動車保険の変更についてのお問い合わせですね」という発話に対して、話し終わりであることを示す教師信号が付与される。

　また、発話♯３５は、読点が含まれているため、読点を区切りとして、「はい、」、「先日、」、「息子が車の免許を取りまして、」という３つの分割文字列に分割される。最初の「はい、」という発話の後には話者交代は起こっていないため、「はい、」という発話は話し終わりの発話ではないと判定することができる。したがって、図２に示すように、「はい、」という発話に対して、話し終わりの発話ではないことを示す教師信号が付与される。

　次に、文字列「はい、」と、文字列「はい、」に続く文字列「先日、」とを発話順に繋げた「はい、先日、」という発話に対して、教師信号が付与される。「はい、先日、」という発話の後には、話者交代は起こっていないため、「はい、先日、」という発話は話し終わりの発話ではないと判定することができる。したがって、図２に示すように、「はい、先日、」という発話に対して、話し終わりの発話ではないことを示す教師信号が付与される。以下同様にして、話し終わりの発話が登場するまで、分割文字列を発話順に繋げた文字列に対応する発話に対して、教師信号（話し終わりの発話ではないことを示す教師信号）が付与される。

　図２に示す例では、発話♯３６の後に、話者交代が起こっている。したがって、図２に示すように、前回の話者交代（応対担当者から顧客への話者交代）の後、今回の話者交代（顧客から応対担当者への話者交代）までの発話を繋げた「はい、先日、息子が車の免許を取りまして、息子が運転しても、自動車保険の対象になるように変更したいのですが。」という発話に対して、話し終わりの発話であることを示す教師信号が付与される。

　話し終わり判定モデル１４は、図２に示すような学習データを機械学習することで、生成することができる。

　話し終わり判定モデル１４は、例えば、前回の話し終わりの発話以降の分割文字列を発話順に判定対象の分割文字列とし、前回の話し終わりの発話以降の分割文字列を判定対象の分割文字列まで発話順に繋げた文字列を構成する単語のうち、末尾から所定数の単語に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定する。すなわち、話し終わり判定モデル１４は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列のうち、末尾から所定数の単語に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定する。

　また、話し終わり判定モデル１４は、前回の話し終わりの発話以降の分割文字列を判定対象の分割文字列まで発話順に繋げた文字列に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。すなわち、話し終わり判定モデル１４は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列全体に基づき、判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。

　また、話し終わり判定モデル１４は、分割文字列に含まれる単語の表記および分割文字列に含まれる単語の品詞の少なくとも一方に基づき、分割文字列に対応する発話が話し終わりの発話であるか否かを判定してもよい。この場合、例えば、形態素解析により、分割文字列に含まれる単語の品詞を特定することができる。

　以下では、分割文字列に含まれる単語の品詞に基づく、分割文字列に対応する発話が話し終わりの発話であるか否かの判定について説明する。なお、以下では、形態素解析の結果を、単語表記およびその品詞と、単語表記の区切り「／」とを用いて示すものとする。

　例えば、「お問い合わせですね」という文字列の形態素解析の結果は、「お（接頭辞）／問い合わせ（名詞）／です（助動詞）／ね（助詞）」となる。また、「はい、先日」という文字列の形態素解析の結果は、「はい（感動詞）／、（記号）／先日（名詞）」となる。

　例えば、文末の４つの単語の表記および品詞を用いて機械学習を行う場合、上記の表記および品詞と教師データとが機械学習装置に入力され、話し終わり判定用のモデルが作成される。「お（接頭辞）／問い合わせ（名詞）／です（助動詞）／ね（助詞）」という形態素解析の結果に対する教師データは、「話し終わりである」となり、「はい（感動詞）／、（記号）／先日（名詞）」という形態素解析の結果に対する教師データは、「話し終わりではない」となる。このような学習データを用いて作成されたモデルを用いることで、例えば、分割文字列の最後の単語の品詞が名詞である場合に、その分割文字列に対応する発話は、話し終わりの発話ではないと判定することができる。

　上述したように、話し終わり判定モデル１４による判定方法としては、種々の方法が考えられる。話し終わり判定モデル１４は、その判定方法に応じた学習データの機械学習により生成することができる。なお、自然言語を入力とする機械学習には、例えば、サポートベクターマシン（ＳＶＭ）を用いることができる。

　図１を再び参照すると、話し終わり判定部１２は、話し終わり判定モデル１４による判定結果と、第２ルール記憶部１５に予め記憶されたルール（以下、「第２ルール」と称する）に基づく、分割文字列に対応する発話が話し終わりの発話であるか否かの判定結果とに基づき、分割文字列に対応する発話が話し終わりの発話であるか否かの判定を行ってもよい。

　第２ルールとしては、例えば、分割文字列に対応する発話の後に話者が交代している場合、その分割文字列に対応する発話は話し終わりの発話であると判定するというルールがある。このルールに基づく場合、話し終わり判定部１２は、分割文字列に対応する発話の後に話者が交代している場合、その分割文字列に対応する発話は話し終わりの発話であると判定する。

　また、第２ルールとしては、例えば、分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、分割文字列に対応する発話は話し終わりの発話であると判定するというルールがある。一般に、話者の発話後、所定時間以上、次の発話が無い場合、話者は話し終わり、他の話者からの反応を待っていることが多いという傾向がある。したがって、このルールに基づく場合、話し終わり判定部１２は、分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、分割文字列に対応する発話は話し終わりの発話であると判定する。

　また、第２ルールとしては、例えば、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に含まれる単語数が所定数以下である場合、判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定するというルールがある。このルールに基づく場合、話し終わり判定部１２は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に含まれる単語数が所定数以下である場合、判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定する。

　そして、話し終わり判定部１２は、例えば、話し終わり判定モデル１４による判定結果および第２ルールに基づく判定結果の両方が、分割文字列に対応する発話が話し終わりの発話であることを示している場合、その分割文字列に対応する発話が話し終わりの発話であると判定する。あるいは、話し終わり判定部１２は、話し終わり判定モデル１４による判定結果および第２ルールに基づく判定結果のうち少なくとも一方が、分割文字列に対応する発話が話し終わりの発話であることを示している場合、その分割文字列に対応する発話が話し終わりの発話であると判定してもよい。あるいは、話し終わり判定部１２は、話し終わり判定モデル１４による判定結果および第２ルールに基づく判定結果のうち少なくとも一方が、分割文字列に対応する発話が話し終わりの発話ではないことを示している場合、その分割文字列に対応する発話が話し終わりの発話ではないと判定してもよい。

　上述したように、音声認識結果の単位で話し終わりの発話の判定を行うと、話し終わりの発話を正しく特定できない場合がある。このような場合について、図３を参照して説明する。

　図３においては、応対担当者による「振込みの案内ハガキが届いたのですね、では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、１つの処理単位として音声認識が行われ、音声認識結果の単位として出力されたとする。ここで、「振込みの案内ハガキが届いたのですね、」という発話は、振込みの案内ハガキへの対応という顧客の用件を確認する用件確認の発話に相当し、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話は、顧客の契約内容を確認する契約内容確認の発話に相当する。このように、「振込みの案内ハガキが～」という発話と、「では、ご契約内容を～」という発話とでは伝えたい内容が異なっている。したがって、「振込みの案内ハガキが～」という発話は、話者（応対担当者）が伝えたい内容（用件確認）を話し終えた話し終わりの発話に相当する。しかしながら、「振込みの案内ハガキが～」という発話と、「では、ご契約内容を～」という発話とが殆ど間を空けずに行われると、音声認識により、これらの発話が１つの音声認識結果の単位として出力されることがある。この場合、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という音声認識結果の単位でしか、話し終わりの発話であるか否かが判定されないため、「振込みの案内ハガキが届いたのですね、」という発話を話し終わりの発話として判定することができない。

　図４は、本実施形態に係る話し終わり判定装置１０における話し終わり判定方法について説明するための図である。図４においては、図３と同様に、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という発話が、１つの処理単位として音声認識が行われ、音声認識結果の単位として出力されたとする。

　上述したように、本実施形態においては、分割部１１は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる区切り記号である句読点で分割する。したがって、図４に示すように、分割部１１は、「振込みの案内ハガキが・・・お名前をお聞かせ頂けますか。」という文字列を、「振込みの案内ハガキが届いたのですね、」、「では、」、「ご契約内容を確認させて頂きますので、」、「お名前をお聞かせ頂けますか。」という４つの分割文字列に分割する。

　話し終わり判定部１２は、分割部１１により分割された最初の分割文字列「振込みの案内ハガキが届いたのですね、」に対応する発話が、話し終わりの発話であるか否かを、話し終わり判定モデル１４などを用いて判定する。話し終わり判定部１２は、分割文字列「振込みの案内ハガキが届いたのですね、」に対応する発話が話し終わりの発話であると判定すると、「振込みの案内ハガキが届いたのですね、」という発話を、話し終わりの単位の発話として出力する。分割文字列単位で、その分割文字列に対応する発話が話し終わりの発話であるか否かを判定することで、話者の話し終わりが音声認識結果の単位に含まれている場合にも、話し終わりの発話を特定することができる。

　次に、話し終わり判定部１２は、次の分割文字列「では、」に対応する発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部１２は、「では、」という発話が、話し終わりの発話ではないと判定すると、分割文字列「では、」と、次の分割文字列「ご契約内容を確認させて頂きますので、」とを繋げた「では、ご契約内容を確認させて頂きますので、」という発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部１２は、「では、ご契約内容を確認させて頂きますので、」という発話が、話し終わりの発話ではないと判定すると、その文字列と、次の分割文字列「お名前をお聞かせ頂けますか。」とを繋げた「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、話し終わりの発話であるか否かを判定する。話し終わり判定部１２は、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話が、話し終わりの発話であると判定すると、「では、ご契約内容を確認させて頂きますので、お名前をお聞かせ頂けますか。」という発話を、話し終わりの単位の発話として出力する。

　本実施形態においては、区切り記号が句読点である例を用いて説明したが、上述したように、区切り記号は、カンマ、ピリオド、改行・空白、感嘆符、疑問符、コロン、セミコロン、リーダー、括弧、引用符、箇条書きの項目を示す記号、無音区間を示す記号および絵文字などの、文における区切りを示す種々の記号であってよい。

　したがって、例えば、音声認識によりテキスト化された文字列が「はい＜ｓｐ＞先日＜ｓｐ＞息子が車の免許を取りまして＜ｓｐ＞」である場合、分割部１１は、無音区間を示す記号（＜ｓｐ＞）で文字列を分割する。すなわち、分割部１１は、「はい＜ｓｐ＞」という分割文字列と、「先日＜ｓｐ＞」という分割文字列と、「息子が車の免許を取りまして＜ｓｐ＞」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が「yes, my son took a driver’s license a few days ago.」である場合、分割部１１は、カンマおよびピリオドで文字列を分割する。すなわち、分割部１１は、「yes,」という分割文字列と、「my son took a driver’s license a few days ago.」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が以下に示すような、箇条書きを含む文字列であったとする。
　「次の書類が必要です：
　　＊住民票
　　＊印鑑証明書

　この場合、分割部１１は、コロン（：）および箇条書きの項目を示す記号（＊）で文字列を分割する。第１ルール記憶部１３に、区切り記号を文頭区切り記号と文末区切り記号とに分けて登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は区切り記号の後で分割するというルールを記憶することができる。このルールを適用すると、上述した例の場合、例えば（＊）を文頭区切り記号、（：）を文末区切り記号として登録すると、分割部１１は、「次の書類が必要です：」という分割文字列と、「＊住民票」という分割文字列と、「＊印鑑証明書」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が「教えて頂きたいことは次のことです；新しい住所、電話番号。」である場合、分割部１１は、セミコロン、句点および読点で文字列を分割する。すなわち、分割部１１は、「教えて頂きたいことは次のことです；」という分割文字列と、「新しい住所、」という分割文字列と、「電話番号。」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が「住所ですが…最近引っ越したんですよ。」である場合、分割部１１は、リーダーおよび読点で文字列を分割する。すなわち、分割部１１は、「住所ですが…」という分割文字列と、「最近引っ越したんですよ。」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が「ご本人を特定できるものが必要です。（例えば、免許証とか）」である場合、分割部１１は、括弧、句点および読点で文字列を分割する。第１ルール記憶部１３に、文頭区切り記号として左丸括弧（（）、文末区切り記号として、右丸括弧（））、読点（、）、句点（。）を登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は、区切り記号の後で分割するというルールを記憶することができる。このルールを適用すると、上述した例の場合、分割部１１は、「ご本人を特定できるものが必要です。」という分割文字列と、「（例えば、」という分割文字列と、「免許証とか）」という分割文字列とに分割する。

　また、例えば、音声認識によりテキスト化された文字列が、「友人がこう言っていました「゛満期まで変更できない゛らしいよ」。」である場合、分割部１１は、クォーテーションマーク（゛）、始括弧（「）、終括弧（」）、句点（。）で文字列を分割する。第１ルール記憶部１３に、文頭区切り記号として始括弧（「）、文末区切り記号として、終括弧（」）、読点（、）、句点（。）を登録し、文頭区切り記号の場合は区切り記号の前で分割し、文末区切り記号の場合は区切り記号の後で分割し、加えて文頭区切り記号または文末区切り記号の同じ属性の区切り記号が連続した場合、文頭区切り記号は最初の文頭区切り記号の前で分割し、文末区切り記号は最後の文末区切り記号の後で分割するというルールを記憶することができる。さらに、第１ルール記憶部１３に、区切り記号（゛）の出現数を記録し、出現数が奇数の場合はその区切り記号を文頭区切り記号として扱い、出現数が偶数の場合はその区切り記号を文末区切り記号として扱うというルールを記憶する。すなわち、1回目に出現した区切り記号（゛）は文頭区切り記号となるため、（「゛）は文頭区切りの連続となり、２回目に出現した区切記号（゛）は、文末区切り記号となる。このルールを適用すると、上述した例の場合、分割部１１は、「友人がこう言っていました」という分割文字列と、「「゛満期まで変更できない゛」という分割文字列と、「らしいよ」。」という分割文字列とに分割する。また、同じ記号、例えば、ダッシュ（―）が連続する場合、例外的に文頭区切り記号か文末区切り記号かに応じて、ひとまとまりの記号として扱うルールを設定してもよい。　

　また、例えば、音声認識によりテキスト化された文字列が、「半年前に引っ越しても、変更が間に合ってよかった（＾＾）」である場合、分割部１１は、句点および絵文字で文字列を分割する。すなわち、分割部１１は、「半年前に引っ越しても、」という分割文字列と、「変更が間に合ってよかった（＾＾）」という分割文字列とに分割する。

　このように本実施形態においては、話し終わり判定装置１０は、対話における発話が音声認識によりテキスト化された文字列を、音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する分割部１１と、話し終わり判定モデル１４を用いて、分割部１１により分割された分割文字列に対応する発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定部１２と、を備える。

　話し終わり判定モデル１４を用いて、対話における発話がテキスト化された文字列を区切り記号で分割した分割文字列に対応する発話が、話し終わりの発話であるか否かを判定することで、音声認識結果の単位の中に話し終わりの発話が含まれていても、その話し終わりの発話を特定することができるので、話し終わりの発話の判定の高精度化を図ることができる。

　以上、話し終わり判定装置１０について説明したが、話し終わり判定装置１０として機能させるために、コンピュータを用いることも可能である。そのようなコンピュータは、話し終わり判定装置１０の各機能を実現する処理内容を記述したプログラムを、該コンピュータの記憶部に格納しておき、該コンピュータのＣＰＵによってこのプログラムを読み出して実行させることで実現することができる。

　また、プログラムは、コンピュータが読取り可能な記録媒体に記録されていてもよい。このような記録媒体を用いれば、プログラムをコンピュータにインストールすることが可能である。ここで、プログラムが記録された記録媒体は、非一過性の記録媒体であってもよい。非一過性の記録媒体は、特に限定されるものではないが、例えば、ＣＤ－ＲＯＭおよびＤＶＤ－ＲＯＭなどの記録媒体であってもよい。

　上述の実施形態は代表的な例として説明したが、本発明の趣旨および範囲内で、多くの変更および置換が可能であることは当業者に明らかである。したがって、本発明は、上述の実施形態によって制限するものと解するべきではなく、請求の範囲から逸脱することなく、種々の変形および変更が可能である。例えば、実施形態の構成図に記載の複数の構成ブロックを１つに組み合わせたり、あるいは１つの構成ブロックを分割したりすることが可能である。

　１０　　話し終わり判定装置
　１１　　分割部
　１２　　話し終わり判定部
　１３　　第１ルール記憶部
　１４　　話し終わり判定モデル
　１５　　第２ルール記憶部

Claims

　複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置であって、
　前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割する句読点分割部と、
　対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記分割部により分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行う話し終わり判定部と、を備えることを特徴とする話し終わり判定装置。
　請求項１に記載の話し終わり判定装置において、
　前記区切り記号は、句読点であることを特徴とする話し終わり判定装置。
　請求項１または２に記載の話し終わり判定装置において、
　前記話し終わり判定モデルは、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列を構成する単語のうち、末尾から所定数の単語に基づき、前記判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　請求項１に記載の話し終わり判定装置において、
　前記話し終わり判定モデルは、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列に基づき、前記判定対象の分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　請求項１に記載の話し終わり判定装置において、
　前記話し終わり判定モデルは、前記分割文字列の表記および前記分割文字列に含まれる単語の品詞の少なくとも一方に基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　請求項１から５のいずれか一項に記載の話し終わり判定装置において、
　前記話し終わり判定部は、前記話し終わり判定モデルによる判定結果と、予め定められたルールに基づく、前記分割文字列に対応する発話が話し終わりの発話であるか否かの判定結果とに基づき、前記判定を行うことを特徴とする話し終わり判定装置。
　請求項６に記載の話し終わり判定装置において、
　前記話し終わり判定部は、前回の話し終わりの発話以降の分割文字列を、判定対象の分割文字列まで発話順に繋げた文字列を構成する単語数が所定数以下である場合、前記判定対象の分割文字列に対応する発話は話し終わりの発話ではないと判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　請求項６に記載の話し終わり判定装置において、
　前記話し終わり判定部は、前記分割文字列に対応する発話の後に話者が交代している場合、前記分割文字列に対応する発話は話し終わりの発話であると判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　請求項６に記載の話し終わり判定装置において、
　前記話し終わり判定部は、前記分割文字列に対応する発話の後、所定時間以上、次の発話が無い場合、前記分割文字列に対応する発話は話し終わりの発話であると判定するというルールに基づき、前記分割文字列に対応する発話が話し終わりの発話であるか否かを判定することを特徴とする話し終わり判定装置。
　複数の話者による対話における発話が、話者の話し終わりの発話であるか否かを判定する話し終わり判定装置における話し終わり判定方法であって、
　前記対話における発話が音声認識によりテキスト化された文字列を、前記音声認識の結果に含まれる、文における区切りを示す区切り記号で分割するステップと、
　対話における発話がテキスト化された文字列を前記区切り記号で分割した分割文字列に対応する発話および連続する分割文字列を発話順に繋げた文字列に対応する発話に対して、話し終わりの発話であるか否かを示す情報が付与された学習データの機械学習により生成された話し終わり判定モデルを用いて、前記文字列が前記区切り記号で分割された分割文字列に対応する発話が、話し終わりの発話であるか否かの判定を行うステップと、を含むことを特徴とする話し終わり判定方法。
　コンピュータを請求項１から９のいずれか一項に記載の話し終わり判定装置として機能させるためのプログラム。