WO2022070792A1

WO2022070792A1 - パラメータ設定システム

Info

Publication number: WO2022070792A1
Application number: PCT/JP2021/032707
Authority: WO
Inventors: 智子川瀬; 歩坂口; 信彦仲
Original assignee: 株式会社Ｎｔｔドコモ
Priority date: 2020-09-29
Filing date: 2021-09-06
Publication date: 2022-04-07
Also published as: JPWO2022070792A1

Abstract

対話システムにおいて、ユーザの発話に対して適切に応答を行ってＵＸを向上させる。　パラメータ設定システム１は、ユーザとの間で対話を行う対話システムに含まれるシステムであって、対話システムは、対話に係る情報をユーザに提示する提示部２１と、ユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部２２と、入力された音声から音声認識を行う音声区間を検出する検出部２３と、検出された音声区間の音声に対して音声認識を行う音声認識部１１とを備え、パラメータ設定システムは、ユーザに提示される情報を決定する決定部１２と、ユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータを設定する設定部１３とを備える。

Description

パラメータ設定システム

　本発明は、ユーザとの間で対話を行う対話システムに係るパラメータを設定するパラメータ設定システムに関する。

　従来から、ユーザの発話を音声認識して、音声認識結果に対して自動的に応答を行う対話システムが知られている。このような対話システムでは、通常、ユーザからの対話に係る音声を入力して、入力した音声から音声認識を行う区間である音声区間を検出して、検出した音声区間に対して音声認識を行う。対話システムでは、検出された音声区間の後に応答を行うため、適切な応答を行うためには音声区間の検出を適切に行う必要がある。

　音声区間の検出は、例えば、ユーザの発話が終了してからユーザの発話がなされていない時間が、閾値であるポーズ長に到達したタイミングを音声区間の終端とすることによって行われる。ポーズ長が長いとユーザの発話に対して対話システムからの応答が遅くなり、ＵＸ（ユーザエクスペリエンス）が低下する。一方でポーズ長が短いとユーザの発話の途中で音声区間の終端としてしまうおそれがある。この場合、ユーザの発話を適切に音声認識することができず、適切な応答を行えない。

　特許文献１には、ユーザの発話に予め設定したキーワード（即ち、想定されるユーザの発話）が含まれているか判断し、当該判断に応じて上記のポーズ長を設定することが示されている。

国際公開第２０１８／０７８８８５号

　特許文献１に示される方法では、応答のシナリオにおいて、キーワードの設定が困難である場合、必ずしも適切なポーズ長を設定することができない。例えば、対話システムが、「氏名を教えてください」と質問する場合、予めキーワードを設定することができない。そのため、多くの人が自分の名前は即答できるにもかかわらず、対話システムからの応答が遅くなる。その結果、特許文献１に示される方法では、適切な応答を行うことが困難な場合がある。

　本発明の一実施形態は、上記に鑑みてなされたものであり、対話システムにおいて、ユーザの発話に対して適切に応答を行ってＵＸを向上させることができるパラメータ設定システムを提供することを目的とする。

　上記の目的を達成するために、本発明の一実施形態に係るパラメータ設定システムは、ユーザとの間で対話を行う対話システムに含まれるパラメータ設定システムであって、対話システムは、対話に係る情報をユーザに提示する提示部と、提示部によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部と、入力部によって入力された音声から音声認識を行う音声区間を検出する検出部と、検出部によって検出された音声区間の音声に対して音声認識を行う音声認識部と、を備え、パラメータ設定システムは、提示部によってユーザに提示される情報を決定する決定部と、決定部によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータを設定する設定部と、を備える。

　本発明の一実施形態に係るパラメータ設定システムでは、ユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータが設定される。このように設定されたパラメータを用いることで、ユーザに提示される情報に応じたユーザの発話しやすさを考慮した音声区間の検出が行われる。その結果、対話システムにおいて、ユーザの発話に対して適切に応答を行ってＵＸを向上させることができる。

　本発明の一実施形態によれば、対話システムにおいて、ユーザの発話に対して適切に応答を行ってＵＸを向上させることができる。

本発明の実施形態に係るパラメータ設定システムの構成を示す図である。パラメータ設定システムに予め記憶されるＶＡＤパラメータの例である。パラメータ設定システムに予め記憶されるＶＡＤパラメータの別の例である。本発明の実施形態に係るパラメータ設定システムで実行される処理を示すシーケンス図である。本発明の実施形態に係るパラメータ設定システムに含まれるサーバ及びクライアントのハードウェア構成を示す図である。

　以下、図面と共に本発明に係るパラメータ設定システムの実施形態について詳細に説明する。なお、図面の説明においては同一要素には同一符号を付し、重複する説明を省略する。

　図１に本実施形態に係るパラメータ設定システム１を示す。パラメータ設定システム１は、サーバ１０と、クライアント２０と含む。パラメータ設定システム１は、ユーザとの間で対話を行う対話システムに含まれる。本実施形態においては、対話システムは、パラメータ設定システム１と同様の装置構成（システム構成）である。但し、対話システムは、パラメータ設定システム１以外の装置（システム）を含んでいてもよい。

　対話システムは、ユーザの発話に係る音声を入力すると共に音声の入力に応じて自動的に応答を行って対話を行う。本実施形態では、対話システムからユーザへは音声で情報を提示する。即ち、本実施形態に係る対話システムは、ユーザと音声で対話する。以下では、ユーザから対話システムへの発話をユーザ発話と呼び、対話システムからユーザへの発話をシステム発話と呼ぶ。但し、対話システムからユーザへの情報の提示は、必ずしも音声によるものでなくてもよく、テキストの表示等によるものであってもよい。対話システムは、例えば、ユーザからの電話に対して自動的に応答するコールセンターに利用される。あるいは、対話システムは、自動応答等を行う任意の対話に用いられてもよい。

　サーバ１０は、ユーザからの対話に係る音声に対して音声認識を行うと共に、システム発話を生成する装置（システム）である。サーバ１０は、例えば、サーバ装置等のコンピュータによって構成されている。サーバ１０は、複数のコンピュータによって構成されていてもよい。例えば、サーバ１０は、後述するように複数の機能を有するが、機能毎の装置によって構成されていてもよい。

　クライアント２０は、ユーザによって用いられ、ユーザからの対話に係る音声を入力すると共に、システム発話を再生（音声出力）する装置（システム）である。クライアント２０は、例えば、ＰＣ（パーソナルコンピュータ）、スマートフォン又は専用端末等のコンピュータによって構成されている。クライアント２０は、音声を入力する装置（例えば、マイク）及び音声を出力する装置（例えば、スピーカ）を備えている。サーバ１０及びクライアント２０は、通信機能を有しており、通信網を介して互いに情報の送受信を行えるようになっている。

　対話システムとユーザとの間の対話の概要を説明する。サーバ１０は、システム発話を生成する。システム発話は、その前のユーザ発話に応じたものであってもよい。クライアント２０は、サーバ１０によって生成されたシステム発話を再生する。

　クライアント２０におけるシステム発話の再生に応じて、ユーザ発話が行われる。ユーザ発話は、例えば、システム発話に対しての回答を行うものである。クライアント２０は、ユーザからの対話に係る音声を入力する。ユーザからの対話に係る音声には、ユーザ発話が含まれる。クライアント２０は、入力した音声から音声認識を行う音声区間を検出する。即ち、クライアント２０は、ＶＡＤ（Voice　Activity　Detection）を行う。ＶＡＤは、ユーザ発話の部分が検出する音声区間に含まれるように行われる。サーバ１０は、検出された音声区間の音声に対して音声認識を行う。音声認識によって、ユーザ発話をテキストで得ることができる。サーバ１０は、ユーザ発話テキストに基づく処理、例えば、次のシステム発話の生成等を行う。

　本実施形態に係るパラメータ設定システム１は、ＶＡＤに用いるパラメータであるＶＡＤパラメータを設定するシステムである。設定対象となるＶＡＤパラメータは、例えば、音声区間の終端を決めるための、ユーザの発話が終了してからユーザの発話がなされていない時間の閾値であるポーズ長である。通常、音声対話では、高いＵＸのために、ユーザ発話が終端してから約１秒以内でシステム発話を再生することが求められる。これを考慮して、１秒から音声認識等のシステム発話を生成するための処理時間を引いた時間をポーズ長として設定することが考えられる。一方で、ユーザが滞りなく発話することが難しい内容の発話をユーザに求める場合、上記のポーズ長設定ではユーザ発話途中を誤って音声区間の終端としてしまうおそれがある。このようなケースの例としては、ユーザに住所、連続番号又は自由回答を求める場合が考えられる。上記のようにＶＡＤでは、語尾まで漏らさず区間検出することとレスポンスとのトレードオフがある。

　本実施形態では、上記を考慮して適切なＶＡＤパラメータを設定する。なお、設定対象となるＶＡＤパラメータは、ポーズ長以外であってもよい。例えば、ポーズ長に代えて、又はポーズ長に加えて、検出する音声区間の最大の長さである最大発話長を設定対象となるＶＡＤパラメータとしてもよい。あるいは、それ以外のパラメータを設定対象のＶＡＤパラメータとしてもよい。

　引き続いて、本実施形態に係るパラメータ設定システム１に含まれるサーバ１０と、クライアント２０との本実施形態に係る機能について説明する。なお、以下に説明する機能以外にも、サーバ１０と、クライアント２０とは、通常の対話システムが備える機能を有していてもよい。図１に示すようにサーバ１０は、音声認識部１１と、決定部１２と、サーバ側設定部１３とを含んで構成される。

　音声認識部１１は、クライアント２０（の後述する検出部２３）によって検出された音声区間の音声、即ち、ＶＡＤ後の音声に対して音声認識を行う機能部である。音声認識部１１は、クライアント２０から送信されたＶＡＤ後の音声（音声データ）を受信して取得する。音声認識部１１は、取得した音声に対して音声認識（ＡＳＲ：Automatic　Speech　Recognition）を行う。音声認識部１１は、ＡＳＲの結果をテキストとして取得する。音声区間の音声は、ユーザ発話の音声であり、ＡＳＲの結果のテキストはユーザ発話を書き起こしたテキストに相当する。音声認識部１１は、取得したテキストを決定部１２に出力する。

　ＡＳＲ自体は、従来の任意のＡＳＲの方法で行うことができる。例えば、音声認識部１１は、ＡＳＲモデルを含む従来のＡＳＲエンジンを予め記憶しておき、ＡＳＲエンジンを用いてＡＳＲを行う。なお、音声認識部１１は、ＡＳＲを行うＡＳＲサーバとして、装置として独立していてもよい。

　決定部１２は、クライアント２０（の後述する提示部２１）によってユーザに提示される情報を決定する機能部である。決定部１２は、ユーザに提示される情報としてシステム発話に係るシステム発話テキスト（発話文）を決定する。決定部１２は、音声認識部１１からユーザ発話に係るユーザ発話テキストを入力して、入力したユーザ発話テキストに基づいてシステム発話テキストを決定する。あるいは、決定部１２は、音声認識部１１からのテキストを用いずにシステム発話テキストを決定してもよい。例えば、クライアント２０を介したサーバ１０へのユーザの操作に応じてシステム発話テキストを決定してもよい。

　上記のシステム発話テキストの決定自体は、従来の任意の方法で行うことができる。例えば、自然言語理解（ＮＬＵ：Natural　Language　Understanding）を行うＮＬＵエンジンが用いられて上記の決定が行われてもよい。ＮＬＵエンジンは、ＮＬＵモデル、意図解釈（意図理解）エンジン、要約エンジン、シナリオを含む。シナリオは、自動応答を行うためのルールを記述した情報であり、例えば、ＡＩＭＬ（Artificial　Intelligence　Markup　Language）によって記述される。また、ＮＬＵエンジンには、上記の決定に用いられるデータベース（例えば、質問のテキストの入力に応じて回答のテキストを出力するＱ＆Ａデータベース）が接続されて、上記の決定に用いられてもよい。

　ユーザと対話システムとの対話によっては、意図解釈のため、対話システムがユーザに所定の種別の情報を求めることがある。当該情報の種別としては、例えば、ユーザの氏名又は住所がある。ユーザに求める情報の種別をスロットと呼ぶ。対話システムにおいて、スロットの情報を抽出する機能をスロットフィル機能と呼ばれる。スロットの状態から、システム発話テキストの決定又はその他の処理が行われる。決定部１２におけるスロットの状態に応じた処理は、従来のスロットフィル機能で行うことができる。

　スロットの情報が必要である場合、決定部１２は、ユーザにスロットの情報の発話を促すテキストをシステム発話テキストとして決定する。例えば、ユーザの氏名が必要である場合、「氏名を教えてください」というテキストが、システム発話テキストとして決定される。システム発話テキストの候補となるテキストは、例えば、上述したシナリオに設定されている。決定部１２は、決定したシステム発話によってユーザに求められるスロットを示す情報をサーバ側設定部１３に出力する。あるいは、決定部１２は、決定したシステム発話テキストをサーバ側設定部１３に出力する。なお、決定部１２の上記の機能は、本実施形態に係るパラメータ設定システム１としての機能部である。なお、決定部１２のうち上記の決定を行う部分は、ＮＬＵを行うＮＬＵサーバとして、装置として独立していてもよい。

　また、決定部１２は、決定したシステム発話テキストの音声、即ち、システム発話の音声（音声データ）を取得する。例えば、決定部１２は、決定したシステム発話テキストの音声合成（ＴＴＳ：Text-To-Speech）を行ってシステム発話の音声を生成する。ＴＴＳ自体は、従来の任意のＴＴＳの方法で行うことができる。例えば、決定部１２は、ＴＴＳモデルを含む従来のＴＴＳエンジンを予め記憶しておき、ＴＴＳエンジンを用いてＴＴＳを行う。なお、決定部１２のうちＴＴＳを行う部分は、ＴＴＳを行うＴＴＳサーバとして、装置として独立していてもよい。あるいは、決定部１２は、システム発話に対応する音声を予め記憶しておき、記憶した音声をシステム発話の音声として読み出してもよい。決定部１２は、取得したシステム発話の音声をクライアント２０に送信する。

　なお、対話システムからユーザへの情報の提示が、音声ではなく、例えば、テキストの表示で行われる場合には、ＴＴＳが行われる必要はない。その場合、決定部１２は、決定したシステム発話テキストをクライアント２０に送信すればよい。

　サーバ側設定部１３は、決定部１２によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて音声区間の検出に用いるパラメータ（ＶＡＤパラメータ）を設定する機能部（サーバ１０側に設けられる設定部）である。サーバ側設定部１３は、クライアント２０（の後述する提示部２１）によってユーザに提示される情報に対してユーザが発話すべき情報の種別に基づいて、ＶＡＤパラメータを設定してもよい。サーバ側設定部１３は、クライアント２０（の後述する提示部２１）によってユーザに提示される情報に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいて、ＶＡＤパラメータを設定してもよい。サーバ側設定部１３は、以下のようにパラメータを設定する。

　サーバ側設定部１３は、決定部１２から、決定したシステム発話によってユーザに求められるスロットを示す情報又は決定したシステム発話テキストを入力する。上述したようにスロットは、システム発話に対してユーザが発話すべき情報の種別である。サーバ側設定部１３は、予めユーザに求められるスロット又はシステム発話テキストに対応付けてＶＡＤパラメータを記憶している。例えば、図２に示すテーブルによってスロットとＶＡＤパラメータとを対応付けて記憶している。あるいは、図３に示すようにシステム発話テキストとＶＡＤパラメータとを対応付けて記憶している。なお、システム発話テキストとＶＡＤパラメータとの対応付けは、決定部１２によって用いられるシナリオにおいて行われていてよい。図２及び図３において、ＶＡＤパラメータの「Ａ」はポーズ長であり、「Ｂ」は最大発話長であり、それぞれの数値の単位は秒である。スロット又はテキストに対応付けられて記憶されるＶＡＤパラメータは、例えば、予め対話システムを運用するサービス運用者によってサーバ１０に入力されて記憶されている。

　サーバ側設定部１３は、上記のように記憶した情報において、決定部１２から入力したスロットを示す情報又はテキストに対応付けられたＶＡＤパラメータを後述するＶＡＤに用いられるＶＡＤパラメータとして設定する。なお、決定部１２によるユーザに提示される情報の決定と、サーバ側設定部１３によるＶＡＤパラメータの設定とは、まとめて一つの処理として行われてもよい。

　サーバ側設定部１３によって設定されるＶＡＤパラメータは、ＶＡＤパラメータの設定の基準となるシステム発話に対するユーザの発話しやすさの想定に応じたものとされる。例えば、ユーザが回答に間を開ける、即ち、ユーザが滞りなく発話することが難しいと考えられる場合、ポーズ長及び最大発話長を長く設定する。ユーザが回答に間を開けない、即ち、ユーザが滞りなく発話すると考えられる場合、ポーズ長及び最大発話長を短く設定する。

　例えば、図２及び図３に示すように、システム発話がユーザに氏名を聞くものである場合、ユーザは自分の氏名については滞りなく発話できると考えられるため、ポーズ長及び最大発話長を短く設定する。システム発話がユーザに住所を聞くものである場合、住所の発話は氏名の発話よりも通常長くなり、氏名に比べて滞りなく発話することが難しいと考えられるため、ポーズ長及び最大発話長を長く設定する。同様に連続番号又は自由回答等をユーザに聞く場合も、住所と同様にポーズ長及び最大発話長を長く設定する。

　サーバ側設定部１３は、予めユーザに求められるスロット又はシステム発話テキストに対応付けて、それらに対するユーザの回答の想定長及び難易度を記憶しておき、それらに基づいてＶＡＤパラメータを設定してもよい。回答の想定長は、例えば、読み仮名の文字列長である。回答の難易度は、例えば、ユーザの回答がどの程度困難かを示す数値であり、具体的には、数値が高い程、回答が困難であることを示す数値である。以下のような、３段階の数値の何れかを設定することができる。難易度１は、氏名等の誰でも即答できるものである。難易度２は、住所等の一部のユーザは資料を見たり考えたりしながら回答するものである。難易度３は、契約番号又は自由回答等のほとんどのユーザは資料を見たり考えたりしながら回答するものである。スロット又はテキストに対応付けられて記憶される回答の想定長及び難易度は、例えば、予め対話システムを運用するサービス運用者によってサーバ１０に入力されて記憶されている。

　サーバ側設定部１３は、上記のように記憶した情報において、決定部１２から入力したスロットを示す情報又はテキストに対応付けられたユーザの回答の想定長及び難易度を示す情報を取得する。サーバ側設定部１３は、取得した情報から、例えば、予め用意された基準（例えば、数式）によってＶＡＤパラメータを算出して、算出したＶＡＤパラメータを後述するＶＡＤに用いられるＶＡＤパラメータとして設定する。算出に用いる基準は、例えば、上述した考え方に沿うものが用いられる。

　サーバ側設定部１３は、設定したＶＡＤパラメータをクライアント２０に送信する。サーバ側設定部１３によるＶＡＤパラメータのクライアント２０への送信は、決定部１２によるＶＡＤパラメータの設定に用いられるシステム発話の音声のクライアント２０への送信と概ね同じタイミングで行われる。これらが同時にクライアント２０に送信されてもよい。送信されるＶＡＤパラメータは、ＶＡＤパラメータの決定に用いられたシステム発話がクライアント２０（の後述する提示部２１）によって再生された直後のユーザ発話のＶＡＤに用いられる。

　サーバ側設定部１３によるＶＡＤパラメータの決定及び当該ＶＡＤパラメータのクライアント２０への送信は、決定部１２によって、ＶＡＤパラメータの設定に用いられるシステム発話（システム発話テキスト）が決定された後に続けて行われ、当該システム発話の再生の直後にＶＡＤが行われるまでに行われる。このように、サーバ側設定部１３によるＶＡＤパラメータの決定は、決定部１２によってシステム発話が決定されるタイミングで行われる。

　なお、サーバ側設定部１３は、本実施形態に係るパラメータ設定システム１としての機能部である。サーバ側設定部１３は、上述したＮＬＵサーバ又はＡＳＲサーバに含まれてもよい。あるいは、サーバ側設定部１３は、ＮＬＵサーバ及びＡＳＲサーバとは独立したこれらのサーバとクライアント２０との間のデータの流れを制御する制御サーバに含まれてもよい。以上が、サーバ１０の機能である。

　図１に示すようにクライアント２０は、提示部２１と、入力部２２と、検出部２３と、クライアント側設定部２４を含んで構成される。

　提示部２１は、対話に係る情報をユーザに提示する機能部である。例えば、提示部２１は、サーバ１０（の決定部１２）から送信されたシステム発話の音声を受信し、受信した音声をクライアント２０が備えるスピーカ等の音声の出力を行う装置によって再生（音声出力）する。ユーザは、クライアント２０（の提示部２１）から発せられるシステム発話を聞き、それに対する発話（回答）を行う。なお、対話システムからユーザへの情報の提示が、音声ではなく、例えば、テキストの表示で行われる場合には、提示部２１は、サーバ１０（の決定部１２）から送信されたテキストを受信して、受信したテキストを表示してユーザに提示する。

　入力部２２は、提示部２１によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する機能部である。入力部２２は、クライアント２０が備えるマイク等の音声の入力を行う装置によって、ユーザからの対話に係る音声を入力して録音する。入力部２２は、対話システムによる対話が行われている間、継続的に音声を入力している。入力部２２は、入力した音声を検出部２３に出力する。

　検出部２３は、入力部２２によって入力された音声から音声認識を行う音声区間を検出する機能部である。即ち、検出部２３は、ＶＡＤを行う機能部である。検出部２３は、以下のようにＶＡＤを行う。

　検出部２３は、サーバ１０（のサーバ側設定部１３）から送信されたＶＡＤパラメータを受信する。検出部２３は、入力部２２から音声を入力する。検出部２３は、受信したＶＡＤパラメータを用いて、入力した音声に対してＶＡＤを行う。ＶＡＤ自体は、従来の任意のＶＡＤの方法で行うことができる。なお、サーバ１０から送信される種別以外のＶＡＤパラメータは、例えば、予め設定されて検出部２３に記憶されたもの（デフォルトパラメータ）が用いられる。検出部２３は、ＶＡＤによって得られたＶＡＤ後の音声をサーバ１０に送信する。

　検出部２３のＶＡＤに用いられるＶＡＤパラメータは、以下に示すようにサーバ１０から送信されたＶＡＤパラメータに基づいて、クライアント側設定部２４によって更に設定された（修正された）ものが用いられてもよい。

　クライアント側設定部２４は、音声区間の検出に用いるパラメータを設定する機能部（クライアント２０側に設けられる設定部）である。クライアント側設定部２４は、入力部２２によって入力された音声からユーザの話速を検出し、検出した話速にも基づいてＶＡＤパラメータを設定する。

　例えば、クライアント側設定部２４は、サーバ１０によって設定されたＶＡＤパラメータに基づいて、更にＶＡＤパラメータを設定する、即ち、ＶＡＤパラメータを修正する。この場合、クライアント側設定部２４は、検出部２３からＶＡＤ後の音声を入力する。ここで、検出部２３からクライアント側設定部２４に入力されるＶＡＤ後の音声は、音声区間の終端までのものではなく、音声区間の始端から一定期間（例えば、数秒）のものである。なお、サーバ１０によって設定されるＶＡＤパラメータであるポーズ長及び最大発話長は、音声区間の終端を決めるためのものである。そのため、検出部２３は、サーバ１０によって設定されるＶＡＤパラメータを用いずにＶＡＤを開始し、音声区間の始端から一定期間の音声を検出することができる。

　クライアント側設定部２４は、入力した音声からユーザの話速を検出する。話速の検出は、従来の方法で行うことができる。クライアント側設定部２４は、検出した話速に基づいて、サーバ１０から送信されたＶＡＤパラメータであるポーズ長及び最大発話長を修正する。例えば、話速が遅い場合、クライアント側設定部２４は、サーバ１０から送信されたポーズ長及び最大発話長を大きくする。具体的には、話速が予め設定した閾値よりも小さい場合、クライアント側設定部２４は、サーバ１０から送信されたポーズ長及び最大発話長を予め設定された一定値大きくする。ユーザの話速が遅い場合、ポーズ長及び最大発話長を大きくすることで適切に音声区間を検出することができる。

　クライアント側設定部２４は、修正したＶＡＤパラメータを検出部２３に通知し、検出部２３は、修正後のＶＡＤパラメータを用いて始端を検出した音声区間についての終端を検出する。なお、上記では、ＶＡＤパラメータの修正は、修正後のＶＡＤパラメータが用いられて終端が検出される音声区間の音声が用いられて行われたが、当該音声区間以前の音声区間の音声が用いられて行われてもよい。即ち、修正後のＶＡＤパラメータが用いられて終端が検出される音声区間以前の音声区間の音声から、ユーザの話速を検出してＶＡＤパラメータを設定（修正）してもよい。

　また、クライアント側設定部２４は、入力部２２によって入力された音声の特徴量のうち、話速以外の特徴量を検出して、検出した特徴量に基づいてＶＡＤパラメータを設定してもよい。設定されるＶＡＤパラメータは、サーバ１０によって設定される種別以外のＶＡＤパラメータである。例えば、設定されるＶＡＤパラメータは、各時点における音声がユーザ発話に係る音声状態か非音声状態かを判断するための遷移確率、又は音声区間を決定（検出）するための音声尤度の閾値である。クライアント側設定部２４は、入力部２２によって入力された音声（例えば、音声区間の音声）の雑音レベルを特徴量として検出し、雑音レベルに基づいてＶＡＤパラメータを設定する。

　この際、上記の話速を検出する場合と同様に、ＶＡＤパラメータの設定は、設定後のＶＡＤパラメータが用いられて終端が検出される音声区間の音声が用いられて行われてもよい。この場合、音声区間の始端から一定期間（例えば、１秒程度）の音声が用いられる。あるいは、ＶＡＤパラメータの設定は、設定後のＶＡＤパラメータが用いられて終端が検出される音声区間以前の音声区間の音声が用いられて行われてもよい。

　クライアント側設定部２４は、上記のように設定したＶＡＤパラメータを検出部２３に通知し、検出部２３は、設定したＶＡＤパラメータを用いて音声区間を検出する。なお、音声の特徴量に基づいて設定されるＶＡＤパラメータは、上記の遷移確率又は音声尤度の閾値以外でもよい。また、ＶＡＤパラメータの設定に用いる特徴量は、雑音レベル以外であってもよい。クライアント側設定部２４は、本実施形態に係るパラメータ設定システム１としての機能部である。以上が、クライアント２０の機能である。

　引き続いて、図４のシーケンス図を用いて、本実施形態に係るパラメータ設定システム１で実行される処理（パラメータ設定システム１が行う動作方法）を説明する。本処理は、ユーザとパラメータ設定システム１を含む対話システムとの間で対話が行われる際の処理である。

　本処理では、サーバ１０において、決定部１２によってシステム発話テキストが決定される（Ｓ０１）。この決定は、それ以前のユーザ発話又はユーザの操作等に応じたものである。続いて、サーバ側設定部１３によって、システム発話テキストに基づいてＶＡＤパラメータが決定される（Ｓ０２）。また、決定部１２によって、決定したシステム発話テキストの音声合成が行われる（Ｓ０３）。設定されたＶＡＤパラメータ及び音声合成によって得られたシステム発話の音声は、サーバ１０からクライアント２０に送信される（Ｓ０４）。これらの送信は別々に行われてもよいし、あわせて行われてもよい。

　送信先のクライアント２０では、ＶＡＤパラメータ及びシステム発話の音声が受信される（Ｓ０４）。続いて、提示部２１によって、システム発話の音声の再生が行われる（Ｓ０５）。システム発話の再生を受けて、ユーザ発話が行われる。また、入力部２２によってユーザからの対話に係る音声が入力される（Ｓ０６）。なお、入力部２２による当該音声の入力は、このタイミングで行われるわけではなく、ユーザと対話システムとの間で対話が行われる際に継続的に行われている。ここで入力部２２によって入力される音声には、上記のユーザ発話が含まれている。

　続いて、クライアント側設定部２４によって、入力部２２によって入力された音声に基づいて、ＶＡＤパラメータが設定される（Ｓ０７）。ここでのＶＡＤパラメータの設定は、ユーザの話速に基づくサーバ１０で設定されたＶＡＤパラメータの修正、又はそれ以外のＶＡＤパラメータの設定である。なお、クライアント側設定部２４によるパラメータの設定は、上記の何れかのみ行われてもよく、あるいは、行われなくてもよい。続いて、上記のように設定されたＶＡＤパラメータが用いられて、検出部２３によって、ユーザからの対話に係る音声に対してＶＡＤが行われる（Ｓ０８）。ＶＡＤ後の音声は、クライアント２０からサーバ１０に送信される。

　送信先のサーバ１０では、ＶＡＤ後の音声が受信される（Ｓ０９）。続いて、音声認識部１１によって、ＶＡＤ後の音声に対して音声認識が行われる（Ｓ１０）。続いて、サーバ１０では、音声認識後のユーザ発話テキストに対する処理が行われる（Ｓ１１）。例えば、音声認識後のテキストに基づいて次のシステム発話テキストが決定される。この場合、上述したＳ０１からの処理が繰り返される。以上が、本実施形態に係るパラメータ設定システム１で実行される処理である。

　本実施形態では、ユーザに提示される情報であるシステム発話が決定されるタイミングで、システム発話に基づいてＶＡＤパラメータが設定される。このように設定されたＶＡＤパラメータを用いることで、ユーザに提示される情報に応じたユーザの発話しやすさを考慮した音声区間の検出が行われる。その結果、対話システムにおいて、上述したキーワードの設定が困難である場合等であっても、ユーザの発話に対して適切に応答を行ってＵＸを向上させることができる。例えば、ユーザが滞りなく発話すると考えられる場合には、発話が終了した後、直ぐに音声認識を行うことができ、その結果、ユーザを待たせずに対話システムからの応答をすることができる。一方、ユーザが滞りなく発話することが難しいと考えられる場合には、ユーザが滞りなく発話すると考えられる場合と比べて直ぐに音声認識を行うことができないが、語尾まで漏らさずに音声区間の検出をすることができる。その結果、音声区間が適切に検出されずに音声認識の誤りが生じる可能性を低減することができ、対話システムから適切な応答をすることができる。

　また、本実施形態のように、システム発話に対してユーザが発話すべき情報の種別、例えば、上述したスロットに基づいてＶＡＤパラメータが設定されてもよい。あるいは、システム発話に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいてＶＡＤパラメータが設定されてもよい。これらは、ユーザの発話しやすさを適切に反映し得るものである。そのため、この構成によれば、システム発話に基づいたＶＡＤを適切かつ確実に行うことができ、その結果ＵＸを確実に向上させることができる。但し、システム発話に基づくＶＡＤパラメータの設定は、必ずしも上記のように行われる必要はなく、上述した考え方によって行われるものであれば、どのように行われてもよい。

　また、本実施形態のように、システム発話に基づいて設定されるＶＡＤパラメータとしては、ポーズ長及び最大発話長とすることができる。この構成によれば、システム発話に基づいたＶＡＤを適切かつ確実に行うことができ、その結果ＵＸを確実に向上させることができる。なお、ポーズ長及び最大発話長の何れか一方のみを、システム発話に基づいて設定されるＶＡＤパラメータとしてもよい。また、システム発話に基づいて設定されるＶＡＤパラメータは、必ずしも上記に限られず、システム発話に基づいて適切にＶＡＤを行い得るものであれば、上記以外のものであってもよい。

　また、上述したように入力された音声から検出されたユーザの話速にも基づいてＶＡＤパラメータを設定してもよい。この構成によれば、ユーザの話速にも応じてＶＡＤを適切に行うことができ、その結果ＵＸを更に向上させることができる。但し、ユーザの話速にも基づいたＶＡＤパラメータの設定は、必ずしも行われなくてもよい。

　なお、本実施形態において、サーバ１０に設けられた機能部の一部又は全部が、クライアント２０に設けられていてもよい。また、対話システムとして有効に機能する限り、クライアント２０に設けられた機能部の一部がサーバ１０に設けられていてもよい。また、パラメータ設定システム１の必須の構成要素は、決定部１２及びサーバ側設定部１３である。クライアント側設定部２４も、パラメータ設定システム１の構成要素であるが、上述したように任意的な構成要素である。

　なお、上記実施形態の説明に用いたブロック図は、機能単位のブロックを示している。これらの機能ブロック（構成部）は、ハードウェア及びソフトウェアの少なくとも一方の任意の組み合わせによって実現される。また、各機能ブロックの実現方法は特に限定されない。すなわち、各機能ブロックは、物理的又は論理的に結合した１つの装置を用いて実現されてもよいし、物理的又は論理的に分離した２つ以上の装置を直接的又は間接的に（例えば、有線、無線などを用いて）接続し、これら複数の装置を用いて実現されてもよい。機能ブロックは、上記１つの装置又は上記複数の装置にソフトウェアを組み合わせて実現されてもよい。

　機能には、判断、決定、判定、計算、算出、処理、導出、調査、探索、確認、受信、送信、出力、アクセス、解決、選択、選定、確立、比較、想定、期待、見做し、報知（broadcasting）、通知（notifying）、通信（communicating）、転送（forwarding）、構成（configuring）、再構成（reconfiguring）、割り当て（allocating、mapping）、割り振り（assigning）などがあるが、これらに限られない。たとえば、送信を機能させる機能ブロック（構成部）は、送信部（transmitting　unit）又は送信機（transmitter）と呼称される。いずれも、上述したとおり、実現方法は特に限定されない。

　例えば、本開示の一実施の形態におけるサーバ１０及びクライアント２０は、本開示の情報処理を行うコンピュータとして機能してもよい。図５は、本開示の一実施の形態に係るサーバ１０及びクライアント２０のハードウェア構成の一例を示す図である。上述のサーバ１０及びクライアント２０は、物理的には、プロセッサ１００１、メモリ１００２、ストレージ１００３、通信装置１００４、入力装置１００５、出力装置１００６、バス１００７などを含むコンピュータ装置として構成されてもよい。

　なお、以下の説明では、「装置」という文言は、回路、デバイス、ユニットなどに読み替えることができる。サーバ１０及びクライアント２０のハードウェア構成は、図に示した各装置を１つ又は複数含むように構成されてもよいし、一部の装置を含まずに構成されてもよい。

　サーバ１０及びクライアント２０における各機能は、プロセッサ１００１、メモリ１００２などのハードウェア上に所定のソフトウェア（プログラム）を読み込ませることによって、プロセッサ１００１が演算を行い、通信装置１００４による通信を制御したり、メモリ１００２及びストレージ１００３におけるデータの読み出し及び書き込みの少なくとも一方を制御したりすることによって実現される。

　プロセッサ１００１は、例えば、オペレーティングシステムを動作させてコンピュータ全体を制御する。プロセッサ１００１は、周辺装置とのインターフェース、制御装置、演算装置、レジスタなどを含む中央処理装置（ＣＰＵ：Central　Processing　Unit）によって構成されてもよい。例えば、上述のサーバ１０及びクライアント２０における各機能は、プロセッサ１００１によって実現されてもよい。

　また、プロセッサ１００１は、プログラム（プログラムコード）、ソフトウェアモジュール、データなどを、ストレージ１００３及び通信装置１００４の少なくとも一方からメモリ１００２に読み出し、これらに従って各種の処理を実行する。プログラムとしては、上述の実施の形態において説明した動作の少なくとも一部をコンピュータに実行させるプログラムが用いられる。例えば、サーバ１０及びクライアント２０における各機能は、メモリ１００２に格納され、プロセッサ１００１において動作する制御プログラムによって実現されてもよい。上述の各種処理は、１つのプロセッサ１００１によって実行される旨を説明してきたが、２以上のプロセッサ１００１により同時又は逐次に実行されてもよい。プロセッサ１００１は、１以上のチップによって実装されてもよい。なお、プログラムは、電気通信回線を介してネットワークから送信されても良い。

　メモリ１００２は、コンピュータ読み取り可能な記録媒体であり、例えば、ＲＯＭ（Read　Only　Memory）、ＥＰＲＯＭ（Erasable　Programmable　ＲＯＭ）、ＥＥＰＲＯＭ（Electrically　Erasable　Programmable　ＲＯＭ）、ＲＡＭ（Random　Access　Memory）などの少なくとも１つによって構成されてもよい。メモリ１００２は、レジスタ、キャッシュ、メインメモリ（主記憶装置）などと呼ばれてもよい。メモリ１００２は、本開示の一実施の形態に係る情報処理を実施するために実行可能なプログラム（プログラムコード）、ソフトウェアモジュールなどを保存することができる。

　ストレージ１００３は、コンピュータ読み取り可能な記録媒体であり、例えば、ＣＤ－ＲＯＭ（Compact　Disc　ＲＯＭ）などの光ディスク、ハードディスクドライブ、フレキシブルディスク、光磁気ディスク(例えば、コンパクトディスク、デジタル多用途ディスク、Ｂｌｕ－ｒａｙ（登録商標）ディスク)、スマートカード、フラッシュメモリ(例えば、カード、スティック、キードライブ)、フロッピー（登録商標）ディスク、磁気ストリップなどの少なくとも１つによって構成されてもよい。ストレージ１００３は、補助記憶装置と呼ばれてもよい。サーバ１０及びクライアント２０が備える記憶媒体は、例えば、メモリ１００２及びストレージ１００３の少なくとも一方を含むデータベース、サーバその他の適切な媒体であってもよい。

　通信装置１００４は、有線ネットワーク及び無線ネットワークの少なくとも一方を介してコンピュータ間の通信を行うためのハードウェア（送受信デバイス）であり、例えばネットワークデバイス、ネットワークコントローラ、ネットワークカード、通信モジュールなどともいう。

　入力装置１００５は、外部からの入力を受け付ける入力デバイス（例えば、キーボード、マウス、マイクロフォン、スイッチ、ボタン、センサなど）である。出力装置１００６は、外部への出力を実施する出力デバイス（例えば、ディスプレイ、スピーカー、LEDランプなど）である。なお、入力装置１００５及び出力装置１００６は、一体となった構成（例えば、タッチパネル）であってもよい。

　また、プロセッサ１００１、メモリ１００２などの各装置は、情報を通信するためのバス１００７によって接続される。バス１００７は、単一のバスを用いて構成されてもよいし、装置間ごとに異なるバスを用いて構成されてもよい。

　また、サーバ１０及びクライアント２０は、マイクロプロセッサ、デジタル信号プロセッサ（ＤＳＰ：Digital　Signal　Processor）、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＰＬＤ（Programmable　Logic　Device）、ＦＰＧＡ（Field　Programmable　Gate　Array）などのハードウェアを含んで構成されてもよく、当該ハードウェアにより、各機能ブロックの一部又は全てが実現されてもよい。例えば、プロセッサ１００１は、これらのハードウェアの少なくとも１つを用いて実装されてもよい。

　本開示において説明した各態様／実施形態の処理手順、シーケンス、フローチャートなどは、矛盾の無い限り、順序を入れ替えてもよい。例えば、本開示において説明した方法については、例示的な順序を用いて様々なステップの要素を提示しており、提示した特定の順序に限定されない。

　入出力された情報等は特定の場所（例えば、メモリ）に保存されてもよいし、管理テーブルを用いて管理してもよい。入出力される情報等は、上書き、更新、又は追記され得る。出力された情報等は削除されてもよい。入力された情報等は他の装置へ送信されてもよい。

　判定は、１ビットで表される値（０か１か）によって行われてもよいし、真偽値（Boolean：true又はfalse）によって行われてもよいし、数値の比較（例えば、所定の値との比較）によって行われてもよい。

　本開示において説明した各態様／実施形態は単独で用いてもよいし、組み合わせて用いてもよいし、実行に伴って切り替えて用いてもよい。また、所定の情報の通知（例えば、「Ｘであること」の通知）は、明示的に行うものに限られず、暗黙的（例えば、当該所定の情報の通知を行わない）ことによって行われてもよい。

　以上、本開示について詳細に説明したが、当業者にとっては、本開示が本開示中に説明した実施形態に限定されるものではないということは明らかである。本開示は、請求の範囲の記載により定まる本開示の趣旨及び範囲を逸脱することなく修正及び変更態様として実施することができる。したがって、本開示の記載は、例示説明を目的とするものであり、本開示に対して何ら制限的な意味を有するものではない。

　ソフトウェアは、ソフトウェア、ファームウェア、ミドルウェア、マイクロコード、ハードウェア記述言語と呼ばれるか、他の名称で呼ばれるかを問わず、命令、命令セット、コード、コードセグメント、プログラムコード、プログラム、サブプログラム、ソフトウェアモジュール、アプリケーション、ソフトウェアアプリケーション、ソフトウェアパッケージ、ルーチン、サブルーチン、オブジェクト、実行可能ファイル、実行スレッド、手順、機能などを意味するよう広く解釈されるべきである。

　また、ソフトウェア、命令、情報などは、伝送媒体を介して送受信されてもよい。例えば、ソフトウェアが、有線技術（同軸ケーブル、光ファイバケーブル、ツイストペア、デジタル加入者回線（ＤＳＬ：Digital　Subscriber　Line）など）及び無線技術（赤外線、マイクロ波など）の少なくとも一方を使用してウェブサイト、サーバ、又は他のリモートソースから送信される場合、これらの有線技術及び無線技術の少なくとも一方は、伝送媒体の定義内に含まれる。

　本開示において使用する「システム」及び「ネットワーク」という用語は、互換的に使用される。

　また、本開示において説明した情報、パラメータなどは、絶対値を用いて表されてもよいし、所定の値からの相対値を用いて表されてもよいし、対応する別の情報を用いて表されてもよい。

　本開示で使用する「判断(determining)」、「決定(determining)」という用語は、多種多様な動作を包含する場合がある。「判断」、「決定」は、例えば、判定(judging)、計算(calculating)、算出(computing)、処理(processing)、導出(deriving)、調査(investigating)、探索(looking　up、search、inquiry)（例えば、テーブル、データベース又は別のデータ構造での探索）、確認(ascertaining)した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、受信(receiving)（例えば、情報を受信すること）、送信(transmitting)(例えば、情報を送信すること)、入力(input)、出力(output)、アクセス(accessing)（例えば、メモリ中のデータにアクセスすること）した事を「判断」「決定」したとみなす事などを含み得る。また、「判断」、「決定」は、解決(resolving)、選択(selecting)、選定(choosing)、確立(establishing)、比較(comparing)などした事を「判断」「決定」したとみなす事を含み得る。つまり、「判断」「決定」は、何らかの動作を「判断」「決定」したとみなす事を含み得る。また、「判断（決定）」は、「想定する（assuming）」、「期待する（expecting）」、「みなす（considering）」などで読み替えられてもよい。

　「接続された(connected)」、「結合された(coupled)」という用語、又はこれらのあらゆる変形は、２又はそれ以上の要素間の直接的又は間接的なあらゆる接続又は結合を意味し、互いに「接続」又は「結合」された２つの要素間に１又はそれ以上の中間要素が存在することを含むことができる。要素間の結合又は接続は、物理的なものであっても、論理的なものであっても、或いはこれらの組み合わせであってもよい。例えば、「接続」は「アクセス」で読み替えられてもよい。本開示で使用する場合、２つの要素は、１又はそれ以上の電線、ケーブル及びプリント電気接続の少なくとも一つを用いて、並びにいくつかの非限定的かつ非包括的な例として、無線周波数領域、マイクロ波領域及び光（可視及び不可視の両方）領域の波長を有する電磁エネルギーなどを用いて、互いに「接続」又は「結合」されると考えることができる。

　本開示において使用する「に基づいて」という記載は、別段に明記されていない限り、「のみに基づいて」を意味しない。言い換えれば、「に基づいて」という記載は、「のみに基づいて」と「に少なくとも基づいて」の両方を意味する。

　本開示において使用する「第１の」、「第２の」などの呼称を使用した要素へのいかなる参照も、それらの要素の量又は順序を全般的に限定しない。これらの呼称は、２つ以上の要素間を区別する便利な方法として本開示において使用され得る。したがって、第１及び第２の要素への参照は、２つの要素のみが採用され得ること、又は何らかの形で第１の要素が第２の要素に先行しなければならないことを意味しない。

　本開示において、「含む（include）」、「含んでいる（including）」及びそれらの変形が使用されている場合、これらの用語は、用語「備える（comprising）」と同様に、包括的であることが意図される。さらに、本開示において使用されている用語「又は（or）」は、排他的論理和ではないことが意図される。

　本開示において、例えば、英語でのa,　an及びtheのように、翻訳により冠詞が追加された場合、本開示は、これらの冠詞の後に続く名詞が複数形であることを含んでもよい。

　本開示において、「ＡとＢが異なる」という用語は、「ＡとＢが互いに異なる」ことを意味してもよい。なお、当該用語は、「ＡとＢがそれぞれＣと異なる」ことを意味してもよい。「離れる」、「結合される」などの用語も、「異なる」と同様に解釈されてもよい。

　１…パラメータ設定システム、１０…サーバ、１１…音声認識部、１２…決定部、１３…サーバ側設定部、２０…クライアント、２１…提示部、２２…入力部、２３…検出部、２４…クライアント側設定部、１００１…プロセッサ、１００２…メモリ、１００３…ストレージ、１００４…通信装置、１００５…入力装置、１００６…出力装置、１００７…バス。

Claims

　ユーザとの間で対話を行う対話システムに含まれるパラメータ設定システムであって、
　前記対話システムは、
　対話に係る情報をユーザに提示する提示部と、
　前記提示部によるユーザへの情報の提示に応じて、ユーザからの対話に係る音声を入力する入力部と、
　前記入力部によって入力された音声から音声認識を行う音声区間を検出する検出部と、
　前記検出部によって検出された音声区間の音声に対して音声認識を行う音声認識部と、を備え、
　前記パラメータ設定システムは、
　前記提示部によってユーザに提示される情報を決定する決定部と、
　前記決定部によってユーザに提示される情報が決定されるタイミングで、当該情報に基づいて前記音声区間の検出に用いるパラメータを設定する設定部と、
を備えるパラメータ設定システム。
　前記設定部は、前記提示部によってユーザに提示される情報に対してユーザが発話すべき情報の種別に基づいて、前記パラメータを設定する請求項１に記載のパラメータ設定システム。
　前記設定部は、前記提示部によってユーザに提示される情報に対するユーザの回答の想定長及び難易度の少なくとも何れかに基づいて、前記パラメータを設定する請求項１又は２に記載のパラメータ設定システム。
　前記設定部は、前記パラメータとして、前記音声区間の終端を決めるための、ユーザの発話がなされていない時間の閾値を設定する請求項１～３の何れか一項に記載のパラメータ設定システム。
　前記設定部は、前記パラメータとして、前記音声区間の最大の長さを設定する請求項１～４の何れか一項に記載のパラメータ設定システム。
　前記設定部は、前記入力部によって入力された音声からユーザの話速を検出し、検出した話速にも基づいて前記パラメータを設定する請求項１～５の何れか一項に記載のパラメータ設定システム。