WO2016027909A1

WO2016027909A1 - データ構造、音声対話装置及び電子機器

Info

Publication number: WO2016027909A1
Application number: PCT/JP2015/078633
Authority: WO
Inventors: 晃二福永
Original assignee: シャープ株式会社
Priority date: 2014-08-20
Filing date: 2015-10-08
Publication date: 2016-02-25
Also published as: JP6448950B2; JP2016045253A; WO2016027909A8; US20170221481A1

Abstract

　高い処理能力を必要とせず、会話が発散した場合であっても、対話を適切なタイミングで継続して行うことを可能にする。本発明のデータ構造は、少なくとも、使用者に対して発話する発話内容（Speak）と、当該発話内容に対して会話が成り立つ応答内容（Return）と、当該発話内容の属性を示す属性情報（Entity）と、を一つのセットとしたデータ構造である。

Description

データ構造、音声対話装置及び電子機器

　本発明は、音声認識とテキスト内容の音声合成とを用いた音声対話装置に関し、特に音声対話装置における音声対話に用いられるデータのデータ構造に関する。

　音声認識(ＡＳＲ:Automatic Speech Recognition)とテキスト内容の音声合成(ＴＴＳ:Text To Speech）を用いた音声対話システム（ＩＶＲ：Interactive Voice Response）は古くから研究や商品化の対象として取り扱われてきている。この音声対話システムは、使用者と電子機器とのユーザＩ／Ｆの一つと考えられているが、一般的なユーザＩ／Ｆとして使用されているマウスやキーボードと異なり普及が進んでいないのが現状である。

　普及が進んでいない理由の一つとして考えられるのが、人と人の会話と同じレベルの内容の品質及び応答タイミングで電子機器との音声入力・応答を期待していることが挙げられる。この期待を満たすには、人の会話を音の波形として電子機器に入力し、そこから単語・文脈などを判定し意味を理解する処理と、意味に対し電子機器自体の状況・周りの環境から適切な文章を候補から特定もしくは創造し、音波として出力するまでの処理の２つを遅くとも数秒以内に行う必要があり、会話の内容の品質ももちろんのことながら、電子機器における非常に多くの計算量やメモリ量が必要とされる。

　これらの状況を鑑みた解決策の一つとして、想定される用途に応じた会話内容を記述するデータ方式を定義し、それを利用することで電子機器の処理力を超えないレベルで妥当な対話システムを構築することが提案されている。例えば、音声対話に用いられるデータの一種である、VoiceXML（VXML)は会話パターンをマークアップランゲージとして記載することで電話応答などの用途において実現している。また、XISL(Extensible Interaction Sheet Language)は文脈だけでなく声の抑揚などの非言語的な情報を加味した形でデータを定義することで円滑な対話システムを構築することを可能としている。さらに、特許文献１では、会話の内容をデータベースから高速に検索する方法、特許文献２では、ネットワーク上の強力な電子機器と効率的に処理をする方法が挙げられている。

日本国公開特許公報「特許第４８９０７２１号公報（２０１１年１２月２２日登録）」日本国公開特許公報「特許第４０７３６６８号公報（２００８年０２月０１日登録）」

　従来の音声対話システムは音声対話開始時に使用者が特定の目的を持っていることを前提としている。それに伴い会話を記述するデータ方式も最適化されている。例えば、VoiceXMLの場合、使用者との会話はサブルーチンに分割される仕組みとなっている。VoiceXMLにて住所検索を行う場合はポスタルコードや県名を順次聞いて行くような記載となっている。このようなデータ構造は会話が発散する形式には向いていない。一般的なマンツーマンコミュニケーションでは会話は常に主題を変え発散していく雑談形式であり、VoiceXMLの記載方法は数あるコミュニケーションの一部が実現されているに留まっているにすぎない。

　また、特許文献１は、上記の問題の解決方法としてマーカーと呼ばれる検索キーを用いて高速に特定の会話ルーチンに飛ぶ方法が提案されているが、到達方法が確立された会話データを呼び出すために過ぎないため、会話が発散した場合には向いていないし、音声対話に用いられるデータのデータ構造そのものには触れていない。

　さらに、特許文献２は、音声情報をテキストに変換し、さらに意味解析をした属性情報を付加したうえで、処理能力の高い外部のコンピュータに情報を転送することで使用者の意図を理解する方法を提案されているが、これは逐次処理を前提としているため、高い処理能力を有するコンピュータを用いないと快適なタイミングでの対話を実現することが難しい。

　本発明は、上記の問題点に鑑みなされたものであって、その目的は、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことを可能にする音声対話に用いられるデータのデータ構造、音声対話装置及び電子機器を提供することにある。

　上記の課題を解決するために、本発明の一態様に係るデータ構造は、音声対話に用いられるデータのデータ構造であって、少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたことを特徴としている。

　また、本発明の一態様に係る音声対話装置は、使用者と音声対話を行う音声対話装置であって、使用者が発する音声を解析して発話内容を特定する発話内容特定部と、上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容を、予め登録された対話用のデータから取得する応答内容取得部と、上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部と、を備え、上記対話用のデータのデータ構造は、少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたデータ構造であることを特徴としている。

　本発明の一態様によれば、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。

本発明の実施形態１に係る音声対話システムの概略構成ブロック図である。図１に示す音声対話システムにおける対話処理に用いられるデータのデータ構造を示す図である。図２に示すデータＡ１を対話マークアップ言語形式のデータで表した図である。図２に示すデータＡ２を対話マークアップ言語形式のデータで表した図である。図２に示すデータＡ３を対話マークアップ言語形式のデータで表した図である。図２に示すデータＡ４を対話マークアップ言語形式のデータで表した図である。図１に示す音声対話システムの対話処理の流れを示すシーケンス図である。図１に示す音声対話システムの対話処理の流れを示すシーケンス図である。図１に示す音声対話システムの対話処理の流れを示すシーケンス図である。図１に示す音声対話システムの対話処理の流れを示すシーケンス図である。図１に示す音声対話システムにおける対話処理の流れを示すシーケンス図である。本発明の実施形態２に係る音声対話システムの概略構成ブロック図である。図１２に示す音声対話システムの対話処理の流れを示すシーケンス図である。図１２に示す音声対話システムの対話処理の流れを示すシーケンス図である。

　〔実施形態１〕
　以下、本発明の実施形態について、詳細に説明する。

　（音声対話システムの概要）
　図１は、本実施形態に係る発明の音声対話システム（音声対話装置）１０１の概略を示す概略構成ブロック図である。音声対話システム１０１は、図１に示すように、当該システムを操作する操作者（使用者）１と音声対話するシステムであって、集音装置２、音声認識装置（ＡＳＲ）３、話題管理装置（発話内容特定部）４、話題取得装置（応答内容取得部）５、一時保存装置６、ファイルシステム７、通信装置８、音声合成装置（ＴＴＳ）９、音波出力装置１０を備えている。

　なお、上記話題管理装置４、音声合成装置９、音波出力装置１０によって、話題取得装置５が取得した話題データを音声として出力する音声データ出力部を構成している。なお、音声合成装置９は省略可能である。この理由については後述する。

　集音装置２は、操作者１が発する声を集音し、集音した声を電子的な波のデータ（波形データ）に変換する装置である。集音装置２は、変換した電子的な波形データを、後段の音声認識装置３に送る。

　音声認識装置３は、集音装置２から送られた電子的な波形データからテキストデータに変換する装置である。音声認識装置３は、変換したテキストデータを、後段の話題管理装置４に送る。

　話題管理装置４は、音声認識装置３から送られたテキストデータを解析して発話内容（解析結果）を特定し、特定した発話内容に対して会話が成り立つ応答内容を示す対話用データ（例えば図２に示すデータ）の取得を行う装置である。対話用のデータの取得についての詳細は後述する。

　話題管理装置４は、取得した対話用データから、応答内容に対応する、テキストデータまたは音声データ（ＰＣＭデータ）を抽出する。そして、話題管理装置４は、テキストデータを抽出した場合には、当該テキストデータを後段の音声合成装置９に送り、音声データを抽出した場合、当該音声データの登録アドレス情報を後段の音波出力装置１０に送る。ここで、登録アドレス情報は、音声データがファイルシステム７に格納されていれば、当該ファイルシステム７に格納された音声データのアドレス情報、音声データが通信装置８を介して外部機器（図示せず）に格納されていれば、当該外部機器に格納された音声データのアドレス情報である。

　音声合成装置９は、話題管理装置４から送られたテキストデータをＰＣＭデータにするＴＴＳ（Text to Speech）装置である。音声合成装置９は、変換したＰＣＭデータを後段の音波出力装置１０に送る。

　音波出力装置１０は、音声合成装置９から入力されるＰＣＭデータを音波として出力する装置である。ここで出力される音波は、人が認識できる音をいう。音波出力装置１０から出力された音波は、操作者１の発話内容に対する応答内容となる。これにより、操作者１と音声対話システム１０１との間で会話が成り立つことになる。

　音波出力装置１０には、上述したように、話題管理装置４からＰＣＭデータの登録アドレス情報が入力される場合もある。この場合、音波出力装置１０は、入力されたＰＣＭデータの登録アドレス情報から、ファイルシステム７または通信装置８を介して接続された外部機器の何れかに格納されているＰＣＭデータを取得し、音波として出力する。

　（対話用データの取得）
　話題管理装置４は、話題取得装置５、一時保存装置６、ファイルシステム７、通信装置８を用いて、対話用データを取得する。

　一時保存装置６は、高速で処理ができるようＲＡＭに、上記話題管理装置４からの解析結果を一時的に保持する装置である。

　また、ファイルシステム７は、対話用データをファイルとして、テキストデータ（対話マークアップ言語形式のデータ）と、音声データ（ＰＣＭ形式のデータ）を機器内部に永続情報として保持する装置である。上記テキストデータ（対話マークアップ言語形式のデータ）の詳細については後述する。

　さらに、通信装置８は、インターネット等の通信ネットワーク（ネットワーク）と接続し、外部機器（音声対話システム１０１の外部に存在する機器）に登録された対話マークアップ言語形式のデータとＰＣＭ形式のデータを取得する装置である。

　ここで、話題管理装置４は、対話用データの取得指示を話題取得装置５に送り、解析結果を一時保存装置６に一時的に保存する。

　話題取得装置５は、一時保存装置６に保存された解析結果に基づいて、対話用データをファイルシステム７から取得、または通信装置８を介して通信ネットワークに接続された外部機器から取得する。話題取得装置５は、取得した対話用データを話題管理装置４に送る。

　（対話マークアップ言語形式のデータ）
　図２は、対話用データ（Ａ１～Ａ４）のデータ構造の一例を示している。上記対話用データは、対話を行う際に、想定される応答を細分化した一単位を示している。

　対話用データＡ１は、例えば図２の（ａ）に示すように、上記操作者１に対して発話する発話内容（想定される応答内容）として「Speak:明日は暇？」と、当該発話内容に対して会話が成り立つ応答内容（隣接ペア）として「Return:１：Mean:暇だよ、２：Mean:忙しい」と、当該発話内容の属性を示す属性情報として「Entity:予定、明日」とを一つのセットとした構造となっている。対話用データＡ１の具体的なデータ構造は、例えば図３に示すようなデータ構造となる。つまり、図３に示す例では、対話用データＡ１は、ＸＭＬ拡張で記載したデータ構造をとっている。

　例えば、上述したように、話題管理装置４が対話用データからテキストデータを抽出するとは、対話用データＡ１の「Speak」に記載された「明日は暇？」を抽出することになる。また、対話用データＡ１には、「Speak」の他に、図示されていないが、「明日は暇？」の音声データを登録しているアドレス（登録アドレス情報）を含めていてもよい。

　図２の（ｂ）に示す対話用データＡ２、Ａ３、図２の（ｃ）に示す対話用データＡ４は、対話用データＡ１と格納されている情報は異なるものの、そのデータ構造は対話用データＡ１と同じである。ここで、対話用データＡ２の具体的なデータ構造は、例えば図４に示すようなデータ構造となる。また、対話用データＡ３の具体的なデータ構造は、例えば図５に示すようなデータ構造となる。また、対話用データＡ４の具体的なデータ構造は、例えば図６に示すようなデータ構造となる。

　なお、対話用データＡ１には、Speak「明日は暇？」に対するReturnが「１：Mean:暇だよ」のとき、リンク先が対話用データＡ２、Speak「明日は暇？」に対するReturnが「２：Mean:忙しい」のとき、リンク先が対話用データＡ３であることが記されている。

　従って、「明日は暇？」という発話内容に対して、「暇だよ」と応答したとき、Speak「じゃあどこかに行く？」と記載された対話用データＡ２にリンクして会話を成立させる。また、「明日は暇？」という発話内容にして、「忙しい」と応答したとき、Speak「大変だねー」と記載された対話用データＡ３にリンクして会話を成立させる。

　このように、対話用データＡ１には、話内容に対して会話が成り立つ応答内容（隣接ペア：１：Mean:暇だよ、等）に関連した発話内容（Speak:じゃあどこかへ行く、等？）が登録された別データ構造（対話用データＡ２等）を指定するデータ構造指定情報（Link To：A2.DML、等）が含まれているため、会話を継続させることが可能となる。

　さらに、対話用データＡ２には、Speak「じゃあどこかに行く？」に対するReturnが「１：Mean:いいよ」のとき、リンク先が対話用データＡ５、Speak「じゃあどこかに行く？」に対するReturnが「２：いやだよ」のとき、リンク先が対話用データＡ６であることが記されているため、会話をさらに継続させることが可能となる。

　ところで、発話内容に対する応答が、隣接ペアを用いていれば、会話が成立するが、発話内容に対する応答が、隣接ペア以外である場合、会話が発散し、会話が成立しない虞がある。

　そこで、本発明の対話用データでは、図２の（ａ）に示す対話用データＡ１のように、発話内容の属性を示す属性情報（Entity：予定、明日）を含んでいる。つまり、会話が発散しそう場合、すなわち発話内容に対する応答が、隣接ペア以外である場合、属性情報を用いることで、適切な応答内容を含んだ対話用データを得ることが可能になる。

　上記属性情報は、上記発話内容からさらに想定される応答内容を特定するためのキーワードであることが好ましい。例えば図２の（ａ）に示す対話用データＡ１では、発話内容を示すSpeak「明日は暇？」の属性を示す属性情報を示すキーワードとして、「予定、明日」が記されている。

　従って、この属性情報として記された「予定，明日」というキーワードを含む発話内容を示す対話用データが取得される。例えば、対話用データＡ１において、「明日は暇？」と聞いた後、返答が「明日の天気は何？」と返ってきた場合に、「明日」、「天気」というキーワードを用いて、ファイルシステム７を検索して、図２の（ｃ）に示すように、Entityが「明日，天気」である対話用データＡ４を見つけて、対話用データＡ４のSpeak「明日は晴れです」を話す。これにより、発話内容に対する応答が、隣接ペア以外であっても、当該発話内容に対して、適切な応答内容を得ることができるので、発散することなく会話を継続させることができる。なお、会話の途中で用いられるような対話データの場合には、属性情報は必ずしも必要でなく、省略することができる。

　ここで、本音声対話システム１０１を用いた対話処理のシーケンスについて以下の５つのパターンに分けて説明する。

　（シーケンス１：基本形）
　まず、図７を参照しながら、操作者１からの話かけによる対話処理のシーケンスについて説明する。

　集音装置２は、操作者１が発話することで入力された音声を波形データに変換し、音声認識装置３に出力する。

　音声認識装置３は、入力された波形データをテキストデータに変換し、話題管理装置４に出力する。

　話題管理装置４は、入力されたテキストデータから操作者１の発話内容における話題を解析し、解析結果に基づいて、話題データ（対話用データ）を取得するように、話題取得装置５に指示を行う。

　話題取得装置５は、話題管理装置４からの指示に基づいて、ファイルシステム７から話題データを取得し、一時保存装置６に一時保存し、適当な数の話題データを取得した後、取得した話題データを話題管理装置４に出力（話題返却）する。ここで、話題取得装置５が取得する話題データは、テキストデータ（応答テキスト）である。

　話題管理装置４は、話題取得装置５が取得した話題データからテキストデータ（応答テキスト）を抽出し、音声合成装置９に出力する。

　音声合成装置９は、入力された応答テキストを出力用音波データ（ＰＣＭデータ）に変換し、音波出力装置１０に出力する。

　音波出力装置１０は、入力された出力用音波データを音波として操作者１に出力する。

　上記一連の流れにより、操作者１と音声対話システム１０１との間で会話が成立する。

　（シーケンス２：連続会話の準備）
　次に、図７に示すシーケンスにより操作者１に対する応答が完了した後、連続して会話を行うための処理について、図８に示すシーケンスを参照しながら以下に説明する。

　図８に示すシーケンスでは、話題取得装置５が既に取得した話題データに関連した話題データをファイルシステム７から取得し、一時保存装置６に一時保存しておくようになっている。ここで、上記の既に取得した話題データを、図２に示す対話用データＡ１とした場合、関連した話題データは、当該対話用データＡ１に記されたリンク先の対話用データＡ２、対話用データＡ３となる。なお、対話用データＡ２を読み込んだとき、リンク先の対話用データＡ５、Ａ６も読み込んでおく。

　また、話題取得装置５は、関連した話題データを取得して、全て一時保存装置６に一保存したのち、話題管理装置４に対してデータ読み込みを終了したことを知らせる。

　話題管理装置４は、データ読み込み終了した時点で、音声合成装置９に対して、読み込んだ話題データのＰＣＭデータの作成を命令する。

　上記のように、関連した話題データを予め取得することで、連続した会話を適当なテンポで行うことが可能となる。

　しかも、対話用データの先読み処理、すなわち対話用データＡ１を読み込んだとき、当該対話用データＡ１に含まれるリンク先の対話用データＡ２、対話用データＡ３を読み込む処理を行うことで、逐次処理、すなわち対話用データの取得からＰＣＭデータの作成を行って音波出力を行う処理を行う必要がないため、処理能力の高くないＣＰＵを用いることが可能となる。

　（シーケンス３：連続会話）
　次に、図８に示すシーケンスにより関連した話題データを取得した後、連続した会話の応答までの処理について、図９に示すシーケンスを参照しながら以下に説明する。

　図９に示すシーケンスは、図７に示すシーケンスと基本的に同じであり、異なるのが、既に話題データが取得され一時保存装置６に一時保存されているため、話題取得装置５を用いない点である。

　すなわち、話題管理装置４は、音声合成装置９に対して、一時保存装置６から読み出した話題データ（対話用データ）から抽出したテキストデータ（応答テキスト）のＰＣＭデータの作成を命令する。話題管理装置４は、発話内容から逐次得られる解析結果に基づいて、一時保存装置６に保存されている話題データを順次読み出すようになっている。

　音声合成装置９は、入力された応答テキストを出力用の音波データ（ＰＣＭデータ）に変換し、音波出力装置１０に出力する。

　音波出力装置１０は、入力された出力用の音波データを音波として操作者１に出力する。

　そして、この処理は、一時保存装置６に一時保存された話題データがなくなるまで行われる。

　なお、話題管理装置４は、一時保存装置６に保存された全ての話題データをＰＣＭデータに変換するように、音声合成装置９を指示してもよい。この場合、音声合成装置９は、作成したＰＣＭデータを、一時保存装置６に一時的に保存し、話題管理装置４から指示により、必要なＰＣＭデータ読み出して、音波出力装置１０に送る。

　このように、関連した話題データを予めＰＣＭデータに変換しておけば、ＰＣＭデータの変換にかかる処理時間の分だけ早く応答することが可能となる。

　（シーケンス４：直接再生）
　上記のシーケンス１～３では、音声合成装置９を用いて話題データをＰＣＭデータに変換していたが、音声合成装置９を用いずに、音波出力装置１０において話題データを直接再生する場合の処理について、図１０に示すシーケンスを参照しながら以下に説明する。

　図１０に示すシーケンスは、図７に示すシーケンスと基本的に同じであり、異なるのが、音声合成装置９を用いずに、音波出力装置１０において話題データを直接再生する点である。

　ここでは、ファイルシステム７に、ＰＣＭデータに変換した話題データと、当該話題データに対応付けられた応答ファイル名（登録アドレス情報）とを格納しておく。

　話題取得装置５は、図７に示すシーケンスと異なり、話題管理装置４からの解析結果に基づいて、ファイルシステム７から話題データを特定し、特定した話題データに対応付けられた応答ファイル名を取得する。

　話題取得装置５は、取得した応答ファイル名を一時保存装置６に一時保存した後、話題管理装置４に対して、話題返却を行う。

　話題管理装置４は、話題返却が行われると、話題取得装置５が取得し応答ファイル名を音波出力装置１０に出力する。

　音波出力装置１０は、入力された応答ファイル名に対応付けられたＰＣＭデータに変換された話題データをファイルシステム７から取得し、ＰＣＭデータを音波として操作者１に出力する。

　（シーケンス５）
　上記のシーケンス１～４では、話題データをファイルシステム７から取得する例を示したが、話題データを外部機器、例えば、本音声対話システム１０１と通信ネットワークで接続された外部機器から取得する場合の処理について、図１１に示すシーケンスを参照しながら以下に説明する。

　図１１に示すシーケンスは、図７に示すシーケンスと基本的に同じであり、話題データの取得先が、ファイルシステム７でなく、通信ネットワークに接続された外部機器である点で異なる。この場合、話題取得装置５が、通信装置８を介して通信ネットワークに接続された外部機器（図示せず）から話題データを取得することになる。

　話題管理装置４は、外部機器から取得する話題データが音声データ（ＰＣＭデータ）の場合には、当該音声データの登録アドレス情報も合わせて取得する。従って、話題データが音声データの場合には、話題管理装置４は、登録アドレス情報を音波出力装置１０に送る。音波出力装置１０は、入力された登録アドレス情報から、通信装置８を介して外部機器から音声データを取得し、音波として操作者１に出力する。

　以上のように、本実施形態に係る音声対話システム１０１によれば、対話用データの先読み処理を行うことで、処理能力の高くないＣＰＵを用いることができる。しかも、対話用データには発話内容の属性を示す属性情報が含まれているので、会話が発散した場合であっても、属性情報に基づいて適切な対話用データを取得でき、その結果、会話を継続することを可能としている。

　ここで、上記の各シーケンスにおいて、音波出力装置１０から操作者１に対して音波が出力されるタイミングについては特に規定していない。つまり、音波出力装置１０は、話題管理装置４からの指示あるいは音声合成装置９からの指示があれば、音波を出力するようになっている。

　従って、音声対話システム１０１の処理能力によって、操作者１が発話してから、音波出力装置１０から応答内容を示す音波を出力するまでの時間（応答時間）が決まる。例えば、音声対話システム１０１の処理能力が高ければ、上記応答時間が短くなり、処理能力が低ければ、上記応答時間が長くなる。

　ところで、応答時間は、長すぎても、また、速すぎても、会話のテンポが不自然になるため、応答時間の調整は重要である。以下の実施形態２では、上記応答時間の調整を行う例について説明する。

　〔実施形態２〕
　本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　図１２は、本実施形態に係る発明の音声対話システム（音声対話装置）２０１の概略を示す概略構成ブロック図である。音声対話システム２０１は、基本的に、前記実施形態１に記載の音声対話システム１０１と同じ構成を有しているが、図１２に示すように、話題管理装置４と音波出力装置１０との間に、音声合成装置９と並列にタイマ１１を接続している点で異なる。なお、音声対話システム２０１において、タイマ１１以外の他の構成については、前記実施形態１の音声対話システム１０１と同じであるため、詳細な説明は省略する。

　タイマ１１は、操作者１が発する音声を取得した時点からの経過時間（計測時間）を計測するものであって、上記話題管理装置４から入力された特定の時間が経過した場合に、上記音波出力装置１０に音波出力タイミングを指示する装置である。つまり、タイマ１１は、話題管理装置４からの出力（タイマ制御信号）によって設定された時間をカウント（計測）し、カウント完了を示す信号（予め設定した時間以上と判定したことを示す信号）を音波出力装置１０に出力する。

　音波出力装置１０は、音声データを出力する直前の上記タイマ１１による計測時間を取得し、上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力する。すなわち、音波出力装置１０は、タイマ１１からカウント完了を示す信号が入力されると、そのタイミング（計測時間の判定直後）で音波を操作者１に出力する。つまり、音波出力装置１０は、音声合成装置９からの音声データを受け取るものの、タイマ１１からのカウント完了を示す信号が入力されるまで、音波の出力を待機している。なお、音波出力装置１０は、カウント完了を示す信号が入力される前に、出力すべきデータを受信できていない場合には、出力すべきデータを受信できた時点で、音波を出力する。

　タイマ１１における設定時間を調整することにより、音波出力装置１０からの音波の出力タイミングを調整することができる。タイマ１１の設定時間は、会話において違和感のない時間に設定されるのが好ましく。タイマ１１の設定時間は、例えば平均値的には１．４秒以内の応答が好ましく、望ましくは２５０ｍｓ～８００ｍｓ程度での応答が望ましい。なお、タイマ１１の設定時間は、システムとして、状況に応じて設定可能である。

　ここで、本音声対話システム２０１を用いた対話処理のシーケンスについて以下の２つのパターンに分けて説明する。

　（シーケンス６：音波出力タイミングの基本形）
　まず、図１３を参照しながら、操作者１からの話かけによる対話処理のシーケンスについて説明する。このシーケンスは、前記実施形態１の図７に示すシーケンスとほぼ同じであり、異なるのは、タイマ１１を用いて音波出力装置１０の音波出力のタイミングを制御している点である。

　すなわち、集音装置２が操作者１の発話を集音してから、話題管理装置４が、話題取得装置５から話題が返却された後に、当該話題取得装置５が取得した応答テキストを音声合成装置９に出力するまでの処理、音声合成装置９が、入力された応答テキストを出力用音波データ（ＰＣＭデータ）に変換し、音波出力装置１０に出力するまでの処理は、図７に示すシーケンスと同じである。

　前記実施形態１の音声対話システム１０１と異なるのは、音波出力装置１０が、タイマ１１から出力される信号、すなわち音波の出力タイミングの指定を行うための信号に応じて、音波を操作者１に出力する点である。

　（シーケンス７：連続会話）
　次に、連続した会話の応答までの処理について、図１４に示すシーケンスを参照しながら以下に説明する。

　図１４に示すシーケンスは、図１３に示すシーケンスと基本的に同じであり、異なるのが、既に話題データが取得され一時保存装置６に一時保存されているため、話題取得装置５を用いない点である。

　すなわち、話題管理装置４は、音声合成装置９に対して、一時保存装置６から読み出した話題データ（応答テキスト）のＰＣＭ作成を命令する。話題管理装置４は、発話内容から逐次得られる解析結果に基づいて、一時保存装置６に保存されている話題データを順次読み出すようになっている。

　音声合成装置９は、入力された応答テキストを出力用音波データ（ＰＣＭデータ）に変換し、音波出力装置１０に出力する。音波出力装置１０は、タイマ１１からの出力タイミングを指定する信号を受け付けると、入力された出力用音波データを音波として操作者１に出力する。

　ここまでの処理は、一時保存装置６に一時保存された話題データがなくなるまで行われる。

　以上のように、本実施形態に係る音声対話システム２０１によれば、前記実施形態１に係る音声対話システム１０１と同じ効果を奏し、且つ、タイマによる音波出力装置１０の音波出力のタイミングを調整することができるため、応答のテンポが自然で、違和感のない会話を行うことができる。

　〔実施形態３〕
　本発明の他の実施形態について説明すれば、以下のとおりである。なお、説明の便宜上、前記実施形態にて説明した部材と同じ機能を有する部材については、同じ符号を付記し、その説明を省略する。

　本実施形態に係る電子機器は、図１に示す音声対話システム１０１または図１２に示す音声対話システム２０１を備えている。

　上記電子機器としては、携帯電話、スマートフォン、ロボット、ゲーム機、おもちゃ（ぬいぐるみなど）、家電全般（お掃除ロボット、エアコン、冷蔵庫、洗濯機など）、ＰＣ（パーソナルコンピュータ）、レジスタ、ＡＴＭ（Automatic Teller Machine）、自動販売機などの業務用機器、音声対話を想定した電子機器全般、自動車、飛行機、船舶、電車などの人が操縦することが可能な乗り物全般を含む。

　従って、本実施形態の電子機器によれば、会話が発散した場合であっても、会話を継続することが可能なので、電子機器を操作する操作者は違和感なく電子機器と会話を行うことができる。

　以上のように、本発明のデータ構造の対話用データを用いれば、以下のような効果を奏する。
（１）想定される応答を予め細分化された単位(対話マークアップ言語)でメモリ上に保存しておくことで使用者の発話を効率的に、素早く応答させることができる。これにより、実行する電子機器の能力（ＣＰＵやメモリ等）に応じて、先読みや事前処理を行う量を調整することができる。
（２）想定される応答以外の内容で使用者が会話をした場合、会話が発散されたとみなし、適切な発話情報を、属性情報を元に検索することができる。
（３）データが比較的小さな単位でまとまるため非力な電子機器でも搭載・実行可能となる。

　更に、使用者からの応答によって会話が継続される場合、その継続会話のデータを指し示す情報を前記データ構造に含めることで連続した会話を行うことができる。

　予め想定される会話の応答に対してのデータを先読みすることで、音声合成データ等を事前に合成も可能とし、タイミングの良い会話を行うことができる。

　従って、本発明によれば、図２に示すようなデータ構造のデータを対話用データとして使用することで、処理能力の高くない非力なＣＰＵをもったコンピュータであったとしても、対話内容が発散する可能性がある環境下での音声対話システム（ＩＶＲ：Interactive Voice Response）を構築することが可能となる。

　なお、実施形態１～３において、対話用データを実現するための形式として、図３～図６に示したようなＸＭＬ拡張で記載したデータ形式を採用した例を示したが、この形式に限定されるものではなく、同じ構成要素、すなわち発話内容に対して会話が成り立つ応答内容を含んでいれば、ＸＳＬＴで異なるＸＭＬやＨＴＭＬに変換しても構わないし、ＪＳＯＮ（JavaScript（登録商標） Object Notation）形式やＹＡＭＬ形式等の簡易テキスト記述形に変換しても構わないし、同様に特定バイナリのフォーマットであっても構わない。

　〔ソフトウェアによる実現例〕
　音声対話システム１０１、２０１の制御ブロック（特に話題管理装置４および話題取得装置５）は、集積回路（ＩＣチップ）等に形成された論理回路（ハードウェア）によって実現してもよいし、ＣＰＵ（Central Processing Unit）を用いてソフトウェアによって実現してもよい。

　後者の場合、音声対話システム１０１、２０１は、各機能を実現するソフトウェアであるプログラムの命令を実行するＣＰＵ、上記プログラムおよび各種データがコンピュータ（またはＣＰＵ）で読み取り可能に記録されたＲＯＭ（Read Only Memory）または記憶装置（これらを「記録媒体」と称する）、上記プログラムを展開するＲＡＭ（Random Access Memory）などを備えている。そして、コンピュータ（またはＣＰＵ）が上記プログラムを上記記録媒体から読み取って実行することにより、本発明の目的が達成される。上記記録媒体としては、「一時的でない有形の媒体」、例えば、テープ、ディスク、カード、半導体メモリ、プログラマブルな論理回路などを用いることができる。また、上記プログラムは、該プログラムを伝送可能な任意の伝送媒体（通信ネットワークや放送波等）を介して上記コンピュータに供給されてもよい。なお、本発明は、上記プログラムが電子的な伝送によって具現化された、搬送波に埋め込まれたデータ信号の形態でも実現され得る。

　〔まとめ〕
　本発明の態様１に係るデータ構造は、音声対話装置（音声対話システム１０１、１０２）の音声対話に用いられるデータのデータ構造であって、少なくとも、使用者（操作者１）に対して発話する発話内容（Speak）と、当該発話内容に対して会話が成り立つ応答内容（Return）と、当該発話内容の属性を示す属性情報（Entity）とを一つのセットとしたことを特徴としている。

　上記の構成によれば、使用者（操作者１）の発話を効率的に、素早く応答させることができる。また、実行する電子機器の能力（CPUやメモリ等）に応じて、先読みや事前処理を行う量を調整することができる。しかも、データが比較的小さな単位でまとまるため非力な電子機器でも搭載・実行可能となる。さらに、会話が発散しても、適切な応答内容を、当該発話内容の属性を示す属性情報を元に検索して得られる。

　従って、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。

　本発明の態様２に係るデータ構造は、上記態様１において、属性情報は、発話内容からさらに想定される応答内容を特定するためのキーワードでであってもよい。

　上記の構成によれば、発話内容を考慮した適切な応答内容を含むデータを取得することができるので、会話が発散しても、より適切な応答内容により会話を継続させることができる。

　本発明の態様３に係るデータ構造は、上記態様１または２において、さらに、上記発話内容に対して会話が成り立つ応答内容（Mean）に関連した発話内容（Speak）が登録された別データ構造（A2.DML等）を指定するデータ構造指定情報（Link To：A2. DML等）が含まれていてもよい。

　上記の構成によれば、対話用データの先読みを可能とするため、高い処理能力を必要とせず、対話処理を行うことができる。

　本発明の態様４に係るデータ構造は、上記態様１～３の何れか１態様において、上記発話内容に対して会話が成り立つ応答内容（Mean）は、音声データで登録されていてもよい。

　上記の構成によれば、応答内要が音声データで登録されていることで、テキストデータから音声データに変換する処理が不要となるため、テキストデータから音声データに変換するのに必要な処理能力を必要としないので、さらに処理能力の高くないＣＰＵによって対話処理を行うことができる。

　本発明の態様５に係る音声対話装置は、使用者（操作者１）と音声対話を行う音声対話装置（音声対話システム１０１、２０１）であって、使用者が発する音声を解析して発話内容（Speak）を特定する発話内容特定部（話題管理装置４）と、上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容（Return）を、予め登録された対話用のデータ（A1. DML,A2. DML等）から取得する応答内容取得部（話題取得装置５）と、上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部（話題管理装置４、音声合成装置９、音波出力装置１０）と、を備え、上記対話用のデータのデータ構造は、前記態様１～４の何れか１態様に記載のデータ構造であることを特徴としている。

　上記の構成によれば、高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。

　本発明の態様６に係る音声対話装置は、上記の態様５において、上記対話用のデータをファイルとして登録する記憶装置（ファイルシステム７）が設けられていてもよい。

　上記構成によれば、装置内部に対話用のデータをファイルとして登録する記憶装置（ファイルシステム７）が設けられていることで、発話内容に対する応答を迅速に処理することが可能となる。

　本発明の態様７に係る音声対話装置は、上記の態様５または６において、上記内容取得部は、ネットワークを介して上記音声対話装置外部から上記対話用のデータを取得するようにしてもよい。

　上記の構成によれば、対話用データを記憶する記憶装置を自装置内に設ける必要がなくなるので、電子機器自体の小型化を可能にする。

　本発明の態様８に係る音声対話装置は、上記の態様５～７の何れか１態様において、使用者が発する音声を取得した時点からの経過時間を計測するタイマ（１１）をさらに備え、上記音声データ出力部は、音声データを出力する直前の上記タイマによる計測時間を取得し、上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力するようにしてもよい。

　上記構成によれば、音波出力までの時間をタイマによって調整可能であるため、使用者に対して適切なタイミングで応答することが可能となる。これにより、違和感のないテンポのよい会話を行うことができる。

　本発明の態様９に係る電子機器は、上記の態様５～８の何れか１態様の音声対話装置を備えていることを特徴としている。

　上記高い処理能力を必要とせず快適なタイミングで対話ができ、会話が発散した場合であっても、対話を継続して行うことができるという効果を奏する。

　本発明は上述した各実施形態に限定されるものではなく、請求項に示した範囲で種々の変更が可能であり、異なる実施形態にそれぞれ開示された技術的手段を適宜組み合わせて得られる実施形態についても本発明の技術的範囲に含まれる。さらに、各実施形態にそれぞれ開示された技術的手段を組み合わせることにより、新しい技術的特徴を形成することができる。

　本発明は、音声対話を機器の操作のみならず、一般的な会話まで行うことを想定した電子機器に利用することができ、特に家電に好適に利用することができる。

　１　操作者（使用者）、２　集音装置、３　音声認識装置、４　話題管理装置、５　話題取得装置、６　一時保存装置、７　ファイルシステム、８　通信装置、９　音声合成装置、１０　音波出力装置、１１　タイマ、１０１、２０１音声対話システム（音声対話装置）、Ａ１～Ａ６　対話用データ（音声対話に用いられるデータ）

Claims

　音声対話装置の音声対話に用いられるデータのデータ構造であって、
　少なくとも、使用者に対して発話する発話内容と、当該発話内容に対して会話が成り立つ応答内容と、当該発話内容の属性を示す属性情報とを一つのセットとしたことを特徴とするデータ構造。
　上記属性情報は、上記発話内容からさらに想定される応答内容を特定するためのキーワードであることを特徴とする請求項１に記載のデータ構造。
　さらに、上記発話内容に対して会話が成り立つ応答内容に関連した発話内容が登録された別データ構造を指定するデータ構造指定情報が含まれていることを特徴とする請求項１または２に記載のデータ構造。
　上記発話内容に対して会話が成り立つ応答内容は、音声データで登録されていることを特徴とする請求項１～３の何れか１項に記載のデータ構造。
　使用者と音声対話を行う音声対話装置であって、
　使用者が発する音声を解析して発話内容を特定する発話内容特定部と、
　上記発話内容特定部が特定した発話内容に対して会話が成り立つ応答内容を、予め登録された対話用のデータから取得する応答内容取得部と、
　上記応答内容取得部が取得した応答内容を、音声データとして出力する音声データ出力部と、を備え、
　上記対話用のデータのデータ構造は、請求項１～４の何れか１項に記載のデータ構造であることを特徴とする音声対話装置。
　上記対話用のデータをファイルとして登録する記憶装置が設けられていることを特徴とする請求項５に記載の音声対話装置。
　上記応答内容取得部は、ネットワークを介して上記音声対話装置外部から上記対話用のデータを取得することを特徴とする請求項５または６に記載の音声対話装置。
　使用者が発する音声を取得した時点からの経過時間を計測するタイマをさらに備え、
　上記音声データ出力部は、
　音声データを出力する直前の上記タイマによる計測時間を取得し、
　上記計測時間が予め設定した時間以上と判定した場合、上記計測時間の判定直後に音声データを出力し、
　上記計測時間が予め設定した時間よりも短いと判定した場合、当該計測時間が当該予め設定した時間に達した時点で、音声データを出力することを特徴とする請求項５～７の何れか１項に記載の音声対話装置。
　請求項５～８の何れか１項に記載の音声対話装置を備えた電子機器。