WO2020261944A1

WO2020261944A1 - 情報処理装置および情報処理方法

Info

Publication number: WO2020261944A1
Application number: PCT/JP2020/022392
Authority: WO
Inventors: 沙也菅野
Original assignee: ソニー株式会社
Priority date: 2019-06-27
Filing date: 2020-06-05
Publication date: 2020-12-30
Also published as: US20220350824A1

Abstract

発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成を良好に行う。　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する。入力発話が意図する発話内容のドメインを推定すると共に、入力発話から推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する。入力発話が意図する発話内容のドメインおよび所定エンティティのフレーズに基づいて応答を生成する。所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、所定エンティティのフレーズの登録をする。知識情報辞書は階層構造を持っており、アプリケーション部は、階層構造を利用して応答を生成する。

Description

情報処理装置および情報処理方法

　本技術は、情報処理装置および情報処理方法に関し、詳しくは、発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成に係る情報処理装置および情報処理方法に関する。

　例えば、特許文献１には、文書検索時に用いた検索条件に関連する名詞句を自動的に抽出し、検索用のシソーラス辞書に登録すること、シソーラス辞書を用いて検索条件を拡張すること等が開示されている。シソーラス辞書への登録は、入力された検索文書から検索条件に該当する名詞句を抽出することで行われる。検索条件の拡張は、検索条件に対応する類義語をシソーラス辞書から選択することで行われる。

特開平１１－０４５２６６号公報

　対話エージェントに含まれる発話意味解析技術では知識情報辞書を使って入力発話に特徴量の付与を行い、これを基に入力発話の解析や応答発話生成を行うことがある。しかし、知識情報辞書を人手で整備するには多大なコストがかかる。さらに、知識は日々更新されるため、常に最新の情報を整備するのは困難である。

　知識情報辞書の自動更新方法として、ウェブページのクローリングやオープンデータベースからのインポートなどがある。前者は情報の正確性を担保することが難しく、後者は他者依存の方法になるため必要な情報に関するデータベースがあるとは限らない。正確性を担保しつつ、自動的に知識情報辞書を獲得できる方法が求められる。

　本技術の目的は、発話意味解析のための知識情報辞書の自動拡張と対話エージェントの応答生成を良好に行うことにある。

　本技術の概念は、
　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記入力発話の内容のドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
　上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
　情報処理装置にある。

　本技術において、タグ付与部により、入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグが付与される。意味解析部により、入力発話が意図する発話内容のドメインが推定されると共に、入力発話から推定されたドメインに係る語彙が所定エンティティのフレーズとして抽出される。例えば、意味解析部は、入力発話が意図する発話内容のドメインを推定する際に、入力発話の語彙に付与されているカテゴリタグに基づいてドメインを推定する、ようにされてもよい。

　辞書拡張部により、所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズが登録される。例えば、辞書拡張部は、アプリケーション部が応答を正しく生成し得る場合に、所定エンティティのフレーズの登録をする、ようにされてもよい。また、例えば、上記知識情報辞書は階層構造を持っており、辞書拡張部は、知識情報辞書の所定エンティティに対応するカテゴリと共に、このカテゴリの上位に位置する各階層のカテゴリに対して、所定エンティティのフレーズの登録をする、ようにされてもよい。

　このように本技術においては、入力発話から抽出された所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録するものである。そのため、知識情報辞書を自動的に拡張することが可能となる。

　また、本技術の他の概念は、
　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記入力発話の内容のドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
　上記知識情報辞書は階層構造を持っており、
　上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
　情報処理装置にある。

　本技術において、タグ付与部により、入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグが付与される。意味解析部により、入力発話が意図する発話内容のドメインが推定されると共に、入力発話から推定されたドメインに係る語彙が所定エンティティのフレーズとして抽出される。アプリケーション部により、ドメインおよび所定エンティティのフレーズに基づいて応答が生成される。

　例えば、アプリケーション部は、応答の内容を収束させる場合は、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、応答の内容を拡大させる場合は、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して応答を生成する、ようにされてもよい。

　また、例えば、アプリケーション部は、入力発話に応答の内容を収束または拡大を指示する内容が含まれる場合は、その指示に従って階層構造を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、入力発話に応答の内容の収束または拡大を指示する内容が含まれていない場合は、入力発話が第一発話であるか第二発話であるかに応じて、階層構造を選択的に利用して応答を生成する、ようにされてもよい。

　ここで、第一発話は、一問一答型対話におけるユーザ発話やマルチターン対話における最初のユーザ発話など、入力発話単体のみで発話意味解析を行うことができる内容の発話を意味する。第二発話は、入力発話単体のみでは発話意味解析を行うことができず前後の発話やエージェントの内部状況と組み合わせて解析することで発話意味解析が可能になる発話を意味する。

　この場合、例えば、アプリケーション部は、入力発話が第一発話であるとき、階層構造を利用せずに応答を生成する、ようにされてもよい。また、この場合、例えば、アプリケーション部は、入力発話が第二発話であるとき、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から応答の内容を収束させるか拡大させるかを判断し、その判断の結果に応じて階層構造を利用して応答を生成する、ようにされてもよい。

　例えば、アプリケーション部は、第一発話と第二発話で同じ階層のカテゴリが付与されている場合には、応答の内容を収束させると判断し、所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して応答を生成する、ようにされてもよい。また、例えば、アプリケーション部は、第一発話と第二発話で同じ階層のカテゴリが付与されていない場合には、応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する、ようにされてもよい。

　このように本技術においては、知識情報辞書の階層構造を利用して応答を生成するものである。そのため、対話エージェントの応答生成を良好に行うことが可能となる。

知識情報辞書の構造を概略的に示す図である。知識情報辞書による入力発話へのカテゴリタグ付与を説明するための図である。知識情報辞書の自動拡張機能を説明するための図である。知識情報辞書の階層構造を活用した応答生成を説明するための図である。１属性のカテゴリタグ付与を説明するための図である。複数属性のカテゴリタグ付与を説明するための図である。購入というアクションについて複数のドメインが用意されている場合であってタグ情報を使わない場合について説明するための図である。購入というアクションについて複数のドメインが用意されている場合であってタグ情報を使う場合について説明するための図である。実施の形態としての情報処理システムの構成例を示すブロック図である。対話エージェントの構成例を示すブロック図である。クラウド・サーバの構成例を示すブロック図である。クラウド・サーバにおける知識情報辞書による入力発話へのカテゴリタグ付与の処理手順の一例を示すフローチャートである。クラウド・サーバにおける知識情報辞書の自動拡張の処理手順の一例を示すフローチャートである。クラウド・サーバのアプリケーション部における知識情報辞書の階層構造を活用した応答生成の処理手順の一例を示すフローチャートである。クラウド・サーバの一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　以下、発明を実施するための形態（以下、「実施の形態」とする）について説明する。なお、説明は以下の順序で行う。
　１．実施の形態
　２．変形例

　＜１．実施の形態＞
　本技術は、発明意味解析エンジンを備えた対話エージェント上で動作することを前提としている。ここで述べる発話意味解析エンジンは、音声認識を通してテキスト化された入力発話(以下、単に、「入力発話」という)を入力とし、意味フレームを出力する機構を意味する。

　意味フレームとは、入力発話が意図する発話内容のカテゴリ(以下、「ドメイン」という)や、入力発話内に含まれており入力発話を処理するために必要になるフレーズ情報(以下、「エンティティ」という)などの情報を含むフレームである。なお、「エンティティ」は、「スロット」と呼ぶことがある。エンティティはドメインに紐づいており、ドメインが決定されることで入力発話から抽出すべきエンティティは自動的に決定される。

　本技術は、エンティティを抽出するために必要になる固有表現抽出器のようなテキストから特定の表現を抜き出す機構とともに活用することが考えられる。入力発話に対してドメイン推定やエンティティ抽出をする際に、発話中の各語彙を知識情報辞書内から検索し、該当する情報がある場合にはその語彙のカテゴリ情報をタグ付けし、これを特徴量として解析時に使用することを可能にする。

　図１は、知識情報辞書２０６の構造を概略的に示している。この知識情報辞書２０６は、階層構造を持っている。例えば、「Place（場所）」というカテゴリの下には、「Country（国）」、「City（都市）」、「Town（町）」、「Station（駅）」などのカテゴリが並列に存在する。また、図示は省略されているが、各カテゴリの下にそれぞれ所定数の語彙（フレーズ）が登録されている。

　この知識情報辞書は、登録内容を自動的に拡張することができる。あるエンティティとして抽出されたフレーズにカテゴリタグがついていない場合、その発話に対して対象アプリケーションが正しい処理を行えれば、そのエンティティに対応するカテゴリとその親カテゴリに対して該当フレーズを登録する。これによって、本技術を搭載する対話エージェントがユーザに使われることで自動的な辞書拡張が可能になる。本機能のために、エンティティと知識情報辞書のカテゴリを一対一で対応させる必要がある。

　知識辞書内のカテゴリ構造と、各カテゴリとエンティティの対応は管理者によって予め定義されている必要がある。この定義は辞書の自動拡張時に影響する設定である。発話への特徴量付与時は各語彙に該当するカテゴリをすべて特徴量として付与する。知識情報辞書はカテゴリが構造化されている。本技術ではこのカテゴリ階層構造を応答生成時にも活用することが可能である。ユーザ発話からのみではドメインの推定が困難な場合に、発話内の語彙に付与されているカテゴリタグを基にドメインを推定することが可能になる。

　本技術が想定する対話エージェントは一問一答型対話だけでなく、マルチターン対話を受け付ける。ここで、一問一答型対話におけるユーザ発話やマルチターン対話における最初のユーザ発話など入力発話単体のみで発話意味解析を行うことができる内容の発話を「第一発話」と呼ぶ。また、入力発話単体のみでは発話意味解析を行うことができず前後の発話やエージェントの内部状況と組み合わせて解析することで発話意味解析が可能になる発話を「第二発話」と呼ぶ。

　本技術のこれらの機能は全てサーバサイドでの動作、あるいはローカルに組み込んでの動作のいずれも可能である。

　以下、本技術の基本的な機能である、（１）入力発話へのカテゴリタグ(特徴量)付与、（２）知識情報辞書の自動拡張機能、（３）階層構造を活用した応答生成、についての詳細を記載する。

　「知識情報辞書による入力発話へのカテゴリタグ付与」
　知識情報辞書による入力発話へのカテゴリタグ付与について説明する。入力発話内のフレーズＡを知識情報辞書内で検索し、該当する語彙が登録されている場合はその語彙が登録されている全てのカテゴリについて、カテゴリタグを付与することになる。例えば、図２に示すように、「東京」という語彙がプレイス（Place）カテゴリ、シティ（City）カテゴリで見つかった場合には、発話文中の「東京」に対してプレイスタグ、シティタグを付与し、これを特徴量として解析時に活用する。

　本技術では、連続する複数形態素をまたいだフレーズの検索も行い、最終的に最長一致で結果を出力する。例えば、「東京タワー」(「東京/タワー」と形態素が分解される)という文字列が入力され、「東京」「タワー」「東京タワー」それぞれの語彙が辞書内に存在していた場合、最長一致で「東京タワー」が検索結果となり「東京タワー」にカテゴリタグが付与される。知識情報辞書内の検索は、形態素の句切れを考慮したものである。よって、図２の例の場合、「京」という語彙が知識情報辞書内に登録されていたとしても、そのカテゴリタグが付与されることはない。

　「知識情報辞書の自動拡張機能」
　知識情報辞書の自動拡張機能について説明する。あるエンティティ（抽出したい表現の分類）と、あるカテゴリが互い一対一で対応しているのであれば、エンティティＸとして抽出されたフレーズＡがカテゴリαに登録されていない(＝カテゴリタグαを付与されていない)場合に、エージェントが特定の動作を完了できた場合は、フレーズＡをαカテゴリの辞書に登録できる。Ａ∈αという特徴はその後、インテントやエンティティに関わらず全ての発話に対して適用可能である。また、「カテゴリωはカテゴリαの上位概念である」という階層関係がωとαの間に存在していた場合、カテゴリαの辞書に登録されたフレーズＡは自動的にカテゴリωの辞書にも登録される。

　例えば、図３に示すように、「サラエヴォ」という語彙が辞書に登録されていなかった場合、「サラエヴォ」の語彙に対してカテゴリタグを付与することは不可能である。しかし、シティエンティティで「サラエヴォ」が抽出され、当該発話に対してエージェントが動作を完了できた場合は「サラエヴォ」の語彙はシティエンティティが対応するシティカテゴリの語彙として辞書に登録される。さらに、シティカテゴリはプレイスカテゴリの子カテゴリなので、同時にプレイスカテゴリの語彙としても登録される。

　「知識情報辞書の階層構造を活用した応答生成」
　知識情報辞書の階層構造を活用した応答生成について説明する。ユーザの入力発話に付与されたカテゴリタグを基に、エージェントは応答を生成することが可能である。カテゴリαと紐付いたエンティティＸとして抽出されたフレーズＡに関して、カテゴリαの親カテゴリ、あるいは子カテゴリの情報も同時に取得し、この階層構造を応答時の情報・特徴量として活用する。

　入力発話および直前までのコンテキストによって、応答生成時に階層構造をどのように活用するか決めることができる。本技術では、解析または応答内容を収束させたい場合には該当カテゴリの子カテゴリ情報を活用する。解析または応答内容の範囲を拡大したい場合には該当カテゴリの親カテゴリ情報または並列するカテゴリ情報を活用する。

　解析または応答内容を収束させるか拡大するかは、入力発話で明確に指示される場合とそうでない場合がある。入力発話に解析内容の収束または拡大を明確に指示する内容が含まれている場合はその指示に従って階層構造を利用して応答を生成する。入力発話に解析内容の収束または拡大を指示する内容が含まれていない場合、入力発話が第一発話であれば階層構造を用いずに応答生成を行う。

　また、入力発話に解析または応答内容の収束または拡大を指示する内容が含まれていない場合、第二発話であれば、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から解析内容を収束させるか拡大するかを判断する。第一発話と第二発話で同じ階層のカテゴリタグが付与されていれば、解析を収束させるために該当カテゴリの子カテゴリ情報を活用する。第一発話と第二発話で同じ階層のカテゴリタグが付与されていない場合には解析内容の拡大のために親カテゴリ情報または並列するカテゴリ情報を活用する。

　例えば、図４に示すような発話履歴を活用するマルチターン対話（ユーザの第一発話「おすすめの観光地をサラエヴォで探して」のあとにシステム応答があり、それを踏まえてユーザが第二発話「ヨーロッパの他の場所では？」と発話）にて、辞書の階層構造によって効果的な応答を選択することが可能になる。

　図４の例の場合には、プレイスエンティティで抽出された「サラエヴォ」というフレーズはシティカテゴリに登録されておりその親カテゴリとしてプレイスカテゴリが存在していて、第二発話では、プレイスエンティティで抽出された「ヨーロッパ」がプレイスカテゴリに登録されているという状態である。図４の例では、入力発話内に解析内容の収束または拡大を明確に支持する内容は含まれていない。しかし、第一発話と第二発話で同じ階層であるプレイスカテゴリタグが付与されているため、システムは解析内容の収束のため子カテゴリであるシティカテゴリに登録された情報の中から、応答で提案する場所を選択することが可能になる。

　「１属性のカテゴリタグ付与」
　次に、１属性のカテゴリタグが付与される例について説明する。図５の例で、「東京の天気教えて」という入力発話において、「東京」の語彙は、プレイスカテゴリとシティカテゴリに存在することから、この「東京」の語彙には、プレイスタグとシティタグが付与される。この場合、シティカテゴリはプレイスカテゴリの下位の階層にあることから、これらの２つのカテゴリは１属性に属するものであり、「東京」の語彙には、１属性に属するカテゴリタグが付与されたことになる。

　図５の例においては、「サラエヴォの天気教えて」という入力発話において、「サラエヴォ」の語彙は辞書に登録されていないことから、「サラエヴォ」の語彙に対してカテゴリタグは付与されない。しかし、シティエンティティのフレーズとして「サラエヴォ」の語彙が抽出され、当該発話に対してエージェントが動作を完了できた場合、図示のように、「サラエヴォ」の語彙はシティエンティティが対応するシティカテゴリの語彙、さらにはその上位のプレイスカテゴリの語彙として、辞書に登録される。

　その後、「おすすめの観光地をサラエヴォで探して」という入力発話（第一発話）において、プレイスエンティティのフレーズとして「サラエヴォ」の語彙が抽出されると共に、この「サラエヴォ」の語彙に、プレイスタグおよびシティタグが付与される。そして、「ヨーロッパの他の場所では？」の入力発話（第二発話）において、プレイスエンティティのフレーズとして「ヨーロッパ」の語彙が抽出されると共に、プレイスタグが付与される。

　この場合、入力発話に解析または応答内容の収束または拡大を指示する内容が含まれておらず、第一発話に付与されたカテゴリタグと第二発話に付与されたカテゴリタグの差分から解析内容を収束させるか拡大するかが判断される。そして、この場合、第一発話と第二発話で同じ階層のカテゴリタグであるプレイスタグが付与されているので、解析または応答内容を収束させるために該当カテゴリの子カテゴリ情報、つまりシティカテゴリの情報が活用されて応答生成が行われる。例えば、「ロンドンの観光地はいかがですか？」のような応答が生成される。

　また、その後、「おすすめの観光地をフランスで探して」という入力発話（第一発話）において、プレイスエンティティのフレーズとして「フランス」の語彙が抽出されると共に、この「フランス」の語彙に、プレイスタグおよびカントリータグが付与される。そして、「他の場所で探して」の入力発話（第二発話）においては、プレイスエンティティのフレーズとして抽出される語彙はない。

　この場合、第一発話と第二発話で同じ階層のカテゴリタグが付与されていないので、解析または応答内容を収束させるために親カテゴリ情報または並列するカテゴリ情報が活用されて応答生成が行われる。例えば、「イタリアの観光地はいかがですか？」のような応答が生成される。

　「複数属性のカテゴリタグ付与」
　複数属性のカテゴリタグ付与について説明する。最初に、購入というアクションについて、“商品の購入”のドメインが用意されている場合について説明する。

　図６の例で、「ＡＡＡＡ」という語彙がスナック（Snack）カテゴリに登録されている状態で、音楽再生ドメインにあたる「ＡＡＡＡって曲を再生して」という入力発話でミュージックトラックエンティティ（MusicTrack Entity）のフレーズとして「ＡＡＡＡ」の語彙が抽出されると共に、この「ＡＡＡＡ」の語彙にスナックタグが付与される。

　当該発話に対してエージェントが動作を完了できた場合、図示のように、「ＡＡＡＡ」の語彙は、ミュージックトラックカテゴリとその上位のミュージックカテゴリの語彙として登録され、その結果、ミュージックカテゴリ、ミュージックトラックカテゴリ、スナックカテゴリに「ＡＡＡＡ」といいう語彙が登録された状態となる。

　このとき、物品購入ドメインにあたる「ＡＡＡＡを買って」という発話が新たに入力されると、システムは「ＡＡＡＡ」に付与されたタグ情報を特徴量として「ＡＡＡＡ」の語彙をパーチェイスエンティティ（Purchase Entity）のフレーズとして抽出することができる。また、「ＡＡＡＡ」に付与されたタグ情報から購入すべき「ＡＡＡＡ」がお菓子なのか楽曲なのかをユーザに確認する応答を生成することが可能になる。例えば、「お菓子を買いますか？楽曲を買いますか？」という応答を生成する。

　次に、食品の購入、音楽の購入、ビデオの購入、書籍の購入、…など、購入というアクションについて複数のドメインが用意されている場合について説明する。本技術を適用しない場合は、図７に示すように、「ＡＡＡＡ」が何を指すかという情報を得ることができず、購入アクションを行う全てのドメインを候補とするため、ユーザにとってわかりやすい応答の生成が困難になるかもしれない。

　本技術を適用した場合は、図８に示すように、「ＡＡＡＡ」に付与されたタグが特徴量となり、ドメインを絞ることが可能になる。この場合、「ＡＡＡＡを買って」という発話において、「ＡＡＡＡ」の語彙はパーチェイスエンティティのフレーズとして抽出されると共に、この「ＡＡＡＡ」の語彙に、スナックタグ、ミュージックタグ、ミュージックトラックタグが付与される。これにより、システムは、購入対象を指すパーチェイスエンティティのタグ情報から、食品購入ドメインと音楽購入ドメインに絞ることができる。

　［情報処理システムの構成例］
　図９は、実施の形態としての情報処理システム１０の構成例を示している。この情報処理システム１０は、対話エージェント１００とクラウド・サーバ２００がインターネット等のネットワーク３００を介して接続された構成となっている。

　対話エージェント１００は、ユーザと会話をする。対話エージェント１００は、ユーザの入力発話のデータを、ネットワーク３００を介して、クラウド・サーバ２００に送る。クラウド・サーバ２００は、その入力発話のデータを処理して応答情報を生成し、ネットワーク３００を介して、対話エージェント１００に送る。対話エージェント１００は、その応答情報に基づき、ユーザに対して音声出力や画面出力をする。

　ここで、ユーザの入力発話のデータは、マイクロホンで得られる音声データ、あるいはそれを音声認識処理して得られたテキストデータであってもよく、さらには、ユーザの入力操作によるテキストデータであってもよい。また、応答情報は、例えばテキストデータであって、対話エージェント１００は、音声出力をする場合には、このテキストデータから音声データに変換して用いる。この実施の形態において、ユーザの入力発話のデータは、例えばマイクロホンで得られる音声データである、とする。

　「対話エージェントの構成例」
　図１０は、対話エージェント１００の構成例を示している。対話エージェント１００は、制御部１０１と、入出力インタフェース１０２と、操作入力デバイス１０３と、マイクロホン１０４と、スピーカ１０５と、ディスプレイ１０６と、通信インタフェース１０７と、レンダリング部１０８を有している。制御部１０１、入出力インタフェース１０２、通信インタフェース１０７およびレンダリング部１０８は、バス１０９に接続されている。

　制御部１０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random access memory）等を備えてなり、対話エージェント１００の各部の動作を制御する。入出力インタフェース１０２は、操作入力デバイス１０３、マイクロホン１０４、スピーカ１０５およびディスプレイ１０６を接続する。操作入力デバイス１０３は、対話エージェント１００のユーザが種々の操作入力を行うための操作部を構成する。

　通信インタフェース１０７は、ネットワーク３００を介して、クラウド・サーバ２００と通信をする。この通信インタフェース１０７は、マイクロホン１０４で得られた音声データを、クラウド・サーバ２００に送信する。また、この通信インタフェース１０７は、クラウド・サーバ２００から、応答情報を受信する。

　レンダリング部１０８は、クラウド・サーバ２００から送られてくる応答情報に基づき、レンダリング（サウンドエフェクト、音声合成、アニメーションなど）を実行して、生成された音声信号をスピーカ１０５に供給すると共に、生成された映像信号をディスプレイ１０６に供給する。なお、ディスプレイ１０６は、プロジェクタであってもよい。

　「クラウド・サーバの構成例」
　クラウド・サーバ２００は、対話エージェント１００から送られてくる入力発話のデータを処理して応答情報を生成し、この応答情報を対話エージェント１００に送り返す。クラウド・サーバ２００は、発話意味解析エンジン（発話意味解析部）を備えている。

　図１１は、クラウド・サーバ２００の構成例を示している。このクラウド・サーバ２００は、制御部２０１と、記憶部２０２と、通信インタフェース２０３と、音声認識部２０４と、言語処理部２０５と、知識情報辞書２０６と、発話意味解析部２０７と、アプリケーション部２１０を有している。

　制御部２０１は、ＣＰＵ（Central Processing Unit）、ＲＯＭ（Read Only Memory）、ＲＡＭ（Random access memory）等を備えてなり、クラウド・サーバ２００の各部の動作を制御する。記憶部２０２は、半導体メモリやハードディスク等で構成されている。この記憶部２０２には、知識情報辞書２０６も含まれている。

　通信インタフェース２０３は、ネットワーク３００を介して、対話エージェント１００と通信をする。この通信インタフェース２０３は、対話エージェント１００から送られてくる入力発話の音声データを受信する。また、通信インタフェース２０３は、ユーザに応答するための応答情報を、ネットワーク３００を介して、対話エージェント１００に送信する。

　音声認識部２０４は、入力発話の音声データに対して音声認識処理を施して、音声をテキストに変換する。言語処理部２０５は、音声認識部２０４で得られたテキストの解析を行って、語彙（単語）と品詞、係り受けなどの情報を得る。言語処理部２０５は、入力発話の各語彙に対して、知識情報辞書２０６に登録されているときには、全てのカテゴリについてカテゴリタグを付与する。この意味で、言語処理部２０５は、タグ付与部も構成している。

　発話意味解析部２０７は、ドメイン推定器２０８とエンティティ抽出器２０９を備えている。ドメイン推定器２０８は、入力発話が意図する発話内容のドメイン（カテゴリ）を推定する。この場合、ドメイン推定器２０８は、例えば、入力発話の語彙に付与されているカテゴリタグに基づいてドメインを推定する。また、エンティティ抽出器２０９は、ドメイン推定器２０８で推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する。このフレーズは、後述するアプリケーション部２１０で、入力発話を処理するために必要となる。発話意味解析部２０７は、ドメイン推定器２０８で推定されるドメインやエンティティ抽出器２０９で抽出される所定エンティティのフレーズなどの情報を含む音声フレームを出力する。

　アプリケーション部２１０は、発話意味解析部２０７の出力である音声フレーム（ドメインや所定エンティティのフレーズなどの情報を含む）に基づいて、応答を生成する。この場合、アプリケーション部２１０は、上述したように、知識情報辞書２０６の階層構造を活用した応答生成をする。

　また、アプリケーション部２１０は、所定エンティティのフレーズにカテゴリタグが付与されておらず、アプリケーション動作が正常に完了したとき、知識情報辞書２０６のその所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録する。この場合、所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対しても所定エンティティのフレーズの登録をする。この意味で、アプリケーション部２１０は、辞書拡張部も構成している。なお、アプリケーション動作が正常に完了したという条件を判断することなく、知識情報辞書２０６への登録を行う構成も考えられる。

　図１２のフローチャートは、クラウド・サーバ２００における知識情報辞書２０６による入力発話へのカテゴリタグ付与の処理手順の一例を示している。クラウド・サーバ２００は、ステップＳＴ１において入力発話があると、ステップＳＴ２において知識情報辞書２０６の呼び出しをする。

　次に、クラウド・サーバ２００は、ステップＳＴ３において、知識情報辞書２０６に登録されたフレーズ（語彙）は入力発話内に見つかるか判断する。見つからない場合、クラウド・サーバ２００は、入力発話へのカテゴリタグの付与はしない。一方、見つかった場合、クラウド・サーバ２００は、ステップＳＴ４において、入力発話内の見つかった語彙に、対応するカテゴリのカテゴリタグを付与する。この場合、対応するカテゴリが複数である場合には、その全てのカテゴリについてカテゴリタグを付与する。

　図１３のフローチャートは、クラウド・サーバ２００における知識情報辞書２０６の自動拡張の処理手順の一例を示している。クラウド・サーバ２００は、ステップＳＴ１１において、入力発話から所定エンティティのフレーズを抽出する。次に、クラウド・サーバ２００は、ステップＳＴ１２において、抽出されたフレーズは、知識情報辞書２０６の対象カテゴリに登録されていないか判断する。例えば、当該フレーズにその対象カテゴリのタグが付与されていないとき、当該フレーズは知識情報辞書２０６の対象カテゴリに登録されていないと判断できる。

　登録されている場合、クラウド・サーバ２００は、当該フレーズにその対象カテゴリに登録する処理を行わない。一方、登録されていない場合、クラウド・サーバ２００は、ステップＳＴ１３において、発話意味解析部２０７から意味フレームを出力し、ステップＳＴ１４において、アプリケーション部２１０のアプリケーションを呼び出し、アプリケーション動作をさせる。

　次に、クラウド・サーバ２００は、ステップＳＴ１５において、アプリケーションは正常に動作完了したか判断する。正常に動作完了していない場合、クラウド・サーバ２００は、入力発話から抽出された所定エンティティのフレーズを対象カテゴリに登録する処理を行わない。一方、正常に動作完了した場合、クラウド・サーバ２００は、ステップＳＴ１６において、知識情報辞書２０６の対象カテゴリに当該フレーズを登録する。

　図１４のフローチャートは、クラウド・サーバ２００のアプリケーション部２１０における知識情報辞書２０６の階層構造を活用した応答生成の処理手順の一例を示している。アプリケーション部２１０は、ステップＳＴ２１において、発話意味解析部２０７から意味フレームを入力する。

　次に、アプリケーション部２１０は、ステップＳＴ２２において、入力発話にて応答（解析）内容を収束または拡大したいことが明確に指示されているか判断する。明確に指示されている場合、アプリケーション部２１０は、ステップＳＴ２３において、指示に従って階層構造を利用して応答生成をする。

　また、ステップＳＴ２２で明確に指示されていない場合、アプリケーション部２１０は、ステップＳＴ２４において、入力発話は第二発話か判断する。第二発話でない場合、つまり第一発話である場合、アプリケーション部２１０は、ステップＳＴ２５において、階層構造を用いずに応答生成をする。

　また、ステップＳＴ２４で第二発話である場合、アプリケーション部２１０は、ステップＳＴ２６において、第一発話と第二発話で同じ階層のカテゴリタグが付与されているか判断する。同じ階層のカテゴリタグが付与されている場合、アプリケーション部２１０は、ステップＳＴ２７において、応答内容を収束させるために、該当カテゴリの子カテゴリ情報を活用して応答生成をする。

　また、ステップＳＴ２６で同じ階層のカテゴリタグが付与されていない場合、アプリケーション部２１０は、ステップＳＴ２８において、応答内容を拡大させるために、親カテゴリ情報または並列するカテゴリ情報を活用して応答生成をする。

　以上説明したように、図９に示す情報処理システム１０においては、入力発話から抽出された所定エンティティのフレーズにカテゴリタグが付与されていないとき、知識情報辞書２０６の所定エンティティに対応するカテゴリに対して、その所定エンティティのフレーズを登録するものである。そのため、ユーザが手間をかけることなく、知識情報辞書２０６を自動的に拡張することが可能となる。

　また、図９に示す情報処理システム１０においては、知識情報辞書２０６の階層構造を利用して応答を生成するものである。そのため、対話エージェントの応答生成を良好に行うことが可能となる。

　なお、図９に示す情報処理システム１０においては、応答生成の処理をクラウド・サーバ２００で行うものであるが、クラウド・サーバ２００の上述した機能の一部または全部を対話エージェント１００内で行う構成も容易に考えることができる。

　また、図１５は、上述したクラウド・サーバ２００の一連の処理をプログラムにより実行するコンピュータのハードウエアの構成例を示すブロック図である。

　コンピュータにおいて、ＣＰＵ（Central Processing Unit）５０１、ＲＯＭ（Read Only Memory）５０２、ＲＡＭ（Random Access Memory）５０３は、バス５０４により相互に接続されている。バス５０４には、さらに、入出力インタフェース５０５が接続されている。入出力インタフェース５０５には、入力部５０６、出力部５０７、記憶部５０８、通信部５０９、およびドライブ５１０が接続されている。

　入力部５０６は、キーボード、マウス、マイクロホンなどよりなる。出力部５０７は、ディスプレイ、スピーカなどよりなる。記憶部５０８は、ハードディスクや不揮発性のメモリなどよりなる。通信部５０９は、ネットワークインタフェースなどよりなる。ドライブ５１０は、磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリなどのリムーバブルメディア５１１を駆動する。

　以上のように構成されるコンピュータでは、ＣＰＵ５０１が、例えば、記憶部５０８に記憶されているプログラムを、入出力インタフェース５０５およびバス５０４を介して、ＲＡＭ５０３にロードして実行することにより、上述した一連の処理が行われる。

　コンピュータ（ＣＰＵ５０１）が実行するプログラムは、例えば、パッケージメディア等としてのリムーバブルメディア５１１に記録して提供することができる。また、プログラムは、ローカルエリアネットワーク、インターネット、デジタル衛星放送といった、有線または無線の伝送媒体を介して提供することができる。

　コンピュータでは、プログラムは、リムーバブルメディア５１１をドライブ５１０に装着することにより、入出力インタフェース５０５を介して、記憶部５０８にインストールすることができる。また、プログラムは、有線または無線の伝送媒体を介して、通信部５０９で受信し、記憶部５０８にインストールすることができる。その他、プログラムは、ＲＯＭ５０２や記憶部５０８に、予めインストールしておくことができる。

　なお、コンピュータが実行するプログラムは、本明細書で説明する順序に沿って時系列に処理が行われるプログラムであっても良いし、並列に、あるいは呼び出しが行われたとき等の必要なタイミングで処理が行われるプログラムであっても良い。

　＜２．変形例＞
　なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、本技術は、以下のような構成を取ることもできる。
　（１）入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
　上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
　情報処理装置。
　（２）上記意味解析部は、上記入力発話が意図する発話内容のドメインを推定する際に、上記入力発話の語彙に付与されているカテゴリタグに基づいて上記ドメインを推定する
　前記（１）に記載の情報処理装置。
　（３）上記辞書拡張部は、上記アプリケーション部が上記応答を正しく生成し得る場合に、上記所定エンティティのフレーズの登録をする
　前記（１）または（２）に記載の情報処理装置。
　（４）上記知識情報辞書は階層構造を持っており、
　上記辞書拡張部は、上記知識情報辞書の上記所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対して、上記所定エンティティのフレーズの登録をする
　前記（１）から（３）のいずれかに記載の情報処理装置。
　（５）入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順と、
　上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする手順を有する
　情報処理方法。
　（６）入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
　上記知識情報辞書は階層構造を持っており、
　上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
　情報処理装置。
　（７）上記アプリケーション部は、上記応答の内容を収束させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
　前記（６）に記載の情報処理装置。
　（８）上記アプリケーション部は、上記応答の内容を拡大させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
　前記（６）または（７）に記載の情報処理装置。
　（９）上記アプリケーション部は、上記入力発話に上記応答の内容を収束または拡大を指示する内容が含まれる場合は、該指示に従って上記階層構造を利用して上記応答を生成する
　前記（６）から（８）のいずれかに記載の情報処理装置。
　（１０）上記アプリケーション部は、上記入力発話に上記応答の内容の収束または拡大を指示する内容が含まれていない場合は、上記入力発話が第一発話であるか第二発話であるかに応じて、上記階層構造を選択的に利用して上記応答を生成する
　前記（６）から（９）のいずれかに記載の情報処理装置。
　（１１）上記アプリケーション部は、上記入力発話が上記第一発話であるとき、上記階層構造を利用せずに上記応答を生成する
　前記（１０）に記載の情報処理装置。
　（１２）上記アプリケーション部は、上記入力発話が上記第二発話であるとき、上記第一発話に付与されたカテゴリタグと上記第二発話に付与されたカテゴリタグの差分から上記応答の内容を収束させるか拡大させるかを判断し、該判断の結果に応じて上記階層構造を利用して上記応答を生成する
　前記（１０）または（１１）に記載の情報処理装置。
　（１３）上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されている場合には、上記応答の内容を収束させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
　前記（１２）に記載の情報処理装置。
　（１４）上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されていない場合には、上記応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
　前記（１２）または（１３）に記載の情報処理装置。
　（１５）入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順を有し、
　上記知識情報辞書は階層構造を持っており、
　上記応答を生成する手順では、上記階層構造を利用して上記応答を生成する
　情報処理方法。

　１０・・・情報処理システム
　１００・・・対話エージェント
　１０１・・・制御部
　１０２・・・入出力インタフェース
　１０３・・・操作入力デバイス
　１０４・・・マイクロホン
　１０５・・・スピーカ
　１０６・・・ディスプレイ
　１０７・・・通信インタフェース
　１０８・・・レンダリング部
　１０９・・・バス
　２００・・・クラウド・サーバ
　２０１・・・制御部
　２０２・・・記憶部
　２０３・・・通信インタフェース
　２０４・・・音声認識部
　２０５・・・言語処理部
　２０６・・・知識情報辞書
　２０７・・・発話意味解析部
　２０８・・・ドメイン推定器
　２０９・・・エンティティ抽出器
　２１０・・・アプリケーション部
　３００・・・ネットワーク

Claims

　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部と、
　上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする辞書拡張部を備える
　情報処理装置。
　上記意味解析部は、上記入力発話が意図する発話内容のドメインを推定する際に、上記入力発話の語彙に付与されているカテゴリタグに基づいて上記ドメインを推定する
　請求項１に記載の情報処理装置。
　上記辞書拡張部は、上記アプリケーション部が上記応答を正しく生成し得る場合に、上記所定エンティティのフレーズの登録をする
　請求項１に記載の情報処理装置。
　上記知識情報辞書は階層構造を持っており、
　上記辞書拡張部は、上記知識情報辞書の上記所定エンティティに対応するカテゴリと共に、該カテゴリの上位に位置する各階層のカテゴリに対して、上記所定エンティティのフレーズの登録をする
　請求項１に記載の情報処理装置。
　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順と、
　上記所定エンティティのフレーズに上記カテゴリタグが付与されていないとき、上記知識情報辞書の上記所定エンティティに対応するカテゴリに対して上記所定エンティティのフレーズの登録をする手順を有する
　情報処理方法。
　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与するタグ付与部と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する意味解析部と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成するアプリケーション部を備え、
　上記知識情報辞書は階層構造を持っており、
　上記アプリケーション部は、上記階層構造を利用して上記応答を生成する
　情報処理装置。
　上記アプリケーション部は、上記応答の内容を収束させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
　請求項６に記載の情報処理装置。
　上記アプリケーション部は、上記応答の内容を拡大させる場合は、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
　請求項６に記載の情報処理装置。
　上記アプリケーション部は、上記入力発話に上記応答の内容を収束または拡大を指示する内容が含まれる場合は、該指示に従って上記階層構造を利用して上記応答を生成する
　請求項６に記載の情報処理装置。
　上記アプリケーション部は、上記入力発話に上記応答の内容の収束または拡大を指示する内容が含まれていない場合は、上記入力発話が第一発話であるか第二発話であるかに応じて、上記階層構造を選択的に利用して上記応答を生成する
　請求項６に記載の情報処理装置。
　上記アプリケーション部は、上記入力発話が上記第一発話であるとき、上記階層構造を利用せずに上記応答を生成する
　請求項１０に記載の情報処理装置。
　上記アプリケーション部は、上記入力発話が上記第二発話であるとき、上記第一発話に付与されたカテゴリタグと上記第二発話に付与されたカテゴリタグの差分から上記応答の内容を収束させるか拡大させるかを判断し、該判断の結果に応じて上記階層構造を利用して上記応答を生成する
　請求項１０に記載の情報処理装置。
　上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されている場合には、上記応答の内容を収束させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して下位の階層のカテゴリの情報を利用して上記応答を生成する
　請求項１２に記載の情報処理装置。
　上記アプリケーション部は、上記第一発話と上記第二発話で同じ階層のカテゴリが付与されていない場合には、上記応答の内容を拡大させると判断し、上記所定エンティティのフレーズに付与されているカテゴリタグで示されるカテゴリに対して上位の階層または並列するカテゴリの情報を利用して上記応答を生成する
　請求項１２に記載の情報処理装置。
　入力発話の各語彙に対して、知識情報辞書に登録されているときには、全てのカテゴリについてカテゴリタグを付与する手順と、
　上記入力発話が意図する発話内容のドメインを推定すると共に、上記入力発話から上記推定されたドメインに係る語彙を所定エンティティのフレーズとして抽出する手順と、
　上記ドメインおよび上記所定エンティティのフレーズに基づいて応答を生成する手順を有し、
　上記知識情報辞書は階層構造を持っており、
　上記応答を生成する手順では、上記階層構造を利用して上記応答を生成する
　情報処理方法。