JPWO2019163247A1

JPWO2019163247A1 - 情報処理装置、情報処理方法、および、プログラム

Info

Publication number: JPWO2019163247A1
Application number: JP2020502034A
Authority: JP
Inventors: 真一河野; 広岩瀬; 祐平滝
Original assignee: Sony Corp
Current assignee: Sony Corp
Priority date: 2018-02-22
Filing date: 2018-11-30
Publication date: 2021-02-04
Anticipated expiration: 2038-11-30
Also published as: US11398221B2; JP7375741B2; WO2019163247A1; EP3757988A1; CN111727473A; EP3757988A4; US20200402498A1

Abstract

【課題】第２の音声が第１の音声の言い直しであるか否かの判定結果に適応的に、第１の音声の音声認識結果に対応する意味を学習することが可能な、情報処理装置、情報処理方法、および、プログラムを提案する。【解決手段】第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、を備える、情報処理装置。【選択図】図１

Description

本開示は、情報処理装置、情報処理方法、および、プログラムに関する。

従来、音声認識に関する技術が各種提案されている。音声認識では、ユーザの発話時の音声を文字列に変換することができる。

例えば、下記特許文献１には、入力された音響信号に言い直し発話が含まれるか否かを判定する技術が記載されている。

特開２０１６−１８０９１７号公報

しかしながら、特許文献１に記載の技術では、第１の音声の後に収音された第２の音声が第１の音声の言い直しであるか否かの判定結果に適応的に、第１の音声の音声認識結果に対応する意味を学習することは考慮されていない。

そこで、本開示では、第２の音声が第１の音声の言い直しであるか否かの判定結果に適応的に、第１の音声の音声認識結果に対応する意味を学習することが可能な、新規かつ改良された情報処理装置、情報処理方法、および、プログラムを提案する。

本開示によれば、第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、を備える、情報処理装置が提供される。

また、本開示によれば、第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第１の音声の音声認識結果に対応する意味を学習すること、を含む、情報処理方法が提供される。

また、本開示によれば、コンピュータを、第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、として機能させるためのプログラムが提供される。

以上説明したように本開示によれば、第２の音声が第１の音声の言い直しであるか否かの判定結果に適応的に、第１の音声の音声認識結果に対応する意味を学習することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれかの効果であってもよい。

本開示の実施形態に係る情報処理システムの構成例を示した説明図である。本実施形態に係る端末２０の機能構成例を示したブロック図である。本実施形態に係るサーバ１０の機能構成例を示したブロック図である。各ユーザの関係性の一例を示した図である。複数のユーザによる端末２０に対する発話の例を示した図である。複数のユーザによる端末２０に対する発話の例を示した図である。図５に示した状況の後に、端末２０が実行する処理の例を示した図である。図５に示した状況の後に発話が収音された場合における端末２０が実行する処理の例を示した図である。本実施形態の適用例に係る各ユーザの関係性を示した図である。本適用例に係る複数のユーザによる端末２０に対する発話の例を示した図である。図１０に示した状況の後の、該当の学習結果の適用ユーザと、当該学習結果の適用対象外のユーザとを一覧的に示した図である。図１０に示した状況の後に発話が収音された場合における端末２０が実行する処理の例を示した図である。図１０に示した状況の後に発話が収音された場合における端末２０が実行する処理の例を示した図である。本実施形態に係る処理の流れの一例を示したフローチャートである。本実施形態に係る「音声入力処理」の流れの一部を示したフローチャートである。本実施形態に係る「音声入力処理」の流れの一部を示したフローチャートである。本実施形態に係る「学習結果の適用範囲の更新処理」の流れを示したフローチャートである。本実施形態に係る「学習するか否かの判定処理」の流れを示したフローチャートである。「学習するか否かの判定処理」の変形例１の流れを示したフローチャートである。「学習するか否かの判定処理」の変形例２の流れを示したフローチャートである。「学習するか否かの判定処理」の変形例３の流れを示したフローチャートである。「学習するか否かの判定処理」の変形例４の流れを示したフローチャートである。本実施形態に係る「学習結果の適用範囲の決定処理」の流れを示したフローチャートである。「学習結果の適用範囲の決定処理」の変形例１の流れを示したフローチャートである。「学習結果の適用範囲の決定処理」の変形例２の流れを示したフローチャートである。「学習結果の適用範囲の決定処理」の変形例３の流れを示したフローチャートである。「学習結果の適用範囲の決定処理」の変形例４の流れを示したフローチャートである。「学習結果の適用範囲の決定処理」の変形例５の流れを示したフローチャートである。本実施形態の応用例１に係る学習結果の適用ユーザの動的な追加の例を示した図である。同応用例１に係る学習結果の適用ユーザの動的な削減の例を示した図である。本実施形態の応用例２に係る学習結果の適用ユーザの動的な追加の例を示した図である。同応用例２に係る学習結果の適用ユーザの動的な削減の例を示した図である。同応用例２に係る「学習結果の適用範囲の更新処理」の流れを示したフローチャートである。本実施形態の応用例３に係る複数のユーザによる端末２０に対する発話の例を示した図である。図３４に示した状況の後に発話が収音された場合における端末２０が実行する処理の例を示した図である。サーバ１０のハードウェア構成例を示した図である。

以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の構成要素を、必要に応じて端末２０ａおよび端末２０ｂのように区別する。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、端末２０ａおよび端末２０ｂを特に区別する必要が無い場合には、単に端末２０と称する。

また、以下に示す項目順序に従って当該「発明を実施するための形態」を説明する。
１．情報処理システムの構成
２．実施形態の詳細な説明
３．応用例
４．ハードウェア構成
５．変形例

＜＜１．情報処理システムの構成＞＞
まず、本開示の実施形態に係る情報処理システムの構成例について、図１を参照して説明する。図１に示すように、本実施形態に係る情報処理システムは、サーバ１０、端末２０、および、通信網２２を有する。

＜１−１．サーバ１０＞
サーバ１０は、本開示に係る情報処理装置の一例である。サーバ１０は、音声認識機能を有し得る。例えば、サーバ１０は、後述する端末２０が収音した音声を通信網２２を介して端末２０から受信し、当該音声を音声認識し、そして、当該音声認識結果の意味を解析することが可能である。

さらに、サーバ１０は、端末２０に対して各種の情報の出力を制御し得る。例えば、サーバ１０は、ユーザの指示などに基づいて、所定の動画や所定の音声を端末２０に出力させる。

＜１−２．端末２０＞
端末２０は、例えばサーバ１０の制御に従って、各種の情報を出力する。この端末２０は、例えば、汎用ＰＣ（ＰｅｒｓｏｎａｌＣｏｍｐｕｔｅｒ）、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばＨＭＤ（ＨｅａｄＭｏｕｎｔｅｄＤｉｓｐｌａｙ）やスマートウォッチなどのウェアラブルデバイス、車載装置（カーナビゲーション装置など）、または、ロボット（例えばヒューマノイド型ロボットまたは自動運転車など）であってもよい。

ここで、図２を参照して、端末２０の機能構成について説明する。図２は、端末２０の機能構成例を示したブロック図である。図２に示したように、端末２０は、制御部２００、通信部２２０、センサ部２２２、出力部２２４、および、記憶部２２６を有する。

｛１−２−１．制御部２００｝
制御部２００は、例えばＣＰＵ（ＣｅｎｔｒａｌＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）やＧＰＵ（ＧｒａｐｈｉｃｓＰｒｏｃｅｓｓｉｎｇＵｎｉｔ）などの処理回路を含んで構成され得る。制御部２００は、端末２０の動作を統括的に制御する。例えば、制御部２００は、後述するセンサ部２２２によりセンシングされた各種のセンシング結果をサーバ１０へ通信部２２０に送信させる。また、制御部２００は、サーバ１０から受信される出力制御情報に従って、当該出力制御情報が指示する情報を出力部２２４に出力させる。

｛１−２−２．センサ部２２２｝
センサ部２２２は、マイクロフォンを有し得る。センサ部２２２は、周囲で発せられた音声を収音し得る。

また、センサ部２２２は、例えば、カメラ（イメージセンサ）、距離センサ（例えばｔｉｍｅｏｆｆｌｉｇｈｔ方式のセンサ、または、ステレオカメラなど）、温度センサ、生体センサ、加速度センサ、方位センサ、および、筋電センサのうちの少なくとも一つをさらに含んでもよい。また、センサ部２２２は、例えばＧＰＳ（ＧｌｏｂａｌＰｏｓｉｔｉｏｎｉｎｇＳｙｓｔｅｍ）やＧＬＯＮＡＳＳ（ＧｌｏｂａｌＮａｖｉｇａｔｉｏｎＳａｔｅｌｌｉｔｅＳｙｓｔｅｍ）などの測位衛星から測位信号を受信する受信機をさらに含んでもよい。

なお、センサ部２２２に含まれる個々のセンサは、常時センシングをしてもよいし、定期的にセンシングしてもよいし、または、特定の場合（例えば制御部２００からの指示があった場合など）にのみセンシングしてもよい。

｛１−２−３．通信部２２０｝
通信部２２０は、例えば無線通信および／または有線通信により、他の装置との間で情報の送受信を行う。例えば、通信部２２０は、制御部２００の制御に従って、センサ部２２２による各種のセンシング結果（例えばマイクロフォンにより収音された音声データなど）をサーバ１０へ送信する。また、通信部２２０は、各種の映像や各種の音の出力制御情報をサーバ１０から受信する。

｛１−２−４．出力部２２４｝
出力部２２４は、制御部２００の制御に従って各種の情報（映像や音など）を出力する。出力部２２４は、音声出力部を有し得る。当該音声出力部は、例えばスピーカ、イヤフォン、または、ヘッドフォンなどを含んで構成される。当該音声出力部は、制御部２００の制御に従って音（音声や音楽など）を出力する。

さらに、出力部２２４は、表示部を有し得る。当該表示部は、例えば、ＬＣＤ（ＬｉｑｕｉｄＣｒｙｓｔａｌＤｉｓｐｌａｙ）、ＯＬＥＤ（ＯｒｇａｎｉｃＬｉｇｈｔＥｍｉｔｔｉｎｇＤｉｏｄｅ）など）、または、プロジェクタなどを含んで構成される。当該表示部は、制御部２００の制御に従って映像を表示（投影など）する。

｛１−２−５．記憶部２２６｝
記憶部２２６は、各種のデータや各種のソフトウェアを記憶する。

＜１−３．通信網２２＞
通信網２２は、通信網２２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網２２は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（ＬｏｃａｌＡｒｅａＮｅｔｗｏｒｋ）、ＷＡＮ（ＷｉｄｅＡｒｅａＮｅｔｗｏｒｋ）などを含んでもよい。また、通信網２２は、ＩＰ−ＶＰＮ（ＩｎｔｅｒｎｅｔＰｒｏｔｏｃｏｌ−ＶｉｒｔｕａｌＰｒｉｖａｔｅＮｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

＜１−４．課題の整理＞
以上、本実施形態に係る情報処理システムの構成について説明した。ところで、発話で操作するシステムにおいて、システムが受け付け可能（以下では、「ＩｎＤｏｍａｉｎ」と称する場合もある）な発話をユーザが話そうとしても、当該システムにより、受け付け範囲外（以下では、「ＯＯＤ（ＯｕｔＯｆＤｏｍａｉｎ）」と称する場合もある）と判定される場合がある。このため、ＯＯＤとなった発話Ａの後で、ＩｎＤｏｍａｉｎの発話Ｃをユーザが言い直す場合がある。

そこで、ユーザの利便性を向上させるために、「発話Ａと発話Ｃとが同じ意図の発話であること」を自動的に学習可能であることが望ましい。この際、ＩｎＤｏｍａｉｎになった発話Ｃが「発話Ａに対する言い直し」であるか否かを精度良く判定しなければ学習の質が低下してしまう。そこで、これを精度良く判定可能であることが望ましい。

また、発話Ａに対応する意味の学習の結果を、全てのユーザに対して一様に反映させることは望ましくない。例えば、発話Ａの実施時のコンテキストと同じコンテキストのときだけ、当該学習の結果が反映されることが望ましい。

そこで、上記事情を一着眼点にして、本実施形態に係るサーバ１０を創作するに至った。本実施形態に係るサーバ１０は、第１のタイミングの後の第２のタイミングに収音された第２の音声が、第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、当該第１の音声の音声認識結果に対応する意味を学習する。このため、当該第１の音声の音声認識結果に対応する意味を適切に学習することができる。

ここで、当該第１の音声と当該第２の音声とは同一の人物が発した音声であってもよいし、別々の人物が発した音声であってもよい。また、当該第１の音声は、発話に限定されず、自然言語の文法規則とは無関係な発声（例えば、発声障がい者が発した音など）であってもよい。また、当該第１の音声は、人間の音声に限定されず、人間以外の動物（例えば鳥など）の鳴き声であってもよい。また、当該第２の音声は、（標準の自然言語の文法規則に沿った）発話であり得る。以下では、当該第１の音声および当該第２の音声が発話である例を中心として説明を行う。

＜＜２．実施形態の詳細な説明＞＞
＜２−１．構成＞
次に、本実施形態に係る構成について説明する。図３は、本実施形態に係るサーバ１０の機能構成例を示したブロック図である。図３に示したように、サーバ１０は、制御部１００、通信部１２０、および、記憶部１２２を有する。

｛２−１−１．制御部１００｝
制御部１００は、例えば、後述するＣＰＵ１５０やＧＰＵなどの処理回路を含んで構成され得る。制御部１００は、サーバ１０の動作を統括的に制御する。また、図３に示したように、制御部１００は、音声認識部１０２、意味解析部１０４、言い直し判定部１０６、学習部１０８、および、出力制御部１１０を有する。

｛２−１−２．音声認識部１０２｝
音声認識部１０２は、例えば端末２０から受信された音声データなどの音声に対して音声認識を行う。例えば、音声認識部１０２は、該当の音声を音声認識することにより文字列に変換する。

｛２−１−３．意味解析部１０４｝
意味解析部１０４は、音声認識部１０２による認識結果に対して自然言語処理を行うことにより、該当の音声の意味を解析する。

｛２−１−４．言い直し判定部１０６｝
言い直し判定部１０６は、本開示に係る判定部の一例である。言い直し判定部１０６は、第１のタイミングの後の第２のタイミングに収音された第２の発話が、第１のタイミングに収音された第１の発話の言い直しであるか否かを所定の基準に基づいて判定する。例えば、第１のタイミングと第２のタイミングとの間の時間が所定の閾値以内である場合には、言い直し判定部１０６は、当該第２の発話が当該第１の発話の言い直しであると判定する。また、第１のタイミングと第２のタイミングとの間の時間が当該所定の閾値よりも大きい場合には、言い直し判定部１０６は、当該第２の発話が当該第１の発話の言い直しではないと判定する。

または、言い直し判定部１０６は、意味解析部１０４による第２の発話の意味解析の結果に基づいて、当該第２の発話が当該第１の発話の言い直しであるか否かを判定することも可能である。例えば、「「〜」ってことだよ」や「「〜」という意味です」などのような「教えてあげる意図（または意味）の発話」であると当該第２の発話が解析された場合には、言い直し判定部１０６は、当該第２の発話が当該第１の発話の言い直しであると判定する。

または、言い直し判定部１０６は、当該第２の発話の解析結果と、当該第２のタイミングにおける当該第２の発話の話者の行動認識の結果との組み合わせに基づいて、当該第２の発話が当該第１の発話の言い直しであるか否かを判定してもよい。例えば、当該第２の発話が「教えてあげる意図（または意味）の発話」であると解析され、かつ、当該第２のタイミングにおいて当該第２の発話の話者が当該第１の発話の話者の方に視線を向けたり、または、指差していたことが認識された場合には、言い直し判定部１０６は、当該第２の発話が当該第１の発話の言い直しであると判定する。

｛２−１−５．学習部１０８｝
（２−１−５−１．学習するか否かの決定）
学習部１０８は、言い直し判定部１０６による判定結果に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。例えば、当該第２の発話が当該第１の発話の言い直しではないと判定された場合には、学習部１０８は、当該第１の発話の音声認識結果に対応する意味を学習しない。また、当該第２の発話が当該第１の発話の言い直しであると判定された場合には、学習部１０８は、当該第２の発話の音声認識結果に対応する意味に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。例えば、当該第２の発話が当該第１の発話の言い直しであると判定され、当該第１の発話の音声認識結果に対応する意味が特定不能であり、かつ、当該第２の発話の音声認識結果に対応する意味が特定可能であった場合に、学習部１０８は、当該第２の発話の音声認識結果に対応する意味に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。つまり、当該第１の発話がＯＯＤであり、かつ、当該第２の発話がＩｎＤｏｍａｉｎであった場合に、学習部１０８は、当該第２の発話の音声認識結果に対応する意味に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。この場合、例えば、学習部１０８は、当該第１の発話の音声認識結果に対応する意味が当該第２の発話の音声認識結果に対応する意味と同一または類似になるように、当該第１の発話の音声認識結果に対応する意味を学習する。

‐判定例１：コンテキストの関係性
以下では、学習部１０８による、学習するか否かの決定例についてさらに詳細に説明する。例えば、学習部１０８は、さらに、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとの関係性に基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定する。一例として、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合（例えば、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとが大きく異なると判定された場合など）には、学習部１０８は、当該第１の発話の音声認識結果に対応する意味を学習しないことを決定する。また、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとの差に関する所定の評価値が当該所定の条件を満たさないと判定された場合（例えば、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとが略同一であると判定された場合など）には、学習部１０８は、当該第１の発話の音声認識結果に対応する意味を、当該第２の発話の音声認識結果に対応する意味に基づいて学習することを決定する。

ここで、コンテキストの差に関する所定の評価値は、声のノンバーバル情報（例えば、音量や抑揚など）の差を示す値であってもよい。この場合、学習部１０８は、当該第１の発話と当該第２の発話との声のノンバーバル情報の差に基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。

または、当該コンテキストの差に関する所定の評価値は、例えばジェスチャなどの、声以外のノンバーバル情報の差を示す値であってもよい。この場合、学習部１０８は、当該第１のタイミングにおける声以外のノンバーバル情報と、当該第２のタイミングにおける声以外のノンバーバル情報との差を示す値に基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。例えば、首を横に振るなどの否定的な動きが当該第２のタイミングに検出された場合には、学習部１０８は、当該第１のタイミングと当該第２のタイミングとの間でコンテキストがほとんど変わっていないと判断し、そして、当該第１の発話の音声認識結果に対応する意味を学習することを決定してもよい。または、当該第１の発話の話者の注視点が当該第１のタイミングと当該第２のタイミングとの間で所定の閾値以上変化したことが検出された場合には、学習部１０８は、当該第１のタイミングと当該第２のタイミングとの間でコンテキストが大きく変わったと判断し、そして、当該第１の発話の音声認識結果に対応する意味を学習しないと決定してもよい。

‐判定例２：話者に関する情報
または、学習部１０８は、さらに、当該第２の発話の話者認識の結果に基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。例えば、学習部１０８は、当該第２の発話の話者の過去の言い直しの成功頻度が所定の閾値以上であるか否かに基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。これにより、例えば、空気を読まずに発言する人物による発話を学習の対象外とする（換言すれば、ノイズとして排除する）ことができる。また、学習部１０８は、当該第２の発話の話者の音声入力の利用頻度が所定の閾値以上であるか否かに基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。または、学習部１０８は、当該第２の発話の話者からセンシングされた生体情報に基づいて、当該第２の発話の話者がウソをついているか否かを判定することにより、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。この方法によれば、例えば、子どもによるいたずらの発話を学習の対象外とすることができる。

ここで、図４〜図６を参照して、上記の内容についてより詳細に説明する。図４に示したように、ここでは、祖父「Ａ」、祖母「Ｂ」、「Ａ」の孫「Ｄ」、および、「Ａ」の孫「Ｆ」が家族であることを想定する。図５に示したように、まず、祖母「Ｂ」が「懐かしい雰囲気にして。」という発話３０ａを端末２０に対して行い、端末２０が発話３０ａの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ａをＯＯＤであると判定したとする。なお、この際、サーバ１０は、発話３０ａをＯＯＤであると判定したことを示す音声４０ａ（例えば「わかりません。」や「え？」など）を端末２０に出力させてもよい。

その後、祖父「Ａ」が発話３０ａの言い直しとして「ＡＡＡにしてくれるか。」という発話３０ｂを端末２０に対して行い、端末２０が発話３０ｂの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｂもＯＯＤであると判定したとする。その後、孫「Ｄ」が発話３０ａの言い直しとして「おじいちゃん達が好きな音楽をかけて。」という発話３０ｃを端末２０に対して行い、端末２０が発話３０ｃの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｃをＩｎＤｏｍａｉｎであると判定したとする。ここで、孫「Ｄ」の過去の言い直しの成功頻度は所定の閾値以上であるとする。そこで、学習部１０８は、発話３０ａに対応する意味を学習することを決定してもよい。さらに、学習部１０８は、発話３０ａに対応する意味が、発話３０ｃに対応する意味と同一になるように、発話３０ａに対応する意味を学習してもよい。

図６は、図５に示した例とは異なる状況の例を示した図である。図６に示したように、図５に示した例と同様に、まず、祖母「Ｂ」が発話３０ａを行い、その後、祖父「Ａ」が発話３０ｂを行ったとする。その後、図５に示した例とは異なり、孫「Ｆ」が、「グループＡの曲をかけて。」という、いたずらの発話３０ｄを端末２０に対して行い、端末２０が発話３０ｄの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｄをＩｎＤｏｍａｉｎであると判定したとする。ここで、孫「Ｆ」の過去の言い直しの成功頻度は所定の閾値未満であるとする。そこで、学習部１０８は、発話３０ａに対応する意味を学習しないことを決定してもよい。この場合、図６に示したように、制御部１００は、「Ｆ」が所有する所定の端末（スマートフォンなど）へ「グループＡの曲」を転送してもよい。さらに、後述する出力制御部１１０は、発話３０ａに対応する意味を学習しなかったこと（換言すれば、「グループＡの曲」を転送したこと）を通知する音声４０ｄを端末２０に出力させてもよい。

（２−１−５−２．学習結果の適用範囲の決定）
‐決定例１：音声入力の慣れ
さらに、学習部１０８は、当該第１の発話の音声認識結果に対応する意味を学習した場合には、当該第１の発話と略同一の発話を行った際に当該発話の意味が当該第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ（以下、「学習結果の適用ユーザ」と称する場合がある）を所定の基準に基づいて決定することが可能である。例えば、学習部１０８は、当該第２の発話の話者が音声入力に慣れているか否かの判定結果に基づいて、当該学習結果の適用ユーザを決定してもよい。一例として、当該第２の発話の話者が音声入力に慣れていると判定された場合には、学習部１０８は、当該学習結果の適用ユーザを全員と決定してもよい。また、当該第２の発話の話者が音声入力に慣れていないと判定された場合には、学習部１０８は、当該学習結果の適用ユーザを当該第２の発話の話者のみと決定してもよい。

ここで、ユーザが音声入力に慣れているか否かは、例えば、当該ユーザの音声入力の利用頻度、当該ユーザの発話の音声認識結果の信頼度、または、当該ユーザの発話における言いよどみやフィラーの有無に基づいて判定されてもよい。あるいは、ユーザが音声入力に慣れているか否かは、当該ユーザの生体情報や当該ユーザの表情の解析結果に基づいて判定された当該ユーザの自信の有無に基づいて判定されてもよい。あるいは、ユーザが音声入力に慣れているか否かは、これらの指標のうちの２以上の組み合わせに基づいて判定されてもよい。これにより、判定の精度を向上させることができる。例えば、あるユーザの発話の音声認識結果の信頼度が高く、かつ、言いよどみが無いと判定された場合には、当該ユーザが音声入力に慣れていると判定されてもよい。

‐決定例２：音声の届く範囲
または、学習部１０８は、当該第２の発話の音声が物理的に届く範囲内に存在すると判断された人たちを当該学習結果の適用ユーザとして決定してもよい。この方法によれば、当該第２の発話がなされたときに周囲に存在していなかった人たちを当該学習結果の適用対象外とすることができる。これにより、当該周囲に存在していなかった人たちが音声入力を利用する際に、意図しない音声認識結果が得られることを防止することができる。ここで、音声が届く範囲は、例えば、当該第２のタイミングにおける、発話者の位置情報と当該発話者の周囲の撮像画像に基づいた画像認識結果とを組み合わせることにより判断されてもよい。または、例えばレーダーなどを用いた当該発話者からの距離の計測結果に基づいて、当該音声が届く範囲が判断されてもよい。または、例えば当該第２のタイミングにおける当該第２の発話の話者のスケジュールの登録内容などに基づいて、当該話者が位置するべき場所を特定することにより、当該音声が届く範囲が判断されてもよい。

‐決定例３：話者のコミュニティ
または、学習部１０８は、例えば当該第２の発話の話者のデモグラフィック情報などから特定される、当該第２の発話の話者と同一のコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。ここで、コミュニティの例としては、家族、ゲーム仲間のコミュニティ、チャットグループ、または、友人などが挙げられる。例えば、当該第２の発話の話者が「孫」である場合には、学習部１０８は、当該学習結果の適用ユーザを当該第２の発話の話者の家族と決定してもよい。

‐決定例４：発話のトピックのコミュニティ
または、学習部１０８は、当該第１の発話または当該第２の発話のトピックに合致するコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。例えば、当該第１の発話が「懐かしい音楽にして。」である場合には、学習部１０８は、当該第１の発話のトピックを「音楽」と判断し、そして、「音楽」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。または、当該第２の発話が、あるゲーム特有の言い回しを含む発話である場合には、学習部１０８は、「ゲーム」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。

‐決定例５：個人化したい発話
または、当該第２の発話が、個人化したい発話であると検出された場合には、学習部１０８は、当該学習結果の適用ユーザを当該第２の発話の話者のみと決定してもよい。このような場合の具体例としては、当該第１の発話が、パスワードのような秘密の合言葉に対応する発話であり、かつ、当該第２の発話が当該第１の発話の言い直しであるケース（換言すれば、他のユーザに発話を覚えられたくないケース）などが挙げられる。ここで、個人化したい発話であることの検出方法の例としては、当該第２の発話の話者が、個人用のマイクロフォンを用いて発話していたか否かを検出すること、ささやき声により当該第２の発話がなされたか否かを検出すること、または、当該第２の発話時に、当該第２の発話の話者が口を覆うジェスチャを行っていたか否かを検出することなどが挙げられる。なお、ささやき声であるか否かは、例えば非可聴つぶやき認識や唇認識などにより検出され得る。

‐具体例
ここで、図５を参照して、学習部１０８の上記の機能についてより詳細に説明する。図５に示した例では、孫「Ｄ」の音声入力の利用頻度が所定の閾値以上であるとする。そこで、学習部１０８は、発話３０ａに対応する意味の学習結果の適用ユーザを、その場にいる全てのユーザ（つまり、「Ａ」、「Ｂ」、「Ｃ」、「Ｄ」、および、「Ｆ」）として決定してもよい。または、学習部１０８は、当該学習結果の適用ユーザを「Ｄ」の家族のみと決定してもよい。

｛２−１−６．出力制御部１１０｝
（２−１−６−１．学習済みであることの通知）
‐通知例１
出力制御部１１０は、端末２０に対して情報（例えば映像や音など）の出力を制御する。例えば、当該第１の発話の音声認識結果に対応する意味を学習部１０８が学習した場合には、出力制御部１１０は、当該第１の発話の音声認識結果に対応する意味が学習済みであることを示す通知の音声（例えばＴＴＳ（ＴｅｘｔＴｏＳｐｅｅｃｈ）など）を端末２０に出力させる。

ここで、図７を参照して、上記の機能についてより詳細に説明する。図７は、図５に示した例における、端末２０に対する出力の制御例を示した図である。図７では、学習部１０８が、発話３０ｃに対応する意味を学習することを決定した直後の状況を示している。図７に示したように、まず、出力制御部１１０は、発話３０ｃに対応する意味の解析結果に基づいて、「ＡＡＡＢＢソング集」の出力を端末２０に開始させる。さらに、出力制御部１１０は、例えば「「懐かしい雰囲気にして」という「おばあちゃん」のリクエストでＡＡＡＢＢソング集をお届けしています」などのように、発話３０ａに対応する意味を学習したこと、および、学習した内容を示す通知の音声４０ｅを端末２０に出力させる。

‐通知例２
また、ある発話に対応する意味と、別の複数の発話の各々に対応する意味とが同一であると学習部１０８が学習した場合には、出力制御部１１０は、この学習結果を通知する音声を端末２０に出力させることも可能である。例えば、出力制御部１１０は、まず、当該別の複数の発話の中から、例えばいずれか一つを通知対象の発話として選択する。次に、出力制御部１１０は、通知対象のユーザを決定する。そして、出力制御部１１０は、当該通知対象の発話に対応する意味と、当該ある発話に対応する意味とが同一であると学習済みであることを通知する音声を当該通知対象のユーザに対して端末２０に出力させる。例えば、出力制御部１１０は、まず、当該ある発話の内容を第１のＴＴＳで端末２０に出力させ、そして、当該通知対象の発話の内容を第２のＴＴＳで端末２０に出力させる。一例として、当該ある発話が「ＢＧＭにして」であり、かつ、当該通知対象の発話の内容が「グループＡの歌の再生を指示すること」であるとする。この場合、出力制御部１１０は、例えば、「ＢＧＭにして」という音声を第１のＴＴＳで端末２０に出力させ、その直後に、「のリクエストでグループＡの歌Ｘをお届けします」という音声を第２のＴＴＳで端末２０に出力させてもよい。

なお、出力制御部１１０は、特定のタイミングにのみ、この通知の音声を端末２０に出力させてもよい。例えば、端末２０による「歌Ｘ」の出力の音量が所定の閾値以下である場合に限り、出力制御部１１０は、この通知の音声を端末２０に出力させてもよい。または、端末２０の周囲の騒音の音量が所定の閾値以下になった際に、出力制御部１１０は、この通知の音声を端末２０に出力させてもよい。

次に、（この通知の音声の）通知対象の発話の選択例についてより詳細に説明する。例えば、出力制御部１１０は、当該通知対象の発話として、当該別の複数の発話の中から、自然言語理解の信頼度が最も高かった発話を選択してもよいし、最初になされた発話を選択してもよいし、または、最後になされた発話を選択してもよい。または、出力制御部１１０は、発話時に認識された該当の話者の行動の度合い（行動の大きさまたは頻度など）が最も大きかった発話を当該通知対象の発話として選択してもよい。または、出力制御部１１０は、当該別の複数の発話の各々に関して、発話時のバイタル情報や声のノンバーバル情報に基づいて発話時の興奮度を判定し、そして、発話時の興奮度が最も大きい発話を当該通知対象の発話として選択してもよい。

以下では、上記の通知対象のユーザの決定例についてより詳細に説明する。例えば、出力制御部１１０は、端末２０の周囲に位置する全員を当該通知対象のユーザとして決定してもよい。または、出力制御部１１０は、現在の忙しさの度合い（例えば行動の頻度など）が最も小さい人を当該通知対象のユーザとして決定してもよい。または、出力制御部１１０は、端末２０のセンシング範囲内で「傾聴状態」にある一以上のユーザを当該通知対象のユーザとして決定してもよい。なお、各ユーザが傾聴状態であるか否かは、例えば、当該ユーザの瞬きの頻度が少ないか否かに基づいて検出され得る。

（２−１−６−２．学習結果に基づく出力制御）
また、第１の発話の音声認識結果に対応する意味を学習部１０８が学習した場合は、出力制御部１１０は、当該学習結果に基づいて、端末２０に対して情報の出力を制御し得る。

図８は、図５に示した例において、学習部１０８による学習が行われた後の、端末２０に対する出力の制御例を示した図である。図８に示したように、祖父「Ａ」が、図５に示した発話３０ａと同一の発話３２を端末２０に対して行い、そして、端末２０が発話３２の音声データをサーバ１０へ送信したとする。この場合、まず、サーバ１０の意味解析部１０４は、学習部１０８による学習結果に基づいて、発話３２に対応する意味を、「ＡＡＡＢＢソング集の再生を指示すること」（換言すれば、図５に示した発話３０ｃに対応する意味と同一の意味）と解析する。そして、出力制御部１１０は、当該解析結果に基づいて、「ＡＡＡＢＢソング集」の出力を端末２０に開始させる。

｛２−１−７．通信部１２０｝
通信部１２０は、後述する通信装置１６６を含んで構成され得る。通信部１２０は、他の装置との間で情報の送受信を行う。例えば、通信部１２０は、出力制御部１１０の制御に従って、各種の情報を端末２０へ送信する。また、通信部１２０は、各種のセンシング結果を端末２０から受信する。

｛２−１−８．記憶部１２２｝
記憶部１２２は、後述するストレージ装置１６４を含んで構成され得る。記憶部１２２は、各種のデータや、各種のソフトウェアを記憶する。例えば、記憶部１２２は、学習部１０８による学習結果の履歴を記憶する。

＜２−２．適用例＞
以上、本実施形態の構成について説明した。次に、本実施形態の適用例について、図９〜図１３を参照して説明する。本適用例では、図９に示したように、兄弟「Ｈ」、兄弟「Ｉ」、および、祖父「Ａ」が家族であり、かつ、「Ｈ」、「Ｇ」、および、「Ｊ」が、同じゲームコミュニティに属している例を示している。本適用例では、図１０に示したように、まず、「Ｈ」が「ＢＡＮはどうだった？」という発話３０ａを端末２０に対して行い、端末２０が発話３０ａの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ａをＯＯＤであると判定したとする。その後、「Ｈ」が発話３０ａの言い直しとして「さっきＢＡＮされたシーンだよ。」という発話３０ｂを端末２０に対して行い、端末２０が発話３０ｂの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｂもＯＯＤであると判定したとする。その後、「Ｇ」が発話３０ａの言い直しとして「ゲームＸでＢＡＮされたときの記録動画を再生して。」という発話３０ｃを端末２０に対して行い、端末２０が発話３０ｃの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｃをＩｎＤｏｍａｉｎであると判定したとする。ここで、「Ｇ」の過去の言い直しの成功頻度は所定の閾値以上であるとする。そこで、学習部１０８は、発話３０ａに対応する意味を学習することを決定し、そして、発話３０ａに対応する意味が、発話３０ｃに対応する意味と同一になるように、発話３０ａに対応する意味を学習し得る。

また、本適用例において、「Ｇ」の音声入力の利用頻度が所定の閾値以上であるとする。そこで、学習部１０８は、発話３０ａに対応する意味の学習結果の適用ユーザ（つまり、発話３０ａと略同一の発話を行った際に発話の意味が発話３０ａの音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ）を、図１１において枠線で示したように、上記のゲームコミュニティに属しているユーザのみ（つまり、「Ｇ」、「Ｈ」、および、「Ｊ」）に決定し得る。

その後、図１２に示したように、例えば数日後に、「Ｈ」が、「今日のＢＡＮはどうだった？」という、図１０に示した発話３０ａと略同一の発話３２ａを端末２０に対して行い、そして、端末２０が発話３２ａの音声データをサーバ１０へ送信したとする。この場合、まず、サーバ１０の意味解析部１０４は、「Ｈ」が、発話３０ａに対応する意味の学習結果の適用ユーザであることを確認する。次に、意味解析部１０４は、学習部１０８による学習結果に基づいて、発話３２ａに対応する意味を、「ゲームＸの動画の再生を指示すること」（換言すれば、図１０に示した発話３０ｃに対応する意味と同一の意味）と解析する。そして、出力制御部１１０は、当該解析結果に基づいて、「ゲームＸの動画」の出力を端末２０に開始させる。

その後、図１３に示したように、「Ｉ」が、例えば「僕のバン（ＢＡＮ）はどうだった？」という、図１０に示した発話３０ａと略同一の発話３２ｂを端末２０に対して行い、そして、端末２０が発話３２ｂの音声データをサーバ１０へ送信したとする。この場合、まず、サーバ１０の意味解析部１０４は、「Ｉ」が、発話３０ａに対応する意味の学習結果の適用ユーザではないことを確認する。次に、意味解析部１０４は、発話３２ｂに対応する意味を解析するために、学習部１０８による学習結果を用いないことを決定する。そして、意味解析部１０４は、発話３２ｂをＯＯＤであると判定する。その後、出力制御部１１０は、当該判定結果を示す通知の音声４２ｂを端末２０に出力させる。

＜２−３．処理の流れ＞
｛２−３−１．処理の全体の流れ｝
以上、本実施形態の適用例について説明した。次に、本実施形態に係る処理の流れについて説明する。図１４は、本実施形態に係る処理の流れの一例を示したフローチャートである。図１４に示したように、まず、サーバ１０は、後述する「音声入力処理」を行う（Ｓ１０１）。

その後、サーバ１０の言い直し判定部１０６は、最新のＳ１０１で入力された発話が、すでに入力済みの発話の言い直しであるか否かを判定する（Ｓ１０３）。該当の発話が言い直しではないと判定された場合には（Ｓ１０３：Ｎｏ）、サーバ１０は、後述するＳ１１７の処理を行う。

一方、該当の発話が、すでに入力済みの発話の言い直しであると判定された場合には（Ｓ１０３：Ｙｅｓ）、次に、意味解析部１０４は、該当の発話がＩｎＤｏｍａｉｎであるか否かを判定する（Ｓ１０５）。該当の発話がＩｎＤｏｍａｉｎではない（つまり、ＯＯＤである）と判定された場合には（Ｓ１０５：Ｎｏ）、サーバ１０は、再びＳ１０１以降の処理を行う。

一方、該当の発話がＩｎＤｏｍａｉｎであると判定された場合には（Ｓ１０５：Ｙｅｓ）、サーバ１０の制御部１００は、まず、該当の発話に関する情報（音声認識結果など）を記憶部１２２に記録する（Ｓ１０７）。

続いて、学習部１０８は、後述する「学習するか否かの判定処理」を行う（Ｓ１０９）。Ｓ１０９において該当の発話に関して学習しないと判定された場合には（Ｓ１１１：Ｎｏ）、サーバ１０は、後述するＳ１１７の処理を行う。

一方、Ｓ１０９において該当の発話に関して学習すると判定された場合には（Ｓ１１１：Ｙｅｓ）、学習部１０８は、後述する「学習結果の適用範囲の決定処理」を行う（Ｓ１１３）。

続いて、学習部１０８は、該当の発話（第２の発話）の前に収音された、当該第２の発話に対応する別の発話（第１の発話）の音声認識結果に対応する意味を、当該第２の発話の音声認識結果に対応する意味に基づいて学習する（Ｓ１１５）。

その後、制御部１００は、該当の発話の音声認識結果に対応する処理を実行する（Ｓ１１７）。

｛２−３−２．音声入力処理｝
ここで、図１５および図１６を参照して、Ｓ１０１における「音声入力処理」の流れについてより詳細に説明する。図１５および図１６は、「音声入力処理」の流れの一部をそれぞれ示したフローチャートである。図１５に示したように、まず、端末２０は、例えば収音などの各種のセンシングを開始する。そして、各種のセンシング結果が取得される度に、端末２０は、取得された個々のセンシング結果をサーバ１０へ逐次送信する（Ｓ２０１）。

その後、Ｓ２０１において音声が収音された場合には、サーバ１０の音声認識部１０２は、該当の音声を音声認識する（Ｓ２０３）。続いて、音声認識部１０２は、Ｓ２０３における認識結果に対応するテキストデータを取得する（Ｓ２０５）。続いて、音声認識部１０２は、Ｓ２０３における音声認識結果の信頼値を取得する（Ｓ２０７）。さらに、音声認識部１０２は、言いよどみやフィラーワードが該当の音声に含まれているか否かを判定する（Ｓ２０９）。その後、サーバ１０は、後述するＳ２４１、Ｓ２４５、Ｓ２５１、および、Ｓ２５３の処理を行う。

また、Ｓ２０１において音声が収音された場合には、制御部１００は、例えば、当該音声の収音時に端末２０により撮像された撮像画像などに基づいて、該当の音声の話者を認識する（Ｓ２１１）。続いて、制御部１００は、Ｓ２１１で認識された話者の発話に関する学習履歴データを記憶部１２２から抽出する（Ｓ２１３）。続いて、制御部１００は、Ｓ２１１で認識された話者の発話に関する学習時の音声入力内容を示す履歴データを記憶部１２２から抽出する（Ｓ２１５）。その後、サーバ１０は、後述するＳ２４１、Ｓ２４５、Ｓ２５１、および、Ｓ２５３の処理を行う。

また、Ｓ２０１の後、制御部１００は、例えば端末２０により撮像された話者の画像や、端末２０により収音された音声などに基づいて、該当の話者の感情を認識する（Ｓ２１７）。端末２０により音声が収音された場合には、制御部１００は、さらに、当該音声のノンバーバル情報（例えば、音量や抑揚など）を特定することにより取得する（Ｓ２１９）。続いて、制御部１００は、端末２０による各種のセンシング結果（例えば該当の話者の生体情報など）に基づいて、該当の話者の興奮度を特定する（Ｓ２２１）。その後、サーバ１０は、後述するＳ２４１、Ｓ２４５、Ｓ２５１、および、Ｓ２５３の処理を行う。

また、Ｓ２０１の後、制御部１００は、例えば端末２０により撮像された話者の画像などに基づいて、該当の話者のジェスチャを認識し（Ｓ２２３）、そして、認識されたジェスチャデータを取得する（Ｓ２２５）。その後、サーバ１０は、後述するＳ２４１、Ｓ２４５、Ｓ２５１、および、Ｓ２５３の処理を行う。

また、Ｓ２０１の後、制御部１００は、例えば端末２０により撮像された話者の画像などに基づいて、該当の話者の視線を認識し（Ｓ２２７）、そして、認識された視線データを取得する（Ｓ２２９）。その後、サーバ１０は、後述するＳ２４１、Ｓ２４５、Ｓ２５１、および、Ｓ２５３の処理を行う。

また、Ｓ２０１の後、制御部１００は、例えば端末２０により取得された話者の生体情報に基づいて、該当の話者に関する生体認識を行う（Ｓ２３１）。そして、制御部１００は、該当の話者の心拍データを取得する（Ｓ２３３）。さらに、制御部１００は、取得された生体情報に基づいて、該当の発話に対する話者の自信の有無を判定する（Ｓ２３５）。

ここで、図１６を参照して、Ｓ２３５（および、Ｓ２０９、Ｓ２１５、Ｓ２２１、Ｓ２２５、Ｓ２２９）より後の処理の流れについて説明する。図１６に示したように、Ｓ２３５の後、まず、制御部１００は、端末２０による収音結果に基づいて、環境音の認識処理を行う（Ｓ２４１）。続いて、制御部１００は、Ｓ２４１における認識結果に基づいて、該当の話者の周囲の雑音状況を特定する（Ｓ２４３）。その後、制御部１００は、後述する「学習結果の適用範囲の更新処理」を行う（Ｓ２５５）。

また、Ｓ２３５の後、制御部１００は、端末２０により撮像された画像に対して画像認識処理を行う（Ｓ２４５）。続いて、制御部１００は、Ｓ２４５における認識結果に基づいて、該当の話者の位置情報を特定する（Ｓ２４７）。さらに、制御部１００は、Ｓ２４５における認識結果に基づいて、該当の話者の周囲に居る人たちを認識し、そして、当該認識結果に基づいて、これらの人物のデモグラフィック情報を取得する（Ｓ２４９）。その後、制御部１００は、上記のＳ２５５の処理を行う。

また、Ｓ２３５の後、制御部１００は、例えばＧＰＳなどの測位衛星から端末２０が受信した信号に基づいて特定された、端末２０の位置情報を取得する（Ｓ２５１）。その後、制御部１００は、上記のＳ２５５の処理を行う。

また、Ｓ２３５の後、制御部１００は、例えばスケジューラなどに登録されている、該当の話者のスケジュールの内容を特定し、そして、特定した内容に基づいて、当該話者が位置するべき場所を特定する（Ｓ２５３）。その後、制御部１００は、上記のＳ２５５の処理を行う。

｛２−３−３．学習結果の適用範囲の更新処理｝
次に、図１７を参照して、Ｓ２５５における「学習結果の適用範囲の更新処理」の流れについて説明する。図１７に示したように、まず、制御部１００は、該当の学習結果を適用する対象範囲に含まれている人が他人と会話しているか否かを、端末２０による各種のセンシング結果（撮像画像など）に基づいて判定する（Ｓ３０１）。該当の人が他人と会話していないと判定された場合には（Ｓ３０１：Ｎｏ）、当該「学習結果の適用範囲の更新処理」は終了する。

一方、該当の人が他人と会話していると判定された場合には（Ｓ３０１：Ｙｅｓ）、まず、制御部１００は、当該学習結果を適用する対象範囲に含まれている人が会話している相手に関するデータを取得する（Ｓ３０３）。

続いて、制御部１００は、当該会話中に該当の人が他人と向き合っている時間の長さが所定の時間以上であるか否かを判定する（Ｓ３０５）。該当の人が他人と向き合っている時間の長さが当該所定の時間未満である場合には（Ｓ３０５：Ｎｏ）、当該「学習結果の適用範囲の更新処理」は終了する。

一方、該当の人が他人と向き合っている時間の長さが当該所定の時間以上である場合には（Ｓ３０５：Ｙｅｓ）、次に、制御部１００は、当該会話のターンテイキング数が所定の閾値以上になっているか否かを判定する（Ｓ３０７）。当該会話のターンテイキング数が当該所定の閾値未満である場合には（Ｓ３０７：Ｎｏ）、当該「学習結果の適用範囲の更新処理」は終了する。

一方、当該会話のターンテイキング数が当該所定の閾値以上になっている場合には（Ｓ３０７：Ｙｅｓ）、学習部１０８は、該当の学習結果を適用する対象範囲に、該当の人が会話している相手を追加する（Ｓ３０９）。

｛２−３−４．学習するか否かの判定処理｝
次に、図１８を参照して、Ｓ１０９における「学習するか否かの判定処理」の流れについて説明する。図１８に示したように、学習部１０８は、該当の発話者の過去の学習の成功回数が所定の閾値以上であるか否かを判定する（Ｓ４０１）。該当の発話者の過去の学習の成功回数が所定の閾値以上である場合には（Ｓ４０１：Ｙｅｓ）、学習部１０８は、該当の発話に関して学習すると判定する（Ｓ４０３）。一方、該当の発話者の過去の学習の成功回数が当該所定の閾値以上未満である場合には（Ｓ４０１：Ｎｏ）、学習部１０８は、該当の発話に関して学習しないと判定する（Ｓ４０５）。

なお、Ｓ１０９の処理の流れは、図１８に示した例に限定されない。例えば、図１９〜図２２に示した「変形例１」〜「変形例４」のうちのいずれかが、図１８に示した例の代わりに、Ｓ１０９の処理の流れとして適用されてもよい。または、これらの「変形例１」〜「変形例４」、および、図１８に示した例のうちのいずれか二以上が並列に実行され、かつ、それらの結果が組み合わされてもよい。

（２−３−４−１．変形例１）
図１９は、Ｓ１０９の変形例１に係る処理の流れを示したフローチャートである。図１９に示したように、本変形例では、学習部１０８は、該当の発話の直前に収音された別の発話の収音時と該当の発話時との間の、該当の発話の話者の興奮度の差が所定の閾値以下であるか否かを判定する（Ｓ４１１）。該当の発話の話者の興奮度の差が当該所定の閾値よりも大きい場合には（Ｓ４１１：Ｎｏ）、学習部１０８は、該当の発話に関して学習すると判定する（Ｓ４１３）。一方、該当の発話の話者の興奮度の差が当該所定の閾値以下である場合には（Ｓ４１１：Ｙｅｓ）、学習部１０８は、該当の発話に関して学習しないと判定する（Ｓ４１５）。

（２−３−４−２．変形例２）
図２０は、Ｓ１０９の変形例２に係る処理の流れを示したフローチャートである。図２０に示したように、本変形例では、学習部１０８は、該当の発話の話者の心拍データが示す値が所定の閾値以上であるか否かを判定する（Ｓ４２１）。当該心拍データが示す値が当該所定の閾値未満である場合には（Ｓ４２１：Ｎｏ）、学習部１０８は、該当の発話に関して学習すると判定する（Ｓ４２３）。一方、当該心拍データが示す値が当該所定の閾値以上である場合には（Ｓ４２１：Ｙｅｓ）、学習部１０８は、該当の発話に関して学習しないと判定する（Ｓ４２５）。

（２−３−４−３．変形例３）
図２１は、Ｓ１０９の変形例３に係る処理の流れを示したフローチャートである。図２１に示したように、本変形例では、学習部１０８は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する（Ｓ４３１）。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には（Ｓ４３１：Ｙｅｓ）、学習部１０８は、該当の発話に関して学習すると判定する（Ｓ４３３）。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には（Ｓ４３１：Ｎｏ）、学習部１０８は、該当の発話に関して学習しないと判定する（Ｓ４３５）。

（２−３−４−４．変形例４）
図２２は、Ｓ１０９の変形例４に係る処理の流れを示したフローチャートである。図２２に示したように、本変形例では、学習部１０８は、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていたか否かを判定する（Ｓ４４１）。該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていなかった場合には（Ｓ４４１：Ｎｏ）、学習部１０８は、該当の発話に関して学習すると判定する（Ｓ４４３）。一方、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていた場合には（Ｓ４４１：Ｙｅｓ）、学習部１０８は、該当の発話に関して学習しないと判定する（Ｓ４４５）。

｛２−３−５．学習結果の適用範囲の決定処理｝
次に、図２３を参照して、Ｓ１１３における「学習結果の適用範囲の決定処理」の流れについて説明する。図２３に示したように、学習部１０８は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する（Ｓ５０１）。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には（Ｓ５０１：Ｙｅｓ）、学習部１０８は、認識された、端末２０の周囲に居る人物全員を、該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５０３）。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には（Ｓ５０１：Ｎｏ）、学習部１０８は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５０５）。

なお、Ｓ１１３の処理の流れは、図２３に示した例に限定されない。例えば、図２４〜図２８に示した「変形例１」〜「変形例５」のうちのいずれかが、図２３に示した例の代わりに、Ｓ１１３の処理の流れとして適用されてもよい。または、これらの「変形例１」〜「変形例５」、および、図２３に示した例のうちのいずれか二以上が並列に実行され、かつ、それらの結果が組み合わされてもよい。

（２−３−５−１．変形例１）
図２４は、Ｓ１１３の変形例１に係る処理の流れを示したフローチャートである。図２４に示したように、本変形例では、学習部１０８は、該当の発話の話者と、該当の発話の直前に収音された、ＯＯＤと判定された別の発話の話者とが同一のコミュニティに属しているか否かを判定する（Ｓ５１１）。両者が同一のコミュニティに属している場合には（Ｓ５１１：Ｙｅｓ）、学習部１０８は、当該コミュニティに属している人物全員を該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５１３）。一方、両者が同一のコミュニティに属していない場合には（Ｓ５１１：Ｎｏ）、学習部１０８は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する（Ｓ５１５）。

（２−３−５−２．変形例２）
図２５は、Ｓ１１３の変形例２に係る処理の流れを示したフローチャートである。図２５に示したように、本変形例では、学習部１０８は、該当のシステムからの距離（例えば端末２０からの距離）が所定の閾値以内に一以上の人がいるか否かを判定する（Ｓ５２１）。当該システムからの距離が当該所定の閾値以内に一以上の人がいる場合には（Ｓ５２１：Ｙｅｓ）、学習部１０８は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５２３）。一方、当該システムからの距離が当該所定の閾値以内に誰もいない場合には（Ｓ５２１：Ｎｏ）、学習部１０８は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する（Ｓ５２５）。

（２−３−５−３．変形例３）
図２６は、Ｓ１１３の変形例３に係る処理の流れを示したフローチャートである。図２６に示したように、本変形例では、学習部１０８は、該当の発話者からの距離が所定の閾値以内に一以上の人がいるか否かを判定する（Ｓ５３１）。当該発話者からの距離が当該所定の閾値以内に一以上の人がいる場合には（Ｓ５３１：Ｙｅｓ）、学習部１０８は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５３３）。一方、当該発話者からの距離が当該所定の閾値以内に誰もいない場合には（Ｓ５３１：Ｎｏ）、学習部１０８は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５３５）。

（２−３−５−４．変形例４）
図２７は、Ｓ１１３の変形例４に係る処理の流れを示したフローチャートである。図２７に示したように、本変形例では、まず、意味解析部１０４は、該当の発話の音声認識結果に対応するテキストに対して所定の自然言語処理を行い（Ｓ５４１）、そして、当該発話に対応するトピックを抽出する（Ｓ５４３）。続いて、学習部１０８は、抽出されたトピックに合致するコミュニティが存在するか否かを判定する（Ｓ５４５）。当該トピックに合致するコミュニティが存在する場合には（Ｓ５４５：Ｙｅｓ）、学習部１０８は、該当のコミュニティに属するメンバー全員を該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５４７）。一方、当該トピックに合致するコミュニティが存在しない場合には（Ｓ５４５：Ｎｏ）、学習部１０８は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する（Ｓ５４９）。

（２−３−５−５．変形例５）
図２８は、Ｓ１１３の変形例５に係る処理の流れを示したフローチャートである。図２８に示したように、本変形例では、まず、学習部１０８は、該当の発話の話者が、該当の発話時に口を覆っていたか否かを、端末２０による該当の発話時のセンシング結果（撮像画像など）に基づいて判定する（Ｓ５５１）。当該話者が該当の発話時に口を覆っていたと判定された場合には（Ｓ５５１：Ｙｅｓ）、学習部１０８は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５５９）。

一方、当該話者が該当の発話時に口を覆っていなかったと判定された場合には（Ｓ５５１：Ｎｏ）、次に、学習部１０８は、該当の発話がささやき声であったか否かを判定する（Ｓ５５３）。該当の発話がささやき声であった場合には（Ｓ５５３：Ｙｅｓ）、学習部１０８は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５５９）。

一方、該当の発話がささやき声ではなかった場合には（Ｓ５５３：Ｎｏ）、次に、学習部１０８は、該当の発話者が、該当の発話時に使用したマイクロフォンが当該発話者の個人用のマイクロフォンであるか否かを判定する（Ｓ５５５）。該当のマイクロフォンが当該発話者の個人用のマイクロフォンであると判定された場合には（Ｓ５５５：Ｙｅｓ）、学習部１０８は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する（Ｓ５５９）。一方、該当のマイクロフォンが当該発話者の個人用のマイクロフォンではないと判定された場合には（Ｓ５５５：Ｎｏ）、サーバ１０は、図２３〜図２７に示した、Ｓ５０１、Ｓ５１１、Ｓ５２１、Ｓ５３１、または、Ｓ５４１以降の処理を行う。

＜２−４．効果＞
｛２−４−１．効果１｝
以上説明したように、本実施形態に係るサーバ１０は、第１のタイミングの後の第２のタイミングに収音された第２の発話が、第１のタイミングに収音された第１の発話の言い直しであるか否かの判定結果に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。このため、当該第１の発話の音声認識結果に対応する意味を適切に学習することができる。

例えば、当該第２の発話が当該第１の発話の言い直しであると判定され、当該第１の発話の音声認識結果に対応する意味が特定不能であり、かつ、当該第２の発話の音声認識結果に対応する意味が特定可能であった場合に、サーバ１０は、当該第２の発話の音声認識結果に対応する意味に基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。このため、ＯＯＤの発話をした後であっても、ユーザは、ＩｎＤｏｍａｉｎな発話を言い直すことにより、ＯＯＤの発話に対応する意味をＩｎＤｏｍａｉｎな発話に対応する意味と同一であるように、サーバ１０に学習させることができる。その結果、音声入力の利便性が向上し得る。

｛２−４−２．効果２｝
また、サーバ１０は、当該第１のタイミングのコンテキストと当該第２のタイミングのコンテキストとの関係性に基づいて、当該第１の発話の音声認識結果に対応する意味を学習するか否かを決定することが可能である。このため、サーバ１０は、当該第２の発話が当該第１の発話の言い直しであるか否かを精度良く判定することができるので、当該第１の発話の音声認識結果に対応する意味を適切に学習することができる。

さらに、当該第１の発話の音声認識結果に対応する意味を学習することを決定した場合には、サーバ１０は、当該学習結果が適用される一以上のユーザ（つまり、当該第１の発話と略同一の発話を行った際に当該発話の意味が当該第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ）を、状況に応じて適切に決定することができる。

＜＜３．応用例＞＞
本実施形態は、前述した例に限定されず、各種の応用例が適用可能である。次に、本実施形態の応用例について、「３−１．応用例１」〜「３−３．応用例３」において説明する。なお、各応用例に係るサーバ１０に含まれる各構成要素は、図３に示した例と同様である。以下では、前述した実施形態と異なる機能を有する構成要素についてのみ説明することとし、同一の内容については説明を省略する。

＜３−１．応用例１＞
まず、本実施形態に係る応用例１について説明する。応用例１によれば、サーバ１０は、学習結果の適用ユーザを動的に増減することが可能である。

｛３−１−１．学習部１０８｝
応用例１に係る学習部１０８は、学習結果の適用ユーザを所定の基準に基づいて動的に増加または減少させる。例えば、学習結果の適用対象外のユーザの身体の向き、または、視線の向きが、学習結果の適用ユーザと向かい合っている時間の長さが所定の時間以上であると判定された場合には、学習部１０８は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、例えば音声認識の結果および話者認識の結果から特定される、学習結果の適用対象外のユーザと学習結果の適用ユーザとの会話のターンテイキング数が所定の閾値以上に達したと判定された場合には、学習部１０８は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、学習結果の適用ユーザが、あるチャットグループのメンバー全員であり、かつ、いずれかのメンバーが当該チャットグループから脱退した際には、学習部１０８は、脱退したメンバーを当該学習結果の適用ユーザから動的に除外してもよい。

｛３−１−２．適用例｝
ここで、図２９および図３０を参照して、応用例１の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザが図１１に示した例と同様であることを前提とする。つまり、学習結果の適用ユーザが「Ｇ」、「Ｈ」、および、「Ｊ」であり、かつ、学習結果の適用対象外のユーザが「Ｉ」および「Ａ」である。

図２９に示したように、まず、「Ｈ」と「Ｉ」とが向き合って懇意に会話をしているとする。この場合、学習部１０８は、「Ｉ」が「Ｈ」にとって有効になっていると判断し、そして、「Ｉ」を学習結果の適用ユーザとして一時的に追加する。その後、図２９に示したように、「Ｉ」が、例えば「ＢＡＮはどうだったの？」という、図１０に示した発話３０ａと略同一の発話３４ａを端末２０に対して行い、そして、端末２０が発話３４ａの音声データをサーバ１０へ送信したとする。この場合、まず、サーバ１０の意味解析部１０４は、学習部１０８による学習結果に基づいて、発話３４ａに対応する意味を、「ゲームＸの動画の再生を指示すること」（換言すれば、図１０に示した発話３０ｃに対応する意味と同一の意味）と解析する。そして、出力制御部１１０は、当該解析結果に基づいて、「ゲームＸの動画」の出力を端末２０に開始させる。

その後、図３０に示したように、「Ｉ」に対して「Ａ」が話しかけ、かつ、「Ｈ」が別の場所へ移動したとする。この場合、学習部１０８は、「Ｉ」が「Ｈ」にとって無効になったと判断し、そして、「Ｉ」を学習結果の適用ユーザから除外する。

＜３−２．応用例２＞
以上、応用例１について説明した。次に、本実施形態に係る応用例２について説明する。応用例２によれば、サーバ１０は、学習結果の適用ユーザを動的に増加することを、学習結果の適用ユーザのうちの少なくとも一人に対して問い合わせることが可能である。

｛３−２−１．学習部１０８｝
応用例２に係る学習部１０８は、一以上のユーザを学習結果の適用ユーザとして動的に追加することを判断した場合には、学習結果の適用ユーザのうちの少なくとも一人に対して当該追加の諾否を問い合わせる。さらに、当該一以上のユーザの追加を承諾することを示す回答が、該当の学習結果の適用ユーザから得られた場合には、学習部１０８は、当該一以上のユーザを該当の学習結果の適用ユーザとして動的に追加する。

｛３−２−２．適用例｝
ここで、図３１および図３２を参照して、応用例２の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザがそれぞれ、応用例１と同様（つまり、図１１に示した例と同様）であることを前提とする。

図３１に示したように、まず、「Ｈ」と「Ｉ」とが向き合って懇意に会話をしているとする。この場合、学習部１０８は、「Ｉ」が「Ｈ」にとって有効になっていると判断し、そして、「Ｉ」を学習結果の適用ユーザとして一時的に追加することを判断する。そして、学習部１０８は、例えば、「「ＢＡＮはどうだった？」という「Ｈさん」のリクエストを「Ｉさん」でも有効にしますか？」などのような、該当の学習結果の適用ユーザに「Ｉ」を追加することの諾否の問い合わせの音声４６ａを「Ｈ」に対して、端末２０に出力させる。その後、図３１に示したように、「Ｈ」が、当該問い合わせの音声に対して承諾する発話３６を端末２０に対して行い、そして、端末２０が発話３６の音声データをサーバ１０へ送信したとする。この場合、学習部１０８は、発話３６の音声認識結果に基づいて、該当の学習結果の適用ユーザに「Ｉ」を動的に追加する。

その後、図３２に示したように、「Ｉ」に対して「Ａ」が話しかけ、かつ、「Ｈ」が別の場所へ移動したとする。この場合、学習部１０８は、「Ｉ」が「Ｈ」にとって無効になったと判断し、そして、「Ｉ」を学習結果の適用ユーザから除外する。さらに、図３２に示したように、出力制御部１１０は、学習結果の適用ユーザから「Ｉ」が除外されたことを通知する音声４６ｂを端末２０に出力させる。

｛３−２−３．処理の流れ｝
次に、図３３を参照して、応用例２に係る処理の流れについて説明する。なお、本処理の流れは、図１７に示した「学習結果の適用範囲の更新処理」以外に関しては、前述した実施形態と同様である。また、図３３に示したように、Ｓ３０１〜Ｓ３０７は、図１７に示した例と同様である。

Ｓ３０７において、当該会話のターンテイキング数が当該所定の閾値以上になっている場合には（Ｓ３０７：Ｙｅｓ）、学習部１０８は、該当のユーザが会話している相手を、該当の学習結果を適用する対象範囲に追加することの諾否の問い合わせのＴＴＳを端末２０に出力させる（Ｓ３２１）。

その後、当該問い合わせに対する承諾を示す回答が該当のユーザから得られた場合には（Ｓ３２３）、学習部１０８は、該当のユーザが会話している相手を該当の学習結果を適用する対象範囲に動的に追加する（Ｓ３０９）。

＜３−３．応用例３＞
以上、応用例２について説明した。次に、本実施形態に係る応用例３について説明する。応用例３によれば、サーバ１０は、ＯＯＤの発話が収音された後に、当該ＯＯＤの発話に対応するＩｎＤｏｍａｉｎの発話が２つ連続して収音された場合には、当該ＯＯＤの発話に対応する意味として、当該２つの発話のうちのいずれに対応する意味を学習するかを適切に決定することができる。

｛３−３−１．学習部１０８｝
応用例３に係る学習部１０８は、上記の第２の発話が上記の第１の発話の言い直しであると判定され、かつ、上記の第２のタイミングの後の第３のタイミングに収音された第３の発話も当該第１の発話の言い直しであると判定された場合には、当該第２の発話の音声認識結果に対応する意味と、当該第３の発話の音声認識結果に対応する意味とのいずれかに基づいて、当該第１の発話の音声認識結果に対応する意味を学習する。例えば、学習部１０８は、当該第２の発話の音声認識結果に対応する意味と、当該第３の発話の音声認識結果に対応する意味とのいずれに基づいて当該第１の発話の音声認識結果に対応する意味を学習するかを所定の基準に基づいて決定する。

ここで、当該所定の基準は、当該第１の発話の話者と当該第２の発話の話者との関係性を示す情報、および、当該第１の発話の話者と当該第３の発話の話者との関係性を示す情報であってもよい。または、当該所定の基準は、当該第１の発話の話者のデモグラフィック情報であってもよい。または、当該所定の基準は、当該第２の発話の音声認識結果に対応する意味の抽象度合いと、当該第３の発話の音声認識結果に対応する意味の抽象度合いとの比較の結果であってもよい。例えば、学習部１０８は、当該第２の発話の音声認識結果に対応する意味と、当該第３の発話の音声認識結果に対応する意味とのうち抽象度合いがより低い方の意味を、当該第１の発話の音声認識結果に対応する意味として学習することを決定してもよい。

｛３−３−２．適用例｝
ここで、図３４および図３５を参照して、応用例３の適用例について説明する。本適用例では、初期時点における、各ユーザの関係性が、図４に示した例と同様であることを前提とする。

図３４に示したように、まず、祖母「Ｂ」が「懐かしい雰囲気にして。」という発話３０ａを端末２０に対して行い、端末２０が発話３０ａの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ａをＯＯＤであると判定したとする。その後、孫「Ｄ」が発話３０ａの言い直しとして「おじいちゃん達が好きな音楽をかけて。」という発話３０ｃを端末２０に対して行い、端末２０が発話３０ｃの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｃをＩｎＤｏｍａｉｎであると判定したとする。さらに、その直後に、祖父「Ａ」が発話３０ａの言い直しとして「「ＸＹＺをかけて」ってことだよ。」という発話３０ｄを端末２０に対して行い、端末２０が発話３０ｄの音声データをサーバ１０へ送信し、そして、サーバ１０は、この発話３０ｄもＩｎＤｏｍａｉｎであると判定したとする。この場合、学習部１０８は、例えば、「Ｄ」と「Ｂ」との関係性よりも、「Ｄ」と「Ａ」との関係性の方がより近いと判断し、そして、発話３０ａに対応する意味が、発話３０ｄに対応する意味と同一になるように、発話３０ａに対応する意味を学習してもよい。

（３−３−２−１．変形例）
変形例として、学習部１０８は、発話３０ａに対応する意味として、発話３０ｃに対応する意味と発話３０ｄに対応する意味との両方を学習してもよい。以下、この変形例に係る適用例について図３５を参照して説明する。当該学習後に、図３５に示したように、例えば「Ａ」が、発話３０ａと略同一の発話３８ａを端末２０に対して行い、そして、端末２０が発話３８ａの音声データをサーバ１０へ送信したとする。この場合、まず、サーバ１０の意味解析部１０４は、学習部１０８による学習結果に基づいて、発話３８ａに対応する意味として、発話３０ｃに対応する意味と、発話３０ｄに対応する意味との両方が存在すると解析する。そして、図３５に示したように、出力制御部１１０は、当該解析結果に基づいて、発話３０ｃの意味に対応する処理（つまり、「ＡＡＡＢＢソング集」を再生すること）と、発話３０ｄの意味に対応する処理（つまり、「ＸＹＺソング集」を再生すること）とのいずれを実行すべきかを問い合わせる音声４８（例えば、「ＡＡＡＢＢソング集とＸＹＺソング集とがありますが、どうしますか？」など）を、「Ａ」に対して端末２０に出力させる。その後、図３５に示したように、「Ａ」は、発話３０ｄの意味に対応する処理（つまり、「ＸＹＺソング集」を再生すること）の実行を指示する発話３８ｂ（例えば「ＸＹＺソング集をかけて。」など）を端末２０に対して行い、そして、端末２０が発話３８ｂの音声データをサーバ１０へ送信したとする。この場合、出力制御部１１０は、発話３８ｂの音声認識結果に基づいて、「ＸＹＺソング集」の出力を端末２０に開始させる。

＜＜４．ハードウェア構成＞＞
次に、本実施形態に係るサーバ１０のハードウェア構成例について、図３６を参照して説明する。図３６に示したように、サーバ１０は、ＣＰＵ１５０、ＲＯＭ（ＲｅａｄＯｎｌｙＭｅｍｏｒｙ）１５２、ＲＡＭ（ＲａｎｄｏｍＡｃｃｅｓｓＭｅｍｏｒｙ）１５４、バス１５６、インターフェース１５８、入力装置１６０、出力装置１６２、ストレージ装置１６４、および、通信装置１６６を備える。

ＣＰＵ１５０は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ１０内の動作全般を制御する。また、ＣＰＵ１５０は、サーバ１０において制御部１００の機能を実現する。なお、ＣＰＵ１５０は、マイクロプロセッサなどのプロセッサにより構成される。

ＲＯＭ１５２は、ＣＰＵ１５０が使用するプログラムや演算パラメータなどの制御用データなどを記憶する。

ＲＡＭ１５４は、例えば、ＣＰＵ１５０により実行されるプログラムや、使用中のデータなどを一時的に記憶する。

バス１５６は、ＣＰＵバスなどから構成される。このバス１５６は、ＣＰＵ１５０、ＲＯＭ１５２、および、ＲＡＭ１５４を相互に接続する。

インターフェース１５８は、入力装置１６０、出力装置１６２、ストレージ装置１６４、および、通信装置１６６を、バス１５６と接続する。

入力装置１６０は、例えばタッチパネル、ボタン、スイッチ、レバー、マイクロフォンなどユーザが情報を入力するための入力手段、および、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ１５０に出力する入力制御回路などから構成される。

出力装置１６２は、例えばＬＣＤやＯＬＥＤなどのディスプレイ、または、プロジェクタなどの表示装置を含む。また、出力装置１６２は、スピーカなどの音声出力装置を含む。

ストレージ装置１６４は、記憶部１２２として機能する、データ格納用の装置である。ストレージ装置１６４は、例えば、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置、または、記憶媒体に記録されたデータを削除する削除装置などを含む。

通信装置１６６は、例えば通信網２２などに接続するための通信デバイス（例えばネットワークカードなど）等で構成された通信インターフェースである。また、通信装置１６６は、無線ＬＡＮ対応通信装置、ＬＴＥ（ＬｏｎｇＴｅｒｍＥｖｏｌｕｔｉｏｎ）対応通信装置、または有線による通信を行うワイヤー通信装置であってもよい。この通信装置１６６は、通信部１２０として機能する。

＜＜５．変形例＞＞
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

＜５−１．変形例１＞
例えば、端末２０の構成は、図２に示した例に限定されない。一例として、端末２０は、前述したサーバ１０の制御部１００に含まれる全ての構成要素を含んでもよい。この場合、本開示に係る情報処理装置は端末２０であり得る。また、この変形例では、サーバ１０が必ずしも設置されなくてもよい。

＜５−２．変形例２＞
別の変形例として、本開示に係る情報処理装置は、サーバ１０に限定されず、前述したサーバ１０の制御部１００に含まれる全ての構成要素を含む他の装置であってもよい。例えば、当該情報処理装置は、汎用ＰＣ、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばＨＭＤやスマートウォッチなどのウェアラブルデバイス、車載装置（カーナビゲーション装置など）、または、ロボット（例えばヒューマノイド型ロボットまたは自動運転車など）であってもよい。

＜５−３．変形例３＞
前述した各実施形態の処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。

また、前述した各実施形態によれば、ＣＰＵ１５０、ＲＯＭ１５２、およびＲＡＭ１５４などのハードウェアを、本実施形態に係るサーバ１０の各構成と同等の機能を発揮させるためのコンピュータプログラムも提供可能である。また、当該コンピュータプログラムが記録された記憶媒体も提供される。

また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

なお、以下のような構成も本開示の技術的範囲に属する。
（１）
第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。
（２）
前記学習部は、さらに、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、前記（１）に記載の情報処理装置。
（３）
前記第２の音声が前記第１の音声の言い直しであると判定された場合には、前記学習部は、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習し、
前記第２の音声が前記第１の音声の言い直しではないと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を学習しない、前記（２）に記載の情報処理装置。
（４）
前記第２の音声が前記第１の音声の言い直しであると判定され、前記第１の音声の音声認識結果に対応する意味が特定不能であり、かつ、前記第２の音声の音声認識結果に対応する意味が特定可能であった場合に、前記学習部は、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、前記（３）に記載の情報処理装置。
（５）
前記学習部は、前記第１の音声の音声認識結果に対応する意味が前記第２の音声の音声認識結果に対応する意味と同一になるように、前記第１の音声の音声認識結果に対応する意味を学習する、前記（４）に記載の情報処理装置。
（６）
前記学習部は、さらに、前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの関係性に基づいて、前記第１の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記（２）〜（５）のいずれか一項に記載の情報処理装置。
（７）
前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を学習しないことを決定し、
前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの差に関する所定の評価値が前記所定の条件を満たさないと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を、前記第２の音声の音声認識結果に対応する意味に基づいて学習することを決定する、前記（６）に記載の情報処理装置。
（８）
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記学習部は、さらに、前記第２の発話の話者の過去の言い直しの成功頻度または前記第２の発話の話者の音声入力の利用頻度に基づいて、前記第１の発話の音声認識結果に対応する意味を学習するか否かを決定する、前記（６）または（７）に記載の情報処理装置。
（９）
前記学習部は、さらに、前記第２の音声のノンバーバル情報と前記第１の音声のノンバーバル情報との差に関する所定の評価値に基づいて、前記第１の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記（６）〜（８）のいずれか一項に記載の情報処理装置。
（１０）
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第１の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第１の発話と略同一の発話を行った際に当該発話の意味が前記第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第１のユーザを、前記第２の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、前記（６）〜（９）のいずれか一項に記載の情報処理装置。
（１１）
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第１の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第１の発話と略同一の発話を行った際に当該発話の意味が前記第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第１のユーザを、前記第２の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、前記（６）〜（１０）のいずれか一項に記載の情報処理装置。
（１２）
前記学習部は、前記一以上の第１のユーザを所定の基準に基づいて動的に増加または減少させる、前記（１０）または（１１）に記載の情報処理装置。
（１３）
前記学習部は、前記一以上の第１のユーザに対して一以上の第２のユーザを追加することを判断した場合には、前記一以上の第１のユーザのうちの少なくとも一人に対して前記一以上の第２のユーザの追加の諾否を問い合わせ、
前記一以上の第２のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第１のユーザに対して前記一以上の第２のユーザを追加する、前記（１２）に記載の情報処理装置。
（１４）
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第２の発話が前記第１の発話の言い直しであると判定され、かつ、前記第２のタイミングの後の第３のタイミングに収音された第３の発話も前記第１の発話の言い直しであると判定された場合には、前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれかに基づいて、前記第１の発話の音声認識結果に対応する意味を学習する、前記（６）〜（１３）のいずれか一項に記載の情報処理装置。
（１５）
前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれに基づいて前記第１の発話の音声認識結果に対応する意味を学習するかを、前記第１の発話の話者と前記第２の発話の話者との関係性を示す情報、および、前記第１の発話の話者と前記第３の発話の話者との関係性を示す情報に基づいて決定する、前記（１４）に記載の情報処理装置。
（１６）
前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれに基づいて前記第１の発話の音声認識結果に対応する意味を学習するかを、前記第２の発話の音声認識結果に対応する意味の抽象度合いと、前記第３の発話の音声認識結果に対応する意味の抽象度合いとの比較に基づいて決定する、前記（１４）または（１５）に記載の情報処理装置。
（１７）
前記第１の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第１の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、前記（６）〜（１６）のいずれか一項に記載の情報処理装置。
（１８）
前記第２の音声の意味解析の結果に基づいて、前記第２の音声が前記第１の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、前記（１７）に記載の情報処理装置。
（１９）
第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第１の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。
（２０）
コンピュータを、
第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。

１０サーバ
２０端末
２２通信網
１００、２００制御部
１０２音声認識部
１０４意味解析部
１０６言い直し判定部
１０８学習部
１１０出力制御部
１２０、２２０通信部
１２２、２２６記憶部
２２２センサ部
２２４出力部

Claims

第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。
前記学習部は、さらに、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、請求項１に記載の情報処理装置。
前記第２の音声が前記第１の音声の言い直しであると判定された場合には、前記学習部は、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習し、
前記第２の音声が前記第１の音声の言い直しではないと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を学習しない、請求項２に記載の情報処理装置。
前記第２の音声が前記第１の音声の言い直しであると判定され、前記第１の音声の音声認識結果に対応する意味が特定不能であり、かつ、前記第２の音声の音声認識結果に対応する意味が特定可能であった場合に、前記学習部は、前記第２の音声の音声認識結果に対応する意味に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、請求項３に記載の情報処理装置。
前記学習部は、前記第１の音声の音声認識結果に対応する意味が前記第２の音声の音声認識結果に対応する意味と同一になるように、前記第１の音声の音声認識結果に対応する意味を学習する、請求項４に記載の情報処理装置。
前記学習部は、さらに、前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの関係性に基づいて、前記第１の音声の音声認識結果に対応する意味を学習するか否かを決定する、請求項２に記載の情報処理装置。
前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を学習しないことを決定し、
前記第１のタイミングのコンテキストと前記第２のタイミングのコンテキストとの差に関する所定の評価値が前記所定の条件を満たさないと判定された場合には、前記学習部は、前記第１の音声の音声認識結果に対応する意味を、前記第２の音声の音声認識結果に対応する意味に基づいて学習することを決定する、請求項６に記載の情報処理装置。
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記学習部は、さらに、前記第２の発話の話者の過去の言い直しの成功頻度または前記第２の発話の話者の音声入力の利用頻度に基づいて、前記第１の発話の音声認識結果に対応する意味を学習するか否かを決定する、請求項６に記載の情報処理装置。
前記学習部は、さらに、前記第２の音声のノンバーバル情報と前記第１の音声のノンバーバル情報との差に関する所定の評価値に基づいて、前記第１の音声の音声認識結果に対応する意味を学習するか否かを決定する、請求項６に記載の情報処理装置。
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第１の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第１の発話と略同一の発話を行った際に当該発話の意味が前記第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第１のユーザを、前記第２の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、請求項６に記載の情報処理装置。
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第１の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第１の発話と略同一の発話を行った際に当該発話の意味が前記第１の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第１のユーザを、前記第２の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、請求項６に記載の情報処理装置。
前記学習部は、前記一以上の第１のユーザを所定の基準に基づいて動的に増加または減少させる、請求項１０に記載の情報処理装置。
前記学習部は、前記一以上の第１のユーザに対して一以上の第２のユーザを追加することを判断した場合には、前記一以上の第１のユーザのうちの少なくとも一人に対して前記一以上の第２のユーザの追加の諾否を問い合わせ、
前記一以上の第２のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第１のユーザに対して前記一以上の第２のユーザを追加する、請求項１２に記載の情報処理装置。
前記第１の音声は、第１の発話であり、
前記第２の音声は、第２の発話であり、
前記第２の発話が前記第１の発話の言い直しであると判定され、かつ、前記第２のタイミングの後の第３のタイミングに収音された第３の発話も前記第１の発話の言い直しであると判定された場合には、前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれかに基づいて、前記第１の発話の音声認識結果に対応する意味を学習する、請求項６に記載の情報処理装置。
前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれに基づいて前記第１の発話の音声認識結果に対応する意味を学習するかを、前記第１の発話の話者と前記第２の発話の話者との関係性を示す情報、および、前記第１の発話の話者と前記第３の発話の話者との関係性を示す情報に基づいて決定する、請求項１４に記載の情報処理装置。
前記学習部は、前記第２の発話の音声認識結果に対応する意味と、前記第３の発話の音声認識結果に対応する意味とのいずれに基づいて前記第１の発話の音声認識結果に対応する意味を学習するかを、前記第２の発話の音声認識結果に対応する意味の抽象度合いと、前記第３の発話の音声認識結果に対応する意味の抽象度合いとの比較に基づいて決定する、請求項１４に記載の情報処理装置。
前記第１の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第１の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、請求項６に記載の情報処理装置。
前記第２の音声の意味解析の結果に基づいて、前記第２の音声が前記第１の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する、請求項１７に記載の情報処理装置。
第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第１の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。
コンピュータを、
第１のタイミングの後の第２のタイミングに収音された第２の音声が、前記第１のタイミングに収音された第１の音声の言い直しであるか否かの判定結果に基づいて、前記第１の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。