WO2022259498A1

WO2022259498A1 - 学習システム、学習方法及び学習プログラム

Info

Publication number: WO2022259498A1
Application number: PCT/JP2021/022223
Authority: WO
Inventors: 英毅小矢; 明片岡; 真実小宮山
Original assignee: 日本電信電話株式会社
Priority date: 2021-06-10
Filing date: 2021-06-10
Publication date: 2022-12-15
Also published as: JPWO2022259498A1

Abstract

学習システムは、取得部と、学習部とを含む。取得部は、音声コマンドを発話したユーザの周辺で観測された情報を取得する。学習部は、取得部によって取得された情報を、音声コマンドを実行するための条件として学習する。

Description

学習システム、学習方法及び学習プログラム

　本開示は、学習システム、学習方法及び学習プログラムに関する。

　近年、様々な技術が、音声コマンドにより、様々なデバイスや情報システムを操作するために提案されている。提案されている技術の例としては、柔軟な音声コマンドを実現するために、定型句だけではなくユーザの自由な発話を受理できる拡張音声コマンド方式（下記の非特許文献１）や、ユーザ自身が音声コマンド自体を定義したり設定したりできる音声コマンドシステム（下記の非特許文献２）が挙げられる。

　このような柔軟な音声コマンドの実現においては、音声コマンドの実行条件を正しく定義することが重要である。例えば、下記の非特許文献２の技術では、ユーザが、システム画面が開かれた状況で、「入力チェック」や「帳票入力」と発話する。この場合、非特許文献２の技術は、システム画面の入力が正しいかを判定することができる。さらに、この技術では、ユーザ自身が、印刷帳票の情報を音声で転記する音声コマンドを定義することができる。ユーザは、ユーザ自身が定義した音声コマンドを利用することができる。

　しかしながら、複数の業務システムが、業務において利用されている場合があり、それぞれの業務システムが、異なる帳票入力画面を持っている場合がある。このよう場合に、先に述べた「入力チェック」、「帳票入力」という共通的なフレーズは、そのままでは、音声コマンドとして定義され得ない。

　例えば、音声コマンドは、「帳票入力」という共通的なフレーズを「システムＡの帳票入力」、「システムＢの帳票入力」といったフレーズに分けることによって、定義されなければならない。しかしながら、もし、ユーザが、ユーザがシステムＡを開いている状態で、「帳票入力」と発話したのであれば、ユーザがシステムＡに対する音声コマンドを実行したいことは自明である。

　このような背景から、柔軟な音声コマンドの実現にあたって、ユーザが音声コマンドに実行条件を与えることが考えられる。音声コマンドの実行条件は、音声コマンドの乱立を防ぐことができる。先の例では、実行条件は、例えば、「システムＡが開かれているとき」である。

　音声コマンドに実行条件を与えることは、危険な状態での音声コマンドの実行を抑制する、と期待される。また、実行条件ごとに音声認識のコーパスを定義することは、音声認識の精度を向上させる、と期待される。

倉田、市川、西村：ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討、電子情報通信学会論文誌．Ｄ、情報・システム、９３（１０）、２１０７－２１１７、２０１０－１０－０１

小矢、小宮山、片岡、大石：エンドユーザが作成可能な音声コマンドシステムに関する一検討、信学技報、ｖｏｌ．１２０、ｎｏ．３２３、ＩＣＭ２０２０－４１、ｐｐ．３９－４４、２０２１年１月．

　しかしながら、上記の先行技術では、ユーザの状況に応じて音声コマンドを制限することが難しい場合がある。

　例えば、実行条件によって音声コマンドに制限をかけることは、（１）発話者の周辺から観測された情報をもとに音声コマンドの実行条件を定義し、（２）事前にその実行条件を音声コマンドに与え、（３）現在の発話者の状況が実行条件に一致するか判定すること、を必要とされる場合がある。

　しかしながら、様々な状況からなる実行条件を定義するのは、難しい場合がある。例えば、ユーザは、各々の状況が示す情報を理解し、実行条件の定義を作成することが必要な場合がある。

　特に、１つの音声コマンドが複数の状況で実行可能な場合に、相応のスキルが、それらの複数の状況に合致する実行条件を正しく定義するのに必要とされる。また、ユーザが実行条件を変更したい場合には、ユーザは、定義を改めて考えて、定義をする必要がある。したがって、修正に要する稼働も大きい。

　そこで、本開示は、ユーザの状況に応じて音声コマンドを容易に制限することができる学習システム、学習方法及び学習プログラムを提案する。

　本開示の一態様では、学習システムは、音声コマンドを発話したユーザの周辺で観測された情報を取得する取得部と、前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習部とを備える。

　本開示の１つまたは複数の実施形態に係る学習システムは、ユーザの状況に応じて音声コマンドを容易に制限することができる。

図１は、音声コマンドの制限に関連する課題の例を示す。図２は、音声コマンドの実行条件を学習するのための環境の例のブロック図である。図３は、本開示に係る実行条件学習処理の概要を示す。図４は、本開示に係る実行条件学習システムの構成の例のブロック図である。図５は、本開示に係る周辺情報取得処理の例を示す。図６Ａは、本開示に係る実行条件判定処理の例を示す。図６Ｂは、本開示に係る実行条件判定処理の例を示す。図７は、本開示に係る実行条件学習処理の例を示す。図８は、音声コマンドの実行条件を学習するための処理の例を示すフローチャートである。図９は、コンピュータのハードウェア構成の例を示す。

　複数の実施形態を、図面を参照して、以下で詳細に説明する。なお、本発明は、これらの複数の実施形態によって限定されるものではない。様々な実施形態の複数の特徴は、これらの複数の特徴が互いに矛盾しないという条件で、様々なやり方で組み合わされ得る。。同一の要素は、同一の符号で示され、重複する説明は、省略される。

〔１．はじめに〕
　音声コマンドを利用する発話者は、安全性の観点、誤認識の軽減、コマンド数の増加の抑制などを目的に、発話者の状況に応じて、実行可能な音声コマンドに制限をかけたい場合がある。

　図１は、音声コマンドの制限に関連する課題の例である課題１０を示す。課題１０では、発話者は、音声コマンドを実行できるシステムを利用するユーザである。図１の例では、ユーザは、状況Ａで、音声コマンドＢに制限をかけたい。例えば、ユーザは、状況Ａにおける音声コマンドＢを無効にする。この場合、ユーザが状況Ａで音声コマンドＢを発話しても、音声コマンドＢは実行されない。

　しかしながら、音声コマンドを制限するためには、例えば、音声コマンドの作成者が、実行条件を事前に与える必要がある。この場合、次の２つの課題が考えられる。

　第１の課題は、様々な状況からなる実行条件を考えて、実行条件を定義するのが、音声コマンドの作成者（例えば、ユーザ）にとって難しい、ということである。第２の課題は、音声コマンドの作成者が実行条件を修正したい場合に、実行条件の修正が稼働を要する、ということである。図１に示されるように、例えば、作成者が、業務システムを音声コマンドで操作する音声コマンドシステムに登録された実行条件を修正する必要がある。作成者は、例えば、システムのＵＲＬ（Uniform　Resource　Locator）を、音声コマンドの実行条件として登録する。実行条件の例は、「システムのＵＲＬが、http:/hogehogeと前方一致すること」である。

　上記の課題を解決するために、本開示の１つまたは複数の実施形態に係る実行条件学習システムは、以下に説明される１つまたは複数の実行条件学習処理を行う。

〔２．実行条件学習のための環境〕
　まず、図２を参照して、本開示に係る実行条件学習のための環境について説明する。

　図２は、音声コマンドの実行条件を学習するための環境の例である環境１のブロック図である。図２に示されるように、環境１は、実行条件学習システム１００と、ネットワーク２００と、音声操作対象３００とを含む。

　実行条件学習システム１００は、１つまたは複数の実行条件学習処理を行うシステムである。実行条件学習システム１００は、音声コマンドの実行条件を、対話的に学習する。１つまたは複数の実行条件学習処理は、音声コマンドの実行条件を学習する処理を含む。本開示に係る実行条件学習処理の概要は、次節で説明される。

　実行条件学習システム１００は、１つまたは複数のデータ処理装置を含む。データ処理装置は、例えば、サーバである。実行条件学習システム１００の構成の例は、４節で説明される。

　ネットワーク２００は、例えば、ＬＡＮ（Local　Area　Network）、ＷＡＮ（Wide　Area　Network）、インターネット等のネットワークである。ネットワーク２００は、実行条件学習システム１００および音声操作対象３００を接続する。

　音声操作対象３００、音声操作の対象である。音声操作対象３００は、例えば、業務システム内のＵＩ（User　Interface）や、各種装置（例えば、家電）等である。業務システムが音声操作対象３００を含む場合には、音声操作対象３００は、例えば、ＧＵＩ（Graphical　User　Interface）である。この場合、音声コマンドは、ＧＵＩを自動的に操作することによって実装される。例えば、実行条件学習システム１００が音声コマンドを受け付けた場合に、実行条件学習システム１００は、Accessibility　ＡＰＩ（Application　Programming　Interface）を使用して、ＧＵＩを操作することができる。

〔３．実行条件学習処理の概要〕
　次に、図３を参照して、本開示に係る実行条件学習処理の概要について説明する。なお、この概要は、本発明や、以下の節で説明される複数の実施形態を限定することを意図するものではない。

　図３は、本開示に係る実行条件学習処理の概要２０を示す。

　概要２０では、はじめに、実行条件学習システム１００は、音声コマンドが実行された時の周辺状況を、音声コマンドの実行条件として学習する（ステップＳ１）。周辺状況は、ユーザの周辺の状況である。例えば、ユーザが、あるシステム（例えば、業務システム）を使用している場合に、周辺状況は、システム画面のＵＲＬ、タイトル、プロセス名等の状況である。

　また、実行条件学習システム１００は、発話以外の方法によって音声コマンドが実行された時の周辺状況を、実行条件として学習する（ステップＳ２）。実行条件学習システム１００は、発話以外の方法で音声コマンドを実行するためのＵＩを有する。

　音声コマンドが実行された時の周辺状況が、現在学習されている実行条件と一致しない場合に、音声コマンドは、発話によって実行されない。この場合、ユーザは、発話以外の方法で、音声コマンドを実行することができる。例えば、ユーザは、音声コマンドの一覧から、特定の音声コマンドをクリックすることができる。

　図２の例では、実行条件学習システム１００は、帳票を入力等、無効になっている音声コマンドを、発話で実行することができない。しかしながら、実行条件学習システム１００は、音声コマンドの一覧等の発話以外の方法で、無効になっている音声コマンドを実行することができる。そして、実行条件学習システム１００は、無効になっている音声コマンドが実行された時の周辺状況を学習することができる。実行条件学習システム１００は、何回特定の音声コマンドがクリックされたか、といった情報を使用して、周辺状況を学習してもよい。

　ユーザが音声コマンドを発話した場合には、実行条件学習システム１００は、現在の周辺状況と学習された実行条件との合致を判定する（ステップＳ３）。実行条件学習システム１００は、適合値と閾値によって、実行条件の合致を判定することができる。

　例えば、適合値の例は、周辺情報と実行条件との間のレーベンシュタイン距離である。レーベンシュタイン距離は、図６Ａおよび図６Ｂを参照して、以下で詳述される。適合値がレーベンシュタイン距離である場合には、適合値が低いほど、周辺情報が実行条件により合致する。

　実行条件学習システム１００は、最小の適合値を算出する。図２の例では、最小の適合値は、３である。この例では、閾値は、１０である。現在の周辺状況が少なくとも１つの実行条件に合致するため、実行条件学習システム１００は、音声コマンドＡを実行する。

　上述のように、実行条件学習システム１００は、対話的な教示によって、実行条件を学習する。このため、実行条件学習システム１００は、事前の実行条件の定義を不要にすることができる。また、実行条件学習システム１００は、修正稼働を不要にすることもできる。

〔４．実行条件学習システムの構成〕
　次に、図４を参照して、実行条件学習システム１００の構成の例について説明する。

　図４は、本開示に係る実行条件学習システムの構成の例である実行条件学習システム１００のブロック図である。実行条件学習システム１００は、学習システムの一例である。

　図４に示されるように、実行条件学習システム１００は、通信部１１０、制御部１２０および記憶部１３０と、音声入力デバイス１４０とを含む。実行条件学習システム１００は、実行条件学習システム１００の管理者から入力を受け付ける入力部（例えば、キーボード、マウス）を含んでもよい。また、実行条件学習システム１００は、実行条件学習システム１００の管理者に情報を表示する出力部（例えば、液晶ディスプレイ、有機ＥＬ（Electro　Luminescence）ディスプレイ）を含んでもよい。

〔４－１．通信部１１０〕
　通信部１１０は、例えば、ＮＩＣ（Network　Interface　Card）によって実装される。通信部１１０は、有線または無線によりネットワーク２００と接続される。通信部１１０は、ネットワーク２００を介して、音声操作対象３００との間で、情報の送受信を行うことができる。

〔４－２．制御部１２０〕
　制御部１２０は、コントローラ（controller）である。制御部１２０は、ＲＡＭ（Random　Access　Memory)を作業領域として使用し、実行条件学習システム１００の記憶装置に記憶された各種プログラムを実行する１つまたは複数のプロセッサ（例えば、ＣＰＵ（Central　Processing　Unit）、ＭＰＵ（Micro　Processing　Unit））によって実装される。また、制御部１２０は、ＡＳＩＣ（Application　Specific　Integrated　Circuit）、ＦＰＧＡ（Field　Programmable　Gate　Array）、ＧＰＧＰＵ（General　Purpose　Graphic　Processing　Unit）等の、集積回路により実装されてもよい。

　図４に示されるように、制御部１２０は、周辺情報取得部１２１、実行条件判定部１２２、音声コマンド表示部１２３、音声コマンド実行部１２４および実行条件学習部１２５を含む。実行条件学習システム１００の１つまたは複数のプロセッサは、実行条件学習システム１００の１つまたは複数のメモリに記憶された命令を実行することによって、各制御部を実装することができる。各制御部によって行われるデータ処理は例であり、各制御部（例えば、実行条件学習部１２５）は、他の制御部（例えば、音声コマンド実行部１２４）に関連して説明されるデータ処理を行ってもよい。

　実行条件学習システム１００の実行条件学習部１２５は、音声コマンドの実行条件を事前に定義することや、実行条件の修正を不要にするために、音声コマンドが実行された時の周辺状況を学習する。音声コマンドに関しては、実行条件学習システム１００は、発話以外の実行方法（例えば、音声コマンドの一覧から該当するコマンドをクリック、タップ）として、音声コマンド表示部１２３を有する。実行条件学習システム１００の実行条件判定部１２２は、適合値と閾値によって、実行条件の合致を判定する。

〔４－２－１．周辺情報取得部１２１〕
　周辺情報取得部１２１は、発話者の周辺情報を取得する。周辺情報取得部１２１は、取得部の一例である。

　周辺情報は、音声コマンドを発話したユーザの周辺で観測された情報である。周辺情報は、発話を行ったユーザの周辺に関する各種情報（例えば、周辺環境、周辺状況）を含む。ユーザの周辺に関する各種情報は、例えば、ユーザが使用するシステムに関する情報である。例えば、システムに関する周辺情報は、最前面のシステム画面のタイトル、プロセス名（数値）、システム画面に表示された値（文字列、数値）のうちの少なくとも１つを含む。

　周辺情報取得部１２１は、各種システム（例えば、業務システム）から、周辺情報を取得することができる。周辺情報取得部１２１は、周辺情報を、記憶部１３０に格納することができる。また、周辺情報取得部１２１は、記憶部１３０から、周辺情報を取得することができる。

　図５は、本開示に係る周辺情報取得処理の例である周辺情報取得処理３０を示す。周辺情報取得処理３０では、周辺情報取得部１２１は、音声コマンドをユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する。音声コマンド入力画面は、例えば、システム画面である。

　周辺情報取得部１２１によって取得された周辺情報は、音声コマンドの実行条件に用いられる。図５の例では、周辺情報は、複数の文字列または数値を含むデータである。対象とする音声コマンドシステムが、音声でシステムのＧＵＩを操作するものである場合には、取得される周辺情報は、以下のデータのうちの少なくとも１つを含む。周辺情報に含まれるデータは、最前面のシステム画面のタイトル（文字列）、最前面のシステム画面のプロセス名（数値）および最前面のシステム画面に表示された各種値（文字列、数値）等である。データが取得され得ないカラムは、noneとして扱われる。

　周辺情報は、システム画面に関するデータ情報に限定されるものではない。周辺情報は、ユーザの周辺機器によって観測された情報であってもよい。例えば、周辺機器がウェアラブルデバイスである場合には、周辺情報は、センシングデータ（例えば、心拍、眼電位）であってもよい。

〔４－２－２．実行条件判定部１２２〕
　実行条件判定部１２２は、音声コマンドを実行するための条件を特定する。そして、実行条件判定部１２２は、周辺情報取得部１２１によって取得された情報が特定された条件に適合するかを判定する。実行条件判定部１２２は、判定部の一例である。

　音声コマンドを実行するための条件は、音声コマンドの実行条件であり、実行条件判定部１２２は、記憶部１３０に記憶された複数の実行条件を参照することによって、実行条件を特定することができる。

　図６Ａおよび図６Ｂは、本開示に係る実行条件判定処理の例である実行条件判定処理４０を、まとめて示す。実行条件判定処理４０では、実行条件判定部１２２は、周辺情報および音声コマンドの実行条件を、入力として使用することによって、音声コマンドの有効および無効を判定する。さらに、実行条件判定部１２２は、適合値と閾値によって、実行条件の判定を行う。適合値は、例えば、周辺情報取得部１２１によって取得された周辺情報がどの程度特定された条件と異なるかを示す値である。

　実行条件判定部１２２は、音声コマンドが呼び出された現在の周辺情報を入力として使用する。そして、実行条件判定部１２２は、実行されるように依頼された音声コマンドの実行条件が、現在の周辺情報に合致するかを判定する。図６Ａおよび図６Ｂの例では、判定方法は、実行条件の表データに対して、適合値を計算する。判定方法は、各行データごとに、周辺情報を入力として使用する。図６Ａおよび図６Ｂに示されるように、各行ごとに計算された適合値の中の最小の適合値が、音声コマンドの実行条件ごとに設定された閾値（例えば、閾値γ）未満であれば、実行条件判定部１２２は、音声コマンドが「有効」であると判定する。最小の適合値が閾値以上であれば、実行条件判定部１２２は、音声コマンドが「無効」であると判定する。

　図６Ａおよび図６Ｂに示されるように、適合値の例は、周辺情報が文字列である場合にはレーベンシュタイン距離で与えられ、周辺情報が数値である場合には差の絶対値で与えられる量を、それぞれ周辺情報の数だけ計算し、各周辺情報毎に設定された重み係数を計算された量にかけることによって得られる加重和である。ここで、レーベンシュタイン距離は、１文字の挿入、削除または置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。例えば、図６Ｂの実行条件の表では、１行目の適合値は、３である。より具体的には、タイトル列のレーベンシュタイン距離が１、プロセス列のレーベンシュタイン距離はゼロ、各種値（ＵＲＬ）列のレーベンシュタイン距離が３、各種値（見出し）列のレーベンシュタイン距離がゼロ、各種値（契約額）はnoneのため固定値βであり、対応する列のαを乗ぜられたこれらの値の和である加重和として、適合値３が得られる。同様に、２行目の適合値として、適合値４が得られる。これらの値の中で最小のものは適合値３であり、適合値３は実行条件で設定された閾値４未満となるので、この実行条件は「有効」と判定される。

　ここで、各周辺情報に重みαを設定することの効用は、例えば、各種値（契約額）の列は厳密に一致していないと絶対に音声コマンドが実行されてはならないといったような場合に、該当の重みαを大きな値として設定することができ、該当の周辺状況が一致しない場合に適合値を大きくすることで厳密な判定を可能とすることなどである。このように、重みαを、実行条件の判定の細かい制御に用いることができる。

　また、適合値の計算においては、周辺情報の表の各列の重み（図６Ａの添え字j）に加え、実行条件の表の各行に重み（図６Ｂの添え字i）を導入することで、直近に学習された実行条件の適合値は低くなり、遠い過去に学習された実行条件の適合値は大きくなるといった適合値の計算も可能である。

〔４－２－３．音声コマンド表示部１２３〕
　音声コマンド表示部１２３は、ユーザが音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する。音声コマンド表示部１２３は、表示部の一例である。

　表示のタイミングに関しては、音声コマンド表示部１２３は、音声コマンド入力画面とともにユーザインタフェースを表示してもよい。あるいは、音声コマンド表示部１２３は、実行条件判定部１２２が、周辺情報取得部１２１によって取得された周辺情報が１つまたは複数の実行条件のうちの少なくとも１つに適合しないと判定した場合に、ユーザインタフェースを表示してもよい。

　表示されたユーザインタフェース（例えば、ＧＵＩ）は、発話以外の入力（例えば、ＧＵＩ操作）を受け付ける。音声コマンド表示部１２３は、例えば、音声コマンドの一覧を、音声コマンドの有効または無効が明示された状態で、ユーザに提示する。音声コマンドの一覧は、ユーザが、発話以外の方法でこの一覧に表示された音声コマンドを実行することを可能にする。音声コマンドが無効な場合には、この音声コマンドは、発話によって実行され得ない。この音声コマンドは、音声コマンド一覧表示部による発話以外の方法によって実行され得る。

　音声コマンド表示部１２３は、音声コマンドの有効または無効が現在の周辺状況に対して明示された状態で、音声コマンドの一覧をユーザに提示する。ユーザは、音声コマンド表示部１２３によって提示された音声コマンドの一覧に対する操作を行うことができる。例えば、ユーザは、各音声コマンドを、クリック、タップなどの方法によって選択し、該当の音声コマンドを起動することができる。

　無効の状態の音声コマンドは、発話によって実行され得ない。しかしながら、無効の状態の音声コマンドは、音声コマンド表示部１２３による発話以外の方法によって、実行され得る。

　実行条件学習システム１００は、音声コマンド表示部１２３による発話以外の方法による音声コマンドの実行する機能を備える。実行条件が周辺状況に合致しない状況でユーザが該当の音声コマンドを実行したい場合には、実行条件を修正するのではなく、音声コマンド表示部１２３から発話以外の方法で該当の音声コマンドを起動することで実行条件が学習される。これによりユーザによる実行条件の修正などが不要となる。

　また、音声コマンド表示部１２３の操作によって（発話以外の方法で）、特定の音声コマンドが繰り返し実行されている場合には、実行条件学習システム１００は、該当の音声コマンドの実行条件の学習がうまくいっていないと判断することができる。このような場合には、実行条件学習システム１００（例えば、音声コマンド表示部１２３）は、該当の音声コマンドの実行条件の閾値を動的に増加することで実行条件を緩和し、このことは、該当の音声コマンドが発話により実行できるように実行条件を自動的に調整することを可能にする。

〔４－２－４．音声コマンド実行部１２４〕
　音声コマンド実行部１２４は、音声コマンドを実行する。音声コマンド実行部１２４は、実行部の一例である。

　実行条件判定部１２２が、周辺情報取得部１２１によって取得された周辺情報が１つまたは複数の実行条件のうちの少なくとも１つに適合すると判定した場合に、音声コマンド実行部１２４は、音声コマンドを実行する。また、音声コマンド表示部１２３が、ユーザインタフェースを介して音声コマンドの選択を受け付けた場合に、音声コマンド実行部１２４は、音声コマンドを実行する。

　音声コマンド実行部１２４は、音声入力デバイス１４０から、発話のデータを受け付ける。音声コマンド実行部１２４は、発話のデータに応じて音声コマンドを実行するために、音声認識システムを実装することできる。

〔４－２－５．実行条件学習部１２５〕
　実行条件学習部１２５は、周辺情報取得部１２１によって取得された周辺情報を、音声コマンドを実行するための条件として学習する。実行条件学習部１２５は、実行部の一例である。

　例えば、音声コマンド実行部１２４が音声コマンドを実行した場合に、実行条件学習部１２５は、周辺情報を、音声コマンドを実行するための条件として学習する。

　音声コマンドを実行するための条件は、音声コマンドの実行条件である。実行条件学習部１２５は、実行条件の学習することとして、実行条件を記憶部１３０に格納する。

　図７は、本開示に係る実行条件学習処理の例である実行条件学習処理５０を示す。実行条件学習処理５０では、実行条件学習部１２５は、音声コマンドが実行された時の周辺情報を、この音声コマンドの実行条件として新たに学習する。実行条件学習部１２５は、音声コマンドが実行されたとき、そのとき取得された周辺情報を実行条件として学習する。図７に示されるように、実行条件は、複数の周辺情報を含む表データである。取得された周辺情報は、新たな行データとして追加される。実行条件の表データは、音声コマンド毎に存在する。実行条件は、実行された音声コマンドの表データに追加される。

〔４－３．記憶部１３０〕
　記憶部１３０は、例えば、ＲＡＭ、フラッシュメモリ（Flash　Memory）等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実装される。記憶部１３０は、周辺情報取得部１２１によって取得された周辺情報や、実行条件学習部１２５によって学習された複数の実行条件を記憶する。

〔４－４．音声入力デバイス１４０〕
　音声入力デバイス１４０は、ユーザの発話を受け付ける。そして、音声入力デバイス１４０は、発話のデータ（すなわち、音声データ）を、音声コマンド実行部１２４に提供する。

〔５．実行条件学習処理のフローチャート
　次に、図８を参照して、本開示に係る実行条件学習処理の例のフローチャートについて説明する。実行条件学習処理の例は、音声コマンドの実行条件を学習するための処理を含む。音声コマンドの実行条件を学習するための処理は、例えば、図４の実行条件学習システム１００によって行われる。

　図８は、音声コマンドの実行条件を学習するための処理の例である処理Ｐ１００を示すフローチャートである。

　図８に示されるように、はじめに、実行条件学習システム１００の周辺情報取得部１２１は、発話を行ったユーザの周辺情報を取得する（ステップＳ１０１）。

　次いで、実行条件学習システム１００の実行条件判定部１２２は、周辺情報が実行条件に合致するかを判定する（ステップＳ１０２）。

　実行条件判定部１２２が、周辺情報が実行条件に合致すると判定した場合に（ステップＳ１０２：Ｙｅｓ）、実行条件学習システム１００の音声コマンド実行部１２４は、音声コマンドを実行する（ステップＳ１０３）。

　次いで、実行条件学習システム１００の実行条件学習部１２５は、周辺情報を実行条件として学習する（ステップＳ１０４）。なお、実行条件学習部１２５は、周辺情報を実行条件として学習するかを、ユーザに確認してもよい。例えば、実行条件学習部１２５は、「周辺情報を実行条件として学習しますか？」といったメッセージを含むＧＵＩを表示してもよい。ユーザが「学習」というボタンを選択した場合に、実行条件学習部１２５は、周辺情報を実行条件として学習してもよい。

　実行条件判定部１２２が、周辺情報が実行条件に合致しないと判定した場合に（ステップＳ１０２：Ｎｏ）、実行条件学習システム１００の音声コマンド表示部１２３は、音声コマンドが発話以外の方法によって選択されたかを判定する（ステップＳ１０５）。音声コマンド表示部１２３は、音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示することができる。音声コマンド表示部１２３は、ユーザインタフェースを介して、音声コマンドの選択を受け付けることができる。

　音声コマンド表示部１２３が、音声コマンドが発話以外の方法によって選択されたと判定した場合に（ステップＳ１０５：Ｙｅｓ）、処理ステップは、ステップＳ１０３に移行する。

　音声コマンド表示部１２３が、音声コマンドが発話以外の方法によって選択されなかったと判定した場合に（ステップＳ１０５：Ｎｏ）処理ステップは終了する。

〔６．効果〕
　上述のように、実行条件学習システム１００は、音声コマンドが実行された時の周辺状況から、音声コマンドの実行条件を学習する。さらに、実行条件学習システム１００は、発話以外の方法によって音声コマンドを実行するための機能を有する。このため、実行条件学習システム１００は、様々な周辺状況に合致する実行条件を、対話的に学習することができる。このことは、予め実行条件の定義を与えることを不要にする。

　その結果、実行条件学習システム１００は、音声コマンドの実行条件の定義や修正にかかる稼働を、大幅に削減することができる。また、スキルが低いユーザでも（例えば、状況を示す情報の理解が乏しい）、簡易に音声コマンドの実行条件を設定することができる。

〔７．その他〕
　自動的に行われる処理として述べられた処理の一部は、手動的に行われ得る。あるいは、手動的に行われる処理として述べられた処理の全部または一部は、公知の方法で、自動的に行われ得る。さらに、本明細書や図面中で示された処理の手順、具体的名称、各種のデータやパラメータを含む情報は、特に明記しない限り、任意に変更され得る。例えば、各図に示された各種情報は、図示された情報に限られない。

　図示されたシステムおよび装置の構成要素は、システムおよび装置の機能を、概念的に示すものである。構成要素は、必ずしも、図面に示されたように物理的に構成されているとは限らない。言い換えると、分散または統合されたシステムおよび装置の具体的形態は、図面に示されたシステムおよび装置の形態に限られない。システムおよび装置の全部または一部は、各種の負荷や使用状況に応じて、機能的または物理的に分散または統合され得る。

〔８．ハードウェア構成〕
　図９は、コンピュータのハードウェア構成の例であるコンピュータ１０００を示す図である。本明細書で説明されたシステムや方法は、例えば、図９に示されたコンピュータ１０００よって実装される。

　図９は、プログラムが実行されることにより、実行条件学習システム１００が実装されるコンピュータの一例を示している。コンピュータ１０００は、例えば、メモリ１０１０、ＣＰＵ１０２０を有する。また、コンピュータ１０００は、ハードディスクドライブインタフェース１０３０、ディスクドライブインタフェース１０４０、シリアルポートインタフェース１０５０、ビデオアダプタ１０６０、ネットワークインタフェース１０７０を有する。これらの各部は、バス１０８０によって接続される。

　メモリ１０１０は、ＲＯＭ（Read　Only　Memory）１０１１及びＲＡＭ１０１２を含む。ＲＯＭ１０１１は、例えば、ＢＩＯＳ（Basic　Input　Output　System）等のブートプログラムを記憶する。ハードディスクドライブインタフェース１０３０は、ハードディスクドライブ１０９０に接続される。ディスクドライブインタフェース１０４０は、ディスクドライブ１１００に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ１１００に挿入される。シリアルポートインタフェース１０５０は、例えばマウス１１１０、キーボード１１２０に接続される。ビデオアダプタ１０６０は、例えばディスプレイ１１３０に接続される。

　ハードディスクドライブ１０９０は、例えば、ＯＳ１０９１、アプリケーションプログラム１０９２、プログラムモジュール１０９３、プログラムデータ１０９４を記憶する。すなわち、実行条件学習システム１００の各処理を規定するプログラムは、コンピュータ１０００により実行可能なコードが記述されたプログラムモジュール１０９３として実装される。プログラムモジュール１０９３は、例えばハードディスクドライブ１０９０に記憶される。例えば、実行条件学習システム１００における機能構成と同様の処理を実行するためのプログラムモジュール１０９３が、ハードディスクドライブ１０９０に記憶される。なお、ハードディスクドライブ１０９０は、ＳＳＤ（Solid　State　Drive）により代替されてもよい。

　ハードディスクドライブ１０９０は、実行条件学習処理のための学習プログラムを記憶することができる。また、学習プログラムは、プログラムプロダクトとして作成され得る。プログラムプロダクトは、実行された場合に、上述したような、１つまたは複数の方法を実行する。

　また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ１０９４として、例えばメモリ１０１０やハードディスクドライブ１０９０に記憶される。そして、ＣＰＵ１０２０が、メモリ１０１０やハードディスクドライブ１０９０に記憶されたプログラムモジュール１０９３やプログラムデータ１０９４を必要に応じてＲＡＭ１０１２に読み出して実行する。

　なお、プログラムモジュール１０９３やプログラムデータ１０９４は、ハードディスクドライブ１０９０に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ１１００等を介してＣＰＵ１０２０によって読み出されてもよい。あるいは、プログラムモジュール１０９３及びプログラムデータ１０９４は、ネットワーク（ＬＡＮ、ＷＡＮ等）を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール１０９３及びプログラムデータ１０９４は、他のコンピュータから、ネットワークインタフェース１０７０を介してＣＰＵ１０２０によって読み出されてもよい。

〔９．実施形態のまとめ〕
　上述したように、本開示に係る実行条件学習システム１００は、周辺情報取得部１２１と、実行条件学習部１２５とを含む。少なくとも１つの実施形態では、周辺情報取得部１２１は、音声コマンドを発話したユーザの周辺で観測された情報を取得する。実行条件学習部１２５は、周辺情報取得部１２１によって取得された情報を、音声コマンドを実行するための条件として学習する。

　上述したように、本開示に係る実行条件学習システム１００は、実行条件判定部１２２と、音声コマンド実行部１２４とを含む。いくつかの実施形態では、実行条件判定部１２２は、音声コマンドを実行するための１つまたは複数の条件を特定し、周辺情報取得部１２１によって取得された情報が１つまたは複数の条件のうちの少なくとも１つに適合するかを判定する。いくつかの実施形態では、音声コマンド実行部１２４は、実行条件判定部１２２が、周辺情報取得部１２１によって取得された情報が１つまたは複数の条件のうちの少なくとも１つに適合すると判定した場合に、音声コマンドを実行する。いくつかの実施形態では、実行条件学習部１２５は、音声コマンド実行部１２４が音声コマンドを実行した場合に、周辺情報取得部１２１によって取得された情報を、音声コマンドを実行するための条件として学習する。

　上述したように、本開示に係る実行条件学習システム１００は、音声コマンド表示部１２３を含む。いくつかの実施形態では、音声コマンド表示部１２３は、ユーザが音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する。いくつかの実施形態では、音声コマンド実行部１２４は、音声コマンド表示部１２３がユーザインタフェースを介して音声コマンドの選択を受け付けた場合に、音声コマンドを実行する。

　いくつかの実施形態では、実行条件判定部１２２は、周辺情報取得部１２１によって取得された情報が１つまたは複数の条件のうちの少なくとも１つに適合するかを判定することとして、どの程度、周辺情報取得部１２１によって取得された情報が１つまたは複数の条件のうちの少なくとも１つと異なるかを示す値を決定し、決定された値が閾値未満であるかを判定する。

　いくつかの実施形態では、周辺情報取得部１２１は、音声コマンドを発話したユーザの周辺で観測された情報として、音声コマンドをユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する。

　いくつかの実施形態では、周辺情報取得部１２１は、音声コマンド入力画面に関する情報として、音声コマンド入力画面のタイトル、音声コマンド入力画面のプロセス名または音声コマンド入力画面に表示された値のうちの少なくとも１つを含む情報を取得する。

　様々な実施形態を、図面を参照して、本明細書で詳細に説明したが、これらの複数の実施形態は例であり、本発明をこれらの複数の実施形態に限定することを意図するものではない。本明細書に記載された特徴は、当業者の知識に基づく様々な変形や改良を含む、様々な方法によって実現され得る。

　また、上述した「部（module、-er接尾辞、-or接尾辞）」は、ユニット、手段、回路などに読み替えることができる。例えば、通信部（communication　module）、制御部（control　module）および記憶部（storage　module）は、それぞれ、通信ユニット、制御ユニットおよび記憶ユニットに読み替えることができる。また、制御部１２０内の各制御部（例えば、周辺情報取得部（peripheral　information　obtainer））も、周辺情報取得ユニットに読み替えることができる。

　　　１　環境
　１００　実行条件学習システム
　１１０　通信部
　１２０　制御部
　１２１　周辺情報取得部
　１２２　実行条件判定部
　１２３　音声コマンド表示部
　１２４　音声コマンド実行部
　１２５　実行条件学習部
　１３０　記憶部
　１４０　音声入力デバイス
　２００　ネットワーク
　３００　音声操作対象

Claims

　音声コマンドを発話したユーザの周辺で観測された情報を取得する取得部と、
　前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習部と
　を備える学習システム。
　前記音声コマンドを実行するための１つ又は複数の条件を特定し、前記取得部によって取得された情報が前記１つ又は複数の条件のうちの少なくとも１つに適合するかを判定する判定部と、
　前記判定部が、前記取得部によって取得された情報が前記１つ又は複数の条件のうちの少なくとも１つに適合すると判定した場合に、前記音声コマンドを実行する実行部とをさらに備え、
　前記学習部は、前記実行部が前記音声コマンドを実行した場合に、前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する
　請求項１に記載の学習システム。
　前記ユーザが前記音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する表示部をさらに備え、
　前記実行部は、前記表示部が前記ユーザインタフェースを介して前記音声コマンドの選択を受け付けた場合に、前記音声コマンドを実行する
　請求項２に記載の学習システム。
　前記判定部は、前記取得部によって取得された情報が前記１つ又は複数の条件のうちの少なくとも１つに適合するかを判定することとして、どの程度前記取得部によって取得された情報が前記１つ又は複数の条件のうちの少なくとも１つと異なるかを示す値を決定し、決定された値が閾値未満であるかを判定する
　請求項２又は３に記載の学習システム。
　前記取得部は、前記音声コマンドを発話したユーザの周辺で観測された情報として、前記音声コマンドを前記ユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する
　請求項１～４のうちいずれか１つに記載の学習システム。
　前記取得部は、前記音声コマンド入力画面に関する情報として、前記音声コマンド入力画面のタイトル、前記音声コマンド入力画面のプロセス名又は前記音声コマンド入力画面に表示された値のうちの少なくとも１つを含む情報を取得する
　請求項５に記載の学習システム。
　コンピュータが実行する学習方法であって、
　音声コマンドを発話したユーザの周辺で観測された情報を取得する取得工程と、
　前記取得工程によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習工程と
　を含む学習方法。
　音声コマンドを発話したユーザの周辺で観測された情報を取得する取得手順と、
　前記取得手順によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習手順と
　をコンピュータに実行させる学習プログラム。