WO2022259498A1 - 学習システム、学習方法及び学習プログラム - Google Patents

学習システム、学習方法及び学習プログラム Download PDF

Info

Publication number
WO2022259498A1
WO2022259498A1 PCT/JP2021/022223 JP2021022223W WO2022259498A1 WO 2022259498 A1 WO2022259498 A1 WO 2022259498A1 JP 2021022223 W JP2021022223 W JP 2021022223W WO 2022259498 A1 WO2022259498 A1 WO 2022259498A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice command
execution condition
learning
unit
user
Prior art date
Application number
PCT/JP2021/022223
Other languages
English (en)
French (fr)
Inventor
英毅 小矢
明 片岡
真実 小宮山
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2021/022223 priority Critical patent/WO2022259498A1/ja
Priority to JP2023526788A priority patent/JPWO2022259498A1/ja
Publication of WO2022259498A1 publication Critical patent/WO2022259498A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

学習システムは、取得部と、学習部とを含む。取得部は、音声コマンドを発話したユーザの周辺で観測された情報を取得する。学習部は、取得部によって取得された情報を、音声コマンドを実行するための条件として学習する。

Description

学習システム、学習方法及び学習プログラム
 本開示は、学習システム、学習方法及び学習プログラムに関する。
 近年、様々な技術が、音声コマンドにより、様々なデバイスや情報システムを操作するために提案されている。提案されている技術の例としては、柔軟な音声コマンドを実現するために、定型句だけではなくユーザの自由な発話を受理できる拡張音声コマンド方式(下記の非特許文献1)や、ユーザ自身が音声コマンド自体を定義したり設定したりできる音声コマンドシステム(下記の非特許文献2)が挙げられる。
 このような柔軟な音声コマンドの実現においては、音声コマンドの実行条件を正しく定義することが重要である。例えば、下記の非特許文献2の技術では、ユーザが、システム画面が開かれた状況で、「入力チェック」や「帳票入力」と発話する。この場合、非特許文献2の技術は、システム画面の入力が正しいかを判定することができる。さらに、この技術では、ユーザ自身が、印刷帳票の情報を音声で転記する音声コマンドを定義することができる。ユーザは、ユーザ自身が定義した音声コマンドを利用することができる。
 しかしながら、複数の業務システムが、業務において利用されている場合があり、それぞれの業務システムが、異なる帳票入力画面を持っている場合がある。このよう場合に、先に述べた「入力チェック」、「帳票入力」という共通的なフレーズは、そのままでは、音声コマンドとして定義され得ない。
 例えば、音声コマンドは、「帳票入力」という共通的なフレーズを「システムAの帳票入力」、「システムBの帳票入力」といったフレーズに分けることによって、定義されなければならない。しかしながら、もし、ユーザが、ユーザがシステムAを開いている状態で、「帳票入力」と発話したのであれば、ユーザがシステムAに対する音声コマンドを実行したいことは自明である。
 このような背景から、柔軟な音声コマンドの実現にあたって、ユーザが音声コマンドに実行条件を与えることが考えられる。音声コマンドの実行条件は、音声コマンドの乱立を防ぐことができる。先の例では、実行条件は、例えば、「システムAが開かれているとき」である。
 音声コマンドに実行条件を与えることは、危険な状態での音声コマンドの実行を抑制する、と期待される。また、実行条件ごとに音声認識のコーパスを定義することは、音声認識の精度を向上させる、と期待される。
倉田、市川、西村:ユーザの発話傾向分析に基づく車載機器操作のための音声入力手法の検討、電子情報通信学会論文誌.D、情報・システム、93(10)、2107-2117、2010-10-01
小矢、小宮山、片岡、大石:エンドユーザが作成可能な音声コマンドシステムに関する一検討、信学技報、vol.120、no.323、ICM2020-41、pp.39-44、2021年1月.
 しかしながら、上記の先行技術では、ユーザの状況に応じて音声コマンドを制限することが難しい場合がある。
 例えば、実行条件によって音声コマンドに制限をかけることは、(1)発話者の周辺から観測された情報をもとに音声コマンドの実行条件を定義し、(2)事前にその実行条件を音声コマンドに与え、(3)現在の発話者の状況が実行条件に一致するか判定すること、を必要とされる場合がある。
 しかしながら、様々な状況からなる実行条件を定義するのは、難しい場合がある。例えば、ユーザは、各々の状況が示す情報を理解し、実行条件の定義を作成することが必要な場合がある。
 特に、1つの音声コマンドが複数の状況で実行可能な場合に、相応のスキルが、それらの複数の状況に合致する実行条件を正しく定義するのに必要とされる。また、ユーザが実行条件を変更したい場合には、ユーザは、定義を改めて考えて、定義をする必要がある。したがって、修正に要する稼働も大きい。
 そこで、本開示は、ユーザの状況に応じて音声コマンドを容易に制限することができる学習システム、学習方法及び学習プログラムを提案する。
 本開示の一態様では、学習システムは、音声コマンドを発話したユーザの周辺で観測された情報を取得する取得部と、前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習部とを備える。
 本開示の1つまたは複数の実施形態に係る学習システムは、ユーザの状況に応じて音声コマンドを容易に制限することができる。
図1は、音声コマンドの制限に関連する課題の例を示す。 図2は、音声コマンドの実行条件を学習するのための環境の例のブロック図である。 図3は、本開示に係る実行条件学習処理の概要を示す。 図4は、本開示に係る実行条件学習システムの構成の例のブロック図である。 図5は、本開示に係る周辺情報取得処理の例を示す。 図6Aは、本開示に係る実行条件判定処理の例を示す。 図6Bは、本開示に係る実行条件判定処理の例を示す。 図7は、本開示に係る実行条件学習処理の例を示す。 図8は、音声コマンドの実行条件を学習するための処理の例を示すフローチャートである。 図9は、コンピュータのハードウェア構成の例を示す。
 複数の実施形態を、図面を参照して、以下で詳細に説明する。なお、本発明は、これらの複数の実施形態によって限定されるものではない。様々な実施形態の複数の特徴は、これらの複数の特徴が互いに矛盾しないという条件で、様々なやり方で組み合わされ得る。。同一の要素は、同一の符号で示され、重複する説明は、省略される。
〔1.はじめに〕
 音声コマンドを利用する発話者は、安全性の観点、誤認識の軽減、コマンド数の増加の抑制などを目的に、発話者の状況に応じて、実行可能な音声コマンドに制限をかけたい場合がある。
 図1は、音声コマンドの制限に関連する課題の例である課題10を示す。課題10では、発話者は、音声コマンドを実行できるシステムを利用するユーザである。図1の例では、ユーザは、状況Aで、音声コマンドBに制限をかけたい。例えば、ユーザは、状況Aにおける音声コマンドBを無効にする。この場合、ユーザが状況Aで音声コマンドBを発話しても、音声コマンドBは実行されない。
 しかしながら、音声コマンドを制限するためには、例えば、音声コマンドの作成者が、実行条件を事前に与える必要がある。この場合、次の2つの課題が考えられる。
 第1の課題は、様々な状況からなる実行条件を考えて、実行条件を定義するのが、音声コマンドの作成者(例えば、ユーザ)にとって難しい、ということである。第2の課題は、音声コマンドの作成者が実行条件を修正したい場合に、実行条件の修正が稼働を要する、ということである。図1に示されるように、例えば、作成者が、業務システムを音声コマンドで操作する音声コマンドシステムに登録された実行条件を修正する必要がある。作成者は、例えば、システムのURL(Uniform Resource Locator)を、音声コマンドの実行条件として登録する。実行条件の例は、「システムのURLが、http:/hogehogeと前方一致すること」である。
 上記の課題を解決するために、本開示の1つまたは複数の実施形態に係る実行条件学習システムは、以下に説明される1つまたは複数の実行条件学習処理を行う。
〔2.実行条件学習のための環境〕
 まず、図2を参照して、本開示に係る実行条件学習のための環境について説明する。
 図2は、音声コマンドの実行条件を学習するための環境の例である環境1のブロック図である。図2に示されるように、環境1は、実行条件学習システム100と、ネットワーク200と、音声操作対象300とを含む。
 実行条件学習システム100は、1つまたは複数の実行条件学習処理を行うシステムである。実行条件学習システム100は、音声コマンドの実行条件を、対話的に学習する。1つまたは複数の実行条件学習処理は、音声コマンドの実行条件を学習する処理を含む。本開示に係る実行条件学習処理の概要は、次節で説明される。
 実行条件学習システム100は、1つまたは複数のデータ処理装置を含む。データ処理装置は、例えば、サーバである。実行条件学習システム100の構成の例は、4節で説明される。
 ネットワーク200は、例えば、LAN(Local Area Network)、WAN(Wide Area Network)、インターネット等のネットワークである。ネットワーク200は、実行条件学習システム100および音声操作対象300を接続する。
 音声操作対象300、音声操作の対象である。音声操作対象300は、例えば、業務システム内のUI(User Interface)や、各種装置(例えば、家電)等である。業務システムが音声操作対象300を含む場合には、音声操作対象300は、例えば、GUI(Graphical User Interface)である。この場合、音声コマンドは、GUIを自動的に操作することによって実装される。例えば、実行条件学習システム100が音声コマンドを受け付けた場合に、実行条件学習システム100は、Accessibility API(Application Programming Interface)を使用して、GUIを操作することができる。
〔3.実行条件学習処理の概要〕
 次に、図3を参照して、本開示に係る実行条件学習処理の概要について説明する。なお、この概要は、本発明や、以下の節で説明される複数の実施形態を限定することを意図するものではない。
 図3は、本開示に係る実行条件学習処理の概要20を示す。
 概要20では、はじめに、実行条件学習システム100は、音声コマンドが実行された時の周辺状況を、音声コマンドの実行条件として学習する(ステップS1)。周辺状況は、ユーザの周辺の状況である。例えば、ユーザが、あるシステム(例えば、業務システム)を使用している場合に、周辺状況は、システム画面のURL、タイトル、プロセス名等の状況である。
 また、実行条件学習システム100は、発話以外の方法によって音声コマンドが実行された時の周辺状況を、実行条件として学習する(ステップS2)。実行条件学習システム100は、発話以外の方法で音声コマンドを実行するためのUIを有する。
 音声コマンドが実行された時の周辺状況が、現在学習されている実行条件と一致しない場合に、音声コマンドは、発話によって実行されない。この場合、ユーザは、発話以外の方法で、音声コマンドを実行することができる。例えば、ユーザは、音声コマンドの一覧から、特定の音声コマンドをクリックすることができる。
 図2の例では、実行条件学習システム100は、帳票を入力等、無効になっている音声コマンドを、発話で実行することができない。しかしながら、実行条件学習システム100は、音声コマンドの一覧等の発話以外の方法で、無効になっている音声コマンドを実行することができる。そして、実行条件学習システム100は、無効になっている音声コマンドが実行された時の周辺状況を学習することができる。実行条件学習システム100は、何回特定の音声コマンドがクリックされたか、といった情報を使用して、周辺状況を学習してもよい。
 ユーザが音声コマンドを発話した場合には、実行条件学習システム100は、現在の周辺状況と学習された実行条件との合致を判定する(ステップS3)。実行条件学習システム100は、適合値と閾値によって、実行条件の合致を判定することができる。
 例えば、適合値の例は、周辺情報と実行条件との間のレーベンシュタイン距離である。レーベンシュタイン距離は、図6Aおよび図6Bを参照して、以下で詳述される。適合値がレーベンシュタイン距離である場合には、適合値が低いほど、周辺情報が実行条件により合致する。
 実行条件学習システム100は、最小の適合値を算出する。図2の例では、最小の適合値は、3である。この例では、閾値は、10である。現在の周辺状況が少なくとも1つの実行条件に合致するため、実行条件学習システム100は、音声コマンドAを実行する。
 上述のように、実行条件学習システム100は、対話的な教示によって、実行条件を学習する。このため、実行条件学習システム100は、事前の実行条件の定義を不要にすることができる。また、実行条件学習システム100は、修正稼働を不要にすることもできる。
〔4.実行条件学習システムの構成〕
 次に、図4を参照して、実行条件学習システム100の構成の例について説明する。
 図4は、本開示に係る実行条件学習システムの構成の例である実行条件学習システム100のブロック図である。実行条件学習システム100は、学習システムの一例である。
 図4に示されるように、実行条件学習システム100は、通信部110、制御部120および記憶部130と、音声入力デバイス140とを含む。実行条件学習システム100は、実行条件学習システム100の管理者から入力を受け付ける入力部(例えば、キーボード、マウス)を含んでもよい。また、実行条件学習システム100は、実行条件学習システム100の管理者に情報を表示する出力部(例えば、液晶ディスプレイ、有機EL(Electro Luminescence)ディスプレイ)を含んでもよい。
〔4-1.通信部110〕
 通信部110は、例えば、NIC(Network Interface Card)によって実装される。通信部110は、有線または無線によりネットワーク200と接続される。通信部110は、ネットワーク200を介して、音声操作対象300との間で、情報の送受信を行うことができる。
〔4-2.制御部120〕
 制御部120は、コントローラ(controller)である。制御部120は、RAM(Random Access Memory)を作業領域として使用し、実行条件学習システム100の記憶装置に記憶された各種プログラムを実行する1つまたは複数のプロセッサ(例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit))によって実装される。また、制御部120は、ASIC(Application Specific Integrated Circuit)、FPGA(Field Programmable Gate Array)、GPGPU(General Purpose Graphic Processing Unit)等の、集積回路により実装されてもよい。
 図4に示されるように、制御部120は、周辺情報取得部121、実行条件判定部122、音声コマンド表示部123、音声コマンド実行部124および実行条件学習部125を含む。実行条件学習システム100の1つまたは複数のプロセッサは、実行条件学習システム100の1つまたは複数のメモリに記憶された命令を実行することによって、各制御部を実装することができる。各制御部によって行われるデータ処理は例であり、各制御部(例えば、実行条件学習部125)は、他の制御部(例えば、音声コマンド実行部124)に関連して説明されるデータ処理を行ってもよい。
 実行条件学習システム100の実行条件学習部125は、音声コマンドの実行条件を事前に定義することや、実行条件の修正を不要にするために、音声コマンドが実行された時の周辺状況を学習する。音声コマンドに関しては、実行条件学習システム100は、発話以外の実行方法(例えば、音声コマンドの一覧から該当するコマンドをクリック、タップ)として、音声コマンド表示部123を有する。実行条件学習システム100の実行条件判定部122は、適合値と閾値によって、実行条件の合致を判定する。
〔4-2-1.周辺情報取得部121〕
 周辺情報取得部121は、発話者の周辺情報を取得する。周辺情報取得部121は、取得部の一例である。
 周辺情報は、音声コマンドを発話したユーザの周辺で観測された情報である。周辺情報は、発話を行ったユーザの周辺に関する各種情報(例えば、周辺環境、周辺状況)を含む。ユーザの周辺に関する各種情報は、例えば、ユーザが使用するシステムに関する情報である。例えば、システムに関する周辺情報は、最前面のシステム画面のタイトル、プロセス名(数値)、システム画面に表示された値(文字列、数値)のうちの少なくとも1つを含む。
 周辺情報取得部121は、各種システム(例えば、業務システム)から、周辺情報を取得することができる。周辺情報取得部121は、周辺情報を、記憶部130に格納することができる。また、周辺情報取得部121は、記憶部130から、周辺情報を取得することができる。
 図5は、本開示に係る周辺情報取得処理の例である周辺情報取得処理30を示す。周辺情報取得処理30では、周辺情報取得部121は、音声コマンドをユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する。音声コマンド入力画面は、例えば、システム画面である。
 周辺情報取得部121によって取得された周辺情報は、音声コマンドの実行条件に用いられる。図5の例では、周辺情報は、複数の文字列または数値を含むデータである。対象とする音声コマンドシステムが、音声でシステムのGUIを操作するものである場合には、取得される周辺情報は、以下のデータのうちの少なくとも1つを含む。周辺情報に含まれるデータは、最前面のシステム画面のタイトル(文字列)、最前面のシステム画面のプロセス名(数値)および最前面のシステム画面に表示された各種値(文字列、数値)等である。データが取得され得ないカラムは、noneとして扱われる。
 周辺情報は、システム画面に関するデータ情報に限定されるものではない。周辺情報は、ユーザの周辺機器によって観測された情報であってもよい。例えば、周辺機器がウェアラブルデバイスである場合には、周辺情報は、センシングデータ(例えば、心拍、眼電位)であってもよい。
〔4-2-2.実行条件判定部122〕
 実行条件判定部122は、音声コマンドを実行するための条件を特定する。そして、実行条件判定部122は、周辺情報取得部121によって取得された情報が特定された条件に適合するかを判定する。実行条件判定部122は、判定部の一例である。
 音声コマンドを実行するための条件は、音声コマンドの実行条件であり、実行条件判定部122は、記憶部130に記憶された複数の実行条件を参照することによって、実行条件を特定することができる。
 図6Aおよび図6Bは、本開示に係る実行条件判定処理の例である実行条件判定処理40を、まとめて示す。実行条件判定処理40では、実行条件判定部122は、周辺情報および音声コマンドの実行条件を、入力として使用することによって、音声コマンドの有効および無効を判定する。さらに、実行条件判定部122は、適合値と閾値によって、実行条件の判定を行う。適合値は、例えば、周辺情報取得部121によって取得された周辺情報がどの程度特定された条件と異なるかを示す値である。
 実行条件判定部122は、音声コマンドが呼び出された現在の周辺情報を入力として使用する。そして、実行条件判定部122は、実行されるように依頼された音声コマンドの実行条件が、現在の周辺情報に合致するかを判定する。図6Aおよび図6Bの例では、判定方法は、実行条件の表データに対して、適合値を計算する。判定方法は、各行データごとに、周辺情報を入力として使用する。図6Aおよび図6Bに示されるように、各行ごとに計算された適合値の中の最小の適合値が、音声コマンドの実行条件ごとに設定された閾値(例えば、閾値γ)未満であれば、実行条件判定部122は、音声コマンドが「有効」であると判定する。最小の適合値が閾値以上であれば、実行条件判定部122は、音声コマンドが「無効」であると判定する。
 図6Aおよび図6Bに示されるように、適合値の例は、周辺情報が文字列である場合にはレーベンシュタイン距離で与えられ、周辺情報が数値である場合には差の絶対値で与えられる量を、それぞれ周辺情報の数だけ計算し、各周辺情報毎に設定された重み係数を計算された量にかけることによって得られる加重和である。ここで、レーベンシュタイン距離は、1文字の挿入、削除または置換によって、一方の文字列をもう一方の文字列に変形するのに必要な手順の最小回数である。例えば、図6Bの実行条件の表では、1行目の適合値は、3である。より具体的には、タイトル列のレーベンシュタイン距離が1、プロセス列のレーベンシュタイン距離はゼロ、各種値(URL)列のレーベンシュタイン距離が3、各種値(見出し)列のレーベンシュタイン距離がゼロ、各種値(契約額)はnoneのため固定値βであり、対応する列のαを乗ぜられたこれらの値の和である加重和として、適合値3が得られる。同様に、2行目の適合値として、適合値4が得られる。これらの値の中で最小のものは適合値3であり、適合値3は実行条件で設定された閾値4未満となるので、この実行条件は「有効」と判定される。
 ここで、各周辺情報に重みαを設定することの効用は、例えば、各種値(契約額)の列は厳密に一致していないと絶対に音声コマンドが実行されてはならないといったような場合に、該当の重みαを大きな値として設定することができ、該当の周辺状況が一致しない場合に適合値を大きくすることで厳密な判定を可能とすることなどである。このように、重みαを、実行条件の判定の細かい制御に用いることができる。
 また、適合値の計算においては、周辺情報の表の各列の重み(図6Aの添え字j)に加え、実行条件の表の各行に重み(図6Bの添え字i)を導入することで、直近に学習された実行条件の適合値は低くなり、遠い過去に学習された実行条件の適合値は大きくなるといった適合値の計算も可能である。
〔4-2-3.音声コマンド表示部123〕
 音声コマンド表示部123は、ユーザが音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する。音声コマンド表示部123は、表示部の一例である。
 表示のタイミングに関しては、音声コマンド表示部123は、音声コマンド入力画面とともにユーザインタフェースを表示してもよい。あるいは、音声コマンド表示部123は、実行条件判定部122が、周辺情報取得部121によって取得された周辺情報が1つまたは複数の実行条件のうちの少なくとも1つに適合しないと判定した場合に、ユーザインタフェースを表示してもよい。
 表示されたユーザインタフェース(例えば、GUI)は、発話以外の入力(例えば、GUI操作)を受け付ける。音声コマンド表示部123は、例えば、音声コマンドの一覧を、音声コマンドの有効または無効が明示された状態で、ユーザに提示する。音声コマンドの一覧は、ユーザが、発話以外の方法でこの一覧に表示された音声コマンドを実行することを可能にする。音声コマンドが無効な場合には、この音声コマンドは、発話によって実行され得ない。この音声コマンドは、音声コマンド一覧表示部による発話以外の方法によって実行され得る。
 音声コマンド表示部123は、音声コマンドの有効または無効が現在の周辺状況に対して明示された状態で、音声コマンドの一覧をユーザに提示する。ユーザは、音声コマンド表示部123によって提示された音声コマンドの一覧に対する操作を行うことができる。例えば、ユーザは、各音声コマンドを、クリック、タップなどの方法によって選択し、該当の音声コマンドを起動することができる。
 無効の状態の音声コマンドは、発話によって実行され得ない。しかしながら、無効の状態の音声コマンドは、音声コマンド表示部123による発話以外の方法によって、実行され得る。
 実行条件学習システム100は、音声コマンド表示部123による発話以外の方法による音声コマンドの実行する機能を備える。実行条件が周辺状況に合致しない状況でユーザが該当の音声コマンドを実行したい場合には、実行条件を修正するのではなく、音声コマンド表示部123から発話以外の方法で該当の音声コマンドを起動することで実行条件が学習される。これによりユーザによる実行条件の修正などが不要となる。
 また、音声コマンド表示部123の操作によって(発話以外の方法で)、特定の音声コマンドが繰り返し実行されている場合には、実行条件学習システム100は、該当の音声コマンドの実行条件の学習がうまくいっていないと判断することができる。このような場合には、実行条件学習システム100(例えば、音声コマンド表示部123)は、該当の音声コマンドの実行条件の閾値を動的に増加することで実行条件を緩和し、このことは、該当の音声コマンドが発話により実行できるように実行条件を自動的に調整することを可能にする。
〔4-2-4.音声コマンド実行部124〕
 音声コマンド実行部124は、音声コマンドを実行する。音声コマンド実行部124は、実行部の一例である。
 実行条件判定部122が、周辺情報取得部121によって取得された周辺情報が1つまたは複数の実行条件のうちの少なくとも1つに適合すると判定した場合に、音声コマンド実行部124は、音声コマンドを実行する。また、音声コマンド表示部123が、ユーザインタフェースを介して音声コマンドの選択を受け付けた場合に、音声コマンド実行部124は、音声コマンドを実行する。
 音声コマンド実行部124は、音声入力デバイス140から、発話のデータを受け付ける。音声コマンド実行部124は、発話のデータに応じて音声コマンドを実行するために、音声認識システムを実装することできる。
〔4-2-5.実行条件学習部125〕
 実行条件学習部125は、周辺情報取得部121によって取得された周辺情報を、音声コマンドを実行するための条件として学習する。実行条件学習部125は、実行部の一例である。
 例えば、音声コマンド実行部124が音声コマンドを実行した場合に、実行条件学習部125は、周辺情報を、音声コマンドを実行するための条件として学習する。
 音声コマンドを実行するための条件は、音声コマンドの実行条件である。実行条件学習部125は、実行条件の学習することとして、実行条件を記憶部130に格納する。
 図7は、本開示に係る実行条件学習処理の例である実行条件学習処理50を示す。実行条件学習処理50では、実行条件学習部125は、音声コマンドが実行された時の周辺情報を、この音声コマンドの実行条件として新たに学習する。実行条件学習部125は、音声コマンドが実行されたとき、そのとき取得された周辺情報を実行条件として学習する。図7に示されるように、実行条件は、複数の周辺情報を含む表データである。取得された周辺情報は、新たな行データとして追加される。実行条件の表データは、音声コマンド毎に存在する。実行条件は、実行された音声コマンドの表データに追加される。
〔4-3.記憶部130〕
 記憶部130は、例えば、RAM、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実装される。記憶部130は、周辺情報取得部121によって取得された周辺情報や、実行条件学習部125によって学習された複数の実行条件を記憶する。
〔4-4.音声入力デバイス140〕
 音声入力デバイス140は、ユーザの発話を受け付ける。そして、音声入力デバイス140は、発話のデータ(すなわち、音声データ)を、音声コマンド実行部124に提供する。
〔5.実行条件学習処理のフローチャート
 次に、図8を参照して、本開示に係る実行条件学習処理の例のフローチャートについて説明する。実行条件学習処理の例は、音声コマンドの実行条件を学習するための処理を含む。音声コマンドの実行条件を学習するための処理は、例えば、図4の実行条件学習システム100によって行われる。
 図8は、音声コマンドの実行条件を学習するための処理の例である処理P100を示すフローチャートである。
 図8に示されるように、はじめに、実行条件学習システム100の周辺情報取得部121は、発話を行ったユーザの周辺情報を取得する(ステップS101)。
 次いで、実行条件学習システム100の実行条件判定部122は、周辺情報が実行条件に合致するかを判定する(ステップS102)。
 実行条件判定部122が、周辺情報が実行条件に合致すると判定した場合に(ステップS102:Yes)、実行条件学習システム100の音声コマンド実行部124は、音声コマンドを実行する(ステップS103)。
 次いで、実行条件学習システム100の実行条件学習部125は、周辺情報を実行条件として学習する(ステップS104)。なお、実行条件学習部125は、周辺情報を実行条件として学習するかを、ユーザに確認してもよい。例えば、実行条件学習部125は、「周辺情報を実行条件として学習しますか?」といったメッセージを含むGUIを表示してもよい。ユーザが「学習」というボタンを選択した場合に、実行条件学習部125は、周辺情報を実行条件として学習してもよい。
 実行条件判定部122が、周辺情報が実行条件に合致しないと判定した場合に(ステップS102:No)、実行条件学習システム100の音声コマンド表示部123は、音声コマンドが発話以外の方法によって選択されたかを判定する(ステップS105)。音声コマンド表示部123は、音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示することができる。音声コマンド表示部123は、ユーザインタフェースを介して、音声コマンドの選択を受け付けることができる。
 音声コマンド表示部123が、音声コマンドが発話以外の方法によって選択されたと判定した場合に(ステップS105:Yes)、処理ステップは、ステップS103に移行する。
 音声コマンド表示部123が、音声コマンドが発話以外の方法によって選択されなかったと判定した場合に(ステップS105:No)処理ステップは終了する。
〔6.効果〕
 上述のように、実行条件学習システム100は、音声コマンドが実行された時の周辺状況から、音声コマンドの実行条件を学習する。さらに、実行条件学習システム100は、発話以外の方法によって音声コマンドを実行するための機能を有する。このため、実行条件学習システム100は、様々な周辺状況に合致する実行条件を、対話的に学習することができる。このことは、予め実行条件の定義を与えることを不要にする。
 その結果、実行条件学習システム100は、音声コマンドの実行条件の定義や修正にかかる稼働を、大幅に削減することができる。また、スキルが低いユーザでも(例えば、状況を示す情報の理解が乏しい)、簡易に音声コマンドの実行条件を設定することができる。
〔7.その他〕
 自動的に行われる処理として述べられた処理の一部は、手動的に行われ得る。あるいは、手動的に行われる処理として述べられた処理の全部または一部は、公知の方法で、自動的に行われ得る。さらに、本明細書や図面中で示された処理の手順、具体的名称、各種のデータやパラメータを含む情報は、特に明記しない限り、任意に変更され得る。例えば、各図に示された各種情報は、図示された情報に限られない。
 図示されたシステムおよび装置の構成要素は、システムおよび装置の機能を、概念的に示すものである。構成要素は、必ずしも、図面に示されたように物理的に構成されているとは限らない。言い換えると、分散または統合されたシステムおよび装置の具体的形態は、図面に示されたシステムおよび装置の形態に限られない。システムおよび装置の全部または一部は、各種の負荷や使用状況に応じて、機能的または物理的に分散または統合され得る。
〔8.ハードウェア構成〕
 図9は、コンピュータのハードウェア構成の例であるコンピュータ1000を示す図である。本明細書で説明されたシステムや方法は、例えば、図9に示されたコンピュータ1000よって実装される。
 図9は、プログラムが実行されることにより、実行条件学習システム100が実装されるコンピュータの一例を示している。コンピュータ1000は、例えば、メモリ1010、CPU1020を有する。また、コンピュータ1000は、ハードディスクドライブインタフェース1030、ディスクドライブインタフェース1040、シリアルポートインタフェース1050、ビデオアダプタ1060、ネットワークインタフェース1070を有する。これらの各部は、バス1080によって接続される。
 メモリ1010は、ROM(Read Only Memory)1011及びRAM1012を含む。ROM1011は、例えば、BIOS(Basic Input Output System)等のブートプログラムを記憶する。ハードディスクドライブインタフェース1030は、ハードディスクドライブ1090に接続される。ディスクドライブインタフェース1040は、ディスクドライブ1100に接続される。例えば磁気ディスクや光ディスク等の着脱可能な記憶媒体が、ディスクドライブ1100に挿入される。シリアルポートインタフェース1050は、例えばマウス1110、キーボード1120に接続される。ビデオアダプタ1060は、例えばディスプレイ1130に接続される。
 ハードディスクドライブ1090は、例えば、OS1091、アプリケーションプログラム1092、プログラムモジュール1093、プログラムデータ1094を記憶する。すなわち、実行条件学習システム100の各処理を規定するプログラムは、コンピュータ1000により実行可能なコードが記述されたプログラムモジュール1093として実装される。プログラムモジュール1093は、例えばハードディスクドライブ1090に記憶される。例えば、実行条件学習システム100における機能構成と同様の処理を実行するためのプログラムモジュール1093が、ハードディスクドライブ1090に記憶される。なお、ハードディスクドライブ1090は、SSD(Solid State Drive)により代替されてもよい。
 ハードディスクドライブ1090は、実行条件学習処理のための学習プログラムを記憶することができる。また、学習プログラムは、プログラムプロダクトとして作成され得る。プログラムプロダクトは、実行された場合に、上述したような、1つまたは複数の方法を実行する。
 また、上述した実施の形態の処理で用いられる設定データは、プログラムデータ1094として、例えばメモリ1010やハードディスクドライブ1090に記憶される。そして、CPU1020が、メモリ1010やハードディスクドライブ1090に記憶されたプログラムモジュール1093やプログラムデータ1094を必要に応じてRAM1012に読み出して実行する。
 なお、プログラムモジュール1093やプログラムデータ1094は、ハードディスクドライブ1090に記憶される場合に限らず、例えば着脱可能な記憶媒体に記憶され、ディスクドライブ1100等を介してCPU1020によって読み出されてもよい。あるいは、プログラムモジュール1093及びプログラムデータ1094は、ネットワーク(LAN、WAN等)を介して接続された他のコンピュータに記憶されてもよい。そして、プログラムモジュール1093及びプログラムデータ1094は、他のコンピュータから、ネットワークインタフェース1070を介してCPU1020によって読み出されてもよい。
〔9.実施形態のまとめ〕
 上述したように、本開示に係る実行条件学習システム100は、周辺情報取得部121と、実行条件学習部125とを含む。少なくとも1つの実施形態では、周辺情報取得部121は、音声コマンドを発話したユーザの周辺で観測された情報を取得する。実行条件学習部125は、周辺情報取得部121によって取得された情報を、音声コマンドを実行するための条件として学習する。
 上述したように、本開示に係る実行条件学習システム100は、実行条件判定部122と、音声コマンド実行部124とを含む。いくつかの実施形態では、実行条件判定部122は、音声コマンドを実行するための1つまたは複数の条件を特定し、周辺情報取得部121によって取得された情報が1つまたは複数の条件のうちの少なくとも1つに適合するかを判定する。いくつかの実施形態では、音声コマンド実行部124は、実行条件判定部122が、周辺情報取得部121によって取得された情報が1つまたは複数の条件のうちの少なくとも1つに適合すると判定した場合に、音声コマンドを実行する。いくつかの実施形態では、実行条件学習部125は、音声コマンド実行部124が音声コマンドを実行した場合に、周辺情報取得部121によって取得された情報を、音声コマンドを実行するための条件として学習する。
 上述したように、本開示に係る実行条件学習システム100は、音声コマンド表示部123を含む。いくつかの実施形態では、音声コマンド表示部123は、ユーザが音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する。いくつかの実施形態では、音声コマンド実行部124は、音声コマンド表示部123がユーザインタフェースを介して音声コマンドの選択を受け付けた場合に、音声コマンドを実行する。
 いくつかの実施形態では、実行条件判定部122は、周辺情報取得部121によって取得された情報が1つまたは複数の条件のうちの少なくとも1つに適合するかを判定することとして、どの程度、周辺情報取得部121によって取得された情報が1つまたは複数の条件のうちの少なくとも1つと異なるかを示す値を決定し、決定された値が閾値未満であるかを判定する。
 いくつかの実施形態では、周辺情報取得部121は、音声コマンドを発話したユーザの周辺で観測された情報として、音声コマンドをユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する。
 いくつかの実施形態では、周辺情報取得部121は、音声コマンド入力画面に関する情報として、音声コマンド入力画面のタイトル、音声コマンド入力画面のプロセス名または音声コマンド入力画面に表示された値のうちの少なくとも1つを含む情報を取得する。
 様々な実施形態を、図面を参照して、本明細書で詳細に説明したが、これらの複数の実施形態は例であり、本発明をこれらの複数の実施形態に限定することを意図するものではない。本明細書に記載された特徴は、当業者の知識に基づく様々な変形や改良を含む、様々な方法によって実現され得る。
 また、上述した「部(module、-er接尾辞、-or接尾辞)」は、ユニット、手段、回路などに読み替えることができる。例えば、通信部(communication module)、制御部(control module)および記憶部(storage module)は、それぞれ、通信ユニット、制御ユニットおよび記憶ユニットに読み替えることができる。また、制御部120内の各制御部(例えば、周辺情報取得部(peripheral information obtainer))も、周辺情報取得ユニットに読み替えることができる。
   1 環境
 100 実行条件学習システム
 110 通信部
 120 制御部
 121 周辺情報取得部
 122 実行条件判定部
 123 音声コマンド表示部
 124 音声コマンド実行部
 125 実行条件学習部
 130 記憶部
 140 音声入力デバイス
 200 ネットワーク
 300 音声操作対象

Claims (8)

  1.  音声コマンドを発話したユーザの周辺で観測された情報を取得する取得部と、
     前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習部と
     を備える学習システム。
  2.  前記音声コマンドを実行するための1つ又は複数の条件を特定し、前記取得部によって取得された情報が前記1つ又は複数の条件のうちの少なくとも1つに適合するかを判定する判定部と、
     前記判定部が、前記取得部によって取得された情報が前記1つ又は複数の条件のうちの少なくとも1つに適合すると判定した場合に、前記音声コマンドを実行する実行部とをさらに備え、
     前記学習部は、前記実行部が前記音声コマンドを実行した場合に、前記取得部によって取得された情報を、前記音声コマンドを実行するための条件として学習する
     請求項1に記載の学習システム。
  3.  前記ユーザが前記音声コマンドを発話以外の方法で選択することを可能にするユーザインタフェースを表示する表示部をさらに備え、
     前記実行部は、前記表示部が前記ユーザインタフェースを介して前記音声コマンドの選択を受け付けた場合に、前記音声コマンドを実行する
     請求項2に記載の学習システム。
  4.  前記判定部は、前記取得部によって取得された情報が前記1つ又は複数の条件のうちの少なくとも1つに適合するかを判定することとして、どの程度前記取得部によって取得された情報が前記1つ又は複数の条件のうちの少なくとも1つと異なるかを示す値を決定し、決定された値が閾値未満であるかを判定する
     請求項2又は3に記載の学習システム。
  5.  前記取得部は、前記音声コマンドを発話したユーザの周辺で観測された情報として、前記音声コマンドを前記ユーザから受け付けることができる音声コマンド入力画面に関する情報を取得する
     請求項1~4のうちいずれか1つに記載の学習システム。
  6.  前記取得部は、前記音声コマンド入力画面に関する情報として、前記音声コマンド入力画面のタイトル、前記音声コマンド入力画面のプロセス名又は前記音声コマンド入力画面に表示された値のうちの少なくとも1つを含む情報を取得する
     請求項5に記載の学習システム。
  7.  コンピュータが実行する学習方法であって、
     音声コマンドを発話したユーザの周辺で観測された情報を取得する取得工程と、
     前記取得工程によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習工程と
     を含む学習方法。
  8.  音声コマンドを発話したユーザの周辺で観測された情報を取得する取得手順と、
     前記取得手順によって取得された情報を、前記音声コマンドを実行するための条件として学習する学習手順と
     をコンピュータに実行させる学習プログラム。
PCT/JP2021/022223 2021-06-10 2021-06-10 学習システム、学習方法及び学習プログラム WO2022259498A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
PCT/JP2021/022223 WO2022259498A1 (ja) 2021-06-10 2021-06-10 学習システム、学習方法及び学習プログラム
JP2023526788A JPWO2022259498A1 (ja) 2021-06-10 2021-06-10

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/022223 WO2022259498A1 (ja) 2021-06-10 2021-06-10 学習システム、学習方法及び学習プログラム

Publications (1)

Publication Number Publication Date
WO2022259498A1 true WO2022259498A1 (ja) 2022-12-15

Family

ID=84425093

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/022223 WO2022259498A1 (ja) 2021-06-10 2021-06-10 学習システム、学習方法及び学習プログラム

Country Status (2)

Country Link
JP (1) JPWO2022259498A1 (ja)
WO (1) WO2022259498A1 (ja)

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法
JP2019535044A (ja) * 2016-10-11 2019-12-05 メディアゼン インコーポレイテッド ハイブリッド音声認識複合性能自動評価システム
JP2020177108A (ja) * 2019-04-17 2020-10-29 日本電信電話株式会社 コマンド解析装置、コマンド解析方法、プログラム

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003289587A (ja) * 2002-03-28 2003-10-10 Fujitsu Ltd 機器制御装置および機器制御方法
JP2019535044A (ja) * 2016-10-11 2019-12-05 メディアゼン インコーポレイテッド ハイブリッド音声認識複合性能自動評価システム
JP2020177108A (ja) * 2019-04-17 2020-10-29 日本電信電話株式会社 コマンド解析装置、コマンド解析方法、プログラム

Also Published As

Publication number Publication date
JPWO2022259498A1 (ja) 2022-12-15

Similar Documents

Publication Publication Date Title
JP6751122B2 (ja) ページ制御方法および装置
US20230031603A1 (en) Display apparatus and method for registration of user command
JP5421239B2 (ja) 複数モードの入力メソッドエディタ
JP5509066B2 (ja) 入力メソッドエディタの統合
RU2614539C2 (ru) Масштабирование адресной строки и вкладок на основе задачи
US20150052464A1 (en) Method and apparatus for icon based application control
US20200219492A1 (en) System and method for multi-spoken language detection
CN108369664A (zh) 调整神经网络的大小
US9304712B2 (en) Automated word substitution for contextual language learning
US20180024713A1 (en) Adaptive user interface
US20210074299A1 (en) Electronic apparatus for selecting ai assistant and response providing method thereof
CA3162745A1 (en) Method of detecting speech keyword based on neutral network, device and system
US8826146B2 (en) Uniform user interface for software applications
WO2022259498A1 (ja) 学習システム、学習方法及び学習プログラム
WO2020052060A1 (zh) 用于生成修正语句的方法和装置
US20240046929A1 (en) Automated assistant for introducing or controlling search filter parameters at a separate application
US10380998B2 (en) Voice and textual interface for closed-domain environment
JP2004038179A (ja) 音声命令語処理装置及び方法
WO2021247070A1 (en) Automated assistant control of external applications lacking automated assistant application programming interface functionality
JP2018194900A (ja) 情報処理装置、情報処理プログラムおよび情報処理方法
US9176948B2 (en) Client/server-based statistical phrase distribution display and associated text entry technique
CN110807334A (zh) 文本处理方法、装置、介质和计算设备
CN110378486A (zh) 网络嵌入方法、装置、电子设备和存储介质
EP4206972A1 (en) Electronic apparatus and method for controlling thereof
JP2018198043A (ja) 文字や単語を入力する方法、及び入力システム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21945172

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023526788

Country of ref document: JP

NENP Non-entry into the national phase

Ref country code: DE