JPWO2017179335A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents

情報処理装置、情報処理方法およびプログラム Download PDF

Info

Publication number
JPWO2017179335A1
JPWO2017179335A1 JP2018511925A JP2018511925A JPWO2017179335A1 JP WO2017179335 A1 JPWO2017179335 A1 JP WO2017179335A1 JP 2018511925 A JP2018511925 A JP 2018511925A JP 2018511925 A JP2018511925 A JP 2018511925A JP WO2017179335 A1 JPWO2017179335 A1 JP WO2017179335A1
Authority
JP
Japan
Prior art keywords
information
processing apparatus
voice
dictionary
information processing
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2018511925A
Other languages
English (en)
Other versions
JP6930531B2 (ja
Inventor
康之 古賀
康之 古賀
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2017179335A1 publication Critical patent/JPWO2017179335A1/ja
Application granted granted Critical
Publication of JP6930531B2 publication Critical patent/JP6930531B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/225Feedback of the input speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/227Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/226Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
    • G10L2015/228Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • General Health & Medical Sciences (AREA)
  • User Interface Of Digital Computer (AREA)
  • Navigation (AREA)

Abstract

【課題】音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みを提供する。【解決手段】音声入力により得られる音声情報を得る取得部と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、を備える情報処理装置。ならびに情報処理方法およびプログラム。【選択図】図2

Description

本開示は、情報処理装置、情報処理方法およびプログラムに関する。
近年、ユーザと装置とのインタラクションを円滑にするための入力技術が研究開発されている。そのような入力技術として音声入力技術がある。音声入力技術では概して、ユーザにより発せられた音声について生成される音声情報を解析することにより音声を認識する音声認識処理が行われる。
音声認識処理では概して、音声情報の解析により文字情報が生成され、生成された文字情報が辞書情報の有する文字情報と一致するかまたは類似するかを判定することにより、音声が認識される。そのため、辞書情報の有する文字情報の量に応じて音声認識の性能が変動してしまう。例えば、概して、文字情報の量が多いほど、音声が認識される可能性は高くなるが、誤認識のおそれも高くなる。また、概して、文字情報の量が少ないほど、音声が認識される可能性は低くなるが、誤認識のおそれも低くなる。
これに対し、特許文献1では、入力される画像情報および音声情報に基づいてユーザの位置の推定およびユーザの識別についての処理を行い、処理結果に基づいて選択される小語彙辞書または大語彙辞書のいずれかを用いて音声認識処理を行う情報処理装置に係る発明が開示されている。これにより、音声認識の誤りの抑制および精度の向上が可能となると考えられている。
特開2013−257418号公報
しかし、特許文献1で開示される発明では、認識性能の向上と処理時間の短縮とがトレードオフとなる。例えば、選択される辞書情報が小語彙辞書である場合、選択される辞書情報が大語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれていないおそれが高い。すなわち、音声認識は失敗しやすく、認識率が低下しかねない。反対に、選択される辞書情報が大語彙辞書である場合、選択される辞書情報が小語彙辞書である場合と比べて、ユーザの発する音声に対応する文字情報が辞書情報に含まれている可能性は高いが、文字情報の数が多いため処理時間が遅くなる。すなわち、音声認識の結果が出るまでに時間がかかり、ユーザへのレスポンスが悪化しかねない。また、単純に文字情報が増えると、上述したように誤認識のおそれも高くなる。
そこで、本開示では、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みを提案する。
本開示によれば、音声入力により得られる音声情報を得る取得部と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、を備える情報処理装置が提供される。
また、本開示によれば、プロセッサを用いて、音声入力により得られる音声情報を得ることと、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、を含む情報処理方法が提供される。
また、本開示によれば、音声入力により得られる音声情報を得る取得機能と、音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、をコンピュータに実現させるためのプログラムが提供される。
以上説明したように本開示によれば、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能な仕組みが提供される。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。
本開示の第1の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。 同実施形態に係る情報処理装置における対応関係の入れ替えについて説明するための図である。 同実施形態に係る情報処理装置における使用辞書の変更について説明するための図である。 同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。 同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。 同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。 同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。 本開示の第2の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。 同実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。 同実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。 同実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。 同実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。 本開示の一実施形態に係る情報処理装置のハードウェア構成を示した説明図である。
以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
また、説明の便宜上、第1および第2の実施形態に係る情報処理装置100を、情報処理装置100−1および情報処理装置100−2のように、末尾に実施形態に対応する番号を付することにより区別する。
なお、説明は以下の順序で行うものとする。
1.第1の実施形態(音声入力操作の客体情報に基づく音声認識辞書の変更)
1−1.システムの構成
1−2.システムの処理
1−3.第1の実施形態のまとめ
1−4.変形例
2.第2の実施形態(音声入力操作の主体情報に基づく音声認識辞書の変更)
2−1.システムの構成
2−2.システムの処理
2−3.第2の実施形態のまとめ
2−4.変形例
3.本開示の一実施形態に係る情報処理装置のハードウェア構成
4.むすび
<1.第1の実施形態(音声入力操作の客体情報に基づく音声認識辞書の変更)>
まず、本開示の第1の実施形態について説明する。第1の実施形態では、情報処理システムは、音声入力操作の客体情報に基づいて音声認識辞書の変更を制御する。
<1−1.システムの構成>
図1を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図1は、本開示の第1の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。
図1に示したように、本実施形態に係る情報処理システムは、情報処理装置100−1およびサーバ200を備える。
(情報処理装置)
情報処理装置100−1は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110を備える。
(音声入力部)
音声入力部102は、取得部として、音声情報を取得する。具体的には、音声入力部102は、情報処理装置100−1の周辺に存在するユーザにより音声が発せられると、発せられた音声について得られる信号に係る音声信号情報を生成する。なお、音声入力部102は、音声信号情報を生成する代わりに、通信を介して外部の音声入力装置で生成された音声信号情報を取得してもよい。
(音声認識部)
音声認識部104は、音声情報に基づいて音声認識処理を行う。具体的には、音声認識部104は、音声情報と当該音声情報に基づく処理(以下、後続処理とも称する。)との対応関係および音声入力部102から提供される音声情報に基づいて後続処理を決定する。例えば、音声認識部104は、音声入力部102から音声信号情報が提供されると、当該音声信号情報から文字情報を生成する。そして、音声認識部104は、文字情報と後続処理との対応関係の集合(以下、辞書とも称する。)において、生成された文字情報と一致しまたは類似する(以下、マッチする、とも称する。)文字情報の有無を判定する。生成された文字情報とマッチする文字情報が存在すると判定されると、音声認識部104は、マッチした文字情報に対応する後続処理を制御部108に通知する。
なお、辞書は記憶部106に記憶され、音声認識処理に用いられる辞書(以下、使用辞書とも称する。)は制御部108により指定されるかまたは固定である。また、辞書は、文字情報と後続処理との対応関係の集合である例を説明したが、音声信号情報と後続処理との対応関係の集合であってもよい。
(記憶部)
記憶部106は、音声認識処理で用いられる情報を記憶する。具体的には、記憶部106は、辞書を記憶する。例えば、記憶部106は、複数の辞書を記憶し、音声認識部104に辞書を提供する。なお、記憶部106は、辞書単位とは別に個々の対応関係を記憶してもよい。
(制御部)
制御部108は、情報処理装置100−1の動作を全体的に制御する。具体的には、制御部108は、音声認識処理を制御する。より具体的には、制御部108は、音声認識処理で用いられる辞書を制御する。
使用辞書の制御として、制御部108は、使用辞書の内容を制御する。具体的には、制御部108は、音声入力を用いた操作の客体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。例えば、制御部108は、音声入力操作の客体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。さらに、図2を参照して、対応関係の入れ替えについて詳細に説明する。図2は、本実施形態に係る情報処理装置100−1における対応関係の入れ替えについて説明するための図である。
制御部108は、音声入力操作の客体情報から推定される、音声認識処理における使用頻度に基づいて入れ替え対象の対応関係を決定する。具体的には、制御部108は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用頻度に基づいて決定する。また、制御部108は、使用辞書に追加する対応関係を上記使用頻度に基づいて決定する。より具体的には、制御部108は、音声入力操作の客体情報に基づいて使用頻度が使用辞書のうちで相対的に低いと推定される対応関係を使用辞書が有する対応関係の中から決定する。また、制御部108は、音声入力操作の客体情報に基づいて使用頻度が抜き出される対応関係よりも高いと推定される対応関係を記憶部106の記憶する対応関係の中から決定する。例えば、制御部108は、図2に示した使用辞書における対応関係2および対応関係3を抜き出し対象として決定する。また、制御部108は、図2に示した対応関係5および対応関係6を追加対象として決定する。なお、追加対象の対応関係は外部装置に記憶されていてもよい。この場合、通信を介して追加対象の対応関係が取得される。
次に、制御部108は、決定された対応関係を入れ替える。例えば、制御部108は、図2に示したように、抜き出し対象として決定された対応関係2および対応関係3と、追加対象として決定された対応関係5および対応関係6とを使用辞書において入れ替える。なお、抜き出し対象の対応関係の数と追加対象の対応関係の数は異なってもよい。
ここで、音声入力操作の客体情報は、当該音声入力操作の客体について取得される情報に基づいて推定される情報である。当該音声入力操作の客体情報としては、操作対象が特定される情報がある。当該操作対象としては、起動中のアプリケーションがある。例えば、制御部108は、起動中のアプリケーションが特定される情報を取得し、取得された情報から特定されるアプリケーションの操作において用いられる頻度が相対的に高い当該アプリケーションの操作についてのワード(以下、操作ワードとも称する。)に係る対応関係を使用辞書へ追加する。詳細には、ニュースを配信するアプリケーションについては、「ブックマーク」または「詳しく教えて」などのワードに係る対応関係が使用辞書へ追加される。音楽再生アプリケーションについては、「一時停止」または「次の曲」などのワードに係る対応関係が使用辞書へ追加される。通話アプリケーションについては、「受話」または「拒否」などのワードに係る対応関係が使用辞書へ追加される。撮影アプリケーションについては、「録画開始」または「録画停止」などのワードに係る対応関係が使用辞書へ追加される。
また、当該操作対象としては、情報処理装置100−1に接続されている機器がある。例えば、制御部108は、当該接続されている外部機器10が特定される情報を取得し、取得された情報から特定された外部機器10の操作に用いられる頻度が相対的に高い当該外部機器10の操作ワードに係る対応関係を使用辞書へ追加する。詳細には、家屋に設置されるテレビジョンについては「番組を変えて」、エアーコンディショナについては「23度」、オーディオ機器については「音楽止めて」などのワードに係る対応関係が使用辞書へ追加される。また、車両内に設置されるカーナビゲーションについては「道順を教えて」、車両の窓を制御する装置については「窓を開けて」などのワードに係る対応関係が使用辞書へ追加される。
また、音声入力操作の客体情報としては、操作対象の属性が特定される情報がある。操作対象の属性としては、アプリケーションもしくは外部機器10の種類、設置場所、所有者または他の任意のグループなどがある。例えば、制御部108は、アプリケーションの種類がコンテンツ再生アプリケーションである場合には、「再生開始」または「再生終了」などのワードに係る対応関係を使用辞書へ追加する。なお、同じ属性を有する複数の操作対象についてのワードに係る対応関係の和集合が使用辞書へ追加されてもよい。
なお、使用辞書へ追加される対応関係は、音声入力操作の客体情報に基づいて決定される対応関係のうちの一部であってもよい。例えば、追加される対応関係または追加される対応関係を選択するための指標が、ユーザにより設定されてもよい。制御部108は、設定される対応関係を追加対象の対応関係として選択し、または設定される指標に基づいて追加対象の対応関係を絞り込む。なお、ユーザによる設定の際に、音声入力操作の客体情報に基づいて決定される対応関係の一覧がユーザに提示されてもよい。
また、上記では、操作ワードに係る対応関係が追加される例を説明したが、アプリケーションまたは機器の起動についてのワード(以下、起動ワードとも称する。)に係る対応関係が追加されてもよい。例えば、テレビジョンが新たに接続された場合には、「テレビジョンをつけて」というワードに係る対応関係が使用辞書に追加される。なお、起動ワードと操作ワードとで別個に使用辞書が設けられてもよい。
また、複数の客体情報に基づいて使用辞書が変更されてもよい。例えば、制御部108は、複数のアプリケーションが起動されている場合には、当該複数のアプリケーションについて使用辞書を変更してよい。また、制御部108は、アプリケーションが起動され、機器が情報処理装置100−1に接続されている場合、当該アプリケーションおよび当該機器について使用辞書を変更してよい。また、制御部108は、複数の客体情報のうちの一部の客体情報についてのみ使用辞書を変更してもよい。例えば、制御部108は、優先度が他の客体情報よりも高い客体情報についてのみ使用辞書を変更してよい。
また、制御部108は、音声入力操作の客体情報から推定される、音声認識処理における使用可否に基づいて入れ替え対象の対応関係を決定してよい。具体的には、制御部108は、使用辞書の有する対応関係のうちの抜き出す対応関係を上記使用可否に基づいて決定する。また、制御部108は、使用辞書に追加する対応関係を上記使用可否に基づいて決定する。より具体的には、制御部108は、音声入力操作の客体情報に基づいて当該音声入力操作についての音声認識処理において使用が許可されない対応関係が使用辞書に含まれているかを判定する。当該使用が許可されない対応関係が使用辞書に含まれていると判定されると、制御部108は、当該使用が許可されない対応関係を、当該音声入力操作についての音声認識処理において使用が許可される対応関係に入れ替える。
別の使用辞書の制御として、制御部108は、使用辞書を辞書単位で制御する。具体的には、制御部108は、音声入力を用いた操作の客体情報に基づいて、使用辞書の変更を制御する。例えば、制御部108は、音声入力操作の客体情報に対応する辞書へ使用辞書を変更する。さらに、図3を参照して、使用辞書の変更について詳細に説明する。図3は、本実施形態に係る情報処理装置100−1における使用辞書の変更について説明するための図である。
制御部108は、音声入力操作の客体情報に対応する辞書を選択する。例えば、制御部108は、音声入力操作の客体情報に対応する辞書を記憶部106に記憶される複数の辞書から選択する。なお、選択される辞書のサイズすなわち辞書が有する対応関係の量は、使用辞書と異なってよい。図3に示したように、使用辞書のサイズがnであるの対し、選択された辞書のサイズはmであってよい。
次に、制御部108は、選択された辞書を使用辞書に決定する。例えば、制御部108は、選択された辞書を使用辞書として指定する。なお、使用辞書の内容が選択された辞書の内容に書き換えられるとしてもよい。
さらに、制御部108は、音声認識処理の実行主体を制御してよい。具体的には、制御部108は、情報処理装置100−1およびサーバ200の少なくとも一方に音声認識処理を実行させる。例えば、制御部108は、音声入力部102から音声情報が音声認識部104へ提供されると、音声認識部104およびサーバ200の両方に音声認識処理を実行させる。
また、制御部108は、情報処理装置100−1の通信可否に基づいて音声認識処理の実行主体を決定してもよい。例えば、制御部108は、サーバ200との通信が困難である場合には、音声認識部104にのみ音声認識処理を実行させる。また、制御部108は、サーバ200との通信が可能である場合には、音声認識部104およびサーバ200の両方またはサーバ200のみに音声認識処理を実行させる。
また、制御部108は、音声認識部104およびサーバ200の両方に音声認識処理を実行させる場合には、それぞれの処理結果についての調停処理を行う。具体的には、制御部108は、音声認識部104およびサーバ200の音声認識結果の各々についての評価に基づいていずれか一方の音声認識結果を採用する。例えば、制御部108は、音声認識部104の認識精度が閾値未満である場合、サーバ200の音声認識結果が受信されるまで待機する。また、制御部108は、音声認識部104の認識精度が閾値以上である場合、サーバ200の音声認識結果の受信を待たずに、音声認識部104の音声認識結果を用いて後続処理を実行する。
(通信部)
通信部110は、サーバ200および外部機器10と通信する。具体的には、通信部110は、サーバ200へ辞書提供要求ならびに音声認識要求および音声情報を送信し、サーバ200から辞書および音声認識結果を受信する。また、通信部110は、外部機器10へ動作要求および辞書提供要求を送信し、外部機器10から辞書を受信する。例えば、通信部110は、操作対象となり得る外部機器10の各々へ辞書提供要求をブロードキャスト方式で送信し、操作を許可する外部機器10の各々から辞書を受信する。なお、外部機器10についての辞書が情報処理装置100−1の記憶部106に記憶されている場合には、外部機器10への辞書提供要求の送信が行われない。また、外部機器10についての辞書がサーバ200に記憶されている場合には、サーバ200へ辞書提供要求が送信されるかまたはサーバ200に音声認識処理が実行させられる。
(サーバ)
サーバ200は、通信部202、制御部204、音声認識部206および記憶部208を備える。
(通信部)
通信部202は、情報処理装置100−1と通信する。具体的には、通信部202は、情報処理装置100−1から辞書提供要求ならびに音声認識要求および音声情報を受信し、情報処理装置100−1へ辞書および音声認識結果を送信する。
(制御部)
制御部204は、サーバ200の動作を全体的に制御する。具体的には、制御部204は、音声認識要求に応じて音声認識処理を制御する。例えば、制御部204は、情報処理装置100−1から音声認識要求が受信されると、当該音声認識要求と共にまたは別個に受信される音声情報に基づく音声認識処理を音声認識部206に実行させる。そして、制御部204は、音声認識部206の音声認識結果を通信部202に情報処理装置100−1へ送信させる。
また、制御部204は、辞書提供要求に応じて辞書提供処理を行う。具体的には、制御部204は、情報処理装置100−1から辞書提供要求が受信されると、当該辞書提供要求から辞書(または対応関係)を記憶部208から取得する。そして、制御部204は、取得された辞書(または対応関係)を通信部202に情報処理装置100−1へ送信させる。
(音声認識部)
音声認識部206は、音声情報に基づいて音声認識処理を行う。なお、音声認識部206の音声認識処理は、情報処理装置100−1の音声認識部104の処理と実質的に同一であるため、説明を省略する。
(記憶部)
記憶部208は、音声認識処理に用いられる情報を記憶する。具体的には、記憶部208は、辞書および対応関係を記憶する。例えば、記憶部208の記憶する辞書は、情報処理装置100−1よりも、記憶される辞書のサイズが大きくてよく、記憶される辞書の数も多くてよい。
<1−2.システムの処理>
次に、本実施形態に係る情報処理システムの処理について説明する。
(全体処理)
まず、図4を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図4は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
情報処理装置100−1は、音声入力操作の客体情報を取得する(ステップS302)。具体的には、制御部108は、起動中のアプリケーションまたは情報処理装置100−1に接続されている外部機器10に関する情報を取得する。
次に、情報処理装置100−1は、客体情報について変化が生じたかを判定する(ステップS304)。具体的には、制御部108は、新たにアプリケーションが起動されたか、起動していたアプリケーションが終了した、新たに外部機器10が接続されたか、または接続されていた外部機器10との接続が切断されたか、などの変化の有無を判定する。
客体情報について変化が生じたと判定されると、情報処理装置100−1は、客体情報に基づいて使用辞書を変更する(ステップS306)。具体的には、制御部108は、変化に係るアプリケーションまたは外部機器10について使用辞書を変更する。なお、詳細については後述する。
次に、情報処理装置100−1は、音声が入力されたかを判定する(ステップS308)。具体的には、音声認識部104は、音声入力部102により音声情報が提供されたかを判定する。
音声が入力されたと判定されると、情報処理装置100−1は、辞書に基づいて音声認識処理を実行する(ステップS310)。具体的には、音声認識部104は、音声情報が提供されると、制御部108により指定される使用辞書に基づいて、提供された音声情報についての音声認識処理を実行する。
次に、情報処理装置100−1は、音声認識結果に応じて後続処理を実行する(ステップS312)。具体的には、制御部108は、音声認識部104の音声認識処理により特定される後続処理を実行する。
(辞書変更処理)
続いて、図5を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図5は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
情報処理装置100−1は、変化に係る客体がアプリケーションであるかを判定する(ステップS322)。具体的には、制御部108は、新たに起動され、または終了されたと判定されたアプリケーションが存在するかを判定する。
変化に係る客体がアプリケーションであると判定されると、情報処理装置100−1は、当該アプリケーションに対応する対応関係を取得する(ステップS324)。具体的には、制御部108は、新たに起動されたアプリケーションに対応する対応関係を記憶部106またはサーバ200から取得する。なお、アプリケーションが終了された場合は、起動中のアプリケーションに対応する対応関係であって使用辞書にない対応関係が取得される。
また、情報処理装置100−1は、変化に係る客体が機器であるかを判定する(ステップS326)。具体的には、制御部108は、新たに接続され、または接続が切断されたと判定された外部機器10が存在するかを判定する。
変化に係る客体が機器であると判定されると、当該機器に対応する対応関係を取得する(ステップS328)。具体的には、制御部108は、新たに接続された外部機器10に対応する対応関係を記憶部106、外部機器10またはサーバ200から取得する。なお、外部機器10の接続が切断された場合は、接続中の外部機器10に対応する対応関係であって使用辞書にない対応関係が取得される。
そして、対応関係が取得されると、情報処理装置100−1は、使用辞書を変更する(ステップS330)。具体的には、制御部108は、抜き出す対応関係を使用辞書から選択し、選択された対応関係と取得された対応関係とを入れ替える。
また、情報処理装置100−1は、通信が利用可能かを判定する(ステップS332)。具体的には、制御部108は、サーバ200との通信が可能であるかを判定する。
通信が利用可能と判定されると、情報処理装置100−1は、通信を介して外部の辞書を使用辞書として追加する(ステップS334)。具体的には、制御部108は、サーバ200との通信が可能であると判定されると、情報処理装置100−1の音声認識部104およびサーバ200の音声認識部206の両方を音声認識処理の主体として決定する。これにより、実質的に使用辞書を変更することができる。
<1−3.第1の実施形態のまとめ>
このように、本開示の第1の実施形態によれば、情報処理装置100−1は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の客体情報に基づいて制御する。
従来では、音声入力機能による装置の誤作動のおそれがあった。例えば、音声入力操作のための音声と日常の会話における音声とが区別されず、日常の会話における音声が認識され、ユーザの意図しない動作が実行されることがあった。これに対し、起動ワードが入力された後に操作ワードが入力される方式が考えられた。しかし、二段階で音声操作することはユーザにとって煩わしくなりかねない。
また、使用辞書のサイズを大きくすることも考えられる。しかし、使用辞書のサイズを大きくなると、誤認識の増加および処理時間の長期化のおそれがある。特に、複雑な文の音声を解析する場合には処理時間がより長くなる。他方で、使用辞書のサイズが小さくなると、認識率が低下しかねない。
さらに、使用辞書のサイズが異なる複数の音声認識処理を実行することも考えられる。しかし、その場合、当該複数の音声認識処理の結果を調停する処理が要求され、製造コストおよび処理負荷が増加しかねない。
これらに対し、本実施形態に係る情報処理装置100−1によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。
また、上記変更に係る対応関係は、上記操作の客体情報から推定される、当該操作についての音声認識処理における対応関係についての使用情報、に基づいて決定される対応関係を含む。このため、使用辞書が有する対応関係を音声入力操作について事前に適正化することができる。従って、使用辞書のサイズを維持したまま、認識性能の向上および処理時間の短縮を両立させることが可能となる。
また、上記使用情報は、使用頻度が特定される情報を含む。このため、音声認識処理において使用される可能性が相対的に高い対応関係と、使用される可能性が相対的に低い対応関係と使用辞書において入れ替えられることにより、使用辞書のサイズを維持したまま認識率を向上させることができる。従って、認識率の向上および誤認識の抑制ならびに処理時間の短縮を両立させることが可能となる。
また、上記使用情報は、使用可否が特定される情報を含む。このため、音声認識処理において使用が許可されない対応関係を使用辞書から外すことができる。例えば、アプリケーションまたは外部機器10などから推定される誤認識を誘発するおそれのある対応関係を使用辞書から事前に外すことができる。また、反対に、積極的に認識させたい対応関係を使用辞書へ事前に追加することができる。従って、認識性能をより効果的に向上させることが可能となる。
また、情報処理装置100−1は、さらに上記操作の客体情報に基づいて上記対応関係の集合の変更を制御する。このため、辞書の単位で音声認識処理に用いられる対応関係を変更することができる。従って、使用辞書の内容すなわち対応関係の変更を迅速に行うことが可能となる。なお、使用辞書が異なる音声認識処理を切り替えることにより、使用辞書の変更が実現されてもよい。
また、上記対応関係の集合の変更は、集合の大きさが異なる対応関係の集合へ変更を含む。このため、使用辞書の内容が変更されると共に、使用辞書のサイズが変更されることにより、客体情報から推定される音声入力についての音声認識処理により適した使用辞書を用意することができる。
また、上記対応関係は、通信を介して変更される。このため、情報処理装置100−1が有していない対応関係を使用辞書へ追加することができる。従って、情報処理装置100−1単体で動作する場合よりも認識性能を向上させることが可能となる。
また、上記操作の客体情報は、操作対象または当該操作対象の属性が特定される情報を含む。このため、音声入力操作の対象に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。
また、上記操作対象は、アプリケーションまたは機器を含む。このため、起動中のアプリケーションまたは情報処理装置100−1に接続されている外部機器10の音声入力操作に適した対応関係を使用辞書へ追加することができる。従って、ユーザの意図通りに音声が認識されやすくなり、アプリケーションまたは外部機器10の音声入力による操作を円滑化することが可能となる。
また、情報処理装置100−1は、さらに情報処理装置100−1の通信可否に基づいて対応関係の変更を制御する。このため、情報処理装置100−1が記憶していない対応関係を収集することができる。従って、使用辞書のバリエーションを増やすことができ、認識性能をさらに向上させることが可能となる。また、音声認識処理を実行可能なサーバ200などの外部装置と通信可能な場合には、サーバ200に音声認識処理を実行させることもできる。この場合、情報処理装置100−1での音声認識処理を実行しないことにより、処理負荷を低減することができる。また、情報処理装置100−1での音声認識処理も実行することにより、複数の音声認識結果のうちの評価がより高い音声認識結果を利用することができる。
また、上記操作の客体情報は、上記操作の客体について取得される情報に基づいて推定される情報を含む。このため、ユーザにより音声入力操作が行われる前に使用辞書を適切な辞書へ変更することができる。従って、ユーザは始めから円滑な音声入力操作を行うことが可能となる。
また、上記対応関係に係る音声情報は、上記操作の開始を示す音声情報(起動ワード)または上記操作の内容を示す音声情報(操作ワード)を含む。ここで、起動ワードまたは操作ワードの認識性能は概して操作感に影響を与える。例えば、一度の発声で正確に認識される場合に比べて、複数回の発声でようやく正確に認識される場合には、ユーザが操作を煩雑に感じるおそれがある。これに対し、本実施形態によれば、起動ワードまたは操作ワードの認識性能が向上することにより、ユーザに煩わしさを感じさせるおそれを低下させることができる。また、処理時間の長期化も抑制されるため、発声に対する応答性が向上し、操作感をより向上させることができる。特に、起動ワードについて用意される対応関係は概して操作ワードよりも少なく、どの対応関係を使用辞書へ含ませるかが重要となるため、本実施形態に係る情報処理装置100−1を利用することがより有意義となる。
<1−4.変形例>
以上、本開示の第1の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
本実施形態の変形例として、情報処理装置100−1は、音声認識結果を利用して使用辞書を変更してもよい。具体的には、操作の客体情報は、音声認識処理により得られる情報であってもよく、制御部108は、認識された情報に基づいて使用辞書の変更を制御する。認識される操作の客体情報としては、操作内容が特定される情報があり、制御部108は、操作内容に応じて使用辞書の変更を制御する。例えば、ナビゲーションアプリケーションに対するある目的地への経路の提示要求についての音声「Navigate to」が認識されると、制御部108は、目的地を認識可能な対応関係を使用辞書へ追加するかまたは目的地を認識可能な辞書へ使用辞書を切り替える。
また、当該認識される操作の客体情報としては、操作対象が特定される情報がある。具体的には、操作対象としては、上述したアプリケーションまたは外部機器10などがある。例えば、制御部108は、アプリケーションの名前または種類が含まれる音声が認識されると、当該名前または種類のアプリケーションの操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。
また、制御部108は、外部機器10の名前または種類が含まれる音声が認識されると、当該名前または種類の外部機器10の操作について使用頻度が相対的に高い対応関係を使用辞書へ追加するかまたは当該対応関係を含む辞書へ使用辞書を切り替える。
また、操作対象は、音声認識エージェントであってもよい。例えば、制御部108は、音声認識エージェントの名前が含まれる音声が認識されると、当該音声認識エージェントに切り替える。
さらに、制御部108は、通知制御部として、使用辞書の変更についての音声入力操作の主体への通知を制御してよい。具体的には、制御部108は、情報処理装置100−1または情報処理装置100−1に接続される外部装置に、使用辞書が変更されたことを示す情報をユーザへ通知させる。なお、通知は、視覚的な通知、聴覚的な通知または触覚的な通知のいずれであってもよく、これらの組合せであってもよい。
例えば、制御部108は、操作内容について使用辞書が変更された場合、使用辞書の変更に応じた音をスピーカに出力させる。例えば、「Navigate to」という音声が認識され、使用辞書が変更されると、続きの目的地についての音声入力を促す作動音がスピーカから出力される。また、音声が認識された後であって作動音が出力される前に、認識された音声が出力されてもよい。すなわち、「Navigate to」という音声が出力されてよい。この場合、ユーザの意図通りに音声が認識されたかをユーザが把握できる。
また、例えば、制御部108は、アプリケーションについて使用辞書が変更された場合、使用辞書の変更に応じた表示オブジェクトをディスプレイに表示させる。例えば、アプリケーションについて使用辞書が変更されると、アプリケーションについて表示されている文字情報が変更される。
また、例えば、制御部108は、外部機器10について使用辞書が変更された場合、外部機器10に使用辞書の変更に応じた動作を行わせる。例えば、外部機器10について使用辞書が変更されると、当該外部機器10の発光部が発光させられたり、当該外部機器10が振動させられたりする。また、制御部108は、スピーカに当該外部機器10固有の音を出力させる。なお、当該スピーカは情報処理装置100−1に備えられてもよく、外部機器10などの情報処理装置100−1と接続される外部装置に備えられてもよい。
また、例えば、制御部108は、音声認識エージェントが変更された場合、変更先の音声認識エージェントに応じた応答を行わせる。例えば、音声認識エージェントが切り替えられると、音声認識エージェントに応じた文言が出力される。また、制御部108は、音声認識エージェントに応じてユーザへの返答に用いられる音声を切り替えてもよい。
さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、第1の実施形態に係る処理と実質的に同一である処理については説明を省略する。
(全体処理)
まず、図6を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図6は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
情報処理装置100−1は、音声が入力されたかを判定し(ステップS402)、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する(ステップS404)。
次に、情報処理装置100−1は、客体情報が認識されたかを判定し(ステップS406)、客体情報が認識されたと判定されると、当該客体情報に基づいて使用辞書を変更する(ステップS408)。具体的には、制御部108は、音声認識部104により生成された文字情報に客体情報を示す文字情報が含まれるかを判定する。客体情報を示す文字情報が生成された文字情報に含まれると判定されると、制御部108は、当該客体情報に基づいて使用辞書を変更する。なお、詳細については後述する。
次に、情報処理装置100−1は、使用辞書の変更を通知する(ステップS410)。具体的には、制御部108は、使用辞書が変更された旨を視覚的、聴覚的または触覚的にユーザに通知する。
次に、情報処理装置100−1は、音声が入力されたかを判定し(ステップS412)、音声が入力されたと判定されると、変更後の使用辞書に基づいて音声認識処理を実行する(ステップS414)。そして、情報処理装置100−1は、認識結果に応じて後続処理を実行する(ステップS416)。
(辞書変更処理)
続いて、図7を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図7は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
情報処理装置100−1は、アプリケーションが認識されたかを判定する(ステップS422)。具体的には、制御部108は、音声認識部104により生成される文字情報にアプリケーションの名前または種類を示す文字情報が含まれるかを判定する。
アプリケーションが認識されたと判定されると、情報処理装置100−1は、当該アプリケーションについての対応関係の使用情報を取得する(ステップS424)。具体的には、制御部108は、認識されたアプリケーションについての対応関係の使用頻度および使用可否を記憶部106などから取得する。
また、情報処理装置100−1は、外部機器10が認識されたかを判定する(ステップS426)。具体的には、制御部108は、音声認識部104により生成される文字情報に外部機器10の名前または種類を示す文字情報が含まれるかを判定する。
外部機器10が認識されたと判定されると、情報処理装置100−1は、当該外部機器10についての対応関係の使用情報を取得する(ステップS428)。具体的には、制御部108は、認識された外部機器10についての対応関係の使用頻度および使用可否を示す情報を記憶部106などから取得する。
次に、情報処理装置100−1は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する(ステップS430)。具体的には、制御部108は、認識されたアプリケーションまたは外部機器10についての対応関係のうちの使用辞書に存在しない対応関係よりも使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定する。
また、情報処理装置100−1は、使用が許可されない対応関係が使用辞書に存在するかを判定する(ステップS432)。具体的には、制御部108は、認識されたアプリケーションまたは外部機器10についての対応関係のうちの使用が許可されない対応関係が使用辞書に存在するかを判定する。
使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置100−1は、使用辞書を変更する(ステップS434)。具体的には、制御部108は、使用頻度が相対的に低い対応関係または使用が許可されない対応関係を、使用頻度が相対的に高い対応関係または使用が許可される対応関係に入れ替える。
また、情報処理装置100−1は、操作内容が認識されたかを判定する(ステップS436)。具体的には、制御部108は、音声認識部104により生成される文字情報に操作内容を示す文字情報が含まれるかを判定する。
操作内容が認識されたと判定されると、情報処理装置100−1は、操作内容に対応する辞書へ使用辞書を変更する(ステップS438)。具体的には、制御部108は、認識された操作内容に対応する辞書が使用辞書である音声認識部を音声認識処理の実行主体として決定する。
また、情報処理装置100−1は、音声認識エージェントが認識されたかを判定する(ステップS440)。具体的には、制御部108は、音声認識部104により生成される文字情報に音声認識エージェントを示す文字情報が含まれるかを判定する。
音声認識エージェントが認識されたと判定されると、情報処理装置100−1は、音声認識エージェントを変更する(ステップS442)。具体的には、制御部108は、認識された音声認識エージェントに使用する音声認識エージェントを変更する。
このように、本実施形態の変形例によれば、操作の客体情報は、音声認識処理により得られる情報を含む。このため、ユーザにより入力された音声に基づいて使用辞書を変更することができる。従って、使用辞書をより確実にユーザの意図する操作に適した辞書に変更することが可能となる。
また、情報処理装置100−1は、上記対応関係の変更についての音声入力操作の主体への通知を制御する。このため、使用辞書の変更がユーザに通知されることにより、ユーザは音声入力の準備ができたことを知ることができる。従って、使用辞書が変更される前にユーザにより音声入力が行われることによる音声認識の失敗を回避することが可能となる。これにより、ユーザが不満またはストレスを感じることを抑制できる。
<2.第2の実施形態(音声入力操作の主体情報に基づく音声認識辞書の変更)>
以上、本開示の第1の実施形態および変形例について説明した。次に、本開示の第2の実施形態について説明する。第2の実施形態では、情報処理システムは、音声入力操作の主体情報に基づいて音声認識辞書の変更を制御する。
<2−1.システムの構成>
図8を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図8は、本開示の第2の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。なお、第1の実施形態の機能と実質的に同一の機能については説明を省略する。
(情報処理装置)
情報処理装置100−2は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110に加えて、主体認識部120および観察部122を備える。
(制御部)
制御部108は、音声入力を用いた操作の主体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。具体的には、制御部108は、音声入力操作の主体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。例えば、制御部108は、音声入力操作の主体情報から推定される、音声認識処理における使用頻度または使用可否に基づいて入れ替え対象の対応関係を決定する。そして、制御部108は、決定された対応関係を入れ替える。
ここで、音声入力操作の主体情報は、当該音声入力操作の主体について取得される情報に基づいて推定される情報である。当該音声入力操作の主体情報としては、当該操作の主体の態様が特定される情報がある。当該操作の主体の態様としては、当該操作の主体の行動がある。例えば、制御部108は、主体認識部120により生成されるユーザの行動が特定される情報を取得し、取得された情報から特定されるユーザの行動中に行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された行動がランニングである場合、「ワークアウトを一時停止」または「ワークアウトを再開」などのワードに係る対応関係が使用辞書へ追加される。認識された行動がサイクリングである場合、「次はどちらの道?」または「平均速度はいくら?」などのワードに係る対応関係が使用辞書へ追加される。認識された行動が自動車の運転である場合、「道順を教えて」または「サイドミラーを動かして」などのワードに係る対応関係が使用辞書へ追加される。
また、当該操作の主体の態様としては、当該操作の主体の姿勢がある。例えば、制御部108は、主体認識部120により生成されるユーザの姿勢が特定される情報を取得し、取得された情報から特定されるユーザの姿勢で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された姿勢が仰向けである場合、「目覚まし止めて」または「照明を消して」などのワードに係る対応関係が使用辞書へ追加される。
また、当該操作の主体の態様としては、当該操作の主体の位置がある。例えば、制御部108は、主体認識部120により生成されるユーザの位置が特定される情報を取得し、取得された情報から特定されるユーザの位置で行われることが推定される操作において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された位置が電車内である場合、「あと何駅で乗り換え?」または「マナーモードに設定して」などのワードに係る対応関係が使用辞書へ追加される。なお、当該操作の主体の位置は、地理的情報のほか、建物名、施設名または地名などのランドマークを示す情報または地形を示す情報であってもよい。
また、例えば、制御部108は、ユーザの位置において用いられる頻度が相対的に高い言語のワードに係る対応関係を使用辞書へ追加してもよい。詳細には、認識された位置が米国内である場合、英語のワードに係る対応関係が使用辞書へ追加される。認識された位置が大阪である場合、関西弁のワードに係る対応関係が使用辞書へ追加される。
さらに、音声入力操作の主体情報は、当該音声入力操作の主体の周辺環境が特定される情報であってもよい。具体的には、当該操作の主体の周辺環境としては、騒音がある。例えば、制御部108は、主体認識部120により生成されるユーザ周辺の騒音が推定される情報を取得し、取得された情報から推定されるユーザ周辺の騒音の程度に応じて音声認識処理において用いられる頻度が相対的に高い操作ワードに係る対応関係を使用辞書へ追加する。詳細には、認識された騒音の程度が閾値以上である場合、擬音などのワードに係る対応関係が許可されない対応関係として使用辞書から抜き出される。
なお、使用辞書へ追加される対応関係は、音声入力操作の主体情報に基づいて決定される対応関係のうちの一部であってもよい。また、複数の主体情報に基づいて使用辞書が変更されてもよい。例えば、制御部108は、ユーザが電車内で電子書籍を読んでいる場合には、ユーザの位置および行動について使用辞書を変更してよい。また、制御部108は、複数の主体情報のうちの一部の主体情報についてのみ使用辞書を変更してもよい。また、制御部108は、音声入力を用いた操作の主体情報に基づいて、使用辞書の変更を制御してよい。
(主体認識部)
主体認識部120は、音声入力操作の主体についての認識処理を行う。具体的には、主体認識部120は、観察部122から得られる情報に基づいてユーザの行動、姿勢または位置を認識する。例えば、主体認識部120は、観察部122から得られる加速度もしくは角速度などの慣性情報、GPS(Global Positioning System)情報または画像情報に基づいてユーザの行動、姿勢または位置を認識する。なお、観察部122から得られる情報に加えて、通信部110を介して外部装置から得られる情報が用いられてもよい。例えば、外部装置の有するユーザのスケジュール情報が用いられてよい。
(観察部)
観察部122は、音声入力操作の主体についての観察を行う。具体的には、観察部122は、ユーザの動き、姿勢または位置を観察する。例えば、観察部122は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサを用いてユーザについての慣性情報、位置情報または画像情報を生成する。
<2−2.システムの処理>
次に、本実施形態に係る情報処理システムの処理について説明する。なお、第1の実施形態の処理と実質的に同一である処理については説明を省略する。
(全体処理)
まず、図9を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図9は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
情報処理装置100−2は、音声入力操作の主体情報を取得する(ステップS502)。具体的には、主体認識部120は、観察部122から得られる慣性情報、位置情報または画像情報に基づいてユーザの行動、姿勢、位置または周辺環境についての認識処理を行う。そして、制御部108は、主体認識部120により認識されたユーザの行動、姿勢、位置または周辺環境に係る情報を取得する。
次に、情報処理装置100−2は、主体情報について変化が生じたかを判定する(ステップS504)。具体的には、制御部108は、主体認識部120から得られた情報に基づいてユーザの行動、姿勢、位置または周辺環境が変化したかを判定する。
主体情報について変化が生じたと判定されると、情報処理装置100−2は、主体情報に基づいて使用辞書を変更する(ステップS506)。具体的には、制御部108は、変化に係る行動、姿勢、位置または周辺環境について使用辞書を変更する。なお、詳細については後述する。
次に、情報処理装置100−2は、音声が入力されたかを判定し(ステップS508)、音声が入力されたと判定されると、使用辞書に基づいて音声認識処理を実行する(ステップS510)。そして、情報処理装置100−2は、音声認識結果に応じて後続処理を実行する(ステップS512)。
(辞書変更処理)
続いて、図10を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図10は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
情報処理装置100−2は、変化した態様がユーザの行動であるかを判定し(ステップS522)、ユーザの行動が変化したと判定されると、変化後のユーザの行動についての対応関係の使用情報を取得する(ステップS524)。具体的には、制御部108は、主体認識部120により認識されたユーザの行動が以前に認識された行動から変化したと判定されると、制御部108は、変化後のユーザの行動についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
また、情報処理装置100−2は、変化した態様がユーザの姿勢であるかを判定し(ステップS526)、ユーザの姿勢が変化したと判定されると、変化後のユーザの姿勢についての対応関係の使用情報を取得する(ステップS528)。具体的には、制御部108は、主体認識部120により認識されたユーザの姿勢が以前に認識された姿勢から変化したと判定されると、制御部108は、変化後のユーザの姿勢についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
また、情報処理装置100−2は、変化した態様がユーザの位置であるかを判定し(ステップS530)ユーザの位置が変化したと判定されると、変化後のユーザの位置についての対応関係の使用情報を取得する(ステップS532)。具体的には、制御部108は、主体認識部120により認識されたユーザの位置が以前に認識された位置から変化したと判定されると、制御部108は、変化後のユーザの位置についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
また、情報処理装置100−2は、変化した態様がユーザの周辺環境であるかを判定し(ステップS534)、ユーザの周辺環境が変化したと判定されると、変化後のユーザの周辺環境についての対応関係の使用情報を取得する(ステップS536)。具体的には、制御部108は、主体認識部120により認識されたユーザの周辺環境が以前に認識された周辺環境から変化したと判定されると、制御部108は、変化後のユーザの周辺環境についての対応関係の使用頻度および使用可否を記憶部106などから取得する。
次に、情報処理装置100−2は、使用頻度が相対的に低い対応関係が使用辞書に存在するかを判定し(ステップS538)、さらに使用が許可されない対応関係が使用辞書に存在するかを判定する(ステップS440)。そして、使用頻度が相対的に低い対応関係または使用が許可されない対応関係が使用辞書に存在すると判定されると、情報処理装置100−2は、使用辞書を変更する(ステップS542)。
<2−3.第2の実施形態のまとめ>
このように本開示の第2の実施形態によれば、情報処理装置100−2は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の主体情報に基づいて制御する。このため、上述したように、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。
また、上記操作の主体情報は、当該操作の主体の態様が特定される情報を含む。このため、音声入力操作を行うユーザの態様に基づいて使用辞書の内容を適正化することができる。従って、入力される音声が正しく認識され易くなり、認識性能を効果的に向上させることができる。
また、上記操作の主体の態様は、当該操作の主体の行動、姿勢または位置を含む。このため、認識されたユーザの行動、姿勢または位置において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。
また、上記操作の主体情報は、当該操作の主体の周辺環境が特定される情報を含む。このため、認識されたユーザの周辺環境において音声認識されることが所望される音声に係る対応関係を有する使用辞書を用意することができる。従って、ユーザの意図通りに音声が認識されやすくなり、当該音声入力操作を円滑化することが可能となる。
<2−4.変形例>
以上、本開示の第2の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
本実施形態の変形例として、音声入力操作の主体情報は、当該音声入力操作の主体が特定される情報であってもよい。具体的には、主体認識部120は、音声入力部102から提供される情報に基づいて音声入力操作の主体を特定する。そして、制御部108は、主体認識部120により特定された主体に応じた辞書へ使用辞書を変更する。例えば、主体認識部120は、音声入力部102から提供された音声情報に基づいて音声情報に係る音声の発声者を特定する。なお、発声者の特定には声紋解析技術などが利用されてよい。そして、制御部108は、主体認識部120により特定された発声者に対応する辞書または対応関係の組を記憶部106などから取得する。制御部108は、使用辞書を取得された辞書へ変更するかまたは使用辞書の一部を取得された対応関係の組と入れ替える。
これにより、例えば家族で情報処理装置100−2が共有される場合、父親が情報処理装置100−2を利用するときには、父親の音声が認識されやすい辞書へ使用辞書が変更され、母親が情報処理装置100−2を利用するときには、母親の音声が認識されやすい辞書へ使用辞書が変更される。また、父親用に設定された対応関係が母親用の辞書に含まれないように使用辞書が変更されてもよい。
また、当該音声入力操作の主体の有する操作対象について使用辞書が変更されてもよい。例えば、制御部108は、特定された発声者すなわちユーザが所有者である外部機器10またはアプリケーションについて使用辞書が変更されてよい。
なお、発声者に対応する辞書または対応関係の組が予め設定されてよい。例えば、ユーザにより辞書または対応関係の組が事前に設定されてよい。また、当然ながら、当該辞書または対応関係の組の設定は事後的に変更されてもよい。また、当該辞書または対応関係の組の設定は自動的に行われてもよい。例えば、ユーザ毎に使用辞書および音声認識結果について機械学習を行うことにより、ユーザ毎に使用頻度が高い辞書または対応関係の組の設定が生成されてよい。
また、音声入力操作の主体情報は、当該音声入力操作の主体の属性が特定される情報であってもよい。具体的には、制御部108は、特定され当該主体の属性に応じた辞書へ使用辞書を変更する。当該主体の属性としては、年齢、性別、骨格、人種、住所または出身地などがある。詳細には、ユーザの年齢については、該当する年齢層で共通する話し方に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。また、ユーザの出身地については、該当する地域の方言に応じたワードに係る対応関係を含む辞書へ使用辞書が変更される。
さらに、本実施形態の変形例に係る情報処理システムの処理について説明する。なお、上記実施形態に係る処理と実質的に同一である処理については説明を省略する。
(全体処理)
まず、図11を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図11は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
情報処理装置100−2は、音声が入力されたかを判定し(ステップS602)、音声が入力されたと判定されると、入力された音声に基づいて主体情報を取得する(ステップS604)。具体的には、主体認識部120は、音声入力部102により音声情報が提供されると、音声情報に基づいて主体または主体の属性を判定する。
次に、情報処理装置100−2は、主体情報について変化が生じたかを判定する(ステップS606)。具体的には、制御部108は、主体認識部120の判定により主体または主体の属性が特定される情報が提供されると、当該情報に基づいて主体または主体の属性が変化したかを判定する。
主体情報について変化が生じたと判定されると、情報処理装置100−2は、主体情報に基づいて使用辞書を変更する(ステップS608)。具体的には、制御部108は、主体または主体の属性が変化したと判定されると、変化後の主体または主体の属性について使用辞書を変更する。なお、詳細については後述する。
次に、情報処理装置100−2は、使用辞書の変更を通知し(ステップS610)、音声が入力されると(ステップS612)、変更後の使用辞書に基づいて音声認識処理を実行する(ステップS614)。そして、情報処理装置100−2は、認識結果に応じて後続処理を実行する(ステップS616)。
(辞書変更処理)
続いて、図12を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図12は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
情報処理装置100−2は、ユーザの属性が変化したかを判定し(ステップS622)、ユーザの属性が変化したと判定されると、変化後のユーザの属性に対応する辞書を取得する(ステップS624)。具体的には、制御部108は、主体認識部120により認識されたユーザの属性が以前に認識されたユーザの属性と異なる属性に変化したと判定されると、制御部108は、変化後のユーザの属性に対応する辞書を記憶部106などから取得する。
また、情報処理装置100−2は、ユーザが変化したかを判定し(ステップS626)、ユーザが変化したと判定されると、変化後のユーザに対応する辞書を取得する(ステップS628)。具体的には、制御部108は、主体認識部120により認識されたユーザが以前に認識されたユーザと異なる属性に変化したと判定されると、制御部108は、変化後のユーザに対応する辞書を記憶部106などから取得する。
そして、情報処理装置100−2は、使用辞書を変更する(ステップS630)。具体的には、制御部108は、使用辞書を取得された辞書へ変更する。
このように、本実施形態の変形例によれば、音声入力操作の主体情報は、当該音声入力操作の主体または当該主体の属性が特定される情報を含む。このため、音声入力操作の主体に適した使用辞書を用意することができる。従って、入力される音声が正しく認識されやすくなり、認識性能を効果的に向上させることが可能となる。さらに、ユーザ個人に対応する使用辞書が用意される場合には、ユーザの使い勝手または操作感を向上させることが可能となる。
なお、上記では音声情報に基づいて主体または主体の属性が特定される例を説明したが、画像情報に基づいて主体または主体の属性が特定されてもよい。例えば、顔認識技術などを用いて個々のユーザまたはユーザの属性が特定されてよい。
<3.本開示の一実施形態に係る情報処理装置のハードウェア構成>
以上、本開示の各実施形態に係る情報処理装置100について説明した。上述した情報処理装置100の処理は、ソフトウェアと、以下に説明する情報処理装置100のハードウェアとの協働により実現される。
図13は、本開示の一実施形態に係る情報処理装置100のハードウェア構成を示した説明図である。図13に示したように、情報処理装置100は、プロセッサ132、メモリ134、ブリッジ136、バス138、インタフェース140、入力装置142、出力装置144、測定装置146、ドライブ148、接続ポート150および通信装置152を備える。
(プロセッサ)
プロセッサ132は、演算処理装置として機能し、各種プログラムと協働して情報処理装置100内の音声認識部104、制御部108および主体認識部120の機能を実現する。プロセッサ132は、制御回路を用いてメモリ134または他の記憶媒体に記憶されるプログラムを実行することにより、情報処理装置100の様々な論理的機能を動作させる。例えば、プロセッサ132は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)またはSoC(System-on-a-Chip)であり得る。
(メモリ)
メモリ134は、プロセッサ132が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ134は、RAM(Random Access Memory)を含み、プロセッサ132の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ134は、ROM(Read Only Memory)を含み、RAMおよびROMにより記憶部の機能を実現する。なお、接続ポート150または通信装置152などを介して外部のストレージ装置がメモリ134の一部として利用されてもよい。
なお、プロセッサ132およびメモリ134は、CPUバスなどから構成される内部バスにより相互に接続されている。
(ブリッジおよびバス)
ブリッジ136は、バス間を接続する。具体的には、ブリッジ136は、プロセッサ132およびメモリ134が接続される内部バスと、インタフェース140と接続するバス138と、を接続する。
(入力装置)
入力装置142は、ユーザが情報処理装置100を操作しまたは情報処理装置100へ情報を入力するために使用され、音声入力部102の機能を実現する。例えば、入力装置142は、ユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ132に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチ、レバーまたはマイクロフォンなどであってもよい。情報処理装置100のユーザは、入力装置142を操作することにより、情報処理装置100に対して各種のデータを入力したり処理動作を指示したりすることができる。
(出力装置)
出力装置144は、ユーザに情報を通知するために使用され、入出力部の機能を実現する。出力装置144は、表示装置または音出力装置であってよい。例えば、出力装置144は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置または当該装置への出力を行うモジュールであってよい。
なお、入力装置142または出力装置144は、入出力装置を含んでよい。例えば、入出力装置は、タッチスクリーンであってよい。
(測定装置)
測定装置146は、情報処理装置100および情報処理装置100の周辺において発生する現象についての測定を行い、情報処理装置100の観察部122の動作を実現する。例えば、当該測定装置146は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサであってよい。なお、測定装置146は、気温、湿度もしくは気圧などを測定する環境センサまたは体温、脈拍もしくは発汗などを測定する生体センサを含んでもよく、複数の種類のセンサが含まれてもよい。
(ドライブ)
ドライブ148は、記憶媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ148は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出して、メモリ134に出力する。また、ドライブ148は、リムーバブル記憶媒体に情報を書込むこともできる。
(接続ポート)
接続ポート150は、機器を情報処理装置100に直接接続するためのポートである。例えば、接続ポート150は、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート150は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート150に外部機器を接続することで、情報処理装置100と当該外部機器との間でデータが交換されてもよい。
(通信装置)
通信装置152は、情報処理装置100と外部装置との間の通信を仲介し、通信部110の機能を実現する。具体的には、通信装置152は、無線通信方式または有線通信方式に従って通信を実行する。例えば、通信装置152は、WCDMA(登録商標)(Wideband Code Division Multiple Access)、WiMAX(登録商標)、LTE(Long Term Evolution)もしくはLTE−Aなどのセルラ通信方式に従って無線通信を実行する。なお、通信装置152は、Bluetooth(登録商標)、NFC(Near Field Communication)、ワイヤレスUSBもしくはTransferJet(登録商標)などの近距離無線通信方式、またはWi−Fi(登録商標)などの無線LAN(Local Area Network)方式といった、任意の無線通信方式に従って無線通信を実行してもよい。また、通信装置152は、信号線通信または有線LAN通信などの有線通信を実行してよい。
なお、情報処理装置100は、図13を用いて説明した構成の一部を有しなくてもよく、または任意の追加的な構成を有していてもよい。また、図13を用いて説明した構成の全体または一部を集積したワンチップの情報処理モジュールが提供されてもよい。
<4.むすび>
以上、本開示の第1の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。
また、本開示の第2の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、上記実施形態では、情報処理システムすなわち情報処理装置100およびサーバ200が処理を行うとしたが、本技術はかかる例に限定されない。例えば、情報処理装置100が単体で処理を行ってもよい。また、情報処理装置100は、アクセススピードおよび記憶容量が異なる複数のメモリを備え、当該複数のメモリを用いて上述したような情報処理装置100とサーバ200とを用いた処理が実現されてもよい。例えば、情報処理装置100は第1のメモリおよび第2のメモリを備える。第1のメモリについては、アクセススピードは第2のメモリよりも速いが記憶容量は第2のメモリより小さい。また、第2のメモリについては、アクセススピードは第1のメモリよりも遅いが記憶容量は第1のメモリよりも大きい。そして、情報処理装置100は、使用辞書としてまず第1のメモリに記憶される辞書を利用し、第1のメモリに記憶される辞書において音声認識が失敗すると、第2のメモリに記憶される辞書を使用辞書として利用する。当然ながら、第1のメモリおよび第2のメモリに記憶される辞書は上述したような辞書変更処理により適正化される。このように、アクセススピードおよび記憶容量が異なる複数のメモリが用いられることにより、音声入力に対する処理のレスポンスの高速化と音声認識の成功率の維持または向上とを両立させることができる。特に、上述したような構成は、情報処理装置100が単体で処理を行う場合に有意義である。
また、上記実施形態では、音声入力操作の客体情報または主体情報の各々についてそれぞれ使用辞書が変更される例を説明したが、当該客体情報および主体情報の組合せについて使用辞書が変更されてもよい。
さらに、当該客体情報または主体情報に加えて、時間情報が使用辞書の変更に用いられてもよい。時間情報としては、時分、日付、曜日、昼夜または季節などがある。例えば、情報処理装置100は、起動中のアプリケーションおよび時間帯の組合せに対応する辞書または当該組合せに対応する対応関係を含む辞書に使用辞書を変更してよい。この場合、さらに詳細な状況に応じて使用辞書が変更されることにより、より音声が正しく認識されやすくすることができる。従って、認識性能をさらに向上させることが可能となる。
また、上記実施形態では、使用辞書へ対応関係が入れ替えられる例を主に説明したが、使用辞書から対応関係が抜き出されるだけであってもよい。例えば、認識性能の低下または処理時間の長期化が推定される場合、情報処理装置100は、使用頻度が相対的に低い対応関係を使用辞書から抜き出す。これにより、使用辞書における対応関係の数が減るため、誤認識の発生するおそれを低下させることができる。また、処理時間すなわちレスポンスも短縮することができる。
また、上記実施形態では、使用辞書が変更される例を主に説明したが、使用辞書は変更されなくてもよい。例えば、入れ替えられるべき対応関係が存在しない場合には、情報処理装置100は、使用辞書の変更を中止してよい。
また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
また、上記の実施形態のフローチャートに示されたステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的にまたは個別的に実行される処理をも含む。また時系列的に処理されるステップでも、場合によっては適宜順序を変更することが可能であることは言うまでもない。
また、情報処理装置100に内蔵されるハードウェアに上述した情報処理装置100の各機能構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムが記憶された記憶媒体も提供される。
なお、以下のような構成も本開示の技術的範囲に属する。
(1)
音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。
(2)
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
前記(1)に記載の情報処理装置。
(3)
前記使用情報は、使用頻度が特定される情報を含む、
前記(2)に記載の情報処理装置。
(4)
前記使用情報は、使用可否が特定される情報を含む、
前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
前記(5)に記載の情報処理装置。
(7)
前記対応関係は、通信を介して変更される、
前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
前記(1)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記操作対象は、アプリケーションまたは機器を含む、
前記(8)に記載の情報処理装置。
(10)
前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
前記(1)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
前記(11)に記載の情報処理装置。
(13)
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
前記(1)〜(15)のいずれか1項に記載の情報処理装置。
(17)
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
前記(1)〜(17)のいずれか1項に記載の情報処理装置。
(19)
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。
(20)
音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。
100 情報処理装置
102 音声入力部
104 音声認識部
106 記憶部
108 制御部
110 通信部
120 主体認識部
122 観察部
200 サーバ

Claims (20)

  1. 音声入力により得られる音声情報を得る取得部と、
    音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
    を備える情報処理装置。
  2. 変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
    請求項1に記載の情報処理装置。
  3. 前記使用情報は、使用頻度が特定される情報を含む、
    請求項2に記載の情報処理装置。
  4. 前記使用情報は、使用可否が特定される情報を含む、
    請求項2に記載の情報処理装置。
  5. 前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
    請求項1に記載の情報処理装置。
  6. 前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
    請求項5に記載の情報処理装置。
  7. 前記対応関係は、通信を介して変更される、
    請求項1に記載の情報処理装置。
  8. 前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
    請求項1に記載の情報処理装置。
  9. 前記操作対象は、アプリケーションまたは機器を含む、
    請求項8に記載の情報処理装置。
  10. 前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
    請求項1に記載の情報処理装置。
  11. 前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
    請求項1に記載の情報処理装置。
  12. 前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
    請求項11に記載の情報処理装置。
  13. 前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
    請求項1に記載の情報処理装置。
  14. 前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
    請求項1に記載の情報処理装置。
  15. 前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
    請求項1に記載の情報処理装置。
  16. 前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
    請求項1に記載の情報処理装置。
  17. 前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
    請求項1に記載の情報処理装置。
  18. 前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
    請求項1に記載の情報処理装置。
  19. プロセッサを用いて、
    音声入力により得られる音声情報を得ることと、
    音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
    を含む情報処理方法。
  20. 音声入力により得られる音声情報を得る取得機能と、
    音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
    をコンピュータに実現させるためのプログラム。
JP2018511925A 2016-04-11 2017-03-06 情報処理装置、情報処理方法およびプログラム Active JP6930531B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2016079005 2016-04-11
JP2016079005 2016-04-11
PCT/JP2017/008644 WO2017179335A1 (ja) 2016-04-11 2017-03-06 情報処理装置、情報処理方法およびプログラム

Publications (2)

Publication Number Publication Date
JPWO2017179335A1 true JPWO2017179335A1 (ja) 2019-02-14
JP6930531B2 JP6930531B2 (ja) 2021-09-01

Family

ID=60041683

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2018511925A Active JP6930531B2 (ja) 2016-04-11 2017-03-06 情報処理装置、情報処理方法およびプログラム

Country Status (5)

Country Link
US (1) US20210193133A1 (ja)
EP (1) EP3444808A4 (ja)
JP (1) JP6930531B2 (ja)
KR (1) KR20180134337A (ja)
WO (1) WO2017179335A1 (ja)

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108538298B (zh) * 2018-04-04 2021-05-04 科大讯飞股份有限公司 语音唤醒方法及装置
JP7132974B2 (ja) * 2020-05-19 2022-09-07 Necパーソナルコンピュータ株式会社 映像表示装置

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
US20040260438A1 (en) * 2003-06-17 2004-12-23 Chernetsky Victor V. Synchronous voice user interface/graphical user interface
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
JP2008026464A (ja) * 2006-07-19 2008-02-07 Denso Corp 車両用音声認識装置
US20090204392A1 (en) * 2006-07-13 2009-08-13 Nec Corporation Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method
WO2014159581A1 (en) * 2013-03-12 2014-10-02 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US20150254058A1 (en) * 2014-03-04 2015-09-10 Microsoft Technology Licensing, Llc Voice control shortcuts
JP2015526753A (ja) * 2012-06-15 2015-09-10 本田技研工業株式会社 深度に基づく場面認識

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN101326571B (zh) * 2005-12-07 2012-05-23 三菱电机株式会社 声音识别装置

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004086150A (ja) * 2002-06-28 2004-03-18 Denso Corp 音声制御装置
US20040260438A1 (en) * 2003-06-17 2004-12-23 Chernetsky Victor V. Synchronous voice user interface/graphical user interface
JP2005284543A (ja) * 2004-03-29 2005-10-13 Chugoku Electric Power Co Inc:The 業務支援システム及び方法
US20090204392A1 (en) * 2006-07-13 2009-08-13 Nec Corporation Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method
JP2008026464A (ja) * 2006-07-19 2008-02-07 Denso Corp 車両用音声認識装置
JP2015526753A (ja) * 2012-06-15 2015-09-10 本田技研工業株式会社 深度に基づく場面認識
WO2014159581A1 (en) * 2013-03-12 2014-10-02 Nuance Communications, Inc. Methods and apparatus for detecting a voice command
US20150254058A1 (en) * 2014-03-04 2015-09-10 Microsoft Technology Licensing, Llc Voice control shortcuts

Also Published As

Publication number Publication date
EP3444808A4 (en) 2019-05-01
KR20180134337A (ko) 2018-12-18
JP6930531B2 (ja) 2021-09-01
WO2017179335A1 (ja) 2017-10-19
EP3444808A1 (en) 2019-02-20
US20210193133A1 (en) 2021-06-24

Similar Documents

Publication Publication Date Title
KR102404702B1 (ko) 크로스-디바이스 핸드오프
US11217230B2 (en) Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user
US20170323641A1 (en) Voice input assistance device, voice input assistance system, and voice input method
US10310808B2 (en) Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices
JP2007017731A (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法
US9405504B2 (en) Information communication terminal and dialogue presentation method
JP2014174485A (ja) 情報通信端末、およびその対話方法
KR20210040856A (ko) 스마트 백미러의 인터랙션 방법, 장치, 전자기기와 저장매체
WO2016174955A1 (ja) 情報処理装置、及び、情報処理方法
JP6930531B2 (ja) 情報処理装置、情報処理方法およびプログラム
CN111752686A (zh) 智能体装置、智能体装置的控制方法及存储介质
US20170017497A1 (en) User interface system, user interface control device, user interface control method, and user interface control program
US9791925B2 (en) Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle
US20200262445A1 (en) Agent device, and method for controlling agent device
JP2020144264A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020160135A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2022153363A (ja) サーバ装置及び情報処理方法並びにサーバプログラム
US11797261B2 (en) On-vehicle device, method of controlling on-vehicle device, and storage medium
US20180096698A1 (en) Processing result error detection device, processing result error detection program, processing result error detection method, and moving entity
JP7175221B2 (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020152298A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JP2020154942A (ja) エージェント装置、エージェント装置の制御方法、およびプログラム
JPWO2010073406A1 (ja) 情報提供装置、通信端末、情報提供システム、情報提供方法、情報出力方法、情報提供プログラム、情報出力プログラムおよび記録媒体
EP3745236A1 (en) Information processing device and information processing method
JP2020160133A (ja) エージェントシステム、エージェントシステムの制御方法、およびプログラム

Legal Events

Date Code Title Description
RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190208

RD03 Notification of appointment of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7423

Effective date: 20190214

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190222

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20190515

RD04 Notification of resignation of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7424

Effective date: 20190522

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20200116

A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20200116

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20201117

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210112

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20210323

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20210420

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20210713

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20210726

R151 Written notification of patent or utility model registration

Ref document number: 6930531

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151