JPWO2017179335A1 - 情報処理装置、情報処理方法およびプログラム - Google Patents
情報処理装置、情報処理方法およびプログラム Download PDFInfo
- Publication number
- JPWO2017179335A1 JPWO2017179335A1 JP2018511925A JP2018511925A JPWO2017179335A1 JP WO2017179335 A1 JPWO2017179335 A1 JP WO2017179335A1 JP 2018511925 A JP2018511925 A JP 2018511925A JP 2018511925 A JP2018511925 A JP 2018511925A JP WO2017179335 A1 JPWO2017179335 A1 JP WO2017179335A1
- Authority
- JP
- Japan
- Prior art keywords
- information
- processing apparatus
- voice
- dictionary
- information processing
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 229
- 238000003672 processing method Methods 0.000 title claims abstract description 5
- 238000012545 processing Methods 0.000 claims abstract description 119
- 230000008859 change Effects 0.000 claims abstract description 98
- 238000000034 method Methods 0.000 claims description 90
- 230000008569 process Effects 0.000 claims description 79
- 238000004891 communication Methods 0.000 claims description 50
- 230000009471 action Effects 0.000 claims description 11
- 230000006872 improvement Effects 0.000 abstract description 11
- 230000009467 reduction Effects 0.000 abstract description 9
- 230000007246 mechanism Effects 0.000 abstract description 3
- 230000015654 memory Effects 0.000 description 29
- 230000004048 modification Effects 0.000 description 25
- 238000012986 modification Methods 0.000 description 25
- 239000003795 chemical substances by application Substances 0.000 description 14
- 230000006870 function Effects 0.000 description 14
- 230000006399 behavior Effects 0.000 description 12
- 230000004913 activation Effects 0.000 description 10
- 238000010586 diagram Methods 0.000 description 8
- 230000002035 prolonged effect Effects 0.000 description 6
- 230000004044 response Effects 0.000 description 6
- 230000000694 effects Effects 0.000 description 5
- 238000005516 engineering process Methods 0.000 description 5
- 230000007257 malfunction Effects 0.000 description 5
- 230000001133 acceleration Effects 0.000 description 3
- 230000007423 decrease Effects 0.000 description 3
- 238000004519 manufacturing process Methods 0.000 description 3
- 230000001629 suppression Effects 0.000 description 3
- 238000004590 computer program Methods 0.000 description 2
- 238000011156 evaluation Methods 0.000 description 2
- 238000000605 extraction Methods 0.000 description 2
- 238000003384 imaging method Methods 0.000 description 2
- 238000005259 measurement Methods 0.000 description 2
- 230000003287 optical effect Effects 0.000 description 2
- 230000001151 other effect Effects 0.000 description 2
- 238000004458 analytical method Methods 0.000 description 1
- 230000036760 body temperature Effects 0.000 description 1
- 230000010267 cellular communication Effects 0.000 description 1
- 230000001351 cycling effect Effects 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 239000000284 extract Substances 0.000 description 1
- 238000012905 input function Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000003993 interaction Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000010801 machine learning Methods 0.000 description 1
- 239000000203 mixture Substances 0.000 description 1
- 230000004043 responsiveness Effects 0.000 description 1
- 239000004065 semiconductor Substances 0.000 description 1
- 230000005236 sound signal Effects 0.000 description 1
- 210000004243 sweat Anatomy 0.000 description 1
- 238000012876 topography Methods 0.000 description 1
- 230000000007 visual effect Effects 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
-
- G—PHYSICS
- G06—COMPUTING; CALCULATING OR COUNTING
- G06F—ELECTRIC DIGITAL DATA PROCESSING
- G06F3/00—Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
- G06F3/16—Sound input; Sound output
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/223—Execution procedure of a spoken command
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/225—Feedback of the input speech
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/228—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of application context
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Health & Medical Sciences (AREA)
- Human Computer Interaction (AREA)
- Computational Linguistics (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Theoretical Computer Science (AREA)
- General Engineering & Computer Science (AREA)
- General Physics & Mathematics (AREA)
- General Health & Medical Sciences (AREA)
- User Interface Of Digital Computer (AREA)
- Navigation (AREA)
Abstract
Description
1.第1の実施形態(音声入力操作の客体情報に基づく音声認識辞書の変更)
1−1.システムの構成
1−2.システムの処理
1−3.第1の実施形態のまとめ
1−4.変形例
2.第2の実施形態(音声入力操作の主体情報に基づく音声認識辞書の変更)
2−1.システムの構成
2−2.システムの処理
2−3.第2の実施形態のまとめ
2−4.変形例
3.本開示の一実施形態に係る情報処理装置のハードウェア構成
4.むすび
まず、本開示の第1の実施形態について説明する。第1の実施形態では、情報処理システムは、音声入力操作の客体情報に基づいて音声認識辞書の変更を制御する。
図1を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図1は、本開示の第1の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。
情報処理装置100−1は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110を備える。
音声入力部102は、取得部として、音声情報を取得する。具体的には、音声入力部102は、情報処理装置100−1の周辺に存在するユーザにより音声が発せられると、発せられた音声について得られる信号に係る音声信号情報を生成する。なお、音声入力部102は、音声信号情報を生成する代わりに、通信を介して外部の音声入力装置で生成された音声信号情報を取得してもよい。
音声認識部104は、音声情報に基づいて音声認識処理を行う。具体的には、音声認識部104は、音声情報と当該音声情報に基づく処理(以下、後続処理とも称する。)との対応関係および音声入力部102から提供される音声情報に基づいて後続処理を決定する。例えば、音声認識部104は、音声入力部102から音声信号情報が提供されると、当該音声信号情報から文字情報を生成する。そして、音声認識部104は、文字情報と後続処理との対応関係の集合(以下、辞書とも称する。)において、生成された文字情報と一致しまたは類似する(以下、マッチする、とも称する。)文字情報の有無を判定する。生成された文字情報とマッチする文字情報が存在すると判定されると、音声認識部104は、マッチした文字情報に対応する後続処理を制御部108に通知する。
記憶部106は、音声認識処理で用いられる情報を記憶する。具体的には、記憶部106は、辞書を記憶する。例えば、記憶部106は、複数の辞書を記憶し、音声認識部104に辞書を提供する。なお、記憶部106は、辞書単位とは別に個々の対応関係を記憶してもよい。
制御部108は、情報処理装置100−1の動作を全体的に制御する。具体的には、制御部108は、音声認識処理を制御する。より具体的には、制御部108は、音声認識処理で用いられる辞書を制御する。
通信部110は、サーバ200および外部機器10と通信する。具体的には、通信部110は、サーバ200へ辞書提供要求ならびに音声認識要求および音声情報を送信し、サーバ200から辞書および音声認識結果を受信する。また、通信部110は、外部機器10へ動作要求および辞書提供要求を送信し、外部機器10から辞書を受信する。例えば、通信部110は、操作対象となり得る外部機器10の各々へ辞書提供要求をブロードキャスト方式で送信し、操作を許可する外部機器10の各々から辞書を受信する。なお、外部機器10についての辞書が情報処理装置100−1の記憶部106に記憶されている場合には、外部機器10への辞書提供要求の送信が行われない。また、外部機器10についての辞書がサーバ200に記憶されている場合には、サーバ200へ辞書提供要求が送信されるかまたはサーバ200に音声認識処理が実行させられる。
サーバ200は、通信部202、制御部204、音声認識部206および記憶部208を備える。
通信部202は、情報処理装置100−1と通信する。具体的には、通信部202は、情報処理装置100−1から辞書提供要求ならびに音声認識要求および音声情報を受信し、情報処理装置100−1へ辞書および音声認識結果を送信する。
制御部204は、サーバ200の動作を全体的に制御する。具体的には、制御部204は、音声認識要求に応じて音声認識処理を制御する。例えば、制御部204は、情報処理装置100−1から音声認識要求が受信されると、当該音声認識要求と共にまたは別個に受信される音声情報に基づく音声認識処理を音声認識部206に実行させる。そして、制御部204は、音声認識部206の音声認識結果を通信部202に情報処理装置100−1へ送信させる。
音声認識部206は、音声情報に基づいて音声認識処理を行う。なお、音声認識部206の音声認識処理は、情報処理装置100−1の音声認識部104の処理と実質的に同一であるため、説明を省略する。
記憶部208は、音声認識処理に用いられる情報を記憶する。具体的には、記憶部208は、辞書および対応関係を記憶する。例えば、記憶部208の記憶する辞書は、情報処理装置100−1よりも、記憶される辞書のサイズが大きくてよく、記憶される辞書の数も多くてよい。
次に、本実施形態に係る情報処理システムの処理について説明する。
まず、図4を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図4は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
続いて、図5を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図5は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
このように、本開示の第1の実施形態によれば、情報処理装置100−1は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の客体情報に基づいて制御する。
以上、本開示の第1の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
まず、図6を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図6は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
続いて、図7を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図7は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
以上、本開示の第1の実施形態および変形例について説明した。次に、本開示の第2の実施形態について説明する。第2の実施形態では、情報処理システムは、音声入力操作の主体情報に基づいて音声認識辞書の変更を制御する。
図8を参照して、本実施形態に係る情報処理システムの機能構成について説明する。図8は、本開示の第2の実施形態に係る情報処理システムの機能構成の例を概略的に示すブロック図である。なお、第1の実施形態の機能と実質的に同一の機能については説明を省略する。
情報処理装置100−2は、音声入力部102、音声認識部104、記憶部106、制御部108および通信部110に加えて、主体認識部120および観察部122を備える。
制御部108は、音声入力を用いた操作の主体情報に基づいて、使用辞書の少なくとも一部の変更を制御する。具体的には、制御部108は、音声入力操作の主体情報から推定される、音声入力操作についての音声認識処理おける対応関係についての使用情報、に基づいて決定される対応関係を使用辞書において入れ替える。例えば、制御部108は、音声入力操作の主体情報から推定される、音声認識処理における使用頻度または使用可否に基づいて入れ替え対象の対応関係を決定する。そして、制御部108は、決定された対応関係を入れ替える。
主体認識部120は、音声入力操作の主体についての認識処理を行う。具体的には、主体認識部120は、観察部122から得られる情報に基づいてユーザの行動、姿勢または位置を認識する。例えば、主体認識部120は、観察部122から得られる加速度もしくは角速度などの慣性情報、GPS(Global Positioning System)情報または画像情報に基づいてユーザの行動、姿勢または位置を認識する。なお、観察部122から得られる情報に加えて、通信部110を介して外部装置から得られる情報が用いられてもよい。例えば、外部装置の有するユーザのスケジュール情報が用いられてよい。
観察部122は、音声入力操作の主体についての観察を行う。具体的には、観察部122は、ユーザの動き、姿勢または位置を観察する。例えば、観察部122は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサを用いてユーザについての慣性情報、位置情報または画像情報を生成する。
次に、本実施形態に係る情報処理システムの処理について説明する。なお、第1の実施形態の処理と実質的に同一である処理については説明を省略する。
まず、図9を参照して、本実施形態に係る情報処理システムの全体処理について説明する。図9は、本実施形態に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
続いて、図10を参照して、本実施形態に係る情報処理システムの辞書変更処理について説明する。図10は、本実施形態に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
このように本開示の第2の実施形態によれば、情報処理装置100−2は、音声認識処理で用いられる、音声入力により得られる音声情報と当該音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の対応関係の変更を、音声入力を用いた操作の主体情報に基づいて制御する。このため、上述したように、使用辞書の内容を適切に入れ替えることができる。特に、音声入力操作においては音声認識処理の入力となる音声を発するユーザが音声認識処理へ与える影響は大きい。従って、そのようなユーザの情報に基づいて使用辞書の内容が変更されることにより、音声認識の誤作動、認識率の向上ならびに誤認識および処理時間の長期化の抑制を効果的に実現することができる。すなわち、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。
以上、本開示の第2の実施形態について説明した。なお、本実施形態は、上述の例に限定されない。以下に、本実施形態の変形例について説明する。
まず、図11を参照して、本実施形態の変形例に係る情報処理システムの全体処理について説明する。図11は、本実施形態の変形例に係る情報処理システムの全体処理の例を概念的に示すフローチャートである。
続いて、図12を参照して、本実施形態の変形例に係る情報処理システムの辞書変更処理について説明する。図12は、本実施形態の変形例に係る情報処理システムの辞書変更処理の例を概念的に示すフローチャートである。
以上、本開示の各実施形態に係る情報処理装置100について説明した。上述した情報処理装置100の処理は、ソフトウェアと、以下に説明する情報処理装置100のハードウェアとの協働により実現される。
プロセッサ132は、演算処理装置として機能し、各種プログラムと協働して情報処理装置100内の音声認識部104、制御部108および主体認識部120の機能を実現する。プロセッサ132は、制御回路を用いてメモリ134または他の記憶媒体に記憶されるプログラムを実行することにより、情報処理装置100の様々な論理的機能を動作させる。例えば、プロセッサ132は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)、DSP(Digital Signal Processor)またはSoC(System-on-a-Chip)であり得る。
メモリ134は、プロセッサ132が使用するプログラムまたは演算パラメタなどを記憶する。例えば、メモリ134は、RAM(Random Access Memory)を含み、プロセッサ132の実行において使用するプログラムまたは実行において適宜変化するパラメタなどを一時記憶する。また、メモリ134は、ROM(Read Only Memory)を含み、RAMおよびROMにより記憶部の機能を実現する。なお、接続ポート150または通信装置152などを介して外部のストレージ装置がメモリ134の一部として利用されてもよい。
ブリッジ136は、バス間を接続する。具体的には、ブリッジ136は、プロセッサ132およびメモリ134が接続される内部バスと、インタフェース140と接続するバス138と、を接続する。
入力装置142は、ユーザが情報処理装置100を操作しまたは情報処理装置100へ情報を入力するために使用され、音声入力部102の機能を実現する。例えば、入力装置142は、ユーザが情報を入力するための入力手段、およびユーザによる入力に基づいて入力信号を生成し、プロセッサ132に出力する入力制御回路などから構成されている。なお、当該入力手段は、マウス、キーボード、タッチパネル、スイッチ、レバーまたはマイクロフォンなどであってもよい。情報処理装置100のユーザは、入力装置142を操作することにより、情報処理装置100に対して各種のデータを入力したり処理動作を指示したりすることができる。
出力装置144は、ユーザに情報を通知するために使用され、入出力部の機能を実現する。出力装置144は、表示装置または音出力装置であってよい。例えば、出力装置144は、液晶ディスプレイ(LCD:Liquid Crystal Display)装置、OLED(Organic Light Emitting Diode)装置、プロジェクタ、スピーカまたはヘッドフォンなどの装置または当該装置への出力を行うモジュールであってよい。
測定装置146は、情報処理装置100および情報処理装置100の周辺において発生する現象についての測定を行い、情報処理装置100の観察部122の動作を実現する。例えば、当該測定装置146は、加速度センサもしくは角速度センサなどの慣性センサ、GPSセンサまたは撮像センサであってよい。なお、測定装置146は、気温、湿度もしくは気圧などを測定する環境センサまたは体温、脈拍もしくは発汗などを測定する生体センサを含んでもよく、複数の種類のセンサが含まれてもよい。
ドライブ148は、記憶媒体用リーダライタであり、情報処理装置100に内蔵、あるいは外付けされる。ドライブ148は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体に記憶されている情報を読み出して、メモリ134に出力する。また、ドライブ148は、リムーバブル記憶媒体に情報を書込むこともできる。
接続ポート150は、機器を情報処理装置100に直接接続するためのポートである。例えば、接続ポート150は、USB(Universal Serial Bus)ポート、IEEE1394ポート、SCSI(Small Computer System Interface)ポートなどであり得る。また、接続ポート150は、RS−232Cポート、光オーディオ端子、HDMI(登録商標)(High-Definition Multimedia Interface)ポートなどであってもよい。接続ポート150に外部機器を接続することで、情報処理装置100と当該外部機器との間でデータが交換されてもよい。
通信装置152は、情報処理装置100と外部装置との間の通信を仲介し、通信部110の機能を実現する。具体的には、通信装置152は、無線通信方式または有線通信方式に従って通信を実行する。例えば、通信装置152は、WCDMA(登録商標)(Wideband Code Division Multiple Access)、WiMAX(登録商標)、LTE(Long Term Evolution)もしくはLTE−Aなどのセルラ通信方式に従って無線通信を実行する。なお、通信装置152は、Bluetooth(登録商標)、NFC(Near Field Communication)、ワイヤレスUSBもしくはTransferJet(登録商標)などの近距離無線通信方式、またはWi−Fi(登録商標)などの無線LAN(Local Area Network)方式といった、任意の無線通信方式に従って無線通信を実行してもよい。また、通信装置152は、信号線通信または有線LAN通信などの有線通信を実行してよい。
以上、本開示の第1の実施形態によれば、使用辞書の内容を適切に入れ替えることができる。そのため、起動ワードを設けることなく、日常の会話における音声の認識による誤作動を防止することができる。また、使用辞書のサイズを大きくすることなく、認識率を向上させることができる。それにより、誤認識の増加および処理時間の長期化も抑制することができる。従って、音声認識処理における認識性能の向上と処理時間の短縮とを両立させることが可能となる。さらに、複数の音声認識処理を実行させることなく、認識率を向上させることができる。それにより、製造コストおよび処理負荷の増加を抑制することができる。
(1)
音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。
(2)
変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
前記(1)に記載の情報処理装置。
(3)
前記使用情報は、使用頻度が特定される情報を含む、
前記(2)に記載の情報処理装置。
(4)
前記使用情報は、使用可否が特定される情報を含む、
前記(2)または(3)に記載の情報処理装置。
(5)
前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
前記(1)〜(4)のいずれか1項に記載の情報処理装置。
(6)
前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
前記(5)に記載の情報処理装置。
(7)
前記対応関係は、通信を介して変更される、
前記(1)〜(6)のいずれか1項に記載の情報処理装置。
(8)
前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
前記(1)〜(7)のいずれか1項に記載の情報処理装置。
(9)
前記操作対象は、アプリケーションまたは機器を含む、
前記(8)に記載の情報処理装置。
(10)
前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
前記(1)〜(9)のいずれか1項に記載の情報処理装置。
(11)
前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
前記(1)〜(10)のいずれか1項に記載の情報処理装置。
(12)
前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
前記(11)に記載の情報処理装置。
(13)
前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
前記(1)〜(12)のいずれか1項に記載の情報処理装置。
(14)
前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
前記(1)〜(13)のいずれか1項に記載の情報処理装置。
(15)
前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
前記(1)〜(14)のいずれか1項に記載の情報処理装置。
(16)
前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
前記(1)〜(15)のいずれか1項に記載の情報処理装置。
(17)
前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
前記(1)〜(16)のいずれか1項に記載の情報処理装置。
(18)
前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
前記(1)〜(17)のいずれか1項に記載の情報処理装置。
(19)
プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。
(20)
音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。
102 音声入力部
104 音声認識部
106 記憶部
108 制御部
110 通信部
120 主体認識部
122 観察部
200 サーバ
Claims (20)
- 音声入力により得られる音声情報を得る取得部と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御部と、
を備える情報処理装置。 - 変更に係る前記対応関係は、前記操作の客体情報または前記操作の主体情報から推定される、前記操作についての前記音声認識処理における前記対応関係についての使用情報、に基づいて決定される前記対応関係を含む、
請求項1に記載の情報処理装置。 - 前記使用情報は、使用頻度が特定される情報を含む、
請求項2に記載の情報処理装置。 - 前記使用情報は、使用可否が特定される情報を含む、
請求項2に記載の情報処理装置。 - 前記制御部は、さらに前記操作の客体情報または前記操作の主体情報に基づいて前記対応関係の集合の変更を制御する、
請求項1に記載の情報処理装置。 - 前記対応関係の集合の変更は、集合の大きさが異なる前記対応関係の集合へ変更を含む、
請求項5に記載の情報処理装置。 - 前記対応関係は、通信を介して変更される、
請求項1に記載の情報処理装置。 - 前記操作の客体情報は、操作対象または前記操作対象の属性が特定される情報を含む、
請求項1に記載の情報処理装置。 - 前記操作対象は、アプリケーションまたは機器を含む、
請求項8に記載の情報処理装置。 - 前記制御部は、さらに前記情報処理装置の通信可否に基づいて前記対応関係の変更を制御する、
請求項1に記載の情報処理装置。 - 前記操作の主体情報は、前記操作の主体の態様が特定される情報を含む、
請求項1に記載の情報処理装置。 - 前記操作の主体の態様は、前記操作の主体の行動、姿勢または位置を含む、
請求項11に記載の情報処理装置。 - 前記操作の主体情報は、前記操作の主体の周辺環境が特定される情報を含む、
請求項1に記載の情報処理装置。 - 前記操作の主体情報は、前記操作の主体または前記操作の主体の属性が特定される情報を含む、
請求項1に記載の情報処理装置。 - 前記操作の客体情報または前記操作の主体情報は、前記操作の客体または主体について取得される情報に基づいて推定される情報を含む、
請求項1に記載の情報処理装置。 - 前記操作の客体情報または前記操作の主体情報は、前記音声認識処理により得られる情報を含む、
請求項1に記載の情報処理装置。 - 前記対応関係の変更についての前記操作の主体への通知を制御する通知制御部をさらに備える、
請求項1に記載の情報処理装置。 - 前記対応関係に係る前記音声情報は、前記操作の開始を示す音声情報または前記操作の内容を示す音声情報を含む、
請求項1に記載の情報処理装置。 - プロセッサを用いて、
音声入力により得られる音声情報を得ることと、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御することと、
を含む情報処理方法。 - 音声入力により得られる音声情報を得る取得機能と、
音声認識処理で用いられる、前記音声情報と前記音声情報に基づく処理との対応関係の集合のうちの少なくとも一部の前記対応関係の変更を、前記音声入力を用いた操作の客体情報または前記操作の主体情報に基づいて制御する制御機能と、
をコンピュータに実現させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2016079005 | 2016-04-11 | ||
JP2016079005 | 2016-04-11 | ||
PCT/JP2017/008644 WO2017179335A1 (ja) | 2016-04-11 | 2017-03-06 | 情報処理装置、情報処理方法およびプログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2017179335A1 true JPWO2017179335A1 (ja) | 2019-02-14 |
JP6930531B2 JP6930531B2 (ja) | 2021-09-01 |
Family
ID=60041683
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2018511925A Active JP6930531B2 (ja) | 2016-04-11 | 2017-03-06 | 情報処理装置、情報処理方法およびプログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US20210193133A1 (ja) |
EP (1) | EP3444808A4 (ja) |
JP (1) | JP6930531B2 (ja) |
KR (1) | KR20180134337A (ja) |
WO (1) | WO2017179335A1 (ja) |
Families Citing this family (2)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN108538298B (zh) * | 2018-04-04 | 2021-05-04 | 科大讯飞股份有限公司 | 语音唤醒方法及装置 |
JP7132974B2 (ja) * | 2020-05-19 | 2022-09-07 | Necパーソナルコンピュータ株式会社 | 映像表示装置 |
Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
US20040260438A1 (en) * | 2003-06-17 | 2004-12-23 | Chernetsky Victor V. | Synchronous voice user interface/graphical user interface |
JP2005284543A (ja) * | 2004-03-29 | 2005-10-13 | Chugoku Electric Power Co Inc:The | 業務支援システム及び方法 |
JP2008026464A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 車両用音声認識装置 |
US20090204392A1 (en) * | 2006-07-13 | 2009-08-13 | Nec Corporation | Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method |
WO2014159581A1 (en) * | 2013-03-12 | 2014-10-02 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US20150254058A1 (en) * | 2014-03-04 | 2015-09-10 | Microsoft Technology Licensing, Llc | Voice control shortcuts |
JP2015526753A (ja) * | 2012-06-15 | 2015-09-10 | 本田技研工業株式会社 | 深度に基づく場面認識 |
Family Cites Families (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
CN101326571B (zh) * | 2005-12-07 | 2012-05-23 | 三菱电机株式会社 | 声音识别装置 |
-
2017
- 2017-03-06 US US16/076,223 patent/US20210193133A1/en not_active Abandoned
- 2017-03-06 JP JP2018511925A patent/JP6930531B2/ja active Active
- 2017-03-06 WO PCT/JP2017/008644 patent/WO2017179335A1/ja active Application Filing
- 2017-03-06 KR KR1020187026954A patent/KR20180134337A/ko not_active Application Discontinuation
- 2017-03-06 EP EP17782153.5A patent/EP3444808A4/en not_active Withdrawn
Patent Citations (8)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2004086150A (ja) * | 2002-06-28 | 2004-03-18 | Denso Corp | 音声制御装置 |
US20040260438A1 (en) * | 2003-06-17 | 2004-12-23 | Chernetsky Victor V. | Synchronous voice user interface/graphical user interface |
JP2005284543A (ja) * | 2004-03-29 | 2005-10-13 | Chugoku Electric Power Co Inc:The | 業務支援システム及び方法 |
US20090204392A1 (en) * | 2006-07-13 | 2009-08-13 | Nec Corporation | Communication terminal having speech recognition function, update support device for speech recognition dictionary thereof, and update method |
JP2008026464A (ja) * | 2006-07-19 | 2008-02-07 | Denso Corp | 車両用音声認識装置 |
JP2015526753A (ja) * | 2012-06-15 | 2015-09-10 | 本田技研工業株式会社 | 深度に基づく場面認識 |
WO2014159581A1 (en) * | 2013-03-12 | 2014-10-02 | Nuance Communications, Inc. | Methods and apparatus for detecting a voice command |
US20150254058A1 (en) * | 2014-03-04 | 2015-09-10 | Microsoft Technology Licensing, Llc | Voice control shortcuts |
Also Published As
Publication number | Publication date |
---|---|
EP3444808A4 (en) | 2019-05-01 |
KR20180134337A (ko) | 2018-12-18 |
JP6930531B2 (ja) | 2021-09-01 |
WO2017179335A1 (ja) | 2017-10-19 |
EP3444808A1 (en) | 2019-02-20 |
US20210193133A1 (en) | 2021-06-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
KR102404702B1 (ko) | 크로스-디바이스 핸드오프 | |
US11217230B2 (en) | Information processing device and information processing method for determining presence or absence of a response to speech of a user on a basis of a learning result corresponding to a use situation of the user | |
US20170323641A1 (en) | Voice input assistance device, voice input assistance system, and voice input method | |
US10310808B2 (en) | Systems and methods for simultaneously receiving voice instructions on onboard and offboard devices | |
JP2007017731A (ja) | 音声認識装置、音声認識装置を備えたナビゲーション装置及び音声認識装置の音声認識方法 | |
US9405504B2 (en) | Information communication terminal and dialogue presentation method | |
JP2014174485A (ja) | 情報通信端末、およびその対話方法 | |
KR20210040856A (ko) | 스마트 백미러의 인터랙션 방법, 장치, 전자기기와 저장매체 | |
WO2016174955A1 (ja) | 情報処理装置、及び、情報処理方法 | |
JP6930531B2 (ja) | 情報処理装置、情報処理方法およびプログラム | |
CN111752686A (zh) | 智能体装置、智能体装置的控制方法及存储介质 | |
US20170017497A1 (en) | User interface system, user interface control device, user interface control method, and user interface control program | |
US9791925B2 (en) | Information acquisition method, information acquisition system, and non-transitory recording medium for user of motor vehicle | |
US20200262445A1 (en) | Agent device, and method for controlling agent device | |
JP2020144264A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020160135A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2022153363A (ja) | サーバ装置及び情報処理方法並びにサーバプログラム | |
US11797261B2 (en) | On-vehicle device, method of controlling on-vehicle device, and storage medium | |
US20180096698A1 (en) | Processing result error detection device, processing result error detection program, processing result error detection method, and moving entity | |
JP7175221B2 (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020152298A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JP2020154942A (ja) | エージェント装置、エージェント装置の制御方法、およびプログラム | |
JPWO2010073406A1 (ja) | 情報提供装置、通信端末、情報提供システム、情報提供方法、情報出力方法、情報提供プログラム、情報出力プログラムおよび記録媒体 | |
EP3745236A1 (en) | Information processing device and information processing method | |
JP2020160133A (ja) | エージェントシステム、エージェントシステムの制御方法、およびプログラム |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190208 |
|
RD03 | Notification of appointment of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7423 Effective date: 20190214 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190222 |
|
RD02 | Notification of acceptance of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7422 Effective date: 20190515 |
|
RD04 | Notification of resignation of power of attorney |
Free format text: JAPANESE INTERMEDIATE CODE: A7424 Effective date: 20190522 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20200116 |
|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20200116 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20201117 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210112 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20210323 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20210420 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20210713 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20210726 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 6930531 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |