JPWO2019163247A1 - 情報処理装置、情報処理方法、および、プログラム - Google Patents
情報処理装置、情報処理方法、および、プログラム Download PDFInfo
- Publication number
- JPWO2019163247A1 JPWO2019163247A1 JP2020502034A JP2020502034A JPWO2019163247A1 JP WO2019163247 A1 JPWO2019163247 A1 JP WO2019163247A1 JP 2020502034 A JP2020502034 A JP 2020502034A JP 2020502034 A JP2020502034 A JP 2020502034A JP WO2019163247 A1 JPWO2019163247 A1 JP WO2019163247A1
- Authority
- JP
- Japan
- Prior art keywords
- utterance
- voice
- recognition result
- meaning corresponding
- voice recognition
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Granted
Links
- 230000010365 information processing Effects 0.000 title claims abstract description 61
- 238000003672 processing method Methods 0.000 title claims abstract description 7
- 230000013016 learning Effects 0.000 claims abstract description 288
- 238000000034 method Methods 0.000 claims abstract description 52
- 238000004458 analytical method Methods 0.000 claims description 25
- 230000001755 vocal effect Effects 0.000 claims description 12
- 230000006870 function Effects 0.000 claims description 11
- 238000011156 evaluation Methods 0.000 claims description 10
- 230000007423 decrease Effects 0.000 claims description 4
- 230000008569 process Effects 0.000 abstract description 44
- 238000010586 diagram Methods 0.000 abstract description 9
- 230000003044 adaptive effect Effects 0.000 abstract 1
- 238000012986 modification Methods 0.000 description 54
- 230000004048 modification Effects 0.000 description 54
- 238000012545 processing Methods 0.000 description 40
- 238000004891 communication Methods 0.000 description 38
- 230000000694 effects Effects 0.000 description 7
- 230000009471 action Effects 0.000 description 3
- 230000005540 biological transmission Effects 0.000 description 2
- 238000004590 computer program Methods 0.000 description 2
- 239000000284 extract Substances 0.000 description 2
- 239000000945 filler Substances 0.000 description 2
- 238000003058 natural language processing Methods 0.000 description 2
- 230000009467 reduction Effects 0.000 description 2
- 125000002066 L-histidyl group Chemical group [H]N1C([H])=NC(C([H])([H])[C@](C(=O)[*])([H])N([H])[H])=C1[H] 0.000 description 1
- 241001465754 Metazoa Species 0.000 description 1
- 230000001133 acceleration Effects 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 230000004397 blinking Effects 0.000 description 1
- 238000004364 calculation method Methods 0.000 description 1
- 238000013500 data storage Methods 0.000 description 1
- 238000001514 detection method Methods 0.000 description 1
- 230000008451 emotion Effects 0.000 description 1
- 238000005516 engineering process Methods 0.000 description 1
- 230000007613 environmental effect Effects 0.000 description 1
- 230000008921 facial expression Effects 0.000 description 1
- 239000004973 liquid crystal related substance Substances 0.000 description 1
- 230000007774 longterm Effects 0.000 description 1
- 238000005259 measurement Methods 0.000 description 1
- 230000003183 myoelectrical effect Effects 0.000 description 1
- 230000001151 other effect Effects 0.000 description 1
- 238000012546 transfer Methods 0.000 description 1
Images
Classifications
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/02—Feature extraction for speech recognition; Selection of recognition unit
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/08—Speech classification or search
- G10L15/18—Speech classification or search using natural language modelling
- G10L15/1815—Semantic context, e.g. disambiguation of the recognition hypotheses based on word meaning
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L15/00—Speech recognition
- G10L15/22—Procedures used during a speech recognition process, e.g. man-machine dialogue
- G10L2015/226—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics
- G10L2015/227—Procedures used during a speech recognition process, e.g. man-machine dialogue using non-speech characteristics of the speaker; Human-factor methodology
Landscapes
- Engineering & Computer Science (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Health & Medical Sciences (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Computer Vision & Pattern Recognition (AREA)
- Artificial Intelligence (AREA)
- Machine Translation (AREA)
- User Interface Of Digital Computer (AREA)
- Electrically Operated Instructional Devices (AREA)
Abstract
Description
1.情報処理システムの構成
2.実施形態の詳細な説明
3.応用例
4.ハードウェア構成
5.変形例
まず、本開示の実施形態に係る情報処理システムの構成例について、図1を参照して説明する。図1に示すように、本実施形態に係る情報処理システムは、サーバ10、端末20、および、通信網22を有する。
サーバ10は、本開示に係る情報処理装置の一例である。サーバ10は、音声認識機能を有し得る。例えば、サーバ10は、後述する端末20が収音した音声を通信網22を介して端末20から受信し、当該音声を音声認識し、そして、当該音声認識結果の意味を解析することが可能である。
端末20は、例えばサーバ10の制御に従って、各種の情報を出力する。この端末20は、例えば、汎用PC(Personal Computer)、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMD(Head Mounted Display)やスマートウォッチなどのウェアラブルデバイス、車載装置(カーナビゲーション装置など)、または、ロボット(例えばヒューマノイド型ロボットまたは自動運転車など)であってもよい。
制御部200は、例えばCPU(Central Processing Unit)やGPU(Graphics Processing Unit)などの処理回路を含んで構成され得る。制御部200は、端末20の動作を統括的に制御する。例えば、制御部200は、後述するセンサ部222によりセンシングされた各種のセンシング結果をサーバ10へ通信部220に送信させる。また、制御部200は、サーバ10から受信される出力制御情報に従って、当該出力制御情報が指示する情報を出力部224に出力させる。
センサ部222は、マイクロフォンを有し得る。センサ部222は、周囲で発せられた音声を収音し得る。
通信部220は、例えば無線通信および/または有線通信により、他の装置との間で情報の送受信を行う。例えば、通信部220は、制御部200の制御に従って、センサ部222による各種のセンシング結果(例えばマイクロフォンにより収音された音声データなど)をサーバ10へ送信する。また、通信部220は、各種の映像や各種の音の出力制御情報をサーバ10から受信する。
出力部224は、制御部200の制御に従って各種の情報(映像や音など)を出力する。出力部224は、音声出力部を有し得る。当該音声出力部は、例えばスピーカ、イヤフォン、または、ヘッドフォンなどを含んで構成される。当該音声出力部は、制御部200の制御に従って音(音声や音楽など)を出力する。
記憶部226は、各種のデータや各種のソフトウェアを記憶する。
通信網22は、通信網22に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、通信網22は、電話回線網、インターネット、衛星通信網などの公衆回線網や、Ethernet(登録商標)を含む各種のLAN(Local Area Network)、WAN(Wide Area Network)などを含んでもよい。また、通信網22は、IP−VPN(Internet Protocol−Virtual Private Network)などの専用回線網を含んでもよい。
以上、本実施形態に係る情報処理システムの構成について説明した。ところで、発話で操作するシステムにおいて、システムが受け付け可能(以下では、「InDomain」と称する場合もある)な発話をユーザが話そうとしても、当該システムにより、受け付け範囲外(以下では、「OOD(OutOfDomain)」と称する場合もある)と判定される場合がある。このため、OODとなった発話Aの後で、InDomainの発話Cをユーザが言い直す場合がある。
<2−1.構成>
次に、本実施形態に係る構成について説明する。図3は、本実施形態に係るサーバ10の機能構成例を示したブロック図である。図3に示したように、サーバ10は、制御部100、通信部120、および、記憶部122を有する。
制御部100は、例えば、後述するCPU150やGPUなどの処理回路を含んで構成され得る。制御部100は、サーバ10の動作を統括的に制御する。また、図3に示したように、制御部100は、音声認識部102、意味解析部104、言い直し判定部106、学習部108、および、出力制御部110を有する。
音声認識部102は、例えば端末20から受信された音声データなどの音声に対して音声認識を行う。例えば、音声認識部102は、該当の音声を音声認識することにより文字列に変換する。
意味解析部104は、音声認識部102による認識結果に対して自然言語処理を行うことにより、該当の音声の意味を解析する。
言い直し判定部106は、本開示に係る判定部の一例である。言い直し判定部106は、第1のタイミングの後の第2のタイミングに収音された第2の発話が、第1のタイミングに収音された第1の発話の言い直しであるか否かを所定の基準に基づいて判定する。例えば、第1のタイミングと第2のタイミングとの間の時間が所定の閾値以内である場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しであると判定する。また、第1のタイミングと第2のタイミングとの間の時間が当該所定の閾値よりも大きい場合には、言い直し判定部106は、当該第2の発話が当該第1の発話の言い直しではないと判定する。
(2−1−5−1.学習するか否かの決定)
学習部108は、言い直し判定部106による判定結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、当該第2の発話が当該第1の発話の言い直しではないと判定された場合には、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習しない。また、当該第2の発話が当該第1の発話の言い直しであると判定された場合には、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、当該第2の発話が当該第1の発話の言い直しであると判定され、当該第1の発話の音声認識結果に対応する意味が特定不能であり、かつ、当該第2の発話の音声認識結果に対応する意味が特定可能であった場合に、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。つまり、当該第1の発話がOODであり、かつ、当該第2の発話がInDomainであった場合に、学習部108は、当該第2の発話の音声認識結果に対応する意味に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。この場合、例えば、学習部108は、当該第1の発話の音声認識結果に対応する意味が当該第2の発話の音声認識結果に対応する意味と同一または類似になるように、当該第1の発話の音声認識結果に対応する意味を学習する。
以下では、学習部108による、学習するか否かの決定例についてさらに詳細に説明する。例えば、学習部108は、さらに、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの関係性に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定する。一例として、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合(例えば、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとが大きく異なると判定された場合など)には、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習しないことを決定する。また、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの差に関する所定の評価値が当該所定の条件を満たさないと判定された場合(例えば、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとが略同一であると判定された場合など)には、学習部108は、当該第1の発話の音声認識結果に対応する意味を、当該第2の発話の音声認識結果に対応する意味に基づいて学習することを決定する。
または、学習部108は、さらに、当該第2の発話の話者認識の結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。例えば、学習部108は、当該第2の発話の話者の過去の言い直しの成功頻度が所定の閾値以上であるか否かに基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。これにより、例えば、空気を読まずに発言する人物による発話を学習の対象外とする(換言すれば、ノイズとして排除する)ことができる。また、学習部108は、当該第2の発話の話者の音声入力の利用頻度が所定の閾値以上であるか否かに基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。または、学習部108は、当該第2の発話の話者からセンシングされた生体情報に基づいて、当該第2の発話の話者がウソをついているか否かを判定することにより、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定してもよい。この方法によれば、例えば、子どもによるいたずらの発話を学習の対象外とすることができる。
‐決定例1:音声入力の慣れ
さらに、学習部108は、当該第1の発話の音声認識結果に対応する意味を学習した場合には、当該第1の発話と略同一の発話を行った際に当該発話の意味が当該第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上のユーザ(以下、「学習結果の適用ユーザ」と称する場合がある)を所定の基準に基づいて決定することが可能である。例えば、学習部108は、当該第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて、当該学習結果の適用ユーザを決定してもよい。一例として、当該第2の発話の話者が音声入力に慣れていると判定された場合には、学習部108は、当該学習結果の適用ユーザを全員と決定してもよい。また、当該第2の発話の話者が音声入力に慣れていないと判定された場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者のみと決定してもよい。
または、学習部108は、当該第2の発話の音声が物理的に届く範囲内に存在すると判断された人たちを当該学習結果の適用ユーザとして決定してもよい。この方法によれば、当該第2の発話がなされたときに周囲に存在していなかった人たちを当該学習結果の適用対象外とすることができる。これにより、当該周囲に存在していなかった人たちが音声入力を利用する際に、意図しない音声認識結果が得られることを防止することができる。ここで、音声が届く範囲は、例えば、当該第2のタイミングにおける、発話者の位置情報と当該発話者の周囲の撮像画像に基づいた画像認識結果とを組み合わせることにより判断されてもよい。または、例えばレーダーなどを用いた当該発話者からの距離の計測結果に基づいて、当該音声が届く範囲が判断されてもよい。または、例えば当該第2のタイミングにおける当該第2の発話の話者のスケジュールの登録内容などに基づいて、当該話者が位置するべき場所を特定することにより、当該音声が届く範囲が判断されてもよい。
または、学習部108は、例えば当該第2の発話の話者のデモグラフィック情報などから特定される、当該第2の発話の話者と同一のコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。ここで、コミュニティの例としては、家族、ゲーム仲間のコミュニティ、チャットグループ、または、友人などが挙げられる。例えば、当該第2の発話の話者が「孫」である場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者の家族と決定してもよい。
または、学習部108は、当該第1の発話または当該第2の発話のトピックに合致するコミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。例えば、当該第1の発話が「懐かしい音楽にして。」である場合には、学習部108は、当該第1の発話のトピックを「音楽」と判断し、そして、「音楽」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。または、当該第2の発話が、あるゲーム特有の言い回しを含む発話である場合には、学習部108は、「ゲーム」コミュニティに属する一以上のユーザを当該学習結果の適用ユーザとして決定してもよい。
または、当該第2の発話が、個人化したい発話であると検出された場合には、学習部108は、当該学習結果の適用ユーザを当該第2の発話の話者のみと決定してもよい。このような場合の具体例としては、当該第1の発話が、パスワードのような秘密の合言葉に対応する発話であり、かつ、当該第2の発話が当該第1の発話の言い直しであるケース(換言すれば、他のユーザに発話を覚えられたくないケース)などが挙げられる。ここで、個人化したい発話であることの検出方法の例としては、当該第2の発話の話者が、個人用のマイクロフォンを用いて発話していたか否かを検出すること、ささやき声により当該第2の発話がなされたか否かを検出すること、または、当該第2の発話時に、当該第2の発話の話者が口を覆うジェスチャを行っていたか否かを検出することなどが挙げられる。なお、ささやき声であるか否かは、例えば非可聴つぶやき認識や唇認識などにより検出され得る。
ここで、図5を参照して、学習部108の上記の機能についてより詳細に説明する。図5に示した例では、孫「D」の音声入力の利用頻度が所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味の学習結果の適用ユーザを、その場にいる全てのユーザ(つまり、「A」、「B」、「C」、「D」、および、「F」)として決定してもよい。または、学習部108は、当該学習結果の適用ユーザを「D」の家族のみと決定してもよい。
(2−1−6−1.学習済みであることの通知)
‐通知例1
出力制御部110は、端末20に対して情報(例えば映像や音など)の出力を制御する。例えば、当該第1の発話の音声認識結果に対応する意味を学習部108が学習した場合には、出力制御部110は、当該第1の発話の音声認識結果に対応する意味が学習済みであることを示す通知の音声(例えばTTS(Text To Speech)など)を端末20に出力させる。
また、ある発話に対応する意味と、別の複数の発話の各々に対応する意味とが同一であると学習部108が学習した場合には、出力制御部110は、この学習結果を通知する音声を端末20に出力させることも可能である。例えば、出力制御部110は、まず、当該別の複数の発話の中から、例えばいずれか一つを通知対象の発話として選択する。次に、出力制御部110は、通知対象のユーザを決定する。そして、出力制御部110は、当該通知対象の発話に対応する意味と、当該ある発話に対応する意味とが同一であると学習済みであることを通知する音声を当該通知対象のユーザに対して端末20に出力させる。例えば、出力制御部110は、まず、当該ある発話の内容を第1のTTSで端末20に出力させ、そして、当該通知対象の発話の内容を第2のTTSで端末20に出力させる。一例として、当該ある発話が「BGMにして」であり、かつ、当該通知対象の発話の内容が「グループAの歌の再生を指示すること」であるとする。この場合、出力制御部110は、例えば、「BGMにして」という音声を第1のTTSで端末20に出力させ、その直後に、「のリクエストでグループAの歌Xをお届けします」という音声を第2のTTSで端末20に出力させてもよい。
また、第1の発話の音声認識結果に対応する意味を学習部108が学習した場合は、出力制御部110は、当該学習結果に基づいて、端末20に対して情報の出力を制御し得る。
通信部120は、後述する通信装置166を含んで構成され得る。通信部120は、他の装置との間で情報の送受信を行う。例えば、通信部120は、出力制御部110の制御に従って、各種の情報を端末20へ送信する。また、通信部120は、各種のセンシング結果を端末20から受信する。
記憶部122は、後述するストレージ装置164を含んで構成され得る。記憶部122は、各種のデータや、各種のソフトウェアを記憶する。例えば、記憶部122は、学習部108による学習結果の履歴を記憶する。
以上、本実施形態の構成について説明した。次に、本実施形態の適用例について、図9〜図13を参照して説明する。本適用例では、図9に示したように、兄弟「H」、兄弟「I」、および、祖父「A」が家族であり、かつ、「H」、「G」、および、「J」が、同じゲームコミュニティに属している例を示している。本適用例では、図10に示したように、まず、「H」が「BANはどうだった?」という発話30aを端末20に対して行い、端末20が発話30aの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30aをOODであると判定したとする。その後、「H」が発話30aの言い直しとして「さっきBANされたシーンだよ。」という発話30bを端末20に対して行い、端末20が発話30bの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30bもOODであると判定したとする。その後、「G」が発話30aの言い直しとして「ゲームXでBANされたときの記録動画を再生して。」という発話30cを端末20に対して行い、端末20が発話30cの音声データをサーバ10へ送信し、そして、サーバ10は、この発話30cをInDomainであると判定したとする。ここで、「G」の過去の言い直しの成功頻度は所定の閾値以上であるとする。そこで、学習部108は、発話30aに対応する意味を学習することを決定し、そして、発話30aに対応する意味が、発話30cに対応する意味と同一になるように、発話30aに対応する意味を学習し得る。
{2−3−1.処理の全体の流れ}
以上、本実施形態の適用例について説明した。次に、本実施形態に係る処理の流れについて説明する。図14は、本実施形態に係る処理の流れの一例を示したフローチャートである。図14に示したように、まず、サーバ10は、後述する「音声入力処理」を行う(S101)。
ここで、図15および図16を参照して、S101における「音声入力処理」の流れについてより詳細に説明する。図15および図16は、「音声入力処理」の流れの一部をそれぞれ示したフローチャートである。図15に示したように、まず、端末20は、例えば収音などの各種のセンシングを開始する。そして、各種のセンシング結果が取得される度に、端末20は、取得された個々のセンシング結果をサーバ10へ逐次送信する(S201)。
次に、図17を参照して、S255における「学習結果の適用範囲の更新処理」の流れについて説明する。図17に示したように、まず、制御部100は、該当の学習結果を適用する対象範囲に含まれている人が他人と会話しているか否かを、端末20による各種のセンシング結果(撮像画像など)に基づいて判定する(S301)。該当の人が他人と会話していないと判定された場合には(S301:No)、当該「学習結果の適用範囲の更新処理」は終了する。
次に、図18を参照して、S109における「学習するか否かの判定処理」の流れについて説明する。図18に示したように、学習部108は、該当の発話者の過去の学習の成功回数が所定の閾値以上であるか否かを判定する(S401)。該当の発話者の過去の学習の成功回数が所定の閾値以上である場合には(S401:Yes)、学習部108は、該当の発話に関して学習すると判定する(S403)。一方、該当の発話者の過去の学習の成功回数が当該所定の閾値以上未満である場合には(S401:No)、学習部108は、該当の発話に関して学習しないと判定する(S405)。
図19は、S109の変形例1に係る処理の流れを示したフローチャートである。図19に示したように、本変形例では、学習部108は、該当の発話の直前に収音された別の発話の収音時と該当の発話時との間の、該当の発話の話者の興奮度の差が所定の閾値以下であるか否かを判定する(S411)。該当の発話の話者の興奮度の差が当該所定の閾値よりも大きい場合には(S411:No)、学習部108は、該当の発話に関して学習すると判定する(S413)。一方、該当の発話の話者の興奮度の差が当該所定の閾値以下である場合には(S411:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S415)。
図20は、S109の変形例2に係る処理の流れを示したフローチャートである。図20に示したように、本変形例では、学習部108は、該当の発話の話者の心拍データが示す値が所定の閾値以上であるか否かを判定する(S421)。当該心拍データが示す値が当該所定の閾値未満である場合には(S421:No)、学習部108は、該当の発話に関して学習すると判定する(S423)。一方、当該心拍データが示す値が当該所定の閾値以上である場合には(S421:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S425)。
図21は、S109の変形例3に係る処理の流れを示したフローチャートである。図21に示したように、本変形例では、学習部108は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する(S431)。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には(S431:Yes)、学習部108は、該当の発話に関して学習すると判定する(S433)。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には(S431:No)、学習部108は、該当の発話に関して学習しないと判定する(S435)。
図22は、S109の変形例4に係る処理の流れを示したフローチャートである。図22に示したように、本変形例では、学習部108は、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていたか否かを判定する(S441)。該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていなかった場合には(S441:No)、学習部108は、該当の発話に関して学習すると判定する(S443)。一方、該当の発話の話者が、首を横に振る動きを伴うジェスチャを該当の発話時に行っていた場合には(S441:Yes)、学習部108は、該当の発話に関して学習しないと判定する(S445)。
次に、図23を参照して、S113における「学習結果の適用範囲の決定処理」の流れについて説明する。図23に示したように、学習部108は、該当の発話の話者の過去の音声入力の実施回数が所定の閾値以上であるか否かを判定する(S501)。当該話者の過去の音声入力の実施回数が当該所定の閾値以上である場合には(S501:Yes)、学習部108は、認識された、端末20の周囲に居る人物全員を、該当の学習結果の適用対象のユーザとして登録することを決定する(S503)。一方、当該話者の過去の音声入力の実施回数が当該所定の閾値未満である場合には(S501:No)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S505)。
図24は、S113の変形例1に係る処理の流れを示したフローチャートである。図24に示したように、本変形例では、学習部108は、該当の発話の話者と、該当の発話の直前に収音された、OODと判定された別の発話の話者とが同一のコミュニティに属しているか否かを判定する(S511)。両者が同一のコミュニティに属している場合には(S511:Yes)、学習部108は、当該コミュニティに属している人物全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S513)。一方、両者が同一のコミュニティに属していない場合には(S511:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S515)。
図25は、S113の変形例2に係る処理の流れを示したフローチャートである。図25に示したように、本変形例では、学習部108は、該当のシステムからの距離(例えば端末20からの距離)が所定の閾値以内に一以上の人がいるか否かを判定する(S521)。当該システムからの距離が当該所定の閾値以内に一以上の人がいる場合には(S521:Yes)、学習部108は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S523)。一方、当該システムからの距離が当該所定の閾値以内に誰もいない場合には(S521:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S525)。
図26は、S113の変形例3に係る処理の流れを示したフローチャートである。図26に示したように、本変形例では、学習部108は、該当の発話者からの距離が所定の閾値以内に一以上の人がいるか否かを判定する(S531)。当該発話者からの距離が当該所定の閾値以内に一以上の人がいる場合には(S531:Yes)、学習部108は、該当の人たち全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S533)。一方、当該発話者からの距離が当該所定の閾値以内に誰もいない場合には(S531:No)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S535)。
図27は、S113の変形例4に係る処理の流れを示したフローチャートである。図27に示したように、本変形例では、まず、意味解析部104は、該当の発話の音声認識結果に対応するテキストに対して所定の自然言語処理を行い(S541)、そして、当該発話に対応するトピックを抽出する(S543)。続いて、学習部108は、抽出されたトピックに合致するコミュニティが存在するか否かを判定する(S545)。当該トピックに合致するコミュニティが存在する場合には(S545:Yes)、学習部108は、該当のコミュニティに属するメンバー全員を該当の学習結果の適用対象のユーザとして登録することを決定する(S547)。一方、当該トピックに合致するコミュニティが存在しない場合には(S545:No)、学習部108は、該当の学習結果の適用対象のユーザとして当該話者のみを登録することを決定する(S549)。
図28は、S113の変形例5に係る処理の流れを示したフローチャートである。図28に示したように、本変形例では、まず、学習部108は、該当の発話の話者が、該当の発話時に口を覆っていたか否かを、端末20による該当の発話時のセンシング結果(撮像画像など)に基づいて判定する(S551)。当該話者が該当の発話時に口を覆っていたと判定された場合には(S551:Yes)、学習部108は、当該話者のみを該当の学習結果の適用対象のユーザとして登録することを決定する(S559)。
{2−4−1.効果1}
以上説明したように、本実施形態に係るサーバ10は、第1のタイミングの後の第2のタイミングに収音された第2の発話が、第1のタイミングに収音された第1の発話の言い直しであるか否かの判定結果に基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。このため、当該第1の発話の音声認識結果に対応する意味を適切に学習することができる。
また、サーバ10は、当該第1のタイミングのコンテキストと当該第2のタイミングのコンテキストとの関係性に基づいて、当該第1の発話の音声認識結果に対応する意味を学習するか否かを決定することが可能である。このため、サーバ10は、当該第2の発話が当該第1の発話の言い直しであるか否かを精度良く判定することができるので、当該第1の発話の音声認識結果に対応する意味を適切に学習することができる。
本実施形態は、前述した例に限定されず、各種の応用例が適用可能である。次に、本実施形態の応用例について、「3−1.応用例1」〜「3−3.応用例3」において説明する。なお、各応用例に係るサーバ10に含まれる各構成要素は、図3に示した例と同様である。以下では、前述した実施形態と異なる機能を有する構成要素についてのみ説明することとし、同一の内容については説明を省略する。
まず、本実施形態に係る応用例1について説明する。応用例1によれば、サーバ10は、学習結果の適用ユーザを動的に増減することが可能である。
応用例1に係る学習部108は、学習結果の適用ユーザを所定の基準に基づいて動的に増加または減少させる。例えば、学習結果の適用対象外のユーザの身体の向き、または、視線の向きが、学習結果の適用ユーザと向かい合っている時間の長さが所定の時間以上であると判定された場合には、学習部108は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、例えば音声認識の結果および話者認識の結果から特定される、学習結果の適用対象外のユーザと学習結果の適用ユーザとの会話のターンテイキング数が所定の閾値以上に達したと判定された場合には、学習部108は、該当のユーザを学習結果の適用対象のユーザとして動的に追加してもよい。または、学習結果の適用ユーザが、あるチャットグループのメンバー全員であり、かつ、いずれかのメンバーが当該チャットグループから脱退した際には、学習部108は、脱退したメンバーを当該学習結果の適用ユーザから動的に除外してもよい。
ここで、図29および図30を参照して、応用例1の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザが図11に示した例と同様であることを前提とする。つまり、学習結果の適用ユーザが「G」、「H」、および、「J」であり、かつ、学習結果の適用対象外のユーザが「I」および「A」である。
以上、応用例1について説明した。次に、本実施形態に係る応用例2について説明する。応用例2によれば、サーバ10は、学習結果の適用ユーザを動的に増加することを、学習結果の適用ユーザのうちの少なくとも一人に対して問い合わせることが可能である。
応用例2に係る学習部108は、一以上のユーザを学習結果の適用ユーザとして動的に追加することを判断した場合には、学習結果の適用ユーザのうちの少なくとも一人に対して当該追加の諾否を問い合わせる。さらに、当該一以上のユーザの追加を承諾することを示す回答が、該当の学習結果の適用ユーザから得られた場合には、学習部108は、当該一以上のユーザを該当の学習結果の適用ユーザとして動的に追加する。
ここで、図31および図32を参照して、応用例2の適用例について説明する。本適用例では、初期時点における、学習結果の適用ユーザ、および、学習結果の適用対象外のユーザがそれぞれ、応用例1と同様(つまり、図11に示した例と同様)であることを前提とする。
次に、図33を参照して、応用例2に係る処理の流れについて説明する。なお、本処理の流れは、図17に示した「学習結果の適用範囲の更新処理」以外に関しては、前述した実施形態と同様である。また、図33に示したように、S301〜S307は、図17に示した例と同様である。
以上、応用例2について説明した。次に、本実施形態に係る応用例3について説明する。応用例3によれば、サーバ10は、OODの発話が収音された後に、当該OODの発話に対応するInDomainの発話が2つ連続して収音された場合には、当該OODの発話に対応する意味として、当該2つの発話のうちのいずれに対応する意味を学習するかを適切に決定することができる。
応用例3に係る学習部108は、上記の第2の発話が上記の第1の発話の言い直しであると判定され、かつ、上記の第2のタイミングの後の第3のタイミングに収音された第3の発話も当該第1の発話の言い直しであると判定された場合には、当該第2の発話の音声認識結果に対応する意味と、当該第3の発話の音声認識結果に対応する意味とのいずれかに基づいて、当該第1の発話の音声認識結果に対応する意味を学習する。例えば、学習部108は、当該第2の発話の音声認識結果に対応する意味と、当該第3の発話の音声認識結果に対応する意味とのいずれに基づいて当該第1の発話の音声認識結果に対応する意味を学習するかを所定の基準に基づいて決定する。
ここで、図34および図35を参照して、応用例3の適用例について説明する。本適用例では、初期時点における、各ユーザの関係性が、図4に示した例と同様であることを前提とする。
変形例として、学習部108は、発話30aに対応する意味として、発話30cに対応する意味と発話30dに対応する意味との両方を学習してもよい。以下、この変形例に係る適用例について図35を参照して説明する。当該学習後に、図35に示したように、例えば「A」が、発話30aと略同一の発話38aを端末20に対して行い、そして、端末20が発話38aの音声データをサーバ10へ送信したとする。この場合、まず、サーバ10の意味解析部104は、学習部108による学習結果に基づいて、発話38aに対応する意味として、発話30cに対応する意味と、発話30dに対応する意味との両方が存在すると解析する。そして、図35に示したように、出力制御部110は、当該解析結果に基づいて、発話30cの意味に対応する処理(つまり、「AAABBソング集」を再生すること)と、発話30dの意味に対応する処理(つまり、「XYZソング集」を再生すること)とのいずれを実行すべきかを問い合わせる音声48(例えば、「AAABBソング集とXYZソング集とがありますが、どうしますか?」など)を、「A」に対して端末20に出力させる。その後、図35に示したように、「A」は、発話30dの意味に対応する処理(つまり、「XYZソング集」を再生すること)の実行を指示する発話38b(例えば「XYZソング集をかけて。」など)を端末20に対して行い、そして、端末20が発話38bの音声データをサーバ10へ送信したとする。この場合、出力制御部110は、発話38bの音声認識結果に基づいて、「XYZソング集」の出力を端末20に開始させる。
次に、本実施形態に係るサーバ10のハードウェア構成例について、図36を参照して説明する。図36に示したように、サーバ10は、CPU150、ROM(Read Only Memory)152、RAM(Random Access Memory)154、バス156、インターフェース158、入力装置160、出力装置162、ストレージ装置164、および、通信装置166を備える。
以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示はかかる例に限定されない。本開示の属する技術の分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
例えば、端末20の構成は、図2に示した例に限定されない。一例として、端末20は、前述したサーバ10の制御部100に含まれる全ての構成要素を含んでもよい。この場合、本開示に係る情報処理装置は端末20であり得る。また、この変形例では、サーバ10が必ずしも設置されなくてもよい。
別の変形例として、本開示に係る情報処理装置は、サーバ10に限定されず、前述したサーバ10の制御部100に含まれる全ての構成要素を含む他の装置であってもよい。例えば、当該情報処理装置は、汎用PC、タブレット型端末、ゲーム機、スマートフォンなどの携帯電話、携帯型音楽プレーヤ、スピーカ、プロジェクタ、例えばHMDやスマートウォッチなどのウェアラブルデバイス、車載装置(カーナビゲーション装置など)、または、ロボット(例えばヒューマノイド型ロボットまたは自動運転車など)であってもよい。
前述した各実施形態の処理の流れにおける各ステップは、必ずしも記載された順序に沿って処理されなくてもよい。例えば、各ステップは、適宜順序が変更されて処理されてもよい。また、各ステップは、時系列的に処理される代わりに、一部並列的に又は個別的に処理されてもよい。また、記載されたステップのうちの一部が省略されたり、または、別のステップがさらに追加されてもよい。
(1)
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。
(2)
前記学習部は、さらに、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(1)に記載の情報処理装置。
(3)
前記第2の音声が前記第1の音声の言い直しであると判定された場合には、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習し、
前記第2の音声が前記第1の音声の言い直しではないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しない、前記(2)に記載の情報処理装置。
(4)
前記第2の音声が前記第1の音声の言い直しであると判定され、前記第1の音声の音声認識結果に対応する意味が特定不能であり、かつ、前記第2の音声の音声認識結果に対応する意味が特定可能であった場合に、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(3)に記載の情報処理装置。
(5)
前記学習部は、前記第1の音声の音声認識結果に対応する意味が前記第2の音声の音声認識結果に対応する意味と同一になるように、前記第1の音声の音声認識結果に対応する意味を学習する、前記(4)に記載の情報処理装置。
(6)
前記学習部は、さらに、前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの関係性に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記(2)〜(5)のいずれか一項に記載の情報処理装置。
(7)
前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しないことを決定し、
前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が前記所定の条件を満たさないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を、前記第2の音声の音声認識結果に対応する意味に基づいて学習することを決定する、前記(6)に記載の情報処理装置。
(8)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記学習部は、さらに、前記第2の発話の話者の過去の言い直しの成功頻度または前記第2の発話の話者の音声入力の利用頻度に基づいて、前記第1の発話の音声認識結果に対応する意味を学習するか否かを決定する、前記(6)または(7)に記載の情報処理装置。
(9)
前記学習部は、さらに、前記第2の音声のノンバーバル情報と前記第1の音声のノンバーバル情報との差に関する所定の評価値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、前記(6)〜(8)のいずれか一項に記載の情報処理装置。
(10)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、前記(6)〜(9)のいずれか一項に記載の情報処理装置。
(11)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、前記(6)〜(10)のいずれか一項に記載の情報処理装置。
(12)
前記学習部は、前記一以上の第1のユーザを所定の基準に基づいて動的に増加または減少させる、前記(10)または(11)に記載の情報処理装置。
(13)
前記学習部は、前記一以上の第1のユーザに対して一以上の第2のユーザを追加することを判断した場合には、前記一以上の第1のユーザのうちの少なくとも一人に対して前記一以上の第2のユーザの追加の諾否を問い合わせ、
前記一以上の第2のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第1のユーザに対して前記一以上の第2のユーザを追加する、前記(12)に記載の情報処理装置。
(14)
前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第2の発話が前記第1の発話の言い直しであると判定され、かつ、前記第2のタイミングの後の第3のタイミングに収音された第3の発話も前記第1の発話の言い直しであると判定された場合には、前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれかに基づいて、前記第1の発話の音声認識結果に対応する意味を学習する、前記(6)〜(13)のいずれか一項に記載の情報処理装置。
(15)
前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第1の発話の話者と前記第2の発話の話者との関係性を示す情報、および、前記第1の発話の話者と前記第3の発話の話者との関係性を示す情報に基づいて決定する、前記(14)に記載の情報処理装置。
(16)
前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第2の発話の音声認識結果に対応する意味の抽象度合いと、前記第3の発話の音声認識結果に対応する意味の抽象度合いとの比較に基づいて決定する、前記(14)または(15)に記載の情報処理装置。
(17)
前記第1の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第1の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、前記(6)〜(16)のいずれか一項に記載の情報処理装置。
(18)
前記第2の音声の意味解析の結果に基づいて、前記第2の音声が前記第1の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、前記(17)に記載の情報処理装置。
(19)
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第1の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。
(20)
コンピュータを、
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。
20 端末
22 通信網
100、200 制御部
102 音声認識部
104 意味解析部
106 言い直し判定部
108 学習部
110 出力制御部
120、220 通信部
122、226 記憶部
222 センサ部
224 出力部
Claims (20)
- 第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
を備える、情報処理装置。 - 前記学習部は、さらに、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、請求項1に記載の情報処理装置。
- 前記第2の音声が前記第1の音声の言い直しであると判定された場合には、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習し、
前記第2の音声が前記第1の音声の言い直しではないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しない、請求項2に記載の情報処理装置。 - 前記第2の音声が前記第1の音声の言い直しであると判定され、前記第1の音声の音声認識結果に対応する意味が特定不能であり、かつ、前記第2の音声の音声認識結果に対応する意味が特定可能であった場合に、前記学習部は、前記第2の音声の音声認識結果に対応する意味に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、請求項3に記載の情報処理装置。
- 前記学習部は、前記第1の音声の音声認識結果に対応する意味が前記第2の音声の音声認識結果に対応する意味と同一になるように、前記第1の音声の音声認識結果に対応する意味を学習する、請求項4に記載の情報処理装置。
- 前記学習部は、さらに、前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの関係性に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、請求項2に記載の情報処理装置。
- 前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が所定の条件を満たすと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を学習しないことを決定し、
前記第1のタイミングのコンテキストと前記第2のタイミングのコンテキストとの差に関する所定の評価値が前記所定の条件を満たさないと判定された場合には、前記学習部は、前記第1の音声の音声認識結果に対応する意味を、前記第2の音声の音声認識結果に対応する意味に基づいて学習することを決定する、請求項6に記載の情報処理装置。 - 前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記学習部は、さらに、前記第2の発話の話者の過去の言い直しの成功頻度または前記第2の発話の話者の音声入力の利用頻度に基づいて、前記第1の発話の音声認識結果に対応する意味を学習するか否かを決定する、請求項6に記載の情報処理装置。 - 前記学習部は、さらに、前記第2の音声のノンバーバル情報と前記第1の音声のノンバーバル情報との差に関する所定の評価値に基づいて、前記第1の音声の音声認識結果に対応する意味を学習するか否かを決定する、請求項6に記載の情報処理装置。
- 前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者が音声入力に慣れているか否かの判定結果に基づいて決定する、請求項6に記載の情報処理装置。 - 前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第1の発話の音声認識結果に対応する意味を学習することを決定した場合には、前記学習部は、さらに、前記第1の発話と略同一の発話を行った際に当該発話の意味が前記第1の発話の音声認識結果に対応する意味の学習結果と同一であると判定される一以上の第1のユーザを、前記第2の発話の話者と同一のコミュニティに属する一以上のユーザと決定する、請求項6に記載の情報処理装置。 - 前記学習部は、前記一以上の第1のユーザを所定の基準に基づいて動的に増加または減少させる、請求項10に記載の情報処理装置。
- 前記学習部は、前記一以上の第1のユーザに対して一以上の第2のユーザを追加することを判断した場合には、前記一以上の第1のユーザのうちの少なくとも一人に対して前記一以上の第2のユーザの追加の諾否を問い合わせ、
前記一以上の第2のユーザの追加を承諾することを示す回答が得られた場合には、前記学習部は、前記一以上の第1のユーザに対して前記一以上の第2のユーザを追加する、請求項12に記載の情報処理装置。 - 前記第1の音声は、第1の発話であり、
前記第2の音声は、第2の発話であり、
前記第2の発話が前記第1の発話の言い直しであると判定され、かつ、前記第2のタイミングの後の第3のタイミングに収音された第3の発話も前記第1の発話の言い直しであると判定された場合には、前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれかに基づいて、前記第1の発話の音声認識結果に対応する意味を学習する、請求項6に記載の情報処理装置。 - 前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第1の発話の話者と前記第2の発話の話者との関係性を示す情報、および、前記第1の発話の話者と前記第3の発話の話者との関係性を示す情報に基づいて決定する、請求項14に記載の情報処理装置。
- 前記学習部は、前記第2の発話の音声認識結果に対応する意味と、前記第3の発話の音声認識結果に対応する意味とのいずれに基づいて前記第1の発話の音声認識結果に対応する意味を学習するかを、前記第2の発話の音声認識結果に対応する意味の抽象度合いと、前記第3の発話の音声認識結果に対応する意味の抽象度合いとの比較に基づいて決定する、請求項14に記載の情報処理装置。
- 前記第1の音声の音声認識結果に対応する意味を前記学習部が学習した場合に、前記第1の音声の音声認識結果に対応する意味が学習済みであることを示す通知を出力部に出力させる出力制御部をさらに備える、請求項6に記載の情報処理装置。
- 前記第2の音声の意味解析の結果に基づいて、前記第2の音声が前記第1の音声の言い直しであるか否かを判定する判定部をさらに備え、
前記学習部は、さらに、前記判定部による判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する、請求項17に記載の情報処理装置。 - 第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、プロセッサが、前記第1の音声の音声認識結果に対応する意味を学習すること、
を含む、情報処理方法。 - コンピュータを、
第1のタイミングの後の第2のタイミングに収音された第2の音声が、前記第1のタイミングに収音された第1の音声の言い直しであるか否かの判定結果に基づいて、前記第1の音声の音声認識結果に対応する意味を学習する学習部、
として機能させるためのプログラム。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2018029347 | 2018-02-22 | ||
JP2018029347 | 2018-02-22 | ||
PCT/JP2018/044288 WO2019163247A1 (ja) | 2018-02-22 | 2018-11-30 | 情報処理装置、情報処理方法、および、プログラム |
Publications (2)
Publication Number | Publication Date |
---|---|
JPWO2019163247A1 true JPWO2019163247A1 (ja) | 2021-02-04 |
JP7375741B2 JP7375741B2 (ja) | 2023-11-08 |
Family
ID=67687541
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2020502034A Active JP7375741B2 (ja) | 2018-02-22 | 2018-11-30 | 情報処理装置、情報処理方法、および、プログラム |
Country Status (5)
Country | Link |
---|---|
US (1) | US11398221B2 (ja) |
EP (1) | EP3757988A4 (ja) |
JP (1) | JP7375741B2 (ja) |
CN (1) | CN111727473A (ja) |
WO (1) | WO2019163247A1 (ja) |
Families Citing this family (3)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
JP7363107B2 (ja) * | 2019-06-04 | 2023-10-18 | コニカミノルタ株式会社 | 発想支援装置、発想支援システム及びプログラム |
CN112562648A (zh) * | 2020-12-10 | 2021-03-26 | 平安科技(深圳)有限公司 | 基于元学习的自适应语音识别方法、装置、设备及介质 |
Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006215317A (ja) * | 2005-02-04 | 2006-08-17 | Hitachi Ltd | 音声認識システム、音声認識装置及び音声認識プログラム |
JP2007213005A (ja) * | 2006-01-10 | 2007-08-23 | Nissan Motor Co Ltd | 認識辞書システムおよびその更新方法 |
WO2016147401A1 (ja) * | 2015-03-19 | 2016-09-22 | 株式会社 東芝 | 分類装置、方法及びプログラム |
WO2016151699A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
JP2016180916A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
Family Cites Families (26)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
US5893059A (en) * | 1997-04-17 | 1999-04-06 | Nynex Science And Technology, Inc. | Speech recoginition methods and apparatus |
JP2008077601A (ja) * | 2006-09-25 | 2008-04-03 | Toshiba Corp | 機械翻訳装置、機械翻訳方法および機械翻訳プログラム |
EP2135231A4 (en) * | 2007-03-01 | 2014-10-15 | Adapx Inc | SYSTEM AND METHOD FOR DYNAMIC LEARNING |
US8473289B2 (en) | 2010-08-06 | 2013-06-25 | Google Inc. | Disambiguating input based on context |
US9257115B2 (en) * | 2012-03-08 | 2016-02-09 | Facebook, Inc. | Device for extracting information from a dialog |
KR101907406B1 (ko) * | 2012-05-08 | 2018-10-12 | 삼성전자 주식회사 | 통신 서비스 운용 방법 및 시스템 |
US9538114B2 (en) | 2013-02-22 | 2017-01-03 | The Directv Group, Inc. | Method and system for improving responsiveness of a voice recognition system |
KR102108500B1 (ko) * | 2013-02-22 | 2020-05-08 | 삼성전자 주식회사 | 번역 기반 통신 서비스 지원 방법 및 시스템과, 이를 지원하는 단말기 |
WO2014144949A2 (en) | 2013-03-15 | 2014-09-18 | Apple Inc. | Training an at least partial voice command system |
US11151899B2 (en) * | 2013-03-15 | 2021-10-19 | Apple Inc. | User training by intelligent digital assistant |
US10446141B2 (en) * | 2014-08-28 | 2019-10-15 | Apple Inc. | Automatic speech recognition based on user feedback |
JP6448765B2 (ja) * | 2015-03-20 | 2019-01-09 | 株式会社東芝 | 対話装置、方法及びプログラム |
JP6280074B2 (ja) | 2015-03-25 | 2018-02-14 | 日本電信電話株式会社 | 言い直し検出装置、音声認識システム、言い直し検出方法、プログラム |
JP2017117371A (ja) * | 2015-12-25 | 2017-06-29 | パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカPanasonic Intellectual Property Corporation of America | 制御方法、制御装置およびプログラム |
CN107526720A (zh) * | 2016-06-17 | 2017-12-29 | 松下知识产权经营株式会社 | 意思生成方法、意思生成装置以及程序 |
US10482885B1 (en) * | 2016-11-15 | 2019-11-19 | Amazon Technologies, Inc. | Speaker based anaphora resolution |
US10546578B2 (en) * | 2016-12-26 | 2020-01-28 | Samsung Electronics Co., Ltd. | Method and device for transmitting and receiving audio data |
US10354642B2 (en) * | 2017-03-03 | 2019-07-16 | Microsoft Technology Licensing, Llc | Hyperarticulation detection in repetitive voice queries using pairwise comparison for improved speech recognition |
US11501768B2 (en) * | 2017-03-10 | 2022-11-15 | Nippon Telegraph And Telephone Corporation | Dialogue method, dialogue system, dialogue apparatus and program |
EP3614330A4 (en) * | 2017-03-10 | 2020-11-18 | Koon Kim | LEARNING CONTENT PROVIDING DEVICE USING A BINARY PRINCIPLE, AND RELATED PROCESS |
US10600406B1 (en) * | 2017-03-20 | 2020-03-24 | Amazon Technologies, Inc. | Intent re-ranker |
US10567515B1 (en) * | 2017-10-26 | 2020-02-18 | Amazon Technologies, Inc. | Speech processing performed with respect to first and second user profiles in a dialog session |
US10715604B1 (en) * | 2017-10-26 | 2020-07-14 | Amazon Technologies, Inc. | Remote system processing based on a previously identified user |
JP7234926B2 (ja) | 2018-01-16 | 2023-03-08 | ソニーグループ株式会社 | 情報処理装置、情報処理システム、および情報処理方法、並びにプログラム |
EP3751393A4 (en) | 2018-02-09 | 2021-03-31 | Sony Corporation | INFORMATION PROCESSING DEVICE, INFORMATION PROCESSING SYSTEM, INFORMATION PROCESSING METHOD AND PROGRAM |
WO2019163247A1 (ja) * | 2018-02-22 | 2019-08-29 | ソニー株式会社 | 情報処理装置、情報処理方法、および、プログラム |
-
2018
- 2018-11-30 WO PCT/JP2018/044288 patent/WO2019163247A1/ja unknown
- 2018-11-30 EP EP18907172.3A patent/EP3757988A4/en not_active Withdrawn
- 2018-11-30 CN CN201880089383.0A patent/CN111727473A/zh not_active Withdrawn
- 2018-11-30 JP JP2020502034A patent/JP7375741B2/ja active Active
- 2018-11-30 US US16/969,979 patent/US11398221B2/en active Active
Patent Citations (5)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JP2006215317A (ja) * | 2005-02-04 | 2006-08-17 | Hitachi Ltd | 音声認識システム、音声認識装置及び音声認識プログラム |
JP2007213005A (ja) * | 2006-01-10 | 2007-08-23 | Nissan Motor Co Ltd | 認識辞書システムおよびその更新方法 |
WO2016147401A1 (ja) * | 2015-03-19 | 2016-09-22 | 株式会社 東芝 | 分類装置、方法及びプログラム |
WO2016151699A1 (ja) * | 2015-03-20 | 2016-09-29 | 株式会社 東芝 | 学習装置、方法およびプログラム |
JP2016180916A (ja) * | 2015-03-25 | 2016-10-13 | 日本電信電話株式会社 | 音声認識システム、音声認識方法、プログラム |
Also Published As
Publication number | Publication date |
---|---|
US11398221B2 (en) | 2022-07-26 |
JP7375741B2 (ja) | 2023-11-08 |
WO2019163247A1 (ja) | 2019-08-29 |
EP3757988A1 (en) | 2020-12-30 |
CN111727473A (zh) | 2020-09-29 |
EP3757988A4 (en) | 2021-03-31 |
US20200402498A1 (en) | 2020-12-24 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
AU2018241137B2 (en) | Dynamic thresholds for always listening speech trigger | |
CN108701458B (zh) | 话音识别 | |
US10496905B2 (en) | Intelligent assistant with intent-based information resolution | |
KR101726945B1 (ko) | 수동 시작/종료 포인팅 및 트리거 구문들에 대한 필요성의 저감 | |
US20180293221A1 (en) | Speech parsing with intelligent assistant | |
US20180260680A1 (en) | Intelligent device user interactions | |
JP7243625B2 (ja) | 情報処理装置、及び情報処理方法 | |
JP2022095759A (ja) | デジタルアシスタントのためのボイストリガ | |
JP7375741B2 (ja) | 情報処理装置、情報処理方法、および、プログラム | |
US20230046658A1 (en) | Synthesized speech audio data generated on behalf of human participant in conversation | |
EP3939039A1 (en) | Providing emotion management assistance | |
US20180350362A1 (en) | Information processing apparatus | |
CN116420188A (zh) | 从呼叫和音频消息中对其他说话者进行语音过滤 | |
CN116806355A (zh) | 具有说话人验证的话音快捷检测 | |
JP2021117371A (ja) | 情報処理装置、情報処理方法および情報処理プログラム | |
JP2021113835A (ja) | 音声処理装置および音声処理方法 | |
TWI833678B (zh) | 真實多人應答情境下的生成式聊天機器人之系統及其方法 | |
US20240079007A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
US11935557B2 (en) | Techniques for detecting and processing domain-specific terminology | |
WO2024053915A1 (en) | System and method for detecting a wakeup command for a voice assistant | |
US20210082427A1 (en) | Information processing apparatus and information processing method |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
A621 | Written request for application examination |
Free format text: JAPANESE INTERMEDIATE CODE: A621 Effective date: 20211109 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20221108 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20221228 |
|
A131 | Notification of reasons for refusal |
Free format text: JAPANESE INTERMEDIATE CODE: A131 Effective date: 20230425 |
|
A521 | Request for written amendment filed |
Free format text: JAPANESE INTERMEDIATE CODE: A523 Effective date: 20230619 |
|
TRDD | Decision of grant or rejection written | ||
A01 | Written decision to grant a patent or to grant a registration (utility model) |
Free format text: JAPANESE INTERMEDIATE CODE: A01 Effective date: 20230926 |
|
A61 | First payment of annual fees (during grant procedure) |
Free format text: JAPANESE INTERMEDIATE CODE: A61 Effective date: 20231009 |
|
R151 | Written notification of patent or utility model registration |
Ref document number: 7375741 Country of ref document: JP Free format text: JAPANESE INTERMEDIATE CODE: R151 |