JPWO2019171732A1 - 情報処理装置、情報処理方法、プログラム及び情報処理システム - Google Patents

情報処理装置、情報処理方法、プログラム及び情報処理システム Download PDF

Info

Publication number
JPWO2019171732A1
JPWO2019171732A1 JP2020504813A JP2020504813A JPWO2019171732A1 JP WO2019171732 A1 JPWO2019171732 A1 JP WO2019171732A1 JP 2020504813 A JP2020504813 A JP 2020504813A JP 2020504813 A JP2020504813 A JP 2020504813A JP WO2019171732 A1 JPWO2019171732 A1 JP WO2019171732A1
Authority
JP
Japan
Prior art keywords
voice
input
information processing
unit
feature amount
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Pending
Application number
JP2020504813A
Other languages
English (en)
Inventor
衣未留 角尾
衣未留 角尾
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019171732A1 publication Critical patent/JPWO2019171732A1/ja
Pending legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/02Feature extraction for speech recognition; Selection of recognition unit
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/18Speech classification or search using natural language modelling
    • G10L15/1822Parsing for meaning understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04LTRANSMISSION OF DIGITAL INFORMATION, e.g. TELEGRAPHIC COMMUNICATION
    • H04L67/00Network arrangements or protocols for supporting network services or applications
    • H04L67/01Protocols
    • H04L67/12Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks
    • H04L67/125Protocols specially adapted for proprietary or special-purpose networking environments, e.g. medical networks, sensor networks, networks in vehicles or remote metering networks involving control of end-device applications over a network
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/16Speech classification or search using artificial neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L2015/088Word spotting
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • G10L2015/223Execution procedure of a spoken command

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Multimedia (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Networks & Wireless Communication (AREA)
  • Medical Informatics (AREA)
  • Computing Systems (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Artificial Intelligence (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

所定の音声が入力される入力部と、所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部とを有する情報処理装置である。図1

Description

本開示は、情報処理装置、情報処理方法、プログラム及び情報処理システムに関する。
音声認識を行う電子機器が提案されている(例えば、特許文献1及び2を参照のこと)。
特開2014−137430号公報 特開2017−191119号公報
このような分野では、エージェントに対する操作を意図しない発話に基づいて音声認識が行われ、エージェントが誤動作してしまうことを防止することが望まれる。
本開示は、例えば、ユーザがエージェントに対する操作を意図した音声を発した場合に、当該音声に応じた処理を行う情報処理装置、情報処理方法、プログラム及び情報処理システムを提供することを目的の一つとする。
本開示は、例えば、
所定の音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
を有する情報処理装置である。
本開示は、例えば、
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法である。
本開示は、例えば、
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法をコンピュータに実行させるプログラムである。
本開示は、例えば、
第1の装置と、第2の装置とを含み、
第1の装置は、
音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると判別部により判別された場合に、当該音声を第2の装置に送信する通信部と
を有し、
第2の装置は、
第1の装置から送信された音声に対する音声認識を行う音声認識部を有する
情報処理システムである。
本開示の少なくとも実施形態によれば、エージェントに対する操作を意図しない発話に基づいて音声認識が行われ、エージェントが誤動作してしまうことを防止することができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本開示中に記載されたいずれの効果であっても良い。また、例示された効果により本開示の内容が限定して解釈されるものではない。
図1は、一実施形態にかかるエージェントの構成例を示すブロック図である。 図2は、一実施形態にかかる機器操作意図判別部で行われる処理例を説明するための図である。 図3は、一実施形態にかかるエージェントで行われる処理の流れを示すフローチャートである。 図4は、変形例にかかる情報処理システムの構成例を示すブロック図である。
以下、本開示の実施形態等について図面を参照しながら説明する。なお、説明は以下の順序で行う。
<実施形態において考慮すべき問題>
<1.一実施形態>
<2.変形例>
以下に説明する実施形態等は本開示の好適な具体例であり、本開示の内容がこれらの実施形態等に限定されるものではない。
<実施形態において考慮すべき問題>
始めに本開示の理解を容易とするために、実施形態において考慮すべき問題について説明する。本実施形態では、音声認識を行うエージェント(機器)に対する操作を例にして説明する。エージェントとは、例えば、可搬可能な程度の大きさである音声出力装置若しくはそれらの装置が有するユーザとの音声対話機能を意味する。このような音声出力装置は、スマートスピーカなどとも称される。勿論、エージェントはスマートスピーカに限定されることなく、ロボット等であっても良い。エージェントに対してユーザが音声を発する。エージェントは、ユーザが発した音声を音声認識することにより、音声に対応した処理を実行したり、音声による回答を出力する。
かかる音声認識システムにおいてエージェントがユーザの発話を認識する際、ユーザが意図的にエージェントに話している場合は音声認識処理を行うべきであるが、独り言や周囲の他のユーザとの会話など、そうでない場合は音声認識をしないことが望まれる。ユーザの発話が、エージェントに対する発話であるか否かの判断をエージェントで行うことは難しく、一般的に、操作を意図していない発話に対しても音声認識処理を行い、誤った音声認識結果を得ることが多い。また、音声認識の結果からエージェントに対する操作意図の有無を識別する識別器の利用や、音声認識における確信度を利用することも考えられるが、処理量が大きくなってしまう問題がある。
ところで、ユーザが、エージェントに対する操作を意図した発話を行う場合に、「起動ワード」と呼ばれる、典型的な短いフレーズを発話した後にエージェントに対する操作を意図した発話がなされることが多い。起動ワードは、例えば、エージェントの愛称等である。具体例として、ユーザは起動ワードを発した後「ボリュームを大きくして」や「明日の天気を教えて」などを発話する。エージェントは、発話の内容を音声認識し、その結果に応じた処理を実行する。
このように、エージェントを操作する場合は必ず起動ワードを唱え、起動ワード後の発話は全てエージェントを操作するという前提で音声認識処理及び認識結果に応じた処理が行われる。しかしながら、かかる方法によれば、起動ワード後にエージェントに対する操作を意図しない独り言や、家族との会話、物音などが発生した場合に、エージェントが音声認識を誤る可能性がある。その結果、ユーザがエージェントに対する操作を意図しない発話をした場合に、意図しない処理がエージェントにより実行される虞がある。
また、よりインタラクティブなシステムを目指した場合、一度の起動ワードの発話で以降一定時間は続けて発話できるようにするなどの場合は、上述したようなエージェントに対する操作意図のない発話が生じる可能性が高くなる。かかる問題を考慮しつつ、本開示の一実施形態について説明する。
<1.一実施形態>
[エージェントの構成例]
図1は、一実施形態にかかる情報処理装置の一例であるエージェント(エージェント10)の構成例を示すブロック図である。エージェント10は、例えば、自宅内(屋内)に置かれる可搬可能な程度の小型のエージェントである。勿論、エージェント10が置かれる場所は、エージェント10のユーザが適宜、決めることができるし、エージェント10の大きさも小型でなくても良い。
エージェント10は、例えば、制御部101と、センサ部102と、出力部103と、通信部104と、入力部105と、特徴量記憶部106とを有している。
制御部101は、例えば、CPU(Central Processing Unit)等から構成されており、エージェント10の各部を制御する。制御部101は、プログラムが格納されるROM(Read Only Memory)や当該プログラムを実行する際にワークメモリとして使用されるRAM(Random Access Memory)を有している(なお、これらの図示は省略している。)。
制御部101は、その機能として起動ワード識別部101aと、特徴量抽出部101bと、機器操作意図判別部101cと、音声認識部101dとを有している。
識別部の一例である起動ワード識別部101aは、エージェント10に入力される音声に、所定のワードの一例である起動ワードが含まれるか否かを検出する。本実施形態にかかる起動ワードは、エージェント10の愛称を含むワードであるが、これに限定されるものではない。例えば、起動ワードをユーザが設定することも可能である。
特徴量抽出部101bは、エージェント10に入力される音声の音響特徴量を抽出する。特徴量抽出部101bは、パターンマッチングを行う音声認識処理に比べて処理的な負荷が小さい処理により音声に含まれる音響特徴量を抽出する。例えば、入力される音声の信号をFFT(Fast Fourier Transform)した結果に基づいて音響特徴量を抽出する。なお、本実施形態にかかる音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量を意味する。
判別部の一例である機器操作意図判別部101cは、例えば、起動ワードが含まれる音声が入力された後に入力される音声が、エージェント10に対する操作を意図したものであるか否かを判別する。そして、機器操作意図判別部101cは、判別結果を出力する。
音声認識部101dは、例えば、入力される音声に対してパターンマッチングを用いた音声認識を行う。なお、上述した起動ワード識別部101aによる音声認識は、予め決められた起動ワードに対応するパターンとのマッチング処理だけを行えば良いので、音声認識部101dが行う音声認識処理に比べて負荷が軽い処理である。制御部101は、音声認識部101dの音声認識結果に基づいた制御を実行する。
センサ部102は、例えば、ユーザの発話(音声)を検出するマイクロフォン(入力部の一例)である。勿論、センサ部102として他のセンサが適用されても良い。
出力部103は、例えば、音声認識によって制御部101により実行された制御の結果を出力するものである。出力部103は、例えば、スピーカ装置である。出力部103は、スピーカ装置ではなく、ディスプレイであっても良いし、プロジェクタであっても良いし、これらを組み合わせたものであっても良い。
通信部104は、インターネット等のネットワークを介して接続される他の装置と通信を行うものであり、通信方式に対応した変復調回路、アンテナ等の構成を有している。
入力部105は、ユーザからの操作入力を受け付けるものである。入力部105は、例えば、ボタン、レバー、スイッチ、タッチパネル、マイク、視線検出デバイス等である。入力部105は、自身に対してなされた入力に応じて操作信号を生成し、当該操作信号を制御部101に供給する。制御部101は、当該操作信号に応じた処理を実行する。
特徴量記憶部106は、特徴量抽出部101bにより抽出された特徴量を記憶する。特徴量記憶部106は、エージェント10に内蔵されるハードディスク、半導体メモリ等でも良いし、エージェント10に着脱自在とされるメモリであっても良いし、それらの組み合わせでも良い。
なお、エージェント10は商用電源から供給される電力に基づいて駆動する構成でも良いし、充放電可能なリチウムイオン二次電池等から供給される電力に基づいて駆動する構成でも良い。
(機器操作意図判別部における処理例)
図2を参照して、機器操作意図判別部101cにおける処理の例を説明する。機器操作意図判別部101cは、入力音声から抽出した音響特徴量と、過去に記憶された音響特徴量(特徴量記憶部106から読み出された音響特徴量)とを用いて、操作意図の有無に関する識別処理を行う。
前段の処理では抽出された音響特徴量は複数レイヤーのニューラルネットワーク(NN)によって変換処理が行われたのち、時系列方向の情報を蓄積する処理を行う。これには平均、分散などの統計量を計算するのでも良いし、LSTM(Long Short Time Memory)などの時系列処理モジュールを利用しても良い。過去に記憶した起動ワード及び現在の音響特徴量から、この処理によってそれぞれベクトル情報を計算し、後段の複数レイヤーのニューラルネットワークに並列に入力する。本例では、単純に2つのベクトルを連結させて1つのベクトルとして入力する。最終層ではエージェント10に対する操作意図があるかないかを示す2次元の値を計算し、Softmax関数などによって識別結果を出力する。
かかる機器操作意図判別部101cは、事前に大量のラベル付きデータによって教師あり学習を行うことでパラメータを学習しておく。前段と後段を統合的に学習することでより最適な識別器の学習が実現する。また、前段処理の結果のベクトルが、エージェントに対する操作意図があるものとないもので大きく異なるようになるような制約を目的関数に加えることも可能である。
[エージェントの動作例]
(動作の概要)
次に、エージェント10の動作例について説明する。始めに、動作の概要について説明する。エージェント10は、起動ワードを認識した際に、起動ワード(当該起動ワードを含む音声でも良い)の音響特徴量を抽出して記憶する。ユーザが起動ワードを発する場合は、エージェント10に対する操作意図をもった発話である場合がほとんどである。また、エージェント10に対する操作意図をもってユーザが発話する場合は、エージェント10に対して正確な認識が行われるように、ユーザは、はっきりと明瞭に、比較的大きな声で、分かりやすく発話する傾向がある。
一方で、エージェント10に対する操作を意図しない独り言や他者との会話では、より自然に、人間に理解できる程度の音量や話速で、多くのフィラーや言いよどみを含みながら発話されることが多い。
即ち、エージェント10に対する操作意図をもった発話の場合は、音響特徴量として固有の傾向を示す場合が多く、例えば起動ワードに関する音響特徴量には、ユーザのエージェント10に対する操作意図がある発話の声色や声の高さ、話速、音量などの情報が含まれていることになる。従って、これらの音響特徴量を記憶して、エージェント10に対する操作意図の有無を識別する処理で利用することにより、高い精度での識別が可能となる。また、多数のパターンとマッチングを行う音声認識を用いてエージェント10に対する操作意図の有無を識別する処理に比べて、簡易な処理による識別が可能となる。更に、エージェント10に対する操作意図の有無を識別する処理を高精度に行うことが可能となる。
そして、ユーザがエージェント10に対する操作を意図した発話をしたと識別された場合に、当該発話の音声に対する音声認識(例えば、複数のパターンとのマッチングを行う音声認識)が行われる。エージェント10の制御部101は、音声認識の結果に応じた処理を実行する。
(処理の流れ)
エージェント10(より具体的には、エージェント10の制御部101)で行われる処理の流れの一例を、図3のフローチャートを参照して説明する。ステップST11では、起動ワード識別部101aが、センサ部102に入力される音声に起動ワードが含まれるか否かを識別する音声認識(起動ワード認識)を行う。そして、処理がステップST12に進む。
ステップST12では、ステップST11での音声認識の結果が起動ワードであったか否かが判断される。ここで、ステップST11での音声認識の結果が起動ワードである場合は、処理がステップST13に進む。
ステップST13では、発話受入期間が開始される。発話受入期間は、例えば、起動ワードが識別されたタイミングから所定の期間(例えば、10秒)設定される期間である。そして、この期間に入力された音声に対して、エージェント10に対する操作意図がある発話であるか否かの判断がなされる。なお、一度、発話受入期間が設定された後に、起動ワードが認識された場合には、当該発話受入期間を延長するようにしても良い。そして、処理がステップST14に進む。
ステップST14では、特徴量抽出部101bが音響特徴量を抽出する。特徴量抽出部101bは、起動ワードの音響特徴量のみを抽出するようにしても良いし、起動ワード以外の音声が含まれる場合には、当該起動ワードを含む音声の音響特徴量を抽出するようにしても良い。そして、処理がステップST15に進む。
ステップST15では、制御部101が抽出した音響特徴量を特徴量記憶部106に記憶する。そして、処理が終了する。
ユーザが起動ワードを発した後、起動ワードを含まない発話(エージェント10に対する操作意図が有る発話の場合もあれば、そうでない発話の場合もあり得る)、物音等がエージェント10のセンサ部102に入力される場合を考える。この場合にもステップST11の処理が行われる。
ステップST11の処理では起動ワードが認識されないことから、ステップST12の処理がNoとなり、処理がステップST16に進む。
ステップST16では、発話受入期間であるか否かが判断される。ここで、発話受入期間でない場合には、エージェントに対する操作意図を判別する処理は行われないので、処理が終了する。ステップST16における処理で、発話受入期間である場合には、処理がステップST17に進む。
ステップST17では、発話受入期間に入力された音声の音響特徴量が抽出される。そして、処理がステップST18に進む。
ステップST18では、機器操作意図判別部101cがエージェント10に対する操作意図の有無を判別する。例えば、機器操作意図判別部101cは、ステップST17で抽出された音響特徴量と、特徴量記憶部106から読み出された音響特徴量とを比較し、その一致度が所定以上である場合に、エージェント10に対するユーザの操作意図が有ると判別する。勿論、機器操作意図判別部101cがエージェント10に対する操作意図の有無を識別するアルゴリズムは、適宜変更可能である。そして、処理がステップST19に進む。
ステップST19では、機器操作意図判別部101cが判別結果を出力する。機器操作意図判別部101cは、例えば、エージェント10に対するユーザの操作意図が有ると判別した場合には、論理的な値である「1」を出力し、エージェント10に対するユーザの操作意図が無いと判別した場合には、論理的な値である「0」を出力する。そして、処理が終了する。
なお、図3では図示していないが、エージェント10に対するユーザの操作意図が有ると判別された場合には、音声認識部101dによる入力音声に対する音声認識処理が行われる。そして、音声認識処理の結果に応じた処理が制御部101による制御によって行われる。音声認識処理の結果に応じた処理は、エージェント10の機能に応じて、適宜変更できる。例えば、音声認識処理の結果が「天気の問いかけ」である場合には、例えば、制御部101は通信部104を制御して、外部の装置から天気に関する情報を取得する。そして、制御部101は、取得した天気情報に基づいて音声信号を合成し、当該音声信号に対応する音声を出力部103から出力する。これにより、ユーザに対して、天気に関する情報が音声により報知される。勿論、映像、若しくは映像と音声の組み合わせ等により天気に関する情報が報知されるようにしても良い。
以上説明した一実施形態により、複数のパターンマッチングを伴う音声認識処理の結果を待つことなく、エージェントに対する操作意図の有無を判別することができる。また、エージェントに対する操作意図がない発話によるエージェントの誤動作を防止することができる。また、起動ワードに対する認識を並行して行うことにより、エージェントに対する操作意図の有無を高精度で識別することができる。
また、エージェントに対する操作意図の有無を判別する際に、複数のパターンマッチングを伴う音声認識を直接使わないため、簡易な処理による判別が可能となる。また、エージェントの機能が他のデバイス(例えば、テレビジョン装置、白物家電、IoT(Internet of Things)機器等)に組み込まれる場合でも、操作意図の判別に伴う処理的な負荷が比較的小さいので、それらのデバイスへのエージェントの機能の導入が容易となる。また、起動ワード発声後にエージェントが誤動作することなく音声を受け入れ続けることが可能となり、よりインタラクティブな対話によるエージェント操作が実現可能となる。
<2.変形例>
以上、本開示の一実施形態について具体的に説明したが、本開示の内容は上述した実施形態に限定されるものではなく、本開示の技術的思想に基づく各種の変形が可能である。以下、変形例について説明する。
[変形例にかかる情報処理システムの構成例]
上述した一実施形態で説明した一部の処理がクラウド側で行われても良い。図4は、変形例にかかる情報処理システムの構成例を示している。なお、図4において、上述した一実施形態における構成と同一、同質の構成については、同一の参照符号を付している。
変形例にかかる情報処理システムは、例えば、エージェント10aとクラウドの一例であるサーバ20とを有している。エージェント10aがエージェント10と異なる点は、制御部101が音声認識部101dを有していない点である。
サーバ20は、例えば、サーバ制御部201と、サーバ通信部202とを有している。サーバ制御部201は、サーバ20の各部を制御する構成であり、機能として、例えば、音声認識部201aを有している。音声認識部201aは、例えば、一実施形態にかかる音声認識部101dと同様に動作する。
サーバ通信部202は、他の装置、例えば、エージェント10aと通信を行う構成であり、通信方式に応じた変復調回路、アンテナ等を有している。通信部104及びサーバ通信部202間で通信が行われることにより、エージェント10a及びサーバ20間での通信が行われ、各種のデータの送受信がなされる。
情報処理システムの動作例について説明する。発話受入期間に入力された音声に対して、機器操作意図判別部101cにより、エージェント10aに対する操作意図の有無が判別される。制御部101は、機器操作意図判別部101cがエージェント10aに対する操作意図が有ると判別した場合に通信部104を制御し、発話受入期間に入力された音声に対応する音声データをサーバ20に対して送信する。
エージェント10aから送信された音声データが、サーバ20のサーバ通信部202により受信される。サーバ通信部202は、受信した音声データをサーバ制御部201により供給する。そして、サーバ制御部201の音声認識部201aが受信した音声データに対する音声認識を実行する。サーバ制御部201が音声認識の結果を、サーバ通信部202を介してエージェント10aに送信する。サーバ制御部201が音声認識の結果に対応するデータをエージェント10aに送信するようにしても良い。
サーバ20で音声認識を行う場合に、エージェント10aに対する操作意図が無い発話がサーバ20に送信されてしまうことを防止できるので、通信負荷を軽くすることができる。また、エージェント10aに対する操作意図が無い発話をサーバ20に送信する必要がないため、セキュリティの観点からユーザに利点がある。即ち、不正なアクセス等により操作意図が無い発話が他者に取得されてしまうことを防止することができる。
このように、一実施形態におけるエージェント10の処理の一部がサーバで行われるようにしても良い。
[その他の変形例]
起動ワードの音響特徴量を記憶する際に、常に上書きし最新の音響特徴量を使うのでも良いし、一定期間のものを蓄積し、それら全てを利用するようにしても良い。常に最新の音響特徴量を用いることで、日々起こる変化、例えばユーザの入れ替りや風邪による声の変化やマスク着用による音響特徴量(例えば、音質)の変化などに柔軟に対応することができる。一方、蓄積した音響特徴量を用いる場合は、稀に起こり得る起動ワード識別部101aのエラーを最小限に抑える効果がある。また、起動ワードのみでなく、エージェントに対する操作意図があると判別された発話に対しても蓄積対象としてよい。その場合さまざまな発話のバリエーションを吸収できる。この場合に、起動ワード毎に対応する音響特徴量を対応付けて記憶するようにしても良い。
また、学習のバリエーションとして、一実施形態のように事前に機器操作意図判別部101cのパラメータを学習しておくやり方の他に、他のモーダルなどの情報を受けてユーザが使用するたびにさらに学習が行われるようにすることもできる。例えば、センサ部102として撮像装置を適用し、顔認識や視線認識を可能とする。顔認識や視線認識と組み合わせて、ユーザがエージェントの方を向いて明らかにエージェントに対する操作意図がある場合において、「エージェント操作意図あり」というようなラベル情報とともに実際のユーザの発話と共に学習するようにしても良い。その他にも、手を挙げたのを認識した結果や、タッチセンサによる接触検知の結果と組み合わせるようにしても良い。
上述した一実施形態では入力部としてセンサ部102を例にしたが、これに限定されるものではない。機器操作意図判別部がサーバに設けられる構成でも良く、この場合は、通信部や所定のインタフェースが入力部として機能する。
上述した一実施形態で説明した構成は一例に過ぎず、これに限定されるものではない。本開示の趣旨を逸脱しない範囲で、構成の追加、削除等が行われて良いことは言うまでもない。本開示は、装置、方法、プログラム、システム等の任意の形態で実現することもできる。また、一実施形態にかかるエージェントは、ロボット、家電製品、テレビ、車載機器、IoT機器等に組み込まれていても良い。
本開示は、以下の構成も採ることができる。
(1)
所定の音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
を有する情報処理装置。
(2)
前記音声に前記所定のワードが含まれるか否かを識別する識別部を有する
(1)に記載の情報処理装置。
(3)
前記音声に前記所定のワードが含まれる場合に、少なくとも前記ワードの音響特徴量を抽出する特徴量抽出部を有する
(2)に記載の情報処理装置。
(4)
前記特徴量抽出部により抽出された前記ワードの音響特徴量を記憶する記憶部を有する
(3)に記載の情報処理装置。
(5)
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に上書きして記憶される
(4)に記載の情報処理装置。
(6)
前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に共に記憶される
(4)に記載の情報処理装置。
(7)
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を他の装置に送信する通信部を有する
(1)から(6)までの何れかに記載の情報処理装置。
(8)
前記判別部は、所定のワードが含まれる音声が入力された後に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
(1)から(7)までの何れかに記載の情報処理装置。
(9)
前記判別部は、所定のワードが識別されたタイミングから所定期間内に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
(8)に記載の情報処理装置。
(10)
前記音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量である
(8)又は(9)に記載の情報処理装置。
(11)
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法。
(12)
判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
情報処理方法をコンピュータに実行させるプログラム。
(13)
第1の装置と、第2の装置とを含み、
前記第1の装置は、
音声が入力される入力部と、
所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を前記第2の装置に送信する通信部と
を有し、
前記第2の装置は、
前記第1の装置から送信された音声に対する音声認識を行う音声認識部を有する
情報処理システム。
10・・・エージェント、20・・・サーバ、101・・・制御部、101a・・・起動ワード識別部、101b・・・特徴量抽出部、101c・・・機器操作意図判別部、101d、201a・・・音声認識部、104・・・通信部、106・・・特徴量記憶部

Claims (13)

  1. 所定の音声が入力される入力部と、
    所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と
    を有する情報処理装置。
  2. 前記音声に前記所定のワードが含まれるか否かを識別する識別部を有する
    請求項1に記載の情報処理装置。
  3. 前記音声に前記所定のワードが含まれる場合に、少なくとも前記ワードの音響特徴量を抽出する特徴量抽出部を有する
    請求項2に記載の情報処理装置。
  4. 前記特徴量抽出部により抽出された前記ワードの音響特徴量を記憶する記憶部を有する
    請求項3に記載の情報処理装置。
  5. 前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に上書きして記憶される
    請求項4に記載の情報処理装置。
  6. 前記特徴量抽出部により抽出された前記ワードの音響特徴量が、過去に記憶された音響特徴量に共に記憶される
    請求項4に記載の情報処理装置。
  7. 前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を他の装置に送信する通信部を有する
    請求項1に記載の情報処理装置。
  8. 前記判別部は、所定のワードが含まれる音声が入力された後に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
    請求項1に記載の情報処理装置。
  9. 前記判別部は、所定のワードが識別されたタイミングから所定期間内に入力される音声の音響特徴量に基づいて、当該音声が機器に対する操作を意図したものであるか否かを判別する
    請求項8に記載の情報処理装置。
  10. 前記音響特徴量は、音色、音高、話速及び音量のうち少なくとも一つに関する特徴量である
    請求項8に記載の情報処理装置。
  11. 判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
    情報処理方法。
  12. 判別部が、入力部に対して所定のワードが含まれる音声が入力された後に前記入力部に入力される音声が、機器に対する操作を意図したものであるか否かを判別する
    情報処理方法をコンピュータに実行させるプログラム。
  13. 第1の装置と、第2の装置とを含み、
    前記第1の装置は、
    音声が入力される入力部と、
    所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであるか否かを判別する判別部と、
    前記所定のワードが含まれる音声が入力された後に入力される音声が、機器に対する操作を意図したものであると前記判別部により判別された場合に、当該音声を前記第2の装置に送信する通信部と
    を有し、
    前記第2の装置は、
    前記第1の装置から送信された音声に対する音声認識を行う音声認識部を有する
    情報処理システム。
JP2020504813A 2018-03-08 2018-12-28 情報処理装置、情報処理方法、プログラム及び情報処理システム Pending JPWO2019171732A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2018041394 2018-03-08
JP2018041394 2018-03-08
PCT/JP2018/048410 WO2019171732A1 (ja) 2018-03-08 2018-12-28 情報処理装置、情報処理方法、プログラム及び情報処理システム

Publications (1)

Publication Number Publication Date
JPWO2019171732A1 true JPWO2019171732A1 (ja) 2021-02-18

Family

ID=67846059

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2020504813A Pending JPWO2019171732A1 (ja) 2018-03-08 2018-12-28 情報処理装置、情報処理方法、プログラム及び情報処理システム

Country Status (5)

Country Link
US (1) US20200410987A1 (ja)
JP (1) JPWO2019171732A1 (ja)
CN (1) CN111656437A (ja)
DE (1) DE112018007242T5 (ja)
WO (1) WO2019171732A1 (ja)

Families Citing this family (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN108922528B (zh) * 2018-06-29 2020-10-23 百度在线网络技术(北京)有限公司 用于处理语音的方法和装置
US11948058B2 (en) * 2018-12-11 2024-04-02 Adobe Inc. Utilizing recurrent neural networks to recognize and extract open intent from text inputs
CN111475206B (zh) * 2019-01-04 2023-04-11 优奈柯恩(北京)科技有限公司 用于唤醒可穿戴设备的方法及装置
CN112652304B (zh) * 2020-12-02 2022-02-01 北京百度网讯科技有限公司 智能设备的语音交互方法、装置和电子设备
WO2022239142A1 (ja) * 2021-05-12 2022-11-17 三菱電機株式会社 音声認識装置及び音声認識方法

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145755A (ja) * 2007-12-17 2009-07-02 Toyota Motor Corp 音声認識装置
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
US20180061399A1 (en) * 2016-08-30 2018-03-01 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Spoken utterance stop event other than pause or cessation in spoken utterances stream

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2009145755A (ja) * 2007-12-17 2009-07-02 Toyota Motor Corp 音声認識装置
JP2016508007A (ja) * 2013-02-07 2016-03-10 アップル インコーポレイテッド デジタルアシスタントのためのボイストリガ
JP2015011170A (ja) * 2013-06-28 2015-01-19 株式会社ATR−Trek ローカルな音声認識を行なう音声認識クライアント装置
US20180061399A1 (en) * 2016-08-30 2018-03-01 Lenovo Enterprise Solutions (Singapore) Pte. Ltd. Spoken utterance stop event other than pause or cessation in spoken utterances stream

Also Published As

Publication number Publication date
DE112018007242T5 (de) 2020-12-10
CN111656437A (zh) 2020-09-11
WO2019171732A1 (ja) 2019-09-12
US20200410987A1 (en) 2020-12-31

Similar Documents

Publication Publication Date Title
JPWO2019171732A1 (ja) 情報処理装置、情報処理方法、プログラム及び情報処理システム
KR102513297B1 (ko) 전자 장치 및 전자 장치의 기능 실행 방법
KR102426717B1 (ko) 발화 인식 모델을 선택하는 시스템 및 전자 장치
CN102483918B (zh) 声音识别装置
CN105723450B (zh) 用于话语检测的包络比较的方法和系统
US20210065711A1 (en) Temporary account association with voice-enabled devices
KR20190111624A (ko) 전자 장치 및 전자 장치의 음성 인식 제어 방법
KR20200012928A (ko) 사용자 정의 가능한 웨이크업 음성 명령
US11804224B2 (en) Electronic device and method for operation thereof
US20210274001A1 (en) Electronic device, server and recording medium supporting task execution using external device
CN111341325A (zh) 声纹识别方法、装置、存储介质、电子装置
CN109564759A (zh) 说话人识别
US11514890B2 (en) Method for user voice input processing and electronic device supporting same
EP3826004A1 (en) Electronic device for processing user utterance, and control method therefor
JP6350903B2 (ja) 操作補助装置および操作補助方法
EP3794809B1 (en) Electronic device for performing task including call in response to user utterance and operation method thereof
WO2020044543A1 (ja) 情報処理装置、情報処理方法及びプログラム
KR20210001082A (ko) 사용자 발화를 처리하는 전자 장치와 그 동작 방법
KR20190139489A (ko) 음성 인식 서비스 운용 방법 및 이를 지원하는 전자 장치
KR20200057501A (ko) 전자 장치 및 그의 와이파이 연결 방법
US11664018B2 (en) Dialogue system, dialogue processing method
US11516039B2 (en) Performance mode control method and electronic device supporting same
WO2019175960A1 (ja) 音声処理装置および音声処理方法
CN112513845A (zh) 与语音使能设备的暂时账户关联
CN115579012A (zh) 语音识别方法、装置、存储介质及电子设备

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20211115

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220906

A02 Decision of refusal

Free format text: JAPANESE INTERMEDIATE CODE: A02

Effective date: 20230307