WO2019202804A1

WO2019202804A1 - 音声処理装置および音声処理方法

Info

Publication number: WO2019202804A1
Application number: PCT/JP2019/002542
Authority: WO
Inventors: 知香明賀
Original assignee: ソニー株式会社
Priority date: 2018-04-19
Filing date: 2019-01-25
Publication date: 2019-10-24
Also published as: JP2021113835A; US20210166685A1

Abstract

【課題】ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得る。【解決手段】ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。

Description

音声処理装置および音声処理方法

　本開示は、音声処理装置および音声処理方法に関する。

　近年、音声エージェント機能を備える音声処理装置の普及が進んでいる。音声エージェント機能は、ユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する機能である。例えば、ユーザが「明日は渋谷で待ち合わせねってＡさんにメールして」という音声を発話すると、音声エージェント機能を備える音声処理装置は、音声の意味を解析し、事前に登録されているＡさんのメールアドレスを用いて、Ａさんに「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。音声エージェント機能による他の処理としては、例えば特許文献１に記載されているように、ユーザからの質問に回答する処理が挙げられる。

特開２０１６－１９２１２１号公報

　しかし、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。ユーザは、エラー音声を含む音声を発話した場合、最初から発話をやり直すことにより音声エージェント機能に正音声のみからなる音声を与えることが可能であるが、最初から発話をやり直すことはユーザにとって手間であった。

　そこで、本開示では、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能な、新規かつ改良された音声処理装置および音声処理方法を提案する。

　本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置が提供される。

　また、本開示によれば、ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、を含む、音声処理方法が提供される。

　以上説明したように本開示によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本開示の実施形態による音声処理装置２０の概要を示す説明図である。本開示の実施形態による音声処理装置２０の構成を示す説明図である。意味訂正の第１の例を示す説明図である。意味訂正の第２の例を示す説明図である。意味訂正の第３の例を示す説明図である。意味訂正の第４の例を示す説明図である。本開示の実施形態による音声処理装置２０の動作を示すフローチャートである。音声処理装置２０のハードウェア構成を示した説明図である。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する複数の構成要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。ただし、実質的に同一の機能構成を有する複数の構成要素の各々を特に区別する必要がない場合、複数の構成要素の各々に同一符号のみを付する。

　また、以下に示す項目順序に従って本開示を説明する。
　　１．音声処理装置の概要
　　２．音声処理装置の構成
　　３．意味訂正の具体例
　　　３－１．第１の例
　　　３－２．第２の例
　　　３－３．第３の例
　　　３－４．第４の例
　　４．音声処理装置の動作
　　５．変形例
　　６．ハードウェア構成
　　７．むすび

　＜１．音声処理装置の概要＞
　まず、図１を参照して、本開示の実施形態による音声処理装置の概要を説明する。

　図１は、本開示の実施形態による音声処理装置２０の概要を示す説明図である。図１に示したように、音声処理装置２０は、一例として家屋に配置される。音声処理装置２０は、音声処理装置２０のユーザが発話した音声の意味を解析し、解析により得られた意味に従った処理を実行する、音声エージェント機能を有する。

　例えば、図１に示したように、音声処理装置２０のユーザが「明日は渋谷で待ち合わせねってＡさんにメールして」という音声を発話すると、音声処理装置２０は、音声の意味を解析し、タスクがメール送信であること、宛先がＡさんであること、およびメールの本文が「明日は渋谷で待ち合わせね」であることを理解する。そして、音声処理装置２０は、事前に登録されているＡさんのメールアドレスを用いて、ネットワーク１２を介して、Ａさんが利用する携帯端末３０に「明日は渋谷で待ち合わせね」という本文を含むメールを送信する。

　なお、図１においては、音声処理装置２０として据置型の装置を示しているが、音声処理装置２０は据置型の装置に限定されない。例えば、音声処理装置２０は、スマートフォン、携帯電話、ＰＨＳ（Ｐｅｒｓｏｎａｌ　Ｈａｎｄｙｐｈｏｎｅ　Ｓｙｓｔｅｍ）、携帯用音楽再生装置、携帯用映像処理装置、携帯用ゲーム機器などの携帯型の情報処理装置であってもよいし、自律移動式のロボットであってもよい。また、ネットワーク１２は、ネットワーク１２に接続されている装置から送信される情報の有線、または無線の伝送路である。例えば、ネットワーク１２は、インターネット、電話回線網、衛星通信網などの公衆回線網や、Ｅｔｈｅｒｎｅｔ（登録商標）を含む各種のＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）、ＷＡＮ（Ｗｉｄｅ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）などを含んでもよい。また、ネットワーク１２は、ＩＰ－ＶＰＮ（Ｉｎｔｅｒｎｅｔ　Ｐｒｏｔｏｃｏｌ－Ｖｉｒｔｕａｌ　Ｐｒｉｖａｔｅ　Ｎｅｔｗｏｒｋ）などの専用回線網を含んでもよい。

　ここで、ユーザが発話する音声には、ユーザが伝達を望む意味が表現された正音声と、ユーザが伝達を望む意味が表現されていないエラー音声が含まれ得る。エラー音声の一例としては、「えーっと」、「あー」などのフィラー、「なんだっけ」などの独り言が挙げられる。また、「じゃなくて」のような否定語、および他の人に話しかける音声などもエラー音声に該当する場合がある。ユーザが、このようなエラー音声を含む音声を発話した場合、例えば、「明日は、えーとどこだっけ、渋谷で待ち合わせねってＡさんにメールして」という音声を発話した場合、最初から発話をやり直すことはユーザにとって手間であった。

　本件発明者は、上記事情を一着眼点にして本開示の実施形態を創作するに至った。本開示の実施形態によれば、ユーザに生じる手間を軽減してユーザが伝達を望む意味をユーザの音声から得ることが可能である。以下、このような本開示の実施形態による音声処理装置２０の構成および動作を順次詳細に説明する。

　　＜２．音声処理装置の構成＞
　図２は、本開示の実施形態による音声処理装置２０の構成を示す説明図である。図２に示したように、音声処理装置２０は、画像処理部２２０、音声処理部２４０、解析部２６０および処理実行部２８０を有する。

　（画像処理部）
　画像処理部２２０は、図２に示したように、撮像部２２１、顔画像抽出部２２２、眼特徴量抽出部２２３、視線識別部２２４、顔特徴量抽出部２２５、および表情識別部２２６を有する。

　撮像部２２１は、被写体を撮像し、被写体の画像を取得する。撮像部２２１は、取得した被写体の画像を顔画像抽出部２２２に出力する。

　顔画像抽出部２２２は、撮像部２２１から入力される画像内に人物領域が存在しているか否かを識別する。顔画像抽出部２２２は、撮像部２２１に人物領域が存在している場合、当該人物領域における顔画像を抽出し、ユーザの識別を行う。顔画像抽出部２２２により抽出された顔画像は、眼特徴量抽出部２２３および顔特徴量抽出部２２５に出力される。

　眼特徴量抽出部２２３は、顔画像抽出部２２２から入力される顔画像を解析し、ユーザの視線を識別するための特徴量を抽出する。

　視線識別部２２４は、ユーザの挙動を解析する挙動解析部の一例であり、眼特徴量抽出部２２３により抽出された特徴量に基づき、視線の方向を識別する。視線識別部２２４は、視線の方向に加えて、顔の向きも識別する。視線識別部２２４により得られる視線の方向、視線の変化、および顔の向きは、ユーザの挙動の解析結果の一例として、解析部２６０に出力される。

　顔特徴量抽出部２２５は、顔画像抽出部２２２から入力される顔画像に基づき、ユーザの表情を識別するための特徴量を抽出する。

　表情識別部２２６は、ユーザの挙動を解析する挙動解析部の一例であり、顔特徴量抽出部２２５により抽出された特徴量に基づき、ユーザの表情を識別する。例えば、表情識別部２２６は、ユーザの発話中に表情は変化したのか、また、表情の変化はどのような感情に基づくものか、例えば、怒っているのか、笑っているのか、困っているのか、等を認識し、表情に対応する感情を識別してもよい。ここで、表情と感情の対応関係は、設計者により明示的に目や口の状態を用いるルールとして与えられてもよいし、表情と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、動画ベースで時系列情報を活用することも可能であるし、基準の画像（例えば、無表情画像）を準備しておき、表情識別部２２６は、基準の画像と顔画像抽出部２２２から出力された顔画像との差分によって、ユーザの表情を識別してもよい。表情識別部２２６により識別されるユーザの表情およびユーザの表情の変化は、ユーザの挙動の解析結果の一例として、解析部２６０に出力される。なお、音声処理装置２０は、ユーザの挙動の解析結果として、撮像部２２１により得られた画像を用いて、ユーザが他の人に話しかけているのか、または音声処理装置２０に対して音声を発しているのかを得ることも可能である。

　（音声処理部）
　音声処理部２４０は、図２に示したように、集音部２４１、音声区間検出部２４２、音声認識部２４３、単語検出部２４４、発話方向推定部２４５、音声特徴検出部２４６および感情識別部２４７を有する。

　集音部２４１は、環境音および音声を含む空気的な振動から電気的な音信号を取得する音声入力部の機能を有する。集音部２４１は、取得した音信号を音声区間検出部２４２に出力する。

　音声区間検出部２４２は、集音部２４１から入力される音信号を解析し、音信号の強さ（振幅）、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する。音声区間検出部２４２は、音声区間に該当する音信号、すなわち音声信号を、音声認識部２４３、発話方向推定部２４５および音声特徴検出部２４６に出力する。音声区間検出部２４２は、１発話区間を音声の途切れ目で分割することにより複数の音声区間を得てもよい。

　音声認識部２４３は、音声区間検出部２４２から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る。音声認識部２４３より得られた文字列は、単語検出部２４４および解析部２６０に出力される。

　単語検出部２４４は、ユーザが伝達を望む意味が表現されていないエラー音声に該当し得る単語のリストを記憶しており、音声認識部２４３から入力された文字列から、記憶されている単語を検出する。例えば、単語検出部２４４は、「えーっと」、「あー」などのフィラーに該当する単語、「なんだっけ」などの独り言に該当する単語、「じゃなくて」のような否定語に対応する単語などを、エラー音声に該当し得る単語として記憶している。単語検出部２４４は、検出された単語、および当該単語の属性（例えば、フィラー、または否定語、など）を解析部２６０に出力する。

　発話方向推定部２４５は、ユーザの挙動を解析する挙動解析部の一例であり、音声区間検出部２４２から入力される音声信号を解析し、音声処理装置２０から見たユーザの方向を推定する。集音部２４１が複数の集音素子から構成される場合、発話方向推定部２４５は、各集音素子により得られた音声信号の位相差に基づき、音声の音源方向である、音声処理装置２０から見たユーザの方向、およびユーザの移動を推定することが可能である。当該ユーザの方向、およびユーザの移動は、ユーザの挙動の解析結果の一例として、解析部２６０に出力される。

　音声特徴検出部２４６は、音声区間検出部２４２から入力される音声信号から、声の大きさ、声の高さ、およびピッチ変動などの音声特徴を検出する。なお、音声特徴検出部２４６は、音声認識部２４３により得られた文字列および音声区間検出部２４２により検出された音声区間長に基づき、発話の速度を算出することも可能である。

　感情識別部２４７は、ユーザの挙動を解析する挙動解析部の一例であり、音声特徴検出部２４６により検出された音声の特徴に基づき、ユーザの感情を識別する。例えば、感情識別部２４７は、音声特徴検出部２４６により検出された音声の特徴に基づき、はきはきしゃべっているのか、ぼそぼそしゃべっているのか等の明瞭度、および普段と比較した相対的な発話の速さ、怒っているのか、困っているのか、等の、感情によって声に現れる情報を取得する。ここで、音声と感情の対応関係は、設計者により明示的に声の状態を用いるルールとして与えられてもよいし、声と感情が紐づいたデータの準備、当該データを用いる統計学習的な手法により求められてもよい。また、ユーザの基準の声を準備しておき、表情識別部２２６は、基準の声と音声区間検出部２４２から出力された音声との差分によって、ユーザの感情を識別してもよい。感情識別部２４７により識別されるユーザの感情および感情の変化は、ユーザの挙動の解析結果の一例として、解析部２６０に出力される。

　（解析部）
　解析部２６０は、図２に示したように、意味解析部２６２、記憶部２６４および訂正部２６６を有する。

　意味解析部２６２は、音声認識部２４３から入力される文字列の意味を解析する。意味解析部２６２は、例えば、「明日ご飯いらないってお母さんメールを送信して」というような文字列が入力された場合、この文字列に対して形態素解析を行い「メール」「送信」のようなキーワードから、タスクが「メールの送信」であることを判定する部分と、タスクを実現するために必要な引数として宛先および本文を取得する部分を有する。上記の例では、宛先として「お母さん」が取得され、本文として「明日ご飯いらない」が取得される。意味解析部２６２は、これらの解析結果を訂正部２６６に出力する。

　なお、意味解析の方法は、発話コーパスを作成した上で機械学習を用いて意味解析を実現する方法、ルールで意味解析を実現する方法、またはこれらの組み合わせのいずれであってもよい。また、意味解析の処理の一部である形態素解析では、単語単位で属性を付与する仕組みをもっており、内部には辞書を保持している。意味解析部２６２は、この属性を付与する仕組みと辞書により、発話に含まれる単語がどのような単語であるか、例えば人名であるのか、地名であるのか、一般名詞であるのか等の属性を付与することが可能である。

　記憶部２６４は、ユーザに関する情報の履歴を記憶する。例えば、記憶部２６４は、ユーザがこれまで音声処理装置２０に対して音声によりどのような命令を行ったか、画像処理部２２０および音声処理部２４０によりユーザに関してどのような状態が識別されたか、などを示す情報を記憶してもよい。

　訂正部２６６は、意味解析部２６２により得られた文字列の解析結果を訂正する。例えば、訂正部２６６は、視線識別部２２４から入力されるユーザの視線の変化、表情識別部２２６から入力されるユーザの表情の変化、単語検出部２４４から入力される単語の検出結果、記憶部２６４に記憶されているユーザに関する情報の履歴などに基づき、文字列に含まれるエラー音声に対応する部分を特定し、当該エラー音声に対応する部分を削除または置換により訂正する。訂正部２６６は、各入力とエラー音声との関係が記述されたルールに従ってエラー音声に対応する部分を特定してもよいし、各入力の統計学習に基づいてエラー音声に対応する部分を特定してもよい。訂正部２６６によるエラー音声に対応する部分を特定、および訂正処理については、「３．意味訂正の具体例」においてより具体的に説明する。

　（処理実行部）
　処理実行部２８０は、訂正部２６６による訂正後の意味に従った処理を実行する。例えば、処理実行部２８０は、訂正部２６６による訂正後の意味に従い、メールを送信する通信部であってもよいし、予定表に予定を入力する予定管理部であってもよいし、ユーザからの質問に対して回答を行う回答処理部であってもよいし、家電機器の動作を制御する機器制御部であってもよいし、表示内容を変更する表示制御部であってもよい。

　＜３．意味訂正の具体例＞
　以上、本開示の実施形態による音声処理装置２０の構成を説明した。続いて、音声処理装置２０の表情識別部２２６により行われる意味訂正の幾つかの具体例を順次説明する。

　　（３－１．第１の例）
　図３は、意味訂正の第１の例を示す説明図である。図３には、ユーザが「明日はえーっとどこだったけ渋谷で待ち合わせねってＡさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部２４２は、「明日は」という音声に対応する音声区間Ａ１、「えーっとどこだったけ」という音声に対応する音声区間Ａ２、および「渋谷で待ち合わせねってＡさんにメールして」という音声に対応する音声区間Ａ３を、一発話区間から検出する。そして、当該音声から、意味解析部２６２での解析により、タスクがメール送信であること、宛先がＡさんであること、およびメールの本文が「明日はえーっとどこだったけ渋谷で待ち合わせね」であること、が理解される。

　また、図３の例では、視線識別部２２４により、音声区間Ａ１およびＡ３において視線方向が正面であり、音声区間Ａ２において視線方向が左であることが識別され、表情識別部２２６により音声区間Ａ１～Ａ３に亘って表情が無表情であることが識別され、単語検出部２４４により音声区間Ａ２においてフィラーに該当する「えーっと」が検出され、発話方向推定部２４５により音声区間Ａ１～Ａ３に亘って発話方向が正面であることが推定されている。

　訂正部２６６は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図３に示した例では、音声区間Ａ２中でフィラーが検出されていること、音声区間Ａ２において視線が他方を向いていること、および音声区間Ａ２がメールの本文を示す部分であると判断されていること、などに基づき、訂正部２６６は、音声区間Ａ２に対応する音声部分がエラー音声（独り言、または他の人への話しかけ）であると特定する。

　結果、訂正部２６６は、意味解析部２６２により理解された発話の意味から、音声区間Ａ２に対応する部分の意味を削除する。すなわち、訂正部２６６は、メールの本文の意味を「明日はえーっとどこだったけ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部２８０により、Ａさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。

　　（３－２．第２の例）
　図４は、意味訂正の第２の例を示す説明図である。図４には、ユーザが「明日は渋谷で待ち合わせじゃなくて新宿で待ち合わせって予定に登録して」という音声を発話した例を示している。この例において、音声区間検出部２４２は、「明日は」という音声に対応する音声区間Ｂ１、「渋谷で待ち合わせ」という音声に対応する音声区間Ｂ２、および「じゃなくて新宿で待ち合わせって予定に登録して」という音声に対応する音声区間Ｂ３を、一発話区間から検出する。そして、当該音声から、意味解析部２６２での解析により、タスクが予定の登録であること、日時が明日であること、および内容が「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。

　また、図４の例では、視線識別部２２４により、音声区間Ｂ１～Ｂ３に亘って視線方向が正面であることが識別され、表情識別部２２６により音声区間Ｂ３において表情変化が検出され、単語検出部２４４により音声区間Ｂ２において否定語に該当する「じゃなくて」が検出され、発話方向推定部２４５により音声区間Ｂ１～Ｂ３に亘って発話方向が正面であることが推定されている。

　訂正部２６６は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図４に示した例では、音声区間Ｂ３において否定語が検出されていること、当該否定語（じゃなくて）の前後に地名が連続していること、否定語（じゃなくて）の発話の際に表情変化が検出されていることなどから、訂正部２６６は、ユーザが発話中に地名を訂正したと判断し、「渋谷で待ち合わせじゃなくて」に対応する音声部分がエラー音声であると特定する。

　結果、訂正部２６６は、意味解析部２６２により理解された発話の意味から、「渋谷で待ち合わせじゃなくて」に対応する音声部分の意味を削除する。すなわち、訂正部２６６は、予定の内容を「渋谷で待ち合わせじゃなくて新宿で待ち合わせ」から「新宿で待ち合わせ」に訂正する。かかる構成により、処理実行部２８０により、明日の予定として「新宿で待ち合わせ」が登録される。

　　（３－３．第３の例）
　図５は、意味訂正の第３の例を示す説明図である。図５には、ユーザが「Ｂちゃんに、渋谷じゃなくて新宿で待ち合わせってメールして」という音声を発話した例を示している。この例において、音声区間検出部２４２は、「Ｂちゃんに」という音声に対応する音声区間Ｃ１、「渋谷じゃなくて新宿で待ち合わせ」という音声に対応する音声区間Ｃ２、および「ってメールして」という音声に対応する音声区間Ｃ３を、一発話区間から検出する。そして、当該音声から、意味解析部２６２での解析により、タスクがメールの送信であること、宛先がＢちゃんであること、および本文が「渋谷じゃなくて新宿で待ち合わせ」であること、渋谷および新宿の単語属性が地名であること、が理解される。

　また、図５の例では、視線識別部２２４により、音声区間Ｃ１～Ｃ３に亘って視線方向が正面であることが識別され、表情識別部２２６により音声区間Ｃ１～Ｃ３に亘って表情が無表情であることが検出され、単語検出部２４４により音声区間Ｃ２において否定語に該当する「じゃなくて」が検出され、発話方向推定部２４５により音声区間Ｃ１～Ｃ３に亘って発話方向が正面であることが推定されている。

　訂正部２６６は、視線方向、表情および発話方向などのユーザの挙動の解析結果、および否定語の検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図５に示した例では、音声区間Ｃ２において否定語（じゃなくて）が検出されている。しかし、視線、表情および発話方向などのユーザの挙動に変化が見られない。また、記憶部２６４には、Ｂちゃんとユーザの関係が「友人」であることを示す情報が記憶されており、友人間でのメールの本文には口語調の否定語がふくまれ得る。また、メールの本文には否定語が入る可能性がある。訂正部２６６は、これらの状況および事情に基づき、音声区間Ｃ２に含まれる否定語（じゃなくて）をエラー音声として扱わない。すなわち、訂正部２６６は、意味解析部２６２により理解された発話の意味の訂正を行わない。結果、処理実行部２８０により、Ｂちゃんに「渋谷じゃなくて新宿で待ち合わせ」という本文を有するメールが送信される。

　　（３－４．第４の例）
　図６は、意味訂正の第４の例を示す説明図である。図６には、ユーザ１が「明日はえーっとどこだっけ」という音声を発話し、ユーザ２が「渋谷だよ」という音声を発話し、ユーザ１が「渋谷で待ち合わせねってＣさんにメールして」という音声を発話した例を示している。この例において、音声区間検出部２４２は、「明日は」という音声に対応する音声区間Ｄ１、「えーっとどこだっけ」という音声に対応する音声区間Ｄ２、「渋谷だよ」という音声に対応する音声区間Ｄ３、および「渋谷で待ち合わせねってＣさんにメールして」という音声に対応する音声区間Ｄ４を、一発話区間から検出する。そして、当該音声から、意味解析部２６２での解析により、タスクがメールの送信であること、宛先がＣさんであること、および本文が「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」であること、が理解される。

　また、図６の例では、視線識別部２２４により、音声区間Ｄ１およびＤ４において視線方向が正面であること、および音声区間Ｄ２～Ｄ３に亘って視線方向が左であることが識別され、表情識別部２２６により音声区間Ｄ１～Ｄ４に亘って表情が無表情であることが検出され、単語検出部２４４により音声区間Ｄ２においてフィラーに該当する「えーっと」が検出され、発話方向推定部２４５により音声区間Ｄ１～Ｄ２およびＤ４において発話方向が正面であること、および音声区間Ｄ３において発話方向が左であることが推定されている。

　訂正部２６６は、視線方向、表情および発話方向などのユーザの挙動の解析結果、およびフィラーの検出などに基づき、ユーザが発した各音声部分が正音声に対応する部分であるか、エラー音声に対応する部分であるかを特定する。図６に示した例では、音声区間Ｄ２においてフィラー（えーっと）が検出されていること、音声区間Ｄ２においては視線が左に変化したこと、音声区間Ｄ２がメールの本文を示す部分であると判断されていること、などに基づき、訂正部２６６は、音声区間Ｄ２に対応する音声部分がエラー音声（独り言、または他の人への話しかけ）であると特定する。

　また、図６に示した例では、音声区間Ｄ３において発話方向が左に変化していることから、音声区間Ｄ３の音声は、他の音声区間の音声を発話したユーザと異なるユーザが発話したと考えられる。このため、訂正部２６６は、音声区間Ｄ３に対応する音声部分がエラー音声（他の人による発話）であると特定する。

　結果、訂正部２６６は、意味解析部２６２により理解された発話の意味から、音声区間Ｄ２およびＤ３に対応する部分の意味を削除する。すなわち、訂正部２６６は、メールの本文の意味を「明日はえーっとどこだっけ渋谷だよ渋谷で待ち合わせね」から「明日は渋谷で待ち合わせね」に訂正する。かかる構成により、処理実行部２８０により、Ｃさんに、ユーザが伝達を望む「明日は渋谷で待ち合わせね」という本文を有するメールが送信される。

　なお、上記では音声処理装置２０に処理を依頼する発話をしているユーザ以外が発話した音声も意味解析部２６２に入力される例を説明したが、発話方向推定部２４５により推定される発話方向により、他のユーザによる発話であることが理解される音声は、意味解析部２６２に入力される前に削除することも可能である。

　＜４．音声処理装置の動作＞
　以上、本開示の実施形態による音声処理装置２０の構成および処理の具体例を説明した。続いて、図７を参照し、本開示の実施形態による音声処理装置２０の動作を整理する。

　図７は、本開示の実施形態による音声処理装置２０の動作を示すフローチャートである。図７に示したように、本開示の実施形態による音声処理装置２０の音声区間検出部２４２が、集音部２４１から入力される音信号を解析し、音信号の強さ（振幅）、および音声らしさを示す特徴量を用いて、音信号において音声信号に該当する音声区間を検出する（Ｓ３１０）。

　そして、音声認識部２４３は、音声区間検出部２４２から入力される音声信号を認識し、ユーザが発話した音声を表す文字列を得る（Ｓ３２０）。続いて、意味解析部２６２が、音声認識部２４３から入力される文字列の意味を解析する（Ｓ３３０）。

　上述したＳ３１０～Ｓ３３０の処理と並行して、音声処理装置２０は、ユーザの挙動を解析する（Ｓ３４０）。例えば、音声処理装置２０の視線識別部２２４がユーザの視線の方向を識別し、表情識別部２２６がユーザの表情を識別する。

　その後、訂正部２６６は、記憶部２６４に記憶されている履歴情報、およびユーザの挙動の解析結果などに基づき、意味解析部２６２により得られた文字列の解析結果を訂正する（Ｓ３５０）。そして、処理実行部２８０が、訂正部２６６による訂正後の意味に従った処理を実行する（Ｓ３６０）。

　＜５．変形例＞
　以上、本開示の実施形態を説明した。以下では、本開示の実施形態の幾つかの変形例を説明する。なお、以下に説明する各変形例は、単独で本開示の実施形態に適用されてもよいし、組み合わせで本開示の実施形態に適用されてもよい。また、各変形例は、本開示の実施形態で説明した構成に代えて適用されてもよいし、本開示の実施形態で説明した構成に対して追加的に適用されてもよい。

　例えば、訂正部２６６の機能は、使用されるアプリケーション、すなわち、意味解析部２６２により解析された意味におけるタスクに応じて、有効化／非有効化されてもよい。具体的には、エラー音声が入り易いアプリケーション、エラー音声が入り難いアプリケーションが存在する場合に、訂正部２６６の機能は、エラー音声が入り難いアプリケーションにおいて非有効化され、エラー音声が入り易いアプリケーションにおいて有効化されてもよい。かかる構成により、ユーザが意図しない訂正の発生を抑制することが可能である。

　また、上記実施形態では、意味解析部２６２による意味解析の後に、訂正部２６６が意味の訂正を行う例を説明したが、処理順序および処理内容は上述した例に限定されない。例えば、訂正部２６６がエラー音声部分を削除した後に、意味解析部２６２がエラー音声部分が削除された文字列の意味を解析してもよい。かかる構成により、意味解析部２６２による意味解析の対象となる文字列長を短縮し、意味解析部２６２における処理負荷を軽減することが可能となる。

　また、上記実施形態では、図２に示した複数の機能が音声処理装置２０に実装される例を説明したが、図２に示した複数の機能のうちの少なくとも一部は外部サーバに実装されてもよい。例えば、眼特徴量抽出部２２３、視線識別部２２４、顔特徴量抽出部２２５、表情識別部２２６、音声区間検出部２４２、音声認識部２４３、発話方向推定部２４５、音声特徴検出部２４６および感情識別部２４７の機能は、ネットワーク上のクラウドサーバに実装されてもよい。単語検出部２４４の機能は、音声処理装置２０に実装されつつ、ネットワーク上のクラウドサーバにも実装されてもよい。また、解析部２６０がクラウドサーバに実装されてもよく、この場合、クラウドサーバが音声処理装置としての機能を担う。

　＜６．ハードウェア構成＞
　以上、本開示の実施形態を説明した。上述した画像処理、音声処理および意味解析などの情報処理は、ソフトウェアと、以下に説明する音声処理装置２０のハードウェアとの協働により実現される。

　図８は、音声処理装置２０のハードウェア構成を示した説明図である。図８に示したように、音声処理装置２０は、ＣＰＵ（Ｃｅｎｔｒａｌ　Ｐｒｏｃｅｓｓｉｎｇ　Ｕｎｉｔ）２０１と、ＲＯＭ（Ｒｅａｄ　Ｏｎｌｙ　Ｍｅｍｏｒｙ）２０２と、ＲＡＭ（Ｒａｎｄｏｍ　Ａｃｃｅｓｓ　Ｍｅｍｏｒｙ）２０３と、入力装置２０８と、出力装置２１０と、ストレージ装置２１１と、ドライブ２１２と、撮像装置２１３と、通信装置２１５とを備える。

　ＣＰＵ２０１は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理装置２０内の動作全般を制御する。また、ＣＰＵ２０１は、マイクロプロセッサであってもよい。ＲＯＭ２０２は、ＣＰＵ２０１が使用するプログラムや演算パラメータ等を記憶する。ＲＡＭ２０３は、ＣＰＵ２０１の実行において使用するプログラムや、その実行において適宜変化するパラメータ等を一時記憶する。これらはＣＰＵバスなどから構成されるホストバスにより相互に接続されている。ＣＰＵ２０１、ＲＯＭ２０２およびＲＡＭ２０３とソフトウェアとの協働により、図２を参照して説明した眼特徴量抽出部２２３、視線識別部２２４、顔特徴量抽出部２２５、表情識別部２２６、音声区間検出部２４２、音声認識部２４３、単語検出部２４４、発話方向推定部２４５、音声特徴検出部２４６、感情識別部２４７、解析部２６０および処理実行部２８０などの機能が実現され得る。

　入力装置２０８は、マウス、キーボード、タッチパネル、ボタン、マイクロフォン、スイッチおよびレバーなどユーザが情報を入力するための入力手段と、ユーザによる入力に基づいて入力信号を生成し、ＣＰＵ２０１に出力する入力制御回路などから構成されている。音声処理装置２０のユーザは、該入力装置２０８を操作することにより、音声処理装置２０に対して各種のデータを入力したり処理動作を指示したりすることができる。

　出力装置２１０は、例えば、液晶ディスプレイ（ＬＣＤ）装置、ＯＬＥＤ（Ｏｒｇａｎｉｃ　Ｌｉｇｈｔ　Ｅｍｉｔｔｉｎｇ　Ｄｉｏｄｅ）装置およびランプなどの表示装置を含む。さらに、出力装置２１０は、スピーカおよびヘッドホンなどの音声出力装置を含む。例えば、表示装置は、撮像された画像や生成された画像などを表示する。一方、音声出力装置は、音声データ等を音声に変換して出力する。

　ストレージ装置２１１は、本実施形態にかかる音声処理装置２０の記憶部の一例として構成されたデータ格納用の装置である。ストレージ装置２１１は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置などを含んでもよい。このストレージ装置２１１は、ＣＰＵ２０１が実行するプログラムや各種データを格納する。

　ドライブ２１２は、記憶媒体用リーダライタであり、音声処理装置２０に内蔵、あるいは外付けされる。ドライブ２１２は、装着されている磁気ディスク、光ディスク、光磁気ディスク、または半導体メモリ等のリムーバブル記憶媒体２４に記録されている情報を読み出して、ＲＡＭ２０３に出力する。また、ドライブ２１２は、リムーバブル記憶媒体２４に情報を書き込むこともできる。

　撮像装置２１３は、光を集光する撮影レンズおよびズームレンズなどの撮像光学系、およびＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）またはＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）などの信号変換素子を備える。撮像光学系は、被写体から発せられる光を集光して信号変換部に被写体像を形成し、信号変換素子は、形成された被写体像を電気的な画像信号に変換する。

　通信装置２１５は、例えば、ネットワーク１２に接続するための通信デバイス等で構成された通信インタフェースである。また、通信装置２１５は、無線ＬＡＮ（Ｌｏｃａｌ　Ａｒｅａ　Ｎｅｔｗｏｒｋ）対応通信装置であっても、ＬＴＥ（Ｌｏｎｇ　Ｔｅｒｍ　Ｅｖｏｌｕｔｉｏｎ）対応通信装置であっても、有線による通信を行うワイヤー通信装置であってもよい。

　＜７．むすび＞
　以上説明した本開示の実施形態によれば、多様な作用効果が得られる。例えば、本開示の実施形態による音声処理装置２０は、特定の単語が検出されたことだけでなく、特定の単語が検出された際のユーザの挙動を用いて正音声に対応する部分およびエラー音声に対応する部分を特定するので、より適切な特定結果を得ることが可能である。また、本開示の実施形態による音声処理装置２０は、発話方向をさらに用いることにより、音声処理装置２０へ発話しているユーザと異なるユーザが発話した音声をエラー音声として特定することも可能である。

　そして、本開示の実施形態による音声処理装置２０は、エラー音声として特定された部分の意味を削除または修正する。従って、エラー音声が混じっても、ユーザが発話をし直すことなく、ユーザが伝達を望む意味をユーザの音声から得ることが可能である。結果、ユーザに生じる手間を軽減することが可能である。

　なお、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、特許請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　例えば、本明細書の音声処理装置２０の処理における各ステップは、必ずしもフローチャートとして記載された順序に沿って時系列に処理する必要はない。例えば、音声処理装置２０の処理における各ステップは、フローチャートとして記載した順序と異なる順序で処理されても、並列的に処理されてもよい。

　また、音声処理装置２０に内蔵されるＣＰＵ、ＲＯＭおよびＲＡＭなどのハードウェアに、上述した音声処理装置２０の各構成と同等の機能を発揮させるためのコンピュータプログラムも作成可能である。また、該コンピュータプログラムを記憶させた記憶媒体も提供される。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　また、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
（２）
　前記解析部は、
　ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
　意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
を有する、前記（１）に記載の音声処理装置。
（３）
　前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、前記（２）に記載の音声処理装置。
（４）
　前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、前記（１）～（３）のいずれか一項に記載の音声処理装置。
（５）
　前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、前記（１）～（４）のいずれか一項に記載の音声処理装置。
（６）
　前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、前記（１）～（５）のいずれか一項に記載の音声処理装置。
（７）
　前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、前記（１）～（６）のいずれか一項に記載の音声処理装置。
（８）
　前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、前記（３）に記載の音声処理装置。
（９）
　前記所定の語句は、フィラーまたは否定語を含む、前記（８）に記載の音声処理装置。
（１０）
　前記音声処理装置は、
　ユーザが発話した音声が入力される音声入力部と、
　前記音声入力部に入力された音声を認識する音声認識部と、
　前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
　前記解析部により得られた意味に従った処理を行う処理実行部と、
をさらに備える、前記（１）～（９）のいずれか一項に記載の音声処理装置。
（１１）
　ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
を含む、音声処理方法。

２０　音声処理装置
３０　携帯端末
２２０　画像処理部
２２１　撮像部
２２２　顔画像抽出部
２２３　眼特徴量抽出部
２２４　視線識別部
２２５　顔特徴量抽出部
２２６　表情識別部
２４０　音声処理部
２４１　集音部
２４２　音声区間検出部
２４３　音声認識部
２４４　単語検出部
２４５　発話方向推定部
２４６　音声特徴検出部
２４７　感情識別部
２６０　解析部
２６２　意味解析部
２６４　記憶部
２６６　訂正部
２８０　処理実行部

Claims

　ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、前記音声の意味を解析する解析部を備える、音声処理装置。
　前記解析部は、
　ユーザが発話した前記音声の認識結果から前記音声の意味を解析する意味解析部と、
　意味解析部により得られた意味を、前記ユーザの挙動の解析結果に基づき訂正する訂正部と、
を有する、請求項１に記載の音声処理装置。
　前記訂正部は、ユーザの発話期間の一部の音声区間に対応する音声の意味を削除するか否かを、当該音声区間における前記ユーザの挙動の解析結果に基づいて判断する、請求項２に記載の音声処理装置。
　前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの視線の変化の解析結果を用いる、請求項１に記載の音声処理装置。
　前記解析部は、前記ユーザの挙動の解析結果として、前記ユーザの表情の変化の解析結果を用いる、請求項１に記載の音声処理装置。
　前記解析部は、前記ユーザの挙動の解析結果として、発話方向の変化の解析結果を用いる、請求項１に記載の音声処理装置。
　前記解析部は、さらに、前記ユーザと前記音声により示される他のユーザとの関係に基づき、前記音声の意味を解析する、請求項１に記載の音声処理装置。
　前記訂正部は、さらに、前記音声区間に所定の語句が含まれるか否かに基づき、当該音声区間に対応する音声の意味を削除するか否かを判断する、請求項３に記載の音声処理装置。
　前記所定の語句は、フィラーまたは否定語を含む、請求項８に記載の音声処理装置。
　前記音声処理装置は、
　ユーザが発話した音声が入力される音声入力部と、
　前記音声入力部に入力された音声を認識する音声認識部と、
　前記音声を前記ユーザが発話している間の前記ユーザの挙動を解析する挙動解析部と、
　前記解析部により得られた意味に従った処理を行う処理実行部と、
をさらに備える、請求項１に記載の音声処理装置。
　ユーザが発話した音声の認識結果、および前記ユーザが発話している間の前記ユーザの挙動の解析結果に基づき、プロセッサにより前記音声の意味を解析すること、
を含む、音声処理方法。