WO2016063587A1

WO2016063587A1 - 音声処理システム

Info

Publication number: WO2016063587A1
Application number: PCT/JP2015/070040
Authority: WO
Inventors: 俊之関矢; 秀人森; 誠羽生田; 優東ヶ崎; 雄哉平野
Original assignee: ソニー株式会社
Priority date: 2014-10-20
Filing date: 2015-07-13
Publication date: 2016-04-28
Also published as: CN108683972B; EP3211918A1; JP6747538B2; US20170280239A1; US11172292B2; US10306359B2; EP3211918A4; CN205508399U; CN105529033B; CN108683972A; CN105529033A; US20200213730A1; JP6503559B2; US10674258B2; JP2019134441A; JPWO2016063587A1; US20180317005A1; EP3413583A1; EP3211918B1

Abstract

【課題】より鮮明にユーザ音声を取得することが可能な音声処理システムを提供する。【解決手段】ユーザに装着される装着部を備え、前記装着部は、ビームフォーミングのための音声データを取得する音声取得部を少なくとも３つ有する、音声処理システム。

Description

音声処理システム

　本開示は、音声処理システムに関する。

　近年、ユーザの体の任意の場所に装着して、ユーザの状態をセンシングしたり、周囲の様子を撮像又は録音等したり、多様な情報をユーザに出力したりするウェアラブルデバイスが普及しつつある。例えば、ウェアラブルデバイスは、ライフログの分野やスポーツ支援の分野等の多様な分野で利用されている。

　ウェアラブルデバイスが取得する情報は、装着場所やユーザの状態、周囲の環境から多大な影響を受け得る。例えば、音声に関しては、ユーザの口から発せられる音声（以下、ユーザ音声とも称する）は、ウェアラブルデバイスと衣服との摩擦音や振動に係る音、周囲の環境音等の雑音に埋もれてしまう場合がある。このため、ユーザ音声をより鮮明に取得するための技術が求められている。

　例えば、下記特許文献１では、ヘッドセットにマイクを２つ設け、各マイクから入力された音声信号をマイクロホンアレー処理することで、雑音を抑圧してユーザ音声を強調した音声信号を取得する技術が開示されている。

特開２００５－３０３５７４号公報

　しかし、本技術分野では、さらなる性能向上が望まれている。そこで、本開示では、より鮮明にユーザ音声を取得することが可能な、新規かつ改良された音声処理システムを提案する。

　本開示によれば、ユーザに装着される装着部を備え、前記装着部は、ビームフォーミングのための音声データを取得する音声取得部を少なくとも３つ有する、音声処理システムが提供される。

　以上説明したように本開示によれば、より鮮明にユーザ音声を取得することが可能である。
　なお、上記の効果は必ずしも限定的なものではなく、上記の効果とともに、または上記の効果に代えて、本明細書に示されたいずれかの効果、または本明細書から把握され得る他の効果が奏されてもよい。

本実施形態に係る音声処理システムの外観構成の一例を示す図である。本実施形態に係る音声処理システムの外観構成の一例を示す図である。本実施形態に係る音声処理システムの外観構成の一例を示す図である。本実施形態に係る音声処理システムの外観構成の他の一例を示す図である。本実施形態に係る音声処理システムの外観構成の他の一例を示す図である。比較例に係る音声処理システムの外観構成の一例を示す図である。本実施形態に係る音声取得部の配置方針について説明するための図である。本実施形態に係る音声取得部の配置方針について説明するための図である。本実施形態に係る音声取得部の配置方針について説明するための図である。本実施形態に係る音声取得部の配置方針について説明するための図である。本実施形態に係る音声処理システムの内部構成の一例を示すブロック図である。本実施形態に係る音声処理システムにおいて実行される音声信号処理の流れの一例を示すフローチャートである。

　以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。

　また、本明細書及び図面において、実質的に同一の機能構成を有する要素を、同一の符号の後に異なるアルファベットを付して区別する場合もある。例えば、実質的に同一の機能構成を有する複数の要素を、必要に応じて音声取得部１１０Ａ、１１０Ｂ及び１１０Ｃのように区別する。ただし、実質的に同一の機能構成を有する複数の要素の各々を特に区別する必要がない場合、同一符号のみを付する。例えば、音声取得部１１０Ａ、１１０Ｂ及び１１０Ｃを特に区別する必要が無い場合には、単に音声取得部１１０と称する。

　なお、説明は以下の順序で行うものとする。
　　１．外観構成
　　２．音声取得部の配置
　　　２－１．配置方針
　　　２－２．実際の配置例
　　３．内部構成
　　４．動作処理
　　５．まとめ

　＜１．外観構成＞
　まず、図１～図６を参照して、本開示の一実施形態に係る音声処理システムの外観構成を説明する。

　図１～図３は、本実施形態に係る音声処理システムの外観構成の一例を示す図である。図１～図３に示すように、本実施形態に係る音声処理システム１は、首の両側から後ろ側（背中側）にかけて半周回するような形状の装着ユニット（装着部）を有する。そして、装着ユニットは、ユーザの首にかけられることでユーザに装着される。なお、図１～図３は、装着ユニットをユーザが装着した状態を各観点からみた図を示しており、具体的には、図１は、斜視図であり、図２はユーザの右側からみた側面図であり、図３はユーザの上側からみた平面図である。

　なお、本明細書では、上下左右前後といった方向を示す言葉を用いるが、これらの方向は後述する図８に示すようなユーザの直立姿勢における、ユーザの体の中心（例えば鳩尾の位置）からみた方向を示すものとする。例えば、「右」とはユーザの右半身側の方向を示し、「左」とはユーザの左半身側の方向を示し、「上」とはユーザの頭側の方向を示し、「下」とはユーザの足側の方向を示すものとする。また、「前」とはユーザの体が向く方向を示し、「後」とはユーザの背中側の方向を示すものとする。

　図１～図３に示すように、本実施形態に係る装着ユニットは、ユーザの首回りに装着される首かけ型であってもよい。装着ユニットは、ユーザの首に密着して装着されてもよいし、離間して装着されてもよい。首かけ型の装着ユニットの他の形状としては、例えば首下げ紐によりユーザに装着されるペンダント型や、頭にかけるヘッドバンドの代わりに首の後ろ側を通るネックバンドを有するヘッドセット型が考えられる。

　装着型ユニットの使用形態は、人体に直接的に装着されて使用される形態であってもよい。直接的に装着されて使用される形態とは、装着型ユニットと人体との間に何らの物体も存在しない状態で使用される形態を指す。例えば、図１～図３に示した装着ユニットが、ユーザの首の肌に接するように装着される場合は、本形態に該当する。他にも、頭部に直接的に装着されるヘッドセット型やメガネ型等の多様な形態が考えられる。

　装着型ユニットの使用形態は、人体に間接的に装着されて使用される形態であってもよい。間接的に装着されて使用される形態とは、装着型ユニットと人体との間に何らかの物体が存在する状態で使用される形態を指す。例えば、図１～図３に示した装着ユニットが、シャツの襟の下に隠れるように装着される等、服の上からユーザに接するように装着される場合は、本形態に該当する。他にも、首下げ紐によりユーザに装着されるペンダント型や、衣服に留め具等で留められるブローチ型等の多様な形態が考えられる。

　装着ユニットは、図１～図３に示すように、複数の音声取得部１１０（１１０Ａ、１１０Ｂ、１１０Ｃ及び１１０Ｄ）を有している。音声取得部１１０は、ユーザ音声、ユーザの話し相手が発話した音声、又は周囲の環境音等の音声データを取得する。音声取得部１１０により取得された音声データは、ユーザ音声を鮮明にしたり、ユーザの話し相手が発話した音声を鮮明にしたり、他の雑音を抑圧したりするビームフォーミング処理の対象となる。図１～図３に示すように、音声取得部がユーザに直に接しないようユーザ側に面しない部分（例えば、ユーザに接する面と反対側の面）に設けられる場合、首と装着ユニットとの摩擦により発生する雑音の影響を低減することができる。なお、図１～図３では、装着ユニットに音声取得部１１０が４つ設けられる構成を示したが、本技術はかかる例に限定されない。例えば、装着ユニットは、音声取得部を少なくとも３つ有していてもよく、５つ以上有していてもよい。

　本実施形態に係る音声処理システム１は、装着ユニット単体として実現されてもよいし、複数の装置の組み合わせとして実現されてもよい。例えば、音声処理システム１は、図１～図３に示した首かけ型の装着ユニット及び腕に装着されるリストバンド型の装着ユニットの組み合わせとして実現されてもよい。そして、音声処理システム１は、複数の装置に設けられた複数の音声取得部により取得された音声データを用いてビームフォーミング処理を行ってもよい。なお、以下では、音声処理システム１は図１～図３に示した装着ユニット単体として実現されるものとして説明を行う。

　装着ユニットの他の例を、図４及び図５に示した。図４及び図５は、本実施形態に係る音声処理システムの外観構成の他の一例を示す図である。図４は、メガネ型の装着ユニット単体から成る音声処理システム１の外観構成を示している。図５は、ネックバンド型の装着ユニット単体から成る音声処理システム１の外観構成を示している。図４及び図５に示した例においても、音声処理システム１は、図１～図３に示した例と同様に、複数の音声取得部１１０（１１０Ａ、１１０Ｂ、１１０Ｃ及び１１０Ｄ）を有している。

　ここで、図６を参照して、比較例について説明する。図６は、比較例に係る音声処理システムの外観構成の一例を示す図である。図６の左図及び右図は、いわゆるＢｌｕｅｔｏｏｔｈ（登録商標）ヘッドセットの外観構成例を示している。図６の左図に示した例では、比較例に係る音声処理システムは、２つの音声取得部９１０（９１０Ａ及び９１０Ｂ）を有し、ユーザの右耳にかけられることでユーザに装着される。図６の右図に示した例では、比較例に係る音声処理システムは、左右のイヤホンに連結されるケーブルに左右対称に設けられる２つの音声取得部９１０（９１０Ｃ及び９１０Ｄ）を有する。このように、図６の左図及び右図に示した例では、いずれも２つの音声取得部を有している。

　ここで、ウェアラブルデバイスでは、使用時にマイクとユーザの口との距離が離れてしまう場合があり、ユーザ音声が雑音に埋もれてしまう場合があった。比較例のような２つの音声取得部により取得された音声データを用いたビームフォーミング処理が行われたとしても、このような問題を解決することは困難である。

　そこで、本実施形態では、ビームフォーミング処理により雑音抑圧する場合における、雑音抑圧性能を向上させるような音声取得部１１０の配置を提案する。

　＜２．音声取得部の配置＞
　［２－１．配置方針］
　まず、図７～図１０を参照して、音声取得部１１０の配置方針について説明する。

　図７は、本実施形態に係る音声取得部１１０の配置方針について説明するための図である。図７の左図に示すように、目的音が到来する方向２１０に対して、直線的に音声取得部１１０を配置することを第１の配置方針とする。また、図７の左図に示すように、抑圧したい雑音が到来する方向２２０に対して、直線的に音声取得部１１０を配置することを第２の配置方針とする。本実施形態では、目的音であるユーザ音声が到来する方向である、ユーザの口の方向２１０に対して、直線的に音声取得部１１０Ａ及び１１０Ｂが配置され得る。第１及び第２の配置方針によれば、反対方向２２０から到来する雑音成分を効率的に抑圧することが可能である。なぜならば、ユーザの口の方向２１０から到来するユーザ音声が音声取得部１１０Ａ及び１１０Ｂに到達するまでの位相差（時間差）が大きい上に、反対方向２２０から到来する音声が音声取得部１１０Ｂ及び１１０Ａに到達するまでの位相差も大きいためである。図７の右図に示したポーラパターンが示すように、後述する制御部１６０によるビームフォーミング処理により、ユーザの口の方向２１０から到来するユーザ音声が強調され、反対方向２２０Ａ、２２０Ｂ及び２２０Ｃから到来する雑音成分が抑圧される。

　次いで、図８を参照して、抑圧したい雑音が到来する方向に関する音声取得部１１０の配置方針について詳しく説明する。

　図８は、本実施形態に係る音声取得部１１０の配置方針について説明するための図である。図８に示すように、本実施形態では、下方向に対して直線的に音声取得部１１０Ａ及び１１０Ｂを配置することを第３の配置方針とする。音声処理システム１が屋外で使用されることを想定すると、屋外で生じる雑音の多くは、図８に示すようにユーザの口を基準として地面の方向（下方向）又は水平方向から到来する。なお、地面の方向から到来する雑音は、ロードノイズとも称される。本配置方針によれば、ロードノイズが到来する下方向に対して直線的に音声取得部１１０が配置されることになるので、ビームフォーミング処理によりロードノイズが効率的に抑圧されることが可能となる。また、本配置方針によれば、下方向と水平方向との中間の斜め方向から到来する雑音についても、音声取得部１１０Ｂ及び１１０Ａに到達するまでの位相差が存在するため、ビームフォーミング処理により雑音が抑圧され得る。このように、本配置方針によれば、屋外環境における雑音を効率的に抑圧することが可能である。なお、ヘリコプターのプロペラ音や頭上に設置された液晶ディスプレイからの音声等に関しては、抑圧が困難な場合もあり得る。もちろん、装着ユニットの形状に応じて、音声取得部１１０Ａ及び１１０Ｂは、厳密に下方向（鉛直方向）へ直線的に配置されていなくてもよく、傾いて配置されてもよい。

　次いで、図９及び図１０を参照して、４つ以上の音声取得部１１０が設けられる場合における配置方針について詳しく説明する。

　図９は、本実施形態に係る音声取得部１１０の配置方針について説明するための図である。図９の左図に示すように、本実施形態では、複数の音声取得部１１０を立体的に配置することを第４の配置方針とする。詳しくは、４つの音声取得部１１０が設けられる位置をそれぞれ結んで形成される形状は立体である。なお、立体であるとは、任意の３つの音声取得部１１０の位置を含む平面上に、残り1つの音声取得部１１０が存在しないとも捉えることができる。このように立体的に配置される場合には、どの方向から到来する音声であっても、いずれか２以上の音声取得部１１０により取得された音声データに位相差が生じるので、あらゆる方向から到来する雑音を抑圧することが可能になる。また、図９の左図に示すように、４つの音声取得部１１０が設けられる位置をそれぞれ結んで形成される形状は正四面体である。複数の音声取得部１１０が設けられる位置をそれぞれ結んで形成される形状は、各音声取得部１１０からユーザの口までの距離が等間隔となる、正四面体のような正多面体であることが望ましい。もちろん、図９の右図の示すように、装着ユニットの形状に応じて、４つの音声取得部１１０が設けられる位置を結んで形成される形状が正四面体ではない四面体であってもよい。

　図１０は、本実施形態に係る音声取得部１１０の配置方針について説明するための図である。図１０に示すように、本実施形態では、少なくともいずれかのひとつの音声取得部１１０をユーザの口に近づけることを第５の配置方針とする。本配置方針によれば、少なくともひとつの音声取得部１１０は、ユーザ音声を他の雑音と比較して大きな音量で取得することが可能となる。これにより、ビームフォーミング処理によるユーザ音声の強調効果がより増大し得る。例えば、図１０に示すように、４面体を形成する４つの音声取得部１１０よりもユーザの口に近い位置に、５つ目の音声取得部１１０Ｅが設けられてもよい。他にも、例えば図９の右図に示したように、４面体の頂点に位置する音声取得部１１０のうちいずれか（図９の右図に示した例では音声取得部１１０Ａ）が、他と比較して最もユーザの口に近い位置に設けられてもよい。

　以上、音声取得部１１０の配置方針について説明した。

　［２－２．実際の配置例］
　続いて、再度図１～図３を参照しながら、上述した配置方針に従った音声取得部１１０の実際の配置例を説明する。なお、音声取得部１１０の実際の配置は、装着ユニットの形状や各部品の重量等の制約条件により、上述した配置方針に必ずしも完全に従っていなくてもよい。

　まず、第１の配置方針に関して説明する。図２に示すように、装着ユニットがユーザに装着された状態で、音声取得部１１０Ａ及び音声取得部１１０Ｂは、ユーザの口からみて同一方向上に配置されている。また、装着ユニットがユーザに装着された状態で、４つの音声取得部１１０に含まれる音声取得部１１０Ａ（第１の音声取得部）とユーザの口との距離と、４つの音声取得部１１０に含まれる音声取得部１１０Ｂ（第２の音声取得部）とユーザの口との距離と、を異ならせて設けられている。このように、図１～図３に示した例では、目的音が到来するユーザの口の方向に対して、直線的に音声取得部１１０Ａ及び１１０Ｂが配置されているので、ビームフォーミング処理によりユーザ音声が効率的に強調されることが可能となる。

　次いで、第２及び第３の配置方針に関して説明する。図２に示すように、装着ユニットがユーザに装着された状態で、音声取得部１１０Ａ及び音声取得部１１０Ｂは、ユーザの口からみて同一方向上に配置されている。また、装着ユニットがユーザに装着された状態で、音声取得部１１０Ａ（第１の音声取得部）及び音声取得部１１０Ｂ（第２の音声取得部）は、ユーザの直立姿勢におけるユーザの口より足側に設けられる。このように、図１～図３に示した例では、抑圧したい雑音が到来する地面の方向に対して、直線的に音声取得部１１０Ａ及び１１０Ｂが配置されているので、ビームフォーミング処理により雑音が効率的に抑圧されることが可能となる。

　次に、第４の配置方針に関して説明する。図１～図３に示すように、音声取得部１１０Ａ、１１０Ｂ、１１０Ｃ、及び１１０Ｄが設けられる位置をそれぞれ結んで形成される形状は立体である。このように、図１～図３に示した例では、複数の音声取得部１１０が立体的に配置されているので、ビームフォーミング処理によりあらゆる方向から到来する雑音を抑圧することが可能となる。

　次いで、第５の配置方針に関して説明する。図１～図３に示すように、装着ユニットがユーザに装着された状態で、音声取得部１１０Ａ（第１の音声取得部）は、他の音声取得部と比較して最もユーザの口に近い位置に設けられている。このように、図１～図３に示した例では、音声取得部１１０Ａがユーザの口に近い位置に設けられているので、ユーザ音声を他の雑音と比較して大きな音量で取得することが可能となる。また、第２及び第３の配置条件に関して、装着ユニットがユーザに装着された状態で、音声取得部１１０Ｂ（第２の音声取得部）は、ユーザの直立姿勢における、ユーザの口に最も近い位置に設けられる音声取得部１１０Ａ（第１の音声取得部）よりユーザの足側に設けられる。これにより、図１～図３に示した例では、ユーザ音声の強調効果と雑音の抑圧効果とを両立させることが可能となっている。なお、図１～図３に示した例では、音声取得部１１０Ａもユーザの口より下側に設けられているが、音声取得部１１０Ａは口より上側に設けられてもよい。

　以上、本実施形態に係る音声処理システム１における音声取得部１１０の配置について説明した。続いて、図１１を参照して、本実施形態に係る音声処理システム１の内部構成について説明する。

　＜３．内部構成＞
　図１１は、本実施形態に係る音声処理システム１の内部構成の一例を示すブロック図である。図１１に示すように、音声処理システム１は、音声取得部１１０Ａ～１１０Ｄ、撮像部１２０、操作部１３０、センサ部１４０、通信部１５０、及び制御部１６０を有する。

　（１）音声取得部１１０
　音声取得部１１０は、ビームフォーミングのための音声データを取得する機能を有する。例えば、音声取得部１１０は、音声処理システム１（装着ユニット）を装着したユーザが発するユーザ音声、または周囲の音声を取得する。例えば、音声取得部１１０は、マイクロホンにより実現される。音声取得部１１０は、ひとつの装着ユニットに設けられてもよいし、装着ユニットとは別の装置に設けられていてもよいし、複数の装置に分散して設けられていてもよい。例えば、図１～図３に示した首かけ型の装着ユニットに加え、リストバンド型の装着ユニット、メガネ型の装着ユニット、及びスマートフォンに音声取得部１１０が設けられてもよい。

　音声取得部１１０は、有指向性のマイクロホンでなくてもよい。例えば、音声取得部１１０は、全方位に感度を有するマイクロホンであってもよい。全方位に感度を有するとは、ポーラパターンにおいて不感性の領域（方位）がないことを指す。このようなマイクロホンは、半指向性のマイクロホンとも称されてもよい。さらに、音声取得部１１０は、感度が全方位に一様又は略一様なマイクロホンであってもよい。感度が全方位に一様又は略一様とは、ポーラパターンにおいて感度が円形であるが、必ずしも真円でなくてもよいことを指す。つまり、音声取得部１１０は、無指向性のマイクロホンであってもよい。

　音声取得部１１０は、マイクロホンで得られた音声信号を増幅処理するマイクアンプ回路やＡ／Ｄ変換器を有していてもよい。音声取得部１１０は、取得した音声データを制御部１６０へ出力する。

　（２）撮像部１２０
　撮像部１２０は、撮像レンズ、絞り、ズームレンズ、及びフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばＣＣＤ（Ｃｈａｒｇｅ　Ｃｏｕｐｌｅｄ　Ｄｅｖｉｃｅ）センサアレイや、ＣＭＯＳ（Ｃｏｍｐｌｅｍｅｎｔａｒｙ　Ｍｅｔａｌ　Ｏｘｉｄｅ　Ｓｅｍｉｃｏｎｄｕｃｔｏｒ）センサアレイにより実現されてもよい。例えば、撮像部１２０は、音声処理システム１（装着ユニット）がユーザに装着された状態で、ユーザの前方を撮像可能に設けられてもよい。この場合、撮像部１２０は、例えばユーザの話し相手を撮像することが可能となる。また、撮像部１２０は、音声処理システム１がユーザに装着された状態で、ユーザの顔を撮像可能に設けられてもよい。この場合、音声処理システム１は、撮像画像からユーザの口の位置を特定することが可能となる。撮像部１２０は、デジタル信号とされた撮像画像のデータを制御部１６０へ出力する。

　（３）操作部１３０
　操作部１３０は、ユーザにより操作され、ユーザからの入力を受け付ける機能を有する。例えば、操作部１３０は、撮像部１２０による静止画像の撮像を指示する入力、動画像の撮像開始又は停止を指示する入力を受け付けるカメラボタンとして実現されてもよい。また、操作部１３０は、音声取得部１１０による音声入力の開始又は停止を指示する入力を受け付ける音声入力ボタンとして実現されてもよい。また、操作部１３０は、タッチ操作やスライド操作を受け付けるタッチスライダーとして実現されてもよい。また、操作部１３０は、音声処理システム１の電源ＯＮ又はＯＦＦを指示する操作を受け付ける電源ボタンとして実現されてもよい。操作部１３０は、ユーザ入力を示す情報を制御部１６０へ出力する。

　（４）センサ部１４０
　センサ部１４０は、音声処理システム１を装着したユーザの状態又は周囲の状態をセンシングする機能を有する。例えば、センサ部１４０は、加速度センサ、速度センサ、ジャイロセンサ、地磁気センサ、ＧＰＳ（Global　Positioning　System）モジュール、又は振動センサの少なくともいずれかを有していてもよい。センサ部１４０は、装着ユニットとは別の装置に設けられていてもよいし、複数の装置に分散して設けられていてもよい。例えば、リストバンド型の装置に脈拍センサが設けられ、スマートフォンに振動センサが設けられてもよい。センサ部１４０は、センシング結果を示す情報を制御部１６０へ出力する。

　（５）通信部１５０
　通信部１５０は、有線／無線により音声処理システム１と他の装置との間でデータの送受信を行うための通信モジュールである。通信部１５０は、例えば有線ＬＡＮ（Local　Area　Network）、無線ＬＡＮ、Ｗｉ－Ｆｉ（Wireless　Fidelity、登録商標）、赤外線通信、Ｂｌｕｅｔｏｏｔｈ、ＮＦＣ（Near　field　communication）等の方式で、外部機器と直接、またはネットワークアクセスポイントを介して無線通信する。

　例えば、後述する制御部１６０としての機能がスマートフォン又はクラウド上のサーバ等の他の装置に含まれる場合、通信部１５０は、音声取得部１１０、撮像部１２０、操作部１３０、センサ部１４０により取得されたデータを送信してもよい。この場合、他の装置により、ビームフォーミング処理や音声認識処理等が行われる。他にも、例えば音声取得部１１０、撮像部１２０、操作部１３０、又はセンサ部１４０が別箇の装置に設けられる場合には、通信部１５０は、それらにより取得されたデータを受信して制御部１６０に出力してもよい。また、通信部１５０は、制御部１６０によるビームフォーミング処理後の音声データを、当該音声データを記憶するための記憶装置へ送信してもよい。

　（６）制御部１６０
　制御部１６０は、演算処理装置および制御装置として機能し、各種プログラムに従って音声処理システム１内の動作全般を制御する。制御部１６０は、例えばＣＰＵ（Central　Processing　Unit）、マイクロプロセッサ等の電子回路によって実現される。なお、制御部１６０は、使用するプログラムや演算パラメータ等を記憶するＲＯＭ（Read　Only　Memory）、及び適宜変化するパラメータ等を一時記憶するＲＡＭ（Random　Access　Memory）を含んでいてもよい。

　例えば、制御部１６０は、音声取得部１１０により取得された複数の音声データを用いて、ユーザの口の方向からの音声を取得するための指向性を形成するビームフォーミング処理を行う。ビームフォーミング処理とは、音の到来する領域ごとに強調の度合を変化させる処理である。具体的には、制御部１６０が行うビームフォーミング処理は、特定の領域から到来する音を抑圧する処理を含んでもよいし、所望する方位からの音声を強調する処理を含んでもよい。例えば、制御部１６０は、ユーザの口の方向以外の方向からの音声を雑音として抑圧してもよい。また、制御部１６０は、ユーザの口の方向からの音声を強調してもよい。上述したように、音声取得部１１０自体が指向性を有していなくてもよい。制御部１６０は、各音声取得部１１０により取得された音声データを対象としたビームフォーミング処理を行うことで、指向性を制御する。制御部１６０は、各音声取得部１１０により取得される音声データ間の位相差を用いて、ビームフォーミング処理を行い得る。

　制御部１６０は、多様な観点でビームフォーミング処理を制御することができる。例えば、制御部１６０は、一例として以下に説明する観点で、指向性を形成する方向及び／又は範囲を制御し得る。

　例えば、制御部１６０は、雑音発生源と音声取得部１１０との位置関係に基づいてビームフォーミング処理を制御してもよい。例えば上述したようにロードノイズの発生源は地面であるため、制御部１６０は、地面の方向からの音声を抑圧するようビームフォーミング処理を制御してもよい。また、例えば位置情報から特定の方向に交通量の多い道路や線路等があると判別可能な場合、制御部１６０は、当該方向からの音声を抑圧するようビームフォーミング処理を制御してもよい。他にも、例えば雑音発生源の位置を指定するユーザ指示がある場合、制御部１６０は、ユーザ指示が示す位置からの音声を抑圧するようビームフォーミング処理を制御してもよい。

　例えば、制御部１６０は、ユーザ以外の話者の位置に基づいてビームフォーミング処理を制御してもよい。例えば、制御部１６０は、ユーザ以外の他の話者からの音声を強調するビームフォーミング処理を行ってもよい。また、制御部１６０は、ユーザ以外の他の話者からの音声を抑圧するビームフォーミング処理を行ってもよい。ユーザ以外の他の話者の存在又は位置（方向）を特定する方法は多様に考えらえる。例えば、制御部１６０は、ユーザ以外の方向から話し声が取得された場合、他の話者が存在すると判定し、方向を特定してもよい。また、制御部１６０は、音声認識により他の話者の話し声が取得されたことが認識された場合、他の話者が存在すると判定してもよい。また、制御部１６０は、撮像部１２０により撮像された撮像画像の画像認識結果により、他の話者の存在及び位置を特定してもよい。また、制御部１６０は、センサ部１４０が有するＧＰＳモジュールにより取得されたユーザの位置情報と、他の話者の位置情報とを比較することで、他の話者の存在及び位置を特定してもよい。また、制御部１６０は、他の話者が所持する装置から発せられる電波の電波強度（例えば、Ｗｉ－Ｆｉの電波強度）を測定することで、他の話者の存在及び位置を特定してもよい。

　例えば、制御部１６０は、ユーザの状態を示す情報に基づいてビームフォーミング処理を制御してもよい。ユーザの状態とは、例えばユーザが走っている、歩いている、又は乗り物に乗っている等の運動状態を指していてもよい。例えば、制御部１６０は、センサ部１４０により取得されるセンシング結果に応じて、ユーザの運動状態を推定し得る。制御部１６０は、複数のセンシング結果を組み合わせることで、詳細な運動状態を推定してもよい。例えば、制御部１６０は、振動センサ及び速度センサによるセンシング結果を組み合わせることで、振動レベル及び速度が歩行時と比較して大きい場合は自転車に乗っていると推定してもよい。他にも、制御部１６０は、自転車に乗っている場合と比較して振動レベルが小さく速度が大きい場合は自動車に乗っていると推定してもよい。そして、制御部１６０は、推定したユーザの運動状態に応じて、形成する指向性の範囲を拡大又は縮小してもよい。例えば、制御部１６０は、運動状態が示す運動の激しさ（例えば、各センサから出力された数値）が相対的に大きい場合には、小さい場合と比較して指向性の範囲を拡大してもよい。なお、指向性の範囲を拡大又は縮小するとは、到来する音に対して所定の値以上の感度を示す領域の範囲を拡大又は縮小することであると捉えてもよい。他にも、ユーザの状態とは、ユーザの顔の向きや姿勢等のユーザの体勢を指していてもよい。例えば、制御部１６０は、撮像部１２０により撮像された撮像画像の画像認識結果等によりユーザの顔の向きを推定し、向きに応じて指向性の向きを制御してもよい。この場合、顔の向きが変わり、ユーザの口と音声取得部１１０との位置関係が変化した場合にも、制御部１６０は、ユーザが口から発する音声を鮮明に取得するよう指向性を制御することが可能である。

　また、制御部１６０は、ビームフォーミング処理を行った音声データに基づいて実行された音声認識の結果に応じた処理をしてもよい。音声認識処理は、制御部１６０により実行されてもよいし、クラウド上のサーバ等の他の装置により実行されてもよい。例えば、制御部１６０は、音声認識の結果に基づいて音声処理システム１の動作を制御してもよい。具体的には、制御部１６０は、音声認識の結果に基づいてビームフォーミング処理に係る指向性を制御してもよい。これにより、ユーザは、例えば記録したい音声の方向に指向性を向けるよう、音声で指示することが可能となる。他にも、制御部１６０は、音声認識の結果に基づいて、カメラでの撮像を開始又は停止させたり、特定のセンシング結果を記録したりしてもよい。これにより、ユーザは、例えば記録したい風景や運動状態を記録するよう、音声で指示することが可能となる。

　なお、制御部１６０は、例えばモバイルプロセッサとして実現され得る。上述したように、制御部１６０は、装着ユニットが有していてもよく、スマートフォン又はクラウド上のサーバ等の他の任意の装置が有していてもよい。

　（７）その他
　他にも、音声処理システム１は、多様な構成要素を有し得る。例えば、音声処理システム１は、バッテリーを有していてもよい。図１～図３に示すように、装着ユニットが湾曲した形状を有し得るため、バッテリーは曲面状の曲面バッテリーであることが望ましい。また、音声処理システム１は、バッテリーに充電するためのケーブルを接続可能な充電コネクタを有していてもよい。充電コネクタは、通信ケーブルを接続可能な通信コネクタとしての機能を兼ね備える、充電通信コネクタであってもよい。また、音声処理システム１は、ユーザへの出力装置として機能するバイブレータを有していてもよい。また、音声処理システム１は、ユーザへの出力装置として機能するスピーカを有していてもよい。また、音声処理システム１は、ユーザへの出力装置として機能するイヤホンを接続可能なイヤホンコネクタを有していてもよい。イヤホンコネクタは、磁力を有していてもよく、磁力によりイヤホンコネクタとイヤホンとが着脱可能であってもよい。また、音声処理システム１は、制御部１６０によるビームフォーミング処理後の音声データを記憶するための記憶部を有していてもよい。

　以上、本実施形態に係る音声処理システム１の内部構成について説明した。続いて、図１２を参照して、本実施形態に係る音声処理システム１の動作処理について説明する。

　＜４．動作処理＞
　図１２は、本実施形態に係る音声処理システム１において実行される音声信号処理の流れの一例を示すフローチャートである。

　図１２に示すように、まず、ステップＳ１０２で、音声処理システム１は、音声データを取得する。例えば、音声取得部１１０Ａ、１１０Ｂ、１１０Ｃ及び１１０Ｄは、それぞれ音声データを取得して制御部１６０へ出力する。

　次いで、ステップＳ１０４で、音声処理システム１は、音源と音声取得部１１０との位置関係を示す情報を取得する。音源とは、雑音発生源であってもよいし、ユーザ音声の発生源であるユーザの口であってもよいし、ユーザ以外の話者であってもよい。制御部１６０は、これらの音源と音声取得部１１０との位置関係、詳しくは音声取得部１１０からみた方向を示す情報を取得する。このような情報としては、例えば、音声取得部１１０により取得された音声の音声認識結果、撮像部１２０により撮像された撮像画像の画像認識結果、操作部１３０により取得されたユーザ入力を示す情報、センサ部１４０によるセンシング結果、通信部１５０により他の装置から取得された情報等が挙げられる。

　次に、ステップＳ１０６で、音声処理システム１は、ユーザの状態を示す情報を取得する。例えば、制御部１６０は、ユーザの運動状態又はユーザの体勢を示す情報を取得する。このような情報としては、例えば、音声取得部１１０により取得された音声の音声認識結果、撮像部１２０により撮像された撮像画像の画像認識結果、操作部１３０により取得されたユーザ入力を示す情報、センサ部１４０によるセンシング結果、通信部１５０により他の装置から取得された情報等が挙げられる。

　そして、ステップＳ１０８で、音声処理システム１は、ビームフォーミング処理を行う。例えば、制御部１６０は、上記ステップＳ１０２において取得された複数の音声データを用いて、ユーザの口の方向からの音声を取得するための指向性を形成するビームフォーミング処理を行う。このとき、制御部１６０は、雑音発生源と音声取得部１１０との位置関係に基づいて、雑音を抑圧するようビームフォーミング処理を制御してもよい。また、制御部１６０は、ユーザ以外の話者の位置に基づいて、ユーザ以外の他の話者からの音声を強調する又は抑圧するビームフォーミング処理を行ってもよい。また、制御部１６０は、ユーザの状態に応じて、指向性を形成する方向及び／又は範囲を制御してもよい。

　その後、ステップＳ１１０で、音声処理システム１は、音声認識処理を行う。例えば、制御部１６０は、ビームフォーミング処理を行った音声データに基づいて音声認識処理を実行する。そして、制御部１６０は、音声認識結果に応じて音声処理システム１の動作を制御してもよい。

　以上、音声処理システム１において実行される音声信号処理の流れの一例を説明した。

　＜５．まとめ＞
　以上、図１～図１２を参照して、本開示の一実施形態について詳細に説明した。上記説明したように、本実施形態に係る音声処理システム１は、装着ユニットに少なくとも３つの音声取得部を有する。これにより、音声処理システム１は、ユーザ音声をより鮮明にするビームフォーミング処理を行うために適した音声データを取得することが可能となる。

　以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本開示の技術的範囲はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。

　なお、本明細書において説明した各装置による一連の処理は、ソフトウェア、ハードウェア、及びソフトウェアとハードウェアとの組合せのいずれを用いて実現されてもよい。ソフトウェアを構成するプログラムは、例えば、各装置の内部又は外部に設けられる記憶媒体（非一時的な媒体：non-transitory　media）に予め格納される。そして、各プログラムは、例えば、コンピュータによる実行時にＲＡＭに読み込まれ、ＣＰＵなどのプロセッサにより実行される。

　また、本明細書においてフローチャート及びシーケンス図を用いて説明した処理は、必ずしも図示された順序で実行されなくてもよい。いくつかの処理ステップは、並列的に実行されてもよい。また、追加的な処理ステップが採用されてもよく、一部の処理ステップが省略されてもよい。

　また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。

　なお、以下のような構成も本開示の技術的範囲に属する。
（１）
　ユーザに装着される装着部を備え、
　前記装着部は、ビームフォーミングのための音声データを取得する音声取得部を少なくとも３つ有する、音声処理システム。
（２）
　前記装着部は、少なくとも４つの前記音声取得部を有し、
　４つの前記音声取得部が設けられる位置をそれぞれ結んで形成される形状は立体である、前記（１）に記載の音声処理システム。
（３）
　前記装着部が前記ユーザに装着された状態で、前記４つの音声取得部に含まれる第１の音声取得部と前記ユーザの口との距離と、前記４つの音声取得部に含まれる第２の音声取得部と前記ユーザの口との距離と、を異ならせて設けられる、前記（１）又は（２）に記載の音声処理システム。
（４）
　前記装着部が前記ユーザに装着された状態で、
　前記第１の音声取得部は、他の前記音声取得部と比較して最も前記ユーザの口に近い位置に設けられ、
　前記第２の音声取得部は、前記ユーザの直立姿勢における前記第１の音声取得部より前記ユーザの足側に設けられる、前記（３）に記載の音声処理システム。
（５）
　前記第１の音声取得部及び前記第２の音声取得部は、前記ユーザの直立姿勢における前記ユーザの口より足側に設けられる、前記（３）又は（４）に記載の音声処理システム。
（６）
　前記音声取得部は、全方位に感度を有するマイクロホンである、前記（２）～（５）のいずれか一項に記載の音声処理システム。
（７）
　前記音声取得部は、感度が全方位に一様又は略一様なマイクロホンである、前記（６）に記載の音声処理システム。
（８）
　前記音声処理システムは、前記音声取得部により取得された複数の音声データを用いて、前記ユーザの口の方向からの音声を取得するための指向性を形成するビームフォーミング処理を行う制御部をさらに備える、前記（２）～（７）のいずれか一項に記載の音声処理システム。
（９）
　前記ビームフォーミング処理は、音の到来する領域ごとに強調の度合を変化させる処理である、前記（８）に記載の音声処理システム。
（１０）
　前記ビームフォーミング処理は、特定の領域から到来する音を抑圧する処理を含む、前記（９）に記載の音声処理システム。
（１１）
　前記制御部は、雑音発生源と前記音声取得部との位置関係に基づいて前記ビームフォーミング処理を制御する、前記（８）～（１０）のいずれか一項に記載の音声処理システム。
（１２）
　前記制御部は、前記ユーザ以外の話者の位置に基づいて前記ビームフォーミング処理を制御する、前記（８）～（１１）のいずれか一項に記載の音声処理システム。
（１３）
　前記制御部は、前記ユーザの状態を示す情報に基づいて前記ビームフォーミング処理を制御する、前記（８）～（１２）のいずれか一項に記載の音声処理システム。
（１４）
　前記制御部は、前記ビームフォーミング処理を行った音声データに基づいて実行された音声認識の結果に応じた処理をする、前記（８）～（１３）のいずれか一項に記載の音声処理システム。
（１５）
　前記制御部は、前記音声認識の結果に基づいて前記音声処理システムの動作を制御する、前記（１４）に記載の音声処理システム。
（１６）
　前記制御部は、前記音声認識の結果に基づいて前記指向性を制御する、前記（１５）に記載の音声処理システム。
（１７）
　前記装着部は、前記制御部を有する、前記（８）～（１６）のいずれか一項に記載の音声処理システム。
（１８）
　前記装着部は、前記ユーザの首回りに装着される、前記（２）～（１７）のいずれか一項に記載の音声処理システム。

　１　　　音声処理システム
　１１０　　音声取得部
　１２０　　撮像部
　１３０　　操作部
　１４０　　センサ部
　１５０　　通信部
　１６０　　制御部

Claims

　ユーザに装着される装着部を備え、
　前記装着部は、ビームフォーミングのための音声データを取得する音声取得部を少なくとも３つ有する、音声処理システム。
　前記装着部は、少なくとも４つの前記音声取得部を有し、
　４つの前記音声取得部が設けられる位置をそれぞれ結んで形成される形状は立体である、請求項１に記載の音声処理システム。
　前記装着部が前記ユーザに装着された状態で、前記４つの音声取得部に含まれる第１の音声取得部と前記ユーザの口との距離と、前記４つの音声取得部に含まれる第２の音声取得部と前記ユーザの口との距離と、を異ならせて設けられる、請求項１に記載の音声処理システム。
　前記装着部が前記ユーザに装着された状態で、
　前記第１の音声取得部は、他の前記音声取得部と比較して最も前記ユーザの口に近い位置に設けられ、
　前記第２の音声取得部は、前記ユーザの直立姿勢における前記第１の音声取得部より前記ユーザの足側に設けられる、請求項３に記載の音声処理システム。
　前記第１の音声取得部及び前記第２の音声取得部は、前記ユーザの直立姿勢における前記ユーザの口より足側に設けられる、請求項３に記載の音声処理システム。
　前記音声取得部は、全方位に感度を有するマイクロホンである、請求項２に記載の音声処理システム。
　前記音声取得部は、感度が全方位に一様又は略一様なマイクロホンである、請求項６に記載の音声処理システム。
　前記音声処理システムは、前記音声取得部により取得された複数の音声データを用いて、前記ユーザの口の方向からの音声を取得するための指向性を形成するビームフォーミング処理を行う制御部をさらに備える、請求項２に記載の音声処理システム。
　前記ビームフォーミング処理は、音の到来する領域ごとに強調の度合を変化させる処理である、請求項８に記載の音声処理システム。
　前記ビームフォーミング処理は、特定の領域から到来する音を抑圧する処理を含む、請求項９に記載の音声処理システム。
　前記制御部は、雑音発生源と前記音声取得部との位置関係に基づいて前記ビームフォーミング処理を制御する、請求項８に記載の音声処理システム。
　前記制御部は、前記ユーザ以外の話者の位置に基づいて前記ビームフォーミング処理を制御する、請求項８に記載の音声処理システム。
　前記制御部は、前記ユーザの状態を示す情報に基づいて前記ビームフォーミング処理を制御する、請求項８に記載の音声処理システム。
　前記制御部は、前記ビームフォーミング処理を行った音声データに基づいて実行された音声認識の結果に応じた処理をする、請求項８に記載の音声処理システム。
　前記制御部は、前記音声認識の結果に基づいて前記音声処理システムの動作を制御する、請求項１４に記載の音声処理システム。
　前記制御部は、前記音声認識の結果に基づいて前記指向性を制御する、請求項１５に記載の音声処理システム。
　前記装着部は、前記制御部を有する、請求項８に記載の音声処理システム。
　前記装着部は、前記ユーザの首回りに装着される、請求項２に記載の音声処理システム。