JPWO2019073803A1 - 音声入力装置および方法、並びにプログラム - Google Patents

音声入力装置および方法、並びにプログラム Download PDF

Info

Publication number
JPWO2019073803A1
JPWO2019073803A1 JP2019548109A JP2019548109A JPWO2019073803A1 JP WO2019073803 A1 JPWO2019073803 A1 JP WO2019073803A1 JP 2019548109 A JP2019548109 A JP 2019548109A JP 2019548109 A JP2019548109 A JP 2019548109A JP WO2019073803 A1 JPWO2019073803 A1 JP WO2019073803A1
Authority
JP
Japan
Prior art keywords
voice
unit
voice input
microphone array
input device
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Ceased
Application number
JP2019548109A
Other languages
English (en)
Inventor
和也 立石
和也 立石
高橋 秀介
秀介 高橋
高橋 晃
晃 高橋
和樹 落合
和樹 落合
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Sony Corp
Original Assignee
Sony Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Sony Corp filed Critical Sony Corp
Publication of JPWO2019073803A1 publication Critical patent/JPWO2019073803A1/ja
Ceased legal-status Critical Current

Links

Images

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/40Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers
    • H04R1/406Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only by combining a number of identical transducers microphones
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01SRADIO DIRECTION-FINDING; RADIO NAVIGATION; DETERMINING DISTANCE OR VELOCITY BY USE OF RADIO WAVES; LOCATING OR PRESENCE-DETECTING BY USE OF THE REFLECTION OR RERADIATION OF RADIO WAVES; ANALOGOUS ARRANGEMENTS USING OTHER WAVES
    • G01S3/00Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received
    • G01S3/80Direction-finders for determining the direction from which infrasonic, sonic, ultrasonic, or electromagnetic waves, or particle emission, not having a directional significance, are being received using ultrasonic, sonic or infrasonic waves
    • G01S3/8006Multi-channel systems specially adapted for direction-finding, i.e. having a single aerial system capable of giving simultaneous indications of the directions of different signals
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/02Casings; Cabinets ; Supports therefor; Mountings therein
    • H04R1/028Casings; Cabinets ; Supports therefor; Mountings therein associated with devices performing functions other than acoustics, e.g. electric candles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R1/00Details of transducers, loudspeakers or microphones
    • H04R1/20Arrangements for obtaining desired frequency or directional characteristics
    • H04R1/32Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only
    • H04R1/323Arrangements for obtaining desired frequency or directional characteristics for obtaining desired directional characteristic only for loudspeakers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/025Transducer mountings or cabinet supports enabling variable orientation of transducer of cabinet
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/02Details casings, cabinets or mounting therein for transducers covered by H04R1/02 but not provided for in any of its subgroups
    • H04R2201/028Structural combinations of loudspeakers with built-in power amplifiers, e.g. in the same acoustic enclosure
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2201/00Details of transducers, loudspeakers or microphones covered by H04R1/00 but not provided for in any of its subgroups
    • H04R2201/40Details of arrangements for obtaining desired directional characteristic by combining a number of identical transducers covered by H04R1/40 but not provided for in any of its subgroups
    • H04R2201/4012D or 3D arrays of transducers
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • H04R3/005Circuits for transducers, loudspeakers or microphones for combining the signals of two or more microphones

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Otolaryngology (AREA)
  • Computational Linguistics (AREA)
  • General Physics & Mathematics (AREA)
  • Theoretical Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Quality & Reliability (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

本技術は、発話方向を推定し易くすることができるようにする音声入力装置および方法、並びにプログラムに関する。音声入力装置は、所定の位置に配置される固定部と、固定部に対して可動する可動部と、固定部に取り付けられたマイクロフォンアレイと、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された発話方向に対応して可動部を駆動する駆動部とを備える。この音声入力装置は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込んで利用することができる。

Description

本技術は、音声入力装置および方法、並びにプログラムに関し、特に発話方向を推定し易くすることができるようにした音声入力装置および方法、並びにプログラムに関する。
近年、ロボット技術と人工知能(AI:Artificial Intelligence)の発展により、人と会話したり、自らその体を動かすことができるようにした機器が増えてきた。人の声を認識するためにはさまざまな使用環境を想定して、少しでも雑音を抑圧できるようにする必要がある。そこで、複数のマイクロフォンを並べたマイクロフォンアレイにより集音し、空間情報を利用した信号処理によって雑音を抑圧することが知られている。
例えば人型のロボットの場合、頭部にマイクロフォンを複数配置することが考えられる。このようにすると、ユーザの口とマイクロフォンの位置が近くなる可能性が高く、音声が認識し易くなる。また、マイクロフォンとモータ等の駆動音源との距離が遠くなり、騒音が少なくなって、目的音声のSNR(Signal-to-Noise ratio)がよくなることが期待できる。
マイクロフォンアレイによって集音した信号を演算して得られた相関行列を利用して話者の方向を推定し、推定した方向の音声を強調することで、正確な音声認識ができるようにすることが知られている(例えば特許文献1)。
特開2001−337694号公報
しかし、発話方向を推定した後、発話方向に機器が向いてしまうと、これまで学習していた空間の雑音方向の情報と、機器の移動後のマイクロフォンアレイとの位置関係が崩れてしまう。そのため、これまで逐次的に学習してきた雑音学習情報が使用できなくなり、移動後に改めて雑音情報を空間的に学習する必要が出てくる。
しかし、機器が発話方向を向いた後、すぐに次のユーザの発話が行われることもあり、その場合十分な学習時間を確保することができず、結果的に雑音抑圧性能が劣化し、音声認識に失敗するおそれがある。
本技術はこのような状況に鑑みてなされたものであり、発話方向を推定し易くすることができるようにするものである。
本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイと、前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、推定された前記発話方向に対応して前記可動部を駆動する駆動部とを備える音声入力装置である。
前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備えることができる。
前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備えることができる。
前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されていることができる。
前記可動部は、回転中心に対して対称であることができる。
前記発話方向推定部は、前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部とを備えることができる。
本技術の一側面は、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力方法において、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含む音声入力方法である。
本技術の一側面は、コンピュータに、所定の位置に配置される固定部と、前記固定部に対して可動する可動部と、前記固定部に取り付けられたマイクロフォンアレイとを備える音声入力装置の音声入力処理を実行させるプログラムにおいて、前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、推定された前記発話方向に対応して前記可動部を駆動するステップとを含むプログラムである。
本技術の一側面においては、固定部が、所定の位置に配置され、可動部が、固定部に対して可動し、マイクロフォンアレイが固定部に取り付けられ、発話方向推定部が、マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定し、駆動部が、推定された発話方向に対応して可動部を駆動する。
以上のように、本技術の一側面によれば、発話方向を推定し易くすることができる。なお、ここに記載された効果は必ずしも限定されるものではなく、本明細書中に記載されたいずれかの効果であってもよい。
音声入力装置の一実施の形態の物理的な構成を示す斜視図である。 マイクロフォンアレイの構成を示す図である。 音声入力装置の一実施の形態の物理的な構成を示す斜視図である。 音声入力装置の電気的構成を示すブロック図である。 発話方向推定部の構成を示すブロック図である。 音声入力処理を説明するフローチャートである。 発話方向推定処理を説明するフローチャートである。 第1MUSIC処理を説明するフローチャートである。 水平角推定処理を説明するフローチャートである。 第2MUSIC処理を説明するフローチャートである。 推定範囲を説明する図である。 空間スペクトルの特性を示す図である。 空間スペクトルの特性を示す図である。 空間スペクトルの特性を示す図である。 パーソナルコンピュータの構成例を示すブロック図である。
以下、本技術を実施するための実施の形態について説明する。なお、説明は以下の順序で行う。
1.音声入力装置の物理的構成(図1乃至図3)
2.音声入力装置の電気的構成(図4、図5)
3.音声入力装置の動作(図6乃至図11)
4.空間スペクトルの特性(図12乃至図14)
5.コンピュータ(図15)
6.その他
<音声入力装置の物理的構成>
(図1乃至図3)
最初に、図1乃至図3を参照して、音声入力装置の物理的構成について説明する。図1は、音声入力装置の一実施の形態の物理的構成を示す斜視図であり、図2は、マイクロフォンアレイの構成を示す図である。
図1に示されるように、この実施の形態の音声入力装置1は、ほぼ円柱状の筐体11を備え、その外周側面の下方には、マイクロフォンアレイ12が設けられている。図2に示されるように、マイクロフォンアレイ12は、複数(図2の例においては、8個)のマイクロフォン13が略水平の円環状に、中心から半径に沿って外周方向に向くように配置されて構成されている。なお、マイクロフォンアレイ12の複数のマイクロフォン13は、直線状、あるいは立体的に配置することもできる。
筐体11の上方には、筐体11に対して可動する可動部14が形成されている。可動部14は、駆動部としての、内蔵されるサーボモータ53(図4を参照して後述する)により駆動され、水平面内において可動(この例においては回転)する。つまり、テーブルや床に接するように、所定の位置に配置される筐体11は回転せず、いわば固定部を形成している。マイクロフォンアレイ12は、筐体11に設けられているため、可動部14が回転しても、回転しない。
なお、地磁気センサ、ジャイロセンサなどのセンサ情報を使用して、可動部14が動いても、マイクロフォンアレイ12を有する筐体11は元の位置を保ち続けるようにすることもできる。
可動部14もほぼ円柱状に形成されており、その正面には、表示部15が設けられている。この例においては、表示部15に顔の絵が表示されており、それによりその面が、正面であることが判る。可動部14は、例えば表示部15が発話方向に向くように回転される。可動部14においては、表示部15の裏側にスピーカ16が収容されている。スピーカ16は、ユーザに対してメッセージ等の音を出力する。
音声入力装置1は、例えば室内などの空間21に配置される。
図3は、音声入力装置の一実施の形態の物理的構成を示す斜視図である。音声入力装置1は、図3に示されるように構成することもできる。図3の音声入力装置1においては、ほぼ円柱状の筐体11の下端11Bと上端11Tの径が大きく、外側に突出しており、その間の部分は、径が小さく、内側に凹んだ状態になっている。そして、凹んだ部分に、可動部14が回転自在に配置されている。この例においては、マイクロフォンアレイ12は、筐体11の上端11Tに設けられている。このため、可動部14が回転しても、マイクロフォンアレイ12は、回転しない。可動部14には表示部15が形成され、その裏面側には、スピーカ16が配置されている。
音声入力装置1は、例えば、スマートスピーカ、音声エージェント、ロボット等に組み込まれ、周囲の音源(例えば人)から音声が発せられた場合、その音声が発せられた発話方向を推定する機能を有している。推定された方向は、装置の正面を発話方向に指向させるのに利用される。
<音声入力装置の電気的構成>
(図4、図5)
次に図4を参照して、音声入力装置の電気的構成について説明する。図4は、音声入力装置の電気的構成を示すブロック図である。
図4の音声入力装置1は、マイクロフォンアレイ12、信号処理部51、メイン制御部52、サーボモータ53、可動部14、およびスピーカ16により構成されている。
マイクロフォンアレイ12からの信号を処理する信号処理部51は、発話方向推定部71、信号強調部72、雑音抑圧部73、およびエコーキャンセル部74を有している。発話方向推定部71は、マイクロフォンアレイ12からの信号に基づいて、発話方向を推定する。信号強調部72は、目的音信号を強調する。雑音抑圧部73は目的音信号に含まれる雑音成分を抑圧する。エコーキャンセル部74は、マイクロフォンアレイ12から入力された信号に含まれるエコー成分をキャンセルする処理を行う。
メイン制御部52は、音声認識エンジン81と動作決定部82を有している。音声認識エンジン81は、入力された信号から音声を認識する。動作決定部82は、認識された音声に含まれる内容に基づいて、実行する動作を決定する。
なお、メイン制御部52がインターネット等を介してクラウド61に接続され、そこに音声認識エンジンが存在する場合においては、内部の音声認識エンジン81に替えて、外部のその音声認識エンジンを用いて音声認識処理を行うこともできる。
サーボモータ53は動作決定部82により可動部14の駆動が指示された場合には、その指示に応じて可動部14を駆動する。図1または図3に示される例の場合、例えば可動部14が所定の位置に回転される。
次に、発話方向推定部71の構成について図5を参照して説明する。図5は、発話方向推定部の構成を示すブロック図である。
図5の発話方向推定部71は、周波数変換部101、第1MUSIC処理部102、水平角推定部103、第2MUSIC処理部104、および第2ピーク検出部105により構成されている。
周波数変換部101は、マイクロフォンアレイ12から入力された音響信号を周波数変換する。第1の推定部としての第1MUSIC処理部102は、周波数変換部101から入力された周波数領域信号に基づいて、各周波数の信号の相関行列の固有値と固有ベクトルを求める。さらに第1MUSIC処理部102は、マイクロフォンアレイ12から見た発話方向に対する仰角を、所定の一定値に固定した状態で、全水平角に関して空間スペクトルを演算する。
水平角推定部103は、第1MUSIC処理部102で演算された空間スペクトルから閾値を計算する。また、水平角推定部103は、その閾値を超えるピーク値を有する空間スペクトルを検出し、その空間スペクトルが対応する方向を、発話方向(第1の水平角θ^)であると推定し、検出する。
第2の推定部としての第2MUSIC処理部104には、第1MUSIC処理部102で求められた各周波数の信号の相関行列の固有ベクトルが供給される。第2MUSIC処理部104は、その固有ベクトルに基づいて、水平角推定部103で推定された第1の水平角θ^を基準とする、その近傍の限定した所定の範囲の水平角と全ての仰角の空間スペクトルを算出する。
第2ピーク検出部105は、第2MUSIC処理部104により算出された、所定の範囲の水平角と仰角に関する空間スペクトルのピーク値を検出し、そのピーク値に対応する方向を最終的な発話方向(θoutout)として推定する。
第1MUSIC処理部102は、第1相関行列計算部411、固有値分解部412、周波数重み算出部413、伝達関数記憶部414、および第1空間スペクトル算出部415により構成される。さらに第1MUSIC処理部102は、周波数情報統合部416、および第2相関行列計算部417により構成される。ただし、この構成は、GEVD-MUSICの場合であり、SEVD-MUSICの場合には、第2相関行列計算部417は省略される。GEVD(Generalized Eigenvalue Decomposition)は、一般化固有分解を意味し、SEVD(Standard Eigenvalue Decomposition)は、標準固有分解を意味する。
第1相関行列計算部411は、時刻フレーム毎に各周波数の目的信号の相関行列を計算する。第2相関行列計算部417は、時刻フレーム毎に各周波数の雑音信号の相関行列を計算する。固有値分解部412は、相関行列の固有値と固有ベクトルを演算する。周波数重み算出部413は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。
伝達関数記憶部414は、予め伝達関数ベクトルを記憶する。第1空間スペクトル算出部415は、固有ベクトルと水平角θに関する伝達関数ベクトルを用いて、水平角θの方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部416は、周波数重みに基づいて、第1の空間スペクトルを統合する。
水平角推定部103は、閾値更新部451と第1ピーク検出部452により構成されている。閾値更新部451は、空間スペクトルのピークを検出結果として採用するか否かを決定するための閾値を計算する。第1ピーク検出部452は、閾値を超えるピークを有する空間スペクトルの方向を検出する。
第2MUSIC処理部104は、伝達関数記憶部481、第2空間スペクトル算出部482、および周波数情報統合部483により構成されている。伝達関数記憶部481は、予め伝達関数ベクトルを記憶する。第2空間スペクトル算出部482は、所定の水平角と仰角の方向から音が到来している度合いを表す空間スペクトルを算出する。周波数情報統合部483は、空間スペクトルの周波数毎の重み付け平均を算出する。
<音声入力装置の動作>
(図6乃至図11)
次に、図6を参照して、音声入力装置1の動作について説明する。図6は、音声入力処理を説明するフローチャートである。ステップS1においてマイクロフォンアレイ12は、音声を入力する。すなわち発話者が発生した音声が入力される。ステップS2において発話方向推定部71により発話方向推定処理が実行される。その詳細は、図7乃至図11を参照して後述するが、これにより、発話者の音声が発せられた方向(水平角と仰角)が推定される。
ステップS3において信号強調部72は、信号を強調する。すなわち発話方向と推定された方向の音声成分が強調される。ステップS4において雑音抑圧部73は、雑音成分を抑圧し、SNを改善する。
ステップS5において音声認識エンジン81(またはクラウド61に存在する外部の音声認識エンジン)は、信号処理部51から供給された音声信号から音声を認識する処理を行う。認識結果は必要に応じてテキスト化される。ステップS6において動作決定部82は、動作を決定する。すなわち、認識された音声の内容に対応する動作が決定される。そして、ステップS7において動作決定部82は、サーボモータ53を制御し、可動部14を駆動する。さらにステップS8において動作決定部82は、信号をスピーカ16に供給し、音声を出力させる。
これにより、例えば発話者から「こんにちは」との挨拶が認識された場合、その発話者の方向に可動部14が回転され、スピーカ16から「こんにちは。お元気ですか」といった挨拶が発話者に向けて発せられる。
ステップS9においてエコーキャンセル部74は、エコーをキャンセルする。すなわちスピーカ16から出力された音声が、所定の時間だけ遅延して、エコーとしてマイクロフォンアレイ12により他の音に混じって集音されることがある。エコーキャンセル部74は、スピーカ16から出力させた音声信号を参照信号として、マイクロフォンアレイ12により集音された信号から、そのエコー成分を相殺するように処理する。
この音声入力装置1においては、正面が発話者を指向するように可動部14が回転しても、マイクロフォンアレイ12は回転しないので、可動部14の回転の前後で、マイクロフォンアレイ12の伝達関数が変化するようなことがない。従って、伝達関数を再度学習しなくても、発話方向を迅速に正しく推定することができる。
次に、図7を参照して発話方向推定処理について説明する。図7は、発話方向推定処理を説明するフローチャートである。
ステップS101において周波数変換部101は、マイクロフォンアレイ12から入力された音響信号を周波数変換する。すなわち、音響信号が時間軸領域の信号から周波数領域の信号に変換される。例えば、フレーム毎に離散フーリエ変換(DFT:Discrete Fourier Transform)または短時間フーリエ変換(STFT:Short Time Fourier Transform)する処理が行われる。例えば、フレーム長は32ms、フレームシフトは10msとすることができる。
ステップS102において第1MUSIC処理部102は、第1MUSIC処理を実行する。第1MUSIC処理の詳細について、図8を参照して説明する。図8は、第1MUSIC処理を説明するフローチャートである。
図8のステップS131において第1相関行列計算部411は、第1の相関行列を計算する。第1の相関行列は、時刻フレーム毎の各周波数の目的音の信号の相関行列であり、その各要素は、各マイクロフォン13の相関を表している。第1の相関行列は、次式(1)に基づいて演算される。式(1)において、Tは相関行列を計算するフレーム長を表し、ベクトルzω,τは時刻フレームτにおける周波数ωの信号を表す。Hはエルミート転置を表す。
Figure 2019073803
ステップS132において第2相関行列計算部417は、第2の相関行列を計算する。第2の相関行列は、時刻フレーム毎の各周波数の雑音信号の相関行列であり、次の式(2)に基づいて計算される。
Figure 2019073803
式(2)において、Tは相関行列を計算するフレーム長を表し、Δtは式(1)のRω,tと式(2)のKω,tに共通の時刻フレームの信号が使われないようにするためのものである。αω,τは重みであり、一般的には1で良いが、音源の種類によって重みを変えたい場合は、式(3)のようにして、重みが全て0になることを防ぐことができる。
Figure 2019073803
式(3)によれば、第2相関行列計算部417は、後段の固有値分解部412による一般化固有値分解の対象となる、重みを適用した第2の空間相関行列を、過去の重みを適用した第2の空間相関行列に基づいて逐次的に更新する。このような更新式により、長時間の定常雑音成分の利用が可能になる。さらに重みが0〜1の連続値である場合、過去の第2空間相関行列ほど重みの積算回数が増えて重みがより小さくなるので、直近の時刻の定常雑音成分ほど大きな重みが置かれることになる。従って、目的音の背景にある定常雑音成分に近いと考えられる、直近の時刻の定常雑音成分に大きな重みを置いた状態で第2の空間相関行列の計算が可能になる。
ステップS133において固有値分解部412は、固有値分解する。すなわち、第2相関行列計算部417から供給される、重みを適用した第2の空間相関行列と、第1相関行列計算部411から供給される、第1の空間相関行列に基づく一般化固有値分解が行われる。例えば次式(4)から固有値と固有ベクトルが計算される。
Figure 2019073803
式(4)においてλは、一般化固有値分解で求められるi番目に大きな固有値ベクトル、eは、λiに対応する固有ベクトル、Mは、マイクロフォン13の数を表す。
SEVDの場合においては、Kω,tは、式(5)のようにしたものである。
Figure 2019073803
GEVDの場合においては、次式(6)を満たす行列Φω,tを用いて、式(4)が式(7)と式(8)で表されるように変形される。これによりSEVDの問題となり、式(7)と式(8)から固有値と固有ベクトルが求められる。
Figure 2019073803
式(7)のΦ−H ω,tは、白色化行列であり、式(7)の左辺の括弧内は、定常雑音成分でRω,tを白色化したもの、すなわち定常雑音成分が除去されたものである。
ステップS134において第1空間スペクトル算出部415は、次の式(9)と式(10)に基づいて、第1の空間スペクトルP ω,θ,tを算出する。すなわち、第1空間スペクトル算出部415は、小さい方からM-N個の固有値に対応した固有ベクトルeとステアリングベクトルaθを用いて、方向θから音が到来している度合いを表す空間スペクトルP ω,θ,tを算出する。固有ベクトルeは、固有値分解部412から供給される。方向θに関する伝達関数であるステアリングベクトルaθは、方向θに音源があると仮定して予め求められた伝達関数であり、伝達関数記憶部414に予め記憶されている。
Figure 2019073803
Nは音源の数を表し、θは仰角を固定して空間スペクトルを計算する水平方向を表す。
ステップS135において周波数重み算出部413は、周波数毎の空間スペクトルの寄与度合いを表す周波数重みを算出する。ある方向から音が到来している場合には、固有値の分布に偏りが生じており、音源数分の固有値のみが大きくなる。例えば以下の式(11)に従って周波数重みwω,tが計算される。λは一般化固有値分解で求められるi番目に大きな固有値であり、式(11)の分子の固有値は、一番大きい固有値を意味する。
Figure 2019073803
ステップS136において周波数情報統合部416は、次の式(12)と式(13)に従って、周波数毎の第1の空間スペクトルの重み付け平均P-n θ,tを算出する。第1の空間スペクトルP ω,θ,tは、第1空間スペクトル算出部415から供給され、周波数重みwω,tは周波数重み算出部413から供給される。
Figure 2019073803
なお、式(13)の第2項は、仰角を固定して空間スペクトルを計算する水平方向θの全ての範囲でθ’を変化させたときに、式(13)のlogP-n θ’,tを最小にするものである。
式(12)の演算では、調和平均が求められているが、算術平均や幾何平均を求めるようにすることもできる。式(13)の演算により、最小値が0に正規化されており、この演算におけるlogの底は任意だが、例えばネイピア数を用いることができる。式(13)の演算により、後段の第1ピーク検出部452で音源と無関係なピークを閾値以下に抑える効果がある。
以上のようにして、第1MUSIC処理部102における第1MUSIC処理により、第1の空間スペクトルの重み付け平均P^ θ,tが計算される。
図7に戻って、ステップS102の第1MUSIC処理(図8の処理)の後、ステップS103において水平角推定部103により、水平角推定処理が行われる。この水平角推定処理について、図9を参照して説明する。図9は、水平角推定処理を説明するフローチャートである。
ステップS161において閾値更新部451は、閾値を計算する。すなわち、第1MUSIC処理部102の周波数情報統合部416から出力された第1の空間スペクトルの重み付け平均P^ θ,tのうち、ピーク検出を行うか否かを決めるための閾値Pth θ,tが、例えば次の式(14)と式(15)に従って計算される。αth,βth,γthは、それぞれ定数であり、Θはスキャンする方向の数を表す。
Figure 2019073803
この閾値Pth θ,tは音源がその方向にないものの、値の小さいピークとなってしまったものを除去したり、ある方向から鳴り続けている音を除去したりする効果がある。目的音声は短いコマンドや機器を操作するための発話であることが多く、長時間続くものではないと想定される。
次にステップS162において第1ピーク検出部452は、第1のピークを検出する。すなわち、周波数情報統合部416から出力された第1の空間スペクトルの重み付け平均P^ θ,tのうち、閾値更新部451から出力された閾値Pth θ,tを超えるピークを有するものが検出される。そして、検出されたピークを有する第1の空間スペクトルの重み付け平均P^ θ,tに対応する水平角θ^が、仰角を固定したときの発話方向(第1の水平角)として出力される。
以上のようにして、図7のステップS103における水平角推定部103の水平角推定処理(図9の処理)により、仰角を固定したときの発話方向である第1の水平角θ^が推定される。
図7のステップS103の水平角推定処理の次に、ステップS104において第2MUSIC処理部104により第2MUSIC処理が実行される。この第2MUSIC処理の詳細について、図10を参照して説明する。図10は、第2MUSIC処理を説明するフローチャートである。
ステップS181において第2空間スペクトル算出部482は、第2の空間スペクトルを算出する。すなわち、固有値分解部412で得られた固有ベクトルeのうち、小さい方からM-N個の固有値λに対応した固有ベクトルeと、方向(θ~,φ)に関する伝達関数であるスステアリングベクトルaθ~,φを用いて、第2の空間スペクトルが算出される。第2の空間スペクトルP ω,θ~,φ,tの算出は、例えば次の式(16)に従って行われる。
Figure 2019073803
θ~は、仰角を固定したときの音源の推定方向θ^を基準として、その近傍の制限された範囲(θ^±s)である。すなわち、θ^-s<θ~< θ^+sとされる。つまり、仰角を推定する範囲が、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲とされる。φは空間スペクトルを計算する仰角方向を表す。
図11は、推定範囲を説明する図である。図11に示されるように、仰角を推定する範囲は、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲(θ^±s)であるので、演算量を少なくすることができる。その結果、演算リソースの高くない(演算能力が高くない)デバイスでも、リアルタイムに演算することが可能になる。本技術は、ユーザがいそうな方向が完全に未知な条件(カメラ等の画角に入っていることや、ウェアラブルデバイスのように予め「この方向にいる」という情報がない場合)でも適用可能である。
第2の空間スペクトルは、方向(θ~,φ)から音が到来している度合いを表す空間スペクトルである。方向(θ~,φ)に関するステアリングベクトルaθ~,φは予め伝達関数記憶部481に記憶されており、固有ベクトルeは、第1MUSIC処理部102の固有値分解部412から供給される。
ステップS182において周波数情報統合部483は、次の式(17)と式(18)に従って、周波数毎の第2の空間スペクトルの重み付け平均P^ θ~,φ,tを算出する。第2の空間スペクトルP ω,θ ~,φ,tは、第2空間スペクトル算出部482から供給され、周波数重みwω,tは第1MUSIC処理部102の周波数重み算出部413から供給される。
Figure 2019073803
以上の第2MUSIC処理部104の第2MUSIC処理により、周波数毎の第2の空間スペクトルの重み付け平均P^ θ~,φ,tが算出される。
図7に戻って、ステップS104の第2MUSIC処理(図10の処理)が終了すると、ステップS105において第2ピーク検出部105がピークを検出する。すなわち、第2MUSIC処理部104が出力した、重み付き平均された空間スペクトルのうち、最大値を取る空間スペクトルが検出され、その空間スペクトルに対応する水平角(第2の水平角θout)と仰角φoutが、発話方向(θoutout)として出力される。
以上のようにして、可動部14を回転させ、表示部15を推定された発話方向に向かせることにより、その方向からの音声を受け付けていることを示すことができる。
この例では、MUSIC法による演算が行われるので、発話方向を正確に求めることができる。また、水平角と仰角を推定する範囲が、360度の全水平角の範囲ではなく、一次的に推定された第1の水平角θ^の近傍の制限された範囲(θ^±s)とされるので、演算量を少なくすることができる。その結果、演算リソースの高くない(演算能力が高くない)デバイスでも、リアルタイムに演算することが可能になる。
<空間スペクトルの特性>
(図12乃至図14)
次に、図12乃至図14を参照して、空間スペクトルの特性について説明する。図12乃至図14は、空間スペクトルの特性を示す図である。
第2の空間スペクトルの重み付け平均P^ θ~,φ,tは、図12に示されるように、発話方向θsにおいてピークを持つ。音源が1つの環境においては、この空間スペクトルは発話方向の水平角θiの位置で鋭いピークを持つ。しかし、常時雑音が発生しているような環境においては、例えば図13に示されるように、発話方向θsだけでなく、雑音方向θnといったように、2つ以上のピークが出現することがある。また、スペクトルが歪んできれいにピークが求められないといったことが起こる。
そこでこの音声入力装置1においては、式(7)を参照して説明したように、一般化固有値分解により、雑音が白色化される。これにより、空間的に有色な雑音を白色化することができるため、得られる新たな固有ベクトルを用いてMUSIC法による処理を行うと、図14に示されるように、空間スペクトルから、発話方向θsに比べて雑音方向θnのピークを抑圧することができる。
発話方向推定部71を、図5に示したように構成した場合、演算リソースの高くないデバイスでも、リアルタイムに演算することが可能であるので、マイクロフォンアレイ12を、必ずしも固定部としての筐体11に設ける必要はない。しかしながら、マイクロフォンアレイ12を、固定部としての筐体11に設けておけば、発話者の方向を推定するのに、より演算能力が低いデバイスを用いることが可能になる。
そして、上述した式(2)の雑音信号の相関行列Kω,tを、予め学習しておくか、または逐次的に更新しながらある程度の時間幅を持った雑音区間情報から計算し、保持しておくことができる。可動部14が回転しても、回転の前後でマイクロフォンアレイ12の配置、発話方向、空間の間の位置関係が変わらなければ、それまで学習した空間情報がそのまま使用できるため、動作による性能劣化が起こらず、不要な混乱を招かない。そして、通話、音声認識等のアプリケーションを、安定して使用することができる。
マイクロフォンアレイ12を立体的に配置した方が、演算量が増える反面、発話方向の正確な推定には有利となる。しかし、マイクロフォンアレイ12を固定部に取り付けることにより、図1乃至図3に示されるように、平面的に配置し、より演算量が少ない方法を採用しても、正確に発話方向を推定することが可能になる。その結果、コストを低減することができる。
相関行列Kω,tの逐次学習は、使用環境の雑音の特徴を推定しているものであり、例えばテレビジョン放送やラジオ放送などの音が定常的に流されていると、その方向の雑音情報が相関行列Kω,tの中に蓄積される。その結果、人の発話を検出するときに誤ってテレビやラジオの方向が検出され難くなる。この相関行列Kω,t に十分な情報を蓄積するためにはある程度の時間が必要である。
マイクロフォンアレイ12を固定せずに、回転してしまうと、回転直後はマイクロフォンアレイ12と空間の位置関係がリセットされてしまう。回転直後のユーザ(または別の方向の新たなユーザ)の発話を検出するための方向推定時に、これまで学習していた相関行列Kω,tを使用してしまうと、テレビジョン放送やラジオ放送による雑音の方向や強さの情報が相関行列Kω,tにまだ学習されていない。そのため、マイクロフォンアレイ12の回転直後においては、発話方向を正確に推定することが困難になる。
しかし、マイクロフォンアレイ12を固定しておけば、マイクロフォンアレイ12と空間の位置関係がリセットされることはないので、このような問題は発生しない。特に、可動部14を円柱状のように、回転中心に対して対称に形成しておけば、可動部14による反射を考慮しても、回転の前後において、マイクロフォンアレイ12と空間の位置関係が変化することはない。
また、マイクロフォンアレイ12を回転させ、それを駆動するサーボモータの回転軸の回転ステップ数から回転角度を計算し、その回転角度の分だけ、推定された方向を補正する構成も考えられる。しかし、マイクロフォンアレイ12を固定しておけば、このような補正処理も不要となる。
<コンピュータ>
(図15)
上述した一連の処理は、ハードウエアにより実行させることもできるし、ソフトウエアにより実行させることもできる。この場合、例えば、各装置は、図15に示されるようなパーソナルコンピュータにより構成される。図15は、パーソナルコンピュータの構成例を示すブロック図である。
図15において、CPU(Central Processing Unit)921は、ROM(Read Only Memory)922に記憶されているプログラム、または記憶部928からRAM(Random Access Memory)923にロードされたプログラムに従って各種の処理を実行する。RAM923にはまた、CPU921が各種の処理を実行する上において必要なデータなども適宜記憶される。
CPU921、ROM922、およびRAM923は、バス924を介して相互に接続されている。このバス924にはまた、入出力インタフェース925も接続されている。
入出力インタフェース925には、キーボード、マウスなどよりなる入力部926、CRT、LCDなどよりなるディスプレイ、並びにスピーカなどよりなる出力部927、ハードディスクなどより構成される記憶部928、モデム、ターミナルアダプタなどより構成される通信部929が接続されている。通信部929は、例えばインターネットなどのネットワークを介しての通信処理を行う。
入出力インタフェース925にはまた、必要に応じてドライブ930が接続され、磁気ディスク、光ディスク、光磁気ディスク、或いは半導体メモリなどのリムーバブルメディア931が適宜装着され、それらから読み出されたコンピュータプログラムが、必要に応じて記憶部48にインストールされる。
なお、本明細書において、記録媒体に記録されるプログラムを記述するステップは、記載された順序に沿って時系列的に行われる処理はもちろん、必ずしも時系列的に処理されなくとも、並列的あるいは個別に実行される処理をも含むものである。
また、本技術の実施の形態は、上述した実施の形態に限定されるものではなく、本技術の要旨を逸脱しない範囲において種々の変更が可能である。
<その他>
本技術は、以下のような構成もとることができる。
(1)
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと、
前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
推定された前記発話方向に対応して前記可動部を駆動する駆動部と
を備える音声入力装置。
(2)
前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
前記(1)に記載の音声入力装置。
(3)
前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
前記(1)または(2)に記載の音声入力装置。
(4)
前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
前記(1)乃至(3)のいずれかに記載の音声入力装置。
(5)
前記可動部は、回転中心に対して対称である
前記(1)乃至(4)のいずれかに記載の音声入力装置。
(6)
前記発話方向推定部は、
前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、
前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部と
を備える
前記(1)乃至(5)のいずれかに記載の音声入力装置。
(7)
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力方法において、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含む音声入力方法。
(8)
コンピュータに、
所定の位置に配置される固定部と、
前記固定部に対して可動する可動部と、
前記固定部に取り付けられたマイクロフォンアレイと
を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
推定された前記発話方向に対応して前記可動部を駆動するステップと
を含むプログラム。
1 音声入力装置, 11 筐体, 12 マイクロフォンアレイ, 13 マイクロフォン, 14 可動部, 15 表示部, 16 スピーカ, 51 信号処理部, 52 メイン制御部, 71 発話方向推定部, 72 信号強調部, 73 雑音抑圧部, 74 エコーキャンセル部, 81 音声認識エンジン, 82 動作決定部

Claims (8)

  1. 所定の位置に配置される固定部と、
    前記固定部に対して可動する可動部と、
    前記固定部に取り付けられたマイクロフォンアレイと、
    前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定する発話方向推定部と、
    推定された前記発話方向に対応して前記可動部を駆動する駆動部と
    を備える音声入力装置。
  2. 前記マイクロフォンアレイから入力された、前記発話者からの前記音声を認識し、その認識結果に基づいて、前駆動部を制御する制御部をさらに備える
    請求項1に記載の音声入力装置。
  3. 前記制御部は、内部または外部に、前記発話者からの前記音声を認識する音声認識エンジンを備える
    請求項2に記載の音声入力装置。
  4. 前記マイクロフォンアレイにおいては、複数のマイクロフォンが平面的に配置されている
    請求項3に記載の音声入力装置。
  5. 前記可動部は、回転中心に対して対称である
    請求項4に記載の音声入力装置。
  6. 前記発話方向推定部は、
    前記発話者からの前記音声の信号から前記発話方向の水平角である第1の水平角を推定する第1の推定部と、
    前記第1の水平角を基準として、前記第1の水平角の近傍の所定の範囲において、前記発話方向の前記水平角である第2の水平角と仰角を推定する第2の推定部と
    を備える
    請求項1に記載の音声入力装置。
  7. 所定の位置に配置される固定部と、
    前記固定部に対して可動する可動部と、
    前記固定部に取り付けられたマイクロフォンアレイと
    を備える音声入力装置の音声入力方法において、
    前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
    推定された前記発話方向に対応して前記可動部を駆動するステップと
    を含む音声入力方法。
  8. コンピュータに、
    所定の位置に配置される固定部と、
    前記固定部に対して可動する可動部と、
    前記固定部に取り付けられたマイクロフォンアレイと
    を備える音声入力装置の音声入力処理を実行させるプログラムにおいて、
    前記固定部に取り付けられた前記マイクロフォンアレイから入力された、発話者からの音声に基づいて、発話方向を推定するステップと、
    推定された前記発話方向に対応して前記可動部を駆動するステップと
    を含むプログラム。
JP2019548109A 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム Ceased JPWO2019073803A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2017197869 2017-10-11
JP2017197869 2017-10-11
PCT/JP2018/035842 WO2019073803A1 (ja) 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム

Publications (1)

Publication Number Publication Date
JPWO2019073803A1 true JPWO2019073803A1 (ja) 2020-11-05

Family

ID=66100726

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2019548109A Ceased JPWO2019073803A1 (ja) 2017-10-11 2018-09-27 音声入力装置および方法、並びにプログラム

Country Status (5)

Country Link
US (1) US11310593B2 (ja)
EP (1) EP3696811A4 (ja)
JP (1) JPWO2019073803A1 (ja)
CN (1) CN111194464A (ja)
WO (1) WO2019073803A1 (ja)

Families Citing this family (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US11386904B2 (en) * 2018-05-18 2022-07-12 Sony Corporation Signal processing device, signal processing method, and program
CN109068234A (zh) * 2018-10-29 2018-12-21 歌尔科技有限公司 一种音频设备定向发声方法、装置、音频设备
KR20210138181A (ko) * 2019-04-11 2021-11-19 엘지전자 주식회사 안내 로봇 및 안내 로봇의 동작 방법

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6456428A (en) * 1987-08-27 1989-03-03 Oki Electric Ind Co Ltd Control system for camera by sound
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2011053828A (ja) * 2009-08-31 2011-03-17 Toshiba Tec Corp 画像処理装置及びプログラム

Family Cites Families (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001337694A (ja) 2000-03-24 2001-12-07 Akira Kurematsu 音源位置推定方法、音声認識方法および音声強調方法
EP1715717B1 (en) 2004-02-10 2012-04-18 Honda Motor Co., Ltd. Moving object equipped with ultra-directional speaker
ATE524784T1 (de) * 2005-09-30 2011-09-15 Irobot Corp Begleitroboter für persönliche interaktion
JP2007221300A (ja) * 2006-02-15 2007-08-30 Fujitsu Ltd ロボット及びロボットの制御方法
JP5170440B2 (ja) * 2006-05-10 2013-03-27 本田技研工業株式会社 音源追跡システム、方法、およびロボット
JP5253278B2 (ja) * 2009-04-08 2013-07-31 株式会社東芝 多次元データ識別装置、多次元データ識別方法、及び信号到来方向推定装置
US8885882B1 (en) * 2011-07-14 2014-11-11 The Research Foundation For The State University Of New York Real time eye tracking for human computer interaction
WO2013015461A1 (ko) * 2011-07-22 2013-01-31 엘지전자 주식회사 음원 방향 탐지 장치 및 이를 포함하는 감시 카메라
US9516412B2 (en) * 2014-03-28 2016-12-06 Panasonic Intellectual Property Management Co., Ltd. Directivity control apparatus, directivity control method, storage medium and directivity control system
EP2933067B1 (en) * 2014-04-17 2019-09-18 Softbank Robotics Europe Method of performing multi-modal dialogue between a humanoid robot and user, computer program product and humanoid robot for implementing said method
US9621984B1 (en) * 2015-10-14 2017-04-11 Amazon Technologies, Inc. Methods to process direction data of an audio input device using azimuth values
KR102392113B1 (ko) 2016-01-20 2022-04-29 삼성전자주식회사 전자 장치 및 전자 장치의 음성 명령 처리 방법
US11151992B2 (en) * 2017-04-06 2021-10-19 AIBrain Corporation Context aware interactive robot
CN107199572B (zh) * 2017-06-16 2020-02-14 山东大学 一种基于智能声源定位与语音控制的机器人系统及方法
JP6686977B2 (ja) * 2017-06-23 2020-04-22 カシオ計算機株式会社 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
US10649060B2 (en) * 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
KR102174598B1 (ko) * 2019-01-14 2020-11-05 한국과학기술원 회절 인지를 통한 비가시선 음원 위치 추적 방법 및 시스템

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS6456428A (en) * 1987-08-27 1989-03-03 Oki Electric Ind Co Ltd Control system for camera by sound
JP2009086055A (ja) * 2007-09-27 2009-04-23 Sony Corp 音源方向検出装置、音源方向検出方法及び音源方向検出カメラ
JP2011053828A (ja) * 2009-08-31 2011-03-17 Toshiba Tec Corp 画像処理装置及びプログラム

Also Published As

Publication number Publication date
WO2019073803A1 (ja) 2019-04-18
US11310593B2 (en) 2022-04-19
EP3696811A4 (en) 2020-11-25
US20200329308A1 (en) 2020-10-15
EP3696811A1 (en) 2020-08-19
CN111194464A (zh) 2020-05-22

Similar Documents

Publication Publication Date Title
CN109597022B (zh) 声源方位角运算、定位目标音频的方法、装置和设备
US10522167B1 (en) Multichannel noise cancellation using deep neural network masking
WO2020103703A1 (zh) 一种音频数据处理方法、装置、设备及存储介质
JP5587396B2 (ja) 信号分離のためのシステム、方法、および装置
Madmoni et al. Direction of arrival estimation for reverberant speech based on enhanced decomposition of the direct sound
JP2019008134A (ja) 音源分離情報検出装置、ロボット、音源分離情報検出方法及びプログラム
JP7041157B2 (ja) ビームフォーミングを使用するオーディオキャプチャ
JPWO2019073803A1 (ja) 音声入力装置および方法、並びにプログラム
JP2012088390A (ja) 音声認識装置及び音声認識方法
Nesta et al. A flexible spatial blind source extraction framework for robust speech recognition in noisy environments
Asano et al. Detection and separation of speech event using audio and video information fusion and its application to robust speech interface
JP6888627B2 (ja) 情報処理装置、情報処理方法及びプログラム
Díaz et al. Assessing the effect of visual servoing on the performance of linear microphone arrays in moving human-robot interaction scenarios
Li et al. Local relative transfer function for sound source localization
US11769486B2 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
US20220262342A1 (en) System and method for data augmentation and speech processing in dynamic acoustic environments
US11830471B1 (en) Surface augmented ray-based acoustic modeling
Zohourian et al. Multi-channel speaker localization and separation using a model-based GSC and an inertial measurement unit
Gomez et al. Dereverberation robust to speaker's azimuthal orientation in multi-channel human-robot communication
Pasha et al. Clustered multi-channel dereverberation for ad-hoc microphone arrays
US11425495B1 (en) Sound source localization using wave decomposition
Brutti et al. An environment aware ML estimation of acoustic radiation pattern with distributed microphone pairs
CN117037836B (zh) 基于信号协方差矩阵重构的实时声源分离方法和装置
Zaken et al. Neural-Network-Based Direction-of-Arrival Estimation for Reverberant Speech-the Importance of Energetic, Temporal and Spatial Information
Ogawa et al. Speech enhancement using a square microphone array in the presence of directional and diffuse noise

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20210818

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20220816

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20220908

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20230110

A045 Written measure of dismissal of application [lapsed due to lack of payment]

Free format text: JAPANESE INTERMEDIATE CODE: A045

Effective date: 20230530