JPWO2005048239A1 - 音声認識装置 - Google Patents

音声認識装置 Download PDF

Info

Publication number
JPWO2005048239A1
JPWO2005048239A1 JP2005515466A JP2005515466A JPWO2005048239A1 JP WO2005048239 A1 JPWO2005048239 A1 JP WO2005048239A1 JP 2005515466 A JP2005515466 A JP 2005515466A JP 2005515466 A JP2005515466 A JP 2005515466A JP WO2005048239 A1 JPWO2005048239 A1 JP WO2005048239A1
Authority
JP
Japan
Prior art keywords
sound source
acoustic model
unit
speech recognition
acoustic
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2005515466A
Other languages
English (en)
Other versions
JP4516527B2 (ja
Inventor
一博 中臺
一博 中臺
辻野 広司
広司 辻野
博 奥乃
博 奥乃
山本 俊一
俊一 山本
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Honda Motor Co Ltd
Original Assignee
Honda Motor Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Honda Motor Co Ltd filed Critical Honda Motor Co Ltd
Publication of JPWO2005048239A1 publication Critical patent/JPWO2005048239A1/ja
Application granted granted Critical
Publication of JP4516527B2 publication Critical patent/JP4516527B2/ja
Expired - Fee Related legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • G10L21/028Voice signal separating using properties of sound source
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L21/0216Noise filtering characterised by the method used for estimating noise
    • G10L2021/02161Number of inputs available containing the signal or the noise to be suppressed
    • G10L2021/02166Microphone arrays; Beamforming

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Quality & Reliability (AREA)
  • Signal Processing (AREA)
  • Circuit For Audible Band Transducer (AREA)

Abstract

話者や、音声認識装置を搭載した移動体が移動しても高い精度で認識可能な音声認識装置を提供する。複数のマイクMが検出した音響信号から、特定の話者HMjの音声を認識して文字情報に変換する音声認識装置である。複数のマイクMが検出した音響信号に基づき、話者HMjの音源方向θHMjを特定する音源定位部10と、音源方向θHMjに基づき、話者HMjの音声信号を音響信号から分離する音源分離部20と、断続的な複数の方向に対応した方向依存音響モデルH(θn)を記憶した音響モデル記憶部49と、音源方向θHMjの音響モデルを、音響モデル記憶部49の方向依存音響モデルH(θn)に基づいて求め、音響モデル記憶部49へ記憶させる音響モデル合成部40と、音響モデル合成部40が合成した音響モデルを使用して、音源分離部20が分離した音声信号の音声認識を行い、文字情報に変換する音声認識部50とを備える。

Description

本発明は、音声認識装置に関し、詳しくは、話者や、音声認識装置を備えた移動体が移動しても高い精度で音声を認識可能な音声認識装置に関する。
近年、音声認識技術は、実用化の域に入ってきており、情報の音声入力などに利用され始めている。一方、ロボットの研究開発も盛んとなっており、音声認識技術は、ロボットを実用化するための一つのキー技術ともなっている。すなわち、ロボットと人間との知的なソーシャルインタラクションを行うためには、人間の言葉をロボットが理解する必要があるため、音声認識の精度が重要となっている。
ところが、実際に人とのコミュニケーションを行うためには、実験室において口元に設置したマイクで音声を入力して行う音声認識とは異なるいくつかの問題がある。
例えば、実際の環境には様々な雑音があり、雑音の中から必要な音声信号を抽出しなければ音声認識をすることができない。また、話者が複数存在する場合にも、同様に認識の対象とする話者の音声のみを抽出する必要がある。また、音声認識においては、一般に隠れマルコフモデル(HMM:Hidden Markov Model)というモデルを利用して内容を特定するが、話者の位置(音響認識装置のマイクを基準とした方向)が異なると、話者の声の聞こえ方も異なることから、認識率に影響を及ぼすという問題がある。
このようなことから、本発明者を含む研究グループでは、アクティブオーディションにより複数の音源の定位・分離・認識を行う技術を発表している(非特許文献1参照)。
この技術は、人間の耳に相当する位置に2つのマイクを配置し、複数の話者が同時に発話した場合に、一人の発した単語を認識する技術である。詳しくは、2つのマイクから入力された音響信号から、話者の位置を定位し、各話者の音声を分離した上で、音声認識する。この認識の際、移動体(音声認識装置を備えたロボット等)から見て−90°から90°まで10°おきの方向に対する各話者の音響モデルを予め作成しておく。そして、音声の認識時には、それらの音響モデルを用いて並列に認識プロセスを実行する。
″A Humanoid Listens to three simultaneous talkers by Integrating Active Audition and Face Recognition″Kazuhiro Nakadai,et al.,IJCAI−03 Workshop on Issues in Designing Physical Agents for Dynamic Real−Time Environments:World Modeling,Planning,Learning and Communicating,PP117−124
しかしながら、前記した従来技術では、話者や移動体が移動する場合には、その都度移動体に対する話者の位置が変化するため、予め用意された音響モデルの方向と異なる方向に話者が位置すると、認識率が低下するという問題があった。
本発明は、このような背景に鑑みてなされたもので、話者や、移動体が移動しても高い精度で認識可能な音声認識装置を提供することを課題とする。
前記課題を解決するため、本発明の音声認識装置は、複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、前記複数のマイクが検出した1つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えるように構成した。
このような音声認識装置によれば、音源定位部が音源方向を特定し、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。
また、前記した音声認識装置においては、音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部を備え、音源分離部が分離した音声信号に基づき、特徴抽出部が音声信号の特徴を抽出するように構成してもよい。
このような音声認識装置によれば、音源定位部が音源方向を特定し、音源分離部は、音源定位部が特定した音源方向の音声のみを分離する。そして、音響モデル合成部は、音源方向と、方向依存音響モデルとに基づき、その方向に適した音響モデルを合成し、音声認識部がこの音響モデルを使用して音声認識を行う。
なお、音源分離部が出力する音声信号というのは、音声としての意味を持つ情報であればよく、音声のアナログ信号そのものに限らず、デジタル化、符号化した信号や、周波数分析したスペクトルのデータを含む。
また、前記した音声認識装置では、前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれから音源方向の確からしさを求め、最も確からしい方向を音源方向と判断するよう構成することができる。
また、前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、ロボットの頭部などの前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデル化した散乱理論を用いることができる。
さらに、前記した音声認識装置では、前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面から離れると広い方向帯域の音声を分離するアクティブ方向通過型フィルタを用いて音声分離を行うよう構成されるのが好ましい。
また、前記した音声認識装置では、前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、前記線形和に使用する重みが、学習により決定されるのが好ましい。
また、前記した音声認識装置では、前記話者を特定する話者同定部をさらに備え、前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づいて求め、前記音響モデル記憶部へ記憶させるよう構成されるのが好ましい。
また、前記特徴抽出部で抽出された特徴、または前記音源分離部が分離した音声信号について、予め用意した雛形と比較し、前記雛形との違いが予め設定した閾値より大きい領域、例えば周波数領域や、サブバンドを同定し、同定された領域については、その特徴としての信頼性が低いことを示す指標を前記音声認識部へ出力するマスキング部をさらに備えるのが望ましい。
そして、本発明の他の音声認識装置は、複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、前記音源定位部が特定した音源方向を記憶して前記特定の話者の移動している方向を推定し、その推定された方向から、現在の話者の位置を推定するストリーム追跡部と、前記ストリーム追跡部が推定した現在の話者の位置から定まる音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えて構成することができる。
このような音声認識装置によれば、任意の方向から発された音響信号の音源方向を特定し、その音源方向に適した音響モデルを使用して音声認識をするので、音声認識率を向上することができる
本発明の実施形態に係る音声認識装置のブロック図である。 音源定位部の一例を示すブロック図である。 音源定位部の動作を説明する図である。 音源定位部の動作を説明する図である。 聴覚エピポーラ幾何を説明する図である。 位相差Δφと周波数fの関係を示すグラフである。 頭部伝達関数の一例を示すグラフである。 音源分離部の一例を示すブロック図である。 通過帯域関数の一例を示すグラフである。 サブバンド選択部の動作を説明する図である。 通過帯域の一例を図示した平面図である。 (a)および(b)は、ともに特徴抽出部の一例を示すブロック図である。 音響モデル合成部の一例を示すブロック図である。 方向依存音響モデルの認識単位とサブモデルを示した図である。 パラメータ合成部の動作を説明する図である。 (a)および(b)は、ともに重みWの一例を示すグラフである。 重みWの学習方法を説明する図である。 第2実施形態に係る音声認識装置のブロック図である。 音響の入力距離差を示す図である。 第3実施形態に係る音声認識装置のブロック図である。 ストリーム追跡部のブロック図である。 音源方向の履歴を図示したグラフである。
[第1実施形態]
次に、本発明の実施形態について、適宜図面を参照しながら詳細に説明する。図1は、本発明の実施形態に係る音声認識装置のブロック図である。
図1に示すように、実施形態に係る音声認識装置1は、2つのマイクM,Mと、マイクM,Mが検出した音響信号から、話者(音源)の位置を特定する音源定位部10と、音源定位部10が特定した音源方向及び音源定位部10で求めたスペクトルに基づいて、特定の方向の音源から来る音響を分離する音源分離部20と、複数の方向についての音響モデルを記憶した音響モデル記憶部49と、音響モデル記憶部49内の音響モデル及び音源定位部10が特定した音源方向に基づいて、その音源方向の音響モデルを合成する音響モデル合成部40と、音源分離部20が分離した特定音源のスペクトルから音響の特徴を抽出する特徴抽出部30と、音響モデル合成部40が合成した音響モデルと、特徴抽出部30が抽出した音響の特徴に基づき音声認識を行う音声認識部50とを備える。これらのうち、音源分離部20は、任意的に用いられる。
本発明では、音響モデル合成部40が生成した、音源の方向に適した音響モデルを利用して音声認識部50が音声認識を行うため、高い認識率が実現される。
次に、実施形態に係る音声認識装置1の構成要素であるマイクM,M、音源定位部10、音源分離部20、特徴抽出部30、音響モデル合成部40、及び音声認識部50についてそれぞれ説明する。
《マイクM,M
マイクM,Mは、音を検出して電気信号(音響信号)として出力する一般的なマイクである。本実施形態では、2つとしているが、複数であれば幾つでもよく、例えば3つ、4つを使用しても構わない。マイクM,Mは、例えば、移動体であるロボットRBの両耳の部分に設けられる。
マイクM,Mの配置は、音響信号を集音するための一般的な音声認識装置1の正面を決定する。すなわち、マイクM,Mの集音方向のベクトルの和の方向が音声認識装置1の正面となる。図1に示すように、ロボットRBの頭の左右両脇にマイクM,Mが1つずつ設けられていれば、ロボットRBの正面が音声認識装置1の正面となる。
《音源定位部10》
図2は、音源定位部の一例を示すブロック図であり、図3及び図4は、音源定位部の動作を説明する図である。
音源定位部10は、2つのマイクM,Mから入力された2つの音響信号から、各話者HMj(図3では、HM1,HM2)の音源方向を定位する。音源定位方法は、マイクM,Mに入力された音響信号の位相差を利用する方法、ロボットRBの頭部伝達関数を用いて推定する方法、右と左のマイクM,Mから入力された信号の相互相関をとる方法などがあり、それぞれ精度を上げるため、種々の改良が加えられているが、ここでは、本発明者が改良した手法を例にして説明する。
音源定位部10は、図2に示すように、周波数分析部11、ピーク抽出部12、調波構造抽出部13、IPD計算部14、IID計算部15、聴覚エピポーラ幾何仮説データ16、確信度計算部17、及び確信度統合部18を備える。
これらの各部を、図3及び図4を参照しながら説明する。場面として、ロボットRBに対し、2人の話者HM1,HM2が同時に話しかける場合で説明する。
〈周波数分析部11〉
周波数分析部11は、ロボットRBが備える左右のマイクM,Mが検出した左右の音響信号CR1,CL1から、微小時間Δtの時間長の信号区間を切り出し、左右のチャンネルごとにFFT(高速フーリエ変換)により周波数分析を行う。
例えば、右のマイクMからの音響信号CR1より得られる分析結果がスペクトルCR2であり、左のマイクMからの音響信号CL1より得られる分析結果がスペクトルCL2である。
なお、周波数分析は、バンドパスフィルタなど、他の手法を用いることもできる。
〈ピーク抽出部12〉
ピーク抽出部12は、スペクトルCR2,CL2から左右のチャンネルごとに一連のピークを抽出する。ピークの抽出は、スペクトルのローカルピークをそのまま抽出するか、スペクトラルサブトラクション法に基づいた方法(S.F.Boll,A spectral subtraction algorithm for suppression of acoustic noise in speech,Proceedings of 1979 International conference on Acoustics,Speech,and signal Processing(ICASSP−79)参照)で行う。後者の方法は、スペクトルからピークを抽出し、これをスペクトルから減算し、残差スペクトルを生成する。そして、その残差スペクトルからピークが見つからなくなるまでピーク抽出の処理を繰り返す。
前記スペクトルCR2,CL2に対し、ピークの抽出を行うと、例えばピークスペクトルCR3,CL3のようにピークを構成するサブバンドの信号のみが抽出される。
〈調波構造抽出部13〉
調波構造抽出部13は、音源が有する調波構造に基づき、左右のチャンネルごとに特定の調波構造を有するピークをグループにする。例えば、人の声であれば、特定の人の声は、基本周波数の音と、基本周波数の倍音とからなるが、人により基本周波数が微妙に異なるので、その周波数の差により、複数の人の声をグループ分けすることができる。調波構造に基づいて同じグループに分けられたピークは、同じ音源から発せられた信号と推定できる。例えば、複数(J人)の話者が同時に話していれば、複数(J個)の調波構造が抽出される。
図3においては、ピークスペクトルCR3,CL3の、ピークP1,P3,P5を一つのグループにして調波構造CR41,CL41とし、ピークP2,P4,P6を一つのグループにして調波構造CR42,CL42としている。
〈IPD計算部14〉
IPD計算部14は、調波構造抽出部13が抽出した調波構造CR41,CR42,CL41,CL42のスペクトルから、IPD(両耳間位相差)を計算する部分である。
IPD計算部14は、話者HMjに対応する調波構造(例えば、調波構造CR41)に含まれているピーク周波数の集合を{f|k=0...K−1}としたとき、各fに対応するスペクトルのサブバンドを、右と左の両チャンネル(例えば、調波構造CR41と調波構造CL41)から選択し、次式(1)によりIPDΔφ(f)を計算する。調波構造CR41と調波構造CL41から計算したIPDΔφ(f)は、例えば、図4に示す両耳間位相差C51のようになる。ここで、Δφ(f)は、ある調波構造に含まれるある倍音fのIPDであり、Kは、その調波構造に含まれる倍音の数を示す。
Figure 2005048239
但し、
Δφ(f) :fのIPD(両耳間位相差)
J[S(f)]:右の入力信号のピークfのスペクトル虚部
R[S(f)]:右の入力信号のピークfのスペクトル実部
J[S(f)]:左の入力信号のピークfのスペクトル虚部
R[S(f)]:左の入力信号のピークfのスペクトル実部
〈IID計算部15〉
IID計算部15は、各調波構造にある各倍音について、左のマイクMから入力された音の音圧と、右のマイクMから入力された音の音圧との差(両耳間音圧差)を計算する部分である。
IID計算部15は、話者HMjに対応する調波構造(例えば、調波構造CR41,CL41)に含まれているピーク周波数fの倍音に対応するスペクトルのサブバンドを、右と左の両チャンネル(例えば、調波構造CR41と調波構造CL41)から選択し、次式(2)によりIIDΔρ(f)を計算する。調波構造CR41と調波構造CL41から計算したIIDΔρ(f)は、例えば図4に示す両耳間音圧差C61のようになる。
Figure 2005048239
但し、
Δρ(f):fのIID(両耳間音圧差)
(f):右の入力信号のピークfのパワー
(f):左の入力信号のピークfのパワー
(f)=10log10(J[S(f)]+R[S(f)]
(f)=10log10(J[S(f)]+R[S(f)]
〈聴覚エピポーラ幾何仮説データ16〉
聴覚エピポーラ幾何仮説データ16は、図5に示すように、ロボットRBの頭部を想定した球体を上から見たときに、音源Sと、ロボットRBの両耳のマイクM,Mとの距離差から生じる時間差に基づき想定される位相差のデータである。
聴覚エピポーラ幾何により、位相差Δφは、次式(3)により求められる。ここでは、頭部形状を球と仮定している。
Figure 2005048239
ここで、Δφは両耳間位相差(IPD)、vは音速、fは周波数、rは両耳間の距離2rから求まる値、θは音源方向を示す。
式(3)により、各音源方向より発せられた音響信号の周波数fと位相差Δφの関係は、図6のようになる。
〈確信度計算部17〉
確信度計算部17は、IPD及びIIDのそれぞれの確信度を計算する。
−IPD確信度−
IPDの確信度は、話者HMjに対応する調波構造(例えば、調波構造CR41,CL41)が含んでいる倍音fがどの方向から来ているらしいかをθの関数として求め、これを確率関数にあてはめる。
まず、fのIPDの仮説(予想値)を次式(4)に基づき計算する。
Figure 2005048239
Δφ(θ,f)は、ある調波構造内のk番目の倍音fに対して音源方向がθの場合のIPDの仮説(予想値)を示す。IPDの仮説は、例えば音源方向θを、±90°の範囲で5°おきに変化させて計37個の仮説を計算する。もっとも、より細かい角度ごとに計算しても、より大まかな角度ごとに計算してもかまわない。
次に、次式(5)により、Δφ(θ,f)とΔφ(f)の差を求め、すべてのピークfについて合計する。この差は、仮説と入力との距離を表し、θが話者のいる方向に近いと小さく、遠いと大きくなる。
Figure 2005048239
得られたd(θ)を、次式(6)の確率密度関数に代入し、確信度BIPD(θ)を得る。
Figure 2005048239
ここで、X(θ)=(d(θ)−m)/(√(s/n))、mは、d(θ)の平均、sはd(θ)の分散であり、nはIPDの仮説の個数(本実施形態では37個)である。
−IID確信度−
IIDの確信度は、以下のようにして求める。まず、話者HMjに対応ずる調波構造が含む倍音の音圧差の合計を次式(7)で計算して求める。
Figure 2005048239
ここで、Kは、その調波構造に含まれる倍音の数を示し、Δρ(f)は、IID計算部15で求めたIIDである。
次に、表1を利用して、音源方向の右らしさ、正面らしさ、左らしさを確信度とする。なお、表1は、実験的に得られた値である。
例えば、表1を参照して、仮説の音源方位θが40°で、音圧差Sが正であれば確信度BIID(θ)は、左上の欄を参照して0.35とする。
Figure 2005048239
〈確信度統合部18〉
確信度統合部18は、Dempster−Shafer理論に基づき、IPDとIIDの確信度BIPD(θ)、BIID(θ)を次式(8)によって統合し、統合確信度BIPD+IID(θ)を計算する。そして、統合確信度BIPD+IID(θ)が最も大きくなる音源方向θを、話者HMjのいる方向とし、以下θHMjとする。
Figure 2005048239
以上のような聴覚エピポーラ幾何を使用した仮説に代えて、頭部伝達関数を用いた仮説データ、又は散乱理論に基づく仮説データを用いることもできる。
(頭部伝達関数仮説データ)
頭部伝達関数仮説データは、ロボット周囲から発せられたインパルスより得られる、マイクMとマイクMで検出した音の位相差及び音圧差である。
頭部伝達関数仮説データは、−90°から90°の間の適当な間隔(例えば5°)の方向から発したインパルスを、マイクM,Mで検出し、それぞれを周波数分析して周波数fに対する位相応答及び振幅応答を求め、その差を計算することによって得られる。
得られた頭部伝達関数仮説データは、図7(a)のIPD及び(b)のIIDのようになる。
頭部伝達関数を用いる場合には、IPDだけではなく、IIDについてもある音源方向から来た音の周波数とIIDの関係が求められるので、IPDとIIDの両方について距離データd(θ)を作ってから確信度を求める。仮説データの作成方法は、IPDとIIDで変わりはない。
聴覚エピポーラ幾何を利用した仮説データの作成方法と異なり、計算ではなく計測で、各音源方向で発せられた信号に対する周波数fとIPDの関係を求める。すなわち、図7(a),(b)にある実測値から、それぞれの仮説と入力との距離であるd(θ)を直接計算する。
(散乱理論に基づく仮説データ)
散乱理論は、音を散乱する物体、例えばロボットの頭部による散乱波を考慮して、IPD、IIDの双方を計算的に推定する理論である。ここでは、音を散乱する物体の内、マイクの入力に主に影響を与える物体はロボットの頭部であると仮定し、これを半径aの球と仮定する。また頭部の中心の座標を極座標の原点とする。
点音源の位置をr、観測点をrとすると、観測点における直接音によるポテンシャルは、次式(9)によって定義される。
Figure 2005048239
但し、
f:点音源の周波数
v:音速
R:点音源と観測点の距離
また、観測点rを頭部表面とすると、直接音と散乱音によるポテンシャルは、
J.J.Bowman,T.B.A.Senior,and P.L.E.Uslenghi:Electromagnetic and Acoustic Scattering by Simple Shapes.Hemisphere Publishing Co.,1987.などに開示されているように、次式(10)で定義される。
Figure 2005048239
但し、
:散乱音によるポテンシャル
:第一種Legendre関数
(1):第一種球ハンケル関数
の極座標を(a,π/2,0)、Mの極座標を(a,−π/2,0)とすると、それぞれにおけるポテンシャルは、次式(11)、(12)で表される。
Figure 2005048239
Figure 2005048239
従って、散乱理論に基づく位相差IPDΔφ(θ,f)と音圧差IIDΔρ(θ,f)は、それぞれ次式(13)、(14)により求められる。
Figure 2005048239
Figure 2005048239
そして、前記(4)式のΔφ(θ,f)を前記(13)式のIPDΔφ(θ,f)に置き換え、前記した聴覚エピポーラ幾何を用いた場合と同じ手順でBIPD(θ)を求める。
すなわち、Δφ(θ,f)とΔφ(f)の差を求め、すべてのピークfについて合計してd(θ)を求め、得られたd(θ)を、前記式(6)の確率密度関数に代入し、確信度BIPD(θ)を得る。
IIDもIPDと同じ方法でd(θ)とBIID(θ)を計算する。具体的には、ΔφをΔρとし、前記(4)式のΔφ(θ,f)を前記(14)式のIPDΔρ(θ,f)でに置き換える。そして、Δρ(θ,f)とΔρ(f)の差を求め、すべてのピークfについて合計してd(θ)を求め、得られたd(θ)を、前記式(6)の確率密度関数に代入し、確信度BIID(θ)を得る。
このように散乱理論に基づいて音源方向を推定すると、ロボットの頭部の表面に沿って散乱する音声、例えば後頭部を回り込む音の影響を考慮して、音源方向と位相差、および音源方向と音圧差の関係をモデル化できるので、音源方向の推定精度が向上する。特に、音源が側方にある場合は、後頭部を回り込んで音源と反対方向にあるマイクに到達する音のパワーは比較的大きいため、散乱理論を用いることによって音源方向の推定精度が向上する。
《音源分離部20》
音源分離部20は、音源定位部10により定位された各音源方向の情報、並びに音源定位部で計算したスペクトル(例えばスペクトルCR2)により、各話者HMjの音響(音声)信号を分離する部分である。音源分離方法には、ビームフォーミング、ナルフォーミング、ピーク追跡、指向性マイク、ICA(Independent Component Analysis:独立成分分析)など、従来からある手法を用いることができるが、ここでは、本発明者が開発したアクティブ方向通過型フィルタによる方法について説明する。
音源方向の情報を利用して音源を分離する場合、音源の方向がロボットRBの正面から離れるにつれ、2本のマイクを用いて推定した音源方向情報の精度を期待できなくなる。そこで、本実施形態では、正面方向の音源については通過させる方向の範囲を狭く、正面から離れた音源では広くとるように通過帯域をアクティブに制御して、音源の分離精度を向上させる。
具体的には、音源分離部20は、図8に示すように、通過帯域関数21と、サブバンド選択部22とを有する。
〈通過帯域関数21〉
通過帯域関数21は、図9に示したように、音源方向と通過帯域幅の関数で、音源方向が、正面(0°)から離れるにつれ、方向情報の精度を期待できなくなることから、音源方向が正面から離れるほど通過帯域幅が大きくなるように予め設定した関数である。
〈サブバンド選択部22〉
サブバンド選択部22は、スペクトルCR2,CL2の各周波数の値(これを「サブバンド」という)から、特定の方向から来たと推測されるサブバンドを選択する部分である。
サブバンド選択部22では、図10に示すように、音源定位部10で生成した左右の入力音のスペクトルCR2,CL2から、各スペクトルのサブバンドについて、前記式(1)、(2)に従い、IPDΔφ(f)及びIIDΔρ(f)を計算する(図10の両耳間位相差C52,両耳間音圧差C62参照)。
そして、音源定位部10で得られたθHMjを抽出すべき音源方向とし、通過帯域関数21を参照して、θHMjに対応する通過帯域幅δ(θHMj)を取得する。取得した通過帯域幅δ(θHMj)を用いて、通過帯域の最大値θと最小値θを次式(15)により求める。通過帯域Bは、方向として平面図で図示すると、例えば図11のようになる。
Figure 2005048239
次に、θとθに対応するIPDとIIDを推定する。これらの推定には、予め計測、又は計算した伝達関数を利用する。伝達関数は、音源方向θから来る信号に対して周波数fとIPD、IIDをそれぞれ関係づけている関数で、前記したエピポーラ幾何や、頭部伝達関数、散乱理論などを用いる。推定したIPDは、例えば図10の両耳間位相差C53におけるΔφ(f),Δφ(f)であり、推定したIIDは、例えば図10の両耳間音圧差C63におけるΔρ(f),Δρ(f)である。
次に、音源方向θHMjに対して、ロボットRBの伝達関数を利用して、スペクトルCR2またはCL2の周波数fに応じ、周波数fが所定の閾値周波数fthより小さければIPDによりサブバンドを選択し、大きければIIDによりサブバンドを選択する。すなわち、以下の条件式(16)を満たすサブバンドを選択する。
Figure 2005048239
ここで、fthは、フィルタリングの判断基準にIPDとIIDのどちらを用いるかを決める閾値周波数である。
この条件式によれば、例えば、図10の両耳間位相差C53においては、周波数fthより低い周波数で、IPDがΔφ(f)とΔφ(f)の間にある周波数fのサブバンド(斜線部)が選択される。一方、図10の両耳間音圧差C63においては、周波数fthより高い周波数で、IIDがΔρ(f)とΔρ(f)の間にあるサブバンド(斜線部)が選択される。この選択されたサブバンドからなるスペクトルを本明細書において「選択スペクトル」という。
以上、本実施形態の音源分離部20について説明したが、音源分離の方法には、この他に指向性マイクを利用した方法がある。即ち、指向性が狭いマイクをロボットRBに設けておき、音源定位部10で得られた音源方向θHMjの方向に指向性マイクを向けるよう、顔の向きを変えれば、その方向から来る音声だけを取得することができる。
この指向性マイクによる方法の場合、1つの指向性マイクしかない場合には、1人の音声しか取得できないという問題もあるが、複数の指向性マイクを所定角度おきに設けておき、音源方向の指向性マイクからの音声信号を利用するようにすれば、複数人の音声の同時取得も可能である。
《特徴抽出部30》
特徴抽出部30は、音源分離部20で分離された音声スペクトルあるいは分離をしないスペクトルCR2(またはCL2)(以下、音声認識に使用する場合に「認識用スペクトル」という)から音声認識に必要な特徴を抽出する部分である。音声の特徴としては、音声を周波数分析した線形スペクトルや、メル周波数スペクトル、メル周波数ケプストラム係数(MFCC:Mel−Frequency Cepstrum Coefficient)を用いることができる。本実施形態では、MFCCを用いる場合で説明する。なお、線形スペクトルを特徴として用いる場合は、特徴抽出部30は、特に処理を行わない。また、メル周波数スペクトルを用いる場合は、コサイン変換(後述)を行わない。
特徴抽出部30は、図12(a)に示すように、対数変換部31、メル周波数変換部32、及びコサイン変換部33を有する。
対数変換部31は、サブバンド選択部22(図8参照)が選択した認識用スペクトルの振幅を対数に変換して、対数スペクトルを得る。
メル周波数変換部32は、対数変換部31が生成した対数スペクトルを、メル周波数のバンドパスフィルタに通し、周波数がメルスケールに変換されたメル周波数対数スペクトルを得る。
コサイン変換部33は、メル周波数変換部32が生成したメル周波数対数スペクトルをコサイン変換する。このコサイン変換により得られた係数がMFCCとなる。
また、雑音などによって入力音声が変形している場合は、そのスペクトルサブバンドを特徴として信用しないよう、図12(b)に示すように指標(0から1)を付与するマスキング部34を、特徴抽出部30の中または後に任意的に追加してもよい。
図12(b)の例について具体的に説明すると、特徴抽出部30が任意的にマスキング部34を含む場合、単語辞書59は、単語に対応してその単語の時系列スペクトルを有する。ここでは、この時系列スペクトルを「単語音声スペクトル」とする。
単語音声スペクトルは、雑音がない環境下で単語を発声した音声を周波数分析して得られる。特徴抽出部30に認識用スペクトルが入力されると、入力音声に含まれていると推測された単語の単語音声スペクトルが想定音声スペクトルとして単語辞書から選別される。ここでは、認識用スペクトルと時間長が最も近いものを想定音声スペクトルとして推測する。認識用スペクトルと想定音声スペクトルは、それぞれ対数変換部31、メル周波数変換部32、コサイン変換部33を経てMFCCに変換される。以下、認識用スペクトルのMFCCを「認識用MFCC」、想定音声スペクトルのMFCCを「想定MFCC」とする。
マスキング部34は、認識用MFCCと想定MFCCの差を求め、予め想定した閾値より大きい場合は0を、小さい場合は1を、MFCCの特徴量ベクトルの各特徴ごとに付与する。これを指標ωとして認識用MFCCと合わせて音声認識部50に出力する。
想定音声スペクトルを選別する際、1つだけではなく、複数選別してもよい。また、選別せずに全ての単語音声スペクトルを用いてもよい。その場合には、すべての想定音声スペクトルについて指標ωを求め、音声認識部50に出力する。
なお、指向性マイクを用いて音源分離を行う場合には、指向性マイクから得られた分離音声に対し、FFTやバンドパスフィルタなどの一般的な周波数分析手法を用いてスペクトルを得る。
《音響モデル合成部40》
音響モデル合成部40は、音響モデル記憶部49に記憶された方向依存音響モデルから、定位された各音源方位に応じた音響モデルを合成する部分である。
音響モデル合成部40は、図13に示すように、コサイン逆変換部41、線形変換部42、指数変換部43、パラメータ合成部44、対数変換部45、メル周波数変換部46、及びコサイン変換部47を有し、音響モデル記憶部49に記憶された方向依存音響モデルH(θ)を参照してθ方向の音響モデルを合成する。
〈音響モデル記憶部49〉
音響モデル記憶部49には、ロボットRBの正面を基準とした方向θごとに、方向θに適した音響モデルである方向依存音響モデルH(θ)が記憶されている。方向依存音響モデルH(θ)は、特定の方向θから発せられた人物の音声の特徴を、隠れマルコフモデル(HMM)で学習させたものである。各方向依存音響モデルH(θ)は、図14に示すように、例えば音素を認識単位とし、音素ごとに対応するサブモデルh(m,θ)を記憶している。なお、サブモデルは、モノフォン、PTM、バイフォン、トライフォンなど他の認識単位で作成してもよい。
サブモデルh(m,θ)の数は、例えば方向θについて−90°〜90°まで30°おきに7個のモデルを持ち、サブモデルを40個のモノフォンで構成しているとすれば、合計7×40=280個となる。
サブモデルh(m,θ)は、状態数、各状態の確率密度分布、状態遷移確率の各パラメータを有している。本実施形態では、各音素の状態数は、前部(状態1)、中間部(状態2)、後部(状態3)の3つに固定している。また、本実施形態では、確率密度分布は、正規分布に固定するが、確率密度分布は、正規分布または他の分布の1つ以上の混合分布であってもよい。したがって、本実施形態では、状態遷移確率Pと、正規分布のパラメータ、つまり平均μ及び標準偏差σを学習させる。
サブモデルh(m,θ)の学習データは次のようにして作成する。
ロボットRBに対し、音響モデルを作成したい方向から、特定の音素からなる音声信号を図示しないスピーカにより発する。そして、検出した音響信号を特徴抽出部30によりMFCCに変換し、後述する音声認識部50で音声認識させる。すると、認識した音声が、音素ごとにどのくらいの確率であるかが結果として得られるが、この結果に対し、特定の方向の特定の音素であるという教師信号を与えることで音響モデルを適応学習させる。そして、サブモデルを学習するのに十分な種類(例えば、異なる話者)の音素や単語を学習させる。
なお、学習用音声を発する際、音響モデルを作成したい方向とは異なる方向から、別の音声をノイズとして発してもよい。この場合は、前記した音源分離部20により音響モデルを作成したい方向の音響のみを分離した上で、特徴抽出部30によりMFCCに変換する。また、これらの学習は、音響モデルを不特定話者のモデルとして持たせたい場合には、不特定の話者の声で学習させればよいし、特定話者ごとにモデルを持たせたい場合には、特定話者ごとに学習させればよい。
コサイン逆変換部41から指数変換部43は、確率密度分布のMFCCを線形スペクトルに戻す。つまり、確率密度分布について、特徴抽出部30と逆の操作をする。
〈コサイン逆変換部41〉
コサイン逆変換部41は、音響モデル記憶部49が記憶している方向依存音響モデルH(θ)が有するMFCCについてコサイン逆変換してメル対数スペクトルを生成する。
〈線形変換部42〉
線形変換部42は、コサイン逆変換部41により生成されたメル対数スペクトルの周波数を線形周波数に変換し、対数スペクトルを生成する。
〈指数変換部43〉
指数変換部43は、線形変換部42により生成された対数スペクトルの強度を指数変換し、線形スペクトルを生成する。線形スペクトルは、平均μ、標準偏差σの確率密度分布として得られる。
〈パラメータ合成部44〉
パラメータ合成部44は、図15に示すように、方向依存音響モデルH(θ)にそれぞれ重みをかけた上でそれらの和をとり、音源方向θHMjの音響モデルH(θHMj)を合成する。方向依存音響モデルH(θ)にある各サブモデルは、それぞれコサイン逆変換部41から指数変換部43により、線形スペクトルの確率密度分布に変換され、それぞれ、平均μ1nm,μ2nm,μ3nm,標準偏差σ1nm,σ2nm,σ3nm,状態遷移確率P11nm,P12nm,P22nm,P23nm,P33nmのパラメータを持っている。そして、これらのパラメータを、予め学習によって求められ、音響モデル記憶部49に記憶されている重みと内積して、音源方向θHMjの音響モデルを合成する。つまり、パラメータ合成部44は、方向依存音響モデルH(θ)の線形和により音源方向θHMjの音響モデルを合成している。なお、重みWnθHMjの設定の仕方は後述する。
H(θHMj)にあるサブモデルを合成する場合には、状態1の平均μ1θHMjmを次式(17)により求める。
Figure 2005048239
平均μ2θHMjm,μ3θHMjmについても同様にして求めることができる。
また、状態1の標準偏差σ1θHMjmの合成については、共分散σ1θHMjm を次式(18)により求める。
Figure 2005048239
標準偏差σ2θHMjm,σ3θHMjmについても同様にして求めることができる。
得られたμとσにより、確率密度分布を求めることができる。
また、状態1の状態遷移確率P11θHMjmの合成については、次式(19)により求める。
Figure 2005048239
状態遷移確率P12θHMjm,P22θHMjm,P23θHMjm,P33θHMjmについても同様にして求めることができる。
次に、対数変換部45からコサイン変換部47により、確率密度分布を線形スペクトルからMFCCに変換し直す。すなわち、対数変換部45は、対数変換部31と、メル周波数変換部46は、メル周波数変換部32と、コサイン変換部47は、コサイン変換部33と同様であるので、詳細な説明を省略する。
なお、単一正規分布ではなく、混合正規分布の形で合成する場合には、前記した平均μ、標準偏差σの計算に代えて次式(20)により確率密度分布f1θHMjm(x)を求める。
Figure 2005048239
確率密度分布f2θHMjm(x),f3θHMjm(x)についても同様にして求めることができる。
パラメータ合成部44は、このようにして得られた音響モデルを、音響モデル記憶部49に記憶させる。
なお、このような音響モデルの合成は、音声認識装置1が作動している間、パラメータ合成部44がリアルタイムに行う。
〈重みWnθHMjの設定〉
重みWnθHMjは、音源方向θHMjに対応する音響モデルを合成するときに、各方向依存音響モデルH(θ)に対して設定するもので、H(θ)に含まれるすべてのサブモデルh(m,θ)に対して用いる重みWnθHMjを設定してもよいし、あるいは各サブモデルh(m,θ)に対応する重みWmnθHMjを設定してもよい。基本的には、音源が正面にある場合の重みWnθ0を定める関数f(θ)をあらかじめ設定しておき、音源方向θHMjに対応する音響モデルを合成する際に、f(θ)をθ軸方向にθHMj移動(θ→θ−θHMjとする)した関数f(θ)を求め、これを参照してWnθHMjを設定する。
〈関数f(θ)の作成〉
[A]f(θ)を経験的に求める方法
f(θ)を経験的に求める場合は、経験的に得られた定数aを用いて次式のように表す。
f(θ)=aθ+α(θ<0,θ=−90°のときf(θ)=0)
f(θ)=−aθ+α(θ≧0,θ=90°のときf(θ)=0)
ここで、定数a=1.0とすれば、音源が正面にある場合のf(θ)は、図16(a)のようになる。また、f(θ)をθ軸方向にθHMj移動したのが図16(b)である。
[B]f(θ)を学習によって求める方法
f(θ)を学習によって求める場合は、例えば次のような学習をする。
音源が正面にあるときの任意の音素mの重みをWmnθ0とする。最初に適当な初期値の重みの値のWmnθ0を設定しておき、このWmnθ0を用いて合成した音響モデルH(θ)でmを含む適当な音素列、例えば音素列[mm′m″]を認識させる試行を行う。具体的には、正面に設置したスピーカから、前記音素列を発し、これを認識させる。ここで、学習データは、1つの音素m自体であってもよいのであるが、音素が複数つながった音素列で学習させた方が良い学習結果が得られるため、音素列を使用している。
この時の認識結果が、例えば図17である。図17では、初期値のWmnθ0を用いて合成した音響モデルH(θ)での認識結果が1行目であり、2行目以下のH(θ)が方向θの方向依存音響モデルH(θ)を使用したときの認識結果である。例えば、音響モデルH(θ90)での認識結果は音素列[/x//y//z/]であり、音響モデルH(θ)での認識結果は、音素列[/x//y/m″]であったことを示す。
1回目の試行後、まず1音素目を見て、図17の正面からθ=±90°の範囲に一致する音素が認識された場合、その方向に対応するモデルの重みWmnθ90をΔd増加させる。Δdは実験的に求め、例えば0.05とする。そして、一致する音素が認識されない場合、その方向に対応するモデルの重みWmnθ0をΔd/(n−k)減少させる。つまり、正解を出した方向依存音響モデルの重みは大きくし、正解を出さなかった方向依存音響モデルの重みは減少させる。
例えば、図17の場合では、H(θ)とH(θ90)が一致しているので、対応する重みWmnθと重みWm90θ0をΔd増加させ、それ以外の重みを2Δd/(n−2)減少させる。
一方、1音素目に一致する音素を認識した方向θが無い場合、他の方向に対して重みの大きい、優勢な方向依存音響モデルH(θ)があれば、その方向依存音響モデルH(θ)の重みをΔd減少させ、それ以外のモデルの重みをkΔd/(n−k)増加させる。つまり、どの方向依存音響モデルH(θ)も認識できなかったということは、現在の重みの分配が良くない可能性があるから、現在の重みが優勢な方向について重みを減少させる。
優勢であるかどうかは、重みが予め定められた閾値(ここでは0.8とする)より大きいかどうかで判断する。優勢な方向依存音響モデルH(θ)がなければ、最大の重みのみをΔd減少させ、その他の方向依存音響モデルH(θ)の重みをΔd/(n−1)増加させる。
そして、更新された重みを用いて、前記した試行を繰り返す。
そして、音響モデルH(θ90)の認識結果が、正解mとなったときに、繰り返しを終了し、次の音素m′の認識および学習へ移るか、または学習を終了する。学習を終了した場合、ここで得られた重みWmnθ90がf(θ)となる。次の音素m′へ移る場合は、すべての音素について学習し、得られたWmnθ90を平均したものがf(θ)となる。
これを平均せず、各サブモデルh(m,θ)に対応する重みWmnθHMjをf(θ)にしてもよい。
なお、所定の回数(例えば0.5/Δd回)繰り返しても、音響モデルH(θHMj)の認識結果が正解に至らない場合、例えばmの認識がうまくいかなかった場合には、次の音素m′の学習へ移り、最終的にうまく認識できた音素(例えばm′)の重みの分布と同じ値で重みを更新する。
また、音響モデルを合成するたびにf(θ−θHMj)を求めるのではなく、予め適当なθHMjについて、H(θ)に含まれるすべてのサブモデルh(m,θ)(表2参照)が用いる重みWnθHMjまたは各サブモデルh(m,θ)に対応するWnθHMjを求めた表3を作成しておいてもよい。なお、表2および表3において、添え字の1・・・m・・・Mは音素を表し、1・・・n・・・Nは方向を表す。
Figure 2005048239
Figure 2005048239
このようにして学習して得られた重みは、音響モデル記憶部49に記憶させる。
《音声認識部50》
音声認識部50は、音源方向θHMjに対応して合成された音響モデルH(θHMj)を用いて、分離された各話者HMjの音声あるいは入力音声から抽出した特徴を認識して文字情報とし、単語辞書59を参照して言葉を認識し、認識結果を出力する。この音声認識の方法は一般的な隠れマルコフモデルを利用した認識方法なので、詳細な説明は省略する。
なお、マスキング部を特徴抽出部30の中または後に設けて、MFCCの各サブバンドの信用度を示す指標ωが付与されている場合には、音声認識部50は、入力された特徴に次式(21)のような処理を行ってから認識する。
Figure 2005048239
:音声認識に用いる特徴
x :MFCC
i :MFCCの成分
:xのうち信用できない成分
そして、得られた出力確率と状態遷移確率を用いて、一般的な隠れマルコフモデルを利用した認識方法と同様に認識を行う。
以上のように構成された、音声認識装置1による動作を説明する。
図1に示すように、ロボットRBのマイクM,Mに、複数の話者HMj(図3参照)の音声が入力される。
そして、マイクM,Mが検出した音響信号の音源方向が音源定位部10で定位される。音源定位は、前記したように周波数分析、ピーク抽出、調波構造の抽出、IPD・IIDの計算の後、聴覚エピポーラ幾何に基づいた仮説データを利用して確信度を計算する。そして、IPDとIIDの確信度を統合して最も可能性が高いθHMjを音源方向とする(図2参照)。
次に、音源分離部20で、音源方向θHMjの音を分離する。音源分離は、通過帯域関数を利用して、音源方向θHMjのIPD及びIIDのそれぞれの上限値Δφ(f),Δρ(f)及び下限値Δφ(f),Δρ(f)を求め、前記式(16)の条件と、この上限値、下限値の条件とから、音源方向θHMjのスペクトルと推定されるサブバンド(選択スペクトル)を選択する。その後、選択サブバンドのスペクトルを逆FFTにより変換すれば、音声信号に変換できる。
次に、特徴抽出部30は、音源分離部20が分離した選択スペクトルを、対数変換部31、メル周波数変換部32、コサイン変換部33によりMFCCに変換する。
一方、音響モデル合成部40は、音響モデル記憶部49に記憶された方向依存音響モデルH(θ)と、音源定位部10が定位した音源方向θHMjとから、音源方向θHMjに適切と考えられる音響モデルを合成する。
すなわち、音響モデル合成部40は、方向依存音響モデルH(θ)を、コサイン逆変換部41、線形変換部42、及び指数変換部43により、線形スペクトルに変換する。そして、パラメータ合成部44は、音源方向θHMjの重みWnθHMjを音響モデル記憶部49から読み出し、これと方向依存音響モデルH(θ)との内積をとって、音源方向θHMjの音響モデルH(θHMj)を合成する。そして、この線形スペクトルで表された音響モデルH(θHMj)を、対数変換部45,メル周波数変換部46、及びコサイン変換部47によりMFCCで表した音響モデルH(θHMj)に変換する。
次に、音声認識部50は、音響モデル合成部40で合成された音響モデルH(θHMj)を利用して、隠れマルコフモデルにより音声認識を行う。
このようにして、音声認識を行った結果の例が、表4である。
Figure 2005048239
表4に示すように、方向依存音響モデルを−90°〜90°まで30°おきに用意して、各音響モデルで40°の方向から孤立単語を認識させたところ(従来手法)、最も認識率が高くても30°方向の方向依存音響モデルを用いた60%であった。これに対し、本実施形態の手法を使用して40°方向の音響モデルを合成して、これを用いて孤立単語を認識させたところ、78%の高い認識率を示した。このように、本実施形態の音声認識装置1によれば、任意の方向から音声が発せられた場合であっても、その方向に適した音響モデルをその都度合成するので、高い認識率を実現することができる。また、任意の方向の音声を認識できることから、移動している音源からの音声認識や、移動体(ロボットRB)自身が移動しているときにも、高い認識率での音声認識が可能である。
また、方向依存音響モデルを、断続的な数個、例えば音源方向にして60°ごとや30°ごとに記憶しておけば良く、音響モデルの学習に必要なコストを小さくすることができる。
さらに、合成した音響モデル一つについて音声認識を行えば良いため、複数方向の音響モデルについて音声認識を試みる並列処理も不要であり、計算コストを小さくすることができる。そのため、実時間処理や、組み込み用途には好適である。
以上、本発明の第1実施形態について説明したが、本発明は第1実施形態には限定されず、以下の実施形態のように変形して実施することが可能である。
[第2実施形態]
第2実施形態では、第1実施形態の音源定位部10に代えて、相互相関のピークを用いて音源方向を定位する音源定位部110を備える。なお、他の部分については第1実施形態と同様であるので説明を省略する。
《音源定位部110》
第2実施形態に係る音源定位部110は、図18に示すように、フレーム切り出し部111、相互相関計算部112、ピーク抽出部113、方向推定部114を有する。
〈フレーム切り出し部111〉
フレーム切り出し部111は、左右のマイクM,Mに入力されたそれぞれの音響信号について、所定の時間長、例えば100msecで切り出す処理を行う。切り出し処理は、適当な時間間隔、例えば30msecごとに行われる。
〈相互相関計算部112〉
相互相関計算部112は、フレーム切り出し部111が切り出した右マイクMの音響信号と、左マイクMの音響信号とで、次式(22)により相互相関を計算する
Figure 2005048239
但し、
CC(T):x(t)とx(t)の相互相関
T:フレーム長
(t):フレーム長Tで切り出された、マイクLからの入力信号
(t):フレーム長Tで切り出された、マイクRからの入力信号
〈ピーク抽出部113〉
ピーク抽出部113は、得られた相互相関の結果からピークを抽出する。抽出するピークの数は、音源の数が予め分かっている場合は、その数に対応したピークを大きいものから選択する。音源数が不明なときは、予め定めた閾値を超えたピークを全て抽出するか、あるいは予め定めた所定数のピークを大きいものから順に選択する。
〈方向推定部114〉
音源方向θHMjは、得られたピークから、右マイクMと左マイクMに入力された音響信号の到達時間差Dに音速vを掛けて、図19に示す距離差dを計算し、さらに、次式により求める。
θHMj=arcsin(d/2r)
このような相互相関を用いた音源定位部110によっても、音源方向θHMjの方向が推定され、前記した音響モデル合成部40により、音源方向θHMjに適した音響モデルを合成することで、認識率の向上を図ることができる。
[第3実施形態]
第3実施形態では、第1実施形態に加えて、音源定位部音源が同一音源から来ていることを確認しながら音声認識を行う機能を追加している。なお、第1実施形態と同じ部分については、同じ符号を付して説明を省略する。
第3実施形態に係る音声認識装置100は、図20に示すように、第1実施形態の音声認識装置1に加え、音源定位部10が定位した音源方向を入力されて、音源を追跡し、同じ音源から音響が来続けているかを確認し、確認ができたなら、音源方向を音源分離部20へ出力するストリーム追跡部60を有している。
図21に示すように、ストリーム追跡部60は、音源方向履歴記憶部61と、予測部62と、比較部63とを有する。
音源方向履歴記憶部61は、図22に示すような、時間と、その時間において認識された音源の方向及び音源のピッチ(その音源の調波構造が持つ基本周波数f)とが関連づけて記憶されている。
予測部62は、音源方向履歴記憶部61から、直前まで追跡していた音源の音源方向の履歴を読み出し、直前までの履歴からカルマンフィルタなどにより現時点t1での音源方向θHMj及び基本周波数fとからなるストリーム特徴ベクトル(θHMj,f)を予測し、比較部63へ出力する。
比較部63は、音源定位部10から、音源定位部10で定位された現時点t1の各話者HMjの音源方向θHMjと、その音源の基本周波数fとが入力される。そして、予測部62から入力された予測したストリーム特徴ベクトル(θHMj,f)と、音源定位部10で定位された音源方向及びピッチから求まるストリーム特徴ベクトル(θHMj,f)を比較して、その差(距離)が予め定めた閾値よりも小さい場合に、音源方向θHMjを音源分離部に出力する。また、ストリーム特徴ベクトル(θHMj,f)を音源方向履歴記憶部61へ記憶させる。
前記した差(距離)が、予め定めた閾値よりも大きい場合には、定位した音源方向θHMjを音源分離部20へ出力しないので、音声認識は行われない。なお、音源方向θHMjとは別に、音源の追跡ができているか否かを示すデータを、比較部63から音源分離部20へ出力してもよい。
なお、基本周波数fを用いず、音源方向θHMjだけで予測してもよい。
このようなストリーム追跡部60を有する音声認識装置100によれば、音源定位部10で音源方向が定位され、ストリーム追跡部60へ音源方向とピッチが入力される。ストリーム追跡部60では、予測部62が、音源方向履歴記憶部61に記憶された音源方向の履歴を読み出して現時点t1でのストリーム特徴ベクトル(θHMj,f)を予測する。比較部63は、予測部62で予測されたストリーム特徴ベクトル(θHMj,f)と、音源定位部10から入力された値から求まるストリーム特徴ベクトル(θHMj,f)とを比較して、その差(距離)が所定の閾値より小さければ、音源方向を音源分離部20へ出力する。
音源分離部20は、音源定位部10から入力されたスペクトルのデータと、ストリーム追跡部60が出力した音源方向θHMjのデータに基づき、第1実施形態と同様にして音源を分離する。そして、以下、特徴抽出部30、音響モデル合成部40、音声認識部50でも、第1実施形態と同様にして、処理を行う。
このように、本実施形態の音声認識装置100は、音源が追跡できているか否かを確認した上で音声認識を行うので、音源が移動している場合にも、同じ音源が発し続けている音声を連続して認識するため、誤認識の可能性を低くすることができる。特に、複数の移動する音源があって、それらの音源が交差する場合などに好適である。
また、音源方向を記憶、予測していることから、その方向の所定範囲についてのみ音源を探索すれば、処理を少なくすることができる。
以上、本発明の実施形態について説明したが、本発明は、前記した実施形態には限定されず適宜変更して実施される。
例えば、音声認識装置1が、カメラと、公知の画像認識装置を有し、話者の顔を認識して、誰が話しているかを自己が有するデータベースから話者を特定する話者同定部を備え、前記方向依存音響モデルを話者ごとに有していれば、話者に適した音響モデルを合成することができるので、認識率をより高くする事ができる。あるいは、カメラを使わず、ベクトル量子化(VQ)を用いて、予め登録してある話者の音声をベクトル化したものと、音源分離部20で分離された音声をベクトル化したものとを比較し、最も距離の近い話者を結果として出力することで話者を同定してもよい。

Claims (8)

  1. 複数のマイクが検出した音響信号から、音声を認識して文字情報に変換する音声認識装置であって、
    前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、
    前記複数のマイクが検出した1つ以上の音響信号に基づき、その音響信号に含まれる音声信号の特徴を抽出する特徴抽出部と、
    断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、
    前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、
    前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えることを特徴とする音声認識装置。
  2. 複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、
    前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、
    前記音源定位部が特定した音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、
    前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、
    断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、
    前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、
    前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えることを特徴とする音声認識装置。
  3. 前記音源定位部は、前記マイクが検出した音響信号を周波数分析した後、調波構造を抽出し、複数のマイクから抽出された調波構造の音圧差と位相差とを求め、この音圧差と位相差のそれぞれから音源方向の確からしさを求め、最も確からしい方向を音源方向と判断するよう構成されたことを特徴とする請求の範囲第1項または第2項に記載の音声認識装置。
  4. 前記音源定位部は、前記複数のマイクから検出された音響信号の音圧差と位相差を用いて前記特定の話者の音源方向を特定するために、前記マイクが設けられる部材の表面で散乱する音響信号を音源方向ごとにモデル化した散乱理論を用いることを特徴とする請求の範囲第1項から第3項のいずれか1項に記載の音声認識装置。
  5. 前記音源分離部は、前記音源定位部が特定した音源方向が、前記複数のマイクの配置により決定される正面に近い場合には、狭い方向帯域の音声を分離し、正面から離れると広い方向帯域の音声を分離するアクティブ方向通過型フィルタを用いて音声分離を行うよう構成されたことを特徴とする請求の範囲第2項から第4項のいずれか1項に記載の音声認識装置。
  6. 前記音響モデル合成部は、前記音響モデル記憶部の方向依存音響モデルの重み付き線形和により前記音源方向の音響モデルを合成するよう構成され、
    前記線形和に使用する重みが、学習により決定されたことを特徴とする請求の範囲第1項から第5項のいずれか1項に記載の音声認識装置。
  7. 前記話者を特定する話者同定部をさらに備え、
    前記音響モデル記憶部は、前記話者ごとに方向依存音響モデルを有し、
    前記音響モデル合成部は、前記話者同定部が特定した話者の方向依存音響モデルと、前記音源定位部が特定した音源方向とに基づき、前記音源方向の音響モデルを前記音響モデル記憶部の方向依存音響モデルに基づいて求め、前記音響モデル記憶部へ記憶させるよう構成されたことを特徴とする請求項の範囲第1項から第6項のいずれか1項に記載の音声認識装置。
  8. 複数のマイクが検出した音響信号から、特定の話者の音声を認識して文字情報に変換する音声認識装置であって、
    前記複数のマイクが検出した音響信号に基づき、前記特定の話者の音源方向を特定する音源定位部と、
    前記音源定位部が特定した音源方向を記憶して前記特定の話者の移動している方向を推定し、その推定された方向から、現在の話者の位置を推定するストリーム追跡部と、
    前記ストリーム追跡部が推定した現在の話者の位置から定まる音源方向に基づき、前記特定の話者の音声信号を前記音響信号から分離する音源分離部と、
    前記音源分離部が分離した音声信号の特徴を抽出する特徴抽出部と、
    断続的な複数の方向に対応した方向依存音響モデルを記憶した音響モデル記憶部と、
    前記音源定位部が特定した音源方向の音響モデルを、前記音響モデル記憶部の方向依存音響モデルに基づいて合成し、前記音響モデル記憶部へ記憶させる音響モデル合成部と、
    前記音響モデル合成部が合成した音響モデルを使用して、前記特徴抽出部が抽出した特徴について音声認識を行い、文字情報に変換する音声認識部と、を備えることを特徴とする音声認識装置。
JP2005515466A 2003-11-12 2004-11-12 音声認識装置 Expired - Fee Related JP4516527B2 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2003383072 2003-11-12
JP2003383072 2003-11-12
PCT/JP2004/016883 WO2005048239A1 (ja) 2003-11-12 2004-11-12 音声認識装置

Publications (2)

Publication Number Publication Date
JPWO2005048239A1 true JPWO2005048239A1 (ja) 2007-11-29
JP4516527B2 JP4516527B2 (ja) 2010-08-04

Family

ID=34587281

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2005515466A Expired - Fee Related JP4516527B2 (ja) 2003-11-12 2004-11-12 音声認識装置

Country Status (5)

Country Link
US (1) US20090018828A1 (ja)
EP (1) EP1691344B1 (ja)
JP (1) JP4516527B2 (ja)
DE (1) DE602004021716D1 (ja)
WO (1) WO2005048239A1 (ja)

Families Citing this family (299)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US8645137B2 (en) 2000-03-16 2014-02-04 Apple Inc. Fast, language-independent method for user authentication by voice
EP1695873B1 (en) * 2005-02-23 2008-07-09 Harman Becker Automotive Systems GmbH Vehicle speech recognition system
US8677377B2 (en) 2005-09-08 2014-03-18 Apple Inc. Method and apparatus for building an intelligent automated assistant
US7697827B2 (en) 2005-10-17 2010-04-13 Konicek Jeffrey C User-friendlier interfaces for a camera
JP4784366B2 (ja) * 2006-03-28 2011-10-05 パナソニック電工株式会社 音声操作装置
JP2007318438A (ja) * 2006-05-25 2007-12-06 Yamaha Corp 音声状況データ生成装置、音声状況可視化装置、音声状況データ編集装置、音声データ再生装置、および音声通信システム
US9318108B2 (en) 2010-01-18 2016-04-19 Apple Inc. Intelligent automated assistant
EP2128858B1 (en) * 2007-03-02 2013-04-10 Panasonic Corporation Encoding device and encoding method
US8977255B2 (en) 2007-04-03 2015-03-10 Apple Inc. Method and system for operating a multi-function portable electronic device using voice-activation
JP4877112B2 (ja) * 2007-07-12 2012-02-15 ヤマハ株式会社 音声処理装置およびプログラム
US10002189B2 (en) 2007-12-20 2018-06-19 Apple Inc. Method and apparatus for searching using an active ontology
US9330720B2 (en) 2008-01-03 2016-05-03 Apple Inc. Methods and apparatus for altering audio output signals
US8532802B1 (en) * 2008-01-18 2013-09-10 Adobe Systems Incorporated Graphic phase shifter
US8996376B2 (en) 2008-04-05 2015-03-31 Apple Inc. Intelligent text-to-speech conversion
US10496753B2 (en) 2010-01-18 2019-12-03 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US20100030549A1 (en) 2008-07-31 2010-02-04 Lee Michael M Mobile device having human language translation capability with positional feedback
KR101178801B1 (ko) * 2008-12-09 2012-08-31 한국전자통신연구원 음원분리 및 음원식별을 이용한 음성인식 장치 및 방법
US8676904B2 (en) 2008-10-02 2014-03-18 Apple Inc. Electronic devices with voice command and contextual data processing capabilities
WO2010067118A1 (en) 2008-12-11 2010-06-17 Novauris Technologies Limited Speech recognition involving a mobile device
US9858925B2 (en) 2009-06-05 2018-01-02 Apple Inc. Using context information to facilitate processing of commands in a virtual assistant
US10706373B2 (en) 2011-06-03 2020-07-07 Apple Inc. Performing actions associated with task items that represent tasks to perform
US10241644B2 (en) 2011-06-03 2019-03-26 Apple Inc. Actionable reminder entries
US10241752B2 (en) 2011-09-30 2019-03-26 Apple Inc. Interface for a virtual digital assistant
US9431006B2 (en) 2009-07-02 2016-08-30 Apple Inc. Methods and apparatuses for automatic speech recognition
US8175617B2 (en) 2009-10-28 2012-05-08 Digimarc Corporation Sensor-based mobile search, related methods and systems
WO2011055410A1 (ja) * 2009-11-06 2011-05-12 株式会社 東芝 音声認識装置
US20110125497A1 (en) * 2009-11-20 2011-05-26 Takahiro Unno Method and System for Voice Activity Detection
US9838784B2 (en) 2009-12-02 2017-12-05 Knowles Electronics, Llc Directional audio capture
US8560309B2 (en) * 2009-12-29 2013-10-15 Apple Inc. Remote conferencing center
JP5408621B2 (ja) * 2010-01-13 2014-02-05 株式会社日立製作所 音源探索装置及び音源探索方法
US10679605B2 (en) 2010-01-18 2020-06-09 Apple Inc. Hands-free list-reading by intelligent automated assistant
US10553209B2 (en) 2010-01-18 2020-02-04 Apple Inc. Systems and methods for hands-free notification summaries
US10705794B2 (en) 2010-01-18 2020-07-07 Apple Inc. Automatically adapting user interfaces for hands-free interaction
US10276170B2 (en) 2010-01-18 2019-04-30 Apple Inc. Intelligent automated assistant
US8676581B2 (en) * 2010-01-22 2014-03-18 Microsoft Corporation Speech recognition analysis via identification information
US8718290B2 (en) 2010-01-26 2014-05-06 Audience, Inc. Adaptive noise reduction using level cues
US8682667B2 (en) 2010-02-25 2014-03-25 Apple Inc. User profiling for selecting user specific voice input processing information
CA2792336C (en) * 2010-03-19 2018-07-24 Digimarc Corporation Intuitive computing methods and systems
US9378754B1 (en) 2010-04-28 2016-06-28 Knowles Electronics, Llc Adaptive spatial classifier for multi-microphone systems
KR101750338B1 (ko) * 2010-09-13 2017-06-23 삼성전자주식회사 마이크의 빔포밍 수행 방법 및 장치
US10762293B2 (en) 2010-12-22 2020-09-01 Apple Inc. Using parts-of-speech tagging and named entity recognition for spelling correction
KR101791907B1 (ko) * 2011-01-04 2017-11-02 삼성전자주식회사 위치 기반의 음향 처리 장치 및 방법
US9047867B2 (en) * 2011-02-21 2015-06-02 Adobe Systems Incorporated Systems and methods for concurrent signal recognition
US9262612B2 (en) 2011-03-21 2016-02-16 Apple Inc. Device access using voice authentication
US10057736B2 (en) 2011-06-03 2018-08-21 Apple Inc. Active transport based notifications
DK2568695T3 (en) * 2011-07-08 2016-11-21 Goertek Inc Method and device for suppressing residual echo
US9435873B2 (en) 2011-07-14 2016-09-06 Microsoft Technology Licensing, Llc Sound source localization using phase spectrum
US8994660B2 (en) 2011-08-29 2015-03-31 Apple Inc. Text correction processing
US9966088B2 (en) * 2011-09-23 2018-05-08 Adobe Systems Incorporated Online source separation
US8879761B2 (en) 2011-11-22 2014-11-04 Apple Inc. Orientation-based audio
KR101749143B1 (ko) * 2011-12-26 2017-06-20 인텔 코포레이션 탑승자 오디오 및 시각적 입력의 차량 기반 결정
US10134385B2 (en) 2012-03-02 2018-11-20 Apple Inc. Systems and methods for name pronunciation
US9483461B2 (en) 2012-03-06 2016-11-01 Apple Inc. Handling speech synthesis of content for multiple languages
US9280610B2 (en) 2012-05-14 2016-03-08 Apple Inc. Crowd sourcing information to fulfill user requests
US10417037B2 (en) 2012-05-15 2019-09-17 Apple Inc. Systems and methods for integrating third party services with a digital assistant
US9881616B2 (en) * 2012-06-06 2018-01-30 Qualcomm Incorporated Method and systems having improved speech recognition
US9721563B2 (en) 2012-06-08 2017-08-01 Apple Inc. Name recognition system
US9495129B2 (en) 2012-06-29 2016-11-15 Apple Inc. Device, method, and user interface for voice-activated navigation and browsing of a document
US8831957B2 (en) 2012-08-01 2014-09-09 Google Inc. Speech recognition models based on location indicia
US9576574B2 (en) 2012-09-10 2017-02-21 Apple Inc. Context-sensitive handling of interruptions by intelligent digital assistant
US9547647B2 (en) 2012-09-19 2017-01-17 Apple Inc. Voice-based media searching
BR112015018905B1 (pt) 2013-02-07 2022-02-22 Apple Inc Método de operação de recurso de ativação por voz, mídia de armazenamento legível por computador e dispositivo eletrônico
US9311640B2 (en) 2014-02-11 2016-04-12 Digimarc Corporation Methods and arrangements for smartphone payments and transactions
US9368114B2 (en) 2013-03-14 2016-06-14 Apple Inc. Context-sensitive handling of interruptions
WO2014144579A1 (en) 2013-03-15 2014-09-18 Apple Inc. System and method for updating an adaptive speech recognition model
US9922642B2 (en) 2013-03-15 2018-03-20 Apple Inc. Training an at least partial voice command system
US9582608B2 (en) 2013-06-07 2017-02-28 Apple Inc. Unified ranking with entropy-weighted information for phrase-based semantic auto-completion
WO2014197334A2 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for user-specified pronunciation of words for speech synthesis and recognition
WO2014197336A1 (en) 2013-06-07 2014-12-11 Apple Inc. System and method for detecting errors in interactions with a voice-based digital assistant
WO2014197335A1 (en) 2013-06-08 2014-12-11 Apple Inc. Interpreting and acting upon commands that involve sharing information with remote devices
US10176167B2 (en) 2013-06-09 2019-01-08 Apple Inc. System and method for inferring user intent from speech inputs
EP3937002A1 (en) 2013-06-09 2022-01-12 Apple Inc. Device, method, and graphical user interface for enabling conversation persistence across two or more instances of a digital assistant
EP3008964B1 (en) 2013-06-13 2019-09-25 Apple Inc. System and method for emergency calls initiated by voice command
US9536540B2 (en) 2013-07-19 2017-01-03 Knowles Electronics, Llc Speech signal separation and synthesis based on auditory scene analysis and speech modeling
DE112014003653B4 (de) 2013-08-06 2024-04-18 Apple Inc. Automatisch aktivierende intelligente Antworten auf der Grundlage von Aktivitäten von entfernt angeordneten Vorrichtungen
WO2015029296A1 (ja) * 2013-08-29 2015-03-05 パナソニック インテレクチュアル プロパティ コーポレーション オブ アメリカ 音声認識方法及び音声認識装置
JP6148163B2 (ja) * 2013-11-29 2017-06-14 本田技研工業株式会社 会話支援装置、会話支援装置の制御方法、及び会話支援装置のプログラム
US10296160B2 (en) 2013-12-06 2019-05-21 Apple Inc. Method for extracting salient dialog usage from live data
US9338761B2 (en) * 2014-02-26 2016-05-10 Empire Technology Development Llc Presence-based device mode modification
US9390712B2 (en) * 2014-03-24 2016-07-12 Microsoft Technology Licensing, Llc. Mixed speech recognition
US9620105B2 (en) 2014-05-15 2017-04-11 Apple Inc. Analyzing audio input for efficient speech and music recognition
US10592095B2 (en) 2014-05-23 2020-03-17 Apple Inc. Instantaneous speaking of content on touch devices
US9502031B2 (en) 2014-05-27 2016-11-22 Apple Inc. Method for supporting dynamic grammars in WFST-based ASR
US9633004B2 (en) 2014-05-30 2017-04-25 Apple Inc. Better resolution when referencing to concepts
US9430463B2 (en) 2014-05-30 2016-08-30 Apple Inc. Exemplar-based natural language processing
US9760559B2 (en) 2014-05-30 2017-09-12 Apple Inc. Predictive text input
US9734193B2 (en) 2014-05-30 2017-08-15 Apple Inc. Determining domain salience ranking from ambiguous words in natural speech
US9785630B2 (en) 2014-05-30 2017-10-10 Apple Inc. Text prediction using combined word N-gram and unigram language models
TWI566107B (zh) 2014-05-30 2017-01-11 蘋果公司 用於處理多部分語音命令之方法、非暫時性電腦可讀儲存媒體及電子裝置
US10078631B2 (en) 2014-05-30 2018-09-18 Apple Inc. Entropy-guided text prediction using combined word and character n-gram language models
US10289433B2 (en) 2014-05-30 2019-05-14 Apple Inc. Domain specific language for encoding assistant dialog
US10170123B2 (en) 2014-05-30 2019-01-01 Apple Inc. Intelligent assistant for home automation
US9842101B2 (en) 2014-05-30 2017-12-12 Apple Inc. Predictive conversion of language input
US9715875B2 (en) 2014-05-30 2017-07-25 Apple Inc. Reducing the need for manual start/end-pointing and trigger phrases
US10659851B2 (en) 2014-06-30 2020-05-19 Apple Inc. Real-time digital assistant knowledge updates
US9338493B2 (en) 2014-06-30 2016-05-10 Apple Inc. Intelligent automated assistant for TV user interactions
US9817634B2 (en) * 2014-07-21 2017-11-14 Intel Corporation Distinguishing speech from multiple users in a computer interaction
US10269343B2 (en) * 2014-08-28 2019-04-23 Analog Devices, Inc. Audio processing using an intelligent microphone
US10446141B2 (en) 2014-08-28 2019-10-15 Apple Inc. Automatic speech recognition based on user feedback
US9818400B2 (en) 2014-09-11 2017-11-14 Apple Inc. Method and apparatus for discovering trending terms in speech requests
US10789041B2 (en) 2014-09-12 2020-09-29 Apple Inc. Dynamic thresholds for always listening speech trigger
WO2016040885A1 (en) 2014-09-12 2016-03-17 Audience, Inc. Systems and methods for restoration of speech components
US9606986B2 (en) 2014-09-29 2017-03-28 Apple Inc. Integrated word N-gram and class M-gram language models
US10127911B2 (en) 2014-09-30 2018-11-13 Apple Inc. Speaker identification and unsupervised speaker adaptation techniques
US9668121B2 (en) 2014-09-30 2017-05-30 Apple Inc. Social reminders
US9646609B2 (en) 2014-09-30 2017-05-09 Apple Inc. Caching apparatus for serving phonetic pronunciations
US9886432B2 (en) 2014-09-30 2018-02-06 Apple Inc. Parsimonious handling of word inflection via categorical stem + suffix N-gram language models
US10074360B2 (en) 2014-09-30 2018-09-11 Apple Inc. Providing an indication of the suitability of speech recognition
US9881610B2 (en) 2014-11-13 2018-01-30 International Business Machines Corporation Speech recognition system adaptation based on non-acoustic attributes and face selection based on mouth motion using pixel intensities
US9626001B2 (en) 2014-11-13 2017-04-18 International Business Machines Corporation Speech recognition candidate selection based on non-acoustic input
US10552013B2 (en) 2014-12-02 2020-02-04 Apple Inc. Data detection
US9711141B2 (en) 2014-12-09 2017-07-18 Apple Inc. Disambiguating heteronyms in speech synthesis
US10152299B2 (en) 2015-03-06 2018-12-11 Apple Inc. Reducing response latency of intelligent automated assistants
US9865280B2 (en) 2015-03-06 2018-01-09 Apple Inc. Structured dictation using intelligent automated assistants
US9721566B2 (en) 2015-03-08 2017-08-01 Apple Inc. Competing devices responding to voice triggers
US10567477B2 (en) 2015-03-08 2020-02-18 Apple Inc. Virtual assistant continuity
US9886953B2 (en) 2015-03-08 2018-02-06 Apple Inc. Virtual assistant activation
US9899019B2 (en) 2015-03-18 2018-02-20 Apple Inc. Systems and methods for structured stem and suffix language models
GB201506046D0 (en) * 2015-04-09 2015-05-27 Sinvent As Speech recognition
US9842105B2 (en) 2015-04-16 2017-12-12 Apple Inc. Parsimonious continuous-space phrase representations for natural language processing
US10460227B2 (en) 2015-05-15 2019-10-29 Apple Inc. Virtual assistant in a communication session
US10083688B2 (en) 2015-05-27 2018-09-25 Apple Inc. Device voice control for selecting a displayed affordance
US10127220B2 (en) 2015-06-04 2018-11-13 Apple Inc. Language identification from short strings
US10101822B2 (en) 2015-06-05 2018-10-16 Apple Inc. Language input correction
US9578173B2 (en) 2015-06-05 2017-02-21 Apple Inc. Virtual assistant aided communication with 3rd party service in a communication session
US10255907B2 (en) 2015-06-07 2019-04-09 Apple Inc. Automatic accent detection using acoustic models
US11025565B2 (en) 2015-06-07 2021-06-01 Apple Inc. Personalized prediction of responses for instant messaging
US10186254B2 (en) 2015-06-07 2019-01-22 Apple Inc. Context-based endpoint detection
JP6543843B2 (ja) * 2015-06-18 2019-07-17 本田技研工業株式会社 音源分離装置、および音源分離方法
US20160378747A1 (en) 2015-06-29 2016-12-29 Apple Inc. Virtual assistant for media playback
CN105005027A (zh) * 2015-08-05 2015-10-28 张亚光 一种区域范围内目标对象的定位系统
JP6543844B2 (ja) * 2015-08-27 2019-07-17 本田技研工業株式会社 音源同定装置および音源同定方法
US10671428B2 (en) 2015-09-08 2020-06-02 Apple Inc. Distributed personal assistant
US10747498B2 (en) 2015-09-08 2020-08-18 Apple Inc. Zero latency digital assistant
US9697820B2 (en) 2015-09-24 2017-07-04 Apple Inc. Unit-selection text-to-speech synthesis using concatenation-sensitive neural networks
US11010550B2 (en) 2015-09-29 2021-05-18 Apple Inc. Unified language modeling framework for word prediction, auto-completion and auto-correction
US10366158B2 (en) 2015-09-29 2019-07-30 Apple Inc. Efficient word encoding for recurrent neural network language models
US11587559B2 (en) 2015-09-30 2023-02-21 Apple Inc. Intelligent device identification
KR102444061B1 (ko) * 2015-11-02 2022-09-16 삼성전자주식회사 음성 인식이 가능한 전자 장치 및 방법
US10691473B2 (en) 2015-11-06 2020-06-23 Apple Inc. Intelligent automated assistant in a messaging environment
US10049668B2 (en) 2015-12-02 2018-08-14 Apple Inc. Applying neural network language models to weighted finite state transducers for automatic speech recognition
US10223066B2 (en) 2015-12-23 2019-03-05 Apple Inc. Proactive assistance based on dialog communication between devices
US9965247B2 (en) 2016-02-22 2018-05-08 Sonos, Inc. Voice controlled media playback system based on user profile
US10264030B2 (en) 2016-02-22 2019-04-16 Sonos, Inc. Networked microphone device control
US9826306B2 (en) 2016-02-22 2017-11-21 Sonos, Inc. Default playback device designation
US10097939B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Compensation for speaker nonlinearities
US10095470B2 (en) 2016-02-22 2018-10-09 Sonos, Inc. Audio response playback
US9947316B2 (en) 2016-02-22 2018-04-17 Sonos, Inc. Voice control of a media playback system
US10509626B2 (en) 2016-02-22 2019-12-17 Sonos, Inc Handling of loss of pairing between networked devices
US10446143B2 (en) 2016-03-14 2019-10-15 Apple Inc. Identification of voice inputs providing credentials
EP3434024B1 (en) * 2016-04-21 2023-08-02 Hewlett-Packard Development Company, L.P. Electronic device microphone listening modes
US9820042B1 (en) 2016-05-02 2017-11-14 Knowles Electronics, Llc Stereo separation and directional suppression with omni-directional microphones
US9934775B2 (en) 2016-05-26 2018-04-03 Apple Inc. Unit-selection text-to-speech synthesis based on predicted concatenation parameters
US9972304B2 (en) 2016-06-03 2018-05-15 Apple Inc. Privacy preserving distributed evaluation framework for embedded personalized systems
US11227589B2 (en) 2016-06-06 2022-01-18 Apple Inc. Intelligent list reading
US10249300B2 (en) 2016-06-06 2019-04-02 Apple Inc. Intelligent list reading
US10049663B2 (en) 2016-06-08 2018-08-14 Apple, Inc. Intelligent automated assistant for media exploration
DK179588B1 (en) 2016-06-09 2019-02-22 Apple Inc. INTELLIGENT AUTOMATED ASSISTANT IN A HOME ENVIRONMENT
US9978390B2 (en) 2016-06-09 2018-05-22 Sonos, Inc. Dynamic player selection for audio signal processing
US10067938B2 (en) 2016-06-10 2018-09-04 Apple Inc. Multilingual word prediction
US10192552B2 (en) 2016-06-10 2019-01-29 Apple Inc. Digital assistant providing whispered speech
US10509862B2 (en) 2016-06-10 2019-12-17 Apple Inc. Dynamic phrase expansion of language input
US10586535B2 (en) 2016-06-10 2020-03-10 Apple Inc. Intelligent digital assistant in a multi-tasking environment
US10490187B2 (en) 2016-06-10 2019-11-26 Apple Inc. Digital assistant providing automated status report
DK179415B1 (en) 2016-06-11 2018-06-14 Apple Inc Intelligent device arbitration and control
DK179049B1 (en) 2016-06-11 2017-09-18 Apple Inc Data driven natural language event detection and classification
DK201670540A1 (en) 2016-06-11 2018-01-08 Apple Inc Application integration with a digital assistant
DK179343B1 (en) 2016-06-11 2018-05-14 Apple Inc Intelligent task discovery
US10152969B2 (en) 2016-07-15 2018-12-11 Sonos, Inc. Voice detection by multiple devices
US10134399B2 (en) 2016-07-15 2018-11-20 Sonos, Inc. Contextualization of voice inputs
US10115400B2 (en) 2016-08-05 2018-10-30 Sonos, Inc. Multiple voice services
JP6703460B2 (ja) * 2016-08-25 2020-06-03 本田技研工業株式会社 音声処理装置、音声処理方法及び音声処理プログラム
US10474753B2 (en) 2016-09-07 2019-11-12 Apple Inc. Language identification using recurrent neural networks
JP6672114B2 (ja) * 2016-09-13 2020-03-25 本田技研工業株式会社 会話メンバー最適化装置、会話メンバー最適化方法およびプログラム
US9794720B1 (en) 2016-09-22 2017-10-17 Sonos, Inc. Acoustic position measurement
US10043516B2 (en) 2016-09-23 2018-08-07 Apple Inc. Intelligent automated assistant
US9942678B1 (en) 2016-09-27 2018-04-10 Sonos, Inc. Audio playback settings for voice interaction
US9743204B1 (en) 2016-09-30 2017-08-22 Sonos, Inc. Multi-orientation playback device microphones
US10181323B2 (en) 2016-10-19 2019-01-15 Sonos, Inc. Arbitration-based voice recognition
US11281993B2 (en) 2016-12-05 2022-03-22 Apple Inc. Model and ensemble compression for metric learning
US10593346B2 (en) 2016-12-22 2020-03-17 Apple Inc. Rank-reduced token representation for automatic speech recognition
US11204787B2 (en) 2017-01-09 2021-12-21 Apple Inc. Application integration with a digital assistant
JP6805037B2 (ja) * 2017-03-22 2020-12-23 株式会社東芝 話者検索装置、話者検索方法、および話者検索プログラム
US11183181B2 (en) 2017-03-27 2021-11-23 Sonos, Inc. Systems and methods of multiple voice services
CN107135443B (zh) * 2017-03-29 2020-06-23 联想(北京)有限公司 一种信号处理方法及电子设备
JP7103353B2 (ja) * 2017-05-08 2022-07-20 ソニーグループ株式会社 情報処理装置
US10417266B2 (en) 2017-05-09 2019-09-17 Apple Inc. Context-aware ranking of intelligent response suggestions
DK201770383A1 (en) 2017-05-09 2018-12-14 Apple Inc. USER INTERFACE FOR CORRECTING RECOGNITION ERRORS
US10395654B2 (en) 2017-05-11 2019-08-27 Apple Inc. Text normalization based on a data-driven learning network
US10726832B2 (en) 2017-05-11 2020-07-28 Apple Inc. Maintaining privacy of personal information
DK201770439A1 (en) 2017-05-11 2018-12-13 Apple Inc. Offline personal assistant
DK179496B1 (en) 2017-05-12 2019-01-15 Apple Inc. USER-SPECIFIC Acoustic Models
US11301477B2 (en) 2017-05-12 2022-04-12 Apple Inc. Feedback analysis of a digital assistant
DK201770427A1 (en) 2017-05-12 2018-12-20 Apple Inc. LOW-LATENCY INTELLIGENT AUTOMATED ASSISTANT
DK179745B1 (en) 2017-05-12 2019-05-01 Apple Inc. SYNCHRONIZATION AND TASK DELEGATION OF A DIGITAL ASSISTANT
DK201770432A1 (en) 2017-05-15 2018-12-21 Apple Inc. Hierarchical belief states for digital assistants
DK201770431A1 (en) 2017-05-15 2018-12-20 Apple Inc. Optimizing dialogue policy decisions for digital assistants using implicit feedback
US10403278B2 (en) 2017-05-16 2019-09-03 Apple Inc. Methods and systems for phonetic matching in digital assistant services
DK179560B1 (en) 2017-05-16 2019-02-18 Apple Inc. FAR-FIELD EXTENSION FOR DIGITAL ASSISTANT SERVICES
US10311144B2 (en) 2017-05-16 2019-06-04 Apple Inc. Emoji word sense disambiguation
US20180336275A1 (en) 2017-05-16 2018-11-22 Apple Inc. Intelligent automated assistant for media exploration
US10657328B2 (en) 2017-06-02 2020-05-19 Apple Inc. Multi-task recurrent neural network architecture for efficient morphology handling in neural language modeling
US10649060B2 (en) 2017-07-24 2020-05-12 Microsoft Technology Licensing, Llc Sound source localization confidence estimation using machine learning
US10475449B2 (en) 2017-08-07 2019-11-12 Sonos, Inc. Wake-word detection suppression
US10847149B1 (en) * 2017-09-01 2020-11-24 Amazon Technologies, Inc. Speech-based attention span for voice user interface
US10048930B1 (en) 2017-09-08 2018-08-14 Sonos, Inc. Dynamic computation of system response volume
US10445429B2 (en) 2017-09-21 2019-10-15 Apple Inc. Natural language understanding using vocabularies with compressed serialized tries
US10446165B2 (en) 2017-09-27 2019-10-15 Sonos, Inc. Robust short-time fourier transform acoustic echo cancellation during audio playback
US10621981B2 (en) 2017-09-28 2020-04-14 Sonos, Inc. Tone interference cancellation
US10051366B1 (en) 2017-09-28 2018-08-14 Sonos, Inc. Three-dimensional beam forming with a microphone array
US10482868B2 (en) 2017-09-28 2019-11-19 Sonos, Inc. Multi-channel acoustic echo cancellation
US10755051B2 (en) 2017-09-29 2020-08-25 Apple Inc. Rule-based natural language processing
US10466962B2 (en) 2017-09-29 2019-11-05 Sonos, Inc. Media playback system with voice assistance
US10636424B2 (en) 2017-11-30 2020-04-28 Apple Inc. Multi-turn canned dialog
KR102469753B1 (ko) * 2017-11-30 2022-11-22 삼성전자주식회사 음원의 위치에 기초하여 서비스를 제공하는 방법 및 이를 위한 음성 인식 디바이스
US10880650B2 (en) 2017-12-10 2020-12-29 Sonos, Inc. Network microphone devices with automatic do not disturb actuation capabilities
US10818290B2 (en) 2017-12-11 2020-10-27 Sonos, Inc. Home graph
US10733982B2 (en) 2018-01-08 2020-08-04 Apple Inc. Multi-directional dialog
JP7120254B2 (ja) * 2018-01-09 2022-08-17 ソニーグループ株式会社 情報処理装置、情報処理方法、およびプログラム
US11343614B2 (en) 2018-01-31 2022-05-24 Sonos, Inc. Device designation of playback and network microphone device arrangements
US10733375B2 (en) 2018-01-31 2020-08-04 Apple Inc. Knowledge-based framework for improving natural language understanding
US10789959B2 (en) 2018-03-02 2020-09-29 Apple Inc. Training speaker recognition models for digital assistants
WO2019169616A1 (zh) * 2018-03-09 2019-09-12 深圳市汇顶科技股份有限公司 语音信号处理方法及装置
US10592604B2 (en) 2018-03-12 2020-03-17 Apple Inc. Inverse text normalization for automatic speech recognition
US10818288B2 (en) 2018-03-26 2020-10-27 Apple Inc. Natural assistant interaction
US10909331B2 (en) 2018-03-30 2021-02-02 Apple Inc. Implicit identification of translation payload with neural machine translation
US10928918B2 (en) 2018-05-07 2021-02-23 Apple Inc. Raise to speak
US11145294B2 (en) 2018-05-07 2021-10-12 Apple Inc. Intelligent automated assistant for delivering content from user experiences
US11175880B2 (en) 2018-05-10 2021-11-16 Sonos, Inc. Systems and methods for voice-assisted media content selection
US10847178B2 (en) 2018-05-18 2020-11-24 Sonos, Inc. Linear filtering for noise-suppressed speech detection
US10984780B2 (en) 2018-05-21 2021-04-20 Apple Inc. Global semantic word embeddings using bi-directional recurrent neural networks
US10959029B2 (en) 2018-05-25 2021-03-23 Sonos, Inc. Determining and adapting to changes in microphone performance of playback devices
DK201870355A1 (en) 2018-06-01 2019-12-16 Apple Inc. VIRTUAL ASSISTANT OPERATION IN MULTI-DEVICE ENVIRONMENTS
DK180639B1 (en) 2018-06-01 2021-11-04 Apple Inc DISABILITY OF ATTENTION-ATTENTIVE VIRTUAL ASSISTANT
US11386266B2 (en) 2018-06-01 2022-07-12 Apple Inc. Text correction
DK179822B1 (da) 2018-06-01 2019-07-12 Apple Inc. Voice interaction at a primary device to access call functionality of a companion device
US10892996B2 (en) 2018-06-01 2021-01-12 Apple Inc. Variable latency device coordination
US11076039B2 (en) 2018-06-03 2021-07-27 Apple Inc. Accelerated task performance
US10681460B2 (en) 2018-06-28 2020-06-09 Sonos, Inc. Systems and methods for associating playback devices with voice assistant services
US10461710B1 (en) 2018-08-28 2019-10-29 Sonos, Inc. Media playback system with maximum volume setting
US11076035B2 (en) 2018-08-28 2021-07-27 Sonos, Inc. Do not disturb feature for audio notifications
US10878811B2 (en) 2018-09-14 2020-12-29 Sonos, Inc. Networked devices, systems, and methods for intelligently deactivating wake-word engines
US10587430B1 (en) 2018-09-14 2020-03-10 Sonos, Inc. Networked devices, systems, and methods for associating playback devices based on sound codes
CN109298642B (zh) * 2018-09-20 2021-08-27 三星电子(中国)研发中心 采用智能音箱进行监控的方法及装置
US11024331B2 (en) 2018-09-21 2021-06-01 Sonos, Inc. Voice detection optimization using sound metadata
US10811015B2 (en) 2018-09-25 2020-10-20 Sonos, Inc. Voice detection optimization based on selected voice assistant service
JP7243105B2 (ja) 2018-09-27 2023-03-22 富士通株式会社 音源方向判定装置、音源方向判定方法、及び音源方向判定プログラム
US10726830B1 (en) * 2018-09-27 2020-07-28 Amazon Technologies, Inc. Deep multi-channel acoustic modeling
US11010561B2 (en) 2018-09-27 2021-05-18 Apple Inc. Sentiment prediction from textual data
US10839159B2 (en) 2018-09-28 2020-11-17 Apple Inc. Named entity normalization in a spoken dialog system
US11170166B2 (en) 2018-09-28 2021-11-09 Apple Inc. Neural typographical error modeling via generative adversarial networks
US11462215B2 (en) 2018-09-28 2022-10-04 Apple Inc. Multi-modal inputs for voice commands
US11100923B2 (en) 2018-09-28 2021-08-24 Sonos, Inc. Systems and methods for selective wake word detection using neural network models
US10692518B2 (en) 2018-09-29 2020-06-23 Sonos, Inc. Linear filtering for noise-suppressed speech detection via multiple network microphone devices
US11899519B2 (en) 2018-10-23 2024-02-13 Sonos, Inc. Multiple stage network microphone device with reduced power consumption and processing load
US11475898B2 (en) 2018-10-26 2022-10-18 Apple Inc. Low-latency multi-speaker speech recognition
EP3654249A1 (en) 2018-11-15 2020-05-20 Snips Dilated convolutions and gating for efficient keyword spotting
US11183183B2 (en) 2018-12-07 2021-11-23 Sonos, Inc. Systems and methods of operating media playback systems having multiple voice assistant services
US11132989B2 (en) 2018-12-13 2021-09-28 Sonos, Inc. Networked microphone devices, systems, and methods of localized arbitration
US10602268B1 (en) 2018-12-20 2020-03-24 Sonos, Inc. Optimization of network microphone devices using noise classification
US11638059B2 (en) 2019-01-04 2023-04-25 Apple Inc. Content playback on multiple devices
US10867604B2 (en) 2019-02-08 2020-12-15 Sonos, Inc. Devices, systems, and methods for distributed voice processing
US11315556B2 (en) 2019-02-08 2022-04-26 Sonos, Inc. Devices, systems, and methods for distributed voice processing by transmitting sound data associated with a wake word to an appropriate device for identification
CN111627425B (zh) * 2019-02-12 2023-11-28 阿里巴巴集团控股有限公司 一种语音识别方法及系统
US11348573B2 (en) 2019-03-18 2022-05-31 Apple Inc. Multimodality in digital assistant systems
US11120794B2 (en) 2019-05-03 2021-09-14 Sonos, Inc. Voice assistant persistence across multiple network microphone devices
US11307752B2 (en) 2019-05-06 2022-04-19 Apple Inc. User configurable task triggers
US11482217B2 (en) * 2019-05-06 2022-10-25 Google Llc Selectively activating on-device speech recognition, and using recognized text in selectively activating on-device NLU and/or on-device fulfillment
US11475884B2 (en) 2019-05-06 2022-10-18 Apple Inc. Reducing digital assistant latency when a language is incorrectly determined
US11423908B2 (en) 2019-05-06 2022-08-23 Apple Inc. Interpreting spoken requests
DK201970509A1 (en) 2019-05-06 2021-01-15 Apple Inc Spoken notifications
US11140099B2 (en) 2019-05-21 2021-10-05 Apple Inc. Providing message response suggestions
US11289073B2 (en) 2019-05-31 2022-03-29 Apple Inc. Device text to speech
US11496600B2 (en) 2019-05-31 2022-11-08 Apple Inc. Remote execution of machine-learned models
DK180129B1 (en) 2019-05-31 2020-06-02 Apple Inc. USER ACTIVITY SHORTCUT SUGGESTIONS
US11360641B2 (en) 2019-06-01 2022-06-14 Apple Inc. Increasing the relevance of new available information
US10586540B1 (en) 2019-06-12 2020-03-10 Sonos, Inc. Network microphone device with command keyword conditioning
US11200894B2 (en) 2019-06-12 2021-12-14 Sonos, Inc. Network microphone device with command keyword eventing
US11361756B2 (en) 2019-06-12 2022-06-14 Sonos, Inc. Conditional wake word eventing based on environment
KR20190089125A (ko) * 2019-07-09 2019-07-30 엘지전자 주식회사 커뮤니케이션 로봇 및 그의 구동 방법
US11138969B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US11138975B2 (en) 2019-07-31 2021-10-05 Sonos, Inc. Locally distributed keyword detection
US10871943B1 (en) 2019-07-31 2020-12-22 Sonos, Inc. Noise classification for event detection
CN110491412B (zh) * 2019-08-23 2022-02-25 北京市商汤科技开发有限公司 声音分离方法和装置、电子设备
WO2021056255A1 (en) 2019-09-25 2021-04-01 Apple Inc. Text detection using global geometry estimators
US11189286B2 (en) 2019-10-22 2021-11-30 Sonos, Inc. VAS toggle based on device orientation
US11200900B2 (en) 2019-12-20 2021-12-14 Sonos, Inc. Offline voice control
US11562740B2 (en) 2020-01-07 2023-01-24 Sonos, Inc. Voice verification for media playback
US11556307B2 (en) 2020-01-31 2023-01-17 Sonos, Inc. Local voice data processing
US11308958B2 (en) 2020-02-07 2022-04-19 Sonos, Inc. Localized wakeword verification
US11482224B2 (en) 2020-05-20 2022-10-25 Sonos, Inc. Command keywords with input detection windowing
US11727919B2 (en) 2020-05-20 2023-08-15 Sonos, Inc. Memory allocation for keyword spotting engines
US11308962B2 (en) 2020-05-20 2022-04-19 Sonos, Inc. Input detection windowing
US11698771B2 (en) 2020-08-25 2023-07-11 Sonos, Inc. Vocal guidance engines for playback devices
US11984123B2 (en) 2020-11-12 2024-05-14 Sonos, Inc. Network device interaction by range
US11551700B2 (en) 2021-01-25 2023-01-10 Sonos, Inc. Systems and methods for power-efficient keyword detection
CN113838453B (zh) * 2021-08-17 2022-06-28 北京百度网讯科技有限公司 语音处理方法、装置、设备和计算机存储介质
CN113576527A (zh) * 2021-08-27 2021-11-02 复旦大学 一种利用声控进行超声输入判断的方法
CN116299179B (zh) * 2023-05-22 2023-09-12 北京边锋信息技术有限公司 一种声源定位方法、声源定位装置和可读存储介质

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2000066698A (ja) * 1998-08-19 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> 音認識装置
JP2001511267A (ja) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声パターン認識用のモデル特殊因子の決定方法
JP2002041079A (ja) * 2000-07-31 2002-02-08 Sharp Corp 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2002264051A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2003337594A (ja) * 2002-03-14 2003-11-28 Internatl Business Mach Corp <Ibm> 音声認識装置、その音声認識方法及びプログラム

Family Cites Families (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH03274593A (ja) * 1990-03-26 1991-12-05 Ricoh Co Ltd 車載用音声認識装置
US6471420B1 (en) * 1994-05-13 2002-10-29 Matsushita Electric Industrial Co., Ltd. Voice selection apparatus voice response apparatus, and game apparatus using word tables from which selected words are output as voice selections
JPH0844387A (ja) * 1994-08-04 1996-02-16 Aqueous Res:Kk 音声認識装置
US5828997A (en) * 1995-06-07 1998-10-27 Sensimetrics Corporation Content analyzer mixing inverse-direction-probability-weighted noise to input signal
FI116505B (fi) * 1998-03-23 2005-11-30 Nokia Corp Menetelmä ja järjestelmä suunnatun äänen käsittelemiseksi akustisessa virtuaaliympäristössä
JP3195920B2 (ja) * 1999-06-11 2001-08-06 科学技術振興事業団 音源同定・分離装置及びその方法
DE10047718A1 (de) * 2000-09-27 2002-04-18 Philips Corp Intellectual Pty Verfahren zur Spracherkennung
US7076433B2 (en) * 2001-01-24 2006-07-11 Honda Giken Kogyo Kabushiki Kaisha Apparatus and program for separating a desired sound from a mixed input sound
JP2003131683A (ja) * 2001-10-22 2003-05-09 Sony Corp 音声認識装置および音声認識方法、並びにプログラムおよび記録媒体
WO2003105124A1 (en) * 2002-06-11 2003-12-18 Sony Electronics Inc. Microphone array with time-frequency source discrimination
KR100493172B1 (ko) * 2003-03-06 2005-06-02 삼성전자주식회사 마이크로폰 어레이 구조, 이를 이용한 일정한 지향성을갖는 빔 형성방법 및 장치와 음원방향 추정방법 및 장치

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11143486A (ja) * 1997-11-10 1999-05-28 Fuji Xerox Co Ltd 話者適応装置および方法
JP2001511267A (ja) * 1997-12-12 2001-08-07 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 音声パターン認識用のモデル特殊因子の決定方法
JP2000066698A (ja) * 1998-08-19 2000-03-03 Nippon Telegr & Teleph Corp <Ntt> 音認識装置
JP2002041079A (ja) * 2000-07-31 2002-02-08 Sharp Corp 音声認識装置および音声認識方法、並びに、プログラム記録媒体
JP2002264051A (ja) * 2001-03-09 2002-09-18 Japan Science & Technology Corp ロボット視聴覚システム
JP2003337594A (ja) * 2002-03-14 2003-11-28 Internatl Business Mach Corp <Ibm> 音声認識装置、その音声認識方法及びプログラム

Non-Patent Citations (3)

* Cited by examiner, † Cited by third party
Title
JPN6009054578, 中臺一博 他, ""アクティブオーディションによる複数音源の定位・分離・認識"", 人工知能学会AIチャレンジ研究会資料, 20021122, Vol.16th, p.25−32 *
JPN6009054581, 中臺一博 他, ""階層的な視聴覚統合と散乱理論を利用したロボットによる三話者同時発話認識の向上"", 日本ロボット学会学術講演会予稿集(CD−ROM), 20030920, Vol.21, p.2K14 *
JPN6009054584, Kazuhiro NAKADAI et al., ""Robot Recognizes Three Simultaneous Speech By Active Audition"", Proc. of the 2003 IEEE, 20030914, Vol.1, p.398−405 *

Also Published As

Publication number Publication date
WO2005048239A1 (ja) 2005-05-26
US20090018828A1 (en) 2009-01-15
EP1691344B1 (en) 2009-06-24
JP4516527B2 (ja) 2010-08-04
DE602004021716D1 (de) 2009-08-06
EP1691344A1 (en) 2006-08-16
EP1691344A4 (en) 2008-04-02

Similar Documents

Publication Publication Date Title
JP4516527B2 (ja) 音声認識装置
US10901063B2 (en) Localization algorithm for sound sources with known statistics
EP1818909B1 (en) Voice recognition system
Srinivasan et al. Binary and ratio time-frequency masks for robust speech recognition
Nakadai et al. Real-time sound source localization and separation for robot audition.
JP5738020B2 (ja) 音声認識装置及び音声認識方法
KR100822880B1 (ko) 지능형 로봇 환경에서 오디오-비디오 기반 음원추적을 통한화자 인식 시스템 및 방법
Choi et al. Active-beacon-based driver sound separation system for autonomous vehicle applications
JP2000172295A (ja) 低複雑性スピ―チ認識器の区分ベ―スの類似性方法
Venkatesan et al. Binaural classification-based speech segregation and robust speaker recognition system
Deoras et al. A factorial HMM approach to simultaneous recognition of isolated digits spoken by multiple talkers on one audio channel
Poorjam et al. A parametric approach for classification of distortions in pathological voices
Yamamoto et al. Assessment of general applicability of robot audition system by recognizing three simultaneous speeches
Grondin et al. WISS, a speaker identification system for mobile robots
Okuno et al. Computational auditory scene analysis and its application to robot audition
EP2795616A1 (en) Speech recognition method and system
KR100969138B1 (ko) 은닉 마코프 모델을 이용한 잡음 마스크 추정 방법 및 이를수행하는 장치
JP2011081324A (ja) ピッチ・クラスター・マップを用いた音声認識方法
Kallasjoki et al. Mask estimation and sparse imputation for missing data speech recognition in multisource reverberant environments
MY An improved feature extraction method for Malay vowel recognition based on spectrum delta
Asaei et al. Verified speaker localization utilizing voicing level in split-bands
Lee et al. Space-time voice activity detection
Jhanwar et al. Pitch correlogram clustering for fast speaker identification
He et al. Time-frequency feature extraction from spectrograms and wavelet packets with application to automatic stress and emotion classification in speech
JP2012220607A (ja) 音認識方法及び装置

Legal Events

Date Code Title Description
A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20091027

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20091208

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20100202

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20100331

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20100511

A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20100514

R150 Certificate of patent or registration of utility model

Ref document number: 4516527

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R150

Free format text: JAPANESE INTERMEDIATE CODE: R150

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20130521

Year of fee payment: 3

FPAY Renewal fee payment (event date is renewal date of database)

Free format text: PAYMENT UNTIL: 20140521

Year of fee payment: 4

LAPS Cancellation because of no payment of annual fees