WO2011105003A1 - 信号処理装置及び信号処理方法 - Google Patents

信号処理装置及び信号処理方法 Download PDF

Info

Publication number
WO2011105003A1
WO2011105003A1 PCT/JP2011/000358 JP2011000358W WO2011105003A1 WO 2011105003 A1 WO2011105003 A1 WO 2011105003A1 JP 2011000358 W JP2011000358 W JP 2011000358W WO 2011105003 A1 WO2011105003 A1 WO 2011105003A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound
conversation
sound source
duration
utterance
Prior art date
Application number
PCT/JP2011/000358
Other languages
English (en)
French (fr)
Inventor
山田麻紀
遠藤充
水島考一郎
Original Assignee
パナソニック株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニック株式会社 filed Critical パナソニック株式会社
Priority to CN201180001707.9A priority Critical patent/CN102388416B/zh
Priority to JP2011523238A priority patent/JP5607627B2/ja
Priority to US13/262,690 priority patent/US8498435B2/en
Priority to EP11746976.7A priority patent/EP2541543B1/en
Publication of WO2011105003A1 publication Critical patent/WO2011105003A1/ja
Priority to US13/927,429 priority patent/US8682012B2/en
Priority to US13/927,424 priority patent/US8644534B2/en

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/20Speech recognition techniques specially adapted for robustness in adverse environments, e.g. in noise, of stress induced speech
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0272Voice signal separating
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers

Abstract

 日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供する。信号処理装置(100)において、音源分離部(130)は、複数の音源が入り混じった混合音信号を音源毎に分離する。音声検出部(140)は、分離された複数の音源信号のそれぞれについて音声検出を行い、複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する。識別パラメータ抽出部(150)は、複数の音源信号、又は、音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する。会話成立度計算部(160)は、抽出された前記識別パラメータに基づいて、会話成立度を計算し出力する。会話相手判定部(170)は、会話成立度を用いて、どの音源が会話相手であるかを判定する。

Description

信号処理装置及び信号処理方法
 本発明は、周囲に他人の声や騒音のある環境下で、会話している組を抽出する信号処理装置及び信号処理方法に関する。
 従来の会話している組を抽出する信号処理装置としては、有音/無音評価による音声信号の時系列データ間の相関関係に基づいて、会話の成立度合いを判断し有効音声を抽出する装置があった(特許文献1参照)。
 特許文献1に記載の信号処理装置では、成立している会話では2音源間で有音が交互に現れる現象を利用して、分離された音源信号の有音/無音評価を行ない、2音源間の有音/無音の組み合わせによって、会話成立度合いを算出する。図1は、特許文献1に記載された会話成立度合い算出方法の考え方を示すものである。対象音声信号及び受話信号のうち、一方が有音、もう一方が無音であれば、会話成立度合いを加点し、有音同士又は無音同士であれば減点する。そして、この会話成立度合いが大きい組み合わせの音源同士を会話が成立しているとしていた。
特開2004-133403号公報 特開2002-6874号公報 特開2004-243023号公報 特開平1-93298号公報
「音声処理と顔画像処理を統合した対話映像からの笑いの認識(Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video)」伊藤彰規則他、東北大、2005-NL-167,2005-SLP-56,2005/5/26
 しかしながら、日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。ここでいう日常的なくだけた会話とは、会議のような形式に則った会話ではなく、参加者が自由に話す雑談のような会話を指す。そして、このような日常的な会話は、くだけた会話であればあるほど、発話の重なり(クロストーク)も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなる。このため、有音/無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しい。
 また、日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは有音であり、従来技術のようにパワーで有音判定し、有音/無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度は低くなってしまい、正しく会話相手と非会話相手とを区別することが難しい。
 また、従来技術では、一方の話者が有音、もう一方の話者が無音であれば、会話成立度を加点するため、一方的に人の声がずっとするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言や、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。
 このように、実際の日常的な環境においては、前記従来の方法のように有音/無音の組み合わせだけで会話成立度を求める方法では、会話が成立していることを正しく検出することが難しいという課題を有し、実用性に欠けていた。
 本発明の目的は、日常的な環境においても、会話が成立していることを正しく検出することができる信号処理装置及び信号処理方法を提供することである。
 本発明の信号処理装置は、複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備する構成を採る。
 この構成によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。例えば、相手の発話中に相槌を入れたり、相手が完全にしゃべり終わらないうちに発話を始めたり、短い沈黙が発生したりするなどの日常会話の特徴を利用することにより、くだけた日常会話においても、会話相手を正しく判定することができる。
 本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、前記会話成立度計算部は、前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、構成を採る。
 この構成によれば、笑いを検出し、笑いの重なりに着目した会話成立度の評価をすることにより、くだけた日常会話においても、会話が成立していることを正しく検出することができる。
 本発明の信号処理装置は、上記信号処理装置において、前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、前記会話成立度計算部は、前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、構成を採る。
 この構成によれば、自分と相手との発話区間比が極端に偏っていた場合は、会話成立度が低くなるようにすることにより、信号処理装置は、誤動作を回避することができる。例えば、補聴器のように日常的に身に付ける機器においても、自分の独り言や、自分が会話していないときの他人の声などにより、信号処理装置は、誤動作しないようになる。
 本発明の信号処理方法は、複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出ステップと、前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、を有するようにした。
 この方法によれば、日常的な環境においても、会話が成立していることを正しく検出することができる。
 本発明によれば、日常的な環境下においても、会話が成立していることを正しく検出することができるので、会話が成立している音声を聞きやすく調整したり、記録したりすることができる。
特許文献1に記載された会話成立度合い算出法の考え方を示す図 日常会話データの発話重なり継続長の分布を表す図 日常会話データの沈黙継続長の分布を表す図 本発明の実施の形態1に係る信号処理装置の要部構成を示すブロック図 本体とイヤホンとが分離した形態のリモコン型補聴器に本発明を適用した一例を表す図 リモコン型補聴器を実際に使用するときの人の位置関係の例を表した図 実施の形態1に係る補聴器の動作を表すフローチャート 発話重なり分析値Pcの求め方を説明するための図 実施の形態1のシミュレーション実験による会話相手検出率を表す図 会話相手に対する笑い/発話/無音の重なり継続長合計を示す図 非会話相手に対する笑い/発話/無音の重なり継続長合計を示す図 会話相手である割合を算出した結果を示す図 本発明の実施の形態2に係る信号処理装置の要部構成を示すブロック図 実施の形態2係る補聴器の動作を表すフローチャート 発話/笑い/無音の組み合わせによる会話成立度の算出方法を説明するための図 ある一組の会話の時間窓幅ごとの発話区間比Rbの推移の例を表した図 本発明の実施の形態3に係る信号処理装置の要部構成を示すブロック図 実施の形態3係る補聴器の動作を表すフローチャート 本発明の実施の形態4に係る信号処理装置の要部構成を示すブロック図 実施の形態4係る補聴器の動作を表すフローチャート
 以下、本発明の実施の形態について、図面を参照して詳細に説明する。
 (実施の形態1)
 本実施の形態では、発話の重なり又は沈黙の継続長に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、発話の重なり又は沈黙の継続長に着目した点について説明する。
 日常的なくだけた会話では、会話をしている話者の発話は、時間的にきれいに交互には現れない。くだけた会話であればあるほど、発話の重なり(クロストーク)も多くなる傾向がある。したがって、日常会話では、有音の時間的重なりが多くなるため、有音/無音の組み合わせだけで会話成立度を求める従来技術では、正しく会話相手と非会話相手とを区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。
 日常会話では、一方の話者がしゃべり終わる前にもう一方の話者がしゃべりだしたり、一方の話者がしゃべっている途中にもう一方の話者が相槌を入れたりすることが頻繁に行われる。そこで、本発明者らは、このような発話の重なりの継続長に着目した。
 先ず、本発明者らは、実際に9組の日常会話それぞれ10分程度を収音し、このデータについて、会話相手に対する発話重なりと、非会話相手に対する発話重なりの継続長について分析を行なった。
 図2は、発話重なりが一回に連続する区間の長さ(継続長)の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図2において、横軸は一回の発話重なりが連続する区間の長さを表し、縦軸は頻度を表している。
 その結果、会話をしている相手とは、一回の発話重なりが連続する区間の長さが短い場合が多く、非会話相手とは、一回の発話重なりが連続する区間の長さが長い場合が多いことがわかった。そこで、本実施の形態では、単に発話重なりが多いか少ないかではなく、発話重なりが一回に連続する区間の長さ(継続長)に着目したパラメータを導入する。
 また、本発明者らは、両方の話者が黙っている状態を沈黙と定義し、沈黙の継続長についても、同様に分析を行った。
 図3は、沈黙が一回に連続する区間の長さ(継続長)の分布を、会話相手、非会話相手のそれぞれについて表したグラフである。図3において、横軸は一回に沈黙が連続する区間の長さを表し、縦軸は頻度を表している。
 その結果、発話重なりと同様に、沈黙についても、会話相手に対しては、非会話相手に対してと比べ、沈黙の継続長が短い場合が多いということがわかった。そこで、本実施の形態では、発話重なりと同様に、沈黙一回に連続する区間の長さ(継続長)に着目したパラメータを導入する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。
 図4は、本実施の形態に係る信号処理装置100の要部構成を示すブロック図である。
 マイクロホンアレイ110は、複数のマイクを配置した収音装置である。
 A/D(Analog to Digital)変換部120は、それぞれのマイクで収音された音信号をデジタル信号に変換する。
 音源分離部130は、各マイクに到来する音信号の到来時間の差を利用して信号処理することにより、複数の音源が入り混じった混合音信号を音源毎に分離する。
 音声検出部140は、音源分離部130により分離された音信号が、音声であるか否かを判定し、音源毎に音声/非音声の検出結果を示す音声区間情報を生成する。音声検出部140における音声検出方法については、後述する。
 識別パラメータ抽出部150は、会話相手を判定(識別)し、会話成立度を算出する際に用いる、識別パラメータを抽出する。識別パラメータの詳細については、後述する。本実施の形態では、識別パラメータ抽出部150は、発話重なり継続長分析部151及び沈黙継続長分析部152を有する。
 発話重なり継続長分析部151は、音声検出部140により判定された音源毎の音声/非音声の検出結果を示す音声区間情報を用いて、音源間の発話重なり区間の継続長(以下「発話重なり継続長分析値」という)を求め分析する。
 沈黙継続長分析部152は、音声検出部140により判定された音源毎の音声/非音声の検出結果を示す音声区間情報を用いて、音源間の沈黙区間の継続長(以下「沈黙継続長分析値」という)を求め分析する。
 このようにして、識別パラメータ抽出部150は、日常会話の特徴量を示す識別パラメータとして、発話重なり継続長分析値及び沈黙継続長分析値を抽出する。なお、識別パラメータ抽出部150における発話重なり分析値及び沈黙分析値の算出方法については、後述する。
 会話成立度計算部160は、発話重なり継続長分析部151により算出された発話重なり継続長分析値と、沈黙継続長分析部152により算出された沈黙継続長分析値とに基づいて、会話成立度を算出する。会話成立度計算部160における会話成立度の算出方法については、後述する。
 会話相手判定部170は、会話成立度計算部160において算出された会話成立度を用いて、どの音源が会話相手であるかを判定する。
 出力音制御部180は、会話相手判定部170において判定された会話相手の声が聞き取りやすくなるように、音源分離部130により分離された音信号に対して、出力音を制御して出力する。具体的には、出力音制御部180は、音源分離部130により分離された音信号に対して、非会話相手である音源方向を抑圧する指向性制御を行う。
 図5は、補聴器本体とイヤホンとが分離した形態のリモコン型補聴器(以下、「補聴器」と略記する)200に、本実施の形態に係る信号処理装置100を適用した例である。
 補聴器200は、補聴器本体210及びイヤホン260を備える。
 補聴器本体210は、マイクロホンアレイ220、A/D変換部230、CPU240、及び、メモリ250から構成されている。マイクロホンアレイ220は、8個のマイクが円状に配置されている。A/D変換部230は、マイクロホンアレイ220により収音された音信号をデジタル信号に変換する。CPU240は、補聴器本体210の制御及び演算を行う。メモリ250は、演算に使用するデータを記憶する。
 音信号を出力するイヤホン260は、補聴器本体210と接続されている。CPU240は、メモリ250を使用して、ユーザの聴覚に合わせた音信号の増幅など通常の補聴処理のほかに、上述の音源分離、音声検出、発話重なり継続長分析、沈黙継続長分析、会話成立度計算、会話相手判定、出力音制御を行なう。
 通常、補聴器本体210は、卓上に置かれ、補聴器本体210の内部のマイクロホンアレイ220が収音した音を加工して、イヤホン260を装着したユーザに聞かせる。本実施の形態では、補聴器本体210とイヤホン260との接続が有線の場合について説明するが、補聴器本体210とイヤホン260とを無線通信により接続してもよい。
 次に、以上のように構成された補聴器200の動作を説明する。
 図6は、図5の補聴器200を実際に使用するときの人の位置関係の例を表した図である。図6において、補聴器200のユーザは、イヤホン260を装着する。補聴器本体210は、テーブル上に置かれ、ユーザは、正面にいる会話相手と会話をしている。なお、補聴器本体210は、本体前方(図5の▲の方向)に補聴器200のユーザが来るようにテーブルに置かれるものとする。なお、図6の例では、補聴器200のユーザから見て、右側には、無関係な話者による会話が行われており、妨害音となっている。
 図7は、本実施の形態に係る信号処理装置100を搭載した補聴器200の動作を示すフローチャートである。図7のフローチャートを用いて補聴器200の動作を説明する。図中、Sはフローの各ステップを示す。なお、図7の各ステップにおける以下の処理は、CPU240及びメモリ250を使用して行われる。CPU240及びメモリ250では、短時間単位(フレーム、ここでは10msecとする)ごとに処理が進められる。
 まず、ステップS110において、A/D変換部120は、補聴器本体210に内蔵されたマイクロホンアレイ110(220)から入力された音信号を、A/D変換し、音源分離部130に出力する。
 次に、ステップS120において、音源分離部130は、各マイクに到来する音信号の到来時間の差を利用して、フレーム毎に方向別に音信号を分離する。ここで、音源分離部130は、前後左右斜め45°ずつ8つの方向k(k=1,2,…,8)に音信号を分離するものとする。
 ここで、この分離された音信号は、ユーザがいる補聴器200の前方から反時計回りに順にS1,S2,S3,S4,S5,S6,S7,S8とする。この8方向のうち補聴器200の前方は、補聴器200のユーザがいる方向であるため、この方向から来る音信号S1はユーザの声であるとする。
 次に、分離された8方向の音信号Sk(k:方向、k=1,2,…,8)それぞれについて、ステップS130の処理を行う。
 ステップS130において、音声検出部140は、音信号Sk(k:方向、k=1,2,…,8)について音声/非音声検出を行う。音声検出の方法としては、例えば、ここでは音声帯域(例えば200Hz~4000Hz)におけるパワーをフレーム毎に計算し、時間方向に平滑化を行い、パワーが閾値を越えた場合に音声と判定する。より精度良く音声検出するために、後処理で、短時間の音声区間は無音扱いにしたり、音声が続いたときに短時間の無音がある場合には、音声扱いとしたりするなどの処理を行うことが望ましい。
 なお、音声検出の方法は、音声帯域のパワーによる方法に限るものではなく、調波構造を検出する方法、或いは、モデルと照合する方法等、他の方法を用いてもよい。
 以下では、音声検出部140により、音声と判定された区間を発話区間と定義する。
 次に、前方の音信号S1と、前方を除いた7方向の音信号S2からS8のそれぞれの組み合わせについて、ステップS140、S150の処理を行う。
 ステップS140において、発話重なり継続長分析部151及び沈黙継続長分析部152は、音信号S1と音信号Sk(k:方向、k=2,3,…,8)との発話の重なり及び沈黙の区間の継続長を求める。そして、発話重なり継続長分析部151及び沈黙継続長分析部152は、フレームtにおける発話重なり分析値Pc及び沈黙分析値Psをそれぞれ算出し、これらを会話成立度計算部160に出力する。
 以下、発話重なり分析値Pc及び沈黙分析値Psの算出方法について説明する。始めに、発話重なり分析値Pcの算出方法について、図8を参照しながら説明する。
 図8Aにおいて、四角で示された区間は、音声検出部140により生成される音声/非音声の検出結果を示す音声区間情報に基づいて、音信号S1が音声と判定された発話区間を示している。図8Bにおいて、四角で示された区間は、音信号Skが音声と判定された発話区間を示している。そして、発話重なり継続長分析部151は、これらの区間が重なる部分を発話重なりと定義する(図8C)。
 発話重なり継続長分析部151における具体的な動作は、次の通りである。フレームtにおいて、発話重なりが開始する場合、発話重なり継続長分析部151は、当該フレームを始端フレームとして記憶しておく。そして、フレームtにおいて発話重なりが終了した場合、発話重なり継続長分析部151は、これをひとつの発話重なりとみなし、始端フレームからの時間長を発話重なりの継続長とする。
 図8Cにおいて、楕円で囲んだ部分は、フレームt以前の発話重なりを表している。そして、フレームtにおいて、発話重なりが終了した場合、発話重なり継続長分析部151は、フレームt以前の発話重なりの継続長に関する統計量を求め、記憶しておく。さらに、発話重なり継続長分析部151は、この統計量を用いて、フレームtにおける発話重なり分析値Pcを算出する。発話重なり分析値Pcは、発話重なりの中で、その継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。
 次に、沈黙分析値Psの算出方法について説明する。
 まず、沈黙継続長分析部152は、音声検出部140により生成される音声区間情報に基づいて、音信号S1が非音声と判定された区間と、音信号Skが非音声と判定された区間とが重なる部分を沈黙と定義する。発話重なりの分析度と同様にして、沈黙継続長分析部152は、沈黙区間の継続長を求め、フレームt以前の沈黙区間の継続長に関する統計量を求め記憶しておく。さらに、沈黙継続長分析部152は、この統計量を用いて、フレームtにおける沈黙分析値Psを算出する。沈黙分析値Psも、沈黙の中でその継続長が短い場合が多いのか長い場合が多いのかを表すパラメータであることが望ましい。
 以下に、具体的な発話重なり分析値Pc及び沈黙分析値Psの算出方法を説明する。
 沈黙継続長分析部152は、フレームtにおいて、継続長に関する統計量を、それぞれ記憶・更新する。継続長に関する統計量は、フレームt以前の(1)発話重なりの継続長の和Wc、(2)発話重なりの個数Nc、(3)沈黙の継続長の和Ws、及び(4)沈黙の個数Nsを含む。そして、発話重なり継続長分析部151及び沈黙継続長分析部152は、フレームt以前の発話重なりの平均継続長Ac、及び、フレームt以前の沈黙区間の平均継続長Asを式(1-1)、(1-2)により、それぞれ求める。
Figure JPOXMLDOC01-appb-M000001
 Ac、Asは、値が小さいほどそれぞれ短い発話重なり、短い沈黙が多いことを表す。そこで、大小関係をあわせるためにAc、Asの符号を反転させて発話重なり分析値Pc及び沈黙分析値Psは、次の式(2-1)、(2-2)ように定義する。
Figure JPOXMLDOC01-appb-M000002
 なお、発話重なり分析値Pc及び沈黙分析値Psの他にも、継続長が短い会話が多いか長い会話が多いかを表すパラメータとしては、次のようなパラメータも考えられる。
 パラメータの算出は、発話重なり及び沈黙の継続長が閾値T(例えばT=1秒)より短い会話と、T以上の長い会話とに分けて、それぞれの出現個数又は継続長和を求める。次に、パラメータの算出は、フレームt以前に出現する継続長の短い会話の出現個数又は継続長和に対する割合を求める。すると、この割合は、値が大きいほど短い継続長の会話が多いことを表すパラメータとなる。
 なお、これらの統計量は、ひとつの会話のまとまりの性質を表すように、沈黙が一定時間続いた時点で初期化する。あるいは、統計量は、一定時間(例えば20秒)ごとに初期化するようにしてもよい。また、統計量は、常に過去一定時間窓内の発話重なり、沈黙継続長の統計量を用いるようにしてもよい。
 また計算量削減のため、音声が一定時間検出されなかった音源方向には人がいないと判定し、次に音声が検出されるまで上記処理を行わないようにしてもよい。
 再度、図7に戻り、ステップS150において、会話成立度計算部160は、音信号S1と音信号Skとの会話成立度を計算し、会話成立度を会話相手判定部170に出力する。
 フレームtにおける会話成立度C1,k(t)は、例えば、式(3)のように定義される。
Figure JPOXMLDOC01-appb-M000003
 なお、発話重なり分析値Pcの重みw1及び沈黙分析値Psの重みw2は、実験によりあらかじめ最適値を求めておく。
 フレームtは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。そして、会話成立度計算部160は、どれかの方向の音源にパワーがあったときにカウントを始める。なお、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。
 7方向の会話成立度C1,k(t)(k:方向、k=2,3,…,8)が求まると、次にステップS160おいて、会話相手判定部170は、どの方向の音源がユーザの会話相手であるかを判定する。そして、会話相手判定部170は、判定結果を出力音制御部180に出力する。会話相手の判定方法としては、全ての方向のC1,k(t)から、閾値θを超えかつ最も値が大きい一方向の音源を会話相手とする。
 また、会話相手の他の判定方法としては、例えば、以下のようなバリエーションが考えられる。
 ・全ての方向のC1,k(t)から、閾値θを超える方向の音源は、すべて会話相手とする。
 ・全ての方向ではなく、前方(S3~S7など)のみを探索対象とする。
 ・直前に会話相手が判定されている場合、その方向及び隣り合う方向のみを探索対象とする(話者移動は時間的に急速には行われないため)。
 最後に、ステップS170において、出力音制御部180は、会話相手と判定された方向に、指向性を制御することにより、入力された混合音を聞き取りやすく加工してイヤホン260から出力される。
 なお、以上の説明では、識別パラメータ抽出部150が、発話重なり継続長分析部151及び沈継続長分析部152を有する場合について説明した。なお、本実施の形態では、発話重なり継続長分析部151及び沈継続長分析部152のうち、いずれか一方のみを有するようにしてもよい。その場合には、式(3)において、発話重なり分析値Pcの重みw1又は沈黙分析値Psの重みw2のいずれか一方が0に設定されていることと等価となる。
 以上のように、本実施の形態では、識別パラメータ抽出部150が、発話重なり継続長分析部151又は沈継続長分析部152の少なくとも一方を有する構成とした。発話重なり継続長分析部151は、音声区間情報を用いて、発話重なり継続長を計算し分析し、沈継続長分析部152は、沈黙継続長を計算し分析する。そして、会話成立度計算部160は、発話重なり継続長及び沈黙継続長のうち、少なくとも一方を用いて、会話成立度を計算するようにした。このようにして、本実施の形態では、相槌による発話重なりが短いこと、相手が完全にしゃべり終わらないうちに発話を始める場合の発話重なりが短いこと、会話中の沈黙が短いことなどの、日常会話の特徴を利用することができる。このため、本実施の形態では、くだけた日常会話においても、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。
 なお、本発明者らは、実際に5組の日常会話を収録した音声データを用いて、会話相手検出のシミュレーション実験を行なった。
 シミュレーション実験は、マイクロホンアレイを用いて5組の2分間の日常会話を収音し、収音した音声データに、食堂で別途収音したがやがやとしたマルチトーカーノイズを、SN比が5,10,15,20dBとなるように重畳した。次に、シミュレーション実験は、それぞれのSN比について、話者ごとに音声パワーによる音声検出を行った。そして、シミュレーション実験は、話者ごとの音声検出結果について、5組の会話相手の組み合わせ及び40組の非会話相手の組み合わせを擬似的に作成し、従来方法及び本発明による方法に対して会話相手正解率を求めた。
 なお、ここで、従来方法は、特許文献1に開示されている方法であり、時定数を用いて会話成立度を更新している。従来方法では、フレームtにおける会話成立度C1,k(t)を、式(4)を用いて求めた。ここで、フレームtにおいて、音信号Skは、音声のときにはV(t)=1,非音声のときにはV(t)=0とする。
Figure JPOXMLDOC01-appb-M000004
ただし、時定数α=β=γ=0.99999、δ=0.99995、ε=0.999
 また、本発明による方法には、発話重なり分析及び沈黙分析を用いる方法を用い、フレーム毎に発話重なり分析値及び沈黙分析値を求め、会話成立度を更新している。また、フレームtにおける会話成立度C1,k(t)は、式(3)を用いて算出した。
 ここで、評価方法としては、会話相手の組の場合には閾値θを超えていたら正解とし、非会話相手の組の場合には閾値θを下回っていたら正解とした。また、会話相手正解率は、会話相手を正しく検出する割合と非会話相手を正しく棄却する割合との平均値と定義した。図9は、従来方法及び本発明による方法による会話相手正解率を示す。
 図9から分かるように、従来方法に比べ、発話重なり及び沈黙の平均継続長の分析値を用いて会話成立度を求める本発明による方法は、どのSN比レベルにおいても、大幅に高い会話相手検出性能が得られた。このことから、本発明は、有効であることが確認された。
 なお、以上の説明では、音源分離部130が、方向別に音信号を分離する場合について説明した。なお、音源分離部130は、独立成分分析(ICA:Independent Component Analysis)など他の音源分離方法を用いて、音信号を分離してもかまわない。また、音源分離部130は、帯域ごとのパワーの大きさのみ方向別に求め、方向別のパワーから音声検出を行い、同様の動作を行うようにしてもよい。
 また、本実施の形態は、話者を識別する話者識別部を設け、同じ方向に複数の話者がいる場合に、話者ごとに分離できるようにしてもよい。
 (実施の形態2)
 本実施の形態では、笑いの重なりに着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、笑いの重なりに着目した点について説明する。
 日常的なくだけた会話では、笑いを伴ってしゃべることも多い。笑いは、有音である。そのため、従来技術のパワーにより有音判定し、有音/無音の組み合わせだけで会話成立度を求める方法では、笑いが同時に起こったときに会話成立度が低くなる。このために、従来の方法では、会話相手と非会話相手とを正しく区別することが難しいという課題を有していた。本実施の形態は、上記課題を解決する。
 本発明者らは、実際の日常会話での笑いの出現タイミングについて分析するために、日常会話を収録した9組の会話データから、笑い/発話/無音(発話でも笑いでもない黙っている区間)が時間的にどの程度重なっているかを調べた。この会話データは、話者ごとに収音し、試聴により笑い/発話/無音の発話区間のラベルを付与した。
 図10は、会話相手に対する発話/笑い/無音の重なり継続長合計(msec)を示し、図11は、非会話相手に対する発話/笑い/無音の重なり継続長合計(msec)を示している。これらを比較すると、会話相手に対しては、笑いの重なりが非会話相手よりも多いことが分かる。
 図12は、これらのデータから、発話/笑い/無音の重なりの組み合わせに対して、それが会話相手である割合を算出した結果を示している。図12から、笑いが重なっている場合は、それが会話相手である割合は92.28%と非常に高く、一方が発話でもう一方が無音であるときに会話相手である割合(62.23%、57.48%)に比べ、格段に高いことがわかった。したがって、笑いの重なりは、日常会話の特徴量を示し、会話相手であるか否かを判定する重要なパラメータであると言える。そこで、本実施の形態では、単に有音/無音の組み合わせに加えて、笑いの重なりに着目して会話成立度を算出するようにした。
 会話成立度の評価方法としては、例えば、笑いが重なった場合には、会話成立度を加点するなどの方法を用いる。加点の重みは、一方の話者が発話でもう一方の話者が無音である場合に比べ、同じ若しくは大きくする。
 また、図12から、一方の話者が笑っているときにもう一方の話者が発話している場合は、それが会話相手である割合は40%前後とやや低めであることが分かる。また、一方の話者が笑っているときにもう一方の話者が無音の場合、それが会話相手である割合は、50%前後であって、会話成立度の識別に寄与しないことが分かる。これらのことから、一方の話者が笑っているとき、もう一方の話者が発話または無音の場合には、小さな減点か或いは加点も減点もしないようにする。このように、笑いの重なりに着目して評価することにより、会話成立度は、正しく求めることができる。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図13は、本実施の形態に係る信号処理装置300の要部構成を示すブロック図である。なお、図13の信号処理装置300において、図4の信号処理装置100と共通する構成部分には、図4と同一の符号を付して説明を省略する。図13の信号処理装置300は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部310及び会話成立度計算部320を具備する。
 識別パラメータ抽出部310は、笑い検出部311を有している。
 笑い検出部311は、音源分離部130で分離された音信号が笑い声であるか否かを判定する。なお、音信号から笑いを検出する方法は、公知の技術を用いる。公知の技術としては、例えば従来以下のような方法がある。
 例えば、特許文献2は、音声パワーが所定の閾値を超える区間を音声区間として判定し、フレーム毎にrms振幅値を求める。次に、特許文献2は、その平均値が所定の閾値を超える区間を抽出し、音声認識で「はは」や「ははは」のように、同じ母音が断続的に続く区間を笑い声区間と判定する方法が開示されている。
 また、特許文献3には、母音の周波数帯信号の包絡線を求め、当該包絡線の振幅ピークが一定値以上のとき、当該振幅ピークの周期が一定範囲であるか否かを判断する方法が開示されている。
 また、非特許文献1には、GMM(Gaussian Mixture Model)によって笑い声をモデル化し、フレーム毎に笑い声と非笑い声とを識別する方法が開示されている。
 なお、以下では、笑い検出方法として、非特許文献1と同様に、あらかじめ学習しておいた笑いGMMと非笑いGMMとの照合により行う方法を用いる場合について説明する。
 会話成立度計算部320は、笑い検出部311において得られた笑い区間情報、及び、音声検出部140において得られた音声区間情報を用いて、会話成立度を算出する。会話成立度計算部320における会話成立度の算出方法については、後述する。
 図14は、本実施の形態に係る信号処理装置300を搭載した補聴器200の動作を表すフローチャートである。図14のフローチャートを用いて、補聴器200の動作を説明する。なお、図14において、図7と共通するステップには、図7と同一の符号を付して説明を省略する。
 ステップS110、S120、S130では、実施の形態1と同様に、それぞれ、収音及びA/D変換、分離、音声検出が行われる。
 ステップS130の次に、ステップS210において、笑い検出部311は、音信号Skについて笑い/非笑い判定を行う。まず、笑い検出部311は、フレームtにおいて、フレームtの特徴パラメータベクトルをあらかじめ学習しておいた笑いGMM及び非笑いGMMと照合し、笑い尤度及び非笑い尤度を求める。特徴パラメータベクトルとは、フレーム毎に音響分析をして得られるMFCC12次元(C1~C12)、その一次回帰係数12次元(ΔC1~ΔC12)、対数パワーの一次回帰係数1次元(ΔE)の合計25次元からなるベクトルとする。なお、MFCC(Mel Filter Cepstral Coefficient)とは、メルフィルタバンクケプストラム係数を示す。そして、笑い検出部311は、過去Nフレーム(例えば、N=50)分の笑い尤度及び非笑い尤度をそれぞれ累積し、蓄積結果が大きい方を判定結果とする。笑い検出部311は、Nフレーム分の尤度を累積して判定することにより識別性能が向上する。
 ステップS220において、会話成立度計算部320は、前方の音信号S1と、前方を除いた7方向の音信号Sk(k:方向、k=2,3,…,8)のそれぞれの組み合わせについて、音信号S1と音信号Skとの会話成立度を算出する。
 図15は、発話/笑い/無音の組み合わせによる会話成立度の算出方法の考え方を表した表である。S1は、ユーザの声がある方向1の音信号を表し、Skは方向k(k=2,3,…,8)の音信号を表す。
 ここで、「発話」、「無音」及び「笑い」は、以下のように定義する。
 「発話」:音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
 「無音」:音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
 「笑い」:音声検出結果に関わらず、笑い検出結果が笑いであるフレーム
 本実施の形態では、会話成立度計算部320は、フレームtにおける会話成立度C1,k(t)を、例えば、式(5)を用いて算出する。
Figure JPOXMLDOC01-appb-M000005
 なお、フレームtは、全ての方向の音源に対して無音が一定時間続いた時点で初期化する。また、会話成立度は、遠い過去のデータを忘却させて最新の状況に適応させる時定数を用いて求めてもよい。
 そして、会話成立度計算部320は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、本実施の形態では、識別パラメータ抽出部310が、笑い検出部311を有する構成を採る。笑い検出部311は、笑いを検出し、会話成立判定部320は、笑いの重なりに着目した会話成立度の評価をする。これにより、本実施の形態は、会話成立度を正しく求めることができるので、会話が成立していることを正しく検出でき、会話相手を正しく判定することができるようになる。
 なお、以上の説明では、音声検出部140と笑い検出部311とを別構成として説明したが、入力信号を発話/笑い/無音の3つに分ける音声笑い検出部を設けるようにしてもよい。
 (実施の形態3)
 本実施の形態は、話者の発話比率に着目して、会話成立度を算出する。本実施の形態の具体的な構成及び動作を説明する前に、先ず、本発明者らが、話者の発話比率に着目した点について説明する。
 従来技術では、一方の話者が有音、もう一方の話者が無音であれば会話成立度が加点されるため、一方的にずっと人の声がするような場合においても、会話成立とみなされてしまっていた。会議など会話が行われている場面において、会話相手を見つける場合には、従来の方法でもよい。しかし、補聴器のようにユーザがウェアラブルマイクを常時身に付けているような状況では、ユーザの独り言、或いは、自分としゃべっているわけではない他人の声がマイクにずっと入力される場合も数多くあり、実用性に欠けていた。本実施の形態は、上記課題を解決する。
 本実施の形態では、自分又は相手のどちらかが一方的にしゃべっていることを検出し、「一方的なしゃべり」と検出された場合には会話成立度を低くする。そして、「一方的なしゃべり」を検出する方法として、本実施の形態では、自分と会話相手との発話区間比を求め、この発話区間比が極端に偏っている場合を「一方的なしゃべり」と判断する。
 ここで、音信号S1と音信号Sk(k:方向、k=2,3,…,8)との発話区間比Rb1,kは、以下の式(6)で定義する。
Figure JPOXMLDOC01-appb-M000006
 本発明者らは、実際の日常会話において、一人の話者がしゃべり続ける一方的なしゃべりがどれくらい起きているのかを分析するために、日常会話を収録した9組の会話データから、時間窓の長さ(時間窓幅)を変えて上記発話区間比を求めた。
 図16は、ある一組の会話の時間窓幅ごとの発話区間比Rbの推移の例を表したグラフである。横軸は会話開始時からの経過時間、縦軸は発話区間比を表す。時間窓幅Nは、5秒、10秒、20秒、30秒のそれぞれについて示している。その結果、本発明者らは、N=10秒程度の時間窓でみると、2話者間の発話区間比は、時間経過とともに変化はするものの、どの会話に対してもほぼ10%~90%の範囲に収まることに着目した。
 そこで、本実施の形態では、過去N秒間の発話区間比の値に応じて、会話成立度に1未満の重みを掛けることにより、一方的なしゃべりを抑圧する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図17は、本実施の形態に係る信号処理装置400の要部構成を示すブロック図である。なお、図17の信号処理装置400において、図4の信号処理装置100と共通する構成部分には、図4と同一の符号を付して説明を省略する。図17の信号処理装置400は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部410及び会話成立度計算部420を具備する。
 識別パラメータ抽出部410は、発話比率計算部411を有している。
 発話比率計算部411は、音声検出部140において算出された音声区間情報から、発話比率情報として、発話区間比率を計算する。
 会話成立度計算部420は、音声検出部140において算出された音声区間情報と、発話比率計算部411において算出された発話区間比率とから、会話成立度を求める。会話成立度計算部420における会話成立度の算出方法については、後述する。
 図18は、本実施の形態に係る信号処理装置400を搭載する補聴器200の動作を表すフローチャートである。図18のフローチャートを用いて補聴器200の動作を説明する。なお、図18において、図7と共通するステップには、図7と同一の符号を付して説明を省略する。
 ステップS110、S120、S130では、実施の形態1と同様に、それぞれ、収音及びA/D変換、分離、音声検出が行われる。
 本実施の形態では、実施の形態1と同様に、音声検出部140により、音声と判定された区間を発話区間と定義する。
 次に、前方の音信号S1と、前方を除いた7方向の音信号Sk(方向k=2,3,…,8)とのそれぞれの組み合わせについて、ステップS310及びステップS320の処理が行われる。
 ステップS310において、発話比率計算部411は、フレームtから過去N秒(N=10)の区間における音信号S1と音信号Skとの発話区間比Rb1,kを求め、会話成立度計算部420に出力する。
 次に、ステップS320において、会話成立度計算部420は、音信号S1と音信号Skとの会話成立度を算出する。本実施の形態では、会話成立度計算部420は、フレームtにおける会話成立度C1,k(t)を、例えば、式(7)のようにして求める。
Figure JPOXMLDOC01-appb-M000007
 このようにして、本実施の形態では、発話区間比が10%未満又は90%以上に偏ったときに、1未満の重みをかけることにより、一方的なしゃべりを抑制することができるようになる。なお、今回は、N=10、重みw(Rb1,k)を上式のように設計したが、これに限定するものではない。
 そして、会話成立度計算部420は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、本実施の形態では、識別パラメータ抽出部410が、発話比率計算部411を有する構成を採る。発話比率計算部411は、音声区間情報から、発話比率情報として、発話区間比率を計算し、会話成立度計算部420は、音声区間情報及び発話比率情報を用いて、会話成立度を計算する。具体的には、発話比率計算部411は、自分と相手との発話区間比が極端に偏っていた場合に会話成立度が低くなるように、発話区間比Rb1,kを設定する。次に、会話成立度計算部420は、当該発話区間比Rb1,kを用いて会話成立度を算出する。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになり、会話が成立していることを正しく検出し、会話相手を正しく判定することができる。
 (実施の形態4)
 本実施の形態では、発話の重なり又は沈黙の継続長、笑いの重なり、及び、話者の発話比率に着目して、会話成立度を算出する。
 以下、本実施の形態に係る信号処理装置の内部構成について説明する。本実施の形態は、実施の形態1と同様に、リモコン型補聴器に本発明を適用した例である。リモコン型補聴器の形状は、図5と同様のため説明を省略する。
 図19は、本実施の形態に係る信号処理装置500の要部構成を示すブロック図である。なお、図19の信号処理装置500において、図4、図13及び図17の信号処理装置100、300、400と共通する構成部分には、これら図と同一の符号を付して説明を省略する。図19の信号処理装置500は、図4の信号処理装置100に対して、識別パラメータ抽出部150及び会話成立度計算部160に代えて、識別パラメータ抽出部510及び会話成立度計算部520を具備する。
 識別パラメータ抽出部510は、発話重なり継続長分析部511、沈黙継続長分析部512、笑い検出部311及び発話比率計算部513を有している。
 なお、本実施の形態では、笑い検出部311により得られた笑い区間情報が、発話重なり継続長分析部511、沈黙継続長分析部512及び発話比率計算部513にも出力される。そして、発話重なり継続長分析部511、沈黙継続長分析部512及び発話比率計算部513において、笑い区間情報は、音声検出部140からの音声区間情報とともに、発話重なり継続長分析、沈黙継続長分析及び発話比率計算に利用される。本実施の形態は、この点が、実施の形態1及び実施の形態3の発話重なり継続長分析部151、沈黙継続長分析部152及び発話比率計算部411と異なる。
 図20は、本実施の形態に係る信号処理装置500を搭載する補聴器200の動作を表すフローチャートである。図20のフローチャートを用いて補聴器200の動作を説明する。なお、図20において、図14と共通するステップには、図14と同一の符号を付して説明を省略する。
 ステップS110、S120、S130、S210では、実施の形態2と同様に、それぞれ、収音及びA/D変換、分離、音声検出、笑い/非笑い判定が行われる。
 次に、前方の音信号S1と、前方を除いた7方向の音信号Sk(方向k=2,3,…,8)のそれぞれの組み合わせについて、ステップS410、S420及びS430の処理が行われる。
 ここで、本実施の形態では、実施の形態2と同様に、「発話」、「無音」及び「笑い」を以下のように定義する。
 「発話」:音声検出結果が音声で、かつ、笑い検出結果が非笑いであるフレーム
 「無音」:音声検出結果が非音声で、かつ、笑い検出結果が非笑いであるフレーム
 「笑い」:音声検出結果に関わらず、笑い検出結果が笑いであるフレーム
 この発話/笑い/無音の分類に基づいて、ステップS410において、発話重なり継続長分析部511は、音信号S1と音信号Skの笑いを含まない発話区間の重なりの継続長を求め分析を行う。また、沈黙継続長分析部512は、この発話/笑い/無音の分類に基づいて、笑いを含まない沈黙区間の継続長を求め分析を行う。
 次に、ステップS420において、発話比率計算部513は、音信号S1と音信号Skの笑いを含まない発話区間の比率を計算する。
 次に、ステップS430において、会話成立度計算部520は、音信号S1と音信号Skとの会話成立度を算出する。本実施の形態では、会話成立度計算部520は、フレームtにおける会話成立度C1,k(t)を、例えば式(8)のようにして求める。
Figure JPOXMLDOC01-appb-M000008
 そして、会話成立度計算部520は、算出した会話成立度を会話相手判定部170に出力する。以降、実施の形態1と同様に、ステップS160において、会話相手判定部170は、会話相手が判定される。また、ステップS170において、出力制御部180は、出力音が制御される。
 以上のように、識別パラメータ抽出部510は、発話重なり継続長分析部511、沈黙継続長分析部512、及び、笑い検出部311を有する構成を採る。会話成立度計算部520は、発話重なり継続長、沈黙継続長、笑いの区間を示す笑い区間情報、又は、発話区間の長さの比率を示す発話比率情報を用いて、会話成立度を算出する。このために、本実施の形態は、日常会話に特有のクロストーク或いは笑いの出現の特徴を利用した会話成立度の評価を行うことができるようになり、くだけた日常会話でも正しく会話成立度を求めることができる。これにより、本実施の形態は、会話が成立していることを正しく検出することができ、会話相手を正しく判定することができるようになる。
 特に、本実施の形態では、発話重なり継続長分析部511及び沈黙継続長分析部512が、笑い区間情報を加味して、発話重なり継続長及び沈黙継続長を算出する。これにより、本実施の形態は、笑いを含まない発話区間を正確に抽出できるようになるため、発話重なり及び沈黙の区間の継続長を正しく求められるようになり、より正しく会話成立度を求めることができるようになる。
 また、本実施の形態は、識別パラメータ抽出部510に発話比率計算部513を設けることにより、一方的なしゃべりを抑制できるようになる。これにより、補聴器のように日常的に身に付ける機器では、自分の独り言や、自分が会話していないときの他人の声などによる誤動作をしないようになる。
 なお、実施の形態1から実施の形態4では、本発明をリモコン型補聴器に適用する場合を想定し説明したが、本発明を耳かけ型或いは耳穴型などのウェアラブルマイクを用いた補聴器に適用することも可能である。ウェアラブルマイクでは、リモコン型補聴器と異なり、マイクロホンアレイの規定方向をユーザのほうに向けることによってユーザの声を分離収音することが困難である。そのため、本発明は、特許文献4に開示されているような、補聴器に骨伝導マイクロホンを付加し自発声による頭蓋振動を検出することによりユーザの声を検出する方法に適用できる。或いは、本発明は、ヘッドセットマイクロホンを装着し口元の音声を検出する方法などに適用することにより、自発声を検出することが出来る。また、本実施の形態は、音源分離部を設けず、短時間ごとにユーザの自発声があるか及びそれ以外の音が音声かどうかのみを判定するようにして、ユーザとそれ以外の話者の会話成立度を求めるようにしてもよい。
 また、他のアプリケーションへの適用としては、本発明を音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどに適用することができる。音声レコーダ、デジタルスチルカメラ、ムービーなどのデジタル記録機器では、記録したい会話以外の他人の会話などの妨害音を抑圧して記録することが出来る。或いは、本発明は、マイクロホンアレイによる入力音を全て記録しておき、後から会話成立度が高くなる組み合わせの会話を抽出し、所望の会話を再生したりすることも可能である。
 また、電話会議システムでは、一方の拠点でのみすぐ近くで他の会議が行われているなど妨害音がある場合、もう一方の静かな拠点から送られてくる声の会話相手を抽出し、それ以外の声を抑圧することで、スムーズに会議を行うことができる。また、両拠点において、妨害音がある場合には、例えば、マイクに入る一番大きい声を検出し、その会話相手を見つけ、それ以外の声を抑圧することにより、同様の効果を得ることができる。
 2010年2月25日出願の特願2010-039698に含まれる明細書、図面及び要約書の開示内容は、すべて本願に援用される。
 本発明に係る信号処理装置及び信号処理方法は、補聴器、或いは、音声レコーダ、デジタルスチルカメラ、ムービー、電話会議システムなどさまざまな分野における信号処理装置として有用である。
 100,300,400,500 信号処理装置
 110,220 マイクロホンアレイ
 120,230 A/D変換部
 130 音源分離部
 140 音声検出部
 150,310,410,510 識別パラメータ抽出部
 151,511 発話重なり継続長分析部
 152,512 沈黙継続長分析部
 160,320,420,520 会話成立度計算部
 170 会話相手判定部
 180 出力音制御部
 200 補聴器
 210 補聴器本体
 240 CPU
 250 メモリ
 260 イヤホン
 311 笑い検出部
 411,513 発話比率計算部
 

Claims (15)

  1.  複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部と、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
     を具備する信号処理装置。
  2.  請求項1記載の信号処理装置において、
     前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行い、前記識別パラメータとして、笑い区間情報を抽出する笑い検出部、を具備し、
     前記会話成立度計算部は、
     前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、前記会話成立度を計算する、
     信号処理装置。
  3.  請求項1記載の信号処理装置において、
     前記発話重なり継続長抽出部または前記沈黙継続長抽出部に代えて、
     前記複数の音源信号の組み合わせについて、前記識別パラメータとして、発話比率情報を抽出する発話比率計算部、を具備し、
     前記会話成立度計算部は、
     前記音声区間情報及び前記発話比率情報を用いて、前記会話成立度を計算する、
     信号処理装置。
  4.  前記抽出部は、
     前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の長短の割合を、前記識別パラメータとして抽出する、
     請求項1記載の信号処理装置
  5.  前記抽出部は、
     前記発話重なり継続長分析部及び前記沈黙継続長分析部の少なくとも一方において、前記発話重なり継続長又は前記沈黙の継続長の平均値を、前記識別パラメータとして抽出する、
     請求項1記載の信号処理装置。
  6.  前記会話成立度計算部は、
     前記複数の音源信号で笑いが同時に検出された場合に、前記会話成立度を高くする、
     請求項2記載の信号処理装置。
  7.  前記会話成立度計算部は、
     前記複数の音源信号のうち、第1の音源信号で笑いが検出され、第2の音源信号で笑いが検出されなかった場合には、前記第一の音源信号と前記第2の音源信号との前記会話成立度を変化させない、又は、前記会話成立度を低くする、
     請求項2記載の信号処理装置。
  8.  前記発話比率計算部は、
     前記複数の音源信号のうち、過去一定時間窓内における第1の音源信号と第2の音源信号との発話区間比を、前記発話比率情報とする、
     請求項3記載の信号処理装置。
  9.  複数の音源が入り混じった混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記複数の音源信号、又は、前記音声区間情報に基づいて、日常会話の特徴量を示す識別パラメータを抽出する抽出部と、
     抽出された前記識別パラメータに基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、を具備し、
     前記抽出部は、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出部と、
     前記複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析部、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析部の少なくとも一方と、
     前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算部と、を具備し、
     前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
     信号処理装置。
  10.  複数のマイクロホンを配置したマイクロホンアレイと、
     前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するA/D変換部と、
     デジタル領域の前記混合音信号を入力とする請求項1記載の信号処理装置と、
     前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
     を具備する信号処理装置。
  11.  前記出力音制御部は、
     指向性制御によりデジタル領域の前記混合音信号を加工して出力する、
     請求項10記載の信号処理装置。
  12.  複数のマイクロホンを配置したマイクロホンアレイと、
     前記マイクロホンアレイから入力されたアナログ領域の混合音信号をデジタル領域の信号に変換するA/D変換部と、
     前記変換されたデジタル領域の前記混合音信号を音源毎に分離する分離部と、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出部と、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析する発話重なり継続長抽出部、及び、前記沈黙継続長を計算し分析する沈黙継続長抽出部の少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する会話成立度計算部と、
     前記会話成立度に応じて、デジタル領域の前記混合音信号を加工して出力する出力音制御部と、
     を具備する補聴器。
  13.  複数の音源が入り混じった混合音信号を音源毎に分離するステップと、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成するステップと、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算するステップと、
     を記録した記憶媒体。
  14.  複数の音源が入り混じった混合音信号を音源毎に分離する分離ステップと、
     前記分離された複数の音源信号のそれぞれについて音声検出を行い、前記複数の音源信号が音声か否か判定して、音源信号毎に音声/非音声情報を示す音声区間情報を生成する音声検出ステップと、
     前記複数の音源信号の組み合わせについて、前記音声区間情報を用いて、発話重なり継続長を計算し分析するステップ、及び、前記沈黙継続長を計算し分析するステップの少なくとも一方と、
     抽出された前記発話重なり継続長又は前記沈黙継続長に基づいて、会話が成立している度合いを示す会話成立度を計算する計算ステップと、
     を有する信号処理方法。
  15.  前記抽出ステップは、
     前記分離された複数の音源信号のそれぞれについて笑い検出を行って、笑い区間情報を抽出する笑い検出ステップと、
     複数の音源信号の組み合わせについて、前記音声区間情報及び前記笑い区間情報を用いて、発話重なりの連続する区間の長さを示す発話重なり継続長を計算し分析する発話重なり継続長分析ステップ、及び、沈黙の連続する区間の長さを示す沈黙継続長を計算し分析する沈黙継続長分析ステップの少なくとも一方と、
     前記複数の音源信号の組み合わせについて、発話比率情報を抽出する発話比率計算ステップと、を有し、
     前記発話重なり継続長、前記沈黙継続長、前記笑い区間情報、又は、前記発話比率情報を、前記識別パラメータとして抽出する、
     請求項14記載の信号処理方法。
     
     
PCT/JP2011/000358 2010-02-25 2011-01-24 信号処理装置及び信号処理方法 WO2011105003A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
CN201180001707.9A CN102388416B (zh) 2010-02-25 2011-01-24 信号处理装置及信号处理方法
JP2011523238A JP5607627B2 (ja) 2010-02-25 2011-01-24 信号処理装置及び信号処理方法
US13/262,690 US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
EP11746976.7A EP2541543B1 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
US13/927,429 US8682012B2 (en) 2010-02-25 2013-06-26 Signal processing method
US13/927,424 US8644534B2 (en) 2010-02-25 2013-06-26 Recording medium

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2010-039698 2010-02-25
JP2010039698 2010-02-25

Related Child Applications (3)

Application Number Title Priority Date Filing Date
US13/262,690 A-371-Of-International US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
US13/262,690 Continuation US8498435B2 (en) 2010-02-25 2011-01-24 Signal processing apparatus and signal processing method
US13/927,424 Division US8644534B2 (en) 2010-02-25 2013-06-26 Recording medium

Publications (1)

Publication Number Publication Date
WO2011105003A1 true WO2011105003A1 (ja) 2011-09-01

Family

ID=44506438

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2011/000358 WO2011105003A1 (ja) 2010-02-25 2011-01-24 信号処理装置及び信号処理方法

Country Status (5)

Country Link
US (3) US8498435B2 (ja)
EP (1) EP2541543B1 (ja)
JP (1) JP5607627B2 (ja)
CN (1) CN102388416B (ja)
WO (1) WO2011105003A1 (ja)

Cited By (12)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2016133774A (ja) * 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016170405A (ja) * 2015-03-10 2016-09-23 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
JP2017161731A (ja) * 2016-03-09 2017-09-14 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
JPWO2019139101A1 (ja) * 2018-01-12 2021-01-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム

Families Citing this family (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP5581329B2 (ja) * 2010-06-30 2014-08-27 パナソニック株式会社 会話検出装置、補聴器及び会話検出方法
TWI403304B (zh) * 2010-08-27 2013-08-01 Ind Tech Res Inst 隨身語能偵知方法及其裝置
EP2727378B1 (en) 2011-07-01 2019-10-16 Dolby Laboratories Licensing Corporation Audio playback system monitoring
US9135915B1 (en) * 2012-07-26 2015-09-15 Google Inc. Augmenting speech segmentation and recognition using head-mounted vibration and/or motion sensors
US20140081637A1 (en) * 2012-09-14 2014-03-20 Google Inc. Turn-Taking Patterns for Conversation Identification
US9814879B2 (en) * 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
KR20160006703A (ko) * 2013-05-13 2016-01-19 톰슨 라이센싱 마이크로폰 오디오를 분리하기 위한 방법, 장치 및 시스템
EP2876900A1 (en) 2013-11-25 2015-05-27 Oticon A/S Spatial filter bank for hearing system
CN103903632A (zh) * 2014-04-02 2014-07-02 重庆邮电大学 一种多声源环境下的基于听觉中枢系统的语音分离方法
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
CN106920543B (zh) * 2015-12-25 2019-09-06 展讯通信(上海)有限公司 语音识别方法及装置
US9812149B2 (en) * 2016-01-28 2017-11-07 Knowles Electronics, Llc Methods and systems for providing consistency in noise reduction during speech and non-speech periods
DK3396978T3 (da) 2017-04-26 2020-06-08 Sivantos Pte Ltd Fremgangsmåde til drift af en høreindretning og en høreindretning
CN107895582A (zh) * 2017-10-16 2018-04-10 中国电子科技集团公司第二十八研究所 面向多源信息领域的说话人自适应语音情感识别方法
CN110858476B (zh) * 2018-08-24 2022-09-27 北京紫冬认知科技有限公司 一种基于麦克风阵列的声音采集方法及装置
EP4107723A4 (en) * 2020-02-21 2023-08-23 Harman International Industries, Incorporated METHOD AND SYSTEM TO IMPROVE VOTING SEPARATION BY ELIMINATION OF OVERLAP
US20240089671A1 (en) 2022-09-13 2024-03-14 Oticon A/S Hearing aid comprising a voice control interface

Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193298A (ja) 1987-10-02 1989-04-12 Pilot Pen Co Ltd:The 自己音声感度抑圧型補聴器
JP2001045454A (ja) * 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2002006874A (ja) 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2003530051A (ja) * 2000-03-31 2003-10-07 クラリティー リミテッド ライアビリティ カンパニー 音声信号抽出のための方法及び装置
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2004243023A (ja) 2003-02-17 2004-09-02 Masafumi Matsumura 笑い検出装置、情報処理装置および笑い検出方法
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム

Family Cites Families (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7236929B2 (en) * 2001-05-09 2007-06-26 Plantronics, Inc. Echo suppression and speech detection techniques for telephony applications
US7596498B2 (en) * 2005-09-02 2009-09-29 Microsoft Corporation Monitoring, mining, and classifying electronically recordable conversations
JP4087400B2 (ja) * 2005-09-15 2008-05-21 株式会社東芝 音声対話翻訳装置、音声対話翻訳方法および音声対話翻訳プログラム
JP4364251B2 (ja) * 2007-03-28 2009-11-11 株式会社東芝 対話を検出する装置、方法およびプログラム

Patent Citations (9)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0193298A (ja) 1987-10-02 1989-04-12 Pilot Pen Co Ltd:The 自己音声感度抑圧型補聴器
JP2001045454A (ja) * 1999-08-03 2001-02-16 Fuji Xerox Co Ltd 対話情報配信システムおよび対話情報配信装置並びに記憶媒体
JP2003530051A (ja) * 2000-03-31 2003-10-07 クラリティー リミテッド ライアビリティ カンパニー 音声信号抽出のための方法及び装置
JP2002006874A (ja) 2000-06-27 2002-01-11 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
JP2004133403A (ja) 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2004243023A (ja) 2003-02-17 2004-09-02 Masafumi Matsumura 笑い検出装置、情報処理装置および笑い検出方法
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2005037953A (ja) * 2004-07-26 2005-02-10 Sharp Corp 音声処理装置、動画像処理装置、音声・動画像処理装置及び音声・動画像処理プログラムを記録した記録媒体
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
AKINORI ITO ET AL.: "Smile and Laughter Recognition using Speech Processing and Face Recognition from Conversation Video", 26 May 2005, TOHOKU UNIVERSITY
See also references of EP2541543A4

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2012042768A1 (ja) * 2010-09-28 2012-04-05 パナソニック株式会社 音声処理装置および音声処理方法
JPWO2012042768A1 (ja) * 2010-09-28 2014-02-03 パナソニック株式会社 音声処理装置および音声処理方法
US9064501B2 (en) 2010-09-28 2015-06-23 Panasonic Intellectual Property Management Co., Ltd. Speech processing device and speech processing method
JP5740575B2 (ja) * 2010-09-28 2015-06-24 パナソニックIpマネジメント株式会社 音声処理装置および音声処理方法
JP2013140534A (ja) * 2012-01-06 2013-07-18 Fuji Xerox Co Ltd 音声解析装置、音声解析システムおよびプログラム
JP2013225003A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> 音声データ分析装置、音声データ分析方法および音声データ分析プログラム
JP2013225002A (ja) * 2012-04-20 2013-10-31 Nippon Telegr & Teleph Corp <Ntt> データ分析装置、データ分析方法およびデータ分析プログラム
JP2015004928A (ja) * 2013-06-24 2015-01-08 日本電気株式会社 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
JP2016133774A (ja) * 2015-01-22 2016-07-25 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
JP2016170405A (ja) * 2015-03-10 2016-09-23 パナソニックIpマネジメント株式会社 音声処理装置、音声処理方法及び音声処理プログラム
JP2017063419A (ja) * 2015-09-24 2017-03-30 ジーエヌ リザウンド エー/エスGn Resound A/S 雑音を受ける発話信号の客観的知覚量を決定する方法
JP2017161731A (ja) * 2016-03-09 2017-09-14 本田技研工業株式会社 会話解析装置、会話解析方法およびプログラム
JP2018097239A (ja) * 2016-12-15 2018-06-21 カシオ計算機株式会社 音声再生装置及びプログラム
JPWO2019139101A1 (ja) * 2018-01-12 2021-01-28 ソニー株式会社 情報処理装置、情報処理方法およびプログラム
JP7276158B2 (ja) 2018-01-12 2023-05-18 ソニーグループ株式会社 情報処理装置、情報処理方法およびプログラム
US11837233B2 (en) 2018-01-12 2023-12-05 Sony Corporation Information processing device to automatically detect a conversation
WO2021125037A1 (ja) * 2019-12-17 2021-06-24 ソニーグループ株式会社 信号処理装置、信号処理方法、プログラムおよび信号処理システム

Also Published As

Publication number Publication date
CN102388416B (zh) 2014-12-10
US8644534B2 (en) 2014-02-04
EP2541543A1 (en) 2013-01-02
US8682012B2 (en) 2014-03-25
US20130289982A1 (en) 2013-10-31
JPWO2011105003A1 (ja) 2013-06-17
US20140012576A1 (en) 2014-01-09
EP2541543B1 (en) 2016-11-30
CN102388416A (zh) 2012-03-21
JP5607627B2 (ja) 2014-10-15
US8498435B2 (en) 2013-07-30
EP2541543A4 (en) 2013-11-20
US20120020505A1 (en) 2012-01-26

Similar Documents

Publication Publication Date Title
JP5607627B2 (ja) 信号処理装置及び信号処理方法
CN110268470B (zh) 音频设备滤波器修改
JP5740575B2 (ja) 音声処理装置および音声処理方法
JP5581329B2 (ja) 会話検出装置、補聴器及び会話検出方法
JP6464449B2 (ja) 音源分離装置、及び音源分離方法
JP4713111B2 (ja) 発話区間検出装置、音声認識処理装置、送信システム、信号レベル制御装置、発話区間検出方法
CN107112026A (zh) 用于智能语音识别和处理的系统、方法和装置
US20180054688A1 (en) Personal Audio Lifestyle Analytics and Behavior Modification Feedback
Bramsløw et al. Improving competing voices segregation for hearing impaired listeners using a low-latency deep neural network algorithm
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
EP3982358A2 (en) Whisper conversion for private conversations
Chatterjee et al. ClearBuds: wireless binaural earbuds for learning-based speech enhancement
JP2013142843A (ja) 動作解析装置、音声取得装置、および、動作解析システム
CN113921026A (zh) 语音增强方法和装置
CN111199751B (zh) 一种麦克风的屏蔽方法、装置和电子设备
JP4447857B2 (ja) 音声検出装置
EP3288035B1 (en) Personal audio analytics and behavior modification feedback
US11736873B2 (en) Wireless personal communication via a hearing device
JP5672155B2 (ja) 話者判別装置、話者判別プログラム及び話者判別方法
US20230217194A1 (en) Methods for synthesis-based clear hearing under noisy conditions
Dekens et al. A Multi-sensor Speech Database with Applications towards Robust Speech Processing in hostile Environments.
Brandstein et al. Speaker Recognition Using Real vs. Synthetic Parallel Data for DNN Channel Compensation
Aiken Understanding the noise problem

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 201180001707.9

Country of ref document: CN

WWE Wipo information: entry into national phase

Ref document number: 2011523238

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 13262690

Country of ref document: US

REEP Request for entry into the european phase

Ref document number: 2011746976

Country of ref document: EP

WWE Wipo information: entry into national phase

Ref document number: 2011746976

Country of ref document: EP

121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 11746976

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE