JPWO2012042768A1 - 音声処理装置および音声処理方法 - Google Patents

音声処理装置および音声処理方法 Download PDF

Info

Publication number
JPWO2012042768A1
JPWO2012042768A1 JP2012536174A JP2012536174A JPWO2012042768A1 JP WO2012042768 A1 JPWO2012042768 A1 JP WO2012042768A1 JP 2012536174 A JP2012536174 A JP 2012536174A JP 2012536174 A JP2012536174 A JP 2012536174A JP WO2012042768 A1 JPWO2012042768 A1 JP WO2012042768A1
Authority
JP
Japan
Prior art keywords
conversation
speech
user
speakers
long
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Granted
Application number
JP2012536174A
Other languages
English (en)
Other versions
JP5740575B2 (ja
Inventor
麻紀 山田
麻紀 山田
遠藤 充
充 遠藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
Panasonic Corp
Panasonic Holdings Corp
Original Assignee
Panasonic Corp
Matsushita Electric Industrial Co Ltd
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Panasonic Corp, Matsushita Electric Industrial Co Ltd filed Critical Panasonic Corp
Priority to JP2012536174A priority Critical patent/JP5740575B2/ja
Publication of JPWO2012042768A1 publication Critical patent/JPWO2012042768A1/ja
Application granted granted Critical
Publication of JP5740575B2 publication Critical patent/JP5740575B2/ja
Active legal-status Critical Current
Anticipated expiration legal-status Critical

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/40Arrangements for obtaining a desired directivity characteristic
    • H04R25/407Circuits for combining signals of a plurality of transducers
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0208Noise filtering
    • G10L2021/02087Noise filtering the noise being separate speech, e.g. cocktail party
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/06Transformation of speech into a non-audible representation, e.g. speech visualisation or speech processing for tactile aids
    • G10L2021/065Aids for the handicapped in understanding
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • G10L2025/783Detection of presence or absence of voice signals based on threshold decision
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/06Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being correlation coefficients
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/78Detection of presence or absence of voice signals
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/43Signal processing in hearing aids to enhance the speech intelligibility
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/552Binaural
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • H04R25/55Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception using an external connection, either wireless or wired
    • H04R25/558Remote control, e.g. of amplification, frequency

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Acoustics & Sound (AREA)
  • Physics & Mathematics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Otolaryngology (AREA)
  • Neurosurgery (AREA)
  • General Health & Medical Sciences (AREA)
  • Circuit For Audible Band Transducer (AREA)
  • Obtaining Desirable Characteristics In Audible-Bandwidth Transducers (AREA)

Abstract

3人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる音声処理装置。この装置(400)は、音響信号から複数の話者の発話音声を個別に検出する自発話検出部(420)および方向別音声検出部(430)と、検出された発話音声に基づいて、複数の話者のうちの2人の組み合わせの全てについて、判定対象時間を区切ったセグメント毎に会話成立度を算出する会話成立度計算部(450)と、組み合わせ毎に、判定対象時間における会話成立度の長時間特徴量を算出する長時間特徴量計算部(460)と、算出された長時間特徴量に基づいて、複数の話者の中から、会話を形成する会話グループを抽出する会話相手判定部(470)とを有する。

Description

本発明は、複数の話者から発話音声を検出する音声処理装置および音声処理方法に関する。
従来、補聴器や電話会議装置における指向性制御等を目的として、複数の話者の中から、会話を形成するグループ(以下「会話グループ」という)を抽出する技術が存在している(例えば特許文献1参照)。
特許文献1記載の技術(以下「従来技術」という)は、2人の話者が会話を行っているとき、それぞれの話者から有音区間が交互に検出される、という現象を前提としている。従来技術は、この前提の下、有音区間/無音区間が交互となっているか否かに基づいて、2人の話者の会話成立度合いを算出する。
具体的には、従来技術は、単位時間ごとに、2人の一方が有音であり他方が無音であれば、会話成立度合いを加点し、両方が有音または両方が無音であれば、会話成立度合いを減点する。そして、従来技術は、判定対象区間における加点減点の累積結果が閾値以上となっている場合に、該当する2人の間で会話が成立していると判定する。
このような従来技術を用いることにより、複数の話者の中から、互いに会話を行っている2人を抽出することができる。
特開2004−133403号公報
しかしながら、従来技術は、3人以上から成る会話グループが存在する場合、会話グループの抽出の精度が低くなるという課題がある。
なぜなら、3人以上の会話の場合は、ほぼ全ての単位時間において、1人の発話している話者と、複数人の無言の話者とが存在することになるが、この複数人の無言の話者の間で、会話成立度が低くなるためである。また、3人以上の会話の場合は、聞き役で発話をほとんど行わない話者が存在すると、その無言の話者と他の話者との間で、会話成立度が低くなるためである。
本発明の目的は、3人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる音声処理装置および音声処理方法を提供することである。
本発明の音声処理装置は、音響信号から複数の話者の発話音声を個別に検出する音声検出部と、検出された前記発話音声に基づいて、前記複数の話者のうちの2人の組み合わせの全てについて、判定対象時間を区切ったセグメントごとに会話成立度を算出する会話成立度計算部と、前記組み合わせごとに、前記判定対象時間における前記会話成立度の長時間特徴量を算出する長時間特徴量計算部と、算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出する会話相手判定部とを有する。
本発明の音声処理方法は、音響信号から複数の話者の発話音声を個別に検出するステップと、検出された前記発話音声に基づいて、前記複数の話者のうちの2人の組み合わせの全てについて、判定対象時間を区切ったセグメントごとに会話成立度を算出するステップと、前記組み合わせごとに、前記判定対象時間における前記会話成立度の長時間特徴量を算出するステップと、算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出するステップとを有する。
本発明によれば、3人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる。
本発明の一実施の形態に係る音声処理装置を含む補聴器の構成を示す図 本実施の形態に係る補聴器が使用される環境の例を示す図 本実施の形態に係る音声処理装置の構成を示すブロック図 本実施の形態における会話成立度と会話グループとの関係を説明するための第1の図 本実施の形態における会話成立度と会話グループとの関係を説明するための第2の図 本実施の形態に係る音声処理装置の動作を示すフローチャート 本実施の形態におけるマイクロホンアレイの指向性のパターンの例を示す図 本実施の形態における会話相手判定処理を示すフローチャート 本発明の実験のために簡略化した会話相手判定処理を示すフローチャート 本発明の実験結果を示すプロット図
以下、本発明の一実施の形態について、図面を参照して詳細に説明する。本実施の形態は、本発明を、補聴器の指向性制御のための会話相手特定手段に適用した例である。
図1は、本発明に係る音声処理装置を含む補聴器の構成を示す図である。
図1に示すように、補聴器100は、両耳型の補聴器であり、ユーザの左右の外耳に掛けるための補聴器筐体110L、110Rを有する。
左右の筐体110L、110Rのそれぞれの上部には、周囲の音を拾う2つずつのマイクロホンが前後に並べて設置されている。左右2個ずつあわせて4個から成るこれらのマイクロホンは、マイクロホンアレイ120を構成している。4個のマイクロフォンは、補聴器100を装着したユーザに対して、それぞれ所定の位置に配置される。
また、左右の筐体110L、110Rのそれぞれには、補聴した音を出力するスピーカ130L、130Rが設置されている。左右のスピーカ130L、130Rには、それぞれ内耳に嵌めるためのイヤーチップ140L、140Rが、チューブを介して接続されている。
また、補聴器100は、補聴器マイクロホンアレイ120およびスピーカ130L、130Rと有線で接続された、リモートコントロール(以下「リモコン」という)装置150を有する。
リモコン装置150には、CPU160およびメモリ170が内蔵されている。CPU160は、マイクロホンアレイ120にて収音された音声を入力し、メモリ170に予め格納された制御プログラムを実行する。これにより、CPU160は、マイクロホンアレイ120から入力された4チャンネルの音響信号に対し、指向性制御処理および補聴処理を行う。
指向性制御処理は、会話相手の発話音声をユーザが聞き易くなるように、マイクロホンアレイ120からの4チャンネルの音響信号の指向方向を制御する処理である。補聴処理は、会話相手の発話音声をユーザが聞き易くなるように、ユーザの聴力が低下した周波数帯域のゲインを増幅し、スピーカ130L、130Rから出力させる処理である。
このような補聴器100を装着することにより、ユーザは、会話相手の発話音声が聞き易くなった音声を、イヤーチップ140L、140Rから聞くことができる。
図2は、補聴器100が使用される環境の例を示す図である。
図2Aおよび図2Bに示すように、両耳型の補聴器100を装着したユーザ200は、例えば、レストラン等の賑やかな環境において、友人等の話者300と会話をする。図2Aは、ユーザ200が前方に位置する話者300Fと2人だけで会話しているケースである。また、図2Bは、ユーザ200が前方に位置する話者300Fおよび左方に位置する話者300Lと3人で会話しているケースである。
図2Aのケースでは、補聴器100は、左方や右方に位置する他人の発話音声をできるだけ除外し、前方の話者300Fの発話音声を聞き取り易くするために、前方の狭い範囲に指向性を向けるべきである。
一方、図2Bのケースでは、補聴器100は、前方の話者300Fだけでなく左方の話者300Lの発話音声を聞き取り易くするために、前方と左方とを含む広い範囲に指向性を向けるべきである。
このような指向性制御が行われることにより、ユーザ200は、周りが騒がしい環境であっても、会話相手の声を明瞭に聞くことが可能となる。会話相手の方向に応じて指向性を制御するためには、その方向を指定する必要がある。この指定は、例えば、ユーザ200が手動で行うことが考えられる。
ところが、その操作は煩雑であり、特に高齢者や子供の場合、誤った操作が行われ、誤った方向に指向性が向けられて、逆に聞き取りにくくなるおそれがある。
このため、補聴器100のCPU160は、周囲の話者の中から自動でユーザ200の会話相手を抽出する会話相手抽出処理を行う。そして、補聴器100のCPU160は、抽出した会話相手の方向に、マイクロホンアレイ120による音声入力の指向性(以下「マイクロホンアレイ120の指向性」という)を向ける。
会話相手抽出処理は、会話相手が2人以上である場合でも会話相手の抽出を高精度に行う処理となっている。ここでは、会話相手抽出処理を実現する機能を、音声処理装置というものとする。
以下、音声処理装置の構成と、会話相手抽出処理の詳細について説明する。
図3は、音声処理装置の構成を示すブロック図である。
図3において、音声処理装置400は、AD変換部410、自発話検出部420、方向別音声検出部430、発話量和計算部440、会話成立度計算部450、長時間特徴量計算部460、会話相手判定部470、および出力音制御部480を有する。自発話検出部420および方向別音声検出部430は、合わせて、音声検出部435とする。
AD変換部410は、マイクロホンアレイ120において、マイクロホンごとに収音された4チャンネルの音響信号であるアナログ信号を、それぞれデジタル信号に変換する。そして、AD変換部410は、変換後の4チャンネルのデジタル音響信号を、自発話検出部420、方向別音声検出部430、および出力音制御部480へ出力する。
自発話検出部420は、A/D変換された4チャンネルのデジタル音響信号から低域の振動成分を強調し(つまり低域の振動成分を取り出し)、自発話パワー成分を求める。自発話検出部420は、A/D変換された4チャンネルのデジタル音響信号を用いて、細かい時間間隔ごとに発話音声の有無を判定する。そして、自発話検出部420は、フレームごとの自発話の有無を示す音声/非音声情報を、発話量和計算部440および会話成立度計算部450へ出力する。
ここで、自発話とは、補聴器100を装着したユーザ200の発話をいう。また、以下、発話音声の有無が判定される時間間隔を「フレーム」という。1フレームは、例えば10msec(ミリ秒)である。なお、自発話の有無の判定は、前後2チャンネルのデジタル音響信号を用いて行ってもよい。
本実施の形態では、例えば、ユーザ200から見て前方、左方、および右方の各位置を発話者が位置する可能性のある位置(以下「音源」という)として説明する。
方向別音声検出部430は、マイクロホンアレイ120からのA/D変換後の4つのデジタル音響信号から、前方、左方、右方の各方向の音声を抽出する。より具体的には、方向別音声検出部430は、4チャンネルのデジタル音響信号に対して公知の指向性制御技術を用いる。これにより、方向別音声検出部430は、ユーザ200の前方、左方、右方の方向別に指向性を形成し、これにより得られる音声を、前方、左方、右方の各方向の音声とする。そして、方向別音声検出部430は、抽出された各方向の音声のパワー情報から、細かい時間間隔で発話音声の有無を判定し、その判定結果に基づいて、各方向の他発話の有無をフレームごとに判定する。そして、方向別音声検出部430は、フレームごとおよび方向ごとの他発話の有無を示す音声/非音声情報を、発話量和計算部440および会話成立度計算部450へ出力する。
ここで、他発話とは、補聴器100を装着したユーザ200以外の者の発話(自発話以外の発話)をいう。
なお、自発話検出部420および方向別音声検出部430は、同一の時間間隔で発話音声の有無の判定を行うものとする。
発話量和計算部440は、自発話検出部420から入力される自発話の音声/非音声情報と、方向別音声検出部430から入力される音源ごとの他発話の音声/非音声情報とに基づいて、セグメントごとに発話量和を算出する。具体的には、発話量和計算部440は、4つの音源のうちの2つの組み合わせ(以下「ペア」という)の全てについて、その2音源のセグメント内の発話量の和を、セグメントごとの発話量和として検出する。そして、発話量和計算部440は、算出したペアごとおよびセグメントごとの発話量和を、会話成立度計算部450へ出力する。
ここで、発話量とは、ユーザが発話音声を発した時間長さの合計を表す。また、セグメントは、2人の話者の間で局所的に会話が成立するかどうかを表す会話成立度を求めるための固定長の時間窓である。したがって、その長さは2人の話者の間で局所的に会話が成立するとみなされる程度の長さにする必要がある。セグメントが長ければ長いほど、会話成立度の正解の精度は高くなるが、発言権を有するペアの交代への追従の精度は低くなる。また、セグメントが短ければ短いほど、会話成立度の正解の精度は低くなるが、発言権を有するペアの交代への追従の精度は高くなる。本実施の形態では、1セグメントは、例えば40秒とする。これは、予備実験により得られた、会話成立度は1分程度で飽和するとの知見と、会話の流れへの追従とを考慮して、決定される。
会話成立度計算部450は、発話量和計算部440から入力された発話量和と、自発話検出部420および方向別音声検出部430から入力された音声/非音声情報とに基づいて、ペアごとおよびセグメントごとに、会話成立度を算出する。そして、会話成立度計算部450は、入力された発話量和と算出した会話成立度とを、長時間特徴量計算部460へ出力する。
ここで、会話成立度とは、会話成立度と同様の指標値であり、一方が有音で他方が無音となっている区間の割合が高いほど高くなり、両方が有音または無音となっている区間の割合が高いほど低くなる値である。但し、本実施の形態では、発話量和が閾値未満となっているセグメントについては、いずれも聞き役となっているものとして、その会話成立度を後述の長時間特徴量の算出対象に含めないようにする点が、従来技術とは異なる。
長時間特徴量計算部460は、入力された発話量和および会話成立度に基づいて、ペアごとに、長時間特徴量を算出する。そして、長時間特徴量計算部460は、算出した長時間特徴量を、会話相手判定部470へ出力する。
長時間特徴量とは、判定対象時間における会話成立度の平均値である。なお、長時間特徴量は、会話成立度の平均値に限定されるものではなく、会話成立度の中央値あるいは最頻値など、他の統計量としてもよい。また、長時間特徴量は、時間的に最近の会話成立度ほど重みを大きくして求めた重み付け平均値や、会話成立度の時系列にある程度長時間の時間窓をかけて求めた移動平均値などとしてもよい。
会話相手判定部470は、入力された長時間特徴量に基づいて、複数の音源に位置する複数の話者(ユーザ200を含む)の中から、会話グループを抽出する。具体的には、会話相手判定部470は、長時間特徴量が似通っており、かつ、いずれも閾値以上となっている1つまたは複数のペアが存在するとき、その1つまたは複数のペアを構成する複数の話者を、1つの会話グループと判定する。本実施の形態では、会話相手判定部470は、ユーザ200の会話相手の位置する方向を抽出し、抽出した方向を示す情報を、指向性を向けるべき指向方向情報として、出力音制御部480へ出力する。
出力音制御部480は、入力された音響信号に対し、上述の補聴処理を行い、処理後の音響信号を、スピーカ130L、130Rへ出力する。また、出力音制御部480は、入力された指向方向情報が示す方向に指向性が向くように、マイクロホンアレイ120に対する指向性制御処理を行う。
このような音声処理装置400は、ペアごとの発話量和および会話成立度に基づいて、複数の話者の中から会話グループを抽出することができる。
ここで、発話量和、会話成立度、および長時間特徴量について説明する。
図4および図5は、会話成立度と会話グループとの関係を説明するための図である。図4および図5において、横軸は判定対象時間におけるセグメント(つまり時間)を示し、縦軸は各ペアを示す。また、灰色部分は、発話量和が閾値未満のセグメントを示す。白色部分は、発話量和が閾値以上であり会話成立度が閾値未満であるセグメントを示す。そして、黒色部分は、発話量和が閾値以上であり会話成立度が閾値以上であるセグメントを示す。
まず、ユーザと左方に位置する話者とが2人で会話しており、前方に位置する話者と右方に位置する話者とが2人で会話している場合を想定する。この場合、図4に示すように、ユーザ200と左方の話者とのペア(上から2行目)と、前方の話者と右方の話者とのペア(上から5行目)では、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは多くなる。ところが、他のペアでは、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは少なくなる。
次に、ユーザ200と左方、前方、右方に位置する3人の話者とで会話している場合を想定する。3人以上の会話では、1人が発話した後に別の1人が発話するとき、残りの話者は聞き役となる。すなわち、話者は、短い時間においては、発話権を有する2人と、その他の聞き役とに分けることができる。そして、長い時間においては、発話権を有する2人の組み合わせが交代していきながら、会話が進行することになる。
すなわち、3人以上の会話グループでは、発話権を有する2人の間で局所的に会話成立度が高くなるといえる。この結果、図5に示すように、発話量和が閾値以下のセグメントと、発話量和が閾値以上かつ会話成立度が閾値以上であるセグメントは、全てのペアにおいてそれぞれまんべんなく存在することになる。
そこで、音声処理装置400は、発話量和が閾値以上のセグメントのみから長時間特徴量を算出し、長時間特徴量がまんべんなく高くなっている話者のグループを、会話グループと判定する。
したがって、音声処理装置400は、図4の場合、左方に位置する話者のみをユーザ200の会話相手と判定し、マイクロホンアレイ120の指向性を左方に狭める。また、音声処理装置400は、図5の場合、左方、前方、右方に位置する3人の話者をユーザ200の会話相手と判定し、マイクロホンアレイ120の指向性を左方から右方までの広い範囲に広げる。
図6は、音声処理装置400の動作を示すフローチャートである。
まず、ステップS1100において、AD変換部410は、マイクロホンアレイ120から入力された1フレーム分の4チャネルの音響信号をそれぞれA/D変換する。
そして、ステップS1200において、自発話検出部420は、4チャンネルのデジタル音響信号を用いて、現在のフレームについて、自発話音声の有無を判定する。この判定は、デジタル音響信号の低域成分を強調することにより得られる自発話パワー成分に基づいて行われる。つまり、自発話検出部420は、自発話の有無を示す音声/非音声情報を出力する。
なお、音声処理装置400は、処理開始時に、会話が行われているかどうかを判定することが望ましい。そして、音声処理装置400は、会話が行われている場合、ユーザ200の後方からの音声を抑制するように、マイクロホンアレイ120の指向性を制御することが望ましい。会話が行われているかどうかの判定は、例えば、自発話パワー成分に基づいて行うことができる。また、音声処理装置400は、後方からの音声が発話音声であるか判断し、発話音声が到来する方向のみを抑制の対象としてもよい。また、音声処理装置400は、周囲が静かな環境では、これらの制御を行わないようにしてもよい。
そして、ステップS1300において、方向別音声検出部430は、A/D変換された4チャンネルのデジタル音響信号を用いて、現在のフレームについて、前方、左方、右方の各方向の他発話音声の有無をそれぞれ判定する。この判定は、方向別に指向性を形成し、方向ごとの音声帯域(例えば200Hz〜4000Hz)のパワー情報に基づいて行われる。つまり、方向別音声検出部430は、方向ごとである音源ごとの他発話の有無を示す音声/非音声情報を出力する。
なお、方向別音声検出部430は、自発話による影響を軽減するために、方向別パワーの対数値から自発話パワーの対数値を差し引いた値に基づいて、他発話音声の有無を判定してもよい。また、方向別音声検出部430は、左方および右方からの他発話音声について、自発話音声や前方からの他発話音声との分離度を上げるために、左右のパワー差を利用してもよい。また、方向別音声検出部430は、パワーに対して時間方向に平滑化を行ってもよい。また、方向別音声検出部430は、短時間の音声区間を非音声区間として扱ったり、音声が長時間継続している間に短時間の非音声区間が含まれている場合、その非音声区間を音声区間として扱ってもよい。これらの後処理を行うことにより、最終的なフレームごとの有音無音の検出精度を向上させることができる。
そして、ステップS1400において、発話量和計算部440は、所定の条件が満たされているか否かを判断する。この所定の条件は、音響信号の入力開始から1セグメント(40秒)分の時間が経過し、かつ、後述の会話相手判定を前回行ってから1シフト間隔(例えば10秒)分の時間経過したことである。発話量和計算部440は、1セグメント分の処理がまだ終了していない場合(S1400:NO)、ステップS1100へ戻る。この結果、次の1フレーム分に対する処理が行われる。また、発話量和計算部440は、最初の1セグメント分の処理が終了した場合(S1400:YES)、ステップS1500へ進む。
すなわち、音声処理装置400は、1セグメント(40秒)分の音響信号が用意されると、その後、1シフト間隔(10秒)ごとに1セグメントの局所的時間窓をシフトさせながら、以降のステップS1500〜S2400の処理を繰り返す。なお、シフト間隔は、時間長さではなく、フレーム数またはセグメント数で定義されてもよい。
なお、音声処理装置400は、計算処理のための変数として、フレームカウンターtと、セグメントカウンターpと、音源のペアごとの発話量和の多いセグメントの数を表す多発話セグメントカウンターgi,jとを用いる。
音声処理装置400は、判定対象時間の開始時にt=0、p=0、gi,j=0とする。そして、音声処理装置400は、処理がステップS1100へ進むごとに、フレームカウンターを1進め、処理がステップS1400からステップS1500へと進むごとに、セグメントカウンターpを1進める。すなわち、フレームカウンターtは、処理開始からのフレームの数を示し、セグメントカウンターpは、処理開始からのセグメントの数を示す。また、音声処理装置400は、処理が後述のステップS1800へ進むごとに、該当するペアの多発話セグメントカウンターgi,jを1進める。すなわち、多発話セグメントカウンターgi,jは、ペアごとの、後述の発話量和Hi,j(p)が所定の閾値θ以上となっているセグメントの数を示す。
また、以下の説明において、現在のセグメントは、「Seg(p)」と表す。また、ユーザ200自身を含む4つの音源を示す記号は、「S」を用い、音源を識別する記号は、「i」,「j」を用いる。
ステップS1500において、発話量和計算部440は、複数の音源の中からペアSi,jを1つ選択する。以降のステップS1600〜S1900の処理は、ユーザ200自身を含む4つの音源の組み合わせの全てに対して行われることになる。4つの音源は、自発話の音源、他発話のうち前方の音源、他発話のうち左方の音源、他発話のうち右方の音源とする。そして、自発話の音源はSとし、前方の音源はSとし、左方の音源はSとし、右方の音源はSとする。この場合は、S0,1、S0,2、S0,3、S1,2、S1,3、S2,3の6通りの組み合わせについて、処理が行われることになる。
そして、ステップS1600において、発話量和計算部440は、音源Si,jのペア(i,j)に対して、過去1セグメント分の音源別の音声/非音声情報を用いて、現在のセグメントSeg(p)の発話量和Hi,j(p)を算出する。発話量和Hi,j(p)は、音源Sの発話音声が有ると判定されたフレームの数と、音源Sの発話音声が有ると判定されたフレームの数との和である。
そして、ステップS1700において、会話成立度計算部450は、算出された発話量和Hi,j(p)が所定の閾値θ以上であるか否か判断する。会話成立度計算部450は、発話量和Hi,j(p)が所定の閾値θ以上である場合(S1700:YES)、ステップS1800へ進む。また、会話成立度計算部450は、発話量和Hi,j(p)が所定の閾値θ未満である場合(S1700:NO)、ステップS1900へ進む。
ステップS1800において、会話成立度計算部450は、ペアSi,jの両方ともが発言権を有していたものとして、その音声/非音声情報から、現在のセグメントSeg(p)の会話成立度Ci,j(p)を算出する。そして、会話成立度計算部450は、ステップS2000へ進む。
会話成立度Ci,j(p)は、例えば以下のようにして算出される。過去40秒分のフレームから成る現在のセグメントSeg(p)に対応するフレームは、1フレーム=10msecのとき、直前の4000フレームとなる。このため、会話成立度計算部450は、セグメント内のフレームをk(k=1,2,3,…,4000)とすると、例えば以下の式(1)を用いて、会話成立度Ci,j(p)を算出する。
但し、Sが発話音声有り、かつ、Sが発話音声有りのとき、
i,j(k)=−1
が発話音声有り、かつ、Sが発話音声無しのとき、
i,j(k)=1
が発話音声無し、かつ、Sが発話音声有りのとき、
i,j(k)=1
が発話音声無し、かつ、Sが発話音声無しのとき、
i,j(k)=−1
なお、会話成立度計算部450は、ペア(i,j)ごとに異なる重み付けを、加点減点の値であるVi,j(k)に対して行ってもよい。この場合、会話成立度計算部450は、例えば、ユーザ200と前方の話者とのペアに対してより高い重み付けを行う。
また、ステップS1900において、会話成立度計算部450は、ペア(i,j)の少なくとも一方が発言権を有していないものとして、現在のセグメントSeg(p)の会話成立度Ci,j(p)を0に決定する。そして、会話成立度計算部450は、ステップS2000へ進む。
すなわち、会話成立度計算部450は、現在のセグメントSeg(p)の会話成立度が実質的に評価に用いられないようにする。これは、少なくとも一方が聞き役となっているようなセグメントの会話成立度を評価に用いないことが、3人以上の会話の抽出においては重要だからである。なお、会話成立度計算部450は、ステップS1900において、単に、会話成立度Ci,j(p)の決定を行わないようにしてもよい。
そして、ステップS2000において、会話成立度計算部450は、全てのペアについて会話成立度Ci,j(p)算出の処理が終了したか否かを判断する。会話成立度計算部450は、全てのペアの処理が終了していない場合(S2000:NO)、ステップS1500へ戻り、未処理のペアを選択して処理を繰り返す。また、会話成立度計算部450は、全てのペアの処理が終了した場合(S2000:YES)、ステップS2100へ進む。
ステップS2100において、長時間特徴量計算部460は、ペアごとに、判定対象時間における会話成立度Ci,j(p)の長時間における平均である長時間特徴量Li,j(p)を、例えば以下の式(2)を用いて算出する。ここで、パラメータqは、判定対象時間の累積のセグメント数であり、現在のセグメントSeg(p)のセグメントカウンターpの値である。また、多発話セグメントカウンターgi,jの値は、上述の通り、発話量和Hi,j(p)が所定の閾値θ以上となっているセグメントの数を示す。
なお、音声処理装置400は、連続する所定数のフレームにおいて全ての音源に対して発話音声が無いと判定した場合、セグメントカウンターpおよび多発話セグメントカウンターgi,jを初期化してもよい。すなわち、音声処理装置400は、会話が行われていない状態が一定時間継続した時点で、初期化する。この場合、判定対象時間は、最後に会話が開始された時刻から現在時刻までの時刻までとなる。
そして、ステップS2200において、会話相手判定部470は、ユーザ200の会話相手を判定する会話相手判定処理を実行する。会話相手判定処理の詳細については後述する。
そして、ステップS2300において、出力音制御部480は、会話相手判定部470から入力される指向方向情報に基づき、イヤーチップ140L、140Rからの出力音を制御する。すなわち、出力音制御部480は、判定されたユーザ200の会話相手の方向にマイクロホンアレイ120の指向性を向ける。
図7は、マイクロホンアレイ120の指向性のパターンの例を示す図である。
まず、指向方向情報が左方、前方、右方を示す場合、または指向方向情報が左方および右方を示す場合を想定する。この場合、出力音制御部480は、図7Aに示すように、前方に広指向性を有するように、マイクロホンアレイ120を制御する。同様に、出力音制御部480は、会話開始時や、会話相手を判定できなかった場合も、前方に広指向性を有するように、マイクロホンアレイ120を制御する。
また、指向方向情報が左方と前方とを示す場合を想定する。この場合、出力音制御部480は、図7Bに示すように、左斜め前方にやや広めの指向性を有するように、マイクロホンアレイ120を制御する。
また、指向方向情報が前方と右方とを示す場合を想定する。この場合、出力音制御部480は、図7Cに示すように、右斜め前方にやや広めの指向性を有するように、マイクロホンアレイ120を制御する。
また、指向方向情報が前方のみを示す場合を想定する。この場合、出力音制御部480は、図7Dに示すように、前方に狭指向性を有するように、マイクロホンアレイ120を制御する。
また、指向方向情報が左方のみを示す場合を想定する。この場合、出力音制御部480は、図7Eに示すように、左方に狭指向性を有するように、マイクロホンアレイ120を制御する。
また、指向方向情報が右方のみを示す場合を想定する。この場合、出力音制御部480は、図7Fに示すように、右方に狭指向性を有するように、マイクロホンアレイ120を制御する。
そして、図6のステップS2400において、音声処理装置400は、ユーザ操作等により処理の終了を指示されたか否かを判定する。音声処理装置400は、処理の終了を指示されていない場合(S2400:NO)、ステップS1100へ戻って、次のセグメントの処理に移る。また、音声処理装置400は、処理の終了を指示された場合(S2400:YES)、一連の処理を終了する。
なお、音声処理装置400は、会話が行われているかどうかを逐次判定し、会話が終了した場合、マイクロホンアレイ120の指向性を徐々に解除してもよい。この判定は、例えば、自発話パワー成分に基づいて行うことができる。
図8は、会話相手判定処理(図6のステップS2200)を示すフローチャートである。
まず、ステップS2201において、会話相手判定部470は、全てのペアの長時間特徴量Li,j(p)がまんべんなく高いか否かを判断する。具体的には、全てのペアの長時間特徴量Li,j(p)の最大値および最小値をそれぞれMAX、MINとすると、会話相手判定部470は、所定の閾値α、βについて、以下の式(3)が満たされるか否かを判断する。
MAX−MIN < α かつ MIN ≧ β ・・・・・・(3)
会話相手判定部470は、全てのペアの値がまんべんなく高い場合(S2201:YES)、ステップS2202へ進む。また、会話相手判定部470は、全てのペアの値がまんべんなく高くなっていない場合(S2201:NO)、ステップS2203へ進む。
ステップS2202において、会話相手判定部470は、4人(ユーザ200、左方の話者、前方の話者、および右方の話者)で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、左方の話者、前方の話者、および右方の話者を、ユーザ200の会話相手と判定し、左方、前方、および右方を示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、前方に広指向性を有するように制御される(図7A参照)。
ステップ2203において、会話相手判定部470は、ユーザ200と他の各話者とから成る3つのペアのうち、特定の話者とのペアの長時間特徴量Li,j(p)が突出して高くなっているか否かを判断する。具体的には、会話相手判定部470は、所定の閾値γについて、以下の式(4)が満たされるか否かを判断する。ここで、SMAX1は、ユーザ200を含むペアの全ての長時間特徴量Li,j(p)うちの最大値であり、SMAX2は、次に大きい値である。
SMAX1−SMAX2 ≧ γ ・・・・・・(4)
会話相手判定部470は、特定の話者とのペアの値が突出して高くなっている場合(S2203:YES)、ステップS2204へ進む。また、会話相手判定部470は、特定の話者とのペアの値が突出して高くなっていない場合(S2203:NO)、ステップS2205へ進む。
ステップS2204において、会話相手判定部470は、長時間特徴量Li,j(p)が突出して高くなっている相手が前方の話者であるか否かを判断する。すなわち、会話相手判定部470は、SMAX1が、ユーザ200と前方の話者とのペアの長時間特徴量L0,1(p)であるか否かを判断する。会話相手判定部470は、前方の話者との長時間特徴量L0,1(p)が突出して高い場合(S2204:YES)、ステップS2206へ進む。また、会話相手判定部470は、前方の話者との長時間特徴量L0,1(p)が突出して高くない場合(S2204:NO)、ステップS2207へ進む。
ステップS2206において、会話相手判定部470は、ユーザ200と前方の話者との2人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、前方の話者をユーザ200の会話相手と判定し、前方を示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、前方に狭指向性を有するように制御される(図7D参照)。
ステップS2207において、会話相手判定部470は、長時間特徴量Li,j(p)が突出して高くなっている相手が左方の話者であるか否かを判断する。すなわち、会話相手判定部470は、SMAX1が、ユーザ200と左方の話者とのペアの長時間特徴量L0,2(p)であるか否かを判断する。会話相手判定部470は、左方の話者との長時間特徴量L0,2(p)が突出して高い場合(S2207:YES)、ステップS2208へ進む。また、会話相手判定部470は、左方の話者との長時間特徴量L0,2(p)が突出して高くない場合(S2207:NO)、ステップS2209へ進む。
ステップS2208において、会話相手判定部470は、ユーザ200と左方の話者との2人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、左方の話者をユーザ200の会話相手と判定し、左方を示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、左方に狭指向性を有するように制御される(図7E参照)。
ステップS2209において、会話相手判定部470は、ユーザ200と右方の話者との2人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、右方の話者をユーザ200の会話相手と判定し、右方を示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、右方に狭指向性を有するように制御される(図7F参照)。
ステップS2205へ処理が進んだ場合、全員参加の会話でも2人会話でもない。すなわち、前方、左方、右方の話者のいずれか一人は、ユーザ200とは無関係な話者である可能性が高い。
そこで、まず、ステップS2205において、会話相手判定部470は、ユーザ200と前方の話者とのペアの長時間特徴量L0,1(p)が、所定の閾値η以上となっているか否かを判断する。会話相手判定部470は、長時間特徴量L0,1(p)が閾値η未満である場合(S2205:YES)、ステップS2210へ進む。また、会話相手判定部470は、長時間特徴量L0,1(p)が閾値η以上である場合(S2205:NO)、ステップS2211へ進む。
ステップS2210において、会話相手判定部470は、ユーザ200と、左方の話者と、右方との3人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、左方の話者および右方の話者をユーザ200の会話相手と判定する。そして、会話相手判定部470は、左方と右方とを示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、前方に広指向性を有するように制御される(図7A参照)。
ステップS2211において、会話相手判定部470は、ユーザ200と左方の話者とのペアの長時間特徴量L0,2(p)が、所定の閾値η以上となっているか否かを判断する。会話相手判定部470は、長時間特徴量L0,2(p)が閾値η未満である場合(S2211:YES)、ステップS2212へ進む。また、会話相手判定部470は、長時間特徴量L0,2(p)が閾値η以上である場合(S2211:NO)、ステップS2213へ進む。
ステップS2212において、会話相手判定部470は、ユーザ200と、前方の話者と、右方との3人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、前方の話者および右方の話者をユーザ200の会話相手と判定する。そして、会話相手判定部470は、前方と右方とを示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、右前方にやや広めの指向性を有するように制御される(図7C参照)。
ステップS2213において、会話相手判定部470は、ユーザ200と右方の話者とのペアの長時間特徴量L0,3(p)が、所定の閾値η以上となっているか否かを判断する。会話相手判定部470は、長時間特徴量L0,3(p)が閾値η未満である場合(S2213:YES)、ステップS2214へ進む。また、会話相手判定部470は、長時間特徴量L0,3(p)が閾値η以上である場合(S2213:NO)、ステップS2215へ進む。
ステップS2214において、会話相手判定部470は、ユーザ200と、前方の話者と、左方との3人で会話を行っていると判定し、図6の処理へ戻る。すなわち、会話相手判定部470は、前方の話者および左方の話者をユーザ200の会話相手と判定し、前方と左方とを示す指向方向情報を、出力音制御部480へ出力する。この結果、マイクロホンアレイ120は、左前方にやや広めの指向性を有するように制御される(図7B参照)。
ステップS2215において、会話相手判定部470は、ユーザ200の会話相手を判定不能として、指向方向情報を出力せずに、図6の処理へ戻る。この結果、出力音の指向性は、デフォルトの状態または最後の判定結果に応じた状態が維持されることになる。
上述の通り、全ての話者が同じ会話に参加している場合、全てのペアの長時間特徴量Li,j(p)は、まんべんなく高くなる。また、2人会話の場合、ユーザ200と会話相手とペアの長時間特徴量L0,j(p)のみが突出して高くなり、ユーザ200と残りの音源とのペアの長時間特徴量L0,j(p)は低くなる。
したがって、以上説明した動作により、音声処理装置400は、ユーザ200の会話相手を精度良く判定し、ユーザ200が属する会話グループを高精度に抽出することができる。
また、音声処理装置400を含む補聴器100は、ユーザ200の会話相手を精度良く判定することができるので、ユーザ200が会話相手の音声を聴き取り易くなるように、出力音を制御することができる。また、補聴器100は、途中で会話グループが変化する場合でも、その変化に追従して指向性を制御することができる。途中で会話グループが変化する場合とは、例えば、2人会話の途中で参加者が増えて3人、4人になったり、4人の会話から参加者が減って3人、2人の会話になる場合である。
なお、マイクロホンアレイ120の指向性を急激に切り替えると、ユーザ200に大きな違和感を与えてしまう可能性がある。したがって、出力音制御部480は、ある程度の時間を掛けて、徐々に指向性を変化させるようにしてもよい。また、会話相手の人数を判定するには、後述の通り、ある程度時間が掛かる。したがって、補聴器100は、会話開始から一定時間が経過してから、指向性の制御を行うようにしてもよい。
また、マイクロホンアレイ120に指向性が形成された場合、指向方向以外の発話音声が聞き取り辛くなる。例えば、3人会話が行われているときに2人会話であると誤判定されると、一人の話者の発話が聞こえなくなってしまうという問題が生じる。3人会話を2人会話と誤判定するよりも、2人会話を3人会話と誤判定する方が、ユーザ200にとって会話をする上での弊害が少ないといえる。したがって、閾値α、β、γは、実際よりも少ない人数に判定することを防ぐことができる値に設定されることが望ましい。すなわち、γおよびαは高めに設定し、βは低めに設定すればよい。
以下、本発明の効果について、実験結果を参照して説明する。
実験は、2人から成る会話グループと、3人から成る会話グループとをそれぞれ5組ずつ用意し、各会話グループから収録した10分間の会話の音声データに対して行った。会話内容は、日常会話(雑談)である。発話区間を定義する発話開始時刻および発話終了時刻については、予め、試聴によりラベル付けを行った。また、実験は、簡単のため、2人会話であるか3人会話であるかの判定についての精度を測定するものとした。
本実験に係る音声処理方法は、2人から成る会話グループに対しては、話者のうちの1人をユーザ200とし、1人を前方の話者とした。そして、本実験では、別の会話グループを形成する2人の話者を更に用意し、そのうちの一人を、ユーザ200の左方の話者とした。
また、本実験では、3人から成る会話グループに対して、話者のうちの1人をユーザ200とし、1人を前話者とし、残りの1人の話者を左話者とした。
本発明に係る音声処理方法(以下「本発明」という)は、発話量を考慮したセグメントごとの会話成立度に基づくものであり、10秒ごとに会話相手判定を行った。
図9は、実験のために簡略化した会話相手判定処理を示すフローチャートであり、図8に対応するものである。図8と同一部分には同一ステップ番号を付し、これについての説明を省略する。
図9に示すように、実験においては、本発明は、会話相手判定部470は、全てのペアの長時間特徴量Li,j(p)がまんべんなく高い場合、3人全員での会話であると判定するようにした。また、本発明は、3人会話ではない場合、左方、前方のいずれかの方向の話者との2人会話であると判定するようにした。更に、音声処理装置400は、どの話者との2人会話であるかが判定されない場合、高指向性とするために、3人全員での会話であると判定するようにした。
また、実験において、閾値α、βは、それぞれα=0.09、β=0.54とした。また、抽出精度の指標値は、会話相手を正しく検出する割合と非会話相手を正しく棄却する割合との平均値である会話相手検出率を定義した。
本発明に対しては、2人会話の場合においては前方の話者との2人会話であると判定されたときに正解とし、3人会話の場合においては3人会話であると判定されたときに正解とした。
一方、比較のために採用した従来技術に係る音声処理方法(以下「従来法」という)は、特許文献1の実施の形態に開示されている方法を拡張したものであり、具体的には、以下のような方法とした。
従来法は、会話開始からの会話成立度をフレームごとに求め、10秒ごとに、会話相手との会話成立度が閾値Thを超えていたときに正解と判定し、非会話相手との会話成立度が閾値Thを下回っていたときに正解と判定するようにした。なお、従来法は、時定数を用いて会話成立度を更新し、フレームtにおける会話成立度Ci,j(t)を、以下の式(5)を用いて算出するようにした。
i,j(t) = ε・Ci,j(t−1)+
(1−ε)[Ri,j(t)+Ti,j(t)+
(1−Di,j(t))+(1−Si,j(t)) ]
・・・・・・(5)
但し、Sが発話音声有りのとき、V(t)=i
が発話音声無しのとき、V(t)=0
i,j(t) = α・Di,j(t−1)+
(1−α)Vi(t)・Vj(t)
i,j(t) = β・Ri,j(t−1)+
(1−β)(1−Vi(t))Vj(t)
i,j(t) = γ・Ti,j(t−1)+
(1−γ)Vi(t)・(1−Vj(t))
i,j(t) = Δ・Si,j(t−1)+
(1−δ)(1−Vi(t))(1−Vj(t))
α = β = γ = 0.99999
δ = 0.999995
ε = 0.999
図10は、従来法による会話相手正解率と本発明による会話相手正解率との比較を示すプロット図である。図10において、横軸は会話開始からの時間を示し、縦軸は会話開始時から現在時刻までの会話相手判定正解率の累積平均値を示す。白丸印(○)は、2人会話に対する従来法の実験値を示し、白三角印(△)は、3人会話に対する従来法の実験値を示す。黒丸印(●)は、2人会話に対する本発明の実験値を示し、黒三角印(▲)は、3人会話に対する本発明の実験値を示す。
図10から分かるように、従来法に比べて、本発明の会話相手検出正解率は大幅に向上している。特に、本発明は、3人会話において、従来法に比べて非常に早い段階において、会話相手を精度良く検出している。このように、本発明は、3人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる。
なお、従来法では、時間的により新しい情報により高い重み付けを行うために時定数を用いている。ところが、3人以上の会話において1対1の会話関係が成り立つのは、通常、2〜3発話程度の比較的短い期間である。したがって、従来法では、ある時点での会話成立を検出するためには、時定数を小さくする必要がある。ところが、そのような短い期間では、発話を行っていない聞き役の話者を含むペアの会話成立度は低くなるため、2人会話であるか3人会話であるかの区別は困難となるだけでなく、会話相手の判定精度は低くなる。
以上のように、本実施の形態に係る補聴器100は、各ペアの局所的な会話成立度を時間的にシフトさせながら求め、発話量和が高いセグメントの会話成立度を長時間観測することにより、ユーザ200の会話相手を判定する。これにより、本実施の形態に係る補聴器100は、ユーザ200が2人会話を行っている場合のみならず、3人会話を行っている場合でも、その会話が成立していることを正しく判定することができる。すなわち、本実施の形態に係る補聴器100は、3人以上から成る会話グループであっても、高い精度で抽出することができる。
また、補聴器100は、会話グループを高い精度で抽出することができるので、マイクロホンアレイ120の指向性を適切に制御し、ユーザ200に会話相手の発話を聴き取り易くすることができる。また、補聴器100は、会話グループに対して高い追従性を有するので、会話相手の発話を聴き取り易い状態を、会話開始の早い段階で確保し、また、それを維持することができる。
なお、音源分離のための指向性の方向は、上述の、前方、左方、右方の3方向の組み合わせに制限されない。例えば、補聴器100は、マイクロホンの個数を増やす等して指向性の角度を狭められる場合、更に多数の方向につい指向性を制御し、4人よりも多くの話者を対象として会話相手の判定を行うようにしてもよい。
また、補聴器100の筐体110L、110Rとリモコン装置150とは、有線ではなく、無線により通信可能に接続されていてもよい。また、補聴器100は、筐体110L、110RにDSP(digital signal processor)を備え、制御処理の一部または全てを、リモコン装置150においてではなくこのDSPにおいて実行するようにしてもよい。
また、補聴器100は、発話の検出を、方向別に音を分離することによってではなく、独立成分分析(ICA)等の他の音源分離方法を用いて行うようにしてもよい。また、補聴器100は、発話者ごとに個別マイクを配置して、各発話者から発話音声を入力してもよい。
また、補聴器100は、いわゆるウェアラブルマイクではなく、卓上に置かれたマイクロホンアレイを用いて、音源分離を行ってもよい。この場合、ユーザ200の方向を予め設定しておくことにより、自発話検出の処理が不要となる。
また、補聴器100は、自発話と他発話とを音響信号における音響的な特徴の違いから識別してもよい。この場合、同じ方向に複数の話者がいる場合にも、話者ごとに音源を分離することが可能となる。
なお、以上説明した実施の形態では、本発明を補聴器に適用した例について説明したが、本発明の適用はこれに制限されない。例えば、本発明は、音声レコーダ、デジタルスチルカメラ、デジタルビデオカメラ、電話会議システム等、複数の話者の発話音声を入力する各種装置やアプリケーションソフトウェアに適用することができる。会話グループの抽出結果は、出力音の制御以外の各種用途に供することができる。
例えば、本発明を電話会議システムに適用した場合、発言者の音声を明瞭に出力および記録するためにマイクロホンの指向性を制御したり、参加者の人数の検出とその記録を行ったりすることができる。例えば、2拠点間で行われる電話会議において、一方の拠点の入力音声に妨害音がある場合に、他方の拠点の発話者に対する会話相手の発話音声を特定し、これを抽出することにより、スムーズに会議を行うことが可能となる。また、両拠点において妨害音がある場合、例えば、マイクロホンに入力される発話音声のうち最も音量の高い発話音声を検出し、その会話相手を特定することにより、同様の効果を得ることができる。
また、本発明を音声レコーダ等のデジタル記録機器に適用した場合、他人の会話等の、会話相手の発話音声に対する妨害音が抑制されるようにマイクロホンアレイを制御することができる。
また、いずれの用途においても、全ての方向からの音声を方向ごとに記録しておき、後から会話成立度が高くなる組み合わせの音声データを抽出し、所望の会話を再生してもよい。
2010年9月28日出願の特願2010−217192の日本出願に含まれる明細書、図面および要約書の開示内容は、すべて本願に援用される。
本発明は、3人以上から成る会話グループが存在する場合でも、複数の話者の中から高い精度で会話グループを抽出することができる音声処理装置および音声処理方法として有用である。
100 補聴器
110L、110R 筐体
120 マイクロホンアレイ
130L、130R スピーカ
140L、140R イヤーチップ
150 リモコン装置
160 CPU
170 メモリ
400 音声処理装置
410 AD変換部
420 自発話検出部
430 方向別音声検出部
435 音声検出部
440 発話量和計算部
450 会話成立度計算部
460 長時間特徴量計算部
470 会話相手判定部
480 出力音制御部

Claims (10)

  1. 音響信号から複数の話者の発話音声を個別に検出する音声検出部と、
    検出された前記発話音声に基づいて、前記複数の話者のうちの2人の組み合わせの全てについて、判定対象時間を区切ったセグメント毎に会話成立度を算出する会話成立度計算部と、
    前記組み合わせ毎に、前記判定対象時間における前記会話成立度の長時間特徴量を算出する長時間特徴量計算部と、
    算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出する会話相手判定部と、を有する、
    音声処理装置。
  2. 前記会話成立度は、2人の前記話者のうち一方が発話し他方が発話していない時間の割合の高さを示す値である、
    請求項1記載の音声処理装置。
  3. 前記組み合わせの全てについて、前記セグメント毎に、前記話者の発話量の和である発話量和を算出する発話量和計算部、を更に有し、
    前記会話成立度計算部は、
    前記発話量和が所定の閾値未満となる前記セグメントの前記会話成立度を、前記長時間特徴量の算出に関して無効化する、
    請求項1記載の音声処理装置。
  4. 前記音響信号は、前記複数の話者の一人であるユーザの近傍に配置され可変の指向性を有する音声入力手段において入力された音声の音響信号であり、
    抽出された前記会話グループに前記ユーザが含まれるとき、当該会話グループの前記ユーザ以外の前記話者の方向に指向性が向くように、前記音声入力手段を制御する出力音制御部、を更に有する、
    請求項1記載の音声処理装置。
  5. 前記出力音制御部は、
    前記音響信号に対して所定の信号処理を行い、前記所定の信号処理が行われた前記音響信号を、前記ユーザが装着する補聴器のスピーカへ出力する、
    請求項4記載の音声処理装置。
  6. 前記音声検出部は、
    前記ユーザを基準とした所定の複数の方向毎に、その方向に位置する話者の発話音声を検出し、
    前記出力音制御部は、
    抽出された前記会話グループに属する前記ユーザ以外の話者が位置する方向に前記指向性が向くように、前記音声入力手段を制御する、
    請求項4記載の音声処理装置。
  7. 前記会話相手判定部は、前記組み合わせのうちの複数組において前記長時間特徴量がまんべんなく高いとき、当該複数組を構成する複数の前記話者を、同一の会話グループに属すると判定する、
    請求項1記載の音声処理装置。
  8. 前記会話相手判定部は、
    前記ユーザを含む前記組み合わせにおいて、最も高い前記長時間特徴量と次に高い前記長時間特徴量との差が所定の閾値以上であるとき、前記最も高い前記長時間特徴量に該当する前記ユーザ以外の話者を、前記ユーザの唯一の会話相手と判定する、
    請求項1記載の音声処理装置。
  9. 前記判定対象時間は、前記ユーザが参加する会話が最後に開始されてから現在までの時間である、
    請求項1記載の音声処理装置。
  10. 音響信号から複数の話者の発話音声を個別に検出するステップと、
    検出された前記発話音声に基づいて、前記複数の話者のうちの2人の組み合わせの全てについて、判定対象時間を区切ったセグメント毎に会話成立度を算出するステップと、
    前記組み合わせ毎に、前記判定対象時間における前記会話成立度の長時間特徴量を算出するステップと、
    算出された前記長時間特徴量に基づいて、前記複数の話者の中から、会話を形成する会話グループを抽出するステップと、を有する、
    音声処理方法。
JP2012536174A 2010-09-28 2011-09-14 音声処理装置および音声処理方法 Active JP5740575B2 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
JP2012536174A JP5740575B2 (ja) 2010-09-28 2011-09-14 音声処理装置および音声処理方法

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2010217192 2010-09-28
JP2010217192 2010-09-28
JP2012536174A JP5740575B2 (ja) 2010-09-28 2011-09-14 音声処理装置および音声処理方法
PCT/JP2011/005173 WO2012042768A1 (ja) 2010-09-28 2011-09-14 音声処理装置および音声処理方法

Publications (2)

Publication Number Publication Date
JPWO2012042768A1 true JPWO2012042768A1 (ja) 2014-02-03
JP5740575B2 JP5740575B2 (ja) 2015-06-24

Family

ID=45892263

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2012536174A Active JP5740575B2 (ja) 2010-09-28 2011-09-14 音声処理装置および音声処理方法

Country Status (5)

Country Link
US (1) US9064501B2 (ja)
EP (1) EP2624252B1 (ja)
JP (1) JP5740575B2 (ja)
CN (1) CN103155036B (ja)
WO (1) WO2012042768A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098798A (ja) * 2016-12-15 2018-06-21 シバントス ピーティーイー リミテッド 補聴器の作動方法

Families Citing this family (24)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US9746916B2 (en) 2012-05-11 2017-08-29 Qualcomm Incorporated Audio user interaction recognition and application interface
US9736604B2 (en) * 2012-05-11 2017-08-15 Qualcomm Incorporated Audio user interaction recognition and context refinement
KR102127640B1 (ko) 2013-03-28 2020-06-30 삼성전자주식회사 휴대 단말 및 보청기와 휴대 단말에서 음원의 위치를 제공하는 방법
US9814879B2 (en) * 2013-05-13 2017-11-14 Cochlear Limited Method and system for use of hearing prosthesis for linguistic evaluation
DE102013215131A1 (de) * 2013-08-01 2015-02-05 Siemens Medical Instruments Pte. Ltd. Verfahren zur Verfolgung einer Schallquelle
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US9508343B2 (en) 2014-05-27 2016-11-29 International Business Machines Corporation Voice focus enabled by predetermined triggers
US11126525B2 (en) * 2015-09-09 2021-09-21 Arris Enterprises Llc In-home legacy device onboarding and privacy enhanced monitoring
JP6641832B2 (ja) * 2015-09-24 2020-02-05 富士通株式会社 音声処理装置、音声処理方法および音声処理プログラム
US10397711B2 (en) * 2015-09-24 2019-08-27 Gn Hearing A/S Method of determining objective perceptual quantities of noisy speech signals
KR20170044386A (ko) * 2015-10-15 2017-04-25 삼성전자주식회사 전자기기 및 전자기기의 제어방법
FR3047628B1 (fr) * 2016-02-05 2018-05-25 Christophe Guedon Procede d'aide au suivi d'une conversation pour personne malentendante
FR3051093A1 (fr) * 2016-05-03 2017-11-10 Sebastien Thibaut Arthur Carriou Procede pour l'amelioration de la comprehension dans le bruit
US10403273B2 (en) * 2016-09-09 2019-09-03 Oath Inc. Method and system for facilitating a guided dialog between a user and a conversational agent
US9930447B1 (en) * 2016-11-09 2018-03-27 Bose Corporation Dual-use bilateral microphone array
NL2018617B1 (en) * 2017-03-30 2018-10-10 Axign B V Intra ear canal hearing aid
CN111801667B (zh) * 2017-11-17 2024-04-02 日产自动车株式会社 车辆用操作辅助装置和车辆用操作辅助方法
CN109859749A (zh) * 2017-11-30 2019-06-07 阿里巴巴集团控股有限公司 一种语音信号识别方法和装置
CN117319912A (zh) 2018-09-13 2023-12-29 科利耳有限公司 使用正常事物的听力性能和康复和/或复原增强
US11264035B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Audio signal processing for automatic transcription using ear-wearable device
US11264029B2 (en) 2019-01-05 2022-03-01 Starkey Laboratories, Inc. Local artificial intelligence assistant system with ear-wearable device
EP3793210A1 (en) 2019-09-11 2021-03-17 Oticon A/s A hearing device comprising a noise reduction system
DK3823306T3 (da) * 2019-11-15 2022-11-21 Sivantos Pte Ltd Høresystem, omfattende et høreapparat og fremgangsmåde til drift af høreapparatet
EP4057644A1 (en) * 2021-03-11 2022-09-14 Oticon A/s A hearing aid determining talkers of interest

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004133403A (ja) * 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2004527177A (ja) * 2001-04-18 2004-09-02 ヴェーデクス・アクティーセルスカプ 指向性コントローラおよび補聴器を制御する方法
JP2005157086A (ja) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd 音声認識装置
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法

Family Cites Families (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US7117149B1 (en) * 1999-08-30 2006-10-03 Harman Becker Automotive Systems-Wavemakers, Inc. Sound source classification
DE602004004824T2 (de) * 2003-02-28 2007-06-28 Palo Alto Research Center Inc., Palo Alto Automatische Behandlung von Konversationsgruppen
US7617094B2 (en) * 2003-02-28 2009-11-10 Palo Alto Research Center Incorporated Methods, apparatus, and products for identifying a conversation
CN101390380A (zh) * 2006-02-28 2009-03-18 松下电器产业株式会社 可佩戴式终端
EP2394270A1 (en) * 2009-02-03 2011-12-14 University Of Ottawa Method and system for a multi-microphone noise reduction

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004527177A (ja) * 2001-04-18 2004-09-02 ヴェーデクス・アクティーセルスカプ 指向性コントローラおよび補聴器を制御する方法
JP2004133403A (ja) * 2002-09-20 2004-04-30 Kobe Steel Ltd 音声信号処理装置
JP2005157086A (ja) * 2003-11-27 2005-06-16 Matsushita Electric Ind Co Ltd 音声認識装置
JP2005202035A (ja) * 2004-01-14 2005-07-28 Toshiba Corp 対話情報分析装置
JP2008242318A (ja) * 2007-03-28 2008-10-09 Toshiba Corp 対話を検出する装置、方法およびプログラム
WO2009104332A1 (ja) * 2008-02-19 2009-08-27 日本電気株式会社 発話分割システム、発話分割方法および発話分割プログラム
WO2011105003A1 (ja) * 2010-02-25 2011-09-01 パナソニック株式会社 信号処理装置及び信号処理方法

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018098798A (ja) * 2016-12-15 2018-06-21 シバントス ピーティーイー リミテッド 補聴器の作動方法
US10638239B2 (en) 2016-12-15 2020-04-28 Sivantos Pte. Ltd. Method of operating a hearing aid, and hearing aid

Also Published As

Publication number Publication date
CN103155036B (zh) 2015-01-14
US9064501B2 (en) 2015-06-23
EP2624252A1 (en) 2013-08-07
CN103155036A (zh) 2013-06-12
EP2624252B1 (en) 2015-03-18
WO2012042768A1 (ja) 2012-04-05
US20130144622A1 (en) 2013-06-06
EP2624252A4 (en) 2014-02-26
JP5740575B2 (ja) 2015-06-24

Similar Documents

Publication Publication Date Title
JP5740575B2 (ja) 音声処理装置および音声処理方法
JP5607627B2 (ja) 信号処理装置及び信号処理方法
US9084062B2 (en) Conversation detection apparatus, hearing aid, and conversation detection method
Mauger et al. Clinical evaluation of the Nucleus® 6 cochlear implant system: Performance improvements with SmartSound iQ
JP5740572B2 (ja) 補聴器、信号処理方法及びプログラム
US8374877B2 (en) Hearing aid and hearing-aid processing method
CN107547983B (zh) 用于提高目标声音的可分离性的方法和听力装置
US20110137649A1 (en) method for dynamic suppression of surrounding acoustic noise when listening to electrical inputs
CN108235181B (zh) 在音频处理装置中降噪的方法
Khing et al. The effect of automatic gain control structure and release time on cochlear implant speech intelligibility
DK2617127T3 (en) METHOD AND SYSTEM TO PROVIDE HEARING ASSISTANCE TO A USER / METHOD AND SYSTEM FOR PROVIDING HEARING ASSISTANCE TO A USER
JP2009178783A (ja) コミュニケーションロボット及びその制御方法
US20220295191A1 (en) Hearing aid determining talkers of interest
CN116896717A (zh) 包括自适应通知单元的助听器
JP2008102551A (ja) 音声信号の処理装置およびその処理方法
JP4079478B2 (ja) 音声信号の処理回路および処理方法
EP4408025A1 (en) Method of self-fitting of a binaural hearing system
WO2024038623A1 (ja) マスカ音生成装置、マスカ音生成方法、及び、プログラム

Legal Events

Date Code Title Description
A621 Written request for application examination

Free format text: JAPANESE INTERMEDIATE CODE: A621

Effective date: 20140516

A711 Notification of change in applicant

Free format text: JAPANESE INTERMEDIATE CODE: A711

Effective date: 20141008

RD02 Notification of acceptance of power of attorney

Free format text: JAPANESE INTERMEDIATE CODE: A7422

Effective date: 20141023

A131 Notification of reasons for refusal

Free format text: JAPANESE INTERMEDIATE CODE: A131

Effective date: 20141118

A521 Request for written amendment filed

Free format text: JAPANESE INTERMEDIATE CODE: A523

Effective date: 20141202

TRDD Decision of grant or rejection written
A01 Written decision to grant a patent or to grant a registration (utility model)

Free format text: JAPANESE INTERMEDIATE CODE: A01

Effective date: 20150203

A61 First payment of annual fees (during grant procedure)

Free format text: JAPANESE INTERMEDIATE CODE: A61

Effective date: 20150206

R151 Written notification of patent or utility model registration

Ref document number: 5740575

Country of ref document: JP

Free format text: JAPANESE INTERMEDIATE CODE: R151