WO2001039175A1

WO2001039175A1 - Procede et appareil de detection vocale

Info

Publication number: WO2001039175A1
Application number: PCT/JP1999/006539
Authority: WO
Inventors: Kaori Suzuki; Yasuji Ota
Original assignee: Fujitsu Limited
Priority date: 1999-11-24
Filing date: 1999-11-24
Publication date: 2001-05-31
Also published as: US20020138255A1; JP3878482B2; US6490554B2

Description

明細音声検出装置および音声検出方法技術分野

本発明は、音声信号を取り込み、その音声信号の有音区間と無音区間とを識別する音声検出装置と、その音声検出装置に適用された音声検出方法に関する。

背景技術

近年、ディジタル信号処理技術が高度に進展し、かつ移動通信システムその他の通信システムにおいては、これらのディジタル信号処理技術が適用されることによって、伝送情報である音声信号に実時間で多様な信号処理が施されている。

また、このような通信システムの送信端では、伝送帯域の圧縮や無線周波数の有効利用に併せて、消費電力の節減を目的として、上述した音声信号の無音区間と有音区間とを検出し、この有音区間に限って伝送路に対する送信を許容する音声検出装置が搭載されている。

図 1 2 は、音声検出装置が搭載された無線端末装置の構成例を示す図である。

図において、マイク 4 1 は音声検出装置 4 2 の入力と送受信部 4 3 の変調入力とに接続され、その送受信部 4 3 のアンテナ端子にはアンテナ 4 4の給電端が接続される。音声検出装置 4 2 の出力は送受信部 4 3 の送信制御入力に接続され、その送受信部 4 3 の制御用の入出力には制御部 4 5 の対応する入出力ポ一トが接続される。制御部 4 5 の特定の出力ポートは音声検出装置 4 2 の制御入力に接続され、かつ送受信部 4 3 の復調出力はレシーバ 4 6 の入力に接続される。このような構成の無線端末装置では、送受信部 4 3 はマイク 4 1 とレシーバ 4 6 とを介して送受されるべき伝送情報である音声信号と、アンテナ 4 4 を介してアクセスが可能な無線伝送路（図示されない。）との無線インタフェースをとる。

制御部 4 5 は、その送受信部 4 3 と連係することによって、この無線伝送路の形成に要するチャネル制御を主導的に行う。

音声検出装置 4 2 は、所定の周期で上述した音声信号をサンプリングすることによって音声フレームの列を生成する。さらに、音声検出装置 4 2 は、これらの個々の音声フレームについて、音声信号の性質に基づいて、有音区間と無音区間との何れに該当するかの識別を行い、その識別の結果を示す 2値信号を出力する。

なお、上述した性質とは、例えば、下記の事項である。

• 約 5 5 デシベルのダイナミックレンジを有する。

• 振幅分布が標準的な確率密度関数で近似され得る。

· エネルギーの密度と零交差回数とは、それそれ無音区間と有音区間とにおいて異なる値となる。

送受信部 4 3 は、その 2値信号の論理値が上述した無音区間を意味するする期間には、送信を見合わせる。

すなわち、音声信号に伝送情報として有効な情報が含まれていない期間には、送受信部 4 3 が無用に送信することが規制される。したがって、消費電力の節減にあわせて、他の無線チャネルに介する干渉の抑制と無線周波数の有効利用とが図られる。

しかし、このような従来例では、マイク 4 1 を介して与えられる音声信号に大きなレベルの雑音が重畳している期間には、有音区間と無音区間との間における特徴量（例えば、上述した零交差回数）の差が小さな値となる。

さらに、有音区間であっても子音区間には、一般に、音声信号の振幅は、母音区間に比べて小さい値に多く分布する。

したがって、子音区間は無音区間として識別される可能性が高く . 上述したように誤って識別された子音（有音）区間には、該当する音声フレームの送信が行われず、通話品質が無用に劣化する可能性が高かった。

また、上述した雑音のレベルが過大である場合には、その騒音が重畳された音声信号の大半を示す音声フレームに亘つて送信が規制される可能性があった。

なお、これらの問題点については、例えば、有音区間としての識別がされ易い値にその識別の基準となる特徴量等の閾値が設定されることによって、改善され得る。

しかし、このような閾値が適用された場合には、無音区間であるにもかかわらず有音区間として識別される確率が増加し、かつその有音区間の時間率が過大となり得るために、既述の消費電力の節減干渉の抑制および無線周波数の有効利用が十分に図られない可能性があった。発明の開示

本発明の目的は、音声信号とその音声信号に重畳され得る雑音との多様な特徴に柔軟に適応し、かつ確度高く有音区間と無音区間とを識別できる音声検出装置および音声検出方法を提供することである。

また、本発明の目的は、有音区間の内、例えば、子音区間のように音声信号の振幅が小さい領域に多く分布する区間について、音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる点にある。

さらに、本発明の目的は、精度よく、音声フレーム毎に有音区間である確度が得られる点にある。

また、本発明の目的は、所要する処理量が削減され、あるいは応答性が高められる点にある。

さらに、本発明の目的は、重畳している雑音のレベルが大きく、かつ S N比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる点にある。

上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、その確率をこの品質で重み付けて出力する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、個々の音声フレームは、品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。

また、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とを求め、この確率が求められるべき音声フレームのレべルをその品質が大きいほど小さな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、品質が低いほど、個々の音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われるために、その結果である瞬時値の列として与えられる音声信号が上述した有音区間に属する確度が高い値で求められる。

さらに、上述した目的は、音声フレーム毎に、有音区間に属する確率と品質とが求められ、その品質が高いほど、この確率が求められるべき音声フレームの圧伸処理に適用されるべき圧伸特性の勾配あるいは閾値を大きな値に設定する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置および音声検出方法では、音声信号の品質が低いほど個々の音声フレームに含まれる瞬時値に対して大きな重み付けを行う処理は、圧伸処理として行われる。

また、上述した目的は、音声フレーム毎に、有音区間と無音区間との双方あるいは何れか一方について特徴を求め、これらの特徴を品質として適用する点に特徴がある音声検出装置によって達成され

。このような構成の音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で安定に得られる。

さらに、上述した目的は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーを品質として適用する点に特徴がある音声検出装置および音声検出方法によって達成される。

このような構成の音声検出装置では、上述した雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。

また、上述した目的は、音声フレーム毎に、雑音推定パワーと、 S N比の推定値とを求め、前者に対する単調非増加関数と後者に対する単調非減少関数として与えられる数を品質として適用する点に特徴がある音声検出装置によって達成される。

このような構成の音声検出装置では、重畳している雑音のレベルが大きく、かつ S N比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。

さらに、上述した目的は、雑音推定パワーに代えて標準化確率変数が適用される点で先行して記載された音声検出装置と異なる音声検出装置によって達成される。

このような構成の音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。

したがって、標準化確率変数は、上述した雑音推定パワーに代替し得る。

また、上述した目的は、標準化確率変数が音声フレームの振幅分布とその振幅分布の最大値とに基づいて近似的に算出される点に特徴がある音声検出装置によって達成される。

このような構成の音声検出装置では、上述した相準化確率変数は簡便な算術演算によって求められる。

さらに、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が品質として適用される点に特徴がある音声検出装置によって達成される。

このような構成の音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される。

また、上述した目的は、音声フレームの単位に先行して得られた品質が時系列の順に積分され、その結果が大きいほどこの結果が小さく重み付けされて得られた値が品質として適用される点に特徴がある音声検出装置によって達成される

このような構成の音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。図面の簡単な説明

図 1 は、本発明の第 1 の原理ブロック図である。

図 2 は、本発明の第 2 の原理ブロック図である。

図 3 は、本発明の実施形態 1、 3〜 8 を示す図である

図 4 は、実施形態 1 の動作フローチャートである。

図 5 は、本発明の実施形態 2 を示す図である。

図 6 は、実施形態 2 の動作フローチヤ一卜である。

図 7 は、実施形態 3 の動作フローチャートである。

図 8 は、実施形態 4 の動作フローチャートである。

図 9 は、実施形態 5 の動作フローチャートである。

図 1 0 は、実施形態 6 の動作フローチャートである。図 1 1 は、実施形態 7および実施形態 8 の動作フローチャートである。

図 1 2 は、音声検出装置が搭載された無線端末装置の構成例を示す図である。発明を実施するための最良の形態

まず、図 1 および図 2 を参照して本発明にかかわる音声検出装置および音声検出方法の原理を説明する。

図 1 は、本発明の第 1 の原理ブロック図である。

図 1 に示す音声検出装置は、区間推定手段 1 1 と、 cm質監視手段

1 2 と、区間判定手段 1 3 とから構成される。

本発明にかかわる第 1 の音声検出装置の原理は、下記の通りである。

区間推定手段 1 1 は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確率を求める。また、品質監視手段 1 2 は、音声フレーム毎に音声信号の品質を監視する。

区間判定手段 1 3 は、上述したように音声信号として時系列の順に与えられる個々のフレームについて、区間推定手段 1 1 によって求められた確率に、品質監視手段 1 2 によって監視された品質を重み付け、有音区間である確度を得る。

このような音声検出装置では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても有音区間である確度が大きな値で得られる。

図 2 は、本発明の第 2 の原理ブロック図である。図 2 に示す音声検出装置は、区間判定手段 1 5、 1 5 Aと、品質監視手段 1 6 とから構成される。

本発明にかかわる第 2 の音声検出装置の原理は、下記の通りである o

区間判別手段 1 5 は、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確度を求める。品質監視手段 1 6 は、これらの音声フレームについて、個別に上述した音声信号の品質を監視する。

また、区間判定手段 1 5 は、上述した音声フレーム毎に、個別に含まれる音声信号の瞬時値の列に、品質監視手段 1 6 によって監視された品質に対して単調減少関数あるいは単調非増加関数として与えられる重みによる重み付けを行う。

このような音声検出装置では、音声フレーム毎に、品質が低いほど、区間判別手段 1 5 は、その音声フレームに含まれる個々の音声信号の瞬時値に大きな重み付けを行い、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度を求める。

本発明にかかわる第 3 の音声検出装置の原理は、下記の通りである ο

品質監視手段 1 6 は、時系列の順に音声フレームの列として与えられる音声信号について、その音声フレーム毎に品質を監視する。区間判定手段 1 5 Aは、これらの音声フレームに個別に圧伸処理を施し、その結果として得られた音声信号の瞬時値の列をその音声信号の統計的な性質に基づいて解析することによって、有音区間に属する確度を求める。さらに、区間判定手段 1 5 Aは、上述した音声フレーム毎に、品質監視手段 1 6 によって監視された品質に対して音声の瞬時値の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する。

このような音声検出装置では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、既述の第 2 の音声検出装置と同様に行われる。

したがって、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。

本発明にかかわる第 4 の音声検出装置の原理は、下記の通りである。

品質監視手段 1 2、 1 6 は、音声信号の有音区間と無音区間との双方または何れか一方についてその音声信号の特徴を求め、これらの特徴の何れか一方もしくは両者の差分としてこの音声信号の品質を得る。

このような音声検出装置では、音声信号の品質は、音響分析あるいは音声分析を実現する多様な技術の適用の下で、上述した特徴として安定に得られる。

したがって、既述の第 1 ないし第 3 の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。

本発明にかかわる第 5 の音声検出装置の原理は、下記の通りである。

品質監視手段 1 2、 1 6 は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーの単調減少関数として音声信号の品質を得る。

このような音声検出装置では、雑音推定パワーの算出は、一般に、単純な算術演算によって達成される。したがって、既述の第 1 ないし第 3 の音声検出装置に比べて、処理量が削減され、あるいは応答性が高められる。

本発明にかかわる第 6 の音声検出装置の原理は、下記の通りである。

品質監視手段 1 2、 1 6 は、音声フレーム毎に、雑音推定パワーと S N比の推定値とを求め、前者の単調非増加関数と、かつ後者の単調非減少関数として音声信号の品質を得る。

このような音声検出装置では、大きなレベルの雑音が重畳し、かつ S N比が小さい音声フレームについても、有音区間に属することを示す確度が大きな値で得られる。

本発明にかかわる第 7 の音声検出装置の原理は、下記の通りであ o

品質監視手段 1 2、 1 6 は、音声フレーム毎に、標準化確率変数を求め、その標準化確率変数の単調非増加関数として音声信号の品質を得る。

このような音声検出装置では、標準化確率変数は、その絶対値が大きいほど、「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど「音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルも小さいこと」を意味する。

したがって、既述の第 6 の音声検出装置と同様に、重畳している雑音のレベルが高く、かつ S N比が小さい音声フレームについても . 有音区間に属することを示す確度が大きな値で得られる。

本発明にかかわる第 8 の音声検出装置の原理は、下記の通りである。

品質監視手段 1 2 、 1 6 は、音声フレーム毎に、標準化確率変数と S N比の推定値とを求め、前者の単調非増加関数と、かつ後者の単調非減少関数として音声信号の品質を得る。

本発明にかかわる第 1 の音声検出方法の原理は、下記の通りである。

第 1 の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確率が求められ、かっこの音声信号の品質が監視される。

さらに、音声信号として時系列の順に与えられる個々のフレームについては、上述したように求められた確率に、監視された品質が重み付けられることによって、有音区間である確度が得られる。

このような音声検出方法では、個々の音声フレームは、音声信号の品質が良好であるほど、高い確率で有音区間として識別され、反対に無音区間として識別される確率が小さくなる。

本発明にかかわる第 2 の音声検出方法の原理は、下記の通りである o

第 2 の音声検出方法では、音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確率が求められ、かっこの音声信号の品質が前記音声フレーム毎に監視される。

さらに、音声フレーム毎に、個別に含まれる音声信号の瞬時値の列については、上述したように監視された品質に対して単調減少関数あるいは単調非増加関数として与えられる重みによる重み付けが行われる。

このような音声検出方法では、音声フレーム毎に、音声信号の品質が低いほど、その音声フレームに含まれる個々の音声信号の瞬時値に対して大きな重み付けが行われ、その結果として与えられる瞬時値の列として与えられる音声信号について、上述した有音区間に属する確度が求められる。

本発明にかかわる第 3 の音声検出方法の原理は、下記の通りである。

第 3 の音声検出方法では、時系列の順に与えられる個々の音声フレームについて、圧伸処理が施され、その結果として得られた音声信号の瞬時値の列がその音声信号の統計的な性質に基づいて解析されることによって、有音区間に属する確度が求められ、かつその音声信号の品質が監視される。

さらに、上述した圧伸処理の過程では、音声フレーム毎に、このようにして監視された品質の単調減少関数として与えられる圧伸特性が適用される。

このような音声検出方法では、音声信号の品質が低いほど、個々の音声フレームに含まれる音声信号の瞬時値に対して大きな重み付けを行う処理は、上述した圧伸処理として、第二の音声検出方法と同様に行われる。

以下、図面に基づいて本発明の実施形態について詳細に説明する図 3 は、本発明の実施形態 1、 3〜 8 を示す図である。図において、図 1 2 に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する本実施形態と図 1 2 に示す従来例との構成の相違点は、音声検出装置 4 2 に代えて音声検出装置 2 0 が備えられた点にある。

音声検出装置 2 0 は、初段に備えられた有音/無音識別部 2 1 とその有音/無音識別部 2 1 のモニタ出力に直結されたモニタ端子を有し、この有音/無音識別部 2 1 と共に初段に備えられた識別確度判定部 2 2 と、これらの有音/無音識別部 2 1 および識別確度判定部 2 2 の出力にそれぞれ接続された 2 つのポートを有するメモリ 2 3 と、そのメモリ 2 3 の出力に直結されると共に、最終段として備えられた最終判定部 2 4 とから構成される。

図 4 は、実施形態 1 の動作フローチャートである。

[実施形態 1 ]

以下、図 3 および図 4 を参照して本発明にかかわる実施形態 1 の動作を説明する。

音声検出装置 2 0 では、有音/無音識別部 2 1 は、マイク 4 1 を介して与えられる音声信号に、図 1 2 に示す音声検出装置 4 2 が行う処理と同じ処理を施すことによって、既述の音声フレーム毎に有音区間と無音区間との識別を行い、かつメモリ 2 3 と識別確度判定部 2 2 とに並行してこの識別の結果を示す 2値情報 I t を与える。

なお、この 2値情報 I t の論理値については、簡単のため、有音区間には「 1 」に設定され、反対に無音区間には「 0 」に設定されると仮定する。

一方、識別確度判定部 2 2 は、有音/無音識別部 2 1 と並行して上述した音声信号を既述の音声フレームの列に変換する。さらに、識別確度判定部 2 2 は、有音/無音識別部 2 1 によって与えられる 2値情報 I t の論理値に応じて有音区間と無音区間とを識別し、これらの区間について、個々の音声フレームの特徴量 F t (ここでは、簡単のため、エネルギーと零交差回数との双方あるいは何れか一方であると仮定する。）の分布（平均値）を定常的に監視する。

さらに、識別確度判定部 2 2 は、個々の音声フレームが与えられる期間に、有音区間と無音区間とにおける上述した特徴量 F t の分布（平均値）の差分が所定の閾値 F th を下回るか否かの判別を行い、その判別の結果を示す 2値の識別確度 R t を求める。

なお、このような識別確度 R t の論理値については、上述した差分が閾値 F th を下回る程度に音声信号の品質が低い場合には「 0 」に設定され、反対にこの閾値 F th を上回る程度に音声信号の品質が良好である場合には「 1 」に設定されると仮定する。

また、メモリ 2 3 には、有音/無音識別部 2 1 によって与えられた 2値情報 I t と、識別確度判定部 2 2 によって求められた識別確度 R t とが上述した音声フレームの単位に対応付けられて蓄積される。

最終判定部 2 4 は、このようにメモリ 2 3 に蓄積された 2値情報 I t と識別確度 R t との個々の組み合わせに応じて、下記の処理を順次行う。

• 識別確度 R t の論理値が「 1 」である場合には、論理値が 2 値情報 I t の論理値に等しい 2値信号を送受信部 4 3 に与える (図 4 ( 1 ) )。

• 識別確度 R t の論理値が「 0 」である場合には、論理値が「 1 」である 2 値信号を送受信部 4 3 に与える（図 4 ( 2 ) )。

また、送受信部 4 3 は、制御部 4 5 が行うチャネル制御の下で割り付けられた無線チャネルに、マイク 4 1 によって与えられる音声信号で変調された送信波信号を送信する過程には、上述したように. 音声フレーム単位に音声検出装置 2 0 で行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置 2 0 との同期を維持する。

すなわち、音声信号の品質が良好である場合には、有音無音識別部 2 1 によって与えられた 2値情報 I t が 2値信号として送受信部 4 3 に与えられるが、その品質が良好でない場合には、この 2値信号の論理値は、有音区間を示す「 1 」に設定される。

したがって、本実施形態によれば、識別確度 R t の如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、その音声信号の品質が悪い有音区間が無音区間として識別されることが確度高く回避され、かつ伝送品質の劣化が緩和される。

なお、本実施形態では、有音/無音識別部 2 1 と識別確度判定部 2 2 とが並行して個別に音声信号を音声フレームの列に変換する処理を行っている。

しかし、このような処理は、有音無音識別部 2 1 と識別確度判定部 2 2 との何れか一方によって主導的に行われ、あるいはこれらの有音/無音識別部 2 1 と識別確度判定部 2 2 との前段に配置された手段によって行われてもよい。

また、本実施形態では、有音/無音識別部 2 1 によって求められた 2値情報 I t と、識別確度判定部 2 2 によって求められた識別確度 R t とが音声フレーム毎に対応つけられてメモリ 2 3 に蓄積されている。

しかし、メモリ 2 3 は、有音/無音識別部 2 1 、識別確度判定部 2 2 および最終判定部 2 4 によって行われるべき既述の処理の所要時間に伴い得る変動分が許容される程度に小さい場合には、備えられなくてもよい。

さらに、本実施形態では、送受信部 4 3 は、音声フレーム単位に音声検出装置 2 0 によって行われる処理の演算所要時間に等しい遅延を与えることによって、この音声検出装置 2 0 との同期を維持している。

しかし、このような遅延は、上述した同期が所望の確度で維持される程度に小さい場合には、何ら与えられなくてもよい。また、本実施形態では、識別確度判定部 2 2 によって既述の識別確度 R t が求められている。

しかし、識別確度判定部 2 2 と最終判定部 2 4 とは、例えば、その識別確度判定部 2 2 が下記の処理の何れかのみを行うことによつて、如何なる形態で機能分散が図られてもよい。

• 既述の音声フレームが与えられる時点あるいは期間に、有音区間と無音区間とにおける上述した特徴量 F t の分布（平均値）を求める。

- その特徴量 F t の分布（平均値）を求め、この隔たり（差分）が所定の閾値 F th を下回るか否かの判別を行う。

さらに、本実施形態では、有音区間と無音区間との特徴量 F t の差分と閾値 F th との大小関係に基づいて、音声信号の品質の良否が判別されている。

しかし、本発明は、このような構成に限定されず、例えば、有音区間と無音区間との何れか一方の特徴量が所望の確度で既知の値として与えられる場合には、他方の特徴量のみが求められ、その特徴量と規定の閾値との大小関係に基づいて、音声信号の伝送品質の良否が判別されてもよい。

[実施形態 2 ]

図 5 は、本発明の実施形態 2 を示す図である。

図において、図 3 に示すものと機能および構成が同じものについては、同じ符号を付与して示し、ここでは、その説明を省略する。

本実施形態と既述の実施形態 1 との構成の相違点は、音声検出装置 2 0 に代えて音声検出装置 3 0 が備えられた点にある。

音声検出装置 3 0 と音声検出装置 2 0 との構成の相違点は、有音 /無音識別部 2 1 に代えて有音/無音識別部 2 1 Aが備えられ、最終判定部 2 4 に代えて識別条件調整部 3 1 が備えられ、その識別条件調整部 3 1 の出力は送受信部 4 3 の対応する制御入力に代わる有音/無音識別部 2 1 Aの閾値入力に接続され、その制御入力に有音無音識別部 2 1 Aの出力が接続された点にある。

図 6 は、実施形態 2 の動作フローチャートである。

以下、図 5 および図 6 を参照して本発明にかかわる実施形態 2 の動作を説明する。

本実施形態と実施形態 1 との相違点は、識別条件調整部 3 1 が行う下記の処理と、有音 Z無音識別部 2 1 Aがその処理の下で与えられる閾値に基づいて既述の 2 値情報 I t を求める点とにある。

なお、以下では、有音/無音識別部 2 1 A、識別確度判定部 2 2 およびメモリ 2 3 が連係することによって行われる処理の手順については、既述の実施形態 1 と基本的に同じであるので、ここでは、その説明を省略する。

有音/無音識別部 2 1 Aは、マイク 4 1 を介して与えられる音声信号に、図 1 2 に示す従来例に搭載された音声検出装置 4 2 が行う処理と同じ処理を施し、その処理の過程でこの音声信号の統計的な性質にかかわる閾値（以下、「区間識別閾値」という。）として、識別条件調整部 3 1 によって与えられる値を適用することによって、 2値情報 I t を求める。

また、識別条件調整部 3 1 は、このようにして求められた 2 値情報 I t と識別確度判定部 2 2 によって求められた識別確度 R t との組み合わせを順次メモリ 2 3 を介して取り込み、かつ下記の処理を行う。

• 識別確度 R t の論理値が「 1 」である場合には、その有音/ 無音識別部 2 1 に、『上述した音声信号の品質が良好である期間に 2値情報 I t を求める過程で、有音/無音識別部 2 1 Aが適用すべき標準的な区間識別閾値（以下、「標準閾値」という。）』を与える（図 6 ( 1 ) )。なお、標準閾値については、識別条件調整部 3 1 に予め与えられていると仮定する。

• 識別確度 R t の論理値が「 0 」である場合には、先行して有音/無音識別部 2 1 Aに与えらた区間識別閾値（上述した「標準閾値」であってもよい。）を下記の何れかの値に更新し、あるいは設定する（図 6 ( 2 ) )。

—有音 Z無音識別部 2 1 Aが後続する音声フレームを有音区間に属する音声フレームと識別する可能性が高い値

—有音無音識別部 2 1 Aが後続する音声フレームを有音区間に属する音声フレームとして確実に識別する値

さらに、送受信部 4 3 は、有音/無音識別部 2 1 Aによって与えられる 2値情報 I t の列を既述の 2値信号として取り込み、既述の実施形態 1 と同様に音声検出装置 3 0 との同期を維持する。

このように本実施形態によれば、音声信号の品質が良好である場合には、有音/無音識別部 2 1 Aによって与えられた 2 値情報 I t が 2値信号として送受信部 4 3 に与えられるが、その品質が良好でない場合には、区間識別閾値が適宜更新されることによって、『有音区間を示す「 1 」にこの 2値信号の論理値が設定される確率』が高められる。

したがって、本実施形態によれば、識別確度 R t の如何にかかわらず音声信号の統計的な性質のみに基づいて有音区間と無音区間との識別が行われる従来例に比べて、品質が悪い有音区間が無音区間として識別されることに起因する伝送品質の劣化が緩和され、あるいは回避される。

なお、本実施形態では、区間識別閾値は、識別条件調整部 3 1 によって適宜更新され、あるいは設定されている。

しかし、本発明は、このような構成に限定されず、例えば、有音 /無音識別部 2 1 Aに音声信号を線形領域で増幅する可変利得増幅器が搭載され、かつ有音区間と無音区間との識別の基準がその音声信号のレベルである場合には、上述した区間識別閾値に代えてこの可変利得増幅器の利得が可変されてもよい。

[実施形態 3 ]

本実施形態と実施形態 1 との構成の相違点は、識別確度判定部 2 2に代えて識別確度判定部 2 2 Aが備えられた点にある。

図 7は、実施形態 3の動作フローチャートである。

以下、図 3および図 7を参照して本実施形態の動作を説明する。本実施形態の特徴は、識別確度判定部 2 2 Aが行う下記の処理の手順にある。

識別確度判定部 2 2 Aは、有音/無音識別部 2 1 と並行して音声信号を音声フレームの列に変換し（図 7 (1))、かつ個々の音声フレームについて下記の処理を施す。

なお、以下では、個々の音声フレームは、簡単のため、時系列 t ( = 0〜N )の順に（N + 1)個の瞬時値 x ( t )の列として与えられると仮定する。

1 . 下式（1) で示される算術演算を行うことによって、フレームパヮ一 P _t を算出し、時系列 tの順に蓄積する（図 7 (2))。

2 . 先行する音声フレームについて同様にして算出され、かつ蓄積されている先行フレームパワー P _t_ !を取得する（図 7 (3))。

3. 規定の時定数ひ（< 1 )に対して下式（2) で示される算術演算を行うことによって、雑音推定パワー P _{N t} を指数平滑法に基づいて算出する（図 7 (4))。

4. この雑音推定パワー P _{N t} と、その雑音推定パワー P _{N t} について既述の閾値 F th と同様に予め設定された閾値 P th とを比較することによって、前者が後者を上回るか否かの判別を行い（図 7 ( 5 ) ). その判別の結果を示す 2値の識別確度 Rt を求める（図 7 (6))。

P_{N t} = a P _t_ ₁ +(l- a )P _t -( 2 )

P '= ： X (" ² · · · (1)

なお、このような識別確度 R t の論理値については、上述した判別の結果が真である場合には「 0」（通話信号の品質が低いことを意味する。）に設定され、反対に偽である場合には「 1」（通話信号の品質が良好であることを意味する。）に設定されると仮定する。

また、最終判定部 2 4は、既述の実施形態 1 と同様にこの識別確度 R t を参照することによって 2値信号を生成し、その 2値信号を送受信部 4 3 に順次与える。

このように本実施形態によれば、上式（1)、（2) に示す単純な算術演算によって通話信号の品質が簡便に求められ、かつ上述した判別の結果が偽である期間は、有音/無音識別部 2 1 によって与えられた 2値情報の論理値 I t の如何にかかわらず、高い確度で、あるいは確実に有音期間として識別される。

[実施形態 4 ]

本実施形態と実施形態 1 との構成の相違点は、識別確度判定部 2 2 に代えて識別確度判定部 2 2 Bが備えられた点にある。

図 8 は、実施形態 4の動作フローチャートである。

以下、図 3および図 8 を参照して本実施形態の動作を説明する。本実施形態の特徴は、識別確度判定部 2 2 Bが行う下記の処理の手順にある。

識別確度判定部 2 2 Bは、有音/無音識別部 2 1 と並行して音声信号を音声フレームの列に変換し（図 8 (1))、かつ個々の音声フレ —ムについて下記の処理を施す。

1. 既述の実施形態 3 において識別確度判定部 2 2 Aによって行われる処理の手順と同じ手順に基づいてフレームノヮ一 P _t と、雑音推定パワー P _{N t} とを算出する（図 8 (2))。

2. 下式（3) で示される算術演算を行うことによって、この音声フレームの S N比の推定値（以下、単に、「 S N推定値」という。） S N _t を算出する（図 8 (3))。

3. この S N推定値 S N _t がその S N推定値 S N _t について既述の閾値 F th と同様に予め設定された閾値 S N th を上回るか否かの判別（以下、「 S N判別」という。）を行う（図 8 (4))。

. 上述した雑音推定パワー P _{N t}が既述の閾値 P th を下回るか否かの判別（以下、「雑音判別」という。）を行う（図 8 (5))。

5. これらの判別の結果の組み合わせに応じて、下記の通りに識別確度 R t を求め、かつ出力する。

① S N判別の結果が真である場合と、その S N判別の結果が偽であり、かつ雑音判別の結果が真である場合とには、この雑音判別の結果を示す 2 値を識別確度 R t として出力する（図 8 (6))。

② S N判別の結果が偽であり、かつ雑音判別の結果が偽である場合には、論理値が「 ◦ 」である識別確度 R t を出力する（図 8 (7)。

S N _t 二 101og₁₀( P _t / P _{N t} ) ·'·(3)

すなわち、 S N推定値 S N _t が小さく、かつ上述した雑音推定パワー P _{N t} が大きい場合に、有音/無音識別部 2 1 によって行われた識別の確度が著しく低下した状態であっても、最終判定部 7 4 によって有音区間が無音区間と識別されることが確度高く回避される。

[実施形態 5 ]

本実施形態と実施形態 1 との構成の相違点は、識別確度判定部 2 2 に代えて識別確度判定部 2 2 Cが備えられた点にある。

図 9 は、実施形態 5の動作フローチヤ一卜である。

以下、図 3および図 9 を参照して本実施形態の動作を説明する。本実施形態と既述の実施形態 4 との相違点は、識別確度判定部 2 2 Cが行う下記の処理の手順にある。

識別確度判定部 2 2 Cは、有音/無音識別部 2 1 と並行して音声信号を音声フレームの列に変換し（図 9 (1))、かつ個々の音声フレームについて、雑音推定パワー P _{N t} を算出する処理に代えて以下の処理を行う。

A) 時系列 t の順に与えられる個々の音声フレームで示される音声信号の振幅の先頭値 s _{P t} と平均値 s _Bt とを求めて蓄積する。

B) 最新の音声フレームが与えられる度に、所定の数 Mに対してその音声フレームに先行する時点で時系列 t の順にそれそれ与えられた M個の音声フレームについて、同様に蓄積された先頭値 s _{P t} と平均値 s _t とを取得する。

C) これらの先頭値および平均値を下式（4) に代入することによつて行われる算術演算の結果として、該当する音声フレームで示される音声信号の振幅の標準偏差（7_t を算出する。

D) 最新の音声フレームで示される音声信号の振幅の先頭値 X を求める。

E) これらの標準偏差び _t と先頭値 X とに対して下式（5) で示される算術演算を行うことによって、上述した音声信号の振幅の標準化確率変数 P r _t を算出する（図 9 (2))。

1/2

σ

t 2 s, M

=UZ_M ) … （4)

P r _t = x / σ _t …（5)

なお、標準化確率変数 P r _t は、最新の音声フレームに含まれる音声信号の振幅の先頭値 s _{P t} と、その振幅の分布との相関関係を意味する。

さらに、標準化確率変数 P r _t は、その絶対値が大きいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて大きく、かつ大きなレベルの雑音がこの音声フレームに重畳されている可能性が高いこと」を意味し、反対に小さいほど、「最新の音声フレームの振幅の先頭値が音声信号の標準的な振幅に比べて小さく、この音声フレームに重畳されている雑音のレベルが小さいこと」を意味する。

また、識別確度判定部 2 2 Cは、実施形態 4 と同様にして S N推定値 S N _t を求め（図 9 (3))、かつ「 S N判定」を行う（図 9 (4))。

さらに、識別確度判定部 2 2 Cは、上述した標準化確率変数 P r _t が規定の閾値 P r th を下回るか否かの判別（以下、「変数判別」という。）を行う（図 9 (5) )。

また、識別確度判定部 2 2 Cは、これらの判別の結果の組み合わせに応じて、下記の通りに識別確度 Rtを求めて出力する。

I . S N判別の結果が真である場合と、変数判別の結果が真である場合とには、この変数判別の結果を示す 2値を識別確度

Rt として出力する（図 9 (6))。

II. S N判別の結果が偽であり、かつ変数判別の結果が偽である場合には、論理値が「 0」である識別確度 R t を出力する

(図 9 (7))o

すなわち、識別確度 Rt の論理値は、標準化確率変数 P r _t の値が大きい場合には、有音ノ無音識別部 2 1 によって行われる識別の確度が著しく低下した状態であっても、最終判定部 7 4によって有音区間を無音区間と識別することが確度高く回避される。

[実施形態 6 ]

本実施形態と実施形態 5 との構成の相違点は、識別確度判定部 2 2に代えて識別確度判定部 2 2 Dが備えられた点にある。

図 1 0は、実施形態 6の動作フローチャートである。

以下、図 3および図 1 0を参照して本実施形態の動作を説明する本実施形態と実施形態 5 との相違点は、識別確度判定部 2 2 Dが識別確度判定部 2 2 Cに代えて、後述する手順に基づいて標準化確率変数 P r _t を算出する点にある。

音声信号の振幅分布を示す確率密度関数は、一般に、ガンマ分布やラプラス分布で近似が可能である。

また、この確率密度関数 P ( X ) は、例えば、上述したラプラス分布で近似された場合には、標準偏差で正規化された音声の振幅 X に対して、下記の式で定義される。

したがって、標準偏差で正規化された音声の振幅 Xの絶対値は、 |= (- 1 / V2~)« In ( - ( )) … (6)

の式で与えられる。

ところで、個々の音声フレームに含まれ、かつサンプリングされて所定のディジタル信号処理が施される標本値の数 K ( ここでは、簡単のため、「 1 0 0 0」であると仮定する。）は、一般に、既知の値として与えられる。

また、このような場合には、個々の音声フレームに含まれる音声フレームに振幅の先頭値が出現する確率は、（ 1 / K )で与えられる識別確度判定部 2 2 Dは、この確率（ = 1 / K ) が上式（6) に適用されることによって得られる下記の式で示される算術演算を行いその結果結果として | χ | の値を求める（図 1 0 (1))。

|χ— 1 / 2")· In [^2 ' (1/K ))

= ― 1 / V2~) · In (V2 · (1/100。 ))

さらに、識別確度判定部 2 2 Dは、該当する音声フレームで与えられる音声信号の振幅の瞬時値 p を求め（図 1 0 (2))、その瞬時値 P と上述した

I X Iの値とに対して、

σ _t = p / I x I

の式で示される算術演算を行うことによって標準偏差 r _t を算出する（図 1 0 (3))と共に、この標準偏差 cr _t の値を既述の式（5) に代入することによって標準化確率変数 P r _t を求める（図 1 0 (4) )o

すなわち、実施形態 5 において行われる既述の処理 A )〜 E )に比ベて簡便な算術演算に基づいて標準化確率変数 P r _t が求められる o

したがって、本実施形態によれば、実施形態 5 に比べて所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。

なお、本実施形態では、識別確度判定部 2 2 Dは、単位音声フレーム毎に既述の処理を行なっている。

しかし、このような処理については、時系列の順に与えられる所望の複数の音声フレーム毎に同様の処理が行われることによって、誤差の圧縮が図られてもよい。

なお、実施形態 3 〜実施形態 6 は、実施形態 1 の構成に既述の変更が施されることによって構成されている。

しかし、これらの実施形態については、実施形態 2 の構成に同様の発明が適用されることによって構成されてもよい。

[実施形態 7 ]

本実施形態の構成は、既述の実施形態 1 〜実施形態 6 の構成の何れと同じであってもよい。

図 1 1 は、実施形態 7 および実施形態 8 の動作フローチャートである。

以下、図 3、図 5 および図 1 1 を参照して、本実施形態の動作を説明する。

本実施形態の特徴は、既述の識別確度判定部 2 2 、 2 2 A〜 2 2 Dの何れかによつて行われる下記の処理の手順にある。

なお、以下では、簡単のため、識別確度判定部 2 2 、 2 2 A〜 2 2 Dの内、識別確度判定部 2 2 のみに着目することとする。

識別確度判定部 2 2 は、新たな識別確度 R t が求められても、その識別確度 R t をメモリ 2 3 に直接格納せず、時系列の順に所定の重み付けを行いつつ積分することによって得られた積分値（以下、「積分識別確度 R I t 」という。）を求め（図 1 1 ( 1 ) )、その積分識別確度 R I t を識別確度 R t に代えてメモリに格納する（図 1 1 ( 2 ) )。

このような積分の過程では、時系列の順に求められた識別確度 R t に伴い得る急峻な変動の成分は、上述した重み付けに適用された重みに応じて軽減され、あるいは抑圧される。

したがって、本実施形態によれば、音声信号に伴い得る多様な騒音に対する柔軟な適応が可能となり、かつ実施形態 1 〜実施形態 6 の何れについても、本発明が適用されることによって、性能の安定ィ匕が図られる。

なお、本実施形態では、上述した重みだけではなく、積分を実現する算術演算の形態やアルゴリズムが具体的に示されていない。

しかし、このような算術演算の過程では、先行して所定の数 C に豆って得られた識別確度 R t に移動平均法、指数平滑法その他の如何なるアルゴリズムおよび重みによる積分処理が行われてもよい。

[実施形態 8 ]

本実施形態の構成は、既述の実施形態 1 〜 7 の構成と基本的に同じである。

以下、図 3、図 5 および図 1 1 を参照して本実施形態の動作を説明する。

本実施形態の特徴は、識別確度判定部 2 2 , 2 1 A〜 2 2 Dが行う下記の処理の手順にある。

本実施形態と既述の実施形態 7 との相違点は、識別確度判定部 2 2 , 2 1 A〜 2 2 Dが下記の処理を行う点にある。

識別確度判定部 2 2 は、新たな積分識別確度 R I t が求められても、メモリ 2 3 は、その積分識別確度 R I t を直接格納しない。

さらに、識別確度判定部 2 2 は、新たな積分識別確度 R I t が求められると、その積分識別確度 R I t を内部に備えられたレジス夕 (図示されない。）に保持する（図 1 l ( a ) )。

また、識別確度判定部 2 2 は、この積分識別確度 R I t が後述する閾値 R I th を上回るか否かを判別し（図 1 1 ( b ) )、その判別の結果を示す 2値情報 R B t をその積分識別確度 R I t に代えてメモリ 2 3 に格納する（図 1 1 ( c ) )。

さらに、識別確度判定部 2 2 は、下記の処理を行うことによって、後続して与えられる音声フレームに施される同様の処理に適用されるべき閾値 R I th を確定する（図 1 1 ( d ) )。

• 上述したレジス夕に保持された積分識別確度 R I t の値が大きいほど、小さな値に設定する。

· 反対に、その積分識別確度 R I t の値が小さいほど、大きな値に設定する。

すなわち、識別確度 R t 、積分識別確度 R I t に代えて、メモリ 2 3 を介して最終判定部 2 4 あるいは識別条件調整部 3 1 に与えられるべき 2 値情報 R B t の論理値は、先行して与えられた音声フレ —ムの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間として識別される確率が高くなる値に設定される。

したがって、本実施形態によれば、実施形態 1 〜実施形態 7 に比ベて、有音区間が無音区間として識別されることに起因する伝送品質の低下が確度高く回避される。

なお、上述した各実施形態では、

• 有音/無音識別部 2 1、 2 1 Aが求める 2値情報 I t；、 • 識別確度判定部 2 2、 2 2 A〜 2 2 Dが求める 2値の識別確度 R t、積分識別確度 R I t および 2値情報 R I tの何れか、 · 最終判定部 2 4 によって送受信部 4 3 に与えられる 2 値信号の値、

の何れもが 2値情報となっている。

しかし、これらの値については、既述の目的が達成される限り、多値の情報として与えられ、かつ閾値との大小関係の判別に代えて量子化が行われ、あるいは適宜重み付けが施されてもよい。

さらに、上述した各実施形態では、無線伝送系の送信部に本発明が適用されている。

しかし、本発明は、このような無線伝送系に限定されず、有線伝送系の送信部、あるいは音声に応答して所定の処理（パターン認識を含む。）や動作を行う多様な電子機器にも同様に適用が可能である。

以下、既述の実施形態として開示された発明の内、請求の範囲 1 ないし請求の範囲 2 1 として記載された発明以外の発明を順次「追加開示請求の範囲」として列記する。

なお、下記の各「追加開示請求の範囲」の原理ブロック図は、図 1および図 2 に示す通りである。

(追加開示請求の範囲 1 )

請求の範囲 7ないし請求の範囲 1 2の何れか 1項に記載の音声検出装置において、

品質監視手段 1 2 、 1 6 は、

音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共にその振幅と先頭値との比として標準化確率変数を求める

ことを特徴とする音声検出装置。

(追加開示請求の範囲 2 )

請求の範囲 1 ないし請求の範囲 1 8 および追加開示請求の範囲 1 の何れか 1項に記載の音声検出装置において、

口

PP質監視手段 1 2 、 1 6 は、

得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する

ことを特徴とする音声検出装置。

(追加開示請求の範囲 3 )

請求の範囲 1 ないし請求の範囲 1 8 および追加開示請求の範囲 1 2 の何れか 1項に記載の音声検出装置において、

品質監視手段 1 2 、 1 6 は、

得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する

ことを特徴とする音声検出装置。

以下、追加開示請求の範囲 1 〜 3 の作用 · 効果を順次記述する。追加開示請求の範囲 1 にかかわる音声検出装置では、品質監視手段 1 2、 1 6 は、音声フレーム毎に、個別に含まれる音声信号の瞬時値の先頭値を求め、その音声信号の振幅分布を近似する確率密度関数に、これらの瞬時値の数と先頭値が出現する確率とを適用することによって、この確率密度関数の標準偏差で正規化された振幅を算出すると共に、その振幅と先頭値との比として標準化確率変数を求める。

このような音声検出装置では、上述した標準化確率変数は、既述の第 5 の音声検出装置に比べて、簡便な算術演算に基づいて求めらしたがって、上述した第五の音声検出装置に比べて、所望の応答性が得られるために確保されるべき処理量の削減、あるいはその応答性の向上が可能となる。

追加開示請求の範囲 2 にかかわる音声検出装置では、品質監視手段 1 2、 1 6 は、得られた音声信号の品質を順次積分し、その結果を正規の品質として適用する。

このような音声検出装置では、時系列の順に得られた音声信号の品質に伴い得る急峻な変動の成分が軽減され、あるいは抑圧される（したがって、本発明にかかわる音声検出装置は、音声信号に伴い得る多様な騒音に柔軟に適応し、かつ性能の安定化が図られる。

追加開示請求の範囲 3 にかかわる音声検出装置では、品質監視手段 1 2、 1 6 は、得られた音声信号の品質を順次積分し、その結果の単調増加関数あるいは単調非減少関数として得られる値をこの品質として適用する。

このような音声検出装置では、先行して与えられた音声フレームの品質が高く、あるいはその品質が高かった時間率が大きいほど、後続して与えられる音声フレームが有音区間である確度が大きな値で得られる。産業上の利用の可能性

本発明にかかかわる第 1 、第 2 および第 3 の音声検出装置では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。

本発明にかかわる第 4の音声検出装置では、第 1 ないし第 3 の音声検出装置に比べて、音声フレーム毎に有音区間である確度が精度よく得られる。

本発明にかかわる第 5 の音声検出装置では、第 1 ないし第 3 の音声検出装置に比べて、処理量が削減され、あるいは応答性が高めらォしる o

本発明にかかわる第 6 および第 7 の音声検出装置では、大きなレベルの雑音が重畳し、かつ S N比が小さい音声フレームについても有音区間に属することを示す確度が大きな値で得られる。

本発明にかかわる第 1 ないし第 3 の音声検出方法では、有音区間の内、例えば、子音区間のように音声信号の振幅が小さな領域に多く分布する区間については、その子音区間における音声信号の品質が低い場合であっても、有音区間であることを示す確度が大きな値で得られる。

したがって、これらの発明が適用された通信機器その他の電子機器では、音声信号を発する音響一電気変換手段が配置される音響的な環境、あるいはその音響信号の情報源の特性や性能に柔軟に適応しつつ、この音声信号の有音区間と無音区間との峻別が確度高く、安定に実現され、その峻別の結果に適応した所望の性能の達成と、資源の有効利用とが的確に図られる。

Claims

請求の範囲

( 1 ) 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確率を求める区間推定手段と、

前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段と、

前記音声信号として時系列の順に与えられる個々のフレームについて、前記区間推定手段によって求められた確率に、前記品質監視手段によって監視された品質を重み付け、前記有音区間である確度を得る区間判定手段と

を備えたことを特徴とする音声検出装置。

( 2 ) 音声信号として時系列の順に与えられる音声フレーム毎に、その音声信号の統計的な性質に基づいて有音区間に属する確度を求める区間判定手段と、

前記音声フレーム毎に前記音声信号の品質を監視する品質監視手段とを備え、

前記区間判定手段は、

前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記品質監視手段によって監視された品質の単調減少関数あるいは単調非増加関数として与えられる重みによる重み付けを行うことを特徴とする音声検出装置。

( 3 ) 時系列の順に与えられる個々の音声フレームについて、圧伸処理を施し、その結果として得られた音声信号の瞬時値の列をその音声信号の統計的な性質に基づいて解析することによって、有音区間に属する確度を求める区間判定手段と、

前記区間判定手段は、前記音声フレーム毎に、前記品質監視手段によって監視された品質の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する

ことを特徴とする音声検出装置。

( 4 ) 請求の範囲 1 に記載の音声検出装置において、

品質監視手段は、

音声信号の有音区間と無音区間との双方または何れか一方についてその音声信号の特徴を求め、これらの特徴の何れか一方もしくは両者の差分としてこの音声信号の品質を得る

ことを特徴とする音声検出装置。

( 5 ) 請求の範囲 2 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 6 ) 請求の範囲 3 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 7 ) 請求の範囲 1 に記載の音声検出装置において、

品質監視手段は、

音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーの単調非増加関数として音声信号の品質を得る

ことを特徴とする音声検出装置。

( 8 ) 請求の範囲 2 に記載の音声検出装置において、

品質監視手段は、音声フレーム毎に、雑音推定パワーを求め、その雑音推定パワーの単調非増加関数として音声信号の品質を得る

ことを特徴とする音声検出装置。

( 9 ) 請求の範囲 3 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 0 ) 請求の範囲 1 に記載の音声検出装置において、

品質監視手段は、

音声フレーム毎に、雑音推定パワーと S N比の推定値とを求め、前者の単調非増加関数と、後者の単調非減少関数として音声信号の品質を得る

ことを特徴とする音声検出装置。

( 1 1 ) 請求の範囲 2 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 2 ) 請求の範囲 3 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 3 ) 請求の範囲 1 に記載の音声検出装置において、

品質監視手段は、

音声フレーム毎に、標準化確率変数を求め、その標準化確率変数の単調減少関数として音声信号の品質を得る

ことを特徴とする音声検出装置。

( 1 4 ) 請求の範囲 2に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 5 ) 請求の範囲 3 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 6 ) 請求の範囲 1 に記載の音声検出装置において、

品質監視手段は、

音声フレーム毎に、標準化確率変数と S N比の推定値とを求め、前者の単調非増加関数と、後者の単調非減少関数として音声信号の品質を得る

ことを特徴とする音声検出装置。

( 1 7 ) 請求の範囲 2 に記載の音声検出装置において、

品質監視手段は、

ことを特徴とする音声検出装置。

( 1 8 ) 請求の範囲 3に記載の音声検出装置において、

品質監視手段は、

音声フレーム毎に、標準化確率変数と S N比の推定値とを求め、前者の単調非増加関数と、後者の単調非減少関数として音声信号の品質を得ることを特徴とする音声検出装置。

( 1 9 ) 音声信号として時系列の順に与えられる音声フレーム毎にその音声信号の統計的な性質に基づいて有音区間に属する確率を求め、

前記音声フレーム毎に前記音声信号の品質を監視し、

前記音声信号として時系列の順に与えられる個々のフレームについて、前記求められた確率に、前記監視された品質を重み付け、前記有音区間である確度を得る

ことを特徴とする音声検出方法。

( 2 0 ) 音声信号として時系列の順に与えられる音声フレーム毎にその音声信号の統計的な性質に基づいて有音区間に属する確度を求め、

前記音声フレーム毎に前記音声信号の品質を監視し、

前記音声フレーム毎に、個別に含まれる前記音声信号の瞬時値の列に、前記監視された品質の単調減少関数あるいは単調非増加関数として与えられる重みによる重み付けを行う

ことを特徴とする音声検出方法。

( 2 1 ) 時系列の順に与えられる個々の音声フレームについて、圧伸処理を施し、その結果として得られた音声信号の瞬時値の列をその音声信号の統計的な性質に基づいて解析することによって、有音区間に属する確度を求め、

前記音声フレーム毎に前記音声信号の品質を監視し、

前記音声フレーム毎に、前記監視された品質の単調減少関数として与えられる圧伸特性を前記圧伸処理に適用する

ことを特徴とする音声検出方法。