JPWO2008007616A1 - 無音声発声の入力警告装置と方法並びにプログラム - Google Patents

無音声発声の入力警告装置と方法並びにプログラム Download PDF

Info

Publication number
JPWO2008007616A1
JPWO2008007616A1 JP2008524774A JP2008524774A JPWO2008007616A1 JP WO2008007616 A1 JPWO2008007616 A1 JP WO2008007616A1 JP 2008524774 A JP2008524774 A JP 2008524774A JP 2008524774 A JP2008524774 A JP 2008524774A JP WO2008007616 A1 JPWO2008007616 A1 JP WO2008007616A1
Authority
JP
Japan
Prior art keywords
input
normal
voice
utterance
power
Prior art date
Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
Withdrawn
Application number
JP2008524774A
Other languages
English (en)
Inventor
玲史 近藤
玲史 近藤
Current Assignee (The listed assignees may be inaccurate. Google has not performed a legal analysis and makes no representation or warranty as to the accuracy of the list.)
NEC Corp
Original Assignee
NEC Corp
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by NEC Corp filed Critical NEC Corp
Publication of JPWO2008007616A1 publication Critical patent/JPWO2008007616A1/ja
Withdrawn legal-status Critical Current

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/93Discriminating between voiced and unvoiced parts of speech signals

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Signal Processing (AREA)
  • Telephone Function (AREA)

Abstract

本発明の目的は、無音声発声の入力装置の装着者が無音声発声を意図しているにも関わらず、実際には通常発声を行ってしまうことを検出し警告を出す装置の提供することである。無音声発声を入力する無音声発声入力デバイス(11)と、無音声発声入力デバイスからの入力信号が通常発声であるか否か判定する判定部(12)と、判定部の判定結果を受け、判定結果が通常発声である場合に警告を出力する警告部(13)と、を備え、通常発声が行われた場合に装着者に対して警告を行う。

Description

(関連出願)本願は、先の日本特許出願2006−193010号(2006年7月13日出願)の優先権を主張するものであり、前記先の出願の全記載内容は、本書に引用をもって繰込み記載されているものとみなされる。
本発明は、無音声発声の入力警告装置と方法、およびプログラムに関する。
従来より、第三者に聞き取ることが困難なように発声された音声を入力する、無音声入力装置が提案されている。
例えば非特許文献1では、非可聴つぶやき音(Non−Audible Murmur;「NAM」という)を入力するデバイスであるNAMマイクロフォンが開示されている。NAMマイクロフォンは、NAMに限らず、体内伝導通常音声(Body Transmitted Ordinary Speech;「BTOS」という)も入力することが可能である。
また、NAMに関連して、例えば特許文献1には、無音発声入力部で入力した無音発声音声のスペクトル包絡に関する特徴量を抽出し、抽出された特徴量を用いて無音声発声を変換(通常音声や、他者の特徴を持つ通常音声に変換)する技術が開示されている。特許文献2では、NAMマイクロフォンで入力したNAM信号を音声認識し、認識候補を音声合成で出力して確認する技術が開示されている。特許文献3には、可聴音信号を収集する第1のマイクロフォンと、非可聴音信号(NAM)を収集する第2のマイクロフォンと、第1、第2のマイクロフォンから入力された信号を記憶する記憶手段を備え、非可聴音によって構築された音響モデルに基づいて、第2のマイクロフォンから入力された信号に対し音声認識を行い、音声認識結果のテキストを合成音声し、通常音声とみなして録音する技術が開示されている。なお、特許文献3には、第1、第2のマイクロフォンからそれぞれ入力された信号に基づき、可聴音、非可聴音の存在する区間をそれぞれ表示する構成が開示されている。さらに、特許文献4では、NAMマイクロフォンの音声を音声認識し、認識モデル等からマイクロフォン装着位置を最適に導く技術が開示されている。
特開2005−173476号公報 特開2005−33568号公報 特開2005−140858号公報 特開2005−140860号公報 中島ほか「微弱体内伝導音抽出による無音声認識」日本音響学会講演論文集、2003年3月、3−Q−12、pp.175−176 古井、「ディジタル音声処理」、東海大学出版会、pp.69−72、1985年
なお、上記特許文献1〜4、非特許文献1〜2の全開示内容はその引用をもって本書に繰込み記載する。
ところで、NAMマイクロフォンを使う場合に、装着者すなわち発声者がNAM発声するか通常発声するかは、装着者が意識して、発声し分けなければならない。
このため、本来、NAM発声すべき状況において、発声者(NAMマイクロフォンの装着者)が誤って通常発声を行ってしまうことが起こり得る。このような場合に対して、NAM発声すべき状況であることを、直ちに発声者に警告する手段の実現が望まれる。
なんとなれば、NAM発声すべき状況であるにもかかわらず、誤って発声者がずっと通常発声を行うと、発声内容が第三者に聞き取られてしまう等、予期せぬ不都合、不具合を招くことにもなるからである。
したがって、本発明の目的は、NAM等の無音声発声を入力する入力装置の装着者からの発声が通常発声であるかを判別し、装着者が意図した通りの発声を行うことを可能とする装置、方法、プログラムを提供することにある。
本願で開示される発明は、前記課題を解決するため、概略以下の構成とされる。
本発明の1つのアスペクトに係るシステムは、少なくとも無音声発声信号を入力する入力部と、前記入力部から入力された信号の特性を分析する分析部と、前記分析部での分析結果が、通常発声に相等する特性に該当するものであるか判別することで、通常発声が入力されたか否かを判定する判定部と、を備えている。
本発明において、前記分析部は、前記入力部から入力された信号を、区間毎に分析し、予め定められた個数の区間にわたって連続して通常発声に対応する特性が続く場合に、前記判定手段は、無音声発声ではなく、通常発声が入力されたと判定する。
本発明において、前記判定結果が通常発声である場合に警告を出力する警告部を備えている。
本発明の1つのアスペクトに係る装置は、音声発声を入力する無音声発声入力デバイスと、前記無音声発声入力デバイスからの入力信号が通常発声であるか否か判定する判定部と、前記判定部の判定結果を受け、判定結果が通常発声である場合に警告を出力する警告部と、を備えている。
本発明において、前記判定部は、入力信号のパワーが予め定められた閾値以下の場合、通常発声以外であると判定する。
本発明において、前記判定部は、前記入力信号の自己相関関数値の最大値を算出し、前記最大値が予め定められた値以下の場合、通常発声以外である、と判定する。
本発明は、通常音声を入力する通常音声入力デバイスを備え、前記判定部は、前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号を用いて、通常発声であるか否かを判定する。
本発明において、前記無音声発声入力デバイスは、無音声発声用のマイクロフォンである。
本発明において、通常音声入力デバイスは、空気中を伝播してきた音声を入力する通常マイクロフォンである、ことを特徴とする。
本発明において、前記判定部は、前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号の相互相関関数値の最大値が予め定められた値以上であれば、通常発声であると判定することを特徴とする。
本発明において、前記判定部は、前記無音声発声入力デバイスから入力される信号のピッチ周波数と、前記通常音声入力デバイスから入力される信号のピッチ周波数が一致していれば、通常発声であると判定する。
本発明において、前記判定部は、前記無音声発声入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外である、と判定し、前記入力信号のパワーが予め定められた閾値よりも大の場合には、前記通常音声入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外である、と判定し、前記通常音声入力デバイスから入力される信号のパワーが予め定められた閾値よりも大の場合には、前記無音声発声入力デバイスから入力される信号の自己相関関数値の最大値を算出し、前記自己相関関数値の最大値が予め定められた閾値以下である場合に、通常発声以外である、と判定し、前記自己相関関数値の最大値が予め定められた閾値よりも大の場合には、前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号の相互相関関数を計算し、前記相互相関関数値の最大値が予め定められた値以上である場合に、通常発声である、と判定し、前記相互相関関数値の最大値が予め定められた値よりも小の場合に、通常発声以外である、と判定する、ようにしてもよい。
本発明において、前記無音声発声入力デバイスより入力された信号を、通常音声に変換する音声変換部と、前記音声変換部による変換後の通常音声を出力する出力デバイスと、を備え、前記無音声発声入力デバイスより入力された信号を前記音声変換部で通常音声に変換して前記出力デバイスを介して装着者にフィードバックを行い、前記無音声発声入力デバイスより入力された信号が通常発声であると判定した場合には、前記警告部が前記出力デバイスより警告を装着者に知らせる構成としてもよい。本発明において、前記出力デバイスをヘッドフォンとしてもよい。
本発明において、前記音声変換部と前記出力デバイスの間に、装着者へのフィードバックを抑圧する抑圧部を備え、前記警告部が前記出力デバイスから警告を発する時には、前記音声変換部からの通常音声の前記出力デバイスへのフィードバックが抑圧される。
本発明において、前記無音声発声入力デバイスから入力された信号のパワーを計算するパワー計算部を備え、前記判定部は、前記パワー計算部で求めたパワー値が、予め定められた閾値よりも大きい場合、入力された音声の該当フレームは、通常発声であると判定する。
本発明においては、前記無音声発声入力デバイスから入力された信号のパワーを計算するパワー計算部を備え、前記パワー計算部の出力は前記判定部に供給され、無音声発声時にオン状態とされる第1のスイッチを介して前記パワー計算部に接続され、前記パワー計算部から出力されるパワーを保持する第1のパワー保持部と、通常発声時にオン状態の第2のスイッチを介して前記パワー計算部に接続され、前記パワー計算部から出力されるパワーを保持する第2のパワー保持部と、前記第1及び第2のパワー保持部の値から、閾値を導出する閾値計算部を備え、前記閾値計算部で導出された閾値が、前記判定部に供給され、前記判定部は、前記パワー計算部からの出力を前記閾値計算部で導出された前記閾値と比較して、通常発声であるか否かを判定する、構成としてもよい。
本発明において、前記第1、第2のパワー保持部は、それぞれ、前記第1、第2のスイッチがオンの間、複数の時間区間の第1、第2のパワー値の系列をそれぞれ保持し、前記閾値計算部は、前記第1及び第2のスイッチの両方がオフとされた場合、前記第1、第2のパワー値の系列に関してパワーの出現頻度に対して最尤推定により、閾値を求める、ようにしてもよい。
あるいは、本発明においては、前記無音声発声入力デバイスから入力された信号のパワーを計算するパワー計算部を備え、前記パワー計算部の出力は前記判定部に供給され、前記パワー計算部から出力されるパワーの系列を保持するパワー保持部と、前記パワー保持部に保持されるパワーの系列から閾値を導出する閾値計算部と、を備え、前記閾値計算部で導出された閾値が、前記判定部に供給され、前記判定部は、前記パワー計算部からの出力を前記閾値計算部で導出された前記閾値と比較して、通常発声であるか否かを判定し、前記閾値計算部は、前記パワー保持部に保持されるパワーの出現頻度を計算し、出願頻度の最大のピークと第2のピークの間で最小値を取るパワーの値を、閾値として計算する構成としてもよい。
本発明において、前記無音声発声入力デバイスから入力された信号の自己相関関数値を計算する自己相関計算部を備え、前記判定部は、前記自己相関計算部で求めた自己相関関数値が、予め定められた閾値よりも大きい場合、入力された音声の該当フレームは、通常発声であると判定する、構成としてもよい。
本発明において、前記判定部は、前記自己相関計算部で求めた自己相関関数値の最大値が予め定められた閾値よりも大きいフレームが、予め定められた個数以上連続した場合、通常発声であると判定するようにしてもよい。
本発明において、前記判定部は、前記自己相関計算部で求めた自己相関関数値の最大値と最小値の比が予め定められた閾値よりも大きいフレームが、予め定められた個数以上連続した場合、通常発声であると判定するようにしてもよい。
本発明において、前記無音声発声入力デバイスから入力された信号の自己相関関数値を計算する自己相関計算部と、自己相関計算部の出力から有音か否かを判定する有音声判定部と、前記無音声発声入力デバイスから入力された信号のピッチ周波数を計算するピッチ周波数計算部と、を備え、前記判定部は、前記有音声判定部の出力とピッチ周波数計算部の出力を受け、通常発声であるか否かを判定する、ようにしてもよい。
本発明において、前記有音声判定部は、自己相関関数値の最大値が予め決めた値以上であるフレームが予め定められた所定数以上連続する場合に、該当区間を有声区間であると判定し、前記判定部は、前記有音声判定部で有声区間であると判断された区間で、かつ、ピッチ周波数が所定周波数の範囲内である区間を通常発声であると判定する、ことを特徴とする。
本発明において、前記無音声発声入力デバイスから入力された信号のパワーを計算する第1のパワー計算部を備え、前記通常音声入力デバイスから入力された信号のパワーを計算する第2のパワー計算部を備え、前記判定部は、前記第1のパワー計算部と前記第2のパワー計算部の出力を受け、閾値から、通常発声か否かを判定する、構成としてもよい。
本発明において、前記判定部は、前記第1のパワー計算部の出力が第1の閾値よりも大であり、前記第2のパワー計算部の出力が第2の閾値よりも大のとき、通常発声であると判定する。
本発明において、前記無音声発声入力デバイスから入力された信号と通常音声入力デバイスから入力された信号の相関を計算する相関計算部を備え、前記判定部は、前記相関計算部の出力と閾値から、通常発声か否かを判定する、ようにしてもよい。
本発明において、振動を検出するセンサを備え、前記センサの出力が前記判定部に供給され、前記センサで振動又は加速度の検出時、前記判定部では、通常発声であると判定しないように制御する構成としてもよい。
本発明の他のアスペクトに係る方法は、少なくとも無音声発声を入力する入力デバイスから入力された信号の特性を分析する工程と、分析結果が通常発声に相等する特性に該当するか判断することで、通常発声が入力されたか否かを判定する工程と、前記判定の結果が通常発声である場合に警告を出力する工程と、を含む。
本発明に係る方法において、入力信号のパワーが予め定められた閾値以下の場合、通常発声以外であると判定する。
本発明に係る方法において、前記入力信号の自己相関関数値の最大値を算出し、前記最大値が予め定められた値以下の場合、通常発声以外である、と判定する。
本発明に係る方法において、前記無音声発声を入力する入力デバイスから入力される信号と、通常音声を入力する入力デバイスから入力される信号を用いて、通常発声であるか否かを判定する。本発明において、前記無音声発声を入力する入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外であると判定し、前記入力信号のパワーが予め定められた閾値よりも大の場合には、前記通常音声を入力する入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外であると判定し、前記通常音声を入力する入力デバイスから入力される信号のパワーが予め定められた閾値よりも大の場合には、前記無音声発声を入力する入力デバイスから入力される信号の自己相関関数値の最大値を算出し、前記自己相関関数値の最大値が予め定められた閾値以下である場合に、通常発声以外であると判定し、前記自己相関関数値の最大値が予め定められた閾値よりも大の場合には、前記無音声発声を入力する入力デバイスから入力される信号と、前記通常音声を入力する入力デバイスから入力される信号の相互相関関数値の最大値を求め、前記相互相関関数値の最大値が予め定められた値以上である場合に、通常発声であると判定し、前記相互相関関数値の最大値が予め定められた値よりも小の場合に、通常発声以外であると判定するようにしてもよい。
本発明に係るコンピュータプログラムは、無音声発声の入力装置を構成するコンピュータに、少なくとも無音声発声を入力する入力デバイスから入力された信号の特性を分析する処理と、分析結果が通常発声に相等する特性に該当するか判断することで、通常発声が入力されたか否かを判定する判定処理と、前記判定の結果が通常発声である場合に警告を出力する処理と、を実行させるプログラムよりなる。
本発明に係るプログラムにおいて、前記判定処理は、入力信号のパワーが予め定められた閾値以下の場合、通常発声以外であると判定する。
本発明に係るプログラムにおいて、前記判定処理は、前記入力信号の自己相関関数値の最大値を算出し、前記最大値が予め定められた値以下の場合、通常発声以外である、と判定する。
本発明に係るプログラムにおいて、前記無音声発声を入力する入力デバイスから入力される信号と、通常音声を入力する入力デバイスから入力される信号を用いて、通常発声であるか否かを判定する。
本発明によれば、無音声発声入力デバイスからの入力信号が、通常発声かNAM発声かを判断して、通常発声の場合は装着者に警告を行うことで、装着者は、意図した発声、すなわち無音声発声を継続かつ安定して行うことが可能となる。
本発明によれば、無音声発声入力デバイスに加えて通常のマイクロフォンを用いることで、より確かな判断を行うことができる。
また本発明によれば、無音声発声入力デバイスからの入力信号を通常発声に変換して常時フィードバックしておき、入力が通常発声の場合には、フィードバック音声に重畳するか、あるいは、フィードバック音声に割り込んで、装着者に警告することで、装着者は、無音声発声を継続かつ安定して行うことが可能となる。
本発明の第1の実施例の構成を示す図である。 本発明の第2の実施例の構成を示す図である。 本発明の第1の実施例における判定部の動作フローを表す流れ図である。 本発明の第3の実施例の構成を示す図である。 本発明の第4の実施例の構成を示す図である。 本発明の第5の実施例の構成を示す図である。 本発明の第6の実施例を説明するための図である。 本発明の第7の実施例を説明するための図である。 本発明の第8の実施例の構成を示す図である。 本発明の第7の実施例を説明するための図である。 本発明の第9の実施例を説明するための図である。 本発明の第10の実施例の構成を示す図である。 本発明の第11の実施例の構成を示す図である。 本発明の第11の実施例を説明するための図である。 本発明の第12の実施例の構成を示す図である。 本発明の第13の実施例の構成を示す図である。
符号の説明
11 無音声発声入力デバイス
12、12A、12B、12C、12D、12E、12F、12G 判定部
13 警告部
14 通常マイクロフォン
15 音声変換部
16 ヘッドフォン
17 抑圧部
18 NAM音声パワー計算部
19 NAM発声学習スイッチ
20 通常発声学習スイッチ
21 NAM音声パワー保持部
22 通常音声パワー保持部
23 閾値計算部
24 自己相関計算部
25 ピッチ周波数計算部
26 有音声判定部
27 通常音声パワー計算部
28 相互相関計算部
29 振動センサ
上記した本発明についてさらに詳細に説述すべく、添付図面を参照して以下に説明する。本発明は、その好ましい一実施形態において、無音声発声を入力する無音声発声入力デバイス(11)と、前記無音声発声入力デバイスからの入力信号が通常発声であるか否か判定する判定部(12)と、前記判定部の判定結果を受け、判定結果が通常発声である場合に警告を出力する警告部(13)と、を備えている。
本発明は、一実施形態の構成に加え、通常マイクロフォン(図2の14)を備えた構成としてもよい。
さらに、本発明は、別の実施形態において、無音声発声入力デバイスからの信号を通常音声に変換する音声変換部(図4の15)と、音声変換部の音声出力又は警告部(13)の出力を受ける出力デバイス(図4の16)と、警告部からの警告出力時、音声変換部からの音声出力を抑圧する抑圧部(図4の17)とを備えている。以下、実施例に即して説明する。
図1は、本発明の第1の実施例の構成を示す図である。図1を参照すると、本実施例は、無音声発声入力デバイス11と、判定部12と、警告部13を備えている。
無音声発声入力デバイス11は、無音声発声を入力することを目的とするが、無音声発声以外の信号も入力することが可能である。
無音声発声入力デバイス11としては、好ましくは、NAMマイクロフォンが用いられる。なお、NAMマイクロフォン以外にも、咽頭マイクロフォン、接話型マイクロフォンなどの無音声発声を入力可能なデバイスを用いても良い。
無音声発声入力デバイス11で入力された信号(音声帯域信号)101は、判定部12に入力される。信号(音声帯域信号)101は、無音声発声音声として出力される。
判定部12は、入力された信号101を逐次処理し、
・波形の周期性の有無、
・波形の自己相関係数、
・波形の平均パワー
のうち1つ以上を用いて、該入力音声が、通常発声であるか否かを判定する。その際、該入力音声が、通常発声であるか、無音声発声か、それ以外の信号であるかを判定するようにしてもよい。
ここで、
・「無音声発声」とは、話者が、第三者に聞き取ることが困難なように発声された音声である。
・「通常発声」とは、人の発声のうち、無音声発声以外の発声である。
・「それ以外の信号」とは、雑音や心臓音など、人の発声したものでない信号のことをいう。
判定部12は、入力音声が通常発声であると判定した場合、判定結果を警告部13に送る。警告部13は、判定部12から、入力音声が通常発声であるという判定結果を受け取ると、装着者に対して、「通常発声が行われていること」を、警告出力する。
なお、本実施例において、判定部12による判定は、
・通常発声、
・無音声発声、
・これら以外、
の3択に限定されるものではないことは勿論である。通常音声を、他(通常音声以外)から弁別できさえすればよい。
特に制限されないが、本実施例では、警告部13として、例えばブザーが用いられる。あるいは、ヘッドフォン、スピーカその他の音響デバイス、バイブレータなどの振動デバイス、LED(発光ダイオード)やLCD(液晶表示装置)などの光学デバイス、旗を上げるなどの視覚的伝達デバイス、システム外部への電気信号等でもよい。
本実施例において、判定部12における動作は、上記に限定されるものではない。例えば、無音声発声と通常発声とその他の信号に対応した音響モデルを備えた音声認識装置を用いて、認識尤度の大小によって、通常音声の判定を行うようにしてもよい。
なお、本実施例において、判定部12は、コンピュータにより実行されるプログラムによりその処理・機能を実現し、あるいは、警告部13等のハードウエア回路(ブザー、ヘッドフォン、スピーカ等、あるいはLCD等)を制御するようにしてもよいことは勿論である。この場合、判定部12、警告部13はソフトウエアによる制御システムとして実装される。そして、判定部12において、無音声発声入力デバイス11から入力された信号101がアナログ信号の場合、判定部12に内蔵される、不図示のA/Dコンバータにてデジタル信号に変換し、不図示のCPU(Central Processing Unit)又はDSP(Digital Signal Processor)によるデジタル信号処理により、周期性、自己相関、パワー等の特性を求め、判定処理を行う。
次に、本発明の第2の実施例を説明する。図2は、本発明の第2の実施例の構成を示す図である。本実施例は、前記第1の実施例に加えて、本発明における通常音声入力デバイスを構成する通常マイクロフォン14を備えている。
通常マイクロフォン14は、無音声発声入力デバイス11とは異なり、空気中を伝播してきた音声のみを入力するマイクロフォンである。通常マイクロフォン14は、一般に、装着者の口唇の近くに装着される。好ましくは、ハンズフリーマイクが用いられる。通常マイクロフォン14から入力された音声信号102は、判定部12に入力される。
判定部12は、無音声発声入力デバイス11から入力された信号101と通常マイクロフォン14から入力された信号102とを入力とし、これら2つの信号を比較し、信号101が通常発声であるか、通常発声以外の信号であるかを判定する。
本実施例では、判定部12では、同じ時刻に対応する信号101と信号102を、一定時間区間毎(フレーム単位)に切り出し、図3に示す流れ図のアルゴリズムによって判定を行う。以下、図3のアルゴリズムの内容を説明する。
はじめに、与えられた時間区間の信号101と信号102の区間平均パワーを計算し(ステップS11)、各々の区間平均パワーが予め定められた規定値(閾値)以下の場合、無発声区間であることから、通常発声以外の信号と判定する(ステップS20)。すなわち、信号101の音声パワーが予め定められた閾値(第1の閾値)以下か否か判定し(ステップS12)、閾値以下の場合、ステップS20へ移行する。信号102の区間パワーが、予め定められた閾値(第2の閾値)以下か否か判定し(ステップS13)、閾値以下の場合、ステップS20(通常発声以外の信号と判定)へ移行する。
信号101、102の区間平均パワーがそれぞれ予め定められた閾値以上の場合、NAM音声の自己相関関数を計算し(ステップS14)、自己相関関数値の最大値を有声性の値とする(ステップS15)。すなわち、信号101の周期性を計算する。
ステップS16の判定の結果、信号101の周期性が、予め定められた閾値(第3の閾値)よりも、周期性が低い場合には、ステップS20に移行する(通常発声以外の信号と判定する)。これは、無声音であって無音声発話と通常発声の区別がつかないためである。一方、ステップS16の判定の結果、有声性の値が閾値より大の場合、ステップS17に移行し、信号101と信号102の相互相関関数値を計算する。
相互相関関数値の最大値が予め定められた閾値(第4の閾値)よりも大であるか否か判定し(ステップS18)、大の場合のみ、該当区間を通常発声であると判定する(ステップS19)。
該当区間を通常発声であると判定するのは、NAM音声の区間平均パワーが閾値(第1の閾値)より大であり、通常音声の区間平均パワーが閾値(第2の閾値)より大であり、NAM音声の自己相関の値が閾値(第3の閾値)より大であり、相互相関の値が閾値(第4の閾値)より大である場合とされる。
本実施例によれば、信号101と信号102の相互相関関数を計算することで、通常発声であるか否かを判別しているため、身体を動かすことによって発生する雑音等の影響を低減して、より確実な判定を行うことができる。
次に、本発明の第3の実施例について説明する。図4は、本発明の第3の実施例の構成を示す図である。本実施例は、第2の実施例に加えて、音声変換部15と、ヘッドフォン16、抑圧部17を備える。
音声変換部15は、無音声発声入力デバイス11からの信号101を、通常音声に変換する。これは、例えば特許文献1等に記載された手法による。
音声変換部15で通常音声に変換された信号103は、そのままヘッドフォン16において、装着者にフィードバックされる(自分が発生した音声を聞くことができる)。このフィードバックは、特に、周囲がうるさい音環境の場合にも、装着者が安定した発声を行うことを助ける。
判定部12が、該信号101を通常発声と判定した場合、警告部13は、警告音信号を生成しヘッドフォン16に出力するとともに、抑圧部17は、音声変換部15の出力を抑圧する。これにより、装着者は、常時、フィードバックを聞いているヘッドフォン16から警告音を聞くことになり、周囲の人に察知されることなく、通常発声を行ってしまったことを知ることができる。その結果、装着者は、通常発声を止め無音声発声に移行することが、簡単かつ迅速にできる。
抑圧部17は、単に信号を止めて無音にするスイッチで構成してもよいし、音量を下げるように動作しても良い。
警告部13が生成する警告音信号は、ビープ音やサイレン音、通常発話を行っている旨を知らせる録音音声などを用いることが可能である。
ヘッドフォン16は、通常の音響用ヘッドフォン以外に、片耳イヤホンや、骨伝導ヘッドフォンなどを用いても良い。
例えば無音声発声入力デバイス11としてNAMマイクロフォン、ヘッドフォン16として音響用ヘッドフォンを用いると、種類が異なるために無用の音響結合が生じ難いという効果を得ることができる。
無音声発声入力デバイス11とヘッドフォン16は、一体として装着できるようになっていてもよい。あるいは、一つのデバイスを双方向に使用することで共用してもよいことは勿論である。なお、本実施例において、音声変換部15、抑圧部17、判定部12、警告部13は、コンピュータ(CPU)で実行されるプログラムによりその処理・機能を実現するようにしてもよい。
以上、本発明の実施例を説明したが、無音声発声入力デバイス11から入力された信号より通常音声を検出する手法は、上記手法に限定されるものでなく、さらに、いくつかの手法を用いることができる。以下に説明する。
本発明の第4の実施例について説明する。図5は、本発明の第4の実施例の構成を示す図である。図5を参照すると、無音声発声入力デバイス11と、NAM音声パワー計算部18と、判定部12Aを備えている。本実施例は、図1の判定部12を、NAM音声パワー計算部18と、判定部12Aで構成したものである。
無音声発声入力デバイス11は例えばNAMマイクよりなり、音声を入力する。NAM音声パワー計算部18は、無音声発声入力デバイス11から入力された音声の、短時間rms(root mean square)パワー(パワーの実効値)を計算する。このrmsパワーの計算にあたり、
・分析フレーム長は200msecとし、
・フレームのオーバラップは無しとする。
サンプリング周波数16kHzの場合、3200サンプル毎に分析を行う。該当フレームに対して、ハニング窓(Hanning Window)を掛け、rmsパワーを計算する。
判定部12は、該当フレームの短時間rmsパワーが、予め定められた閾値よりも大きい場合、入力された音声の該当フレームは、通常発声であると判定する。NAM発声よりも通常発声の方がパワーが大きいため、これによって、通常発声していることを検出できる。なお、本実施例において、NAM音声パワー計算部18、判定部12は、コンピュータ(CPU)で実行されるプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第5の実施例について説明する。図6は、本発明の第5の実施例の構成を示す図である。図6を参照すると、本実施例は、NAMマイクよりなる無音声発声入力デバイス11と、NAM音声パワー計算部18と、NAM発声学習スイッチ19と、通常発声学習スイッチ20と、NAM音声パワー保持部21と、通常音声パワー保持部22と、閾値計算部23と、判定部12Bを備える。NAM音声パワー保持部21は、NAM発声学習スイッチ19がオンの時、NAM音声パワー計算部18から出力される、短時間rmsパワーの値を受け取って記憶する。
一方、通常音声パワー保持部22は、通常発声学習スイッチ20がオンの時、NAM音声パワー計算部18の出力である短時間rmsパワーを受け取って記憶する。
特に制限されないが、NAM発声学習スイッチ19と、通常発声学習スイッチ20は、押下でオンするボタン・スイッチ等で構成してもよい。スイッチ19、20は押下でオン・オフとトグルするトグル・スイッチであってもよい。
閾値計算部23は、NAM音声パワー保持部21が記憶するNAM発声の短時間rmsパワーPnと、通常音声パワー保持部22が記憶する通常発声の短時間rmsパワーPtとから、次式(1)にしたがって、閾値Pthを求める。
Pth = ( Pn + Pt ) / 2 ・・・(1)
上記のように、閾値Pthを導出することで、予め使用前に、ユーザがNAM発声と通常発声の典型的なパワーを学習することができ、判定精度を向上することができる。なお、本実施例において、NAM音声パワー計算部18、閾値計算部23、判定部12は、コンピュータ(CPU)で実行されるプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第6の実施例について説明する。本実施例は、前記第5の実施例の変形であり、閾値の計算を学習した複数フレームに対して行う。なお、本実施例の構成は、図6と同様とされる。図7は、本発明の第6の実施例を説明するための図である。NAM音声パワー保持部21は、NAM発声学習スイッチ19がオンの間、複数のフレームについて短時間rmsパワーの値Pn(1),Pn(2),...,Pn(Nn)をそれぞれ保持する。
本実施例において、通常音声パワー保持部22は、通常発声学習スイッチ20がオンの間、複数のフレームについて短時間rmsパワーの値Pt(1),Pt(2),..., Pt(Nt)をそれぞれ保持する。
NAM発声学習スイッチ19と通常発声学習スイッチ20の両方がオフとされた時点で、閾値計算部23は、最尤推定法によって、{Pn(1),Pn(2),...,Pn(Nn)}の系列と、{Pt(1),Pt(2),...,Pt(Nt)}の系列の閾値を計算する。すなわち、図7(横軸:パワー、縦軸:出現頻度)に示したように、NAM音声nパワーの出願頻度、通常音声のパワーの出現頻度に対して、最尤推定により閾値(図7の矢線で示す)を求める。かかる構成により、判定部12Bにおいて判定の基準となる閾値の精度を向上できる。
次に、本発明の第7の実施例について説明する。本実施例は、前記第5の実施例のように、NAM発声学習スイッチ19と通常発声学習スイッチ20をそれぞれ押下して、学習するのではなく、NAMマイクロフォン等の無音声発声入力デバイス11を利用中に、通常音声判定用の閾値を、逐次学習する構成とされている。図8は、本発明の第7の実施例を説明するための図である。なお、本実施例は、図6において、通常発声学習スイッチ20と通常音声パワー保持部22を削除した構成としてもよい。
NAM音声パワー保持部21は、NAM発声学習スイッチ19がオン時に、複数のフレームについて、短時間rmsパワーの値P(1),P(2),...,P(N)を保持する。
閾値計算部23は、短時間rmsパワーの系列{P(1),P(2),...,P(N)}のヒストグラム(出現頻度)を計算し、図8に示すように、出現頻度の最大のピークと第2のピークの間で最小値を取る短時間rmsパワーの値を、判定部12B(図6参照)での閾値として計算する。
本実施例によれば、通常音声判定用の閾値を事前に設定したり、予め学習することなく、装置の利用中に、閾値を学習することができ、利便性、操作性、使用効率を向上させる。
次に、本発明の第8の実施例について説明する。図9は、本実施例の構成を示す図である。図9を参照すると、本実施例は、自己相関係数で有声性を検出するものであり、無音声発声入力デバイス11と、自己相関計算部24と、判定部12Cとを備えている。
本実施例において、無音声発声入力デバイス11はNAMマイクよりなり、音声を入力する。自己相関計算部24は、無音声発声入力デバイス11から入力された音声の自己相関関数を計算する。この時、
・分析フレーム長は200msecとする。
・フレームのオーバラップは無しとする。
・自己相関関数の計算範囲は、3msecから20msecとする。
すなわち、無音声発声入力デバイス11から入力された音声x(i)の自己相関関数
Rx(τ)=(1/N)ΣN-1 i=0[x(i + τ)x(i)] ・・・(2)
を遅れ時間τとして例えば3msecから20msecの各値について求める(遅れ時間τの分解能は任意)。Nは例えば1フレーム期間のサンプル数に対応する。
本実施例において、判定部12Cは、各フレーム毎に、自己相関計算部24で計算された自己相関関数値の最大値を求める。例えば3msecから20msecの範囲の各遅れ時間τの複数の自己相関関数値Rx(τ)の中から、値が最大の自己相関関数値を求める。そして、自己相関関数値の最大値が予め定められた閾値以上であるフレームが、例えば3個以上連続する範囲を有声性が高いので、通常発声であると判定する。
かかる構成の本実施例によれば、文末付近などのように弱いパワーで通常発声された場合にも、通常発声を検出することができる。
図10(a)は、自己相関計算部24が求めた自己相関関数値の一例を示す図であり、横軸が遅れ(τ)、縦軸は、自己相関関数値である。図10(b)は、自己相関関数値の時間推移を示す図であり、横軸の一つの時間区間はフレームであり、縦軸は自己相関関数値である。図10(b)において、4フレーム連続して閾値以上であるため通常発声であると判定する。本実施例において、自己相関計算部24と、判定部12は、コンピュータ(CPU)で実行されるプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第9の実施例を説明する。本発明の第9の実施例の構成は、図9に示した前記第8の実施例と同一である。図11(a)、図11(b)は、本発明の第9の実施例の変形例を説明する図である。
本実施例において、判定部12は、各フレーム毎に、自己相関計算部24が求めた自己相関関数値の最大値A(t)と最小値B(t)を求め、その比h(t)を計算する。
h(t) = A(t) / B(t) ・・・(3)
本実施例においては、時間的に連続した3フレームで、比h(t)が、全て閾値(例えば2.0)以上であれば、該当区間を通常発声と判定する。
かかる構成の本実施例によれば、文末付近などのように弱いパワーで通常発声された場合にも、通常発声を安定して検出することが可能となる。
次に、本発明の第10の実施例について説明する。図12は、本発明の第10の実施例の構成を示す図である。図12を参照すると、本実施例は、無音声発声入力デバイス11と、自己相関計算部24と、判定部12Dと、ピッチ周波数計算部25、有音声判定部26とを備えている。
本実施例においては、1つの無音声発声入力デバイス11(NAMマイク)のみを備え、ピッチ周波数と、有声/無声の別との両者を用いて判定することで、誤判定を減少させる。ピッチ周波数計算部25は、変形相関法(非特許文献2)等を用いて、入力音声のピッチ周波数を計算する。この時、
・分析フレーム長は200msecとし、
・フレームのオーバラップは無しとする。
自己相関計算部24は、同じ入力音声の各フレームに対して、自己相関関数を計算する。自己相関関数の計算範囲は、3msecから20msecとする。
有音声判定部26は、各フレーム毎に、自己相関計算部24が求めた自己相関関数値の最大値を求め、該自己相関関数値の最大値が予め決めた値以上であるフレームが3以上連続する場合に、該当区間を有声区間であると判定する。
判定部12Dは、
・有音声判定部26で「有声区間である」と判断された区間であり、且つ、
・ピッチ周波数が50Hz〜300Hzの範囲内である区間を、
「通常発声である」と判定する。
かかる構成の本実施例によれば、例えば文末付近などのように弱いパワーで通常発声された場合にも、通常発声を安定して検出することが可能となる。
なお、本実施例において、自己相関計算部24と、判定部12Dと、ピッチ周波数計算部25、有音声判定部26は、コンピュータ(CPU)上で動作するプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第11の実施例について説明する。図13は、本発明の第11の実施例の構成を示す図である。図13を参照すると、本実施例は、無音声発声入力デバイス11と、NAM音声パワー計算部18と、通常マイクロフォン14と、通常音声パワー計算部27と、判定部12Eを備えている。本実施例は、2マイクで、NAMマイク入力音声のパワーと、通常マイク入力音声のパワーを利用するものである。無音声発声入力デバイス11(NAMマイク)と通常マイクロフォン14は、音声を入力する。ここで、NAMマイクは、耳付近の体表面に貼りつけて固定し、通常マイクロフォン14は口の近傍に配置する。
NAM音声パワー計算部18は、NAMマイク11から入力された音声の、短時間rmsパワーPnを計算する。通常音声パワー計算部27は、通常マイクロフォン14から入力された音声の、短時間rmsパワーPmを計算する。
この時、
・フレーム長は200msecとし、
・フレームのオーバラップは無しとする。
該当フレームに対して、ハニング窓(Hanning Window)を掛け、rmsパワーを計算する。
判定部12Eは、パワーPn、Pmと、予め与えられた2種類の閾値Pth1とPth2とを用いて、例えば図14に示す条件で判定を行う。
・(Pth1<Pn)且つ(Pth2<Pm)の場合、通常音声、
・(Pth1≧Pn)且つ(Pth2<Pm)の場合、外来雑音、
・(Pth1<Pn)且つ(Pth2≧Pm)の場合、NAM発声又は無声音、
・(Pth1≧Pn)且つ(Pth2≧Pm)の場合、無音、
と判定する。
すなわち、(Pth1<Pn)且つ(Pth2<Pm)の時のみ、通常発声であると判定する。これによって、装着者以外の音源による外来雑音を排除して、安定して通常発声を検出することが可能となる。
なお、本実施例において、NAM音声パワー計算部18と、通常音声パワー計算部27と、判定部12Eは、コンピュータ(CPU)上で動作するプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第12の実施例について説明する。図15は、本発明の第12の実施例の構成を示す図である。図15を参照すると、本実施例は、無音声発声入力デバイス11(NAMマイク)と、通常マイクロフォン14と、相互相関計算部28と、判定部12Fを備える。2マイク構成で、NAMマイク入力音声と、通常マイク入力音声の相互相関が高いことで判断する。無音声発声入力デバイス11と通常マイクロフォン14は、音声を入力する。
相互相関計算部28は、各フレーム毎に、無音声発声入力デバイス11から入力されたNAM音声波形と、通常マイクロフォン14から入力された通常音声波形との相互相関係数を計算する。この時、
・フレーム長は200msecとし、
・フレームのオーバラップは無しとする。
なお、NAM音声x(i)と通常音声y(i)の相互相関関数
Rxy(τ)=(1/N)ΣN-1 i=0[x(i +τ)y(i)] ・・・(4)
を遅れ時間τとして例えば3msecから20msecの各値について求める(遅れ時間τの分解能は任意)。Nは例えば1フレーム期間のサンプル数に対応する。
判定部12Fは、相互相関関数値Rxy(τ)が、予め与えられた閾値よりも大の場合に、通常発声であると判定する。その際、相互相関関数値Rxy(τ)の最大値を、予め与えられた閾値と比較する。
本実施例によれば、通常音声とNAM音声の相互相関係数を求めることで、装着者以外の音源による外乱を排除して、安定して通常発声を検出することが可能となる。
なお、本実施例において、相互相関計算部28と、判定部12Fは、コンピュータ(CPU)上で動作するプログラムによりその処理・機能を実現するようにしてもよい。
次に、本発明の第13の実施例について説明する。図16は、本発明の第13の実施例の構成を示す図である。図16を参照すると、本実施例は、無音声発声入力デバイス11(NAMマイク)と、NAM音声パワー計算部18と、振動センサ29と、判定部12Gを備えている。
本実施例において、振動センサ29は、接触型製品(圧電センサ等の既製品)が用いられ、無音声発声入力デバイス11(NAMマイク)の装着者の体表面もしくは衣服に固定する。振動センサ29から判定部12Gに入力されるセンサ出力信号が、「振動有り」を示している場合には、判定部12Gは、通常発声であると判定しない。振動センサ29の代わりに、加速度センサを用いてもよい。加速度センサにより、装着者の身体を通して伝わった振動や身体の動きを、NAMマイクロフォンが拾い、この振動や身体の動きが、通常発声であると誤判定される、ことを防ぐことができる。
本実施例は、図5に示した前記第4の実施例に振動センサ29(又は加速度センサ)を付加したものであるが、かかる構成は、前記第6乃至第12の実施例に対しても、同様にして、適用できる。すなわち、振動センサ(又は加速度センサ)の出力を、各実施例のそれぞれの判定部に入力し、例えば振動センサで「振動有り」を示している場合には、判定部は、通常発声であると判定しないように制御を行う。
なお、本実施例において、NAM音声パワー計算部18と、判定部12Gは、コンピュータ(CPU)上で動作するプログラムによってその処理・機能を実現するようにしてもよい。
上記各実施例によれば、ユーザは、無音声発声を安定・容易に継続することが可能になるので、現在音声入力のできなかった状況・用途でも音声入力を行うことができる。例えば、電話の送話器や、コンピュータの音声認識入力などに適用可能である。
以上、本発明を上記実施例に即して説明したが、本発明は上記実施例の構成にのみ制限されるものでなく、本発明の範囲内で当業者であればなし得るであろう各種変形、修正を含むことは勿論である。
本発明の全開示(請求の範囲を含む)の枠内において、さらにその基本的技術思想に基づいて、実施形態ないし実施例の変更・調整が可能である。また、本発明の請求の範囲の枠内において種々の開示要素の多様な組み合わせないし選択が可能である。

Claims (20)

  1. 少なくとも無音声発声信号を入力する入力部と、
    前記入力部から入力された信号の特性を分析し、分析結果が、通常発声に相等する特性に該当するものであるか判別することで、通常発声が入力されたか否かを判定する判定部と、
    前記判定部での判定結果が通常発声である場合に警告を出力する警告部と、
    を備えている、ことを特徴とする無音声発声の入力警告装置。
  2. 前記入力部が、無音声発声を入力する無音声発声入力デバイスを備え、
    前記判定部は、前記無音声発声入力デバイスから入力された入力信号が通常発声であるか否かを判定する、ことを特徴とする請求項1記載の無音声発声の入力警告装置。
  3. 前記判定部は、前記無音声発声入力デバイスから入力された前記入力信号のパワー、又は、前記入力信号の自己相関関数値の最大値が予め定められた閾値以下である場合に、通常発声以外であると判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  4. 前記入力部が、通常音声を入力する通常音声入力デバイスをさらに備え、
    前記判定部は、前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号とを用いて、前記無音声発声入力デバイスから入力される信号が通常発声であるか否かを判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  5. 前記判定部は、前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号の相互相関関数値の最大値が予め定められた値以上であるか、前記無音声発声入力デバイスから入力される信号のピッチ周波数と、前記通常音声入力デバイスから入力される信号のピッチ周波数とが一致している場合に、通常発声であると判定する、ことを特徴とする請求項4記載の無音声発声の入力警告装置。
  6. 前記判定部は、
    前記無音声発声入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外であると判定し、
    前記入力信号のパワーが予め定められた閾値よりも大の場合には、
    前記通常音声入力デバイスから入力される信号のパワーが予め定められた閾値以下である場合に、通常発声以外であると判定し、
    前記通常音声入力デバイスから入力される信号のパワーが予め定められた閾値よりも大の場合には、
    前記無音声発声入力デバイスから入力される信号の自己相関関数値の最大値を算出し、
    前記自己相関関数値の最大値が予め定められた閾値以下である場合に、通常発声以外であると判定し、
    前記自己相関関数値の最大値が予め定められた閾値よりも大の場合には、
    前記無音声発声入力デバイスから入力される信号と、前記通常音声入力デバイスから入力される信号の相互相関関数値の最大値を求め、前記相互相関関数値の最大値が予め定められた値以上である場合に、通常発声と判定し、
    前記相互相関関数値の最大値が予め定められた値よりも小の場合に、通常発声以外であると判定する、ことを特徴とする請求項4記載の無音声発声の入力警告装置。
  7. 前記無音声発声入力デバイスより入力された信号を入力して通常音声に変換して出力する音声変換部と、
    前記音声変換部による変換後の通常音声を出力する出力デバイスと、
    を備え、
    前記無音声発声入力デバイスより入力された信号を前記音声変換部で通常音声に変換し前記出力デバイスを介して装着者に対してフィードバックを行い、
    前記無音声発声入力デバイスより入力された信号が通常発声であると判定した場合には、前記警告部が前記出力デバイスより警告を前記装着者に知らせる、ことを特徴とする請求項2乃至6のいずれか一に記載の無音声発声の入力警告装置。
  8. 前記音声変換部と前記出力デバイスとの間に、前記音声変換部から前記装着者への前記フィードバックを抑圧する抑圧部を備え、
    前記警告部が前記出力デバイスから警告を発する時には、前記音声変換部からの通常音声の前記出力デバイスへのフィードバックが抑圧される、ことを特徴とする請求項7記載の無音声発声の入力警告装置。
  9. 前記無音声発声入力デバイスから入力された信号のパワーを計算するパワー計算部を備え、
    前記パワー計算部の出力は前記判定部に供給され、
    無音声発生時にオン状態とされる第1のスイッチを介して前記パワー計算部に接続され、前記パワー計算部から出力されるパワーを保持する第1のパワー保持部と、
    通常発生時にオン状態の第2のスイッチを介して前記パワー計算部に接続され、前記パワー計算部から出力されるパワーを保持する第2のパワー保持部と、
    前記第1及び第2のパワー保持部にそれぞれ保持されるパワー値から、閾値を導出する閾値計算部を備え、
    前記閾値計算部で導出された閾値は前記判定部に供給され、
    前記判定部は、前記パワー計算部からの出力を、前記閾値計算部で導出された前記閾値と比較して、通常発声であるか否かを判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  10. 前記第1、第2のパワー保持部は、無音声発声時と通常発声時、それぞれ、前記第1、第2のスイッチがオンの間、複数の時間区間のパワー値の系列をそれぞれ保持し、
    前記閾値計算部は、前記第1及び第2のスイッチの両方がオフとされた場合、前記第1、第2のパワー保持部にそれぞれ保持されたパワー値の系列に関する、無音声発声と通常発声時のパワーの出現頻度に対して最尤推定により、閾値を求める、ことを特徴とする請求項9記載の無音声発声の入力警告装置。
  11. 前記無音声発声入力デバイスから入力された信号のパワーを計算するパワー計算部を備え、
    前記パワー計算部の出力は前記判定部に供給され、
    前記パワー計算部から出力されるパワーの系列を保持するパワー保持部と、
    前記パワー保持部に保持されるパワーの系列から閾値を導出する閾値計算部と、
    を備え、
    前記閾値計算部で導出された閾値が、前記判定部に供給され、
    前記判定部は、前記パワー計算部からの出力を前記閾値計算部で導出された前記閾値と比較して、通常発声であるか否かを判定し、
    前記閾値計算部は、前記パワー保持部に保持されるパワーの出現頻度を計算し、前記出現頻度の最大のピークと第2のピークの間で最小値を取るパワーの値を、閾値として計算する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  12. 前記無音声発声入力デバイスから入力された信号の自己相関関数値を計算する自己相関計算部を備え、
    前記判定部は、前記自己相関計算部で求めた自己相関関数値の最大値が予め定められた閾値よりも大きいフレームが、予め定められた個数以上連続した場合、前記入力信号は、通常発声であると判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  13. 前記無音声発声入力デバイスから入力された信号の自己相関関数値を計算する自己相関計算部を備え、
    前記判定部は、前記自己相関計算部で求めた自己相関関数値の最大値と最小値の比が、予め定められた閾値よりも大のフレームが、予め定められた個数以上連続した場合、
    通常発声であると判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  14. 前記無音声発声入力デバイスから入力された信号の自己相関関数値を計算する自己相関計算部と、
    前記自己相関計算部の出力から有音か否かを判定する有音声判定部と、
    前記無音声発声入力デバイスから入力された信号のピッチ周波数を計算するピッチ周波数計算部と、
    を備え、
    前記判定部は、前記有音声判定部の出力とピッチ周波数計算部の出力を受け、通常音声か否かを判定する、ことを特徴とする請求項2記載の無音声発声の入力警告装置。
  15. 前記有音声判定部は、前記自己相関関数値の最大値が予め決めた値以上であるフレームが予め定められた所定個数以上連続する場合に、該当区間を、有声区間と判定し、
    前記判定部は、
    前記有音声判定部で有声区間であると判断された区間であり、且つ、ピッチ周波数が所定周波数の範囲内である区間を、
    通常発声と判定する、ことを特徴とする請求項14記載の無音声発声の入力警告装置。
  16. 前記無音声発声入力デバイスから入力された信号のパワーを計算する第1のパワー計算部と、
    前記通常音声入力デバイスから入力された信号のパワーを計算する第2のパワー計算部と、
    を備え、
    前記判定部は、前記第1及び第2のパワー計算部の出力を受け、前記第1及び第2のパワー計算部の出力と予め定められた閾値とから、通常音声か否かを判定する、ことを特徴とする請求項4記載の無音声発声の入力警告装置。
  17. 前記無音声発声入力デバイスから入力された信号と前記通常音声入力デバイスから入力された信号の相互相関関数を計算する相互相関計算部を備え、
    前記判定部は、前記相互相関計算部からの出力値と予め定められた閾値とから、通常音声か否かを判定する、ことを特徴とする請求項4記載の無音声発声の入力警告装置。
  18. 振動又は加速度を検出するセンサを備え、前記センサの出力が前記判定部に供給され、
    前記センサで振動又は加速度の検出時、前記判定部では、通常発声であると判定しないように制御する、ことを特徴とする請求項2乃至17のいずれか一に記載の無音声発声の入力警告装置。
  19. 少なくとも無音声発声を入力する入力デバイスから入力された信号の特性を分析する工程と、
    分析結果が通常発声に相等する特性に該当するか判断することで、通常発声が入力されたか否かを判定する工程と、
    前記判定の結果が通常発声である場合に警告を出力する工程と、
    を含む、ことを特徴とする無音声発声の入力警告方法。
  20. 無音声発声の入力装置を構成するコンピュータに、
    少なくとも無音声発声を入力する入力デバイスから入力された信号の特性を分析する処理と、
    分析結果が通常発声に相等する特性に該当するか判断することで、通常発声が入力されたか否かを判定する判定処理と、
    前記判定の結果が通常発声である場合に警告を出力する処理と、
    を実行させるプログラム。
JP2008524774A 2006-07-13 2007-07-06 無音声発声の入力警告装置と方法並びにプログラム Withdrawn JPWO2008007616A1 (ja)

Applications Claiming Priority (3)

Application Number Priority Date Filing Date Title
JP2006193010 2006-07-13
JP2006193010 2006-07-13
PCT/JP2007/063540 WO2008007616A1 (fr) 2006-07-13 2007-07-06 Dispositif, procédé et programme d'alarme relatif à une entrée de murmure non audible

Publications (1)

Publication Number Publication Date
JPWO2008007616A1 true JPWO2008007616A1 (ja) 2009-12-10

Family

ID=38923177

Family Applications (1)

Application Number Title Priority Date Filing Date
JP2008524774A Withdrawn JPWO2008007616A1 (ja) 2006-07-13 2007-07-06 無音声発声の入力警告装置と方法並びにプログラム

Country Status (3)

Country Link
US (1) US8364492B2 (ja)
JP (1) JPWO2008007616A1 (ja)
WO (1) WO2008007616A1 (ja)

Families Citing this family (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
JP2011117794A (ja) * 2009-12-02 2011-06-16 Hioki Ee Corp 実効値測定装置
CN102740215A (zh) * 2011-03-31 2012-10-17 Jvc建伍株式会社 声音输入装置、通信装置、及声音输入装置的动作方法
JP2014016362A (ja) * 2013-09-27 2014-01-30 Hioki Ee Corp 実効値測定装置
JP6531449B2 (ja) * 2015-03-20 2019-06-19 沖電気工業株式会社 音声処理装置、プログラム及び方法、並びに、交換装置
US10665243B1 (en) * 2016-11-11 2020-05-26 Facebook Technologies, Llc Subvocalized speech recognition
DK179931B1 (en) 2017-09-09 2019-10-11 Apple Inc. DEVICES, METHODS AND GRAPHICAL USER INTERFACES FOR DISPLAYING AN AFFORDANCE ON A BACKGROUND
CN113810819B (zh) * 2021-09-23 2022-06-28 中国科学院软件研究所 一种基于耳腔振动的静默语音采集处理方法及设备

Family Cites Families (49)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US3681530A (en) * 1970-06-15 1972-08-01 Gte Sylvania Inc Method and apparatus for signal bandwidth compression utilizing the fourier transform of the logarithm of the frequency spectrum magnitude
US4058676A (en) * 1975-07-07 1977-11-15 International Communication Sciences Speech analysis and synthesis system
CA1123955A (en) * 1978-03-30 1982-05-18 Tetsu Taguchi Speech analysis and synthesis apparatus
JPS56104399A (en) * 1980-01-23 1981-08-20 Hitachi Ltd Voice interval detection system
DE3166082D1 (en) * 1980-12-09 1984-10-18 Secretary Industry Brit Speech recognition systems
US4972490A (en) * 1981-04-03 1990-11-20 At&T Bell Laboratories Distance measurement control of a multiple detector system
US4912764A (en) * 1985-08-28 1990-03-27 American Telephone And Telegraph Company, At&T Bell Laboratories Digital speech coder with different excitation types
US5007093A (en) * 1987-04-03 1991-04-09 At&T Bell Laboratories Adaptive threshold voiced detector
JP2707564B2 (ja) * 1987-12-14 1998-01-28 株式会社日立製作所 音声符号化方式
JPH02101500A (ja) * 1988-10-07 1990-04-13 Ricoh Co Ltd 音声認識装置
EP0374941B1 (en) * 1988-12-23 1995-08-09 Nec Corporation Communication system capable of improving a speech quality by effectively calculating excitation multipulses
US5127053A (en) * 1990-12-24 1992-06-30 General Electric Company Low-complexity method for improving the performance of autocorrelation-based pitch detectors
JP2797861B2 (ja) * 1992-09-30 1998-09-17 松下電器産業株式会社 音声検出方法および音声検出装置
JPH06332492A (ja) * 1993-05-19 1994-12-02 Matsushita Electric Ind Co Ltd 音声検出方法および検出装置
US5479559A (en) * 1993-05-28 1995-12-26 Motorola, Inc. Excitation synchronous time encoding vocoder and method
PL174216B1 (pl) * 1993-11-30 1998-06-30 At And T Corp Sposób redukcji w czasie rzeczywistym szumu transmisji mowy
US5640490A (en) * 1994-11-14 1997-06-17 Fonix Corporation User independent, real-time speech recognition system and method
US5774837A (en) * 1995-09-13 1998-06-30 Voxware, Inc. Speech coding system and method using voicing probability determination
US5684926A (en) * 1996-01-26 1997-11-04 Motorola, Inc. MBE synthesizer for very low bit rate voice messaging systems
EP0944036A4 (en) * 1997-04-30 2000-02-23 Japan Broadcasting Corp METHOD AND DEVICE FOR DETECTING LANGUAGE AREAS, AND METHOD AND DEVICE FOR LANGUAGE SPEED CONVERSION
JP2001500285A (ja) * 1997-07-11 2001-01-09 コーニンクレッカ フィリップス エレクトロニクス エヌ ヴィ 改良した音声符号器を備えた送信機及び復号器
US6711536B2 (en) * 1998-10-20 2004-03-23 Canon Kabushiki Kaisha Speech processing apparatus and method
US6226606B1 (en) * 1998-11-24 2001-05-01 Microsoft Corporation Method and apparatus for pitch tracking
US6640209B1 (en) * 1999-02-26 2003-10-28 Qualcomm Incorporated Closed-loop multimode mixed-domain linear prediction (MDLP) speech coder
US7164753B2 (en) * 1999-04-08 2007-01-16 Ultratec, Incl Real-time transcription correction system
JP2000338986A (ja) * 1999-05-28 2000-12-08 Canon Inc 音声入力装置及びその制御方法及び記憶媒体
JP4005359B2 (ja) * 1999-09-14 2007-11-07 富士通株式会社 音声符号化及び音声復号化装置
US6510407B1 (en) * 1999-10-19 2003-01-21 Atmel Corporation Method and apparatus for variable rate coding of speech
US6675027B1 (en) * 1999-11-22 2004-01-06 Microsoft Corp Personal mobile computing device having antenna microphone for improved speech recognition
WO2002005537A1 (en) * 2000-06-29 2002-01-17 Koninklijke Philips Electronics N.V. Speech quality estimation for off-line speech recognition
US7246058B2 (en) * 2001-05-30 2007-07-17 Aliph, Inc. Detecting voiced and unvoiced speech using both acoustic and nonacoustic sensors
US6640208B1 (en) * 2000-09-12 2003-10-28 Motorola, Inc. Voiced/unvoiced speech classifier
JP3342864B2 (ja) * 2000-09-13 2002-11-11 株式会社エントロピーソフトウェア研究所 音声の類似度検出方法及びその検出値を用いた音声認識方法、並びに、振動波の類似度検出方法及びその検出値を用いた機械の異常判定方法、並びに、画像の類似度検出方法及びその検出値を用いた画像認識方法、並びに、立体の類似度検出方法及びその検出値を用いた立体認識方法、並びに、動画像の類似度検出方法及びその検出値を用いた動画像認識方法
US6925154B2 (en) * 2001-05-04 2005-08-02 International Business Machines Corproation Methods and apparatus for conversational name dialing systems
CN1679371B (zh) * 2002-08-30 2010-12-29 国立大学法人奈良先端科学技术大学院大学 传声器和通信接口系统
US7657427B2 (en) * 2002-10-11 2010-02-02 Nokia Corporation Methods and devices for source controlled variable bit-rate wideband speech coding
GB2417812B (en) * 2003-05-08 2007-04-18 Voice Signal Technologies Inc A signal-to-noise mediated speech recognition algorithm
EP1494208A1 (en) * 2003-06-30 2005-01-05 Harman Becker Automotive Systems GmbH Method for controlling a speech dialog system and speech dialog system
US7337108B2 (en) * 2003-09-10 2008-02-26 Microsoft Corporation System and method for providing high-quality stretching and compression of a digital audio signal
US20050119894A1 (en) * 2003-10-20 2005-06-02 Cutler Ann R. System and process for feedback speech instruction
JP2005140858A (ja) * 2003-11-04 2005-06-02 Canon Inc 録音再生装置及び方法
US7499686B2 (en) * 2004-02-24 2009-03-03 Microsoft Corporation Method and apparatus for multi-sensory speech enhancement on a mobile device
JP2006086877A (ja) * 2004-09-16 2006-03-30 Yoshitaka Nakajima ピッチ周波数推定装置、無声信号変換装置、無声信号検出装置、無声信号変換方法
JP2006126558A (ja) * 2004-10-29 2006-05-18 Asahi Kasei Corp 音声話者認証システム
US7680656B2 (en) * 2005-06-28 2010-03-16 Microsoft Corporation Multi-sensory speech enhancement using a speech-state model
US8756057B2 (en) * 2005-11-02 2014-06-17 Nuance Communications, Inc. System and method using feedback speech analysis for improving speaking ability
US7502484B2 (en) * 2006-06-14 2009-03-10 Think-A-Move, Ltd. Ear sensor assembly for speech processing
JPWO2008007616A1 (ja) * 2006-07-13 2009-12-10 日本電気株式会社 無音声発声の入力警告装置と方法並びにプログラム
US8155966B2 (en) * 2006-08-02 2012-04-10 National University Corporation NARA Institute of Science and Technology Apparatus and method for producing an audible speech signal from a non-audible speech signal

Also Published As

Publication number Publication date
US8364492B2 (en) 2013-01-29
US20090254350A1 (en) 2009-10-08
WO2008007616A1 (fr) 2008-01-17

Similar Documents

Publication Publication Date Title
JPWO2008007616A1 (ja) 無音声発声の入力警告装置と方法並びにプログラム
US10339930B2 (en) Voice interaction apparatus and automatic interaction method using voice interaction apparatus
KR20170071585A (ko) 지능형 음성 인식 및 처리를 위한 시스템, 방법 및 디바이스
JP6268717B2 (ja) 状態推定装置、状態推定方法及び状態推定用コンピュータプログラム
WO2004021738A1 (ja) マイクロフォン、コミュニケーションインタフェースシステム
JP2015004928A (ja) 応答対象音声判定装置、応答対象音声判定方法および応答対象音声判定プログラム
KR101414233B1 (ko) 음성 신호의 명료도를 향상시키는 장치 및 방법
US10303436B2 (en) Assistive apparatus having accelerometer-based accessibility
WO2008069187A1 (ja) プレゼンテーション支援装置および方法並びにプログラム
US20100274554A1 (en) Speech analysis system
US20210050029A1 (en) Methods and Apparatus for Reducing Stuttering
JP2010139571A (ja) 音声加工装置及び音声加工方法
JP2010091897A (ja) 音声信号強調装置
CN109672787A (zh) 一种设备智能提醒方法
JP2008040431A (ja) 音声加工装置
JP4127155B2 (ja) 聴覚補助装置
JP2007267331A (ja) 発話音声収集用コンビネーション・マイクロフォンシステム
JP2004252085A (ja) 音声変換システム及び音声変換プログラム
JP7143579B2 (ja) 音声入力装置
WO2024058147A1 (ja) 処理装置、出力装置及び処理システム
Beskow et al. Hearing at home-communication support in home environments for hearing impaired persons.
JP2018084700A (ja) 対話補助システムの制御方法、対話補助システム、及び、プログラム
JP2000276190A (ja) 発声を必要としない音声通話装置
US11806213B2 (en) Voice transmission compensation apparatus, voice transmission compensation method and program
CN112399004B (zh) 声音输出的调整方法及执行该调整方法的电子装置

Legal Events

Date Code Title Description
A300 Application deemed to be withdrawn because no request for examination was validly filed

Free format text: JAPANESE INTERMEDIATE CODE: A300

Effective date: 20100907