JPWO2015019835A1 - 電気式人工喉頭装置 - Google Patents
電気式人工喉頭装置 Download PDFInfo
- Publication number
- JPWO2015019835A1 JPWO2015019835A1 JP2015530782A JP2015530782A JPWO2015019835A1 JP WO2015019835 A1 JPWO2015019835 A1 JP WO2015019835A1 JP 2015530782 A JP2015530782 A JP 2015530782A JP 2015530782 A JP2015530782 A JP 2015530782A JP WO2015019835 A1 JPWO2015019835 A1 JP WO2015019835A1
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- feature amount
- signal
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/20—Epiglottis; Larynxes; Tracheae combined with larynxes or for use therewith
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/14—Throat mountings for microphones
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/20—Epiglottis; Larynxes; Tracheae combined with larynxes or for use therewith
- A61F2002/206—Speech aids with external actuators, e.g. electrical larynxes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供する。電気式人工喉頭装置1は、使用者Pの声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部10と、集音部10が生成する発声信号に対応した音源信号を生成する信号処理部20と、信号処理部20が生成する音源信号を再生して音源音を出力する音源信号再生部30と、を備える。
Description
本発明は、例えば喉頭癌等の疾患によって声帯を含む喉頭部を摘出した人や、声帯が正常に機能しない人など、自らの体内で音源となる音(以下、「音源音」という)を出力することが不可能または困難な人(以下、「喉頭異常者」という)の声道(鼻腔、口腔、舌等で形成される空間、以下同じ)に、体外から音源音を入力する電気式人工喉頭装置に関する。
喉頭異常者ではない健常な人(以下、「喉頭正常者」という)は、肺から排出されて気管を通過する空気によって声帯を振動させることで発する音源音を、声道に入力して調音処理する(音源音を声道で共鳴させて変調する、以下同じ)ことで、口から音(以下、「発声音」という)を発する。
しかしながら、喉頭異常者は、声道の調音処理機能は正常であっても、自己の体内で音源音を発して声道に入力することが不可能または困難であるため、喉頭正常者と同じように発声音を発することができない。
そこで、喉頭異常者の喉の外部に密着して振動することで、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置が、広く使用されている。喉頭異常者は、この電気式人工喉頭装置を使用することで、声道に音源音を入力することが可能となる。そのため、喉頭異常者は、喉頭正常者が発声音を発する場合と同様に声道の形状を変化させる(例えば、口や舌を動かす)という簡易かつ容易な動作によって、所望の発声音を発することが可能になる。
ただし、電気式人工喉頭装置が発する音源音は、喉頭異常者が発する言葉や発話内容(即ち、上記の調音処理)とは無関係に決定される。例えば、電気式人工喉頭装置が発する音源音は、基本周波数(ピッチ)が時間的に変化せず、一定になることがある。そのため、喉頭異常者は、アクセントやイントネーション(例えば、音源音の基本周波数や振幅の変動による語調の変化)を発声音に付加することが、極めて困難である。その結果、喉頭異常者が発する発声音が、機械的な音として聞こえたり、正しく伝わり難くなったりするため、問題となる。
これらの問題について、具体的に図5及び図6を参照して説明する。図5は、喉頭正常者が発する発声音の各種特徴について示したグラフである。また、図6は、電気式人工喉頭装置を使用した喉頭異常者が発する発声音の各種特徴について示したグラフである。なお、図5及び図6のグラフでは、それぞれの発声音の特徴として、信号波形、基本周波数、非周期成分及びスペクトログラムを示している。
図5及び図6において、信号波形のグラフは、横軸が時間、縦軸が振幅である。また、基本周波数のグラフは、横軸が時間、縦軸が周波数である。また、非周期成分のグラフは、横軸が時間、縦軸が強度である。また、スペクトログラムは、横軸が時間、縦軸が周波数であり、色が暗い(黒色に近い)ほど強度が大きいことを示している。
図5及び図6に示した発声音の各種特徴のうち、信号波形は、発声音の全体的な特徴を示すものである。また、基本周波数は、主として音源音の特徴を示すものである。また、非周期成分は、主として音源音の特徴(具体的には、発声音のかすれ具合などを表す音色等)の特徴を示すものである。また、スペクトログラムは、声道における調音処理の特徴を示すものである。
図5に示すように、喉頭正常者が発する発声音の基本周波数は、時間的に変化しており一定とはならない。即ち、喉頭正常者が発する発声音には、アクセントやイントネーションが付加されている。
これに対して、図6に示すように、喉頭異常者が発する発声音の基本周波数は、時間的に変化せず一定となっている。即ち、喉頭異常者が発する発声音には、アクセントやイントネーションが付加されていない。そのため、喉頭異常者が発する発声音は、機械的な音として聞こえたり、正しく伝わり難かったりする。
そこで、特許文献1では、センサを用いて検出した筋電位や関節角度などに応じて、音源音の基本周波数や音量を制御する電気式人工喉頭装置が提案されている。また、特許文献2では、喉頭異常者によるスイッチの操作内容に応じて、基本周波数の変動態様が異なる複数のパターンの音源音を出力することが可能な電気式人工喉頭装置が提案されている。
特許文献1及び2で提案されている電気式人工喉頭装置を使用すれば、基本周波数が異なる音源音を出力すること自体は可能である。しかしながら、特許文献1で提案されている電気式人工喉頭装置は、発声音とは直接的な関連性がない情報(人体の外表面に取り付けられたセンサから得られる生体情報)に基づいて、出力する音源音を制御するものであるため、喉頭異常者が発したい発声音には不適合な音源音が出力されることがある。一方、特許文献2で提案されている電気式人工喉頭装置は、人の操作によって音源音を制御する必要があるため、電気式人工喉頭装置の操作が煩雑になるとともに、円滑に音源音及び発声音を発することが困難になってしまう。
そこで、本発明は、使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供することを目的とする。
上記目的を達成するため、本発明は、使用者の声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部と、前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、を備えることを特徴とする電気式人工喉頭装置を提供する。
この電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、を備えると、好ましい。
この電気式人工喉頭装置によれば、音源特徴量推定部が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記音声特徴量と前記音源特徴量との対応関係を示す統計モデルを記録しているデータベースを、さらに備え、前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定すると、好ましい。
この電気式人工喉頭装置によれば、音源特徴量推定部が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、ある言葉について喉頭異常者が発する第1発声音を集音して生成される第1発声信号から抽出される第1音声特徴量と、当該ある言葉について喉頭正常者が発する第2発声音を集音して生成される第2発声信号から抽出された第2音源特徴量と、を対応付けることで構築されたものであり、前記第1発声音は、前記喉頭異常者の声道に入力された第1音源音が調音処理されて発せられるものであり、前記第1音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、前記第2発声音は、前記喉頭正常者の声帯が出力する第2音源音が声道で調音処理されて発せられるものであり、前記第2音源特徴量は、前記第2音源音の特徴を示すものであると、好ましい。
この電気式人工喉頭装置によれば、喉頭正常者の声帯が出力する第2音源音の特徴を示す第2音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第1発声信号から抽出される前記第1音源音の特徴を示す第1音源特徴量が、前記第2音源特徴量の分布範囲内となると、好ましい。
この電気式人工喉頭装置によれば、第1音源特徴量及び第2音源特徴量が揃った状態で統計モデルが構築されるため、音源特徴量推定部が、当該分布範囲内の音源特徴量を精度良く推定することが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記音源特徴量が、前記音源音の基本周波数を示すものであり、前記第2音源特徴量が、前記第2音源音の基本周波数を示すものであると、好ましい。
この電気式人工喉頭装置によれば、音源信号再生部が出力する音源音の基本周波数を、声道における調音処理に対応したものとすることが可能となる。
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第1音声特徴量と、前記第2発声信号から抽出される第2音声特徴量と、の対応関係に基づいて、前記第1発声信号及び前記第2発声信号の時間方向におけるずれを補正した上で、前記第1音声特徴量と前記第2音源特徴量とを対応付けることで構築されたものであり、前記第2音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであると、好ましい。
この電気式人工喉頭装置によれば、喉頭異常者及び喉頭正常者の話す速度に差があり、第1発声音及び第2発声音に時間的なずれが生じ得る場合でも、当該ずれを補正した上で第1音声特徴量と第2音源特徴量とが対応付けられる。そのため、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。
上記特徴の電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。そのため、使用者が発する発声音に適合した音源音を、円滑に出力することが可能になる。
最初に、本発明の実施形態に係る電気式人工喉頭装置について、図面を参照して説明する。図1は、本発明の実施形態に係る電気式人工喉頭装置の構成例について示すブロック図である。
図1に示すように、本発明の実施形態に係る電気式人工喉頭装置1は、集音部10と、信号処理部20と、音源信号再生部30と、を備える。なお、図1では、説明の便宜上、電気式人工喉頭装置1の他に、喉頭異常者である電気式人工喉頭装置の使用者Pを図示している。
集音部10は、例えば空気伝導マイクロフォンや体内伝導マイクロフォン等から成り、使用者Pが発する発声音を集音し、電気信号に変換することで、発声信号を生成する。このとき、集音部10は、例えばサンプリング周波数16kHzで発声音を集音して、発声信号を生成する。なお、集音部10として体内伝導マイクロフォンを用いる場合、例えば、非可聴つぶやき(Non-Audible Murmur:NAM)マイクロフォンを利用してもよい。NAMマイクロフォンとは、耳介後方(後頭部側)に圧着して使用されるマイクロフォンであって、頭頸部の肉を伝搬する音を集音する肉伝導マイクロフォンである。
信号処理部20は、例えばCPU(CentralProcessing Unit)やDSP(Digital SignalProcessor)等の演算処理装置を備え、集音部10が生成する発声信号に対応した音源信号を生成する。ただし、信号処理部20が生成する音源信号は、時間的に変動する発声信号に対応して、時間的に変動するものである。例えば、信号処理部20が生成する音源信号は、喉頭正常者が声帯で出力する音源音のように、基本周波数が時間的に変動し得るものである(図5中の基本周波数のグラフ参照)。
音源信号再生部30は、信号処理部20が生成する音源信号を再生して、使用者Pの声道に入力するための音源音を出力する。例えば、音源信号再生部30は、振動板と、当該振動板の駆動装置と、を備え、駆動装置が音源信号に従って振動板を振動させることによって、音源音を出力する。このとき、振動板が、使用者Pの喉に押し当てられた状態で振動することによって、使用者Pの声道に音源音が入力される。
そして、使用者Pは、自らの声道の形状を変化させる(例えば、口や舌を動かす)ことで音源音を調音処理して、発声音を発する。さらに、使用者Pが発する発声音は、集音部10で集音され、上述した一連の動作が再度行われる。このように、電気式人工喉頭装置1は、使用者Pが発した発声音に対応した音源音を連続的に出力して、使用者Pの声道に対して連続的に入力する。
以上のように、本発明の実施形態に係る電気式人工喉頭装置1は、使用者Pが実際に発した発声音に対応した音源音を出力することが可能である。そのため、使用者Pが発する発声音に適合した音源音を、円滑に出力することが可能になる。
なお、この電気式人工喉頭装置1では、現に使用者Pが発している発声音に対応した音源音が、若干の時間(例えば、信号処理部20等の処理に要する時間であり、50ms〜70ms程度)を経た後に、使用者Pの声道に入力される。しかしながら、この時間のずれは極僅かであり、さらに人間はこの時間のずれに対して鈍感であるため、使用者Pの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。
次に、図1に示した電気式人工喉頭装置1が備える信号処理部20について、図面を参照して具体的に説明する。図2は、図1に示した電気式人工喉頭装置が備える信号処理部20の構成例について示すブロック図である。
図2に示すように、信号処理部20は、音声特徴量抽出部21と、音源特徴量推定部22と、データベース23と、音源信号生成部24と、を備える。
音声特徴量抽出部21は、集音部10が生成する発声信号から、使用者Pの声道における調音処理の特徴である音声特徴量を抽出する。音声特徴量とは、例えばスペクトル包絡(周波数スペクトルの概形)に基づいたものである。
例えば、音声特徴量抽出部21は、フレーム長25ms、フレームシフト長5msで、発声信号に対して短時間フーリエ変換(STFT:Short Time Fourier Transform)を行うことで得られる周波数スペクトルから、概形成分を選択的に抽出する(例えば、振幅を対数化した周波数スペクトルを逆フーリエ変換することでケプストラムを得て、当該ケプストラムの低次の成分を選択的に抽出した後、さらにフーリエ変換を行う)ことで、スペクトル包絡を連続的に取得する。なお、このようにして取得されるスペクトル包絡を時間方向に対して連続的に並べると、図5及び図6に示したようなスペクトログラムが得られる。そして、音声特徴量抽出部21は、例えば各フレームに対して前後4フレームを結合して成るセグメントにおけるスペクトル包絡を、まとめて次元圧縮することで、音声特徴量を得る。
音源特徴量推定部22は、音声特徴量抽出部21が抽出する音声特徴量と、データベース23が格納している統計モデルと、に基づいて、使用者Pの声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する。音源特徴量とは、例えば基本周波数である。
ここで、データベース23が格納している統計モデルの構築方法の一例について、図面を参照して説明する。図3及び図4は、統計モデルの構築方法の一例について示すグラフである。
統計モデルは、ある言葉について喉頭異常者が発する発声音(以下、「第1発声音」という)と、当該ある言葉について喉頭正常者が発する発声音(以下、「第2発声音」という)と、を対応付けることで構築される。なお、第1発声音とは、喉頭異常者が、従来の電気式人工喉頭装置が出力する音源音(以下、「第1音源音」という)を、声道で調音処理して発するものである。また、第2発声音とは、喉頭正常者が、声帯が出力する音源音(以下、「第2音源音」という)を、声道で調音処理して発するものである。
図3(a)は、第1発声音を集音して生成される発声信号(以下、「第1発声信号」という)と、第2発声音を集音して生成される発声信号(以下、「第2発声信号」という)と、のそれぞれの信号波形を示したグラフである。また、図3(b)は、第1発声信号と第2発声信号の対応付けの方法を示すグラフである。なお、図3(a)及び図3(b)に示すいずれのグラフも、喉頭異常者及び喉頭正常者が、同じ言葉を発した場合のものである。
図3(a)に示すように、喉頭異常者及び喉頭正常者が同じ言葉を発したとしても、人の話す速度には個人差があるため、第1発声信号及び第2発声信号には時間的なずれが生じ得る。
そこで、図3(b)に示すように、第1発声信号から抽出される音声特徴量(以下、「第1音声特徴量」という)と、第2発声信号から抽出される音声特徴量(以下、「第2音声特徴量」という)と、を比較することで、この時間的なずれを補正する。これにより、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。なお、第1音声特徴量及び第2音声特徴量は、例えば、図2に示した音声特徴量抽出部21における音声特徴量の抽出方法と同じ方法で、抽出することができる。
まず、第1音声特徴量及び第2音声特徴量のそれぞれのパターンを比較して、特徴が類似している部分を手がかりに、時間方向におけるずれを補正した対応関係(図3(b)中の破線)を規定する。そして、その対応関係に従って、第1音声特徴量と、第2発声信号から抽出される音源特徴量(以下、「第2音源特徴量」という)と、を対応づける。なお、第2音声特徴量及び第2音源特徴量は、どちらも第2発声信号から抽出されたものであるため、両者には時間的なずれがない。また、第2発声信号から第2音源特徴量を抽出する方法として、周知の様々な方法が適用可能であるが、例えば下記の参考文献1に示す方法を適用してもよい。
(参考文献1)
H. Kawahara, H. Katayose, A. de Cheveigne,and R.D. Patterson.
Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation of F0 and periodicity.
Proc. EUROSPEECH, pp. 2781-2784, Budapest, Hungary,Sep. 1999.
H. Kawahara, H. Katayose, A. de Cheveigne,and R.D. Patterson.
Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation of F0 and periodicity.
Proc. EUROSPEECH, pp. 2781-2784, Budapest, Hungary,Sep. 1999.
このような第1音声特徴量と第2音源特徴量との対応付けを、様々な言葉について行うことで、統計モデルを構築する。このような統計モデルは、例えば混合正規分布モデル(GMM:Gaussian Mixture Model)を用いて構築することができる。なお、図4(a)及び図4(b)では、図示及び説明の簡略化のため、第1音声特徴量及び第2音源特徴量のそれぞれをスカラーとしているが、第1音声特徴量及び第2音源特徴量のそれぞれを、複数の成分から成るベクトルとした方が、より精度良く音源特徴量を推定することができるため、好ましい。
図4(a)に示すグラフは、第1音声特徴量及び第2音源特徴量のデータのヒストグラムである。また、図4(b)に示すグラフは、図4(a)に示したデータに対してGMMモデルを適用して構築した統計モデルである。この図4(b)に示すグラフ(統計モデル)では、グラフ中の高くなっている部分ほど、第1音声特徴量及び第2音源特徴量の組み合わせの発生確率が高いことを示している。
音源特徴量推定部22は、この統計モデルと、音声特徴量抽出部21が抽出する音声特徴量と、に基づいて、音源特徴量を推定する。このとき、時間方向の相関を考慮した推定処理を使用すると、音源特徴量推定部22が精度良く音源特徴量の推定を行うことができる。なお、時間方向の相関を考慮した推定処理については、周知の様々な方法が適用可能であるが、例えば下記の参考文献2に示す方法を適用してもよい。
(参考文献2)
T. Toda, M. Nakagiri, K. Shikano.
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement.
IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 9, pp. 2505-2517, Sep. 2012.
T. Toda, M. Nakagiri, K. Shikano.
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement.
IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 9, pp. 2505-2517, Sep. 2012.
例えば、音源特徴量推定部22は、音声特徴量抽出部21が抽出する音声特徴量を、統計モデルにおける第1音声特徴量に当てはめて、対応する(例えば、発生確率が最大となる)第2音源特徴量を求める。音源特徴量推定部22は、求めた第2音源特徴量を、推定した音源特徴量として出力する。
そして、最後に、音源信号生成部24が、音源特徴量推定部22が推定した音源特徴量を有する音源信号(例えば、音源特徴量が基本周波数であれば、当該基本周波数の信号波形となる音源音)を生成して、図1に示した音源信号再生部30に出力する。
この信号処理部20では、音源特徴量推定部22が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。
さらに、この信号処理部20では、音源特徴量推定部22が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。特に、この信号処理部20では、喉頭正常者の声帯が出力する第2音源音の特徴を示す第2音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部30が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。
なお、上述した統計モデルの構築の際に、第1発声信号から抽出される第1音源音の特徴を示す第1音源特徴量が、第2音源特徴量の分布範囲内となるようにしてもよい。このようにすると、第1音源特徴量及び第2音源特徴量が揃った状態で統計モデルが構築される(例えば、共に男性的な第1発声信号及び第2発声信号に基づいて、男性向けの統計モデルが構築される、または、共に女性的な第1発声信号及び第2発声信号に基づいて、女性向けの統計モデルが構築される)ため、音源特徴量推定部22が、当該分布範囲内の音源特徴量を精度良く推定することが可能となるため、好ましい。
例えばこの場合、まず、使用者Pが望む音源特徴量(以下、「目標音源特徴量」とする)を決定する。具体的に例えば、使用者Pが望む声の高さ(基本周波数)を決定する。そして、目標音源特徴量と一致または近似する第1音源特徴量を抽出することが可能な第1発声信号と、目標音源特徴量と一致または近似する第2音源特徴量を抽出することが可能な第2発声信号と、のそれぞれを取得した上で、上述した方法に従って統計モデルを構築する。
上記のような第1発声信号は、上記の第1音源特徴量が得られるように出力を調整した電気式人工喉頭装置を、使用者Pなどが使用して発する第1発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第1発声信号に対して、その第1音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第1発声信号を取得することができる。なお、電気式人工喉頭装置の出力の調整や、第1音源特徴量の調整によって得られる、多種多様な第1発声信号を同時に用いて、第1音源特徴量の分布範囲を広くした統計モデルを構築してもよい。
また、上記のような第2発声信号は、上記の第2音源特徴量が得られるような声帯を有した喉頭正常者を選択し、当該喉頭正常者が発する第2発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第2発声信号に対して、その第2音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第2発声信号を取得することができる。
<変形等>
[1] 上述した本発明の実施形態では、主として、電気式人工喉頭装置1が、発声音(特に、声道における調音処理)に対応するように音源音の基本周波数を変動させて出力するものとして説明した。しかし、発声音に対応するように音源音の振幅(パワー)を変動させて出力してもよいし、発声音に対応するように音源音の基本周波数及び振幅の双方を変動させて出力してもよい。
[1] 上述した本発明の実施形態では、主として、電気式人工喉頭装置1が、発声音(特に、声道における調音処理)に対応するように音源音の基本周波数を変動させて出力するものとして説明した。しかし、発声音に対応するように音源音の振幅(パワー)を変動させて出力してもよいし、発声音に対応するように音源音の基本周波数及び振幅の双方を変動させて出力してもよい。
電気式人工喉頭装置1が、音源音の基本周波数だけでなく振幅も変動させて出力することが可能な構成であると、音源音の基本周波数の変動でアクセントやイントネーションが付加されることが多い言語(例えば、日本語)に限られず、音源音の振幅の変動でアクセントやイントネーションが付加されることが多い言語(例えば、英語)など、様々な言語に対応した音源音を出力することが可能となる。
[2] 電気式人工喉頭装置1は、使用者Pの挙動(例えば、ボタンを押下する、本体を喉に押し付けるなどの動作の有無)に応じて、音源音の出力の有無を切り替えるように構成されていると、好ましい。
この場合、電気式人工喉頭装置1が音源音の出力を開始した当初の極僅かな時間については、所定の音源特徴量を有する音源音が出力される。しかし、その後すぐに使用者Pの発声音に対応した音源音が出力されるため、使用者Pの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。
[3] 例えば、手術によって喉頭部を摘出する予定がある患者など、将来的に声帯が機能しなくなる者(即ち、将来的に上述の使用者Pとなる者)については、声帯が機能している間に、その者自身の声帯を使用した発声音(以下、「本人声帯発声音」とする)を集音して記録しておくと、好ましい。
記録された本人声帯発声音は、喉頭正常者が発した発声音であり、上述の第2発声音に含まれるものである。そのため、この本人声帯発声音を含む第2発声音を用いて、統計モデルを構築すると、好ましい。また、この本人声帯発声音の信号から抽出される音源特徴量こそ、使用者Pが望む音源特徴量であると考えられるため、当該音源特徴量を上述の目標音源特徴量として統計モデルを構築すると、好ましい。
このようにして構築された統計モデルは、使用者Pが喉頭正常者であった時の発声の特徴(アクセントやイントネーションなど)を反映したものとなる。そのため、上述の電気式人工喉頭装置1においてこの統計モデルを利用することによって、使用者Pが喉頭正常者であった時の発声の特徴を効果的に再現した音源音を出力することが可能になる。
なお、本人声帯発声音の記録量は、多ければ多いほどよいが、50センテンス(読み上げに3〜5分程度を要する量)程度であってもよい。
本発明は、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置に対して、好適に利用することができる。
1 : 電気式人工喉頭装置
10 : 集音部
20 : 信号処理部
21 : 音声特徴量抽出部
22 : 音源特徴量推定部
23 : データベース
24 : 音源信号生成部
30 : 音源信号再生部
P : 使用者
10 : 集音部
20 : 信号処理部
21 : 音声特徴量抽出部
22 : 音源特徴量推定部
23 : データベース
24 : 音源信号生成部
30 : 音源信号再生部
P : 使用者
Claims (7)
- 使用者の声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部と、
前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、
前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、
を備えることを特徴とする電気式人工喉頭装置。 - 前記信号処理部が、
前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、
前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、
前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、
を備えることを特徴とする請求項1に記載の電気式人工喉頭装置。 - 前記信号処理部が、前記音声特徴量と前記音源特徴量との対応関係を示す統計モデルを記録しているデータベースを、さらに備え、
前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定することを特徴とする請求項2に記載の電気式人工喉頭装置。 - 前記統計モデルは、ある言葉について喉頭異常者が発する第1発声音を集音して生成される第1発声信号から抽出される第1音声特徴量と、当該ある言葉について喉頭正常者が発する第2発声音を集音して生成される第2発声信号から抽出された第2音源特徴量と、を対応付けることで構築されたものであり、
前記第1発声音は、前記喉頭異常者の声道に入力された第1音源音が調音処理されて発せられるものであり、
前記第1音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、
前記第2発声音は、前記喉頭正常者の声帯が出力する第2音源音が声道で調音処理されて発せられるものであり、
前記第2音源特徴量は、前記第2音源音の特徴を示すものであることを特徴とする請求項3に記載の電気式人工喉頭装置。 - 前記統計モデルは、前記第1発声信号から抽出される前記第1音源音の特徴を示す第1音源特徴量が、前記第2音源特徴量の分布範囲内となることを特徴とする請求項4に記載の電気式人工喉頭装置。
- 前記音源特徴量が、前記音源音の基本周波数を示すものであり、前記第2音源特徴量が、前記第2音源音の基本周波数を示すものであることを特徴とする請求項4または5に記載の電気式人工喉頭装置。
- 前記統計モデルは、前記第1音声特徴量と、前記第2発声信号から抽出される第2音声特徴量と、の対応関係に基づいて、前記第1発声信号及び前記第2発声信号の時間方向におけるずれを補正した上で、前記第1音声特徴量と前記第2音源特徴量とを対応付けることで構築されたものであり、
前記第2音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであることを特徴とする請求項4〜6のいずれか1項に記載の電気式人工喉頭装置。
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013165087 | 2013-08-08 | ||
JP2013165087 | 2013-08-08 | ||
PCT/JP2014/069274 WO2015019835A1 (ja) | 2013-08-08 | 2014-07-22 | 電気式人工喉頭装置 |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2015019835A1 true JPWO2015019835A1 (ja) | 2017-03-02 |
Family
ID=52461174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015530782A Pending JPWO2015019835A1 (ja) | 2013-08-08 | 2014-07-22 | 電気式人工喉頭装置 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2015019835A1 (ja) |
WO (1) | WO2015019835A1 (ja) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0824688B2 (ja) * | 1993-06-14 | 1996-03-13 | 達 伊福部 | 電気人工喉頭 |
JP3987605B2 (ja) * | 1997-08-26 | 2007-10-10 | セコム株式会社 | 発声補助用人工喉頭 |
EP1083769B1 (en) * | 1999-02-16 | 2010-06-09 | Yugen Kaisha GM & M | Speech converting device and method |
JP2005117484A (ja) * | 2003-10-09 | 2005-04-28 | Katsuro Aoki | 人工喉頭使用者用拡声装置 |
JP2005150884A (ja) * | 2003-11-12 | 2005-06-09 | Yuji Hosoi | 電気人工喉頭 |
JP2013142905A (ja) * | 2012-01-12 | 2013-07-22 | Inha-Industry Partnership Inst | 音声補完用装置及びそれを用いた音声制御方法 |
-
2014
- 2014-07-22 WO PCT/JP2014/069274 patent/WO2015019835A1/ja active Application Filing
- 2014-07-22 JP JP2015530782A patent/JPWO2015019835A1/ja active Pending
Also Published As
Publication number | Publication date |
---|---|
WO2015019835A1 (ja) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iseli et al. | Age, sex, and vowel dependencies of acoustic measures related to the voice source | |
Drugman et al. | Glottal source processing: From analysis to applications | |
JP4327241B2 (ja) | 音声強調装置および音声強調方法 | |
Doi et al. | Alaryngeal speech enhancement based on one-to-many eigenvoice conversion | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
JP2000504849A (ja) | 音響学および電磁波を用いた音声の符号化、再構成および認識 | |
Keller | The analysis of voice quality in speech processing | |
Gaddy et al. | Digital voicing of silent speech | |
Raitio et al. | Analysis and synthesis of shouted speech. | |
Mcloughlin et al. | Reconstruction of phonated speech from whispers using formant-derived plausible pitch modulation | |
Lulich et al. | Subglottal resonances of adult male and female native speakers of American English | |
JP5039865B2 (ja) | 声質変換装置及びその方法 | |
McLoughlin et al. | Reconstruction of continuous voiced speech from whispers. | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
Strik et al. | Control of fundamental frequency, intensity and voice quality in speech | |
Malathi et al. | Enhancement of electrolaryngeal speech using Frequency Auditory Masking and GMM based voice conversion | |
Hanzlíček et al. | Voice conservation: towards creating a speech-aid system for total laryngectomees | |
Sharifzadeh | Reconstruction of natural sounding speech from whispers | |
WO2015019835A1 (ja) | 電気式人工喉頭装置 | |
WO2020208926A1 (ja) | 信号処理装置、信号処理方法及びプログラム | |
JP2006154212A (ja) | 音声評価方法および評価装置 | |
Deng et al. | Speech analysis: the production-perception perspective | |
Lv et al. | Objective evaluation method of broadcasting vocal timbre based on feature selection | |
Surahman | An analysis of voice spectrum characteristics to the male voices recording using praat software | |
Chadha et al. | Analysis of a modern voice morphing approach using gaussian mixture models for laryngectomees |