JPWO2015019835A1

JPWO2015019835A1 - 電気式人工喉頭装置

Info

Publication number: JPWO2015019835A1
Application number: JP2015530782A
Authority: JP
Inventors: 戸田　智基; 智基戸田; 田中　宏; 宏田中; 中村　哲; 哲中村; サクリアニサクティ; グラムニュービッグ
Original assignee: Nara Institute of Science and Technology NUC
Current assignee: Nara Institute of Science and Technology NUC
Priority date: 2013-08-08
Filing date: 2014-07-22
Publication date: 2017-03-02
Also published as: WO2015019835A1

Abstract

使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供する。電気式人工喉頭装置１は、使用者Ｐの声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部１０と、集音部１０が生成する発声信号に対応した音源信号を生成する信号処理部２０と、信号処理部２０が生成する音源信号を再生して音源音を出力する音源信号再生部３０と、を備える。

Description

本発明は、例えば喉頭癌等の疾患によって声帯を含む喉頭部を摘出した人や、声帯が正常に機能しない人など、自らの体内で音源となる音（以下、「音源音」という）を出力することが不可能または困難な人（以下、「喉頭異常者」という）の声道（鼻腔、口腔、舌等で形成される空間、以下同じ）に、体外から音源音を入力する電気式人工喉頭装置に関する。

喉頭異常者ではない健常な人（以下、「喉頭正常者」という）は、肺から排出されて気管を通過する空気によって声帯を振動させることで発する音源音を、声道に入力して調音処理する（音源音を声道で共鳴させて変調する、以下同じ）ことで、口から音（以下、「発声音」という）を発する。

しかしながら、喉頭異常者は、声道の調音処理機能は正常であっても、自己の体内で音源音を発して声道に入力することが不可能または困難であるため、喉頭正常者と同じように発声音を発することができない。

そこで、喉頭異常者の喉の外部に密着して振動することで、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置が、広く使用されている。喉頭異常者は、この電気式人工喉頭装置を使用することで、声道に音源音を入力することが可能となる。そのため、喉頭異常者は、喉頭正常者が発声音を発する場合と同様に声道の形状を変化させる（例えば、口や舌を動かす）という簡易かつ容易な動作によって、所望の発声音を発することが可能になる。

ただし、電気式人工喉頭装置が発する音源音は、喉頭異常者が発する言葉や発話内容（即ち、上記の調音処理）とは無関係に決定される。例えば、電気式人工喉頭装置が発する音源音は、基本周波数（ピッチ）が時間的に変化せず、一定になることがある。そのため、喉頭異常者は、アクセントやイントネーション（例えば、音源音の基本周波数や振幅の変動による語調の変化）を発声音に付加することが、極めて困難である。その結果、喉頭異常者が発する発声音が、機械的な音として聞こえたり、正しく伝わり難くなったりするため、問題となる。

これらの問題について、具体的に図５及び図６を参照して説明する。図５は、喉頭正常者が発する発声音の各種特徴について示したグラフである。また、図６は、電気式人工喉頭装置を使用した喉頭異常者が発する発声音の各種特徴について示したグラフである。なお、図５及び図６のグラフでは、それぞれの発声音の特徴として、信号波形、基本周波数、非周期成分及びスペクトログラムを示している。

図５及び図６において、信号波形のグラフは、横軸が時間、縦軸が振幅である。また、基本周波数のグラフは、横軸が時間、縦軸が周波数である。また、非周期成分のグラフは、横軸が時間、縦軸が強度である。また、スペクトログラムは、横軸が時間、縦軸が周波数であり、色が暗い（黒色に近い）ほど強度が大きいことを示している。

図５及び図６に示した発声音の各種特徴のうち、信号波形は、発声音の全体的な特徴を示すものである。また、基本周波数は、主として音源音の特徴を示すものである。また、非周期成分は、主として音源音の特徴（具体的には、発声音のかすれ具合などを表す音色等）の特徴を示すものである。また、スペクトログラムは、声道における調音処理の特徴を示すものである。

図５に示すように、喉頭正常者が発する発声音の基本周波数は、時間的に変化しており一定とはならない。即ち、喉頭正常者が発する発声音には、アクセントやイントネーションが付加されている。

これに対して、図６に示すように、喉頭異常者が発する発声音の基本周波数は、時間的に変化せず一定となっている。即ち、喉頭異常者が発する発声音には、アクセントやイントネーションが付加されていない。そのため、喉頭異常者が発する発声音は、機械的な音として聞こえたり、正しく伝わり難かったりする。

そこで、特許文献１では、センサを用いて検出した筋電位や関節角度などに応じて、音源音の基本周波数や音量を制御する電気式人工喉頭装置が提案されている。また、特許文献２では、喉頭異常者によるスイッチの操作内容に応じて、基本周波数の変動態様が異なる複数のパターンの音源音を出力することが可能な電気式人工喉頭装置が提案されている。

特開平７−４３３号公報特開平１１−６９４７６号公報

特許文献１及び２で提案されている電気式人工喉頭装置を使用すれば、基本周波数が異なる音源音を出力すること自体は可能である。しかしながら、特許文献１で提案されている電気式人工喉頭装置は、発声音とは直接的な関連性がない情報（人体の外表面に取り付けられたセンサから得られる生体情報）に基づいて、出力する音源音を制御するものであるため、喉頭異常者が発したい発声音には不適合な音源音が出力されることがある。一方、特許文献２で提案されている電気式人工喉頭装置は、人の操作によって音源音を制御する必要があるため、電気式人工喉頭装置の操作が煩雑になるとともに、円滑に音源音及び発声音を発することが困難になってしまう。

そこで、本発明は、使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供することを目的とする。

上記目的を達成するため、本発明は、使用者の声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部と、前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、を備えることを特徴とする電気式人工喉頭装置を提供する。

この電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、を備えると、好ましい。

この電気式人工喉頭装置によれば、音源特徴量推定部が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記音声特徴量と前記音源特徴量との対応関係を示す統計モデルを記録しているデータベースを、さらに備え、前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定すると、好ましい。

この電気式人工喉頭装置によれば、音源特徴量推定部が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、ある言葉について喉頭異常者が発する第１発声音を集音して生成される第１発声信号から抽出される第１音声特徴量と、当該ある言葉について喉頭正常者が発する第２発声音を集音して生成される第２発声信号から抽出された第２音源特徴量と、を対応付けることで構築されたものであり、前記第１発声音は、前記喉頭異常者の声道に入力された第１音源音が調音処理されて発せられるものであり、前記第１音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、前記第２発声音は、前記喉頭正常者の声帯が出力する第２音源音が声道で調音処理されて発せられるものであり、前記第２音源特徴量は、前記第２音源音の特徴を示すものであると、好ましい。

この電気式人工喉頭装置によれば、喉頭正常者の声帯が出力する第２音源音の特徴を示す第２音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第１発声信号から抽出される前記第１音源音の特徴を示す第１音源特徴量が、前記第２音源特徴量の分布範囲内となると、好ましい。

この電気式人工喉頭装置によれば、第１音源特徴量及び第２音源特徴量が揃った状態で統計モデルが構築されるため、音源特徴量推定部が、当該分布範囲内の音源特徴量を精度良く推定することが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記音源特徴量が、前記音源音の基本周波数を示すものであり、前記第２音源特徴量が、前記第２音源音の基本周波数を示すものであると、好ましい。

この電気式人工喉頭装置によれば、音源信号再生部が出力する音源音の基本周波数を、声道における調音処理に対応したものとすることが可能となる。

さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第１音声特徴量と、前記第２発声信号から抽出される第２音声特徴量と、の対応関係に基づいて、前記第１発声信号及び前記第２発声信号の時間方向におけるずれを補正した上で、前記第１音声特徴量と前記第２音源特徴量とを対応付けることで構築されたものであり、前記第２音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであると、好ましい。

この電気式人工喉頭装置によれば、喉頭異常者及び喉頭正常者の話す速度に差があり、第１発声音及び第２発声音に時間的なずれが生じ得る場合でも、当該ずれを補正した上で第１音声特徴量と第２音源特徴量とが対応付けられる。そのため、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。

上記特徴の電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。そのため、使用者が発する発声音に適合した音源音を、円滑に出力することが可能になる。

本発明の実施形態に係る電気式人工喉頭装置の構成例について示すブロック図。図１に示した電気式人工喉頭装置が備える信号処理部の構成例について示すブロック図。統計モデルの構築方法の一例について示すグラフ。統計モデルの構築方法の一例について示すグラフ。喉頭正常者が発する発声音の各種特徴について示したグラフ。電気式人工喉頭装置を使用した喉頭異常者が発する発声音の各種特徴について示したグラフ。

最初に、本発明の実施形態に係る電気式人工喉頭装置について、図面を参照して説明する。図１は、本発明の実施形態に係る電気式人工喉頭装置の構成例について示すブロック図である。

図１に示すように、本発明の実施形態に係る電気式人工喉頭装置１は、集音部１０と、信号処理部２０と、音源信号再生部３０と、を備える。なお、図１では、説明の便宜上、電気式人工喉頭装置１の他に、喉頭異常者である電気式人工喉頭装置の使用者Ｐを図示している。

集音部１０は、例えば空気伝導マイクロフォンや体内伝導マイクロフォン等から成り、使用者Ｐが発する発声音を集音し、電気信号に変換することで、発声信号を生成する。このとき、集音部１０は、例えばサンプリング周波数１６ｋＨｚで発声音を集音して、発声信号を生成する。なお、集音部１０として体内伝導マイクロフォンを用いる場合、例えば、非可聴つぶやき（Non-Audible Murmur：ＮＡＭ）マイクロフォンを利用してもよい。ＮＡＭマイクロフォンとは、耳介後方（後頭部側）に圧着して使用されるマイクロフォンであって、頭頸部の肉を伝搬する音を集音する肉伝導マイクロフォンである。

信号処理部２０は、例えばＣＰＵ（CentralProcessing Unit）やＤＳＰ（Digital SignalProcessor）等の演算処理装置を備え、集音部１０が生成する発声信号に対応した音源信号を生成する。ただし、信号処理部２０が生成する音源信号は、時間的に変動する発声信号に対応して、時間的に変動するものである。例えば、信号処理部２０が生成する音源信号は、喉頭正常者が声帯で出力する音源音のように、基本周波数が時間的に変動し得るものである（図５中の基本周波数のグラフ参照）。

音源信号再生部３０は、信号処理部２０が生成する音源信号を再生して、使用者Ｐの声道に入力するための音源音を出力する。例えば、音源信号再生部３０は、振動板と、当該振動板の駆動装置と、を備え、駆動装置が音源信号に従って振動板を振動させることによって、音源音を出力する。このとき、振動板が、使用者Ｐの喉に押し当てられた状態で振動することによって、使用者Ｐの声道に音源音が入力される。

そして、使用者Ｐは、自らの声道の形状を変化させる（例えば、口や舌を動かす）ことで音源音を調音処理して、発声音を発する。さらに、使用者Ｐが発する発声音は、集音部１０で集音され、上述した一連の動作が再度行われる。このように、電気式人工喉頭装置１は、使用者Ｐが発した発声音に対応した音源音を連続的に出力して、使用者Ｐの声道に対して連続的に入力する。

以上のように、本発明の実施形態に係る電気式人工喉頭装置１は、使用者Ｐが実際に発した発声音に対応した音源音を出力することが可能である。そのため、使用者Ｐが発する発声音に適合した音源音を、円滑に出力することが可能になる。

なお、この電気式人工喉頭装置１では、現に使用者Ｐが発している発声音に対応した音源音が、若干の時間（例えば、信号処理部２０等の処理に要する時間であり、５０ｍｓ〜７０ｍｓ程度）を経た後に、使用者Ｐの声道に入力される。しかしながら、この時間のずれは極僅かであり、さらに人間はこの時間のずれに対して鈍感であるため、使用者Ｐの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。

次に、図１に示した電気式人工喉頭装置１が備える信号処理部２０について、図面を参照して具体的に説明する。図２は、図１に示した電気式人工喉頭装置が備える信号処理部２０の構成例について示すブロック図である。

図２に示すように、信号処理部２０は、音声特徴量抽出部２１と、音源特徴量推定部２２と、データベース２３と、音源信号生成部２４と、を備える。

音声特徴量抽出部２１は、集音部１０が生成する発声信号から、使用者Ｐの声道における調音処理の特徴である音声特徴量を抽出する。音声特徴量とは、例えばスペクトル包絡（周波数スペクトルの概形）に基づいたものである。

例えば、音声特徴量抽出部２１は、フレーム長２５ｍｓ、フレームシフト長５ｍｓで、発声信号に対して短時間フーリエ変換（ＳＴＦＴ：Short Time Fourier Transform）を行うことで得られる周波数スペクトルから、概形成分を選択的に抽出する（例えば、振幅を対数化した周波数スペクトルを逆フーリエ変換することでケプストラムを得て、当該ケプストラムの低次の成分を選択的に抽出した後、さらにフーリエ変換を行う）ことで、スペクトル包絡を連続的に取得する。なお、このようにして取得されるスペクトル包絡を時間方向に対して連続的に並べると、図５及び図６に示したようなスペクトログラムが得られる。そして、音声特徴量抽出部２１は、例えば各フレームに対して前後４フレームを結合して成るセグメントにおけるスペクトル包絡を、まとめて次元圧縮することで、音声特徴量を得る。

音源特徴量推定部２２は、音声特徴量抽出部２１が抽出する音声特徴量と、データベース２３が格納している統計モデルと、に基づいて、使用者Ｐの声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する。音源特徴量とは、例えば基本周波数である。

ここで、データベース２３が格納している統計モデルの構築方法の一例について、図面を参照して説明する。図３及び図４は、統計モデルの構築方法の一例について示すグラフである。

統計モデルは、ある言葉について喉頭異常者が発する発声音（以下、「第１発声音」という）と、当該ある言葉について喉頭正常者が発する発声音（以下、「第２発声音」という）と、を対応付けることで構築される。なお、第１発声音とは、喉頭異常者が、従来の電気式人工喉頭装置が出力する音源音（以下、「第１音源音」という）を、声道で調音処理して発するものである。また、第２発声音とは、喉頭正常者が、声帯が出力する音源音（以下、「第２音源音」という）を、声道で調音処理して発するものである。

図３（ａ）は、第１発声音を集音して生成される発声信号（以下、「第１発声信号」という）と、第２発声音を集音して生成される発声信号（以下、「第２発声信号」という）と、のそれぞれの信号波形を示したグラフである。また、図３（ｂ）は、第１発声信号と第２発声信号の対応付けの方法を示すグラフである。なお、図３（ａ）及び図３（ｂ）に示すいずれのグラフも、喉頭異常者及び喉頭正常者が、同じ言葉を発した場合のものである。

図３（ａ）に示すように、喉頭異常者及び喉頭正常者が同じ言葉を発したとしても、人の話す速度には個人差があるため、第１発声信号及び第２発声信号には時間的なずれが生じ得る。

そこで、図３（ｂ）に示すように、第１発声信号から抽出される音声特徴量（以下、「第１音声特徴量」という）と、第２発声信号から抽出される音声特徴量（以下、「第２音声特徴量」という）と、を比較することで、この時間的なずれを補正する。これにより、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。なお、第１音声特徴量及び第２音声特徴量は、例えば、図２に示した音声特徴量抽出部２１における音声特徴量の抽出方法と同じ方法で、抽出することができる。

まず、第１音声特徴量及び第２音声特徴量のそれぞれのパターンを比較して、特徴が類似している部分を手がかりに、時間方向におけるずれを補正した対応関係（図３（ｂ）中の破線）を規定する。そして、その対応関係に従って、第１音声特徴量と、第２発声信号から抽出される音源特徴量（以下、「第２音源特徴量」という）と、を対応づける。なお、第２音声特徴量及び第２音源特徴量は、どちらも第２発声信号から抽出されたものであるため、両者には時間的なずれがない。また、第２発声信号から第２音源特徴量を抽出する方法として、周知の様々な方法が適用可能であるが、例えば下記の参考文献１に示す方法を適用してもよい。

（参考文献１）
H. Kawahara, H. Katayose, A. de Cheveigne,and R.D. Patterson.
Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation of F0 and periodicity.
Proc. EUROSPEECH, pp. 2781-2784, Budapest, Hungary,Sep. 1999.

このような第１音声特徴量と第２音源特徴量との対応付けを、様々な言葉について行うことで、統計モデルを構築する。このような統計モデルは、例えば混合正規分布モデル（ＧＭＭ：Gaussian Mixture Model）を用いて構築することができる。なお、図４（ａ）及び図４（ｂ）では、図示及び説明の簡略化のため、第１音声特徴量及び第２音源特徴量のそれぞれをスカラーとしているが、第１音声特徴量及び第２音源特徴量のそれぞれを、複数の成分から成るベクトルとした方が、より精度良く音源特徴量を推定することができるため、好ましい。

図４（ａ）に示すグラフは、第１音声特徴量及び第２音源特徴量のデータのヒストグラムである。また、図４（ｂ）に示すグラフは、図４（ａ）に示したデータに対してＧＭＭモデルを適用して構築した統計モデルである。この図４（ｂ）に示すグラフ（統計モデル）では、グラフ中の高くなっている部分ほど、第１音声特徴量及び第２音源特徴量の組み合わせの発生確率が高いことを示している。

音源特徴量推定部２２は、この統計モデルと、音声特徴量抽出部２１が抽出する音声特徴量と、に基づいて、音源特徴量を推定する。このとき、時間方向の相関を考慮した推定処理を使用すると、音源特徴量推定部２２が精度良く音源特徴量の推定を行うことができる。なお、時間方向の相関を考慮した推定処理については、周知の様々な方法が適用可能であるが、例えば下記の参考文献２に示す方法を適用してもよい。

（参考文献２）
T. Toda, M. Nakagiri, K. Shikano.
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement.
IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 9, pp. 2505-2517, Sep. 2012.

例えば、音源特徴量推定部２２は、音声特徴量抽出部２１が抽出する音声特徴量を、統計モデルにおける第１音声特徴量に当てはめて、対応する（例えば、発生確率が最大となる）第２音源特徴量を求める。音源特徴量推定部２２は、求めた第２音源特徴量を、推定した音源特徴量として出力する。

そして、最後に、音源信号生成部２４が、音源特徴量推定部２２が推定した音源特徴量を有する音源信号（例えば、音源特徴量が基本周波数であれば、当該基本周波数の信号波形となる音源音）を生成して、図１に示した音源信号再生部３０に出力する。

この信号処理部２０では、音源特徴量推定部２２が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。

さらに、この信号処理部２０では、音源特徴量推定部２２が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。特に、この信号処理部２０では、喉頭正常者の声帯が出力する第２音源音の特徴を示す第２音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部３０が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。

なお、上述した統計モデルの構築の際に、第１発声信号から抽出される第１音源音の特徴を示す第１音源特徴量が、第２音源特徴量の分布範囲内となるようにしてもよい。このようにすると、第１音源特徴量及び第２音源特徴量が揃った状態で統計モデルが構築される（例えば、共に男性的な第１発声信号及び第２発声信号に基づいて、男性向けの統計モデルが構築される、または、共に女性的な第１発声信号及び第２発声信号に基づいて、女性向けの統計モデルが構築される）ため、音源特徴量推定部２２が、当該分布範囲内の音源特徴量を精度良く推定することが可能となるため、好ましい。

例えばこの場合、まず、使用者Ｐが望む音源特徴量（以下、「目標音源特徴量」とする）を決定する。具体的に例えば、使用者Ｐが望む声の高さ（基本周波数）を決定する。そして、目標音源特徴量と一致または近似する第１音源特徴量を抽出することが可能な第１発声信号と、目標音源特徴量と一致または近似する第２音源特徴量を抽出することが可能な第２発声信号と、のそれぞれを取得した上で、上述した方法に従って統計モデルを構築する。

上記のような第１発声信号は、上記の第１音源特徴量が得られるように出力を調整した電気式人工喉頭装置を、使用者Ｐなどが使用して発する第１発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第１発声信号に対して、その第１音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第１発声信号を取得することができる。なお、電気式人工喉頭装置の出力の調整や、第１音源特徴量の調整によって得られる、多種多様な第１発声信号を同時に用いて、第１音源特徴量の分布範囲を広くした統計モデルを構築してもよい。

また、上記のような第２発声信号は、上記の第２音源特徴量が得られるような声帯を有した喉頭正常者を選択し、当該喉頭正常者が発する第２発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第２発声信号に対して、その第２音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第２発声信号を取得することができる。

＜変形等＞
［１］上述した本発明の実施形態では、主として、電気式人工喉頭装置１が、発声音（特に、声道における調音処理）に対応するように音源音の基本周波数を変動させて出力するものとして説明した。しかし、発声音に対応するように音源音の振幅（パワー）を変動させて出力してもよいし、発声音に対応するように音源音の基本周波数及び振幅の双方を変動させて出力してもよい。

電気式人工喉頭装置１が、音源音の基本周波数だけでなく振幅も変動させて出力することが可能な構成であると、音源音の基本周波数の変動でアクセントやイントネーションが付加されることが多い言語（例えば、日本語）に限られず、音源音の振幅の変動でアクセントやイントネーションが付加されることが多い言語（例えば、英語）など、様々な言語に対応した音源音を出力することが可能となる。

［２］電気式人工喉頭装置１は、使用者Ｐの挙動（例えば、ボタンを押下する、本体を喉に押し付けるなどの動作の有無）に応じて、音源音の出力の有無を切り替えるように構成されていると、好ましい。

この場合、電気式人工喉頭装置１が音源音の出力を開始した当初の極僅かな時間については、所定の音源特徴量を有する音源音が出力される。しかし、その後すぐに使用者Ｐの発声音に対応した音源音が出力されるため、使用者Ｐの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。

［３］例えば、手術によって喉頭部を摘出する予定がある患者など、将来的に声帯が機能しなくなる者（即ち、将来的に上述の使用者Ｐとなる者）については、声帯が機能している間に、その者自身の声帯を使用した発声音（以下、「本人声帯発声音」とする）を集音して記録しておくと、好ましい。

記録された本人声帯発声音は、喉頭正常者が発した発声音であり、上述の第２発声音に含まれるものである。そのため、この本人声帯発声音を含む第２発声音を用いて、統計モデルを構築すると、好ましい。また、この本人声帯発声音の信号から抽出される音源特徴量こそ、使用者Ｐが望む音源特徴量であると考えられるため、当該音源特徴量を上述の目標音源特徴量として統計モデルを構築すると、好ましい。

このようにして構築された統計モデルは、使用者Ｐが喉頭正常者であった時の発声の特徴（アクセントやイントネーションなど）を反映したものとなる。そのため、上述の電気式人工喉頭装置１においてこの統計モデルを利用することによって、使用者Ｐが喉頭正常者であった時の発声の特徴を効果的に再現した音源音を出力することが可能になる。

なお、本人声帯発声音の記録量は、多ければ多いほどよいが、５０センテンス（読み上げに３〜５分程度を要する量）程度であってもよい。

本発明は、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置に対して、好適に利用することができる。

１：電気式人工喉頭装置
１０：集音部
２０：信号処理部
２１：音声特徴量抽出部
２２：音源特徴量推定部
２３：データベース
２４：音源信号生成部
３０：音源信号再生部
Ｐ：使用者

Claims

使用者の声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部と、
前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、
前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、
を備えることを特徴とする電気式人工喉頭装置。
前記信号処理部が、
前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、
前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、
前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、
を備えることを特徴とする請求項１に記載の電気式人工喉頭装置。
前記信号処理部が、前記音声特徴量と前記音源特徴量との対応関係を示す統計モデルを記録しているデータベースを、さらに備え、
前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定することを特徴とする請求項２に記載の電気式人工喉頭装置。
前記統計モデルは、ある言葉について喉頭異常者が発する第１発声音を集音して生成される第１発声信号から抽出される第１音声特徴量と、当該ある言葉について喉頭正常者が発する第２発声音を集音して生成される第２発声信号から抽出された第２音源特徴量と、を対応付けることで構築されたものであり、
前記第１発声音は、前記喉頭異常者の声道に入力された第１音源音が調音処理されて発せられるものであり、
前記第１音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、
前記第２発声音は、前記喉頭正常者の声帯が出力する第２音源音が声道で調音処理されて発せられるものであり、
前記第２音源特徴量は、前記第２音源音の特徴を示すものであることを特徴とする請求項３に記載の電気式人工喉頭装置。
前記統計モデルは、前記第１発声信号から抽出される前記第１音源音の特徴を示す第１音源特徴量が、前記第２音源特徴量の分布範囲内となることを特徴とする請求項４に記載の電気式人工喉頭装置。
前記音源特徴量が、前記音源音の基本周波数を示すものであり、前記第２音源特徴量が、前記第２音源音の基本周波数を示すものであることを特徴とする請求項４または５に記載の電気式人工喉頭装置。
前記統計モデルは、前記第１音声特徴量と、前記第２発声信号から抽出される第２音声特徴量と、の対応関係に基づいて、前記第１発声信号及び前記第２発声信号の時間方向におけるずれを補正した上で、前記第１音声特徴量と前記第２音源特徴量とを対応付けることで構築されたものであり、
前記第２音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであることを特徴とする請求項４〜６のいずれか１項に記載の電気式人工喉頭装置。