JPWO2004021738A1

JPWO2004021738A1 - マイクロフォン、コミュニケーションインタフェースシステム

Info

Publication number: JPWO2004021738A1
Application number: JP2004532784A
Authority: JP
Inventors: 淑貴中島; 誠庄境
Original assignee: Asahi Kasei Corp
Current assignee: Asahi Kasei Corp
Priority date: 2002-08-30
Filing date: 2003-09-01
Publication date: 2005-12-22
Anticipated expiration: 2023-09-01
Also published as: EP1538865A4; AU2003261871A1; JP3760173B2; KR20050057004A; EP1538865B1; EP1538865A1; CN1679371B; KR100619215B1; CN1679371A; WO2004021738A1; US20050244020A1; DE60333200D1

Abstract

マイクロフォンで外部から採取した空気伝導の通常音声を分析対象とする携帯電話や音声認識の、分析対象自体がもつ欠点を改善して、個人携帯情報端末において、訓練の必要がなく、人間の文化習慣に則った新しい携帯端末コミュニケーションを実現する。人間の体表に聴診器型のマイクロフォンを装着させ、声帯の規則振動を用いない発話行動（口の動き）に伴って調音される非可聴つぶやき音の肉伝導の振動音を採取する。増幅された非可聴つぶやき音の肉伝導の振動音はささやき声に似ており、それ自体が人間に聴取理解可能であるため、そのまま携帯電話による通話に用いることができる。また、非可聴つぶやき音の肉伝導の振動音を分析・パラメータ化の対象とすることにより、一種の無音声認識を実現し、個人携帯情報端末の新たな入力方法とする。

Description

本発明はマイクロフォン、コミュニケーションインタフェースシステムに関し、特に発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わず、周囲の人に聞かせる意図を有しない、ごく少量の呼吸量（呼気量および吸気量）を伴う、非可聴な呼吸音が体内軟部組織（肉など）を伝導（以下、「肉伝導」と呼ぶ）する振動音（以下、「非可聴つぶやき音」と呼ぶ）を採取するマイクロフォン、及び、これを用いたコミュニケーションインタフェースシステムに関する。

携帯電話の急速な普及は、電車やバスなどの公共交通機関における通話マナーの問題を引き起こしている。携帯電話においても過去のアナログ電話とインターフェースの基本的構造は同じであって、空気伝導の音声を拾うため、周囲に人がいる環境で携帯電話により通話をすると、周囲の人に迷惑をかけるという不具合がある。電車内で他人の携帯電話による会話を聞かされることの不快感は誰もが経験することであろう。
それと共に、これも空気伝導の本質的欠点として、周囲の人に通話内容を聴取されてしまい、情報が漏洩する危険性もあり、パブリシティーコントロールの困難性は避けられない。
また、相手が背景雑音の大きな場所で通話している場合、空気伝導であるため、背景雑音が混入した相手の音声を聴取しにくいという問題もある。
一方、音声認識は、約３０年の歴史をもって積み重ねられてきた技術であり、大語彙連続音声認識などにより、その認識率もディクテーションで単語認識率が９０％以上を越えるまでになっている。音声認識は、ウェアラブルコンピュータなどの個人用携帯情報端末やロボットに対して、特別な修得技術が不要で誰にでも使える入力方法であり、また、長年人間の文化として慣れ親しんできた音声言語文化を直接情報発信に利用する方法として有望視されてきた。
しかし、古くはアナログ電話の時代より、また、音声認識の技術開発が始まった当初から、音声入力技術が対象としてきたのは、常に口から離れた位置にある外部マイクロフォンから採取した音であった。高指向性マイクロフォンを用いたり、ノイズの削減にハードウェア的、ソフトウェア的工夫が積み上げられているとはいっても、今日に至るまで、全く変わらず、口から放射され、空気伝導して、外部マイクロフォンに到達した音声を常に分析対象としてきた。
この空気伝導した通常音声を分析対象としてきた音声認識は、長い開発の歴史を持ち、扱いやすい製品も開発され、実際にコマンド認識だけではなく、ディクテーションにおいてさえ、静穏環境で十分実用になる精度を持っているにもかかわらず、一部カーナビゲーションでの利用を除いて、現実の場面でコンピュータやロボットへの入力に使用されている場面に遭遇することは少ない。
この理由として考えられるのは、まず空気伝導の根本的な欠点として、外部背景雑音の混入が避けられないことがある。静穏環境のオフィスでさえ、さまざまな雑音が予期せぬ場面で発生し、誤認識を誘発する。ロボットの体表などに集音装置がある場合、音声として一旦発してしまった情報は、背景雑音の影響により、誤認識され、危険な命令に変換されてしまう場合が考えられる。
逆に、静穏環境で使用するときに問題となるのが、音声を発することは、周囲への騒音となるということである。オフィス内で各人が音声認識を用いようとすると、部屋を分割しないと難しく、現実問題として使用は困難である。
また、これと関係して日本文化の特徴として、「あまり口に出して言わない」「口に出すのは照れくさい」という傾向も、音声認識の普及を阻む一要因と考えられる。
個人用携帯情報端末を屋外や乗り物内で使用する機会が飛躍的に増える将来を考えると、この欠点は本質的に重要な問題である。
音声認識技術の研究開発は、現在のようなグローバルなネットワーク環境や個人携帯端末を想定して始められたものではなかった。今後ますます無線化・ウェアラブル化が一般的になることを考えると、個人用携帯情報端末で音声認識結果の目視と修正を行ってから、情報を無線・有線で送った方が、はるかに安全である。
上記のように、外部マイクロフォンで採取した空気伝導の通常音声信号をパラメータ化して分析対象とする携帯電話や音声認識においては、雑音混入性、雑音発生性、情報漏洩性、修正困難性など分析対象自体がもつ欠点がある。
これらを根本的に改善して、現在および近未来的に用いられる個人用携帯情報端末において、簡便で訓練の必要が無く、人間の長い文化習慣に則った新しい入力方法およびそれを実現するデバイスの提供が望まれている。
ところで、通常音声信号を空気伝導以外の手段で採取する方法として、骨伝導による方法が知られている。骨伝導の原理は、声帯を振動させて発声する際に、声帯の振動が頭蓋骨に伝導し、さらに渦巻き状の蝸牛（内耳）に伝導し、蝸牛内部のリンパ液の振動により生成される電気信号が聴覚神経に送られて脳が音を認識するというものである。
音が頭蓋骨を伝導する、骨伝導の原理を利用した骨伝導スピーカーは、音をバイブレータによる振動に変換し、バイブレータを耳、耳の周囲の骨、こめかみ、乳様突起などに接触させて、頭蓋骨に伝えることにより、背景雑音の大きな環境で、あるいは鼓膜や耳小骨に異常がある難聴者、高齢者でも聞き取りやすくする目的で利用されている。
例えば、特開昭５９−１９１９９６号公報には、バイブレータを頭蓋骨の乳様突起上に接触させて、骨伝導と空気伝導の両方を利用した聴音器に関する技術が開示されている。しかし、同公報に開示されている技術は、人間の発声を採取する方法について開示したものではない。
特開昭５０−１１３２１７号公報には、口から放射され空気伝導した音をマイクロフォンで採取した音と喉仏の上に装着されたマイクロフォンで採取した音を、それぞれ、イヤフォンと頭蓋骨の乳様突起上に装着されたバイブレータから聞く音響再生装置に関する技術が開示されている。しかし、同公報に開示されている技術は、乳様突起直下にマイクロフォンを装着して、人間の発声を採取する方法について開示したものではない。
特開平４−３１６３００号公報には、イヤフォン型マイクロフォンとそれを利用した音声認識に関する技術が開示されている。同公報に開示されている技術では、声帯を規則振動させて発声した音声および歯咬音などの体内音声の、口腔から鼻腔を経て、さらに耳管および鼓膜を介して外耳道と耳甲介腔とからなる外耳に伝わった振動を採取する。これにより、雑音混入性、雑音発生性、情報漏洩性、修正困難性を回避でき、つぶやき程度の小さな声でも明瞭に採取できると主張している。しかしながら、同公報に開示されている技術では、声帯を規則振動させない非可聴つぶやき音が採取可能であることは明示していない。
特開平５−３３３８９４号公報には、声帯を規則振動させて発声した音声および歯咬音などの人体信号を検出する振動センサーを具備した、イヤフォン型マイクロフォンとそれを利用した音声認識に関する技術が開示されている。同公報に開示されている技術では、振動センサーを固定する部位として、耳孔、耳周辺、頭部の表面、顔面の表面を明示している。この振動センサーにより採取された人体振動は、マイクロフォンが採取した信号の中から、発声者本人が発声した時間区間の信号のみを抽出類別し、抽出類別された信号を音声認識装置に入力する目的でのみ利用されている。しかしながら、同公報に開示されている技術では、人体振動そのものを音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。ましてや、声帯を規則振動させない非可聴つぶやき音を、音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。
特開昭６０−２２１９３号公報には、通常の空気伝導を採取するマイクロフォン信号の中から、喉仏に装着する喉マイクロフォンやイヤフォン型骨伝導マイクロフォンが人体振動を検出した時間区間のみの信号を抽出類別し、抽出類別された信号を音声認識装置に入力する技術が開示されている。しかしながら、同公報に開示されている技術では、人体振動そのものを音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。ましてや、声帯を規則振動させない非可聴つぶやき音を、音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。
特開平２−５０９９号公報には、通常の空気伝導を採取するマイクロフォン信号を、喉に装着する喉マイクロフォンや振動センサーが声帯の規則振動を検出した時間区間を有声、声帯の規則振動を検出しないが一定レベル以上のエネルギーを有する時間区間を無声、エネルギーが一定レベル以下の時間区間を無音と判定する技術が開示されている。しかしながら、同公報に開示されている技術では、人体振動そのものを音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。ましてや、声帯を規則振動させない非可聴つぶやき音を、音声認識装置の入力として、また、携帯電話の通話に利用できることを明示していない。
本発明の目的は、音響的な背景雑音の混入がなく、周囲の人に非可聴なため発声内容が聴取されず、情報漏洩のコントロールが可能で、オフィスなどの静穏環境を損なうことなく、音声情報の伝達や入力を可能とし、コンピュータ、携帯電話ひいてはウェアラブルコンピュータなどの個人用携帯情報端末の新たな入力インターフェースとすることのできるマイクロフォン、コミュニケーションインタフェースシステムを提供することである。

本発明では、携帯電話などの遠隔会話メディアによる通話や音声認識によるコマンド制御ならびに文字やデータなどの情報入力などの分野において、周囲の人が可聴な、空気伝導により伝わる音声（声帯を規則振動させて周囲の人に聞かせる意図を有して多量の呼気量を伴う通常音声、声帯を規則振動させるが周囲の人に聞かせる意図を有しない少な目の呼気量を伴うつぶやき声、声帯を規則振動させて周囲の人に聞かせる意図を有して少な目の呼気量を伴う小声、声帯を規則振動させないが周囲の人に聞かせる意図を有して少な目の呼気量を伴うささやき声を含む）を口から離れた位置にあるマイクロフォンにより採取するのではなく、マイクロフォンを、耳介の後下方部の、頭蓋骨の乳様突起（耳の後ろのやや骨の出っ張った部分）直下の、胸鎖乳突筋上の皮膚（以下、「乳様突起直下」と略する）に装着し、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わず、周囲の人に聞かせる意図を有しない、ごく少量の呼吸量（呼気量および吸気量）を伴う、非可聴な呼吸音の体内軟部組織（肉など）を伝導（以下、「肉伝導」と呼ぶ）する振動音（以下、「非可聴つぶやき音」と呼ぶ）を採取する。こうすることにより、音響的な背景雑音の混入がなく、周囲の人に非可聴なため発声内容が聴取されず、情報漏洩のコントロールが可能で、オフィスなどの静穏環境を損なうことなく、音声情報の伝達や入力を可能とし、コンピュータ、携帯電話ひいてはウェアラブルコンピュータなどの個人用携帯情報端末の新たな入力インターフェースとなるものである。
このため、本発明の請求の範囲第１項によるマイクロフォンは、耳介の後下方部の、頭蓋骨の乳様突起直下の、胸鎖乳突筋上の皮膚表面に装着され、発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音、及び、可聴だが声帯を規則振動させないささやき声、小声、つぶやき声などを含む声帯の規則振動を用いて発声する音声、歯咬音、舌打ち音などの様々な音声、の少なくとも一方を採取することを特徴とする。これにより、非可聴つぶやき音を採取でき、携帯電話等での通話や音声認識処理などに利用することができる。また、非可聴つぶやき音以外の可聴音をも、単一の装置で採取できる。
本発明の請求の範囲第２項によるマイクロフォンは、請求の範囲第１項において、前記皮膚表面に装着された振動板と、前記振動板に吸着する吸盤とを含むことを特徴とする。このように構成することで、振動板は、吸盤の固定と微小密閉空間反響との両方の役目を担うことになる。また、振動板一枚を体表に張るだけで、吸盤はいつでも着脱できるようになる。
本発明の請求の範囲第３項によるマイクロフォンは、請求の範囲第１項又は第２項において、眼鏡、ヘッドフォン、耳かけ型イヤフォン、帽子、ヘルメットなど、人間の頭部に装着する頭部装着物と一体に構成されていることを特徴とする。頭部装着物とマイクロフォンとを一体化することにより、マイクロフォンを違和感なく装着できる。
本発明の請求の範囲第４項によるコミュニケーションインタフェースシステムは、請求の範囲第１項乃至第３項のいずれか１項のマイクロフォンと、前記マイクロフォンによって採取された信号に対して、信号処理を行う信号処理装置と、
を含み、前記信号処理装置による処理結果をコミュニケーションに使用するようにしたことを特徴とする。マイクロフォンによって採取された非可聴つぶやき音に対応する信号に対して、増幅又は変調などの加工を行い、この加工された振動音をそのまま、若しくはパラメータ化して、携帯端末などによるコミュニケーションに使用できる。携帯電話に利用した場合には、周囲に人がいる環境でも周囲の人に発声内容を聴取されることなく、通話できる。
本発明の請求の範囲第５項によるコミュニケーションインタフェースシステムは、請求の範囲第４項において、前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果について加工を行うプロセッサ部と、前記プロセッサ部による加工結果を外部に送出する送出部とを含むことを特徴とする。こうすることにより、例えば、移動電話網内の装置において、上記加工結果された振動音そのまま、若しくはパラメータ化された信号について処理を行うことができ、信号処理装置の構成を単純化できる。
本発明の請求の範囲第６項によるコミュニケーションインタフェースシステムは、請求の範囲第４項において、前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果を外部に送出する送出部とを含み、前記量子化結果の加工を外部装置において行うようにしたことを特徴とする。こうすることにより、例えば移動電話網内の装置において、上記量子化結果について処理を行うことができ、信号処理装置の構成を単純化できる。
本発明の請求の範囲第７項によるコミュニケーションインタフェースシステムは、請求の範囲第５項において、前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果について加工を行うプロセッサ部と、前記プロセッサ部による加工結果について音声認識処理を行う音声認識部とを含むことを特徴とする。このように信号処理装置を構成すれば、非可聴つぶやき音について、加工された振動音のそのままの信号、若しくはパラメータ化された信号の音声認識処理を行うことができる。
本発明の請求の範囲第８項によるコミュニケーションインタフェースシステムは、請求の範囲第７項において、前記音声認識部による音声認識結果を、外部に送出する送出部を更に含むことを特徴とする。音声認識結果を、例えば移動電話網に送出することにより、音声認識結果を種々の処理に利用できる。
本発明の請求の範囲第９項によるコミュニケーションインタフェースシステムは、請求の範囲第５項において、前記送出部によって送出された前記プロセッサ部による加工結果について、移動電話網内の装置によって音声認識処理を行うことを特徴とする。このように移動電話網内の装置によって音声認識処理を行うことにより、信号処理装置の構成を単純化できる。
本発明の請求の範囲第１０項によるコミュニケーションインタフェースシステムは、請求の範囲第５項において、前記信号処理装置が行う信号処理は、前記プロセッサ部が可聴な音声に変調する変調処理であることを特徴とする。このように変調処理することで、携帯電話などによる通話が可能になる。
本発明の請求の範囲第１１項によるコミュニケーションインタフェースシステムは、請求の範囲第１０項において、前記変調処理は、前記非可聴つぶやき音に、声帯の基本周波数を付与することにより、声帯の規則振動を伴う、可聴な音声に変換する処理であることを特徴とする。モーフィング処理等を行うことにより、携帯電話などによる通話が可能になる。なお、声帯の基本周波数の算出方法は、良く知られている、フォルマント周波数と基本周波数の相関関係を利用して、非可聴つぶやき音のフォルマント周波数から基本周波数を推定する方法でも良い。
本発明の請求の範囲第１２項によるコミュニケーションインタフェースシステムは、請求の範囲第１０項において、前記変調処理は、声帯の規則振動を伴わない、非可聴つぶやき音のスペクトルから、声帯の規則振動を用いて発声された可聴な音声のスペクトルへ変換する処理であることを特徴とする。可聴な音声のスペクトルへ変換することにより、携帯電話などによる通話に利用できる。
本発明の請求の範囲第１３項によるコミュニケーションインタフェースシステムは、請求の範囲第１２項において、前記変調処理は、非可聴つぶやき音のスペクトルを用いて、音声認識装置により音節、半音節、音素、２連接音素、３連接音素などの音声単位の認識を行い、認識された音声単位から音声合成技術により、声帯の規則振動を用いて発声された可聴な音声に変換する処理であることを特徴とする。これにより、合成音声を利用した通話などが可能になる。
本発明の請求の範囲第１４項によるコミュニケーションインタフェースシステムは、請求の範囲第４項乃至第１３項のいずれか１項において、前記マイクロフォンによって採取される音声のダイナミックレンジの大きさに応じて、入力ゲインを制御することを特徴とする。こうすることにより、ダイナミックレンジの大きさに応じて、適切に信号処理できる。入力ゲインを制御するには、公知の自動ゲイン制御のアナログ回路又はソフトウェアを利用すればよい。
本発明の請求の範囲第１５項によるコミュニケーションインタフェースシステムは、請求の範囲第７項又は第８項において、前記音声認識部は、前記非可聴つぶやき音、及び、可聴だが声帯を規則振動させないささやき声、小声、つぶやき声などを含む声帯の規則振動を用いて発声する音声、歯咬音、舌打ち音などの様々な音声、の少なくとも一方をモデル化した音響モデルを利用して、音声認識処理を行うことを特徴とする。こうすることにより、非可聴つぶやき音以外の可聴音について、音声認識を適切に行うことができる。これら様々な音声をモデル化した音響モデルは、当業者であれば、隠れマルコフモデルにより容易に構成することができる。
要するに本発明は、非可聴つぶやき音（ｎｏｎ−ａｕｄｉｂｌｅｍｕｒｍｕｒ；ＮＡＭ）を、コミュニケーションに利用するものである。声帯を規則振動させずに発声された非可聴つぶやき音は、舌や口唇、顎、軟口蓋など調音器官の発話運動により、通常の声帯を規則振動させる音声とほぼ同様に、その共振フィルタ特性の変化により調音されるとともに、肉伝導する。
本発明では、乳様突起直下に、微小密閉空間の反響を利用した聴診器型マイクロフォンを密着して装着させる。これによって採取した、非可聴つぶやき音の肉伝導の振動音を増幅して聴取すると、ささやき声に似た人間の音声として弁別理解可能である。しかも、通常環境では半径１ｍ以内の他人にも聴取されない。この空気伝導ではない、非可聴つぶやき音の肉伝導の振動音を分析・パラメータ化の対象とする。
増幅されたこの肉伝導の振動音は、それ自体が人間に聴取理解可能であるため、そのまま、携帯電話の通話に用いることができる。また、モーフィング処理して可聴な音声に加工した後、携帯電話の通話に用いることもできる。
また、従来音声認識で使用されてきた隠れマルコフモデル（ＨｉｄｄｅｎＭａｒｋｏｖＭｏｄｅｌ；以下、ＨＭＭと略称することがある）の技術を利用し、通常音声の音響モデルを非可聴つぶやき音の肉伝導の振動音の音響モデルに置き換えることにより、音声認識が可能であるため、一種の無音声の認識を実現でき、個人携帯情報端末の新たな入力方法として利用可能である。
このように本発明は、非可聴つぶやき音を、人間対人間、人間対コンピュータの新たなコミュニケーションインターフェースとして提案するものである。

図１は本発明によるコミュニケーションインタフェースシステムを携帯電話システムに適用した場合の構成を示すブロック図である。図２は本発明によるコミュニケーションインタフェースシステムを音声認識システムに適用した場合の構成を示すブロック図である。図３は本発明によるマイクロフォンの一例を示す外観図である。図４は本発明によるマイクロフォンの一例を示す縦断面図である。図５は本発明によるマイクロフォンの装着位置を示す図である。図６は甲状軟骨（喉仏）に装着した場合に採取される振動音の波形を示す図である。図７は甲状軟骨（喉仏）に装着した場合に採取される振動音のスペクトルを示す図である。図８は顎の下面に装着した場合に採取される振動音の波形を示す図である。図９は顎の下面に装着した場合に採取される振動音のスペクトルを示す図である。図１０は耳下腺部（下顎の骨の角）に装着した場合に採取される振動音の波形を示す図である。図１１は耳下腺部（下顎の骨の角）に装着した場合に採取される振動音のスペクトルを示す図である。図１２は側頸部に装着した場合に採取される振動音の波形を示す図である。図１３は側頸部に装着した場合に採取される振動音のスペクトルを示す図である。図１４は乳様突起直下に装着した場合に採取される振動音の波形を示す図である。図１５は乳様突起直下に装着した場合に採取される振動音のスペクトルを示す図である。図１６は乳様突起上に装着した場合に採取される振動音の波形を示す図である。図１７は乳様突起上に装着した場合に採取される振動音のスペクトルを示す図である。図１８は頬骨部（耳のすぐ前の側頭部）に装着した場合に採取される振動音の波形を示す図である。図１９は頬骨部（耳のすぐ前の側頭部）に装着した場合に採取される振動音のスペクトルを示す図である。図２０は頬部（口の横）に装着した場合に採取される振動音の波形を示す図である。図２１は頬部（口の横）に装着した場合に採取される振動音のスペクトルを示す図である。図２２は通常の外部マイクロフォンから採音した通常音声、通常の外部マイクロフォンから採音したささやき声、本願発明の位置ではない耳下腺部位に本願発明によるマイクロフォンを装着して採音した非可聴つぶやき音の音声波形とスペクトラムとの比較を示す図である。図２３は本願発明の装着位置から体表装着聴診器型マイクロフォンで採取した非可聴つぶやき音の音声波形、スペクトラム、Ｆ０（声帯の規則振動から来る基本周波数）を示す図である。図２４は本願発明の装着位置から体表装着聴診器型マイクロフォンで採取した非可聴つぶやき音のスペクトラムと、非可聴つぶやき声響モデルによるＨＭＭ音声認識結果から自動ラベリングした結果を示す図である。図２５は非可聴つぶやき音を元にして作成したＨＭＭ音響モデルのモノフォン（混合正規分布の混合数１６）定義ファイルの冒頭部を示す図である。図２６は音響モデルを大語彙連続音声認識システムに組み込んで、録音した非可聴つぶやき音を認識した認識結果を示す図である。図２７は自動アラインメント・セグメンテーション結果を示す図である。図２８は単語認識性能を示す表である。図２９は眼鏡とマイクロフォンとを一体化した例を示す図である。図３０はヘッドフォンとマイクロフォンとを一体化した例を示す図である。図３１は耳かけ型イヤフォンとマイクロフォンとを一体化した例を示す図である。図３２は帽子とマイクロフォンとを一体化した例を示す図である。図３３はヘルメットとマイクロフォンとを一体化した例を示す図である。図３４はコミュニケーションインタフェースシステムの変形例を示すブロック図である。図３５はコミュニケーションインタフェースシステムの他の変形例を示すブロック図である。図３６は音声認識処理機能を有するコミュニケーションインタフェースシステムの変形例を示すブロック図である。図３７は図３６のコミュニケーションインタフェースシステムの変形例を示すブロック図である。

次に、図面を参照して本発明の実施の形態について説明する。以下の説明において参照する各図では、他の図と同等部分は同一符号によって示されている。
なお、日本語の場合、発声のほとんどは、呼吸の呼気を利用して行われる。そこで、以下は、呼気を利用した非可聴つぶやき音を対象とした場合について説明するが、吸気を利用した非可聴つぶやき音を対象とした場合も同様に実施できる。
また、非可聴つぶやき音は、他人に聞かせることを前提としていない。この点、積極的に他人に聞かせようとしているささやき声とは異なる。そして本発明では、非可聴つぶやき音を、空気伝導は利用せずに、肉伝導によりマイクロフォンで採取することに特徴がある。
（携帯電話システム）
図１は、本発明のコミュニケーションインタフェースシステムを、携帯電話システムに応用した場合の概略構成図である。
聴診器型マイクロフォン１−１を、乳様突起直下１−２に接着して装着し、イヤフォン又はスピーカー１−３を耳孔に装着する。
聴診器型マイクロフォン１−１及びイヤフォン１−３は、携帯電話機１−４と有線もしくは無線の通信手段で接続されている。イヤフォン１−３の代わりにスピーカーを用いても良い。
無線ネットワーク１−５は、例えば、無線基地局５１ａ及び５１ｂと、基地局制御装置５２ａ及び５２ｂと、交換機５３ａ及び５３ｂと、通信網５０とを含んで構成されている。本例では、携帯電話機１−４が無線基地局５１ａと無線通信し、かつ、携帯電話機１−６が無線基地局５１ｂと無線通信することにより、携帯電話機１−４と携帯電話機１−６との間で通話が可能となる。
人間が、声帯の規則振動を用いずに発声した非可聴つぶやき音は、舌や口唇、顎、軟口蓋など調音器官の発話運動により、通常の声帯を規則振動させて発声する音声とほぼ同様に、その共振フィルタ特性の変化により調音されるとともに、肉伝導の振動音として乳様突起直下１−２に到達する。
乳様突起直下１−２に到達した、非可聴つぶやき音１−７の振動音は、そこに装着されている聴診器型マイクロフォン１−１により採取され、マイクロフォン内のコンデンサマイクロフォンによって電気信号となり、この信号が有線もしくは無線の通信手段により、携帯電話機１−４に送信される。
携帯電話機１−４に送信された、非可聴つぶやき音の振動音は、無線ネットワーク１−５を介して、通話相手の持つ携帯電話機１−６に送信される。
一方、通話相手の音声は、携帯電話機１−６、無線ネットワーク１−５、携帯電話機１−４を経由して、有線もしくは無線の通信手段により、イヤフォン又はスピーカー１−３に送信される。なお、携帯電話１−４から直接、聴く場合はイヤフォン１−３は必要ない。
これにより、通話相手と会話することが出来る。この際、非可聴つぶやき音１−７を発声しているため、例えば半径１ｍ以内の他人にも聴取されない。また、半径１ｍ以内の他人の迷惑になることもない。
要するに、本例では、マイクロフォンと、信号処理装置としての携帯電話機とを組み合わせて、コミュニケーションインタフェースシステムを構成している。
（音声認識システム）
図２は、本発明のコミュニケーションインタフェースシステムを、音声認識システムに応用した場合の概略構成図である。
図１の場合と同様に、聴診器型マイクロフォン１−１を頭蓋骨の耳介の後下方部の、乳様突起直下１−２の体表に接着して装着する。
人間が、「こんにちは」と発声した非可聴つぶやき音１−７は、舌や口唇、顎、軟口蓋など調音器官の発話運動により、通常の声帯を規則振動させる音声とほぼ同様に、その共振フィルタ特性の変化により調音されるとともに、肉伝導して、振動音として乳様突起直下１−２に到達する。
乳様突起直下１−２に到達した、「こんにちは」の非可聴つぶやき音１−７の振動音は、聴診器型マイクロフォン１−１により採取され、有線もしくは無線の通信手段により、個人用携帯情報端末２−３に送信される。
個人用携帯情報端末２−３に送信された、「こんにちは」の非可聴つぶやき音の振動音は、個人用携帯情報端末２−３に内蔵された音声認識機能により、「こんにちは」と音声認識される。
音声認識結果である「こんにちは」の文字列は、有線・無線ネットワーク２−４を介して、コンピュータ２−５、ロボット２−６などに送信される。
コンピュータ２−５、ロボット２−６などは、それに対する音声や画像の応答を生成し、それらを有線・無線ネットワーク２−４を介して、個人用携帯情報端末２−３に返信する。
個人用携帯情報端末２−３は、音声合成や画像表示の機能を利用して、人間に対しそれらの情報を出力する。
この際、非可聴つぶやき音を発声しているため、半径１ｍ以内の他人にも聴取されない。
要するに、本例では、マイクロフォンと、信号処理装置としての個人用携帯情報端末とを組み合わせて、コミュニケーションインタフェースシステムを構成している。
（マイクロフォンの構成）
図３は、本発明の骨子となる聴診器型マイクロフォン１−１の断面図である。体表面から肉伝導により伝搬する微少な振動を感知するためには、まず集音装置であるマイクロフォンの工夫が不可欠であった。医療用膜型聴診器を用いた実験で、頭部のある部位に聴診器を当てると、呼吸音が聴取可能であり、これに発話運動が加わると、声帯の規則振動を用いて発した音声と同様に、非可聴つぶやき音の呼吸音が声道の共振フィルタ特性で調音されて、ささやき声に似た音声が聴取弁別可能であることがわかった。このため、この膜型聴診器の微小密閉空間の反響を応用した方法が有効であると考えた。
体表に効果的に密着する方法と２４時間装着可能な構造とを実現するため、図３に示されているような構成を採用した。すなわち、粘着面のあるポリエステル製の円形振動板３−３（聴診器の膜部に当たる）と、この振動板３−３に吸着する吸盤部３−９とを組み合わせて用いることにした。吸盤部３−９には、合成樹脂吸盤（エラストマー樹脂）３−２が設けられている。この合成樹脂吸盤３−２を振動板３−３の表面に吸着した状態で、マイクロフォンとして用いる。
振動板３−３は吸盤部３−９の固定と振動伝導との両方の役目を担い、吸盤の固定と微小密閉空間反響の両方の役目を担う。こうすれば、ディスポーザブルの振動板一枚を体表に張るだけで、吸盤部３−９はいつでも着脱可能である。また吸盤部３−９の柄の部分は、コンデンサマイクロフォン３−１を埋め込むための場となり、周囲の合成樹脂が防音の役目も果たす。その上から、ＡＶ（ａｕｄｉｏ−ｖｉｓｕａｌ）機器振動防止用の特殊合成ゴムを使用した防音ゴム部３−６で被覆し、間隙部３−８はエポキシ樹脂接着剤で埋めて防音性と密閉性を増した。
このように構成されたマイクロフォンは、体内の微弱な振動を外部からの直接雑音を混入させることなしに感知するために、常時、体表に密着させることが可能で、かつ、医療用膜型聴診器の微小密閉空間の反響の原理を利用するために、接着した振動板と吸盤とを用いて微小密閉空間を作り出すことができる。
この聴診器型マイクロフォンは軽量で低コストである。発明者は、２４時間装着実験を行ったが、剥離することなく、また、携帯型音楽機器のヘッドフォンよりも耳を覆わないため、特に気になるようなことはなかった。
（マイクロフォンアンプ）
コンデンサマイクロフォン３−１の駆動に必要なマイクロフォンアンプは、市販のモノラルマイクロフォンアンプキットを用いて作成した。発明者は、タバコの箱大の別装置としてマイクロフォンアンプを作成し、ここからコンピュータのデジタルサンプリング用音源ボードに入力した。これらの部分は小型化、チップ化、ワイアレス化が可能であり、図３中の間隙部３−８や防音ゴム部３−６に埋め込むことが可能である。
マイクロフォンアンプの出力をそのままオーディオ機器のメインアンプの外部入力に接続すれば、非可聴つぶやき音が聴取可能である。発話内容もささやき声に似た声として弁別理解可能である。胸部に装着すれば、呼吸音、心音や心雑音も聴取でき聴診器の代用に使えることもわかった。この非可聴つぶやき音の音声信号は声道共振フィルタ特性を含むため、現在の携帯電話の音声ハイブリッド符号化技術ＰＳＩ−ＣＥＬＰ（ＰｉｔｃｈＳｙｎｃｈｒｏｎｏｕｓＩｎｎｏｖａｔｉｏｎ−ＣｏｄｅＥｘｃｉｔｅｄＬｉｎｅａｒＰｒｅｄｉｃｔｉｏｎ）方式などで圧縮された後も、基本周波数音源波形を与えてやることで利用でき、通常音声に近い声に変換して聞くことも可能となる。
（マイクロフォンの装着位置）
次に、聴診器型マイクロフォンの装着位置は、図４及び図５に示されている位置である。以下、これについて、他の位置に装着した場合と比較して説明する。
顎下から耳下腺部、側頸部に至るまで、非可聴つぶやき音を聴取できる部位は多い。甲状軟骨（喉仏）、顎の下面、耳下腺部（下顎の骨の角）、側頸部、乳様突起直下、乳様突起上、頬骨部（耳のすぐ前の側頭部）、頬部（口の横）に聴診器型マイクロフォンを装着した状態で、非可聴つぶやき音により「かきくけこたちつてとぱぴぷぺぽばびぶべぼ」と発声した場合の波形およびスペクトルが、図６乃至図２１に、示されている。
（甲状軟骨の上に装着）
聴診器型マイクロフォンを甲状軟骨（喉仏）の上に装着した場合の波形図が図６、スペクトラムが図７、に示されている。
図６に示されているように、大きなパワーで非可聴つぶやき音の振動音を採取できるが、母音に比べて子音のパワーが強すぎて、たいていオーバーフローする（図７のスペクトルでは縦線となる）。オーバーフローを起こした子音は、全て爆発音に聞こえ、子音の聞き分けはできない。マイクロフォンアンプのゲインを下げると、オーバーフローは回避できるが、図７に示されているように、母音のスペクトルに５母音固有のフォルマント（Ｆｏｒｍａｎｔ）の異なりが観測できず、聴取しても音韻性が不明瞭である。
（顎の下面、耳下腺部、側頸部に装着）
聴診器型マイクロフォンを顎の下面に装着した場合の波形図が図８、スペクトラムが図９、に示されている。聴診器型マイクロフォンを耳下腺部（下顎の骨の角）に装着した場合の波形図が図１０、スペクトラムが図１１、に示されている。聴診器型マイクロフォンを側頸部に装着した場合の波形図が図１２、スペクトラムが図１３、に示されている。
聴診器型マイクロフォンを顎の下面、耳下腺部、側頸部に装着に装着した場合、図８、図１０、図１２に示されているように、音声波形がオーバーフローすることが多く、オーバーフローしないようにマイクロフォンアンプのゲインを調整するのが困難である。子音の振幅がオーバーフローしやすく、全ての子音の振幅のオーバーフローを回避するためには、マイクロフォンアンプのゲインを相当絞らなければならない。ゲインを絞ると、図９、図１１、図１３に示されているように、母音のフォルマントのエネルギーが弱くなり、母音の識別が困難になる。子音の振幅が振り切れた子音は、よく聞くとやはり破裂音に近い音となっており、知っている文章なら聞き取れるが、未知文では聞き取れないことが多い。
（乳様突起直下に装着）
聴診器型マイクロフォンを乳様突起直下に装着した場合の波形図が図１４、スペクトラムが図１５、に示されている。
図１４に示されているように、他の部位と明らかに違い、唯一ゲインを相当上げても子音が振り切れないため、マイクロフォンアンプのゲイン調節で苦労しなくて済む。また、他の部位と聞き比べると、子音も母音も明瞭性が際立っている。
（乳様突起上に装着）
聴診器型マイクロフォンを乳様突起上に装着した場合の波形図が図１６、スペクトラムが図１７、に示されている。
図１６に示されているように、図１４の場合と比べて、子音も母音も明瞭性はあまり変わらないが、パワーが明らかに低下する。ところどころ入っているノイズは、髪の毛のノイズである。聴診器型マイクロフォンの振動板が髪の毛にかかってしまうため、髪の毛のノイズが入りやすい。
（頬骨部に装着）
聴診器型マイクロフォンを頬骨部（耳のすぐ前の側頭部）に装着した場合の波形図が図１８、スペクトラムが図１９、に示されている。
図１８および図１９に示されているように、乳様突起直下と同様に明瞭性も母音子音のパワー比も良いが、顎の動きによるノイズが入る。このノイズの影響を軽減できれば、頬骨部（耳のすぐ前の側頭部）も乳様突起直下に次ぐ好適な装着場所といえる。
（頬部に装着）
聴診器型マイクロフォンを頬部（口の横）に装着した場合の波形図が図２０、スペクトラムが図２１、に示されている。
図２０に示されているように、口の動きによる雑音が入りやすく、子音の振幅がオーバーフローすることが多い。ただし第３（まれに第４）フォルマントが出ることのあるのはこの部位である。
（装着結果についての検討）
上述したように、聴診器型マイクロフォンを甲状軟骨（喉仏）、顎の下面、耳下腺部（下顎の骨の角）、側頸部、頬部（口の横）に装着した場合は、摩擦音や破裂音などの子音は、肉伝導した時のパワーが非常に大きく、すべて破裂音に聞こえてしまうことが多い。反して母音、半母音は声道の空気の共鳴構造の違いにより弁別されるため、その肉伝導のパワーは小さい。実際、これらの部位に聴診器型マイクロフォンを装着して採取した音で音響モデルを作成しても、母音は比較的良好に認識するが、子音についてはほとんど弁別不能な認識システムしかできなかった。
一方で、聴診器型マイクロフォンを乳様突起上、頬骨部（耳のすぐ前の側頭部）に装着した場合は、子音の振幅がオーバーフローすることはないが、一般に骨伝導は肉伝導に比べて、振動が伝達しにくく、音が小さくなり、信号と雑音との比が低くなる。
聴診器型マイクロフォンを、乳様突起直下に装着して採取した図１４の波形の信号雑音比と、乳様突起上に装着した図２６の波形の信号雑音比とを計測すると、それぞれ、１９デシベル、１１デシベルである。このため、両者には８デシベルという大きな差があった。この差は、無償配布の日本語ディクテーション基本ソフトウェアの音声認識エンジンＪｕｌｉｕｓ（２万単語規模）では３０％の性能向上（６０％から９０％）に相当し、極めて大きな差である。
以上から、子音のピークパワーと、母音のピークパワーとの比率が値「１」に最も近くなる部位は、様々な部位の音声認識率を比較した結果、乳様突起直下でなければならないとの結論に達した。
（乳様突起直下）
図４を用いて、その部位の場所をより詳しく説明する。
聴診器型マイクロフォン１−１の振動板の中心が、耳介の後下方、頭蓋骨の乳様突起４−１２の直下の部位４−１３に位置したケースが、子音・母音パワー比の最適位置であった。
同様に、図５には、聴診器型マイクロフォンを装着するのに最適な、乳様突起直下の部位が二重丸で示されている。
この最適な装着部位は、髪の毛や髭などの体毛のない場所であり、長髪の場合は耳介と髪に完全に隠れる。また、この最適な装着部位は、他の部位と異なり、軟部組織（肉など）が厚く、舌や口唇、顎、軟口蓋など調音器官の発話運動の動きに付随する雑音が全く混入しない場所である。さらに、体内内部に骨が存在しない間隙の上に位置し、非可聴つぶやき音の振動音を大きなゲインで取得できる。
従来、医者は、聴診器を人体の体表に装着させて体内音を聴取する時は、骨が体内音を内部に反射させる事実に基づき、できるだけ骨を避けて体表に装着することを常としている。これらのことから、図４および図５に示されている部位が、聴診器型マイクロフォンを装着させるのに最適な部位であるとの結論を得た。
（通常音声、ささやき声、非可聴つぶやき音の波形とスペクトラム）
図２２には、通常音声、ささやき声（両者とも外部マイクロフォン使用）、本願発明の位置ではない一般の非可聴つぶやき音（自作マイクロフォン体表密着使用）、についての音声信号とスペクトラムとが示されている。これは耳下腺部位にマイクロフォンを装着して非可聴つぶやき音を採取したものであるが、母音にフォルマントを描出するまでボリュームを上げると、子音の音声信号のパワーが振り切れることが多い。
図２３及び図２４には、図４に示されている、最適位置に装着したマイクロフォンから採取した非可聴つぶやき音の音声信号とスペクトラムが示されている。図２３を参照すると、非可聴つぶやき音は声帯の規則振動による基本周波数Ｆ０がほとんど出現せず、音韻的特徴を含む低周波域のフォルマント構造が比較的よく保たれているのがわかる。
このようにして採取した、男性１名の非可聴つぶやき音を用い、音素バランスのとれた例文を、４回ずつ口の中で読み上げて１６ｋＨｚ、１６ｂｉｔでデジタル化して収録した。例文は、ＡＴＲ音声翻訳通信研究所によるＡＴＲ（ＡｄｖａｎｃｅｄＴｅｌｅｃｏｍｍｕｎｉｃａｔｉｏｎｓＲｅｓｅａｒｃｈ）音素バランス文５０３文＋追加２２文とした。
本例では、計２１００サンプルのｒａｗファイルデータを用いて、隠れマルコフモデルツールであるＨＴＫ（ＨＭＭＴｏｏｌｋｉｔ）を使用した。そして、通常音声認識と同様に、フレーム周期１０ｍｓで、１２次元メルケプストラム（Ｍｅｌ−ｃｅｐｓｔｒｕｍ）とその一次差分１２個、パワー一次差分１個の計２５パラメータを抽出し、モノフォン音声認識用音響モデルを作成した。この作成したモノフォン音声認識用音響モデルの例が図２５に示されている。
モノフォンモデルではあるが、混合正規分布の混合数を１６に増やすと、飛躍的に認識率が高まり、無償配布の日本語ディクテーション基本ソフトウェアの音声認識エンジンＪｕｌｉｕｓ（ｈｔｔｐ：／／ｊｕｌｉｕｓ．ｓｏｕｒｃｅｆｏｒｇｅ．ｊｐ／）の音響モデルをこれに置き換えると、録音した非可聴つぶやき音で性別非依存通常音声モノフォンモデルと大差のない単語認識率が得られた。
（音声認識結果の例）
図２６には録音音声の認識結果例が示されている。また、図２７には自動音素アラインメント例が示されている。なお、図２４中のスペクトラムの下段にある音素ラベルはこの自動アラインメント・セグメンテーションの結果で表示したものである。
同様に、男性１名の非可聴つぶやき音で発声した音素バランス文や新聞記事文などを約４６００文章収録し、不特定男性話者通常音声モノフォンモデル（５状態、１６混合正規分布）を初期モデルとして連結学習を行った。これをＪｕｌｉｕｓに組み込んで、音響モデル以外の条件をまったく変えずに使用した場合の単語認識性能が図２８に示されている。同図において、１行目の「ＣＬＥＡＮ」は、静かな室内での、２行目の「ＭＵＳＩＣ」は、室内でクラシック音楽のＢＧＭを通常音量でかけた場合の、そして、３行目の「ＴＶ−ＮＥＷ」は、やはり室内で通常の聴取音量でテレビニュースをかけた場合の認識結果である。
静かな室内では、９４％と通常音声に劣らない単語認識性能が得られた。また、音楽やＴＶ音が存在する場合でも、それぞれ、９１％、９０％と高い認識性能が得られており、空気伝導の通常音声に比べ、肉伝導の非可聴つぶやき音は、背景雑音にも比較的強いことがわかる。
聴診器型マイクロフォン１−１の吸盤の孔のシーリングや、ボリューム等の微調整により、通常音声も上記の装着部位から拾うことが可能である。この際、発声者の真横で第三者が朗読等を行っても、発声者の音声は空気伝達ではなく肉伝導であるため、録音された音声には発声者本人の音声しか記録されない。
聴診器型マイクロフォンで拾う非可聴つぶやき音や通常音声は、それを使用する個人の音響モデルを学習するだけで済むという利点もある。以上のようにこの体表装着聴診器型マイクロフォンは通常音声認識の無雑音マイクロフォンとしても使用可能である。
これまで、聴診器型マイクロフォンを乳様突起直下に装着し、非可聴つぶやき音を採取し、マイクロフォンアンプで増幅し、携帯電話での通話に利用する方法および音声認識装置による音声認識に利用する方法について説明を重ねてきた。
（音の変調）
ここで、音の変調について説明する。音の変調とは、一般に音の聴感上の調子、音質を変えることをいう。最近の音声の研究では、モーフィングという言葉が変調の意味で使われることが多い。例えば、音の基本周波数を上げ下げしたり、フォルマント周波数を上げ下げしたり、男声から女声、又は女声から男声に連続的に変化させたり、ある男声から別の男性の声に連続的に変化させたりする技術の総称として、モーフィングという言葉が使用されている。
モーフィングの技術として、種々の方法が提案されているが、代表的な方法としては、河原によるＳＴＲＡＩＧＨＴ（河原他、信学技法、ＥＡ９６−２８、１９９６）が知られている。この方法は、音の音源情報と声道情報を正確に分離することにより、基本周波数（Ｆ０）、スペクトル包絡、発声速度などのパラメータを独立に変化させることができる点に特徴がある。
本発明によれば、図２２〜図２４に示されているように、非可聴つぶやき音のスペクトラムが算出可能であり、スペクトラムからスペクトル包絡が算出可能である。
図２２に示されているように、同一の文章について声帯の規則振動を用いる、可聴な通常音声と非可聴つぶやき音との両方の喋り方で収録しておき、非可聴つぶやき音のスペクトルから、通常音声のスペクトルへの変換関数を予め求めておくことは、当業者であれば可能である。
さらに、基本周波数を適切に与えてやれば、上記のＳＴＲＡＩＧＨＴなどの方法により、非可聴つぶやき音を可聴な、より聴取しやすい音声に変調することが可能である。
さらに、本発明によれば、図２８に示されているように、非可聴つぶやき音を音声認識することが可能である。従って、非可聴つぶやき音の音声認識結果から音節、半音節、音素、２連接音素、３連接音素などの音声単位を認識することが可能であり、音素認識結果から、公知のテキストからの音声合成技術により、より聴取しやすい音声に変調することも可能である。
（応用例）
以上は、マイクロフォンのみを乳様突起直下に装着する場合について説明したが、これではマイクロフォンが外部から露出するので、見た目に違和感がある。そこで、マイクロフォンを、眼鏡、ヘッドフォン、耳かけ型イヤフォン、帽子、ヘルメットなど、人間の頭部に装着する頭部装着物と一体に構成しても良い。
例えば、図２９に示されているように、眼鏡３１の、耳に掛けるつる部３１ａの端部に、マイクロフォン１−１を設けても良い。
また、図３０に示されているように、ヘッドフォン３２の、耳あて部３２ａ内に、マイクロフォン１−１を設けても良い。同様に、図３１に示されているように、耳かけ型イヤフォン３３の、耳に掛けるつる部３３ａの端部に、マイクロフォン１−１を設けても良い。
さらに、図３２に示されているように、帽子３４とマイクロフォン１−１とを一体に構成してもよい。同様に、図３３に示されているように、ヘルメット３５とマイクロフォン１−１とを一体に構成してもよい。これらとマイクロフォンとを一体化することにより、作業現場や工事現場で違和感なくマイクロフォンを使用でき、たとえ周囲の雑音が大きい場合でも、良好な通話が可能となる。
以上のように、各種の頭部装着物とマイクロフォンとを一体化すれば、マイクロフォンを違和感なく装着できる。しかもマイクロフォンの配置を工夫すれば、マイクロフォンを乳様突起直下に、適切に装着できる。
（変形例）
以下、本発明のコミュニケーションインタフェースシステムの変形例について説明する。
図３４は、マイクロフォンと携帯端末との間に信号処理装置を設けた変形例を示すブロック図である。同図において、信号処理装置１９−２は、アナログデジタル変換器１９−３と、プロセッサ１９−４と、送出器１９−５とが一体化された構成である。
このような構成において、マイクロフォン１−１で採取された非可聴つぶやき音の振動音は、アナログデジタル変換器１９−３で採取されて量子化され、デジタル信号に変換される。この量子化結果であるデジタル信号は、プロセッサ１９−４に送られる。プロセッサ１９−４は、アナログデジタル変換器１９−３から送られたデジタル信号に対し、増幅又は変換などの加工を施す。この加工結果は、送出器１９−５に送られる。送出器１９−５は、プロセッサ１９−４で加工されたデジタル信号を、有線又は無線のいずれかの方法で携帯電話機１９−６に対して送出する。なお、この信号処理装置１９−２は、当業者であれば容易に作成することができる。こうすることにより、例えば、移動電話網内の装置において、上記加工結果された振動音そのまま、若しくはパラメータ化された信号について処理を行うことができ、信号処理装置の構成を単純化できる。
また、図３５も、マイクロフォンと携帯端末との間に信号処理装置を設けた変形例を示すブロック図である。同図において、信号処理装置１９−２は、アナログデジタル変換器１９−３と、送出器１９−５とが一体化された構成である。
このような構成において、マイクロフォン１−１で採取された非可聴つぶやき音の振動音は、アナログデジタル変換器１９−３で採取されて量子化され、デジタル信号に変換される。この量子化結果であるデジタル信号は、送出器１９−５に送られる。送出器１９−５は、アナログデジタル変換器１９−３で変換されたデジタル信号を、有線又は無線のいずれかの方法で携帯電話機１−４に対して送出する。このように構成すれば、採取される振動音の加工を、携帯電話又は携帯電話の基地局で行うことができる。このため、信号処理装置１９−２の構成を単純化することができる。なお、この信号処理装置１９−２は、当業者であれば容易に作成することができる。こうすることにより、例えば移動電話網内の装置において、上記量子化結果について処理を行うことができ、信号処理装置の構成を単純化できる。
図３６に示されているように、アナログデジタル変換器１９−３と、プロセッサ１９−４と、音声認識部１９−６とを一体化した信号処理装置１９−２を用いても良い。
このような構成において、マイクロフォン１−１で採取された非可聴つぶやき音の振動音は、アナログデジタル変換器１９−３で採取されて量子化され、デジタル信号に変換される。この量子化結果であるデジタル信号は、プロセッサ１９−４に送られる。プロセッサ１９−４は、アナログデジタル変換器１９−３から送られたデジタル信号に対し、増幅又は変換などの加工を施す。この加工結果について、音声認識部１９−６において音声認識処理が行われる。なお、この信号処理装置１９−２は、当業者であれば容易に作成することができる。このように信号処理装置を構成すれば、非可聴つぶやき音について、加工された振動音のそのままの信号、若しくはパラメータ化された信号の音声認識処理を行うことができる。
また、図３７に示されているように、図３６の構成に、送出器１９−５を更に追加した構成にしても良い。このような構成においては、音声認識部１９−６による音声認識処理結果は、送出器１９−５によって外部に送出される。なお、この信号処理装置１９−２は、当業者であれば容易に作成することができる。音声認識結果を、例えば移動電話網に送出することにより、音声認識結果を種々の処理に利用できる。
さらに、本発明のマイクロフォンを携帯電話機などに内蔵させても良い。この場合、そのマイクロフォン部分を乳様突起直下の、胸鎖乳突筋上の皮膚表面に押し当てれば、非可聴つぶやき音を利用した通話が可能となる。

産業上の利用の可能性

本発明により、声を出さない携帯電話での通話や、声を出さない音声認識装置の利用が可能となる。
すなわち、携帯電話での通話やコンピュータならびに個人用携帯情報端末への情報入力が、新たな技術習得なしに、生来収得した音声言語文化で培われた調音器官の発話運動のみで可能となる。
しかも、周囲の背景雑音の混入がなく、また、静穏環境を壊すこともない。特に、音声言語のパブリシティーがコントロール可能となり、周囲への情報漏洩を気にしなくても済む。
また、通常音声認識においても、この採音方法により雑音混入が大幅に軽減できる。
目の前や口元にマイクロフォンを装着する煩わしさや携帯電話を片手で耳に当てる動作から解放されて、目立ちにくい耳介後下方部へのマイクロフォン装着のみとなり、場合によっては髪の毛に隠れるという利点もある。
通常音声を発しない、新たな言語コミュニケーション文化が生まれる可能性があるとともに、音声認識技術全体の実生活への普及を大きく促進すると考える。また、声帯などを除去した人や、声帯の規則振動を用いた発声に障害のある人にも最適に利用できる。

Claims

耳介の後下方部の、頭蓋骨の乳様突起直下の、胸鎖乳突筋上の皮膚表面に装着され、
発声器官の運動に伴う共振フィルタ特性変化により調音された、声帯の規則振動を伴わない、外部からは非可聴な呼吸音の体内軟部組織を伝導する振動音である非可聴つぶやき音、及び、可聴だが声帯を規則振動させないささやき声、小声、つぶやき声などを含む声帯の規則振動を用いて発声する音声、歯咬音、舌打ち音などの様々な音声、の少なくとも一方を採取することを特徴とするマイクロフォン。
前記皮膚表面に装着された振動板と、前記振動板に吸着する吸盤とを含むことを特徴とする請求の範囲第１項記載のマイクロフォン。
眼鏡、ヘッドフォン、耳かけ型イヤフォン、帽子、ヘルメットなど、人間の頭部に装着する頭部装着物と一体に構成されていることを特徴とする請求の範囲第１項又は第２項に記載のマイクロフォン。
請求の範囲第１項乃至第３項のいずれか１項に記載のマイクロフォンと、前記マイクロフォンによって採取された信号に対して、信号処理を行う信号処理装置と、
を含み、前記信号処理装置による処理結果をコミュニケーションに使用するようにしたことを特徴とするコミュニケーションインタフェースシステム。
前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果について加工を行うプロセッサ部と、前記プロセッサ部による加工結果を外部に送出する送出部とを含むことを特徴とする請求の範囲第４項記載のコミュニケーションインタフェースシステム。
前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果を外部に送出する送出部とを含み、前記量子化結果の加工を外部装置において行うようにしたことを特徴とする請求の範囲第４項記載のコミュニケーションインタフェースシステム。
前記信号処理装置は、前記マイクロフォンによって採取された信号を量子化するアナログデジタル変換部と、前記アナログデジタル変換部による量子化結果について加工を行うプロセッサ部と、前記プロセッサ部による加工結果について音声認識処理を行う音声認識部とを含むことを特徴とする請求の範囲第５項記載のコミュニケーションインタフェースシステム。
前記音声認識部による音声認識結果を、外部に送出する送出部を更に含むことを特徴とする請求の範囲第７項記載のコミュニケーションインタフェースシステム。
前記送出部によって送出された前記プロセッサ部による加工結果について、移動電話網内の装置によって音声認識処理を行うことを特徴とする請求の範囲第５項記載のコミュニケーションインタフェースシステム。
前記信号処理装置が行う信号処理は、前記プロセッサ部が可聴な音声に変調する変調処理であることを特徴とする請求の範囲第５項記載のコミュニケーションインタフェースシステム。
前記変調処理は、前記非可聴つぶやき音に、声帯の基本周波数を付与することにより、声帯の規則振動を伴う、可聴な音声に変換する処理であることを特徴とする請求の範囲第１０項記載のコミュニケーションインタフェースシステム。
前記変調処理は、声帯の規則振動を伴わない、非可聴つぶやき音のスペクトルから、声帯の規則振動を用いて発声された可聴な音声のスペクトルへ変換する処理であることを特徴とする請求の範囲第１０項記載のコミュニケーションインタフェースシステム。
前記変調処理は、非可聴つぶやき音のスペクトルを用いて、音声認識装置により音節、半音節、音素、２連接音素、３連接音素などの音声単位の認識を行い、認識された音声単位から音声合成技術により、声帯の規則振動を用いて発声された可聴な音声に変換する処理であることを特徴とする請求の範囲第１２項記載のコミュニケーションインタフェースシステム。
前記マイクロフォンによって採取される音声のダイナミックレンジの大きさに応じて、入力ゲインを制御することを特徴とする請求の範囲第４項乃至第１３項のいずれか１項に記載のコミュニケーションインタフェースシステム。
前記音声認識部は、前記非可聴つぶやき音、及び、可聴だが声帯を規則振動させないささやき声、小声、つぶやき声などを含む声帯の規則振動を用いて発声する音声、歯咬音、舌打ち音などの様々な音声、の少なくとも一方をモデル化した音響モデルを利用して、音声認識処理を行うことを特徴とする請求の範囲第７項又は第８項に記載のコミュニケーションインタフェースシステム。