JPWO2015019835A1 - Electric artificial laryngeal device - Google Patents
Electric artificial laryngeal device Download PDFInfo
- Publication number
- JPWO2015019835A1 JPWO2015019835A1 JP2015530782A JP2015530782A JPWO2015019835A1 JP WO2015019835 A1 JPWO2015019835 A1 JP WO2015019835A1 JP 2015530782 A JP2015530782 A JP 2015530782A JP 2015530782 A JP2015530782 A JP 2015530782A JP WO2015019835 A1 JPWO2015019835 A1 JP WO2015019835A1
- Authority
- JP
- Japan
- Prior art keywords
- sound
- sound source
- feature amount
- signal
- utterance
- Prior art date
- Legal status (The legal status is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the status listed.)
- Pending
Links
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/20—Epiglottis; Larynxes; Tracheae combined with larynxes or for use therewith
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/02—Speech enhancement, e.g. noise reduction or echo cancellation
- G10L21/0316—Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
-
- H—ELECTRICITY
- H04—ELECTRIC COMMUNICATION TECHNIQUE
- H04R—LOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
- H04R1/00—Details of transducers, loudspeakers or microphones
- H04R1/14—Throat mountings for microphones
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61F—FILTERS IMPLANTABLE INTO BLOOD VESSELS; PROSTHESES; DEVICES PROVIDING PATENCY TO, OR PREVENTING COLLAPSING OF, TUBULAR STRUCTURES OF THE BODY, e.g. STENTS; ORTHOPAEDIC, NURSING OR CONTRACEPTIVE DEVICES; FOMENTATION; TREATMENT OR PROTECTION OF EYES OR EARS; BANDAGES, DRESSINGS OR ABSORBENT PADS; FIRST-AID KITS
- A61F2/00—Filters implantable into blood vessels; Prostheses, i.e. artificial substitutes or replacements for parts of the body; Appliances for connecting them with the body; Devices providing patency to, or preventing collapsing of, tubular structures of the body, e.g. stents
- A61F2/02—Prostheses implantable into the body
- A61F2/20—Epiglottis; Larynxes; Tracheae combined with larynxes or for use therewith
- A61F2002/206—Speech aids with external actuators, e.g. electrical larynxes
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L21/00—Processing of the speech or voice signal to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
- G10L21/003—Changing voice quality, e.g. pitch or formants
- G10L21/007—Changing voice quality, e.g. pitch or formants characterised by the process used
- G10L21/013—Adapting to target pitch
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/90—Pitch determination of speech signals
Abstract
使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供する。電気式人工喉頭装置1は、使用者Pの声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部10と、集音部10が生成する発声信号に対応した音源信号を生成する信号処理部20と、信号処理部20が生成する音源信号を再生して音源音を出力する音源信号再生部30と、を備える。Provided is an electric artificial laryngeal device capable of smoothly outputting a sound source sound adapted to a voice uttered by a user. The electric artificial laryngeal device 1 collects a uttered sound generated by adjusting the sound source sound input to the vocal tract of the user P and generates a utterance signal, and a sound collecting unit 10 Includes a signal processing unit 20 that generates a sound source signal corresponding to the utterance signal generated by and a sound source signal reproduction unit 30 that reproduces the sound source signal generated by the signal processing unit 20 and outputs a sound source sound.
Description
本発明は、例えば喉頭癌等の疾患によって声帯を含む喉頭部を摘出した人や、声帯が正常に機能しない人など、自らの体内で音源となる音(以下、「音源音」という)を出力することが不可能または困難な人(以下、「喉頭異常者」という)の声道(鼻腔、口腔、舌等で形成される空間、以下同じ)に、体外から音源音を入力する電気式人工喉頭装置に関する。 The present invention outputs sound (hereinafter referred to as “sound source sound”) that serves as a sound source in its own body, such as a person who has removed the larynx including the vocal cord due to a disease such as laryngeal cancer, or a person whose vocal cord does not function normally. Electric artificial sound input from outside the body into the vocal tract (space formed by the nasal cavity, oral cavity, tongue, etc., the same shall apply hereinafter) of a person who cannot or is difficult to perform The present invention relates to a laryngeal device.
喉頭異常者ではない健常な人(以下、「喉頭正常者」という)は、肺から排出されて気管を通過する空気によって声帯を振動させることで発する音源音を、声道に入力して調音処理する(音源音を声道で共鳴させて変調する、以下同じ)ことで、口から音(以下、「発声音」という)を発する。 A healthy person who is not a larynx abnormal person (hereinafter referred to as “normal larynx”) inputs sound source sound generated by vibrating the vocal cords by air discharged from the lungs and passing through the trachea into the vocal tract for articulation processing Sounds from the mouth (hereinafter referred to as “voiced sound”) by sounding (modulating by resonating the sound source sound in the vocal tract, hereinafter the same).
しかしながら、喉頭異常者は、声道の調音処理機能は正常であっても、自己の体内で音源音を発して声道に入力することが不可能または困難であるため、喉頭正常者と同じように発声音を発することができない。 However, even if the larynx abnormal person has normal articulation processing function of the vocal tract, it is impossible or difficult to generate sound source sound in the body and input to the vocal tract. Can't make utterance sound.
そこで、喉頭異常者の喉の外部に密着して振動することで、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置が、広く使用されている。喉頭異常者は、この電気式人工喉頭装置を使用することで、声道に音源音を入力することが可能となる。そのため、喉頭異常者は、喉頭正常者が発声音を発する場合と同様に声道の形状を変化させる(例えば、口や舌を動かす)という簡易かつ容易な動作によって、所望の発声音を発することが可能になる。 Thus, an electric artificial laryngeal device that inputs sound source sound into the vocal tract of an abnormal laryngeal person by vibrating in close contact with the outside of the throat of the abnormal laryngeal person is widely used. By using this electric artificial laryngeal device, a person with abnormal larynx can input sound source sound into the vocal tract. Therefore, a person with abnormal larynx emits a desired utterance sound by a simple and easy operation of changing the shape of the vocal tract (for example, moving the mouth or tongue) in the same manner as when a normal larynx utters a sound. Is possible.
ただし、電気式人工喉頭装置が発する音源音は、喉頭異常者が発する言葉や発話内容(即ち、上記の調音処理)とは無関係に決定される。例えば、電気式人工喉頭装置が発する音源音は、基本周波数(ピッチ)が時間的に変化せず、一定になることがある。そのため、喉頭異常者は、アクセントやイントネーション(例えば、音源音の基本周波数や振幅の変動による語調の変化)を発声音に付加することが、極めて困難である。その結果、喉頭異常者が発する発声音が、機械的な音として聞こえたり、正しく伝わり難くなったりするため、問題となる。 However, the sound source sound generated by the electric artificial laryngeal device is determined irrespective of the words and utterance contents (that is, the articulation process) generated by the abnormal larynx. For example, the sound source sound emitted from the electric artificial laryngeal device may be constant without changing the fundamental frequency (pitch) with time. For this reason, it is extremely difficult for a person with abnormal larynx to add accents and intonation (for example, changes in tone due to variations in the fundamental frequency or amplitude of the sound source sound) to the uttered sound. As a result, the utterance sound produced by the person with abnormal larynx can be heard as a mechanical sound or difficult to be transmitted correctly, which is problematic.
これらの問題について、具体的に図5及び図6を参照して説明する。図5は、喉頭正常者が発する発声音の各種特徴について示したグラフである。また、図6は、電気式人工喉頭装置を使用した喉頭異常者が発する発声音の各種特徴について示したグラフである。なお、図5及び図6のグラフでは、それぞれの発声音の特徴として、信号波形、基本周波数、非周期成分及びスペクトログラムを示している。 These problems will be specifically described with reference to FIGS. FIG. 5 is a graph showing various characteristics of vocal sounds produced by a normal larynx. FIG. 6 is a graph showing various characteristics of uttered sounds produced by an abnormal larynx using an electric artificial laryngeal device. In the graphs of FIGS. 5 and 6, signal waveforms, fundamental frequencies, non-periodic components, and spectrograms are shown as the characteristics of each uttered sound.
図5及び図6において、信号波形のグラフは、横軸が時間、縦軸が振幅である。また、基本周波数のグラフは、横軸が時間、縦軸が周波数である。また、非周期成分のグラフは、横軸が時間、縦軸が強度である。また、スペクトログラムは、横軸が時間、縦軸が周波数であり、色が暗い(黒色に近い)ほど強度が大きいことを示している。 5 and 6, in the signal waveform graph, the horizontal axis represents time, and the vertical axis represents amplitude. In the fundamental frequency graph, the horizontal axis represents time and the vertical axis represents frequency. In the aperiodic component graph, the horizontal axis represents time, and the vertical axis represents intensity. Further, the spectrogram indicates that the horizontal axis is time, the vertical axis is frequency, and the darker the color (closer to black), the higher the intensity.
図5及び図6に示した発声音の各種特徴のうち、信号波形は、発声音の全体的な特徴を示すものである。また、基本周波数は、主として音源音の特徴を示すものである。また、非周期成分は、主として音源音の特徴(具体的には、発声音のかすれ具合などを表す音色等)の特徴を示すものである。また、スペクトログラムは、声道における調音処理の特徴を示すものである。 Of the various features of the uttered sound shown in FIGS. 5 and 6, the signal waveform indicates the overall features of the uttered sound. The fundamental frequency mainly indicates the characteristics of the sound source sound. Further, the non-periodic component mainly indicates the characteristics of the sound source sound (specifically, the timbre representing the blurred state of the uttered sound). The spectrogram shows the characteristics of articulation processing in the vocal tract.
図5に示すように、喉頭正常者が発する発声音の基本周波数は、時間的に変化しており一定とはならない。即ち、喉頭正常者が発する発声音には、アクセントやイントネーションが付加されている。 As shown in FIG. 5, the fundamental frequency of the sound produced by a normal larynx person changes with time and is not constant. In other words, accents and intonation are added to the utterance sound produced by a normal larynx person.
これに対して、図6に示すように、喉頭異常者が発する発声音の基本周波数は、時間的に変化せず一定となっている。即ち、喉頭異常者が発する発声音には、アクセントやイントネーションが付加されていない。そのため、喉頭異常者が発する発声音は、機械的な音として聞こえたり、正しく伝わり難かったりする。 On the other hand, as shown in FIG. 6, the fundamental frequency of the uttered sound produced by the larynx abnormal person is constant without changing over time. That is, accents and intonation are not added to the utterance sound produced by the larynx abnormal person. For this reason, the utterance sound produced by the person with abnormal larynx is heard as a mechanical sound or is difficult to be transmitted correctly.
そこで、特許文献1では、センサを用いて検出した筋電位や関節角度などに応じて、音源音の基本周波数や音量を制御する電気式人工喉頭装置が提案されている。また、特許文献2では、喉頭異常者によるスイッチの操作内容に応じて、基本周波数の変動態様が異なる複数のパターンの音源音を出力することが可能な電気式人工喉頭装置が提案されている。
Therefore,
特許文献1及び2で提案されている電気式人工喉頭装置を使用すれば、基本周波数が異なる音源音を出力すること自体は可能である。しかしながら、特許文献1で提案されている電気式人工喉頭装置は、発声音とは直接的な関連性がない情報(人体の外表面に取り付けられたセンサから得られる生体情報)に基づいて、出力する音源音を制御するものであるため、喉頭異常者が発したい発声音には不適合な音源音が出力されることがある。一方、特許文献2で提案されている電気式人工喉頭装置は、人の操作によって音源音を制御する必要があるため、電気式人工喉頭装置の操作が煩雑になるとともに、円滑に音源音及び発声音を発することが困難になってしまう。
If the electric artificial laryngeal device proposed in
そこで、本発明は、使用者が発する発声音に適合した音源音を円滑に出力することが可能な電気式人工喉頭装置を提供することを目的とする。 Therefore, an object of the present invention is to provide an electric artificial laryngeal device that can smoothly output a sound source sound suitable for a utterance sound emitted by a user.
上記目的を達成するため、本発明は、使用者の声道に入力された音源音が調音処理されて発せられる発声音を集音して、発声信号を生成する集音部と、前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、を備えることを特徴とする電気式人工喉頭装置を提供する。 In order to achieve the above-mentioned object, the present invention collects a uttered sound generated by adjusting a sound source sound input to a user's vocal tract and generates a utterance signal, and the sound collecting A signal processing unit for generating a sound source signal corresponding to the utterance signal generated by the unit, and a sound source signal reproduction for reproducing the sound source signal generated by the signal processing unit and outputting the sound source sound for input to the vocal tract And an electric artificial laryngeal device characterized by comprising:
この電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。 According to this electric artificial laryngeal device, it is possible to output a sound source sound corresponding to the vocal sound actually emitted by the user.
さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、を備えると、好ましい。 Further, in the electric artificial laryngeal device having the above characteristics, the signal processing unit extracts a voice feature amount indicating characteristics of the articulation processing in the user's vocal tract from the utterance signal generated by the sound collection unit. A sound source feature amount for estimating a sound source feature amount indicating a feature of a sound source sound corresponding to the articulation processing in the user's vocal tract based on the feature amount extraction unit and the voice feature amount extracted by the voice feature amount extraction unit It is preferable to include an estimation unit and a sound source signal generation unit that generates the sound source signal having the sound source feature amount estimated by the sound source feature amount estimation unit.
この電気式人工喉頭装置によれば、音源特徴量推定部が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。 According to this electric artificial laryngeal device, the sound source feature quantity estimation unit estimates the sound source feature quantity based on the voice feature quantity extracted from the utterance signal. For this reason, it is possible to accurately estimate the sound source feature amount corresponding to the articulation processing in the vocal tract while eliminating the influence of the fluctuation of the sound source sound.
さらに、上記特徴の電気式人工喉頭装置において、前記信号処理部が、前記音声特徴量と前記音源特徴量との対応関係を示す統計モデルを記録しているデータベースを、さらに備え、前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定すると、好ましい。 Furthermore, in the electric artificial laryngeal device having the above characteristics, the signal processing unit further includes a database in which a statistical model indicating a correspondence relationship between the audio feature quantity and the sound source feature quantity is recorded, and the sound source feature quantity It is preferable that the estimation unit estimates the sound source feature amount based on the statistical model recorded in the database.
この電気式人工喉頭装置によれば、音源特徴量推定部が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。 According to this electric artificial laryngeal device, the sound source feature amount estimation unit can easily and accurately estimate the sound source feature amount by using a statistical model built in advance.
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、ある言葉について喉頭異常者が発する第1発声音を集音して生成される第1発声信号から抽出される第1音声特徴量と、当該ある言葉について喉頭正常者が発する第2発声音を集音して生成される第2発声信号から抽出された第2音源特徴量と、を対応付けることで構築されたものであり、前記第1発声音は、前記喉頭異常者の声道に入力された第1音源音が調音処理されて発せられるものであり、前記第1音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、前記第2発声音は、前記喉頭正常者の声帯が出力する第2音源音が声道で調音処理されて発せられるものであり、前記第2音源特徴量は、前記第2音源音の特徴を示すものであると、好ましい。 Furthermore, in the electric artificial laryngeal device having the above characteristics, the statistical model includes a first speech feature amount extracted from a first utterance signal generated by collecting a first utterance sound emitted by an abnormal larynx for a certain word. And the second sound source feature amount extracted from the second utterance signal generated by collecting the second utterance sound emitted by the normal larynx for the certain word, and The first voicing sound is generated after the first sound source sound input to the vocal tract of the larynx abnormal person is subjected to an articulation process, and the first voice feature amount is an articulation process in the vocal tract of the abnormal larynx person. The second voicing sound is uttered after the second sound source sound output from the vocal cords of the normal larynx is tuned in the vocal tract, and the second sound source feature amount is The characteristic of the second sound source sound Preferred.
この電気式人工喉頭装置によれば、喉頭正常者の声帯が出力する第2音源音の特徴を示す第2音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。 According to the electric artificial laryngeal device, the sound source feature amount is estimated based on the statistical model constructed using the second sound source feature amount indicating the feature of the second sound source sound output from the vocal cord of the normal larynx. . Therefore, the sound source sound output from the sound source signal reproducing unit can be brought close to a natural sound source sound output from the vocal cord of a normal larynx.
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第1発声信号から抽出される前記第1音源音の特徴を示す第1音源特徴量が、前記第2音源特徴量の分布範囲内となると、好ましい。 Furthermore, in the electric artificial laryngeal device having the above characteristics, the statistical model includes a distribution of the second sound source feature amount, wherein the first sound source feature amount indicating the feature of the first sound source sound extracted from the first utterance signal is Within the range, it is preferable.
この電気式人工喉頭装置によれば、第1音源特徴量及び第2音源特徴量が揃った状態で統計モデルが構築されるため、音源特徴量推定部が、当該分布範囲内の音源特徴量を精度良く推定することが可能となる。 According to this electric artificial laryngeal device, since the statistical model is constructed in a state where the first sound source feature amount and the second sound source feature amount are aligned, the sound source feature amount estimation unit calculates the sound source feature amount within the distribution range. It is possible to estimate with high accuracy.
さらに、上記特徴の電気式人工喉頭装置において、前記音源特徴量が、前記音源音の基本周波数を示すものであり、前記第2音源特徴量が、前記第2音源音の基本周波数を示すものであると、好ましい。 Furthermore, in the electric artificial laryngeal device having the above characteristics, the sound source feature amount indicates a fundamental frequency of the sound source sound, and the second sound source feature amount indicates a fundamental frequency of the second sound source sound. If there is, it is preferable.
この電気式人工喉頭装置によれば、音源信号再生部が出力する音源音の基本周波数を、声道における調音処理に対応したものとすることが可能となる。 According to the electric artificial laryngeal device, the fundamental frequency of the sound source sound output from the sound source signal reproducing unit can be made to correspond to the articulation processing in the vocal tract.
さらに、上記特徴の電気式人工喉頭装置において、前記統計モデルは、前記第1音声特徴量と、前記第2発声信号から抽出される第2音声特徴量と、の対応関係に基づいて、前記第1発声信号及び前記第2発声信号の時間方向におけるずれを補正した上で、前記第1音声特徴量と前記第2音源特徴量とを対応付けることで構築されたものであり、前記第2音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであると、好ましい。 Furthermore, in the electric artificial laryngeal device having the above characteristics, the statistical model is based on a correspondence relationship between the first voice feature quantity and a second voice feature quantity extracted from the second utterance signal. The second voice feature is constructed by associating the first voice feature quantity with the second sound source feature quantity after correcting a shift in time direction between the first voice signal and the second voice signal. The amount preferably represents the characteristics of articulation processing in the vocal tract of the normal larynx.
この電気式人工喉頭装置によれば、喉頭異常者及び喉頭正常者の話す速度に差があり、第1発声音及び第2発声音に時間的なずれが生じ得る場合でも、当該ずれを補正した上で第1音声特徴量と第2音源特徴量とが対応付けられる。そのため、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。 According to this electric artificial laryngeal device, even when there is a difference in speaking speed between the larynx abnormal person and the normal laryngeal person, and the time difference between the first utterance sound and the second utterance sound may occur, the deviation is corrected. The first sound feature amount and the second sound source feature amount are associated with each other. Therefore, it is possible to construct a statistical model that can accurately estimate the sound source feature amount.
上記特徴の電気式人工喉頭装置によれば、使用者が実際に発した発声音に対応した音源音を出力することが可能となる。そのため、使用者が発する発声音に適合した音源音を、円滑に出力することが可能になる。 According to the electric artificial laryngeal device having the above characteristics, it is possible to output a sound source sound corresponding to the vocal sound actually emitted by the user. Therefore, it is possible to smoothly output the sound source sound that is suitable for the utterance sound emitted by the user.
最初に、本発明の実施形態に係る電気式人工喉頭装置について、図面を参照して説明する。図1は、本発明の実施形態に係る電気式人工喉頭装置の構成例について示すブロック図である。 First, an electric artificial laryngeal device according to an embodiment of the present invention will be described with reference to the drawings. FIG. 1 is a block diagram showing a configuration example of an electric artificial larynx device according to an embodiment of the present invention.
図1に示すように、本発明の実施形態に係る電気式人工喉頭装置1は、集音部10と、信号処理部20と、音源信号再生部30と、を備える。なお、図1では、説明の便宜上、電気式人工喉頭装置1の他に、喉頭異常者である電気式人工喉頭装置の使用者Pを図示している。
As shown in FIG. 1, the electric
集音部10は、例えば空気伝導マイクロフォンや体内伝導マイクロフォン等から成り、使用者Pが発する発声音を集音し、電気信号に変換することで、発声信号を生成する。このとき、集音部10は、例えばサンプリング周波数16kHzで発声音を集音して、発声信号を生成する。なお、集音部10として体内伝導マイクロフォンを用いる場合、例えば、非可聴つぶやき(Non-Audible Murmur:NAM)マイクロフォンを利用してもよい。NAMマイクロフォンとは、耳介後方(後頭部側)に圧着して使用されるマイクロフォンであって、頭頸部の肉を伝搬する音を集音する肉伝導マイクロフォンである。
The
信号処理部20は、例えばCPU(CentralProcessing Unit)やDSP(Digital SignalProcessor)等の演算処理装置を備え、集音部10が生成する発声信号に対応した音源信号を生成する。ただし、信号処理部20が生成する音源信号は、時間的に変動する発声信号に対応して、時間的に変動するものである。例えば、信号処理部20が生成する音源信号は、喉頭正常者が声帯で出力する音源音のように、基本周波数が時間的に変動し得るものである(図5中の基本周波数のグラフ参照)。
The
音源信号再生部30は、信号処理部20が生成する音源信号を再生して、使用者Pの声道に入力するための音源音を出力する。例えば、音源信号再生部30は、振動板と、当該振動板の駆動装置と、を備え、駆動装置が音源信号に従って振動板を振動させることによって、音源音を出力する。このとき、振動板が、使用者Pの喉に押し当てられた状態で振動することによって、使用者Pの声道に音源音が入力される。
The sound source
そして、使用者Pは、自らの声道の形状を変化させる(例えば、口や舌を動かす)ことで音源音を調音処理して、発声音を発する。さらに、使用者Pが発する発声音は、集音部10で集音され、上述した一連の動作が再度行われる。このように、電気式人工喉頭装置1は、使用者Pが発した発声音に対応した音源音を連続的に出力して、使用者Pの声道に対して連続的に入力する。
Then, the user P changes the shape of his or her vocal tract (for example, moves his mouth or tongue), and adjusts the sound of the sound source to produce a uttered sound. Furthermore, the utterance sound emitted by the user P is collected by the
以上のように、本発明の実施形態に係る電気式人工喉頭装置1は、使用者Pが実際に発した発声音に対応した音源音を出力することが可能である。そのため、使用者Pが発する発声音に適合した音源音を、円滑に出力することが可能になる。
As described above, the electric artificial
なお、この電気式人工喉頭装置1では、現に使用者Pが発している発声音に対応した音源音が、若干の時間(例えば、信号処理部20等の処理に要する時間であり、50ms〜70ms程度)を経た後に、使用者Pの声道に入力される。しかしながら、この時間のずれは極僅かであり、さらに人間はこの時間のずれに対して鈍感であるため、使用者Pの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。
In the electric artificial
次に、図1に示した電気式人工喉頭装置1が備える信号処理部20について、図面を参照して具体的に説明する。図2は、図1に示した電気式人工喉頭装置が備える信号処理部20の構成例について示すブロック図である。
Next, the
図2に示すように、信号処理部20は、音声特徴量抽出部21と、音源特徴量推定部22と、データベース23と、音源信号生成部24と、を備える。
As shown in FIG. 2, the
音声特徴量抽出部21は、集音部10が生成する発声信号から、使用者Pの声道における調音処理の特徴である音声特徴量を抽出する。音声特徴量とは、例えばスペクトル包絡(周波数スペクトルの概形)に基づいたものである。
The voice feature
例えば、音声特徴量抽出部21は、フレーム長25ms、フレームシフト長5msで、発声信号に対して短時間フーリエ変換(STFT:Short Time Fourier Transform)を行うことで得られる周波数スペクトルから、概形成分を選択的に抽出する(例えば、振幅を対数化した周波数スペクトルを逆フーリエ変換することでケプストラムを得て、当該ケプストラムの低次の成分を選択的に抽出した後、さらにフーリエ変換を行う)ことで、スペクトル包絡を連続的に取得する。なお、このようにして取得されるスペクトル包絡を時間方向に対して連続的に並べると、図5及び図6に示したようなスペクトログラムが得られる。そして、音声特徴量抽出部21は、例えば各フレームに対して前後4フレームを結合して成るセグメントにおけるスペクトル包絡を、まとめて次元圧縮することで、音声特徴量を得る。
For example, the voice feature
音源特徴量推定部22は、音声特徴量抽出部21が抽出する音声特徴量と、データベース23が格納している統計モデルと、に基づいて、使用者Pの声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する。音源特徴量とは、例えば基本周波数である。
The sound source feature
ここで、データベース23が格納している統計モデルの構築方法の一例について、図面を参照して説明する。図3及び図4は、統計モデルの構築方法の一例について示すグラフである。
Here, an example of a method for constructing a statistical model stored in the
統計モデルは、ある言葉について喉頭異常者が発する発声音(以下、「第1発声音」という)と、当該ある言葉について喉頭正常者が発する発声音(以下、「第2発声音」という)と、を対応付けることで構築される。なお、第1発声音とは、喉頭異常者が、従来の電気式人工喉頭装置が出力する音源音(以下、「第1音源音」という)を、声道で調音処理して発するものである。また、第2発声音とは、喉頭正常者が、声帯が出力する音源音(以下、「第2音源音」という)を、声道で調音処理して発するものである。 The statistical model consists of a utterance sound (hereinafter referred to as “first utterance sound”) uttered by a person with abnormal larynx for a certain word, and a utterance sound (hereinafter referred to as “second utterance sound”) generated by a normal larynx for the certain word. Are associated with each other. The first vocal sound is generated by a person with abnormal laryngeal rhythmic processing of a sound source sound (hereinafter referred to as “first sound source sound”) output by a conventional electric artificial laryngeal device in the vocal tract. . The second utterance sound is generated by a person with normal larynx by performing a tone adjustment process in the vocal tract on a sound source sound output from the vocal cords (hereinafter referred to as “second sound source sound”).
図3(a)は、第1発声音を集音して生成される発声信号(以下、「第1発声信号」という)と、第2発声音を集音して生成される発声信号(以下、「第2発声信号」という)と、のそれぞれの信号波形を示したグラフである。また、図3(b)は、第1発声信号と第2発声信号の対応付けの方法を示すグラフである。なお、図3(a)及び図3(b)に示すいずれのグラフも、喉頭異常者及び喉頭正常者が、同じ言葉を発した場合のものである。 FIG. 3A shows an utterance signal (hereinafter referred to as “first utterance signal”) generated by collecting the first uttered sound and an utterance signal (hereinafter referred to as “first utterance signal”) generated by collecting the second uttered sound. , “Second utterance signal”). FIG. 3B is a graph showing a method of associating the first utterance signal and the second utterance signal. Note that both graphs shown in FIG. 3A and FIG. 3B are obtained when the larynx abnormal person and the larynx normal person utter the same words.
図3(a)に示すように、喉頭異常者及び喉頭正常者が同じ言葉を発したとしても、人の話す速度には個人差があるため、第1発声信号及び第2発声信号には時間的なずれが生じ得る。 As shown in FIG. 3 (a), even if the larynx abnormal person and the larynx normal person utter the same word, there are individual differences in the speaking speed of the person, so the first utterance signal and the second utterance signal have time. Misalignment can occur.
そこで、図3(b)に示すように、第1発声信号から抽出される音声特徴量(以下、「第1音声特徴量」という)と、第2発声信号から抽出される音声特徴量(以下、「第2音声特徴量」という)と、を比較することで、この時間的なずれを補正する。これにより、精度良く音源特徴量を推定することが可能な統計モデルを、構築することが可能となる。なお、第1音声特徴量及び第2音声特徴量は、例えば、図2に示した音声特徴量抽出部21における音声特徴量の抽出方法と同じ方法で、抽出することができる。
Therefore, as shown in FIG. 3B, a speech feature amount extracted from the first utterance signal (hereinafter referred to as “first speech feature amount”) and a speech feature amount extracted from the second utterance signal (hereinafter referred to as “first speech feature amount”). , “Second audio feature amount”) and the time difference is corrected. As a result, a statistical model capable of accurately estimating the sound source feature amount can be constructed. The first voice feature quantity and the second voice feature quantity can be extracted by the same method as the voice feature quantity extraction method in the voice feature
まず、第1音声特徴量及び第2音声特徴量のそれぞれのパターンを比較して、特徴が類似している部分を手がかりに、時間方向におけるずれを補正した対応関係(図3(b)中の破線)を規定する。そして、その対応関係に従って、第1音声特徴量と、第2発声信号から抽出される音源特徴量(以下、「第2音源特徴量」という)と、を対応づける。なお、第2音声特徴量及び第2音源特徴量は、どちらも第2発声信号から抽出されたものであるため、両者には時間的なずれがない。また、第2発声信号から第2音源特徴量を抽出する方法として、周知の様々な方法が適用可能であるが、例えば下記の参考文献1に示す方法を適用してもよい。
First, the patterns of the first voice feature quantity and the second voice feature quantity are compared, and a correspondence relationship in which the shift in the time direction is corrected using a similar feature as a clue (in FIG. 3B). (Dashed line). Then, according to the correspondence relationship, the first voice feature amount is associated with the sound source feature amount extracted from the second utterance signal (hereinafter referred to as “second sound source feature amount”). Note that the second audio feature quantity and the second sound source feature quantity are both extracted from the second utterance signal, and therefore there is no time lag between them. Further, as a method for extracting the second sound source feature amount from the second utterance signal, various known methods can be applied. For example, the method shown in
(参考文献1)
H. Kawahara, H. Katayose, A. de Cheveigne,and R.D. Patterson.
Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation of F0 and periodicity.
Proc. EUROSPEECH, pp. 2781-2784, Budapest, Hungary,Sep. 1999.(Reference 1)
H. Kawahara, H. Katayose, A. de Cheveigne, and RD Patterson.
Fixed point analysis of frequency toinstantaneous frequency mapping for accurate estimation of F0 and periodicity.
Proc. EUROSPEECH, pp. 2781-2784, Budapest, Hungary, Sep. 1999.
このような第1音声特徴量と第2音源特徴量との対応付けを、様々な言葉について行うことで、統計モデルを構築する。このような統計モデルは、例えば混合正規分布モデル(GMM:Gaussian Mixture Model)を用いて構築することができる。なお、図4(a)及び図4(b)では、図示及び説明の簡略化のため、第1音声特徴量及び第2音源特徴量のそれぞれをスカラーとしているが、第1音声特徴量及び第2音源特徴量のそれぞれを、複数の成分から成るベクトルとした方が、より精度良く音源特徴量を推定することができるため、好ましい。 A statistical model is constructed by associating the first sound feature quantity and the second sound source feature quantity with respect to various words. Such a statistical model can be constructed using, for example, a mixed normal distribution model (GMM: Gaussian Mixture Model). In FIGS. 4A and 4B, for simplification of illustration and description, each of the first sound feature amount and the second sound source feature amount is a scalar. It is preferable that each of the two sound source feature amounts is a vector composed of a plurality of components because the sound source feature amount can be estimated with higher accuracy.
図4(a)に示すグラフは、第1音声特徴量及び第2音源特徴量のデータのヒストグラムである。また、図4(b)に示すグラフは、図4(a)に示したデータに対してGMMモデルを適用して構築した統計モデルである。この図4(b)に示すグラフ(統計モデル)では、グラフ中の高くなっている部分ほど、第1音声特徴量及び第2音源特徴量の組み合わせの発生確率が高いことを示している。 The graph shown in FIG. 4A is a histogram of data of the first sound feature quantity and the second sound source feature quantity. The graph shown in FIG. 4B is a statistical model constructed by applying the GMM model to the data shown in FIG. In the graph (statistical model) shown in FIG. 4B, the higher the portion in the graph, the higher the probability of occurrence of the combination of the first sound feature amount and the second sound source feature amount.
音源特徴量推定部22は、この統計モデルと、音声特徴量抽出部21が抽出する音声特徴量と、に基づいて、音源特徴量を推定する。このとき、時間方向の相関を考慮した推定処理を使用すると、音源特徴量推定部22が精度良く音源特徴量の推定を行うことができる。なお、時間方向の相関を考慮した推定処理については、周知の様々な方法が適用可能であるが、例えば下記の参考文献2に示す方法を適用してもよい。
The sound source feature
(参考文献2)
T. Toda, M. Nakagiri, K. Shikano.
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement.
IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 9, pp. 2505-2517, Sep. 2012.(Reference 2)
T. Toda, M. Nakagiri, K. Shikano.
Statistical voice conversion techniques for body-conducted unvoiced speech enhancement.
IEEE Transactions on Audio, Speech and Language Processing, Vol. 20, No. 9, pp. 2505-2517, Sep. 2012.
例えば、音源特徴量推定部22は、音声特徴量抽出部21が抽出する音声特徴量を、統計モデルにおける第1音声特徴量に当てはめて、対応する(例えば、発生確率が最大となる)第2音源特徴量を求める。音源特徴量推定部22は、求めた第2音源特徴量を、推定した音源特徴量として出力する。
For example, the sound source feature
そして、最後に、音源信号生成部24が、音源特徴量推定部22が推定した音源特徴量を有する音源信号(例えば、音源特徴量が基本周波数であれば、当該基本周波数の信号波形となる音源音)を生成して、図1に示した音源信号再生部30に出力する。
Finally, the sound source
この信号処理部20では、音源特徴量推定部22が、発声信号から抽出された音声特徴量に基づいて、音源特徴量を推定する。そのため、音源音の変動による影響を排除して、声道における調音処理に対応した音源特徴量を、精度良く推定することが可能となる。
In the
さらに、この信号処理部20では、音源特徴量推定部22が、事前に構築されている統計モデルを利用することによって、簡易的かつ精度良く音源特徴量を推定することが可能となる。特に、この信号処理部20では、喉頭正常者の声帯が出力する第2音源音の特徴を示す第2音源特徴量を用いて構築された統計モデルに基づいて、音源特徴量が推定される。そのため、音源信号再生部30が出力する音源音を、喉頭正常者の声帯が出力するような自然な音源音に近づけることが可能となる。
Further, in the
なお、上述した統計モデルの構築の際に、第1発声信号から抽出される第1音源音の特徴を示す第1音源特徴量が、第2音源特徴量の分布範囲内となるようにしてもよい。このようにすると、第1音源特徴量及び第2音源特徴量が揃った状態で統計モデルが構築される(例えば、共に男性的な第1発声信号及び第2発声信号に基づいて、男性向けの統計モデルが構築される、または、共に女性的な第1発声信号及び第2発声信号に基づいて、女性向けの統計モデルが構築される)ため、音源特徴量推定部22が、当該分布範囲内の音源特徴量を精度良く推定することが可能となるため、好ましい。
Note that when the statistical model described above is constructed, the first sound source feature amount indicating the feature of the first sound source sound extracted from the first utterance signal may be within the distribution range of the second sound source feature amount. Good. In this way, the statistical model is constructed in a state where the first sound source feature value and the second sound source feature value are aligned (for example, based on the first utterance signal and the second utterance signal that are both masculine, Since a statistical model is constructed, or a statistical model for women is constructed based on both the female first utterance signal and the second utterance signal), the sound source feature
例えばこの場合、まず、使用者Pが望む音源特徴量(以下、「目標音源特徴量」とする)を決定する。具体的に例えば、使用者Pが望む声の高さ(基本周波数)を決定する。そして、目標音源特徴量と一致または近似する第1音源特徴量を抽出することが可能な第1発声信号と、目標音源特徴量と一致または近似する第2音源特徴量を抽出することが可能な第2発声信号と、のそれぞれを取得した上で、上述した方法に従って統計モデルを構築する。 For example, in this case, first, a sound source feature amount desired by the user P (hereinafter referred to as “target sound source feature amount”) is determined. Specifically, for example, the pitch (basic frequency) desired by the user P is determined. Then, it is possible to extract the first utterance signal that can extract the first sound source feature amount that matches or approximates the target sound source feature amount, and the second sound source feature amount that matches or approximates the target sound source feature amount. After obtaining each of the second utterance signals, a statistical model is constructed according to the method described above.
上記のような第1発声信号は、上記の第1音源特徴量が得られるように出力を調整した電気式人工喉頭装置を、使用者Pなどが使用して発する第1発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第1発声信号に対して、その第1音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第1発声信号を取得することができる。なお、電気式人工喉頭装置の出力の調整や、第1音源特徴量の調整によって得られる、多種多様な第1発声信号を同時に用いて、第1音源特徴量の分布範囲を広くした統計モデルを構築してもよい。 The first utterance signal as described above collects the first utterance sound produced by the user P or the like using the electric artificial laryngeal device whose output is adjusted so that the first sound source feature amount is obtained. Can be obtained. The first utterance signal as described above is also obtained by adjusting the first utterance signal already recorded in the database or the like so that the first utterance feature amount approaches the target utterance feature amount. be able to. A statistical model with a wide distribution range of the first sound source feature amount by simultaneously using various first utterance signals obtained by adjusting the output of the electric artificial laryngeal device and adjusting the first sound source feature amount. May be built.
また、上記のような第2発声信号は、上記の第2音源特徴量が得られるような声帯を有した喉頭正常者を選択し、当該喉頭正常者が発する第2発声音を集音することによって、取得することができる。また、既にデータベース等に記録されている第2発声信号に対して、その第2音源特徴量が目標音源特徴量に近づくように調整することによっても、上記のような第2発声信号を取得することができる。 In addition, the second utterance signal as described above selects a normal larynx person having a vocal cord from which the second sound source feature amount can be obtained, and collects a second utterance sound emitted by the normal larynx person. Can be obtained. The second utterance signal as described above is also acquired by adjusting the second utterance signal already recorded in the database or the like so that the second utterance feature amount approaches the target utterance feature amount. be able to.
<変形等>
[1] 上述した本発明の実施形態では、主として、電気式人工喉頭装置1が、発声音(特に、声道における調音処理)に対応するように音源音の基本周波数を変動させて出力するものとして説明した。しかし、発声音に対応するように音源音の振幅(パワー)を変動させて出力してもよいし、発声音に対応するように音源音の基本周波数及び振幅の双方を変動させて出力してもよい。<Deformation, etc.>
[1] In the embodiment of the present invention described above, the electric artificial
電気式人工喉頭装置1が、音源音の基本周波数だけでなく振幅も変動させて出力することが可能な構成であると、音源音の基本周波数の変動でアクセントやイントネーションが付加されることが多い言語(例えば、日本語)に限られず、音源音の振幅の変動でアクセントやイントネーションが付加されることが多い言語(例えば、英語)など、様々な言語に対応した音源音を出力することが可能となる。
When the electric artificial
[2] 電気式人工喉頭装置1は、使用者Pの挙動(例えば、ボタンを押下する、本体を喉に押し付けるなどの動作の有無)に応じて、音源音の出力の有無を切り替えるように構成されていると、好ましい。
[2] The electric artificial
この場合、電気式人工喉頭装置1が音源音の出力を開始した当初の極僅かな時間については、所定の音源特徴量を有する音源音が出力される。しかし、その後すぐに使用者Pの発声音に対応した音源音が出力されるため、使用者Pの発声音について聞き手が違和感を覚えるなどの問題は、生じ難い。
In this case, a sound source sound having a predetermined sound source characteristic amount is output for a very short time at which the electric
[3] 例えば、手術によって喉頭部を摘出する予定がある患者など、将来的に声帯が機能しなくなる者(即ち、将来的に上述の使用者Pとなる者)については、声帯が機能している間に、その者自身の声帯を使用した発声音(以下、「本人声帯発声音」とする)を集音して記録しておくと、好ましい。 [3] For example, a person whose vocal cords will not function in the future (ie, a person who will become the above-mentioned user P in the future), such as a patient who is scheduled to have the larynx removed by surgery, During that time, it is preferable to collect and record a vocal sound using the person's own vocal cord (hereinafter referred to as a “personal vocal cord vocal sound”).
記録された本人声帯発声音は、喉頭正常者が発した発声音であり、上述の第2発声音に含まれるものである。そのため、この本人声帯発声音を含む第2発声音を用いて、統計モデルを構築すると、好ましい。また、この本人声帯発声音の信号から抽出される音源特徴量こそ、使用者Pが望む音源特徴量であると考えられるため、当該音源特徴量を上述の目標音源特徴量として統計モデルを構築すると、好ましい。 The recorded personal vocal cord utterance is a utterance produced by a normal larynx, and is included in the second utterance. Therefore, it is preferable to construct a statistical model using the second vocal sound including the vocal cord vocal sound. Further, since the sound source feature amount extracted from the signal of the vocal cord vocal sound is considered to be the sound source feature amount desired by the user P, when the statistical model is constructed using the sound source feature amount as the above-described target sound source feature amount, ,preferable.
このようにして構築された統計モデルは、使用者Pが喉頭正常者であった時の発声の特徴(アクセントやイントネーションなど)を反映したものとなる。そのため、上述の電気式人工喉頭装置1においてこの統計モデルを利用することによって、使用者Pが喉頭正常者であった時の発声の特徴を効果的に再現した音源音を出力することが可能になる。
The statistical model constructed in this way reflects the utterance characteristics (accent, intonation, etc.) when the user P is a normal larynx. Therefore, by using this statistical model in the electric artificial
なお、本人声帯発声音の記録量は、多ければ多いほどよいが、50センテンス(読み上げに3〜5分程度を要する量)程度であってもよい。 It should be noted that the greater the amount of recording of the vocal cord vocal sound, the better, but it may be about 50 sentences (the amount that requires about 3 to 5 minutes to read out).
本発明は、喉頭異常者の声道に音源音を入力する電気式人工喉頭装置に対して、好適に利用することができる。 INDUSTRIAL APPLICABILITY The present invention can be suitably used for an electric artificial laryngeal device that inputs sound source sound into the vocal tract of an abnormal larynx.
1 : 電気式人工喉頭装置
10 : 集音部
20 : 信号処理部
21 : 音声特徴量抽出部
22 : 音源特徴量推定部
23 : データベース
24 : 音源信号生成部
30 : 音源信号再生部
P : 使用者
DESCRIPTION OF SYMBOLS 1: Electric artificial larynx apparatus 10: Sound collection part 20: Signal processing part 21: Voice feature-value extraction part 22: Sound source feature-value estimation part 23: Database 24: Sound source signal generation part 30: Sound source signal reproduction part P: User
Claims (7)
前記集音部が生成する前記発声信号に対応した音源信号を生成する信号処理部と、
前記信号処理部が生成する前記音源信号を再生して前記声道に入力するための音源音を出力する音源信号再生部と、
を備えることを特徴とする電気式人工喉頭装置。A sound collection unit that collects the utterance sound generated by the articulation processing of the sound source sound input to the user's vocal tract, and generates an utterance signal;
A signal processing unit that generates a sound source signal corresponding to the utterance signal generated by the sound collection unit;
A sound source signal reproducing unit that reproduces the sound source signal generated by the signal processing unit and outputs a sound source sound for input to the vocal tract;
An electric artificial laryngeal device comprising:
前記集音部が生成する前記発声信号から、前記使用者の声道における調音処理の特徴を示す音声特徴量を抽出する音声特徴量抽出部と、
前記音声特徴量抽出部が抽出する前記音声特徴量に基づいて、前記使用者の声道における調音処理に対応した音源音の特徴を示す音源特徴量を推定する音源特徴量推定部と、
前記音源特徴量推定部が推定する前記音源特徴量を有する前記音源信号を生成する音源信号生成部と、
を備えることを特徴とする請求項1に記載の電気式人工喉頭装置。The signal processing unit is
A voice feature amount extraction unit that extracts a voice feature amount indicating characteristics of articulation processing in the user's vocal tract from the utterance signal generated by the sound collection unit;
A sound source feature amount estimation unit that estimates a sound source feature amount indicating a feature of a sound source sound corresponding to articulation processing in the user's vocal tract based on the sound feature amount extracted by the sound feature amount extraction unit;
A sound source signal generation unit that generates the sound source signal having the sound source feature amount estimated by the sound source feature amount estimation unit;
The electric artificial laryngeal device according to claim 1, comprising:
前記音源特徴量推定部が、前記データベースが記録している前記統計モデルに基づいて、前記音源特徴量を推定することを特徴とする請求項2に記載の電気式人工喉頭装置。The signal processing unit further comprises a database in which a statistical model indicating a correspondence relationship between the audio feature quantity and the sound source feature quantity is recorded;
3. The electric artificial laryngeal device according to claim 2, wherein the sound source feature amount estimation unit estimates the sound source feature amount based on the statistical model recorded in the database.
前記第1発声音は、前記喉頭異常者の声道に入力された第1音源音が調音処理されて発せられるものであり、
前記第1音声特徴量は、前記喉頭異常者の声道における調音処理の特徴を示すものであり、
前記第2発声音は、前記喉頭正常者の声帯が出力する第2音源音が声道で調音処理されて発せられるものであり、
前記第2音源特徴量は、前記第2音源音の特徴を示すものであることを特徴とする請求項3に記載の電気式人工喉頭装置。The statistical model includes a first speech feature amount extracted from a first utterance signal generated by collecting a first utterance sound produced by a person with abnormal larynx for a certain word, and a first utterance produced by a normal larynx person for the certain word. It is constructed by associating the second sound source feature amount extracted from the second utterance signal generated by collecting two utterance sounds,
The first uttered sound is generated after the first sound source sound input to the vocal tract of the larynx abnormal person is subjected to articulation processing,
The first audio feature amount indicates a characteristic of articulation processing in the vocal tract of the larynx abnormal person,
The second vocal sound is generated by the second sound source sound output from the vocal cord of the normal larynx being subjected to articulation processing in the vocal tract,
The electric artificial laryngeal device according to claim 3, wherein the second sound source feature amount indicates a feature of the second sound source sound.
前記第2音声特徴量は、前記喉頭正常者の声道における調音処理の特徴を示したものであることを特徴とする請求項4〜6のいずれか1項に記載の電気式人工喉頭装置。The statistical model is based on a correspondence relationship between the first voice feature quantity and the second voice feature quantity extracted from the second voice signal, and the time direction of the first voice signal and the second voice signal Is constructed by associating the first sound feature quantity with the second sound source feature quantity after correcting the shift in
The electric artificial laryngeal device according to any one of claims 4 to 6, wherein the second voice feature amount indicates a feature of articulation processing in the vocal tract of the normal larynx.
Applications Claiming Priority (3)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2013165087 | 2013-08-08 | ||
JP2013165087 | 2013-08-08 | ||
PCT/JP2014/069274 WO2015019835A1 (en) | 2013-08-08 | 2014-07-22 | Electric artificial larynx device |
Publications (1)
Publication Number | Publication Date |
---|---|
JPWO2015019835A1 true JPWO2015019835A1 (en) | 2017-03-02 |
Family
ID=52461174
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
JP2015530782A Pending JPWO2015019835A1 (en) | 2013-08-08 | 2014-07-22 | Electric artificial laryngeal device |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2015019835A1 (en) |
WO (1) | WO2015019835A1 (en) |
Family Cites Families (6)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
JPH0824688B2 (en) * | 1993-06-14 | 1996-03-13 | 達 伊福部 | Electric artificial larynx |
JP3987605B2 (en) * | 1997-08-26 | 2007-10-10 | セコム株式会社 | Artificial larynx for assisting speech |
WO2000049834A1 (en) * | 1999-02-16 | 2000-08-24 | Yugen Kaisha Gm & M | Speech converting device and method |
JP2005117484A (en) * | 2003-10-09 | 2005-04-28 | Katsuro Aoki | Loudspeaker device for artificial larynx user |
JP2005150884A (en) * | 2003-11-12 | 2005-06-09 | Yuji Hosoi | Electric artificial larynx |
US9232297B2 (en) * | 2012-01-12 | 2016-01-05 | Inha-Industry Partnership Institute | Device for supplementing voice including sensing unit and method for controlling the same |
-
2014
- 2014-07-22 JP JP2015530782A patent/JPWO2015019835A1/en active Pending
- 2014-07-22 WO PCT/JP2014/069274 patent/WO2015019835A1/en active Application Filing
Also Published As
Publication number | Publication date |
---|---|
WO2015019835A1 (en) | 2015-02-12 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Iseli et al. | Age, sex, and vowel dependencies of acoustic measures related to the voice source | |
Drugman et al. | Glottal source processing: From analysis to applications | |
JP4327241B2 (en) | Speech enhancement device and speech enhancement method | |
Doi et al. | Alaryngeal speech enhancement based on one-to-many eigenvoice conversion | |
Tran et al. | Improvement to a NAM-captured whisper-to-speech system | |
JP2000504849A (en) | Speech coding, reconstruction and recognition using acoustics and electromagnetic waves | |
Keller | The analysis of voice quality in speech processing | |
Gaddy et al. | Digital voicing of silent speech | |
JP5039865B2 (en) | Voice quality conversion apparatus and method | |
Raitio et al. | Analysis and synthesis of shouted speech. | |
Lulich et al. | Subglottal resonances of adult male and female native speakers of American English | |
Mcloughlin et al. | Reconstruction of phonated speech from whispers using formant-derived plausible pitch modulation | |
McLoughlin et al. | Reconstruction of continuous voiced speech from whispers. | |
Konno et al. | Whisper to normal speech conversion using pitch estimated from spectrum | |
Strik et al. | Control of fundamental frequency, intensity and voice quality in speech | |
Malathi et al. | Enhancement of electrolaryngeal speech using Frequency Auditory Masking and GMM based voice conversion | |
Hanzlíček et al. | Voice conservation: towards creating a speech-aid system for total laryngectomees | |
Sharifzadeh | Reconstruction of natural sounding speech from whispers | |
WO2015019835A1 (en) | Electric artificial larynx device | |
WO2020208926A1 (en) | Signal processing device, signal processing method, and program | |
JP2006154212A (en) | Speech evaluation method and evaluation device | |
Deng et al. | Speech analysis: the production-perception perspective | |
Lv et al. | Objective evaluation method of broadcasting vocal timbre based on feature selection | |
Surahman | An analysis of voice spectrum characteristics to the male voices recording using praat software | |
Chadha et al. | Analysis of a modern voice morphing approach using gaussian mixture models for laryngectomees |