WO2023054632A1 - 嚥下障害の判定装置および判定方法 - Google Patents
嚥下障害の判定装置および判定方法 Download PDFInfo
- Publication number
- WO2023054632A1 WO2023054632A1 PCT/JP2022/036558 JP2022036558W WO2023054632A1 WO 2023054632 A1 WO2023054632 A1 WO 2023054632A1 JP 2022036558 W JP2022036558 W JP 2022036558W WO 2023054632 A1 WO2023054632 A1 WO 2023054632A1
- Authority
- WO
- WIPO (PCT)
- Prior art keywords
- dysphagia
- analysis
- determination device
- subject
- speech
- Prior art date
Links
- 208000019505 Deglutition disease Diseases 0.000 title claims abstract description 168
- 238000000034 method Methods 0.000 title claims description 14
- 230000006870 function Effects 0.000 claims description 12
- 238000012545 processing Methods 0.000 claims description 10
- 238000010801 machine learning Methods 0.000 claims description 7
- 238000001228 spectrum Methods 0.000 claims description 6
- 210000001260 vocal cord Anatomy 0.000 claims description 5
- 238000010586 diagram Methods 0.000 description 30
- 238000004891 communication Methods 0.000 description 11
- 238000012360 testing method Methods 0.000 description 10
- 241000234295 Musa Species 0.000 description 6
- 230000008859 change Effects 0.000 description 6
- 238000011156 evaluation Methods 0.000 description 5
- 235000013305 food Nutrition 0.000 description 5
- 230000010365 information processing Effects 0.000 description 5
- 230000009747 swallowing Effects 0.000 description 5
- 208000025174 PANDAS Diseases 0.000 description 3
- 208000021155 Paediatric autoimmune neuropsychiatric disorders associated with streptococcal infection Diseases 0.000 description 3
- 240000004718 Panda Species 0.000 description 3
- 235000016496 Panda oleosa Nutrition 0.000 description 3
- 210000005182 tip of the tongue Anatomy 0.000 description 3
- 230000001755 vocal effect Effects 0.000 description 3
- XLYOFNOQVPJJNP-UHFFFAOYSA-N water Substances O XLYOFNOQVPJJNP-UHFFFAOYSA-N 0.000 description 3
- 206010003497 Asphyxia Diseases 0.000 description 2
- 235000018290 Musa x paradisiaca Nutrition 0.000 description 2
- 238000000692 Student's t-test Methods 0.000 description 2
- 238000004364 calculation method Methods 0.000 description 2
- 230000018984 mastication Effects 0.000 description 2
- 238000010077 mastication Methods 0.000 description 2
- 238000011160 research Methods 0.000 description 2
- 230000033764 rhythmic process Effects 0.000 description 2
- 230000035945 sensitivity Effects 0.000 description 2
- 238000012353 t test Methods 0.000 description 2
- 230000002123 temporal effect Effects 0.000 description 2
- 208000036119 Frailty Diseases 0.000 description 1
- 208000002720 Malnutrition Diseases 0.000 description 1
- 206010035669 Pneumonia aspiration Diseases 0.000 description 1
- 230000009471 action Effects 0.000 description 1
- 201000009807 aspiration pneumonia Diseases 0.000 description 1
- 206010003549 asthenia Diseases 0.000 description 1
- 230000006399 behavior Effects 0.000 description 1
- 238000004590 computer program Methods 0.000 description 1
- 238000009434 installation Methods 0.000 description 1
- 230000001071 malnutrition Effects 0.000 description 1
- 235000000824 malnutrition Nutrition 0.000 description 1
- 210000003205 muscle Anatomy 0.000 description 1
- 230000000474 nursing effect Effects 0.000 description 1
- 208000015380 nutritional deficiency disease Diseases 0.000 description 1
- 230000008569 process Effects 0.000 description 1
- 238000012827 research and development Methods 0.000 description 1
- 210000003296 saliva Anatomy 0.000 description 1
- 238000000926 separation method Methods 0.000 description 1
- 210000003437 trachea Anatomy 0.000 description 1
- 230000009466 transformation Effects 0.000 description 1
- 230000003313 weakening effect Effects 0.000 description 1
Images
Classifications
-
- A—HUMAN NECESSITIES
- A61—MEDICAL OR VETERINARY SCIENCE; HYGIENE
- A61B—DIAGNOSIS; SURGERY; IDENTIFICATION
- A61B5/00—Measuring for diagnostic purposes; Identification of persons
- A61B5/103—Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
- A61B5/11—Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/09—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being zero crossing rates
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/15—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being formant information
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/18—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/03—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
- G10L25/24—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
-
- G—PHYSICS
- G10—MUSICAL INSTRUMENTS; ACOUSTICS
- G10L—SPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
- G10L25/00—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
- G10L25/48—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
- G10L25/51—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
- G10L25/66—Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
Definitions
- This disclosure relates to a device and method for determining dysphagia (excluding medical practice).
- dysphagia a condition in which the ability to swallow is weakened, increases the risk of suffocation, which causes choking due to difficulty in eating, and aspiration, in which swallowed water or food enters the trachea. If dysphagia is left untreated in this way, malnutrition continues, leading to frailty and requiring nursing care, and may even lead to life crises such as suffocation and aspiration pneumonia. Therefore, it is desirable to determine dysphagia early and take appropriate measures.
- US Pat. No. 6,200,003 provides a device for determining the presence or absence of dysphagia by positioning a biaxial accelerometer on the neck of a subject.
- Patent Document 1 imposes a physical burden on the subject, such as attaching an accelerometer to the subject's neck with double-sided tape.
- a heavy burden on the person in charge of testing the subject such as ensuring that the mounting position of the sensor device does not deviate.
- a device that can more easily determine dysphagia such as reducing the burden on subjects and those in charge of examination.
- the present disclosure has been made in view of such circumstances, and aims to provide a determination device that can more easily determine dysphagia.
- the inventors discovered that there is a correlation between the speech data of the subject's speech and the degree of progression of the subject's dysphagia. In addition, it was discovered that there is a significant difference in predetermined acoustic feature values between groups classified based on the degree of progression of dysphagia. Based on these findings, the inventors succeeded in creating a device for determining dysphagia based on speech analysis. That is, the details of the determination device of the present disclosure are as follows.
- a determination device for determining dysphagia by voice analysis comprising: Input means for inputting voice data uttered by the subject; analysis means for analyzing voice data input by the input means; Determination means for determining dysphagia of the subject based on the analysis result by the analysis means;
- a determination device comprising:
- the determination device performs the input of the voice data of the subject at least twice using the same phrase, and based on the difference or average value of the analysis results analyzed by the same phrase, dysphagia
- the determination device according to any one of [1] to [4], which determines the degree of progress of
- the input means allows the subject to The determination device according to any one of [1] to [6], which inputs speech data including at least one sound of
- a method for determining dysphagia by voice analysis comprising: an input step of inputting voice data uttered by the subject; an analysis step of analyzing the voice data input in the input step; a determination step of determining dysphagia of the subject based on the analysis results of the analysis step; A method.
- the determination device determines dysphagia by voice analysis. Further, it is possible to provide a determination method for determining dysphagia by voice analysis. Furthermore, the determination device can determine not only the presence or absence of dysphagia in the subject, but also the degree of progression of dysphagia.
- FIG. 1 is a diagram for explaining the configuration of a determination device.
- FIG. 2 is a flow chart showing an example of processing executed by the determination device.
- FIG. 3 is a diagram showing an example of audio data input to the input/output unit 12.
- FIG. 4 is an ROC curve showing the results of one example of the present invention.
- FIG. 5 is an ROC curve showing the results of one example of the present invention.
- FIG. 6 is a box and whisker diagram showing the results of one example of the present invention.
- FIG. 7 is a diagram showing variations in formant analysis values when the same utterance content is uttered a plurality of times.
- FIG. 8 is a diagram showing the relationship between the value of formant analysis and the degree of progression of dysphagia.
- FIG. 8 is a diagram showing the relationship between the value of formant analysis and the degree of progression of dysphagia.
- FIG. 9A is a diagram showing the relationship between the value of 13th-order Mel frequency cepstrum analysis and the degree of progression of dysphagia.
- FIG. 9B is a diagram showing the relationship between the value of the 13th-order Mel-frequency cepstrum analysis and the degree of progression of dysphagia.
- FIG. 10 is a diagram showing the relationship between phoneme classes and phonemes to be activated.
- FIG. 11 shows the results of phoneme analysis of "pa" uttered by a healthy person without dysphagia and "pa” uttered by a person with moderate or higher dysphagia.
- FIG. 12 is a box-and-whisker diagram for verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 12 is a box-and-whisker diagram for verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 13 is a box-and-whisker diagram for verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 14 is a box-and-whisker diagram verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 15 is a box-and-whisker diagram verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 16 is a box-and-whisker diagram for verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 17 is a box-and-whisker diagram for verifying the classification performance according to the severity of dysphagia using acoustic features.
- FIG. 18 is a diagram showing audio data.
- FIG. 19 shows experimental results showing the correlation between the speech intensity analysis results and the dysphagia evaluation results.
- FIG. 20 shows the result of a box-and-whisker diagram of each acoustic feature quantity.
- FIG. 21 shows the result of a box-and-whisker diagram of each acoustic feature quantity.
- FIG. 22 shows the result of the ROC curve when dysphagia of mild or higher severity is determined by a machine learning model using an acoustic feature quantity set created including the method of phoneme analysis and strength analysis.
- FIG. 23 shows the result of the ROC curve when dysphagia of moderate or higher severity was determined by a machine learning model using an acoustic feature quantity set created including the method of phoneme analysis and strength analysis.
- the dysphagia determination device of the present disclosure includes analysis means and determination means as main components.
- the analysis means performs acoustic analysis using an acoustic feature quantity (hereinafter sometimes referred to as "F(a)”) that can analyze the degree of progression of dysphagia.
- F(a) acoustic feature quantity
- the determination means may be subjected to machine learning processing such that, when the analysis result acquired by the analysis means is input, the degree of progression of dysphagia is output.
- the configuration of the determination device (hereinafter sometimes referred to as "information processing device") will be described using FIG.
- the information processing apparatus 10 includes a control unit 11 that controls the overall operation, an input/output unit 12 that performs various inputs and outputs, a storage unit 13 that stores various data and programs, a communication unit 14 that communicates with the outside, and a It has an internal bus 15 that connects the blocks so that they can communicate with each other.
- the information processing device 10 is, for example, a computer, and may be a device that can be carried by the subject, such as a smartphone, PDA, tablet, or laptop computer, or a computer that is fixed at an installation position without being carried by the subject. good.
- PDA is an abbreviation for Personal Digital Assistant.
- the control unit 11 is a device called, for example, a CPU, MCU, or MPU, and executes programs stored in the storage unit 13, for example.
- CPU is an abbreviation for Central Processing Unit.
- MCU is an abbreviation for Micro Controller Unit.
- MPU is an abbreviation for Micro Processor Unit.
- the input/output unit 12 is a device that performs input/output with respect to the subject who operates the information processing device 10 .
- the input/output unit 12 inputs and outputs information and signals using a display, keyboard, mouse, button, touch panel, printer, microphone, speaker, and the like.
- the input/output unit 12 functions at least as a microphone, and inputs audio data through this microphone.
- the input/output unit 12 serves at least as a display, and displays the determination result of dysphagia, which will be described later, on this display.
- the storage unit 13 is, for example, a device such as ROM, RAM, HDD, or flash memory, and stores programs to be executed by the control unit 11 and various data.
- ROM is an abbreviation for Read Only Memory.
- RAM is an abbreviation for Random Access Memory.
- HDD is an abbreviation for Hard Disk Drive.
- the communication unit 16 communicates with the outside. Communication by the communication unit 16 may be wired communication or wireless communication. Any communication method may be used for communication by the communication unit 16 .
- the control unit 11 can transmit and receive various data such as voice data through the communication unit 16 .
- the control unit 11 may transmit the determination result of dysphagia, which will be described later, to the external device through the communication unit 16 .
- step S ⁇ b>201 the control unit 11 inputs voice data of the subject through the input/output unit 12 .
- step S202 the calculation unit (or analysis unit) calculates the acoustic feature amount from the voice data.
- step S203 the estimation unit (or determination unit) estimates (or determines) the presence or absence of dysphagia and the degree of progression.
- the estimation result (or determination result) is output to the input/output unit 12, and the flow ends.
- the input/output unit 12 in step S201 may use a microphone.
- the subject speaks into the microphone and inputs voice data. Audio data recorded in advance may be used.
- phrases selected for voice input are phrases suitable for voice analysis of the degree of progress of dysphagia of the subject. As the dysphagia progresses, the degree of movement of the tongue, the position of the tongue in the front and back, the degree of opening of the jaw, the state of occlusion of the teeth, the number of teeth, the amount of saliva secreted, the weakening of the muscles, etc. The condition of the resonance of sound inside is also affected.
- a phrase that is suitable for analyzing the degree of progression of dysphagia is a phrase that facilitates discovering, for example, the degree of resonance of sound that changes as the dysphagia progresses.
- FIG. 3 shows an example of audio data input to the input/output unit 12. As shown in FIG. Figure 3 shows This is an example of a compilation of phrases including the pronunciation of , so the voice input of the present disclosure is not limited to these phrases.
- the subject can select at least one of Phrase01 (Ph01) to Phrase10 (Ph10) shown in FIG. 3 as a phrase to be input by voice. Of course, some of Phrase01 (Ph01) to Phrase10 (Ph10) may be combined for voice input.
- Ph01 is voice data for uttering "Pa”.
- Ph02 is voice data for uttering "ma”.
- Ph03 is voice data for uttering "ta”.
- Ph04 is voice data for uttering "ra”.
- Ph05 is voice data for uttering "ka”.
- Ph06 is voice data for uttering "Go”.
- Ph07 is voice data for uttering "Panda's Treasure”.
- Ph08 is voice data for uttering "egg”.
- Ph09 is voice data in which "banana banana banana banana banana banana banana” is repeatedly uttered five times or more as fast as possible.
- Ph10 is speech data in which "kimono glyphono kimono kimono kimono glyphono glyphono" is repeatedly uttered five times or more as quickly as possible. The relationship between phrases Ph01 to Ph10 and dysphagia will be further described.
- Ph01 and Ph02 are pronunciations of ⁇ pa'' and ⁇ ma'', which require movement to close the lips. related to transport of food during swallowing by increasing the
- Ph03 and Ph04 are pronunciations of "ta” and "ra".
- Tona is a movement using the tip of the tongue, and as a swallowing function, it is related to the function of mastication and feeding movement (movement to move water and food in the mouth to the back of the throat).
- Ra requires the tip of the tongue to move relatively smoothly, and it is a sound in which the smoothness of the tongue movement can be seen. It uses the tip of the tongue in the same way as “ta”, and is related to the function of mastication and the feeding action (move the water and food in the mouth to the back of the throat).
- Ph05 and Ph06 are pronunciations of "ka” and "go". Both are movements that use the back of the tongue, and as swallowing functions, they perform feeding movements and movements that increase intrapharyngeal pressure, and are related to transporting food.
- Ph07 Treasure of the Panda
- Ph08 Egg
- Ph09 banana banana banana banana banana
- Ph10 kimono kimono kimono kimono kimono kimono kimono kimono kimono
- the above phrases are voice-inputted to acquire voice data, and voice analysis is performed in step S202.
- Acoustic features are calculated in a calculation unit (analysis unit) during speech analysis. The acoustic feature amount will be described in detail below.
- the acoustic feature quantity F(a) can be expressed by the following formula.
- g is a linear or nonlinear model that determines the presence or absence of dysphagia and the degree of progression
- x n is a coefficient specific to the phrase input as voice data
- f (n) is an acoustic parameter, One or more selected from the group consisting of formant frequency, mel frequency cepstrum, frequency spectrum, speech envelope, waveform variation information, zero crossing rate, Hurst exponent, and time from closure-opening to onset of vocal fold vibration .
- the mean value or difference can be included
- the variation (variance or standard deviation) or median can be included.
- the acoustic feature amounts have a large difference in numerical values, each may be normalized.
- the feature amount may be divided into two or more.
- the types of acoustic parameters are as follows.
- Arbitrary formant frequency (first formant, second formant, third formant, fourth formant, 5th formant, 6th formant, etc.) within utterance distribution statistics (1st quartile, median, 3rd quartile, 95th percentile, 98th percentile, arithmetic mean, geometric mean , the difference between the 3rd quartile and the median, etc.)
- Arbitrary formant frequencies (1st formant, 2nd formant, 3rd formant, 4th formant, 5th formant, 6th formant, .
- step S203 determination processing is executed in step S203.
- An example of determination using the above acoustic feature amount will be described with reference to FIGS. 4 to 6.
- Example 1 In FIG. 4, a specific program was created using 7 of the acoustic parameters (1) to (14) described above, using voice data in which the subject read out the 10 types of phrases shown in FIG. 3 twice each.
- dysphagia it is a ROC curve that verifies the classification performance of the presence or absence of dysphagia.
- the horizontal axis indicates "1-specificity" and the vertical axis indicates sensitivity.
- AUC was 0.941, confirming sufficient classification performance.
- Example 2 In FIG. 5, the voice data obtained by reading out the 10 types of phrases shown in FIG. It is an ROC curve that verifies the classification performance regarding the degree of progression of dysphagia (whether or not dysphagia is moderate or severe) of a specific program created using the average value of the calculated values.
- the horizontal axis indicates "1-specificity" and the vertical axis indicates sensitivity.
- AUC was 0.981, confirming sufficient classification performance.
- the presence or absence of dysphagia is first determined using the program according to FIG.
- the group can also be further evaluated for the degree of dysphagia progress (mild or moderate or more) using the program according to FIG.
- FIG. 7 is a diagram showing the relationship between the results of formant analysis of speech data and the degree of progression of dysphagia of the subject, and variations when the same utterance content is uttered a plurality of times.
- voice data of Ph07 "Panda's Treasure” is used as the utterance content.
- the horizontal axis is the time axis for the utterances of subjects who are healthy, have mild dysphagia, and have moderate or higher dysphagia
- the vertical axis is the value of the first formant f1.
- each is grouped into multiple utterances, and the order is plotted along the time axis.
- step S201 determines whether the current subject is a healthy subject, a person with mild dysphagia, or a person with moderate or higher dysphagia. You can determine if you are human.
- f3 or f5 of a healthy subject is stored in advance, and if f3 or f5 of a subject deviates from f3 or f5 of a healthy subject by a threshold value or more, the subject has dysphagia. It can be determined that there is In FIG. 7, only f1 of Ph07 is shown, but other voice data and other formant analysis results (for example, any of f2 to f5 other than f1) and other frequency analyzes can also be validated. . Also, in FIG. 7, the difference in the value of f1 between two utterances is targeted, but other number of utterances can also be used. For example, the degree of dysphagia (presence or absence of dysphagia and its severity) may be determined from the difference between the maximum value and minimum value of the formant analysis results of three or more utterances.
- FIG. 8 is a table in which each speech data shown in FIG. 3 is compared with the value of the acoustic feature value based on the formant frequency, and the degree of progression of dysphagia is compared. Items in the horizontal direction indicate items of "healthy vs. mild,”"healthy vs. moderate or higher,” and “mild vs. moderate or higher.” Items in the vertical direction indicate the content of the utterance. In the table, "***” indicates P value ⁇ 0.01, “**” indicates P value ⁇ 0.03333, “*” indicates P value ⁇ 0.05, and "ns" indicates no significant difference. each shown. In the present application, it is considered that there is a significant difference if the P value is less than 0.1.
- f1 is the first formant
- f2 is the second formant
- f3 is the third formant
- f4 is the fourth formant
- f5 is the fifth formant.
- t-test unpaired, one-sided
- Bonferroni's multiple comparison test is used for multiple comparison test of 3 or more groups, and the significance level is 10%. It was set. Any of the parametric test including the t-test used this time, the non-parametric test, the test based on the ratio, the test based on the variance ratio, and the like may be used for the evaluation of the significant difference by the group comparison.
- Ph02 showed a significant difference in f4 and f5 in the "healthy vs. mild" item. In addition, a significant difference was shown between f3 and f5 in the item "healthy versus moderate or higher”. In addition, a significant difference was shown in f3 and f4 in the item of "mild vs. moderate or higher".
- Ph03 showed a significant difference in f3 in the "healthy vs. mild" item.
- a significant difference was shown in f1 and f2 in the item of "healthy versus moderate or higher”.
- a significant difference was shown in f1 to f4 in the item of "mild vs. moderate or more”.
- Ph04 showed a significant difference between f2 and f4 in the item "healthy vs moderate or higher”. In addition, a significant difference was shown in f1 to f4 in the item of "mild vs. moderate or more". For Ph04, none of the formants showed a significant difference in the item “Healthy vs. Mild", but it is possible to judge "Healthy vs. Mild” by comparing the other two groups.
- Ph05 showed a significant difference in f2 and f5 in the "healthy vs. mild" item.
- a significant difference was shown in f1 in the item of "healthy vs. moderate or higher”.
- a significant difference was shown for f1 and f2 in the item of "mild vs. moderate or higher”.
- Ph06 showed a significant difference in f3 and f5 in the "healthy vs. mild" item. In addition, a significant difference was shown in f5 in the item "healthy vs. moderate or higher”. Ph06 showed no significant difference in any of the formants in the item of "mild vs. moderate or higher", but it is possible to judge “mild vs. moderate or higher” by comparing the other two groups.
- Ph07 showed a significant difference in f3 and f5 in the "healthy vs. mild" item.
- a significant difference was shown in f1 in the item of "healthy vs. moderate or higher”.
- a significant difference was shown in f1 and f3 in the item of "mild vs. moderate or higher”.
- Ph08 showed a significant difference in f1, f3, and f5 in the "healthy vs. mild" item. In addition, a significant difference was shown in f1 in the item of "healthy vs. moderate or higher”. In addition, a significant difference was shown in f1, f3, and f4 in the item of "mild vs. moderate or higher.”
- Ph09 showed a significant difference between f2 and f4 in the "healthy vs. mild" item. In addition, significant differences were shown in f1, f4, and f5 in the item “healthy vs. moderate or higher”. In addition, a significant difference was shown in f3 and f4 in the item of "mild vs. moderate or higher".
- Ph10 showed a significant difference between f3 and f5 in the "healthy vs. mild" item. In addition, significant differences were shown in f1, f3, and f5 in the item "healthy versus moderate or higher”. In addition, a significant difference was shown in f1 and f3 in the item of "mild vs. moderate or higher".
- Ph01 to Ph10 can distinguish between healthy and mild dysphagia, healthy and moderate or more dysphagia, and mild and moderate or more dysphagia in all phrases. Therefore, if the subject It was confirmed that healthy and mild dysphagia, healthy and moderate or more dysphagia, and mild and moderate or more dysphagia can be distinguished by inputting speech data containing at least one sound of .
- Example 6 shows the degree of dysphagia (presence or absence of dysphagia, and severity ) is a table showing one of the effective feature amounts in the determination of .
- the table in FIG. 9A uses the average value of two utterances of the audio data shown in FIG. 3 as acoustic parameters.
- the table of FIG. 9B uses the difference between two utterances of the voice data obtained by uttering each voice data shown in FIG. 3 twice as acoustic parameters.
- the items in the horizontal direction indicate the average value, maximum value, minimum value, range value, average minimum value, and slope of the 13th-order mel-frequency cepstrum coefficients or dynamic feature quantities. Items in the vertical direction indicate the content of the utterance.
- " ⁇ " (circle) indicates that it is effective for determining the presence or absence of dysphagia.
- a double circle indicates that it is effective in determining the degree of progression of dysphagia.
- the determination device of the second embodiment differs from the first embodiment in that it uses phoneme analysis when determining dysphagia of a subject.
- the analysis means of the determination device of the second embodiment creates acoustic features by performing phoneme analysis on the voice data uttered by the subject. Then, the determination means of the determination device of the second embodiment determines the degree of progression of dysphagia by executing voice analysis using the acoustic feature amount that is the analysis result of the analysis means.
- FIG. 10 is a diagram showing the relationship between phoneme classes and activated phonemes. Even the same phoneme may belong to a plurality of phoneme classes. For example, as shown in FIG. 10, the phoneme /a/ belongs to "vocal""back”"open”"voiced" and the phoneme /p/ belongs to "consonantal""stop""labial".
- FIG. 11 shows the results of phoneme analysis of "pa" uttered by a healthy person without dysphagia and "pa” uttered by a person with moderate or higher dysphagia.
- FIG. 11 are the results of phoneme analysis for "pa” uttered by a healthy person
- (F), (H), and (J) are the phoneme analysis results for "pa” uttered by a person with moderate or higher dysphagia.
- the horizontal axis represents time (s)
- the vertical axis represents phoneme posterior probabilities (phonological posteriors) of each phoneme class.
- the central waveform shown in FIG. 11 corresponds to the voice data of the voice uttered by the subject.
- (A) and (B) of FIG. 11 are the phoneme analysis results when the phoneme classes are “vocal”, “back”, “consonantal”, and “anterior”.
- (C) and (D) of FIG. 11 are the results of phoneme analysis when the phoneme classes are "open”, “nasal”, “close”, and "stop”.
- (E) and (F) in FIG. 11 are the results of phoneme analysis when the phoneme classes are “continuant”, “flap”, “lateral” and “trill”.
- (G) and (H) of FIG. 11 are the results of phoneme analysis when the phoneme classes are "voice", “labial”, “strident” and “dental”.
- (I) and (J) in FIG. 11 are the phoneme analysis results when the phoneme class is "velar" and "pause”.
- the phoneme analysis result is considered to be useful as an acoustic feature amount when determining the presence or absence of dysphagia.
- Figures 12 to 17 show box-and-whisker diagrams that verify the classification performance of the presence or absence of dysphagia by each acoustic feature amount, which is the phoneme analysis result of the phoneme class.
- “mean” described after the phonological class for example, “consonantal”, “close”, “dental”, “velar”, “stop”, “anterior”, “back”, “continuant”, “open”, “labial” in the figure represents the mean
- “median” represents the median
- “std” represents the standard deviation.
- “healthy” represents healthy subjects
- “mild” represents people with mild dysphagia
- “severe” represents people with moderate or more dysphagia.
- the vertical axes in FIGS. 12 to 17 represent values of each statistic such as mean, median, and standard deviation. Specifically, the vertical axes in FIGS. 12 to 17 represent the average, median, standard deviation, etc. of the values of the acoustic features of the phoneme class at each time when the subject utters a certain phrase.
- Fig. 12 shows the statistics of the acoustic features when the subject utters "pa”.
- the standard deviation of the phoneme class "close” is “close_std”.
- “consonantal_std” which is the standard deviation of the phoneme class “consonantal”
- the phoneme class "close and “close_median” which is the median value of the phoneme class "close” are useful acoustic features.
- Figures 14 and 15 are the statistics of the acoustic features when the subject utters "ra". As shown in FIG. 14, when classifying healthy subjects, those with mild dysphagia, and those with moderate or more dysphagia, the average ⁇ close_mean'' that is the value, ⁇ close_median'' that is the median, ⁇ dental_std'' that is the standard deviation of the phonological class ⁇ dental'', and ⁇ stop_mean'' that is the mean value of the phonological class ⁇ stop'' are useful acoustic features. It turns out that
- the phonological class "velar” is used as an example. It can be seen that “velar_mean”, which is the average value of , and “velar_median”, which is the median value of , are useful acoustic features.
- Figures 16 and 17 are the statistics of the acoustic feature amount when the subject utters "egg". Although detailed description of FIGS. 16 and 17 is omitted, the acoustic feature amount of each phoneme class is useful for determining the degree of dysphagia as in FIGS. 12 to 15 .
- the statistics of each phoneme class are useful for determining the degree of dysphagia. Therefore, it can be confirmed that healthy and mild dysphagia, healthy and moderate or higher dysphagia, and mild dysphagia and moderate or higher dysphagia can be distinguished and determined.
- the analysis means of the determination device of the second embodiment identifies phonemes contained in the speech data by performing phoneme analysis on the speech data of the speech uttered by the subject. Then, the analysis means of the determination device of the second embodiment identifies the phoneme class to which the phonemes included in the speech data belong. Even the same phoneme may belong to a plurality of phoneme classes. For example, as shown in FIG. 10, the phoneme /a/ belongs to "vocal" "back” "open” "voiced” and the phoneme /p/ belongs to "consonantal" "stop” "labial".
- the analysis means of the determination device of the second embodiment calculates the phoneme posterior probabilities (phonological posteriors) of the phoneme class at each time of the speech data, which is time-series data. Then, the determination means of the determination device of the second embodiment uses the statistics of the phoneme posterior probability of the phoneme class at each time obtained by the analysis means (for example, the average, median, and standard deviation of the phoneme posterior probability at each time). etc.), the degree of dysphagia of the subject is determined. Therefore, according to the determination device of the second embodiment, the degree of dysphagia of the subject can be determined with high accuracy by performing the phoneme analysis of the voice data of the voice uttered by the subject.
- the determination device of the third embodiment differs from the first and second embodiments in that it uses voice intensity analysis when determining dysphagia of a subject.
- the analysis means of the determination device of the third embodiment creates an acoustic feature amount by performing a voice intensity analysis on the voice data uttered by the subject. Then, the determination means of the determination device of the third embodiment determines the degree of progression of the dysphagia by executing voice analysis using the acoustic feature amount that is the analysis result of the analysis means.
- FIG. 18 is a diagram showing audio data.
- the horizontal axis of FIG. 18 represents the time, and the vertical axis represents the strength of the sound.
- the black circles in FIG. 18 represent peak points of audio data.
- FIG. 19 The upper four lines of FIG. 19 show the correlation between the speech intensity analysis results and the dysphagia evaluation results for the phrases Ph09 "banana banana...banana” and Ph10 "kimono kimono kimono...kimono” uttered by the subject. It is an experimental result showing the relationship.
- peak_ave represents the average of the intensity peak points of the audio data
- peak_sd represents the standard deviation of the intensity peak points of the audio data
- peak_span_ave is the interval between the intensity peak points of the audio data.
- peak_span_sd represents the standard deviation of the interval between intensity peak points of the audio data.
- FIG. 19 shows the separation of healthy subjects and those with mild or more dysphagia using "peak_ave”, “peak_sd”, “peak_span_ave”, and “peak_span_sd” among the test results by the Bonferroni method, and healthy subjects and those with dysphagia This is the result of separating those with mild dysphagia from those with moderate or more severe dysphagia. As shown in FIG.
- FIG. 20 The left side of FIG. 20 is a box-and-whisker diagram of the acoustic feature value “peak_sd” for the phrase Ph09. I was able to confirm that.
- FIG. 21 is a box-and-whisker diagram of the acoustic feature value “peak_sd” for the phrase Ph10. It could be confirmed.
- the strength analysis results of voice data are useful for determining the degree of dysphagia. Therefore, it can be confirmed that healthy and mild dysphagia, healthy and moderate or higher dysphagia, and mild dysphagia and moderate or higher dysphagia can be distinguished and determined.
- the analysis means of the determination device of the third embodiment generates an acoustic feature amount related to the strength analysis by performing strength analysis on the voice data of the voice uttered by the subject.
- the analysis means of the determination device of the third embodiment generates data such as those described above as acoustic feature amounts relating to intensity analysis.
- the determination means of the determination device of the third embodiment determines the degree of dysphagia of the subject based on the acoustic feature quantity obtained by the analysis means. Therefore, according to the determination device of the third embodiment, the degree of dysphagia of the subject can be determined with high accuracy by analyzing the strength of the voice data of the voice uttered by the subject.
- phrases Ph09 “banana banana...banana” and Ph10 “kimono kimono kimono...kimono” were exemplified as phrases uttered by the subject. It can be anything as long as it is.
- phrases such as “patakapatakapataka”, “papapapa”, and “tatatata” may be used.
- Such phrases are phrases that generate nasal resonance (on the nose) and are considered useful for determining the degree of dysphagia.
- phrases including repetition it is possible to determine the consistency of the rhythm generated by repetition, so this is also considered useful for determining the degree of dysphagia.
- the degree of dysphagia of the subject may be determined by combining the phoneme analysis of the second embodiment and the strength analysis of the third embodiment.
- the analysis means of the determination device separates the acoustic feature amount created by performing the phoneme analysis on the speech data and the acoustic feature amount created by performing the intensity analysis on the speech data. is used to determine the degree of dysphagia in a subject.
- the degree of dysphagia of the subject can be determined with higher accuracy than when using only one of the phoneme analysis and the intensity analysis.
- the combination of acoustic features is not limited to the combination of the acoustic feature for phoneme analysis and the acoustic feature for intensity analysis. Any combination including crossover rate, Hurst index, and time from closure-open to onset of vocal cord vibration may be used.
- FIGS. 22 and 23 show the subject's behavior using acoustic features created by performing phoneme analysis on speech data and acoustic features created by performing strength analysis on speech data.
- FIG. 10 is a ROC curve diagram when determining the degree of dysphagia.
- 22 and 23 are the results of ROC curves when determining mild or higher dysphagia (FIG. 22) or moderate or higher dysphagia (FIG. 23) by a machine learning model using an acoustic feature set. . More specifically, FIGS. 22 and 23 show acoustic features created based on formant frequencies, acoustic features created based on Mel frequency cepstrum, acoustic features created by performing phoneme analysis, and strength FIG.
- An object of the present disclosure is to supply a storage medium storing a program code (computer program) for realizing the functions of the above-described embodiments to a system or device, and to cause the computer of the supplied system or device to execute the program stored in the storage medium. It is also accomplished by reading and executing code.
- the program code itself read from the storage medium implements the functions of the above-described embodiments, and the storage medium storing the program code constitutes the present disclosure.
- the computer executes the program to function as each processing unit. I do not care.
- the present disclosure is not limited to the particular examples described, but includes permutations of each configuration of each example, and various variations within the spirit of the disclosure as recited in the claims. Transformation and change are possible.
Landscapes
- Engineering & Computer Science (AREA)
- Health & Medical Sciences (AREA)
- Physics & Mathematics (AREA)
- Computational Linguistics (AREA)
- Signal Processing (AREA)
- Audiology, Speech & Language Pathology (AREA)
- Human Computer Interaction (AREA)
- Acoustics & Sound (AREA)
- Multimedia (AREA)
- Life Sciences & Earth Sciences (AREA)
- General Health & Medical Sciences (AREA)
- Public Health (AREA)
- Spectroscopy & Molecular Physics (AREA)
- Biomedical Technology (AREA)
- Dentistry (AREA)
- Oral & Maxillofacial Surgery (AREA)
- Epidemiology (AREA)
- Biophysics (AREA)
- Pathology (AREA)
- Physiology (AREA)
- Heart & Thoracic Surgery (AREA)
- Medical Informatics (AREA)
- Molecular Biology (AREA)
- Surgery (AREA)
- Animal Behavior & Ethology (AREA)
- Veterinary Medicine (AREA)
- Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
Abstract
本開示は、音声解析により嚥下障害を判定する判定装置であって、被験者が発話した音声データを入力する入力手段;前記入力手段で入力した音声データを解析する解析手段;前記解析手段による解析結果に基づいて被験者の嚥下障害を判定する判定手段、を備えることを特徴とする。
Description
本開示は嚥下障害の判定装置および判定方法(医療行為を除く)に関する。
飲み込む力が低下した状態である嚥下障害により、食事がうまく取れず、のどに詰まる窒息や、飲み込んだ水分や食べ物が気管に入ってしまう誤嚥のリスクが高まることが知られている。このように嚥下障害を放置しておくと、低栄養状態が続きフレイルや要介護状態となる原因となったり、窒息や誤嚥性肺炎など生命の危機を招いたりすることもある。このため、嚥下障害は、早めに判定し、適切な対策を施すのが望ましい。
従来、被験者の喉の動きを検出することにより、嚥下障害を判定する装置が提案されている。特許文献1は、被験者の頸部に二軸加速度計を位置決めして嚥下障害の有無を判定する装置を提供する。
しかしながら、特許文献1は加速度計を被験者の頸部に両面テープで貼付する等、被験者に身体的負担を強いるものであった。また、センサ装置の取り付け位置がずれないようにするなど、被験者に対する検査を実施する検査担当者にも負担が多い。このため、被験者や検査担当者の負担を軽減するなど、より簡易に嚥下障害の判定を可能にする装置を研究・開発する余地が残っていた。
本開示は、このような状況に鑑みてなされたものであり、より簡易に嚥下障害の判定が可能な判定装置を提供することを目的とする。
本発明者らは鋭意研究を行った結果、被験者の発話による音声データと、その被験者の嚥下障害の進行の度合いとの間には相関があることを発見した。また、嚥下障害の進行の度合いに基づき分類したグループ間において、所定の音響特徴量に有意な差があることを発見した。これらの発見に基づき、発明者らは音声解析に基づく嚥下障害の判定装置を作成することに成功した。すなわち、本開示の判定装置の詳細は以下の通りである。
[1]音声解析により嚥下障害を判定する判定装置であって、前記判定装置は:
被験者が発話した音声データを入力する入力手段;
前記入力手段で入力した音声データを解析する解析手段;
前記解析手段による解析結果に基づいて被験者の嚥下障害を判定する判定手段、
を備える判定装置。
被験者が発話した音声データを入力する入力手段;
前記入力手段で入力した音声データを解析する解析手段;
前記解析手段による解析結果に基づいて被験者の嚥下障害を判定する判定手段、
を備える判定装置。
[2]前記解析手段は、前記音声データを以下の式F(a)に示す音響特徴量を使用して音声解析することを特徴とする、[1]に記載の判定装置:
(式中、gは嚥下障害の有無や進行の度合いを判定する線形または非線形モデルであり、xnは前記音声データとして入力するフレーズに固有の係数であり、f(n)は音響パラメータであって、前記音響パラメータは、フォルマント周波数、メル周波数ケプストラム、周波数スペクトラム、音量のエンベロープ、波形の変動情報、ゼロ交差率、ハースト指数、および閉鎖開放から声帯振動が始まるまでの時間、から成る群から1つまたは複数が選択される)。
(式中、gは嚥下障害の有無や進行の度合いを判定する線形または非線形モデルであり、xnは前記音声データとして入力するフレーズに固有の係数であり、f(n)は音響パラメータであって、前記音響パラメータは、フォルマント周波数、メル周波数ケプストラム、周波数スペクトラム、音量のエンベロープ、波形の変動情報、ゼロ交差率、ハースト指数、および閉鎖開放から声帯振動が始まるまでの時間、から成る群から1つまたは複数が選択される)。
[3]前記解析手段は、前記音声データをフォルマント周波数またはメル周波数ケプストラムに基づき作成された音響特徴量を使用して音声解析することを特徴とする、[1]または[2]に記載の判定装置。
[4]前記判定装置は、前記解析結果を入力した場合に嚥下障害の進行の度合いを出力するように機械学習処理が施されている、[1]~[3]のいずれか1つに記載の判定装置。
[5]前記判定装置は、被験者の前記音声データの入力を同一のフレーズを使用して少なくとも2回行い、前記同一のフレーズにより解析された前記解析結果の差分または平均値に基づいて、嚥下障害の進行の度合いを判定する、[1]~[4]のいずれか1つに記載の判定装置。
[6]前記入力手段は、被験者が前記嚥下障害の進行の度合いに関連するフレーズを発話した音声データを入力する、[1]~[5]のいずれか1つに記載の判定装置。
[8]音声解析により嚥下障害を判定する方法であって、前記方法は:
被験者が発話した音声データを入力する入力工程;
前記入力工程で入力した音声データを解析する解析工程;
前記解析工程による解析結果に基づいて被験者の嚥下障害を判定する判定工程、
を備える、方法。
被験者が発話した音声データを入力する入力工程;
前記入力工程で入力した音声データを解析する解析工程;
前記解析工程による解析結果に基づいて被験者の嚥下障害を判定する判定工程、
を備える、方法。
[9][1]~[7]のいずれか1つに記載の判定装置の各手段としてコンピュータを機能させるためのプログラム。
本開示によれば、音声解析により嚥下障害を判定する判定装置を提供することができる。また、音声解析により嚥下障害を判定する判定方法を提供することができる。さらに、判定装置は、被験者の嚥下障害の有無を判定するだけではなく、嚥下障害の進行の度合いを判定することができる。
以下、本開示を実施するための形態について、図面を参照して詳細に説明するが、以下に記載する構成要件の説明は、本開示の一実施態様としての一例であり、これらの内容に限定されるものではない。
<第1実施形態>
本開示の嚥下障害の判定装置は、主な構成要素として解析手段と判定手段を備える。解析手段は嚥下障害の進行の度合いを解析可能な音響特徴量(以下、「F(a)」と称することがある。)を使用して音響解析を行う。また、判定手段は、解析手段により取得した解析結果を入力した場合に嚥下障害の進行の度合いを出力するような機械学習処理が施されていてもよい。
本開示の嚥下障害の判定装置は、主な構成要素として解析手段と判定手段を備える。解析手段は嚥下障害の進行の度合いを解析可能な音響特徴量(以下、「F(a)」と称することがある。)を使用して音響解析を行う。また、判定手段は、解析手段により取得した解析結果を入力した場合に嚥下障害の進行の度合いを出力するような機械学習処理が施されていてもよい。
判定装置(以下、「情報処理装置」と称することがある。)の構成について図1を用いて説明する。情報処理装置10は、全体の動作を制御する制御部11、各種の入出力を行う入出力部12、各種データやプログラム等を記憶する記憶部13、外部との通信を行う通信部14、および各ブロック同士が相互通信可能なように接続する内部バス15、を備える。
情報処理装置10は、例えばコンピュータであり、スマートフォン、PDA、タブレット、又はノートパソコンなどの、被験者が携帯可能な装置であってもよいし、被験者が携帯せずに設置位置に固定されたコンピュータでもよい。PDAは、Personal Digital Assistantの略称である。
制御部11は、例えばCPU、MCU又はMPUと呼ばれる装置であり、例えば記憶部13に記憶されたプログラムが実行される。CPUはCentral Processing Unitの略称である。MCUはMicro Controller Unitの略称である。MPUはMicro Processor Unitの略称である。
入出力部12は、情報処理装置10を操作する被験者に対する入出力を行う装置である。入出力部12は、ディスプレイ、キーボード、マウス、ボタン、タッチパネル、プリンタ、マイク、及びスピーカなどによる、情報や信号の入出力を行う。本実施例では、入出力部12は、少なくともマイクの役割を果たし、このマイクによって音声データを入力する。また、本実施例では、入出力部12は、少なくともディスプレイの役割を果たし、このディスプレイに、後述する嚥下障害の判定結果を表示する。
記憶部13は、例えば、ROM、RAM、HDD、又はフラッシュメモリといった装置であり、制御部11で実行するプログラムや各種データを記憶する。ROMは、Read Only Memoryの略称である。RAMは、Random Access Memoryの略称である。HDDは、Hard Disk Driveの略称である。
通信部16は、外部との通信を行う。通信部16による通信は、有線通信でもよいし、無線通信でもよい。通信部16による通信は、如何なる通信方式でもよい。制御部11は、通信部16によって、音声データなどの各種データの送受信を行うことが出来る。制御部11は、後述する嚥下障害の判定結果を、通信部16によって外部機器に送信するようにしてもよい。
次に図2を用いて判定装置(情報処理装置)10により実行される処理の一例を示す。まず、ステップS201において、制御部11は入出力部12によって被験者の音声データを入力する。次に、ステップS202において、算出部(または解析部)で音声データから音響特徴量を算出する。次に、ステップS203において、推定部(または判定部)で嚥下障害の有無や進行の度合いを推定(または判定)する。次に、推定結果(または判定結果)を入出力部12に出力して、フローを終了する。
なお、ステップS201の入出力部12はマイクを使用してもよい。被験者はマイクに向けて発話を行い、音声データを入力する。音声データは予め録音しておいた音声データを使用してもよい。
<音声入力に際し選択されるフレーズ>
音声入力に際し選択されるフレーズは、被験者の嚥下障害の進行の度合いを音声解析するのに適切なフレーズである。嚥下障害の進行が進むと、舌の動く程度、舌の前後位置、顎の開き具合、歯の噛み合わせ状態、歯の数、唾液の分泌量、筋肉の衰え等に起因し、咽喉頭や口腔内での音の共鳴の具合なども影響をうける。嚥下障害の進行の度合いを解析するのに適切なフレーズとは、上記の嚥下障害の進行に伴い変化する音の共鳴の具合などを発見し易いフレーズである。
音声入力に際し選択されるフレーズは、被験者の嚥下障害の進行の度合いを音声解析するのに適切なフレーズである。嚥下障害の進行が進むと、舌の動く程度、舌の前後位置、顎の開き具合、歯の噛み合わせ状態、歯の数、唾液の分泌量、筋肉の衰え等に起因し、咽喉頭や口腔内での音の共鳴の具合なども影響をうける。嚥下障害の進行の度合いを解析するのに適切なフレーズとは、上記の嚥下障害の進行に伴い変化する音の共鳴の具合などを発見し易いフレーズである。
図3は、入出力部12に入力する音声データの一例を示す。図3は
の発音を含むフレーズをまとめた一例であるため、本開示の音声入力をこれらのフレーズに限定するものではない。被験者は、図3に示すPhrase01(Ph01)~Phrase10(Ph10)のうち、少なくとも1つを音声入力すべきフレーズとして選択できる。もちろん、Phrase01(Ph01)~Phrase10(Ph10)のうち幾つかを組合わせて音声入力してもよい。
の発音を含むフレーズをまとめた一例であるため、本開示の音声入力をこれらのフレーズに限定するものではない。被験者は、図3に示すPhrase01(Ph01)~Phrase10(Ph10)のうち、少なくとも1つを音声入力すべきフレーズとして選択できる。もちろん、Phrase01(Ph01)~Phrase10(Ph10)のうち幾つかを組合わせて音声入力してもよい。
図3において、Ph01は「ぱ」と発話する音声データである。Ph02は「ま」と発話する音声データである。Ph03は「た」と発話する音声データである。Ph04は「ら」と発話する音声データである。Ph05は「か」と発話する音声データである。Ph06は「ご」と発話する音声データである。Ph07は「パンダのたからもの」と発話する音声データである。Ph08は「たまご」と発話する音声データである。Ph09は「バナナバナナバナナバナナバナナ」と出来るだけ速く5回以上繰り返して発話する音声データである。Ph10は「きものきものきものきものきもの」と出来るだけ速く5回以上繰り返して発話する音声データである。フレーズPh01~Ph10と、嚥下障害との関連性についてさらに説明する。
<<Ph01、Ph02>>
Ph01、Ph02は、「ぱ(pa)」、「ま(ma)」の発音であり、唇を閉じる動きが必要で、嚥下機能としては咀嚼の時に口腔内の食べ物をこぼさないようにし、口腔内圧を高めることによって飲み込む際の食事の移送に関係する。
Ph01、Ph02は、「ぱ(pa)」、「ま(ma)」の発音であり、唇を閉じる動きが必要で、嚥下機能としては咀嚼の時に口腔内の食べ物をこぼさないようにし、口腔内圧を高めることによって飲み込む際の食事の移送に関係する。
<<Ph03、Ph04>>
Ph03、Ph04は、「た(ta)」、「ら(ra)」の発音である。「た(ta)」は舌の先を使う動きであり、嚥下機能としては、咀嚼の機能、送り込み動作(口の中の水分や食物を喉の奥に移動する動き)に関係する。「ら(ra)」は舌の先を比較的にスムーズに動かす必要があり、舌の動きのスムーズさをみられる音である。「た」と同じように舌の先を使い、咀嚼の機能、送り込み動作(口の中の水分や食物を喉の奥に移動する動き)に関係する。
Ph03、Ph04は、「た(ta)」、「ら(ra)」の発音である。「た(ta)」は舌の先を使う動きであり、嚥下機能としては、咀嚼の機能、送り込み動作(口の中の水分や食物を喉の奥に移動する動き)に関係する。「ら(ra)」は舌の先を比較的にスムーズに動かす必要があり、舌の動きのスムーズさをみられる音である。「た」と同じように舌の先を使い、咀嚼の機能、送り込み動作(口の中の水分や食物を喉の奥に移動する動き)に関係する。
<<Ph05、Ph06>>
Ph05、Ph06は、「か(ka)」、「ご(go)」の発音である。両方とも舌の奥を使う動きであり、嚥下機能としては、送り込み動作や咽頭内圧を高める動作を行い、食物の移送に関係する。
Ph05、Ph06は、「か(ka)」、「ご(go)」の発音である。両方とも舌の奥を使う動きであり、嚥下機能としては、送り込み動作や咽頭内圧を高める動作を行い、食物の移送に関係する。
<<Ph07、Ph08>>
Ph07(パンダのたからもの)、Ph08(たまご)は唇および舌による音の組合せによる評価を行っている。
Ph07(パンダのたからもの)、Ph08(たまご)は唇および舌による音の組合せによる評価を行っている。
<<Ph09、Ph10>>
Ph09(バナナバナナバナナバナナバナナ)、Ph10(きものきものきものきものきもの)は、鼻腔共鳴の評価、唇および舌による組合せの評価、ディアドコキネシスの評価、リズムの評価を行っている。
Ph09(バナナバナナバナナバナナバナナ)、Ph10(きものきものきものきものきもの)は、鼻腔共鳴の評価、唇および舌による組合せの評価、ディアドコキネシスの評価、リズムの評価を行っている。
以上のようなフレーズを音声入力して音声データを取得し、ステップS202の音声解析を行う。音声解析の際に算出部(解析部)において音響特徴量の算出を行う。音響特徴量について以下に詳しく述べる。
<音響特徴量>
音響特徴量とは、音声解析すべき音声データの特徴を、定量的に表すための数値パラメータである。本開示では、ステップS203において、判定部で嚥下障害の有無や進行の度合いを判定するが、音響特徴量に基づく音声解析の結果を入力として判定処理を出力するように機械学習処理が施されるため、精度向上のためにも音響特徴量の選択は重要である。
音響特徴量とは、音声解析すべき音声データの特徴を、定量的に表すための数値パラメータである。本開示では、ステップS203において、判定部で嚥下障害の有無や進行の度合いを判定するが、音響特徴量に基づく音声解析の結果を入力として判定処理を出力するように機械学習処理が施されるため、精度向上のためにも音響特徴量の選択は重要である。
本開示において、音響特徴量F(a)は、以下の式で示すことができる。
式中、gは嚥下障害の有無や進行の度合いを判定する線形または非線形モデルであり、xnは音声データとして入力するフレーズに固有の係数であり、f(n)は音響パラメータであって、フォルマント周波数、メル周波数ケプストラム、周波数スペクトラム、音声のエンベロープ、波形の変動情報、ゼロ交差率、ハースト指数、および閉鎖開放から声帯振動が始まるまでの時間、から成る群から1つまたは複数が選択される。また、同じフレーズの音声データが2つ以上ある場合には、その平均値または差分、3回以上の場合にはバラツキ(分散や標準偏差)や中央値などを含むことができる。また、音響特徴量は、数値に大きな開きがあるため、それぞれを正規化しても良い。さらに、3群以上の嚥下障害の有無や進行の度合いを判定する場合は、特徴量を2つ以上に分割しても良い。
音響パラメータの種類には、以下のようなものがある。
(1) 音声のエンベロープ(アタックタイム、ディケイタイム、サステインレベル、リリースタイム)
(2) 波形の変動情報(Shimmer、Jitter、倍音対雑音比 HNR:Harmonics to Noise Ratio、信号雑音比 SNR:Signals to Noise Ratio)
(3) ゼロ点交差率
(4) ハースト指数
(5) 閉鎖開放から声帯振動が始まるまでの時間(VOT:Voice Onset Time)
(6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(10)周波数スペクトラム90パーセントロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
(11)周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差その他、ピッチレート、有声音である確率、任意範囲の周波数パワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量など
(12)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(13)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(14)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(2) 波形の変動情報(Shimmer、Jitter、倍音対雑音比 HNR:Harmonics to Noise Ratio、信号雑音比 SNR:Signals to Noise Ratio)
(3) ゼロ点交差率
(4) ハースト指数
(5) 閉鎖開放から声帯振動が始まるまでの時間(VOT:Voice Onset Time)
(6) メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(7) 周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(8) メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(9) メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(10)周波数スペクトラム90パーセントロールオフの発話内時間変化における2次回帰近似に対する二乗誤差
(11)周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差その他、ピッチレート、有声音である確率、任意範囲の周波数パワー、音階、話速(一定時間におけるモーラ数)、ポーズ・間、音量など
(12)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(13)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
(14)任意のフォルマント周波数(第1フォルマント、第2フォルマント、第3フォルマント、第4フォルマント、第5フォルマント、第6フォルマント、・・・)の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、98パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)
上述してきた音響特徴量の中から、嚥下障害の進行の度合いと相関性を有する音響特徴量に基づいて、あるいは嚥下障害の程度で分類を行った際の各群間における音響特徴量の差に基づいて、ステップS203では判定の処理を実行する。上記の音響特徴量を用いて判定を行った例を図4~6を用いて説明する。
被験者は65歳以上の高齢者であり、被験者の嚥下機能は、嚥下機能テストの結果や誤嚥の度合いから言語聴覚士が確認をし、被験者をそれぞれ嚥下障害がない健常者と、軽度の嚥下障害がある人と、中等度以上の嚥下障害がある人に分類した。
(実施例1)
図4は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち7つを用いて特定のプログラムを作成した場合、嚥下障害の有無の分類性能を検証したROC曲線である。横軸は「1-特異度」を示し、縦軸は感度を示す。AUCは0.941であり、十分な分類性能を有していることが確認できた。
図4は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち7つを用いて特定のプログラムを作成した場合、嚥下障害の有無の分類性能を検証したROC曲線である。横軸は「1-特異度」を示し、縦軸は感度を示す。AUCは0.941であり、十分な分類性能を有していることが確認できた。
(実施例2)
図5は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち1つの音響パラメータを用いて音響特徴量を算出し、その値の平均値を用いて作成した特定のプログラムの嚥下障害の進行の度合い(中等度以上の嚥下障害であるか否か)に関する分類性能を検証したROC曲線である。横軸は「1-特異度」を示し、縦軸は感度を示す。AUCは0.981であり、十分な分類性能を有していることが確認できた。また、図4、5の結果から判断して、プログラムを組合わせて処理することにより、まず図4に係るプログラムを用いて嚥下障害の有無を判定し、次いで嚥下障害が有りと判定された被験者群をさらに図5に係るプログラムを用いて嚥下障害の進行の度合い(軽度または中程度以上)を判定することもできる。
図5は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち1つの音響パラメータを用いて音響特徴量を算出し、その値の平均値を用いて作成した特定のプログラムの嚥下障害の進行の度合い(中等度以上の嚥下障害であるか否か)に関する分類性能を検証したROC曲線である。横軸は「1-特異度」を示し、縦軸は感度を示す。AUCは0.981であり、十分な分類性能を有していることが確認できた。また、図4、5の結果から判断して、プログラムを組合わせて処理することにより、まず図4に係るプログラムを用いて嚥下障害の有無を判定し、次いで嚥下障害が有りと判定された被験者群をさらに図5に係るプログラムを用いて嚥下障害の進行の度合い(軽度または中程度以上)を判定することもできる。
(実施例3)
図6は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち1つの音響パラメータを用いて音響特徴量を算出し、その値の平均値を用いて作成した特定のプログラムの嚥下障害の進行の度合いに関する分類性能を検証した箱ヒゲ図である。図6では、健常者、軽度嚥下障害、および中等度以上の嚥下障害を区別する。横軸は健常、軽度嚥下障害、中等度以上の嚥下障害を示し、縦軸は3群判定のスコアの分布を示す。図6からも、上記プログラムが十分な分類性能を有していることが確認できた。
図6は、被験者が図3に示す10種類のフレーズを2回ずつ読み上げた音声データを入力とし、上述した音響パラメータ(1)~(14)のうち1つの音響パラメータを用いて音響特徴量を算出し、その値の平均値を用いて作成した特定のプログラムの嚥下障害の進行の度合いに関する分類性能を検証した箱ヒゲ図である。図6では、健常者、軽度嚥下障害、および中等度以上の嚥下障害を区別する。横軸は健常、軽度嚥下障害、中等度以上の嚥下障害を示し、縦軸は3群判定のスコアの分布を示す。図6からも、上記プログラムが十分な分類性能を有していることが確認できた。
上記図4~6およびそれら図面に関する説明から、特定の音響特徴量を用いて判定を行う判定装置は十分に実用に耐えうることが確認できた。次に、音声データと音響パラメータとの対応関係に関して、幾つか具体例を用いて説明する。なお繰り返しとなるが以降の具体例は、本願発明を実施する上での一例であり、本願発明がこれらの実施例に限定されるものではない。
(実施例4)
図7は、音声データをフォルマント解析した結果について、同じ発話内容で複数回の発話をした場合のばらつきと、被験者の嚥下障害の進行の度合いとの関係を示す図である。図7では、発話内容としてPh07「パンダのたからもの」の音声データを用いている。横軸は、健常、軽度嚥下障害、中等度以上の嚥下障害を有する被験者の発話に関する時間軸であり、縦軸は第1フォルマントf1に係る値である。それぞれ1回目の発話と2回目の発話に関し、複数発話ごとにまとめ、その順番を時間軸に沿ってプロットしている。被験者はそれぞれが2回ずつ発話しており、最初の8人は健常者(グラフ左)であり、次の17人は軽度嚥下障害を有し(グラフ中央)、次の18人は中等度以上の嚥下障害を有している(グラフ右)。
図7は、音声データをフォルマント解析した結果について、同じ発話内容で複数回の発話をした場合のばらつきと、被験者の嚥下障害の進行の度合いとの関係を示す図である。図7では、発話内容としてPh07「パンダのたからもの」の音声データを用いている。横軸は、健常、軽度嚥下障害、中等度以上の嚥下障害を有する被験者の発話に関する時間軸であり、縦軸は第1フォルマントf1に係る値である。それぞれ1回目の発話と2回目の発話に関し、複数発話ごとにまとめ、その順番を時間軸に沿ってプロットしている。被験者はそれぞれが2回ずつ発話しており、最初の8人は健常者(グラフ左)であり、次の17人は軽度嚥下障害を有し(グラフ中央)、次の18人は中等度以上の嚥下障害を有している(グラフ右)。
図7から、健常者の場合、1回目の発話と2回目の発話とでf1の値の差分が小さいことが分かる。これに対して、軽度の嚥下障害がある人及び中等度以上の嚥下障害がある人の場合、1回目の発話と2回目の発話とでf1の値の差分が大きい。このことから、ステップS201で入力した音声データがPh07の場合、ステップS203では、f1により、今回の被験者が健常者であるか、それとも軽度の嚥下障害がある人及び中等度以上の嚥下障害がある人であるかを判定することが出来る。
たとえば、ステップS203では、健常者のf3又はf5をあらかじめ記憶しておき、被験者のf3又はf5が、健常者のf3又はf5に対して閾値以上の乖離がある場合に、その被験者には嚥下障害があると判定することが出来る。図7では、Ph07のf1についてのみ示したが、他の音声データ及び他のフォルマント解析結果(例えばf1以外のf2~f5のいずれか)並びにその他の周波数解析についても有効性を確認することが出来る。また、図7では、2回の発話でのf1の値の差分を対象にしたが、他の発話回数を採用することも出来る。例えば3回以上の発話でのフォルマント解析結果の最大値と最小値との差分により、嚥下障害の程度(嚥下障害の有無、及び重症度)を判定するようにしてもよい。
(実施例5)
図8は、図3に示した各音声データと、フォルマント周波数に基づく音響特徴量の値とを比較し、かつ嚥下障害の進行の度合いを照らし合わせた表である。横方向の項目は、「健常vs軽度」、「健常vs中等度以上」、「軽度vs中等度以上」の各項目を示す。縦方向の項目は、発話内容を示す。表中、「***」はP値<0.01、「**」はP値<0.03333、「*」はP値<0.05、「ns」は有意差がなかったことをそれぞれ示している。なお、本願では、P値<0.1であれば有意差ありとみなしている。また、f1は第1フォルマント、f2は第2フォルマント、f3は第3フォルマント、f4は第4フォルマント、f5は第5フォルマントである。有意差の評価には、2群比較での有意差の検定ではt検定(対応なし、片側)を、3群以上の多重比較検定ではボンフェローニの多重比較検定を用い、有意水準には10%を設定した。なお、群比較による有意差の評価には、今回用いたt検定を含むパラメトリック検定、ノンパラメトリック検定、比率による検定、分散比による検定など、いずれを用いても良い。
図8は、図3に示した各音声データと、フォルマント周波数に基づく音響特徴量の値とを比較し、かつ嚥下障害の進行の度合いを照らし合わせた表である。横方向の項目は、「健常vs軽度」、「健常vs中等度以上」、「軽度vs中等度以上」の各項目を示す。縦方向の項目は、発話内容を示す。表中、「***」はP値<0.01、「**」はP値<0.03333、「*」はP値<0.05、「ns」は有意差がなかったことをそれぞれ示している。なお、本願では、P値<0.1であれば有意差ありとみなしている。また、f1は第1フォルマント、f2は第2フォルマント、f3は第3フォルマント、f4は第4フォルマント、f5は第5フォルマントである。有意差の評価には、2群比較での有意差の検定ではt検定(対応なし、片側)を、3群以上の多重比較検定ではボンフェローニの多重比較検定を用い、有意水準には10%を設定した。なお、群比較による有意差の評価には、今回用いたt検定を含むパラメトリック検定、ノンパラメトリック検定、比率による検定、分散比による検定など、いずれを用いても良い。
図8の結果から、Ph01は、「健常vs軽度」の項目においてf3、f5で有意差を示した。また「健常vs中等度以上」の項目においてf1、f5で有意差を示した。また、「軽度vs中等度以上」の項目において、f1、f2で有意差を示した。
また、Ph02は、「健常vs軽度」の項目においてf4、f5で有意差を示した。また「健常vs中等度以上」の項目においてf3~f5で有意差を示した。また、「軽度vs中等度以上」の項目において、f3、f4で有意差を示した。
また、Ph03は、「健常vs軽度」の項目においてf3で有意差を示した。また「健常vs中等度以上」の項目においてf1、f2で有意差を示した。また、「軽度vs中等度以上」の項目において、f1~f4で有意差を示した。
また、Ph04は、「健常vs中等度以上」の項目においてf2~f4で有意差を示した。また、「軽度vs中等度以上」の項目において、f1~f4で有意差を示した。Ph04は「健常vs軽度」の項目においていずれのフォルマントも有意差を示さなかったが、他の2群を比較することにより「健常vs軽度」の判定をすることは可能である。
また、Ph05は、「健常vs軽度」の項目においてf2、f5で有意差を示した。また「健常vs中等度以上」の項目においてf1で有意差を示した。また、「軽度vs中等度以上」の項目において、f1、f2で有意差を示した。
また、Ph06は、「健常vs軽度」の項目においてf3、f5で有意差を示した。また「健常vs中等度以上」の項目においてf5で有意差を示した。Ph06は「軽度vs中等度以上」の項目においていずれのフォルマントも有意差を示さなかったが、他の2群を比較することにより「軽度vs中等度以上」の判定をすることは可能である。
また、Ph07は、「健常vs軽度」の項目においてf3、f5で有意差を示した。また「健常vs中等度以上」の項目においてf1で有意差を示した。また、「軽度vs中等度以上」の項目において、f1、f3で有意差を示した。
また、Ph08は、「健常vs軽度」の項目においてf1、f3、f5で有意差を示した。また「健常vs中等度以上」の項目においてf1で有意差を示した。また、「軽度vs中等度以上」の項目において、f1、f3、f4で有意差を示した。
また、Ph09は、「健常vs軽度」の項目においてf2~f4で有意差を示した。また「健常vs中等度以上」の項目においてf1、f4、f5で有意差を示した。また、「軽度vs中等度以上」の項目において、f3、f4で有意差を示した。
また、Ph10は、「健常vs軽度」の項目においてf3、f5で有意差を示した。また「健常vs中等度以上」の項目においてf1、f3、f5で有意差を示した。また、「軽度vs中等度以上」の項目において、f1、f3で有意差を示した。
以上の結果から、Ph01~Ph10は、全てのフレーズにおいて、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別できることが確認できた。従って、被験者が
の少なくとも1つの音を含む発話をした音声データを入力すれば、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別できることが確認できた。
の少なくとも1つの音を含む発話をした音声データを入力すれば、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別できることが確認できた。
フォルマント解析は従来、口唇から舌の範囲を第1、第2フォルマントで解析する傾向にあるため、第1、第2フォルマントまでを重視し、第3フォルマント以降を軽視する傾
向にあった。しかし、本発明者らは、特に嚥下障害の進行の度合いを判定する上で口唇よりも奥の咽頭腔の形状や、その複雑な形状変化の連動は、第3フォルマント以降を確認しなければ分からないことを音声解析の研究によって明らかにした。特に高齢者の嚥下障害においては、咽頭腔の形状変化もあり、f3以降の音声解析を行うことは嚥下障害の進行の度合いを判定する上で有効である。
向にあった。しかし、本発明者らは、特に嚥下障害の進行の度合いを判定する上で口唇よりも奥の咽頭腔の形状や、その複雑な形状変化の連動は、第3フォルマント以降を確認しなければ分からないことを音声解析の研究によって明らかにした。特に高齢者の嚥下障害においては、咽頭腔の形状変化もあり、f3以降の音声解析を行うことは嚥下障害の進行の度合いを判定する上で有効である。
(実施例6)
さらに、図9Aおよび図9Bは、図3に示した各音声データを2回発話したデータの差分をとり13次メル周波数ケプストラム解析した結果の、嚥下障害の程度(嚥下障害の有無、及び重症度)の判定における有効な特徴量の1つを示した表である。
さらに、図9Aおよび図9Bは、図3に示した各音声データを2回発話したデータの差分をとり13次メル周波数ケプストラム解析した結果の、嚥下障害の程度(嚥下障害の有無、及び重症度)の判定における有効な特徴量の1つを示した表である。
図9Aの表は図3に示した各音声データを2回発話した音声データの2発話の平均値を音響パラメータとして用いたものである。図9Bの表は図3に示した各音声データを2回発話した音声データの2発話間の差分を音響パラメータとして用いたものである。それぞれ、横方向の項目には、13次メル周波数ケプストラム係数または動的特徴量の平均値、最大値、最小値、範囲値、平均最小値、傾きを示す。縦方向の項目は発話内容を示す。表中、「〇」(マル)は嚥下障害の有無の判定に有効であることを示す。二重のマルは、嚥下障害の進行の度合いの判定に有効であることを示す。
図9Aおよび図9Bから、音声解析として13次メル周波数ケプストラム解析を行った場合も、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別して判定できることが確認できた。
<第2実施形態>
次に、第2実施形態について説明する。なお、第2実施形態の判定装置の構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
次に、第2実施形態について説明する。なお、第2実施形態の判定装置の構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
第2実施形態の判定装置は、被験者の嚥下障害を判定する際に、音素解析を利用する点が第1実施形態と異なる。
第2実施形態の判定装置の解析手段は、被験者が発話した音声データに対して音素解析を行うことにより音響特徴量を作成する。そして、第2実施形態の判定装置の判定手段は、解析手段による解析結果である音響特徴量を使用して音声解析を実行することにより、嚥下障害の進行の度合いを判定する。
(実施例7)
図10は、音韻クラスと活性化される音素との関係を表す図である。なお、同一の音素であっても、複数の音韻クラスに属する場合がある。例えば、図10に示されているように、音素/a/は、「vocalic」「back」「open」「voiced」に属し、音素/p/は「consonantal」「stop」「labial」に属する。また、図11は、嚥下障害がない健常者は発した「ぱ」と、中等度以上の嚥下障害がある人が発した「ぱ」とに対して音素解析を実行した場合の結果である。
図10は、音韻クラスと活性化される音素との関係を表す図である。なお、同一の音素であっても、複数の音韻クラスに属する場合がある。例えば、図10に示されているように、音素/a/は、「vocalic」「back」「open」「voiced」に属し、音素/p/は「consonantal」「stop」「labial」に属する。また、図11は、嚥下障害がない健常者は発した「ぱ」と、中等度以上の嚥下障害がある人が発した「ぱ」とに対して音素解析を実行した場合の結果である。
図11の(A),(C),(E),(G),及び(I)は、健常者が発した「ぱ」に対する音素解析結果であり、図11の(B),(D),(F),(H),及び(J)は、中等度以上の嚥下障害がある人が発した「ぱ」に対する音素解析結果である。なお、図11の各グラフは横軸が時刻(s)を表し、縦軸が各音韻クラスの音素事後確率(Phonological posteriors)を表す。図11に示されている中央部の波形が、被験者から発せられた音声の音声データに相当する。
図11の(A)と(B)とは、音韻クラスが「vocalic」「back」「consonantal」「anterior」である場合の音素解析結果である。また、図11の(C)と(D)とは、音韻クラスが「open」「nasal」「close」「stop」である場合の音素解析結果である。また、図11の(E)と(F)とは、音韻クラスが「continuant」「flap」「lateral」「trill」である場合の音素解析結果である。また、図11の(G)と(H)とは、音韻クラスが「voice」「labial」「strident」「dental」である場合の音素解析結果である。また、図11の(I)と(J)とは、音韻クラスが「velar」「pause」である場合の音素解析結果である。
図11に示されているように、健常者と中等度以上の嚥下障害がある人とでは、音素解析結果である音韻クラスの波形において大きな差異がある。このため、音素解析結果は、嚥下障害の有無を判定する際の音響特徴量として有用であると考えられる。
図12~図17に、音韻クラスの音素解析結果である、各音響特徴量による嚥下障害の有無の分類性能を検証した箱ヒゲ図を示す。なお、図中の音韻クラス(例えば、「consonantal」「close」「dental」「velar」「stop」「anterior」「back」「continuant」「open」「labial」)の後に記載されている「mean」は平均を表し、「median」は中央値を表し、「std」は標準偏差を表す。また、図12~図17内の「healthy」は健常者を表し、「mild」は嚥下障害が軽度である人を表し、「severe」は嚥下障害が中等度以上である人を表す。また、図12~図17内の縦軸は、平均、中央値、及び標準偏差等の各統計量の値を表す。具体的には、図12~図17内の縦軸は、被験者があるフレーズを発した際の、各時刻の音韻クラスの音響特徴量の値の平均、中央値、及び標準偏差等である。
図12は、被験者が「ぱ」を発した際の音響特徴量の統計量である。図12の上段に示されているように、健常者と嚥下障害が軽度以上である人とを分別する際には、その一例として、音韻クラス「close」の標準偏差である「close_std」と、音韻クラス「consonantal」の標準偏差である「consonantal_std」が有用な音響特徴量であることが分かる。また、図12の下段に示されているように、健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人とを分別する際には、その一例として、音韻クラス「close」の平均である「close_mean」と、音韻クラス「close」の中央値である「close_median」が有用な音響特徴量であることが分かる。
図13も、被験者が「ぱ」を発した際の音響特徴量の統計量である。図13に示されているように、健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人を分別する際には、その一例として、音韻クラス「dental」の平均値である「dental_mean」と、音韻クラス「dental」の中央値である「dental_median」と、音韻クラス「velar」の中央値である「velar_median」とが有用な音響特徴量であることが分かる。
また、図14及び図15は、被験者が「ら」を発した際の音響特徴量の統計量である。図14に示されているように、健常者と、嚥下障害が軽度である人と、嚥下障害が中等度以上である人を分別する際には、その一例として、音韻クラス「close」の平均値である「close_mean」と中央値である「close_median」と、音韻クラス「dental」の標準偏差である「dental_std」と、音韻クラス「stop」の平均値である「stop_mean」が有用な音響特徴量であることが分かる。
また、図15に示されているように、健常者と、嚥下障害が軽度である人と、嚥下障害が中等度以上である人を分別する際には、その一例として、音韻クラス「velar」の平均値である「velar_mean」と中央値である「velar_median」が有用な音響特徴量であることが分かる。
また、図16及び図17は、被験者が「たまご」を発した際の音響特徴量の統計量である。図16及び図17については詳細な説明は省略するものの、図12~図15と同様に、各音韻クラスの音響特徴量は、嚥下障害の度合いを判定するのに有用である。
以上図12~図17に例示されているように、各音韻クラスの統計量は、嚥下障害の度合いを判定するのに有用である。このため、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別して判定できることが確認できる。
このため、第2実施形態の判定装置の解析手段は、被験者が発した音声の音声データに対して音素解析を行うことにより、音声データに含まれる音素を特定する。そして、第2実施形態の判定装置の解析手段は、音声データに含まれる音素が属する音韻クラスを特定する。なお、同一の音素であっても、複数の音韻クラスに属する場合がある。例えば、図10に示されているように、音素/a/は、「vocalic」「back」「open」「voiced」に属し、音素/p/は「consonantal」「stop」「labial」に属する。このため、第2実施形態の判定装置の解析手段は、時系列データである音声データの各時刻の音韻クラスの音素事後確率(Phonological posteriors)を計算する。そして、第2実施形態の判定装置の判定手段は、解析手段によって得られた各時刻の音韻クラスの音素事後確率の統計量(例えば、各時刻の音素事後確率の平均、中央値、及び標準偏差等)に基づいて、被験者の嚥下障害の度合いを判定する。このため、第2実施形態の判定装置によれば、被験者が発した音声の音声データを音素解析することにより、被験者の嚥下障害の度合いを精度良く判定することができる。
<第3実施形態>
次に、第3実施形態について説明する。なお、第3実施形態の判定装置の構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
次に、第3実施形態について説明する。なお、第3実施形態の判定装置の構成は、第1実施形態と同様の構成となるため、同一符号を付して説明を省略する。
第3実施形態の判定装置は、被験者の嚥下障害を判定する際に、音声の強度解析を利用する点が第1実施形態及び第2実施形態と異なる。
第3実施形態の判定装置の解析手段は、被験者が発話した音声データに対して音声の強度解析を行うことにより音響特徴量を作成する。そして、第3実施形態の判定装置の判定手段は、解析手段による解析結果である音響特徴量を使用して音声解析を実行することにより、嚥下障害の進行の度合いを判定する。
(実施例8)
図18は、音声データを示す図である。図18の横軸は時刻を表し、縦軸は音声の強度を表す。なお、図18中の黒丸は、音声データのピーク点を表す。
図18は、音声データを示す図である。図18の横軸は時刻を表し、縦軸は音声の強度を表す。なお、図18中の黒丸は、音声データのピーク点を表す。
図19の上段の4行は、被験者が発したフレーズPh09「ばななばなな・・・ばなな」及びPh10「きものきものきもの・・・きもの」についての音声の強度解析結果と嚥下障害の評価結果との相関関係を表す実験結果である。図19の「peak_ave」は音声データの強度のピーク点の平均を表し、「peak_sd」は音声データの強度のピーク点の標準偏差を表し、「peak_span_ave」は音声データの強度のピーク点間の間隔の平均を表し、「peak_span_sd」は音声データの強度のピーク点間の間隔の標準偏差を表している。
図19は、ボンフェローニ法による検定結果のうちの「peak_ave」「peak_sd」「peak_span_ave」「peak_span_sd」を用いた、健常者と嚥下障害が軽度以上である人の分別、および健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人の分別の結果である。図19に示されているように、Ph09の「peak_sd」を用いた健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人の分別が有効であること、Ph09の「peak_span_sd」を用いた健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人の分別が有効であること、Ph10の「peak_ave」を用いた健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人の分別が有効であること、Ph10の「peak_sd」を用いた健常者及び嚥下障害が軽度である人と嚥下障害が中等度以上である人の分別が有効であることがわかる。
図20及び図21は、各音響特徴量の箱ヒゲ図である。
図20の左側は、フレーズPh09についての音響特徴量「peak_sd」の箱ヒゲ図であり、嚥下障害の症状との関連が見られ、特に嚥下障害が中等度以上である人の分別に有効であることが確認できた。
図20の右側は、フレーズPh09についての音響特徴量「peak_span_sd」の箱ヒゲ図であり、嚥下障害の症状との関連が見られ、特に嚥下障害が中等度以上である人の分別に有効であることが確認できた。
図21は、フレーズPh10についての音響特徴量「peak_sd」の箱ヒゲ図であり、嚥下障害の症状との関連が見られ、特に嚥下障害が中等度以上である人の分別に有効であることが確認できた。
以上、図19~図21に示されているように、音声データの強度解析結果は、嚥下障害の度合いを判定するのに有用である。このため、健常と軽度嚥下障害、健常と中等度以上の嚥下障害、軽度嚥下障害と中等度以上の嚥下障害とを区別して判定できることが確認できる。
このため、第3実施形態の判定装置の解析手段は、被験者が発した音声の音声データに対して強度解析を行うことにより、強度解析に関する音響特徴量を生成する。例えば、第3実施形態の判定装置の解析手段は、強度解析に関する音響特徴量として、上述したようなデータを生成する。そして、第3実施形態の判定装置の判定手段は、解析手段によって得られた音響特徴量に基づいて、被験者の嚥下障害の度合いを判定する。このため、第3実施形態の判定装置によれば、被験者が発した音声の音声データを強度解析することにより、被験者の嚥下障害の度合いを精度良く判定することができる。なお、上記実施例では、被験者が発するフレーズとしてフレーズPh09「ばななばなな・・・ばなな」及びPh10「きものきものきもの・・・きもの」を例示したが、これに限らず、所定フレーズの繰り返しを含むようなものであれば、どのようなものであってもよい。例えば「ぱたかぱたかぱたか」「ぱぱぱぱ」「たたたた」といったフレーズであってもよい。このようなフレーズは、鼻腔共鳴(鼻にかかる)を発生させるフレーズであり、嚥下障害の度合いを判定するのに有用であると考えられる。また、繰り返しを含むフレーズを採用することにより、繰り返しによって発生するリズムの一定性を判定することができるため、これも、嚥下障害の度合いを判定するのに有用であると考えられる。
なお、第2実施形態の音素解析と第3実施形態の強度解析とを組み合わせて、被験者の嚥下障害の度合いを判定するようしにてもよい。この場合には、判定装置の解析手段は、音声データに対して音素解析を行うことにより作成された音響特徴量と、音声データに対して強度解析を行うことにより作成された音響特徴量とを用いて、被験者の嚥下障害の度合いを判定する。これにより、音素解析及び強度解析の何れか一方のみを用いる場合よりも、被験者の嚥下障害の度合いを精度良く判定することができる。なお、音響特徴量の組み合わせは、音素解析に関する音響特徴量と強度解析に関する音響特徴量との組み合わせに限定されず、フォルマント周波数、メル周波数ケプストラム、周波数スペクトラム、音声のエンベロープ、波形の変動情報、ゼロ交差率、ハースト指数、及び閉鎖開放から声帯振動が始まるまでの時間等を含めたいかなる組み合わせであってもよい。
(実施例9)
図22及び図23は、音声データに対して音素解析を行うことにより作成された音響特徴量と、音声データに対して強度解析を行うことにより作成された音響特徴量とを用いて、被験者の嚥下障害の度合いを判定した場合のROC曲線図である。図22及び図23は、音響特徴量セットを用いた機械学習モデルにより、軽度以上の嚥下障害(図22)又は中等度以上の嚥下障害(図23)を判定した際のROC曲線の結果である。より詳細には、図22及び図23は、フォルマント周波数に基づき作成された音響特徴量、メル周波数ケプストラムに基づき作成された音響特徴量、音素解析を行うことにより作成された音響特徴量、及び強度解析を行うことにより作成された音響特徴量の4つの音響特徴量を用いて、被験者の嚥下障害の度合いを判定した場合のROC曲線図である。図22は、軽度以上の嚥下障害を判定した場合のROC曲線図である。また、図23は、中等度以上の嚥下障害を判定した場合のROC曲線図である。図22に示される軽度以上の嚥下障害を判定した場合のAUCは0.9954(P値<0.001)であり、十分な分類性能を有していることが確認できた。また、図23に示される中等度度以上の嚥下障害を判定した場合のAUCは1.000(P値<0.001)であり、十分な分類性能を有していることが確認できた。このため、音声データに対して音素解析を行うことにより作成された音響特徴量と、音声データに対して強度解析を行うことにより作成された音響特徴量とを用いることにより、被験者の嚥下障害の度合いを精度良く判定することができることが確認された。
図22及び図23は、音声データに対して音素解析を行うことにより作成された音響特徴量と、音声データに対して強度解析を行うことにより作成された音響特徴量とを用いて、被験者の嚥下障害の度合いを判定した場合のROC曲線図である。図22及び図23は、音響特徴量セットを用いた機械学習モデルにより、軽度以上の嚥下障害(図22)又は中等度以上の嚥下障害(図23)を判定した際のROC曲線の結果である。より詳細には、図22及び図23は、フォルマント周波数に基づき作成された音響特徴量、メル周波数ケプストラムに基づき作成された音響特徴量、音素解析を行うことにより作成された音響特徴量、及び強度解析を行うことにより作成された音響特徴量の4つの音響特徴量を用いて、被験者の嚥下障害の度合いを判定した場合のROC曲線図である。図22は、軽度以上の嚥下障害を判定した場合のROC曲線図である。また、図23は、中等度以上の嚥下障害を判定した場合のROC曲線図である。図22に示される軽度以上の嚥下障害を判定した場合のAUCは0.9954(P値<0.001)であり、十分な分類性能を有していることが確認できた。また、図23に示される中等度度以上の嚥下障害を判定した場合のAUCは1.000(P値<0.001)であり、十分な分類性能を有していることが確認できた。このため、音声データに対して音素解析を行うことにより作成された音響特徴量と、音声データに対して強度解析を行うことにより作成された音響特徴量とを用いることにより、被験者の嚥下障害の度合いを精度良く判定することができることが確認された。
以上、本開示の好ましい実施例について説明したが、本開示は、上述の実施例に限定されない。本開示の目的は、上述の実施例の機能を実現するプログラムコード(コンピュータプログラム)を格納した記憶媒体をシステムあるいは装置に供給し、供給されたシステムあるいは装置のコンピュータが記憶媒体に格納されたプログラムコードを読み出し実行することによっても達成される。この場合、記憶媒体から読み出されたプログラムコード自体が上述した実施例の機能を実現することになり、そのプログラムコードを記憶した記憶媒体は本開示を構成することになる。また、上述した実施形態では、コンピュータがプログラムを実行することにより、各処理部として機能するものとしたが、処理の一部または全部を専用の電子回路(ハードウェア)で構成するようにしても構わない。本開示は、説明された特定の実施例に限定されるものではなく、各実施例の各構成同士の置換を含み、特許請求の範囲に記載された本開示の趣旨の範囲内において、種々の変形・変更が可能である。
2021年9月29日に出願された日本国特許出願2021-159606号の開示は、その全体が参照により本明細書に取り込まれる。本明細書に記載された全ての文献、特許出願、および技術規格は、個々の文献、特許出願、および技術規格が参照により取り込まれることが具体的かつ個々に記された場合と同程度に、本明細書中に参照により取り込まれる。
Claims (12)
- 音声解析により嚥下障害を判定する判定装置であって、前記判定装置は:
被験者が発話した音声データを入力する入力手段;
前記入力手段で入力した音声データを解析する解析手段;
前記解析手段による解析結果に基づいて被験者の嚥下障害を判定する判定手段、
を備える判定装置。 - 前記解析手段は、前記音声データをフォルマント周波数またはメル周波数ケプストラムに基づき作成された音響特徴量を使用して音声解析することを特徴とする、請求項1または請求項2に記載の判定装置。
- 前記判定装置は、前記解析結果を入力した場合に嚥下障害の進行の度合いを出力するように機械学習処理が施されている、請求項1~3のいずれか一項に記載の判定装置。
- 前記判定装置は、被験者の前記音声データの入力を同一のフレーズを使用して少なくとも2回行い、前記同一のフレーズにより解析された前記解析結果の差分または平均値に基づいて、嚥下障害の進行の度合いを判定する、請求項1~4のいずれか一項に記載の判定装置。
- 前記入力手段は、被験者が前記嚥下障害の進行の度合いに関連するフレーズを発話した音声データを入力する、請求項1~5のいずれか一項に記載の判定装置。
- 前記解析手段は、前記音声データに対して音素解析を行うことにより作成された前記音響特徴量を使用して音声解析をする、
請求項2に記載の判定装置。 - 前記解析手段は、前記音声データに対して音声の強度解析を行うことにより作成された前記音響特徴量を使用して音声解析をする、
請求項2又は請求項8に記載の判定装置。 - 前記音声データは、被験者が所定フレーズの繰り返しを発話した際の音声データである、
請求項9に記載の判定装置。 - 音声解析により嚥下障害を判定する方法であって、前記方法は:
被験者が発話した音声データを入力する入力工程;
前記入力工程で入力した音声データを解析する解析工程;
前記解析工程による解析結果に基づいて被験者の嚥下障害を判定する判定工程、
を備える、方法。 - 請求項1~10のいずれか一項に記載の判定装置の各手段としてコンピュータを機能させるためのプログラム。
Priority Applications (1)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2023551872A JPWO2023054632A1 (ja) | 2021-09-29 | 2022-09-29 |
Applications Claiming Priority (2)
Application Number | Priority Date | Filing Date | Title |
---|---|---|---|
JP2021159606 | 2021-09-29 | ||
JP2021-159606 | 2021-09-29 |
Publications (1)
Publication Number | Publication Date |
---|---|
WO2023054632A1 true WO2023054632A1 (ja) | 2023-04-06 |
Family
ID=85782906
Family Applications (1)
Application Number | Title | Priority Date | Filing Date |
---|---|---|---|
PCT/JP2022/036558 WO2023054632A1 (ja) | 2021-09-29 | 2022-09-29 | 嚥下障害の判定装置および判定方法 |
Country Status (2)
Country | Link |
---|---|
JP (1) | JPWO2023054632A1 (ja) |
WO (1) | WO2023054632A1 (ja) |
Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019225242A1 (ja) * | 2018-05-23 | 2019-11-28 | パナソニックIpマネジメント株式会社 | 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム |
-
2022
- 2022-09-29 JP JP2023551872A patent/JPWO2023054632A1/ja active Pending
- 2022-09-29 WO PCT/JP2022/036558 patent/WO2023054632A1/ja active Application Filing
Patent Citations (1)
Publication number | Priority date | Publication date | Assignee | Title |
---|---|---|---|---|
WO2019225242A1 (ja) * | 2018-05-23 | 2019-11-28 | パナソニックIpマネジメント株式会社 | 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム |
Also Published As
Publication number | Publication date |
---|---|
JPWO2023054632A1 (ja) | 2023-04-06 |
Similar Documents
Publication | Publication Date | Title |
---|---|---|
Nirgianaki | Acoustic characteristics of Greek fricatives | |
Lee et al. | Effects of tone on the three-way laryngeal distinction in Korean: An acoustic and aerodynamic comparison of the Seoul and South Kyungsang dialects | |
JP6024180B2 (ja) | 音声認識装置、音声認識方法、及びプログラム | |
JP5120826B2 (ja) | 発音診断装置、発音診断方法、記録媒体、及び、発音診断プログラム | |
US7529670B1 (en) | Automatic speech recognition system for people with speech-affecting disabilities | |
Lim | Computational differences between whispered and non-whispered speech | |
Gao et al. | Plosive (de-) voicing and f0 perturbations in Tokyo Japanese: Positional variation, cue enhancement, and contrast recovery | |
Heller Murray et al. | Relative fundamental frequency distinguishes between phonotraumatic and non-phonotraumatic vocal hyperfunction | |
Jeancolas et al. | Automatic detection of early stages of Parkinson's disease through acoustic voice analysis with mel-frequency cepstral coefficients | |
Fernández Pozo et al. | Assessment of severe apnoea through voice analysis, automatic speech, and speaker recognition techniques | |
Lulich et al. | Subglottal resonances of adult male and female native speakers of American English | |
El Emary et al. | Towards developing a voice pathologies detection system | |
CN113496696A (zh) | 一种基于语音识别的言语功能自动评估系统和方法 | |
Drugman et al. | Tracheoesophageal speech: A dedicated objective acoustic assessment | |
Zealouk et al. | Analysis of COVID-19 resulting cough using formants and automatic speech recognition system | |
Madill et al. | Impact of instructed laryngeal manipulation on acoustic measures of voice–preliminary results | |
Percival | Contextual variation in the acoustics of Hul’q’umi’num’ejective stops | |
Benavides et al. | Using HMM to detect speakers with severe obstructive sleep apnoea syndrome | |
WO2023054632A1 (ja) | 嚥下障害の判定装置および判定方法 | |
US20240341672A1 (en) | Method for evaluating possibility of dysphagia by analyzing acoustic signals, and server and non-transitory computer-readable recording medium performing same | |
Keller | Fundamentals of phonetic science | |
Rodríguez et al. | An evaluation of several methods for computing lingual coarticulatory resistance using ultrasound | |
Yang et al. | Acoustic development of vowel production in native Mandarin-speaking children | |
Thomas et al. | Voice onset time in early-and late-stage amyotrophic lateral sclerosis | |
Elisha et al. | Automatic detection of obstructive sleep apnea using speech signal analysis |
Legal Events
Date | Code | Title | Description |
---|---|---|---|
121 | Ep: the epo has been informed by wipo that ep was designated in this application |
Ref document number: 22876495 Country of ref document: EP Kind code of ref document: A1 |
|
WWE | Wipo information: entry into national phase |
Ref document number: 2023551872 Country of ref document: JP |
|
NENP | Non-entry into the national phase |
Ref country code: DE |
|
122 | Ep: pct application non-entry in european phase |
Ref document number: 22876495 Country of ref document: EP Kind code of ref document: A1 |