WO2023032553A1 - 構音異常検出方法、構音異常検出装置、及びプログラム - Google Patents

構音異常検出方法、構音異常検出装置、及びプログラム Download PDF

Info

Publication number
WO2023032553A1
WO2023032553A1 PCT/JP2022/029503 JP2022029503W WO2023032553A1 WO 2023032553 A1 WO2023032553 A1 WO 2023032553A1 JP 2022029503 W JP2022029503 W JP 2022029503W WO 2023032553 A1 WO2023032553 A1 WO 2023032553A1
Authority
WO
WIPO (PCT)
Prior art keywords
subject
articulation
detection
speech
articulatory
Prior art date
Application number
PCT/JP2022/029503
Other languages
English (en)
French (fr)
Inventor
孝浩 釜井
朗穂 櫻井
勝統 大毛
員令 川見
翔吾 高畑
青空 長尾
Original Assignee
パナソニックホールディングス株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックホールディングス株式会社 filed Critical パナソニックホールディングス株式会社
Priority to CN202280057302.5A priority Critical patent/CN117915839A/zh
Publication of WO2023032553A1 publication Critical patent/WO2023032553A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/18Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being spectral information of each sub-band
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Definitions

  • the present disclosure relates to an articulatory abnormality detection method, an articulatory abnormality detection device, and a program for detecting an articulatory abnormality of a subject.
  • Patent Document 1 discloses a system for detecting an antecedent stroke risk index.
  • a video camera captures video of the subject's face to be evaluated for stroke risk indicators.
  • the processor analyzes the processed image data associated with the video of the subject's face captured by the video camera. Then, in this detection system, the processor determines whether the captured image data presents a leading indicator of carotid artery stenosis.
  • the present disclosure provides an articulatory abnormality detection method, an articulatory abnormality detection device, and a program that facilitate detection of the presence or absence of an articulatory abnormality in a subject without imposing a burden on the subject.
  • a dysarthria detection method includes an acquisition step and a detection step.
  • voice information related to the voice uttered by the subject is acquired.
  • the detection step the speech information obtained in the acquisition step is input to a detection model machine-learned to output information about the presence or absence of articulation abnormalities with speech as input. Based on the output result obtained, The presence or absence of dysarthria of the subject is detected.
  • FIG. 1 is an explanatory diagram of the characteristics of stroke patients.
  • FIG. 2 is a diagram showing an example of a speech waveform of a healthy person and a mel-spectrogram obtained from the speech waveform.
  • FIG. 3 is a diagram showing an example of a speech waveform of a stroke patient and a mel-spectrogram obtained from the speech waveform.
  • FIG. 4 is a block diagram showing an example of the configuration of the articulation abnormality detection device according to the embodiment.
  • FIG. 5 is a diagram showing an example of a speech waveform of a healthy person who uttered a plurality of phrases and a mel-spectrogram obtained from the speech waveform.
  • FIG. 1 is an explanatory diagram of the characteristics of stroke patients.
  • FIG. 2 is a diagram showing an example of a speech waveform of a healthy person and a mel-spectrogram obtained from the speech waveform.
  • FIG. 3 is a diagram showing an example of a speech waveform of a stroke patient
  • FIG. 6 is a diagram showing an example of a speech waveform of a stroke patient who generated a plurality of phrases and a mel-spectrogram obtained from the speech waveform.
  • FIG. 7 is a diagram showing another example of a speech waveform of a stroke patient who generated a plurality of phrases and a mel-spectrogram obtained from the speech waveform.
  • FIG. 8 is a diagram showing an example of RMS envelopes obtained from speech waveforms of healthy subjects and stroke patients who generated a plurality of phrases.
  • FIG. 9 is a diagram showing an example of a learning phase for the segmentation model of the dysarthria detection device according to the embodiment.
  • FIG. 9 is a diagram showing an example of a learning phase for the segmentation model of the dysarthria detection device according to the embodiment.
  • FIG. 10 is a diagram illustrating an example of an inference phase using a segmented model of the articulatory abnormality detection device according to the embodiment.
  • FIG. 11 is a diagram showing an example of a learning phase of the detection model of the dysarthria detection device according to the embodiment.
  • FIG. 12 is a diagram showing an example of an inference phase using a detection model of the dysarthria detection device according to the embodiment.
  • FIG. 13 is a flowchart illustrating an operation example of the articulation abnormality detection device according to the embodiment.
  • FIG. 14 is a diagram illustrating an example of an outline of an articulation abnormality detection device and an articulation abnormality detection method according to an embodiment.
  • FIG. 15 is a diagram showing a specific example of the operation of the dysarticulation detection device according to the embodiment.
  • FIG. 16 is a diagram showing another specific example of the operation of the dysarticulation detection device according to the embodiment.
  • the inventors of the present application have found that the presence or absence of articulation abnormalities of the subject from the voice uttered by the subject, in other words, when the subject utters a word from the mouth, the phonology that is the element of the word It was found that it is possible to detect whether or not a sound can be pronounced. As will be described later, the presence or absence of dysarthria in a subject can indicate the presence or absence of signs of onset of stroke in the subject. Therefore, it is possible to detect whether or not there is a sign of the onset of a stroke in a subject simply by uttering a sound from the subject.
  • articulation compared to the case of imaging the subject's face, articulation that is easy to detect the presence or absence of articulation abnormalities of the subject and the presence or absence of signs of the onset of stroke in the subject without placing a burden on the subject It is possible to provide an anomaly detection method, an articulation anomaly detection device, and a program.
  • a dysarthria detection method includes an acquisition step and a detection step.
  • voice information related to the voice uttered by the subject is acquired.
  • the detection step the speech information obtained in the acquisition step is input to a detection model machine-learned to output information about the presence or absence of articulation abnormalities with speech as input. Based on the output result obtained, The presence or absence of dysarthria of the subject is detected.
  • the audio information may include a specific sound emitted by the subject moving the tongue in a predetermined pattern.
  • the specific sound may be a popping sound.
  • the audio information may include a phrase in which the specific sound and the plosive sound are consecutive.
  • the speech information may include a plurality of the phrases.
  • the articulatory abnormality detection method according to an aspect of the present disclosure may further include a segmentation step of segmenting the plurality of phrases from the speech information acquired in the acquisition step. Further, in the detection step, each of the plurality of phrases segmented in the segmentation step may be input to the detection model.
  • the plurality of phrases in the segmentation step, may be segmented based on an RMS (Root Mean Square) envelope or spectrogram as the speech information.
  • RMS Root Mean Square
  • features capable of distinguishing multiple phrases are likely to appear in the RMS envelope or spectrogram, so there is an advantage that an improvement in the accuracy of classifying multiple phrases can be expected.
  • the acquisition step a segmentation model machine-learned so as to segment the plurality of phrases by inputting speech including the plurality of phrases
  • the acquisition step The plurality of phrases may be classified by inputting the voice information acquired in .
  • a deep neural network (DNN) model can be expected to improve the accuracy of the segmentation model.
  • the segmentation model can be expected to improve accuracy by using the RMS envelope as the speech information.
  • the detection model may be an autoencoder machine-learned so as to restore the same voice as the input voice of a healthy person.
  • presence or absence of articulatory abnormality of the subject may be detected based on a degree of divergence between the speech information input to the detection model and the speech information output from the detection model.
  • the articulatory abnormality detection method may further include an output step of outputting detection information regarding the presence or absence of the articulatory abnormality of the subject detected in the detection step.
  • the dysarthria detection method may further include, prior to the acquisition step, reproducing a sample voice of the voice uttered by the subject to the subject.
  • the subject can try to reproduce the sample voice, so there is an advantage that the subject's voice can be easily obtained compared to the case where a character string is displayed and the subject is urged to speak. .
  • it is possible to detect the presence or absence of articulation abnormalities in the subject, including whether the subject can reproduce and utter the sample voice, and the accuracy of detecting the presence or absence of articulation abnormalities in the subject. There is an advantage that improvement can be expected.
  • a program according to an aspect of the present disclosure causes one or more processors to execute the articulation abnormality detection method described above.
  • an articulation abnormality detection device includes an acquisition unit and a detection unit.
  • the acquisition unit acquires voice information related to voice uttered by a subject.
  • the detection unit inputs the speech information acquired by the acquisition unit to a detection model machine-learned so as to output information about the presence or absence of articulation abnormalities based on the output result obtained by inputting, The presence or absence of dysarthria of the subject is detected.
  • these general or specific aspects may be realized by a system, method, apparatus, integrated circuit, computer program, or a recording medium such as a computer-readable CD-ROM. It may be realized by any combination of circuits, computer programs and recording media.
  • FIG. 1 is an explanatory diagram of the characteristics of stroke patients. Stroke as used herein may include cerebral infarction such as lacunar cerebral infarction or atherothrombotic cerebral infarction, or cerebral hemorrhage. FIG. 1 shows the results of estimating abnormal regions by hearing speech-language-hearing therapists about one hundred and several tens of sounds uttered by several tens of stroke patients. In FIG.
  • the horizontal axis represents the locations where oral paralysis was diagnosed, and the vertical axis represents the number of subjects.
  • stroke patients often have paralysis in their oral cavity.
  • stroke patients are considered to have significant tongue paralysis such as front tongue, middle tongue, or back tongue.
  • test phrase for example, a phrase that is difficult to utter when the subject's oral cavity is paralyzed, such as "both lapis lazuli and glass shine when illuminated" is adopted.
  • FIG. 2 is a diagram showing an example of a speech waveform of a healthy person and a spectrogram obtained from the speech waveform.
  • FIG. 3 is a diagram showing an example of a speech waveform of a stroke patient and a spectrogram obtained from the speech waveform.
  • the upper area A1 represents the speech waveform
  • the lower area A2 represents the spectrogram.
  • the spectrogram referred to here represents the frequency spectrum of the subject's voice over time.
  • the audio waveforms shown in FIGS. 2 and 3 are waveforms obtained by having the subject vocalize the test phrase "Both lapis lazuli and glass shine when illuminated" and then collecting the audio.
  • the test phrase "Both lapis lazuli and glass shine when illuminated” contains consonants in the Japanese la line, and such consonants are bullet sounds.
  • a pop here is a consonant sound produced by making momentary contact with the articulators in the oral cavity, for example a sound produced by the tongue touching the hard palate for a very short time. That is, the popping sound is a specific sound emitted by the subject moving his tongue in a predetermined pattern. Such specific sounds are difficult to pronounce correctly if the tongue is paralyzed.
  • the white arrow indicates the position where the consonant of the la line, that is, the bullet sound, is pronounced in the test phrase.
  • a dark linear region B1 appears in the vertical direction at the position where the popping sound is produced. In this way, when the bullet sound is correctly pronounced, the power drops for a very short period of time (for example, 20 ms or less).
  • the voice uttered by the subject has features that can be used to detect whether the subject's tongue is paralyzed, in other words, whether the subject has articulation abnormalities. Therefore, by analyzing the characteristics appearing in the voice uttered by the subject, for example, by analyzing whether or not the bullet sound is pronounced correctly, the presence or absence of the subject's dysarthria, and furthermore, the presence or absence of a sign of the onset of stroke in the subject can be detected. Is possible.
  • FIG. 4 is a block diagram showing an example of the configuration of the articulation abnormality detection device 100 according to the embodiment.
  • the dysarthria detection device 100 is installed in an information terminal such as a smart phone or a tablet terminal.
  • the dysarthria detection apparatus 100 may be installed in a desktop or laptop personal computer.
  • the articulation abnormality detection device 100 is also called an "articulation abnormality detection system 100".
  • the malarticulation detection device 100 includes an acquisition unit 11, a division unit 12, a detection unit 13, an output unit 14, a reproduction unit 15, and a storage unit 16.
  • the storage unit 16 also stores a segmentation model 17 and a detection model 18 .
  • the acquisition unit 11, the segmentation unit 12, the detection unit 13, the output unit 14, and the reproduction unit 15 are all implemented by a processor installed in an information terminal or a personal computer executing a predetermined program. be.
  • the acquisition unit 11 acquires voice information related to the voice uttered by the subject.
  • the acquisition unit 11 is the entity that executes the acquisition step in the articulation abnormality detection method.
  • the acquisition unit 11 acquires voice information by, for example, picking up the voice uttered by the subject using a microphone mounted on an information terminal and converting the picked-up voice into an electric signal.
  • the voice information may include a voice waveform of voice uttered by the subject, or information obtained by executing appropriate information processing on the voice waveform.
  • speech information may include an RMS (Root Mean Square) envelope obtained from a speech waveform, or a spectrogram (including mel-spectrogram) of the speech waveform.
  • the acquisition unit 11 acquires voice information including multiple phrases by prompting the subject to vocalize a test phrase including multiple phrases.
  • the phrase here is a phrase in which a specific sound, such as a popping sound, produced by the subject moving the tongue in a predetermined pattern, and a plosive sound are continuous.
  • the phrase is "dere”. That is, in the embodiment, the subject is prompted to utter a test phrase "derederedere" which repeats the above phrase a plurality of times.
  • the audio information includes specific sounds produced by the subject's tongue moving in a predetermined pattern.
  • the specific sound is a bullet sound.
  • the audio information includes a phrase in which a specific sound and a plosive sound are consecutive.
  • the audio information includes multiple phrases.
  • the test phrase includes a specific sound such as a popping sound
  • a specific sound such as a popping sound
  • a plosive is a sound (consonant) that is produced when the air is stopped by closing the space between the lips, between the tip of the tongue and the upper gums, or between the back of the tongue and the soft palate, and then suddenly breaks the closure. is.
  • a plosive sound is easier to pronounce even if the tongue is paralyzed compared to a popping sound, and since the power temporarily decreases during pronunciation, it is relatively easy to identify the position in the voice uttered by the subject. is the sound.
  • FIG. 5 is a diagram showing an example of a speech waveform of an able-bodied person who uttered a plurality of phrases and a spectrogram obtained from the speech waveform.
  • FIG. 6 is a diagram showing an example of a speech waveform of a stroke patient who generated a plurality of phrases and a spectrogram obtained from the speech waveform.
  • FIG. 7 is a diagram showing another example of a speech waveform of a stroke patient who generated a plurality of phrases and a spectrogram obtained from the speech waveform.
  • the upper area A1 represents the speech waveform
  • the lower area A2 represents the spectrogram.
  • the speech waveforms shown in FIGS. 5 to 7 are waveforms obtained by having the subject vocalize the test phrase "dere dere dere" and then collecting the sound.
  • the white arrow indicates the position where the "re", that is, the bullet sound, is pronounced in the test phrase.
  • the sound of the sound is correctly pronounced at the position where the sound of the sound is pronounced.
  • a linear region B2 appears.
  • FIG. 6 in the spectrogram obtained from the speech waveform of the stroke patient, for example, as shown in region C2, at the position where the popping sound should be pronounced, there is a vertical drop in power for a very short time. There are no long dark streaks appearing in the image, and the bullet sounds are not pronounced correctly. Also, in the spectrogram obtained from the speech waveform of another stroke patient shown in FIG. After all, the bullet sound is not pronounced correctly.
  • FIG. 8 is a diagram showing an example of RMS envelopes obtained from speech waveforms of healthy subjects and stroke patients who generated a plurality of phrases.
  • FIG. 8(a) shows the RMS envelope obtained from the speech waveform of a healthy subject.
  • (b), (c), and (d) of FIG. 8 all show RMS envelopes obtained from speech waveforms of stroke patients.
  • Each of the RMS envelopes of (a), (b), (c), and (d) in FIG. 8 is a voice obtained by having the subject generate the test phrase "derederedere" and collecting the voice. It is obtained by executing appropriate information processing on the waveform.
  • the segmentation unit 12 segments a plurality of phrases from the voice information acquired by the acquisition unit 11 (acquisition step).
  • the segmentation unit 12 is the entity that executes the segmentation step in the articulation abnormality detection method.
  • the test phrase uttered by the subject includes a plurality of phrases because it is the voice "derederedere" in which the phrase "dele” is repeated multiple times as described above.
  • the division unit 12 divides the plurality of phrases “dere dere dere" into the phrase "dere” one by one, thereby making it easier for the detection unit 13, which will be described later, to handle voice information.
  • the segmentation unit 12 segments a plurality of phrases based on the RMS envelope or spectrogram (here, mel-spectrogram) as speech information.
  • the segmentation unit 12 segments a plurality of phrases by inputting the speech information acquired by the acquisition unit 11 (acquisition step) into the segmentation model 17 .
  • the segmentation model 17 is a trained model that has undergone machine learning so as to segment a plurality of phrases by inputting speech including a plurality of phrases.
  • the segmentation model 17 is, for example, a deep neural network (DNN) model, which is a sequence labeling model.
  • the segmented model 17 receives as input an RMS envelope or spectrogram obtained from a speech waveform containing a plurality of phrases, and outputs label data.
  • Label data is a set of binary information indicating whether each frame belongs to a phrase. For example, if the RMS envelope or spectrogram for 100 frames is obtained from the speech waveform, the label data will be a set of binary information for 100 frames.
  • the segmentation unit 12 generates and outputs segmentation information based on the label data output from the segmentation model 17 . For example, if the label data is "11 . Therefore, the segmentation unit 12 generates segmentation information including the start position and end position of each of the plurality of phrases based on the label data.
  • FIG. 9 is a diagram showing an example of a learning phase for the segmentation model 17 of the articulation abnormality detection device 100 according to the embodiment.
  • the acquiring unit 11 acquires an RMS envelope or a mel-spectrogram as speech information from the speech waveform by executing appropriate information processing on the picked-up speech waveform.
  • the example shown in FIG. 9 illustrates an example of a mel spectrogram.
  • the number of dimensions here indicates the power resolution along the frequency axis.
  • the number of frames referred to here indicates the number of frames obtained by cutting out the voice waveform for each unit time.
  • the speech information acquired by the acquisition unit 11 is input to the segmentation model 17 for which machine learning has not yet been completed (hereinafter referred to as "incomplete segmentation model 17").
  • the incomplete partitioned model 17 outputs label data.
  • This label data has the number of dimensions of "1" and the number of frames of "p".
  • the label data output by the incomplete segmentation model 17 and the correct data are input to a loss function (here, a multi-class cross entropy error (Categorical Cross Entropy Error) function), and the output of the loss function is the minimum value.
  • the incomplete piecewise model 17 is machine-learned by supervised learning by executing the error backpropagation so that The correct answer data is label data created in advance from speech waveforms obtained by having healthy subjects vocalize test phrases.
  • the correct data has the number of dimensions of "1" and the number of frames of "p", like the label data output by the incomplete segmentation model 17.
  • FIG. 10 is a diagram showing an example of an inference phase using the segmentation model 17 of the articulation abnormality detection device 100 according to the embodiment.
  • the acquiring unit 11 acquires an RMS envelope or a mel-spectrogram as speech information from the speech waveform by executing appropriate information processing on the picked-up speech waveform.
  • the example shown in FIG. 10 illustrates an example of a mel-spectrogram. Note that the number of frames of the RMS envelope and mel-spectrogram are the same as in the learning phase. Also, the number of dimensions of the RMS envelope and mel-spectrogram are the same as in the learning phase.
  • the segmentation unit 12 inputs the speech information acquired by the acquisition unit 11 to the segmentation model 17 .
  • the segmented model 17 outputs label data.
  • the segmentation unit 12 Based on the label data output by the segmentation model 17, the segmentation unit 12 generates segmentation information including the start position and end position of each of the plurality of phrases.
  • the classification information generated by the classification unit 12 is used by the detection unit 13, which will be described later.
  • the detection unit 13 detects the presence or absence of dysarthria of the subject based on the output result obtained by inputting the speech information acquired by the acquisition unit 11 (acquisition step) into the detection model 18 .
  • the detection unit 13 is the entity that executes the detection step in the articulation abnormality detection method.
  • the detection unit 13 inputs each of the plurality of phrases segmented by the segmentation unit 12 (segmentation step) into the detection model 18 . That is, in the embodiment, the voice information acquired by the acquisition unit 11 (acquisition step) is not directly input to the detection model 18, but the segmented phrases are indirectly used as voice information in the detection model. 18.
  • the detection model 18 is a machine-learned model that outputs information on the presence or absence of articulation abnormalities with speech as input.
  • the detection model 18 is, for example, a convolutional neural network (CNN) model, which is an autoencoder model machine-learned to restore the same voice as the input healthy person's voice.
  • CNN convolutional neural network
  • the detection model 18 receives the RMS envelope or mel-spectrogram of each of the multiple phrases segmented by the segmentation unit 12, attempts to restore them, and outputs the RMS envelope or mel-spectrogram corresponding to each of the multiple phrases. do.
  • the detection unit 13 detects whether or not the subject has articulatory abnormalities based on the degree of divergence between the speech information input to the detection model 18 and the speech information output from the detection model 18 .
  • the degree of divergence is relatively small.
  • the detection model 18 cannot restore this speech information and outputs speech information different from the input speech information. will do. In this case, the degree of divergence is relatively large.
  • the detection unit 13 generates detection information regarding the presence or absence of dysarthria of the subject based on the degree of divergence between the input data input to the detection model 18 and the output data output from the detection model 18 . For example, the detection unit 13 calculates the mean squared error between the input data input to the detection model 18 and the output data output from the detection model 18 . Then, the detection unit 13 detects that the subject has an articulatory disorder when the calculated mean square error exceeds the threshold, and detects that the subject does not have an articulatory abnormality and is a healthy person when the calculated mean square error is equal to or less than the threshold. To detect.
  • FIG. 11 is a diagram showing an example of a learning phase for the detection model 18 of the dysarthria detection device 100 according to the embodiment.
  • the acquiring unit 11 acquires a mel-spectrogram as speech information from the speech waveform by executing appropriate information processing on the picked-up speech waveform.
  • the mel-spectrogram obtained from the speech waveform has the number of dimensions " ⁇ " ( ⁇ is a natural number and ⁇ ) and the number of frames is "q" (q is a natural number and q ⁇ p).
  • the detecting unit 13 classifies the speech information acquired by the acquiring unit 11 into a plurality of phrases by referring to the classifying information output by the classifying unit 12, thereby classifying divided data composed only of a plurality of phrases. to generate
  • the number of dimensions of the segmented data is " ⁇ ", and the number of frames of the segmented data is "r" (r is a natural number and r ⁇ q).
  • the segmented data generated here since the lengths of a plurality of phrases are uneven, the segmented data is hereinafter referred to as "unshaped segmented data”.
  • the segmented data is hereinafter referred to as "unshaped segmented data”.
  • the resized partitioned data is simply referred to as "partitioned data”.
  • the segmented data has the number of dimensions " ⁇ " and the number of frames "r'", like the unshaped segmented data.
  • the segmented data is input to the detection model 18 for which machine learning has not yet been completed (hereinafter referred to as "incomplete detection model 18").
  • the incomplete detection model 18 outputs restored data that attempts to restore the input segmented data.
  • This restored data has the number of dimensions " ⁇ ” and the number of frames "r'" in the same manner as the segmented data.
  • the segmented data and the restored data output by the incomplete detection model 18 are input to the loss function (here, the mean squared error function), and the error backpropagation is performed so that the output of the loss function becomes the minimum value.
  • the loss function here, the mean squared error function
  • FIG. 12 is a diagram showing an example of an inference phase using the detection model 18 of the articulation abnormality detection device 100 according to the embodiment.
  • the acquiring unit 11 acquires a mel-spectrogram as speech information from the speech waveform by executing appropriate information processing on the picked-up speech waveform.
  • the example shown in FIG. 12 illustrates an example of a mel-spectrogram. Note that the number of dimensions and the number of frames of the mel-spectrogram are the same as in the learning phase.
  • the detection unit 13 generates unshaped segmented data by segmenting the speech information acquired by the acquisition unit 11 into a plurality of phrases by referring to segmentation information output by the segmentation unit 12 .
  • the detection unit 13 generates segmented data by resizing a plurality of phrases included in segmented data.
  • the detection unit 13 inputs the generated segmented data to the detection model 18 .
  • the detection model 18 outputs restored data.
  • the detection unit 13 calculates the mean square error between the segmented data input to the detection model 18 and the restored data output from the detection model 18, and compares the calculated mean square error with a threshold to determine whether the subject generates detection information about the presence or absence of dysarthria of The detection information generated by the detection unit 13 is used by the output unit 14, which will be described later.
  • the mel-spectrogram obtained from the speech waveform is used as speech information in both the learning phase of the detection model 18 and the inference phase using the detection model 18.
  • An RMS envelope may be used as audio information.
  • the detection unit 13 selects part of the segmented data as the detection model 18 by, for example, excluding the last phrase among a plurality of phrases included in the segmented data. can be entered in This is because the subject may not pronounce the test phrase reliably to the end, in which case the final phrase is noise to the detection model 18 .
  • the output unit 14 outputs detection information regarding the presence or absence of dysarthria of the subject detected by the detection unit 13 (detection step).
  • the output unit 14 is the entity that executes the output step in the articulation abnormality detection method.
  • the detection information may include information indicating whether the subject has dysarthria.
  • the detection information includes information indicating whether or not there is a sign of onset of stroke in the subject, which is linked to the presence or absence of dysarthria in the subject.
  • the output unit 14 outputs the detection information by displaying, for example, a character string or an image indicating the detection information on the display of the information terminal.
  • the reproduction unit 15 Before the acquisition unit 11 acquires the voice information (before the acquisition step), the reproduction unit 15 reproduces a sample voice of the voice uttered by the subject to the subject.
  • the reproduction unit 15 is the main body that executes the reproduction step in the articulation abnormality detection method.
  • the sample voice is, for example, a machine voice, and is a voice obtained by reading out a test phrase at a predetermined volume and a predetermined rhythm.
  • the reproducing unit 15 reproduces the sample voice from the speaker mounted on the information terminal, for example, when the subject performs a predetermined operation on the information terminal as a trigger.
  • the storage unit 16 is a storage device that stores information (computer programs, etc.) necessary for the acquisition unit 11, the division unit 12, the detection unit 13, the output unit 14, and the reproduction unit 15 to perform various processes.
  • the storage unit 16 is realized by, for example, a semiconductor memory, but it is not particularly limited, and known electronic information storage means can be used.
  • the storage unit 16 stores a segmentation model 17 used by the segmentation unit 12 and a detection model 18 used by the detection unit 13 .
  • FIG. 13 is a flow chart showing an operation example of the dysarthria detecting device 100 according to the embodiment.
  • FIG. 14 is a diagram showing an example of an outline of the articulation abnormality detection device 100 and the articulation abnormality detection method according to the embodiment.
  • FIG. 15 is a diagram showing a specific example of the operation of the dysarthria detection device 100 according to the embodiment.
  • the segmentation model 17 and the detection model 18 are both machine-learned in advance by the method already described.
  • Subject 2 has had a stroke in the past and is currently a mildly ill patient who has not completely recovered from the stroke.
  • subject 2 may be a person who has never had a stroke in the past.
  • FIG. (a) to (d) of FIG. 15 all represent the execution flow of the application "cerebral stroke recurrence checker" on the information terminal 3.
  • FIG. (a) of FIG. 15 shows an image displayed on the display 31 of the information terminal 3 when the application is activated. At the center of the display 31, an icon 41 including a character string "check by word” is displayed. When the subject 2 performs an operation to select the icon 41 by, for example, touching the icon 41 with a finger, the process proceeds to the flow shown in FIG. 15(b).
  • the display 31 of the information terminal 3 shows a character string M1 that prompts the subject 2 to pronounce the test phrase "Please speak as follows” and "dere dere dere dere dere dere dere dere dere dere dere dere dere". is displayed. Further, on the display 31, an icon 42 including the character string "listen to the model” and an icon 43 including the character string "start checking" are displayed together with the character strings M1 and M2.
  • the operation of subject 2 to select icon 42 corresponds to the "playback trigger" shown in FIG. That is, when the subject 2 performs an operation to select the icon 42, in other words, when there is a playback trigger (S1: Yes), the playback unit 15 (playback step) plays back the sample voice (S2).
  • the timing of displaying the icon 42 on the display 31 is not limited to before acquiring the audio information, and may be after acquiring the audio information.
  • the icon 42 may be displayed on the display 31 when the test phrase of the subject 2 cannot be detected for some reason such as the volume of the voice uttered by the subject 2 is low.
  • the icon 42 may be displayed on the display 31 when the process of classifying a plurality of phrases from the voice information in step S4 described later could not be executed. Further, for example, the icon 42 may be displayed on the display 31 when the process of detecting the presence or absence of articulation abnormalities in step S5, which will be described later, could not be executed.
  • the subject 2 If the subject 2 does not perform the operation of selecting the icon 42 (S2: No), or after performing the operation of selecting the icon 42, the subject 2 performs the operation of selecting the icon 43.
  • the process proceeds to the flow shown in (c) of 15.
  • the icon 43 may accept an operation by the subject 2 (that is, become active) after the subject 2 performs an operation to select the icon 42 and reproduces the sample voice. In this case, it is not possible to shift to the flow shown in FIG. 15(c) until the subject 2 hears the sample voice.
  • the icon 43 is displayed in gray, for example, to indicate that it is inactive until the sample sound is reproduced, and is displayed, for example, in white after the sample sound is reproduced. may be displayed in a manner indicating that it is active.
  • the display 31 of the information terminal 3 continues to display the character strings M1 and M2. Further, the display 31 displays a sub-image 5 indicating that the test phrase uttered by the subject 2 is being recorded, and an icon 44 including the character string "judgment” together with the character strings M1 and M2.
  • the sub-image 5 displays a character string “Recording” and a voice waveform picked up by the microphone of the information terminal 3 . That is, in the flow shown in (c) of FIG. 15, the acquisition unit 11 (acquisition step) acquires voice information (S3).
  • the segmentation unit 12 segmentation step
  • the detection unit 13 inputs each of the plurality of phrases classified by the division unit 12 (classification step) into the detection model 18, thereby detecting the presence or absence of articulation abnormalities in the subject 2 (S5 ).
  • the output unit 14 outputs detection information regarding the presence/absence of the articulation abnormality of the subject 2 detected by the detection unit 13 (detection step) (S6).
  • the detected information is displayed on the display 31 of the information terminal 3 as a character string M3.
  • the detected information is "there may be a recurrence of stroke. Please consult a specialist.” recommended.” is displayed. If the subject 2 has no dysarthria, in other words, if the subject 2 has no sign of the onset of stroke, a character string such as "No particular abnormality" is displayed on the display 31.
  • FIG. 16 is a diagram showing another specific example of the operation of the dysarthria detection device 100 according to the embodiment.
  • the detection information is displayed on the display 31 as the character string M3 and the first graph 6.
  • the first graph 6 represents the RMS envelope obtained from the speech waveform of the subject 2, and the failure section 61 where the subject 2 failed to utter the phrase correctly (in other words, articulation abnormalities were recognized). contains. By looking at the first graph 6, the subject 2 can grasp which phrase he/she could not pronounce correctly.
  • the detection information is displayed on the display 31 as a character string M3, the first graph 6, and a character string M4 reading "The failure rate is 38%.”
  • the character string M4 presents the ratio (that is, the failure rate) of the failure section 61 to the total section in which the subject 2 uttered the voice. By looking at the character string M4, the subject 2 can grasp how likely the stroke is to recur.
  • the detected information is displayed on the display 31 as a character string M3 and a second graph 7.
  • a second graph 7 is a bar graph representing the failure rate in chronological order.
  • the second graph 7 shows the results of executing the "cerebral stroke recurrence checker" every day during the period from August 1st to August 11th.
  • a horizontal line 71 in the second graph 7 represents a threshold, and when the failure rate exceeds the threshold, it indicates that there is a high possibility of recurrent stroke. By looking at the second graph 7, the subject 2 can grasp how likely the stroke is to recur in chronological order.
  • the dysarthria detection device 100 and the dysarthria detection method according to the embodiment can determine the presence or absence of dysarthria from the voice uttered by the subject 2, and further, the presence or absence of dysarthria, without relying on a specialist such as a doctor or a speech pathologist. It is possible to detect the presence or absence of signs of the onset of Therefore, by using the dysarthria detection device 100 and the dysarthria detection method according to the embodiment, if there is a sign of the onset of stroke in the subject 2, the subject 2 is promptly urged to see a doctor for early treatment. It can be expected to prevent aggravation due to
  • the articulation abnormality detection method includes the acquisition step (S3) and the detection step (S5).
  • Acquisition step (S3) acquires voice information related to the voice uttered by the subject.
  • the detection step (S5) the output result obtained by inputting the speech information acquired in the acquisition step (S5) to the detection model 18 machine-learned so as to output information about the presence or absence of articulation abnormalities with speech as input. The presence or absence of dysarthria of the subject is detected based on.
  • the voice information includes a specific sound emitted by the subject moving the tongue in a predetermined pattern.
  • the specific sound is a popping sound.
  • the speech information includes a phrase in which the specific sound and the plosive sound are consecutive.
  • the voice information includes a plurality of phrases.
  • the articulatory abnormality detection method according to the embodiment further includes a segmentation step (S4) of segmenting a plurality of phrases from the speech information acquired in the acquisition step (S3). Also, in the detection step (S5), each of the plurality of phrases segmented in the segmentation step (S4) is input to the detection model 18.
  • a plurality of phrases are segmented based on an RMS (Root Mean Square) envelope or spectrogram as speech information.
  • RMS Root Mean Square
  • features capable of distinguishing multiple phrases are likely to appear in the RMS envelope or spectrogram, so there is an advantage that an improvement in the accuracy of classifying multiple phrases can be expected.
  • the segmentation model 17 machine-learned so as to segment a plurality of phrases by inputting a speech including a plurality of phrases is provided in the acquisition step (S3 ) to classify multiple phrases.
  • the detection model 18 is an autoencoder machine-learned so as to restore the same voice as the input voice of a healthy person. Further, in the detection step (S5), based on the degree of divergence between the speech information input to the detection model 18 and the speech information output from the detection model 18, the presence or absence of dysarthria of the subject is detected.
  • the articulatory abnormality detection method further includes an output step (S6) of outputting detection information regarding the presence or absence of articulatory abnormality of the subject detected in the detection step (S5).
  • the articulation abnormality detection method further includes a reproduction step (S2) of reproducing a sample voice of the voice uttered by the subject to the subject before the acquisition step (S3).
  • the malarticulation detection device 100 includes an acquisition unit 11 and a detection unit 13 .
  • Acquisition unit 11 acquires voice information related to voice uttered by a subject.
  • the detection unit 13 inputs the speech information acquired by the acquisition unit 11 to the detection model 18 machine-learned so as to output information about the presence or absence of articulation abnormalities based on the output result obtained by inputting the speech information. Detects the presence or absence of dysarthria of the subject.
  • the segmentation unit 12 uses the segmentation model 17 to segment a plurality of phrases, but is not limited to this.
  • the segmentation unit 12 may segment a plurality of phrases so as to segment them at locations where the power in the RMS envelope obtained from the voice waveform of the subject is equal to or less than a predetermined value. In this case, the partition model 17 is unnecessary.
  • a plurality of phrases are used as test phrases to be uttered by the subject (that is, voice information acquired by the acquisition unit 11), but a single phrase may be used.
  • the division unit 12 (dividing step) is unnecessary.
  • test phrase to be uttered by the subject that is, the voice information acquired by the acquisition unit 11. It may be a continuous phrase. Moreover, the inspection phrase is not limited to a phrase in which a plosive sound and a popping sound are consecutive, and may be a phrase composed only of a popping sound, for example. Also, depending on the learning method of the detection model 18, the test phrase may not include a popping sound, or may not include a specific sound emitted by moving the tongue in a predetermined pattern. good.
  • the dysarthria detecting device 100 is mounted on the information terminal, but it is not limited to this.
  • the dysarthria detecting device 100 may be installed in a server device.
  • the server device may be a cloud server or a local server.
  • the abnormal articulation detection apparatus 100 is implemented by the processor installed in the server device implementing a predetermined program.
  • the subject may access the server apparatus through a network or the like using an information terminal.
  • the dysarthria detection apparatus 100 may be configured such that a part of the configuration is installed in an information terminal and the rest of the configuration is installed in a server device.
  • the articulation abnormality detection device 100 may be stored in a device that is a dedicated terminal having an articulation abnormality detection function instead of a general-purpose information terminal such as a smartphone or a tablet terminal.
  • the abnormal articulation detecting device 100 is realized by executing a predetermined program by a processor installed in the device used as the dedicated terminal.
  • some or all of the components of the dysarthria detection device 100 may be configured from one system LSI (Large Scale Integration).
  • a system LSI is an ultra-multifunctional LSI manufactured by integrating multiple components on a single chip. Specifically, it includes a microprocessor, ROM (Read Only Memory), RAM (Random Access Memory), etc.
  • a computer system comprising A computer program is stored in the ROM. The system LSI achieves its functions by the microprocessor operating according to the computer program.
  • system LSI may also be called IC (Integrated Circuit), LSI, super LSI, or ultra LSI, depending on the degree of integration.
  • the method of circuit integration is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • An FPGA Field Programmable Gate Array
  • a reconfigurable processor that can reconfigure the connections and settings of the circuit cells inside the LSI may be used.
  • one aspect of the present disclosure may be a computer program that causes a computer to execute each characteristic step included in the dysarthria detection method.
  • one aspect of the present disclosure may be a computer-readable non-transitory recording medium on which such a computer program is recorded. That is, the program may cause one or more processors to execute the above articulation abnormality detection method.
  • the present disclosure can be used, for example, as a method for determining the presence or absence of signs of onset of stroke.
  • REFERENCE SIGNS LIST 100 articulatory abnormality detection device 11 acquisition unit 12 segmentation unit 13 detection unit 14 output unit 15 playback unit 16 storage unit 17 segmentation model 18 detection model 2 test subject 3 information terminal 31 display 41 to 44 icon 5 sub-image 6 first graph 61 failure section 7 Second graph 71 Horizontal lines A1, A2, B1, B2, C1-C3 Areas M1-M4 Character strings

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Evolutionary Computation (AREA)
  • Artificial Intelligence (AREA)
  • Spectroscopy & Molecular Physics (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

構音異常検出方法は、取得ステップ(S3)と、検出ステップ(S5)と、を含む。取得ステップ(S3)では、被験者の発する音声に関する音声情報を取得する。検出ステップ(S5)では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、取得ステップ(S3)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。

Description

構音異常検出方法、構音異常検出装置、及びプログラム
 本開示は、被験者の構音異常を検出するための構音異常検出方法、構音異常検出装置、及びプログラムに関する。
 特許文献1には、先行脳卒中リスク指標の検出システムが開示されている。この検出システムでは、ビデオカメラは、脳卒中リスク指標を有するかについて評価すべき被検者の顔のビデオをキャプチャする。また、この検出システムでは、プロセッサは、ビデオカメラによってキャプチャされる被検者の顔のビデオに関連付けられる処理された画像データを分析する。そして、この検出システムでは、プロセッサは、キャプチャされた画像データが頸動脈狭窄の先行指標を提示するかどうかを判断する。
特表2016-522730号公報
 本開示は、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供する。
 本開示の一態様に係る構音異常検出方法は、取得ステップと、検出ステップと、を含む。前記取得ステップでは、被験者の発する音声に関する音声情報を取得する。前記検出ステップでは、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
 本開示によれば、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
図1は、脳卒中患者の特性についての説明図である。 図2は、健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。 図3は、脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。 図4は、実施の形態に係る構音異常検出装置の構成の一例を示すブロック図である。 図5は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。 図6は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの一例を示す図である。 図7は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたメルスペクトログラムの他の一例を示す図である。 図8は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたRMSエンベロープの一例を示す図である。 図9は、実施の形態に係る構音異常検出装置の区分モデルについて、学習フェーズの一例を示す図である。 図10は、実施の形態に係る構音異常検出装置の区分モデルを用いた推論フェーズの一例を示す図である。 図11は、実施の形態に係る構音異常検出装置の検出モデルについて、学習フェーズの一例を示す図である。 図12は、実施の形態に係る構音異常検出装置の検出モデルを用いた推論フェーズの一例を示す図である。 図13は、実施の形態に係る構音異常検出装置の動作例を示すフローチャートである。 図14は、実施の形態に係る構音異常検出装置及び構音異常検出方法の概要の一例を示す図である。 図15は、実施の形態に係る構音異常検出装置の動作の具体例を示す図である。 図16は、実施の形態に係る構音異常検出装置の動作の他の具体例を示す図である。
 (本開示に至った知見)
 従来、被験者の顔を撮像した画像を分析することにより脳卒中の発症のリスクを検知する技術が知られており、例えば特許文献1に開示されている。既に述べたように、特許文献1に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像する。そして、この検出システムでは、被験者の顔のビデオに関連付けられる処理された画像データを分析することにより、撮像された画像データが脳卒中の1つのリスク要因である頸動脈狭窄の先行指標を提示するかどうかを判断する。
 しかしながら、特許文献1に開示されている検出システムでは、被験者の顔のビデオをビデオカメラで撮像しなければならず、カメラ等で撮像されることに抵抗を感じる被験者にとっては負担が大きくなりがちである、という課題がある。
 また、特許文献1に開示されている検出システムでは、被験者の顔を撮像した画像データを分析することから、画像データにおいて被験者の顔が適切な位置、又は適切な角度にあることが重要となる。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合、適切な画像データを得られるように被験者が幾らか努力しなければならず、被験者にとっては負担が大きくなりがちである、という課題がある。
 そこで、本願の発明者は、上記課題を鑑み鋭意検討した結果、被験者の発する音声から被験者の構音異常の有無、言い換えれば被験者が口から言葉を発する際に、その言葉の要素である音韻を正しく発音できるか否かを検出可能であることを見い出した。後述するように、被験者の構音異常の有無は、被験者の脳卒中の発症の予兆の有無を示し得る。このため、被験者が音声を発するだけで、被験者の脳卒中の発症の予兆の有無を検出することができる。
 したがって、本開示によれば、被験者の顔を撮像する場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出しやすい構音異常検出方法、構音異常検出装置、及びプログラムを提供することができる。
 (本開示の概要)
 本開示の一態様の概要は、以下の通りである。
 本開示の一態様に係る構音異常検出方法は、取得ステップと、検出ステップと、を含む。前記取得ステップでは、被験者の発する音声に関する音声情報を取得する。前記検出ステップでは、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいてもよい。
 これによれば、構音異常の有無の指標となり得る舌の麻痺度合いを検出しやすいことから、音声情報が特定音を含まない場合と比較して、被験者の構音異常の有無を検出しやすくなる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法では、前記特定音は、弾音であってもよい。
 これによれば、舌が麻痺している場合に発しにくい弾音を特定音に含めることで、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記特定音と破裂音とが連続するフレーズを含んでいてもよい。
 これによれば、被験者の発する音声において位置を特定しやすい破裂音を特定音に連続させることで、被験者の発する音声における特定音の位置を特定しやすくなることから、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法では、前記音声情報は、前記フレーズを複数含んでいてもよい。また、本開示の一態様に係る構音異常検出方法は、前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含んでいてもよい。また、前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力されてもよい。
 これによれば、単一のフレーズから被験者の構音異常の有無を検出する場合と比較して、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分してもよい。
 これによれば、RMSエンベロープ又はスペクトログラムに複数のフレーズを区別し得る特徴が現れやすいことから、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法において、前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分してもよい。
 これによれば、区分モデルを用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。なお、学習用データが大量である場合、区分モデルは、深層ニューラルネットワーク(Deep Neural Network:DNN)モデルである方が精度の向上が期待できる。また、学習用データが少ない場合、区分モデルは、音声情報としてRMSエンベロープを用いた方が精度の向上が期待できる。
 例えば、本開示の一態様に係る構音異常検出方法では、前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダであってもよい。また、前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出してもよい。
 これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデルを学習する場合と比較して多数の学習用データを準備しやすいので、検出モデルを学習しやすい、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法は、前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含んでいてもよい。
 これによれば、例えば検出情報を被験者に対して出力することで、自身が構音異常を有しているか否かを被験者が把握することができる、という利点がある。
 例えば、本開示の一態様に係る構音異常検出方法は、前記取得ステップの前に、前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含んでいてもよい。
 これによれば、被験者がサンプル音声を再現すべく発声を試みることができるため、文字列を表示して被験者に発声を促す場合と比較して、被験者の音声を取得しやすい、という利点がある。また、これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。
 また、本開示の一態様に係るプログラムは、1以上のプロセッサに、上記の構音異常検出方法を実行させる。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 また、本開示の一態様に係る構音異常検出装置は、取得部と、検出部と、を備える。前記取得部は、被験者の発する音声に関する音声情報を取得する。前記検出部は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 なお、これらの包括的又は具体的な態様は、システム、方法、装置、集積回路、コンピュータプログラム又はコンピュータ読み取り可能なCD-ROM等の記録媒体で実現されてもよく、システム、方法、装置、集積回路、コンピュータプログラム及び記録媒体の任意な組み合わせで実現されてもよい。
 以下、本開示の実施の形態について図面を参照しながら具体的に説明する。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、請求の範囲を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。また、各図は、必ずしも厳密に図示したものではない。各図において、実質的に同一の構成については同一の符号を付し、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 以下、実施の形態について、図面を参照しながら具体的に説明する。
 [1.概要]
 まず、実施の形態に係る構音異常検出装置、及び構音異常検出方法を説明するに当たり、被験者の発する音声に被験者の構音異常の有無を検出し得る特徴が現れるという知見についての概要を説明する。図1は、脳卒中患者の特性についての説明図である。ここでいう脳卒中は、例えばラクナ脳梗塞、若しくはアテローム血栓性脳梗塞等の脳梗塞、又は脳出血等を含み得る。図1は、計数十名の脳卒中患者が発した計百数十の音声について言語聴覚士(Speech-Language-Hearing Therapist)が聞き取りにより異常発生部位の推定を行った結果を示している。図1において、横軸は口腔に麻痺が発生していると診断された箇所、縦軸は被験者の数を表している。図1に示すように、脳卒中患者の口腔には麻痺が発生している場合が多い。特に、脳卒中患者には、前舌、中舌、又は奥舌といった舌の麻痺が顕著に発生している、と考えられる。
 ここで、被験者の口腔に発生している麻痺の箇所を特定するために、被験者に検査フレーズを発声させ、その音声を言語聴覚士が聞き取ることが行われている。検査フレーズとしては、例えば「瑠璃も玻璃も照らせば光る」等の被験者の口腔に麻痺が発生している場合には発声しにくいフレーズが採用される。
 図2は、健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図3は、脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。
 図2及び図3の各々において、上側の領域A1が音声波形を表しており、下側の領域A2がスペクトログラムを表している。ここでいうスペクトログラムは、被験者の音声の周波数スペクトルを経時的に表したものである。また、図2及び図3に示す音声波形は、いずれも被験者に「瑠璃も玻璃も照らせば光る」という検査フレーズを発声させ、その音声を収音することで得た波形である。
 「瑠璃も玻璃も照らせば光る」という検査フレーズには、日本語のラ行の子音が含まれており、このような子音は弾音である。ここでいう弾音は、口腔において調音器官によって瞬間的な接触を作ることで作り出される子音、例えば非常に短い時間だけ舌が硬口蓋に触れることで作り出される音である。つまり、弾音は、被験者が舌を所定のパターンで動かすことで発せられる特定音である。このような特定音は、舌が麻痺していれば正しく発音することは困難である。
 図2及び図3において、白抜きの矢印は、検査フレーズにおいてラ行の子音、つまり弾音が発音される位置を示している。図2に示すように、健常者の音声波形から得られるメルスペクトログラムにおいては、弾音が発音される位置において、縦方向に暗い線状の領域B1が出現している。このように、弾音が正しく発音された場合、ごく短時間(例えば、20ms以下)のパワーの低下が発生する。
 一方、図3に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置に、ごく短時間のパワーの低下が発生しない、つまり縦方向に暗い線状の領域B1が出現しないことがある(領域C1参照)。このように、弾音が発音されるべき位置において弾音が正しく発音されていないのは、脳卒中患者の舌に麻痺が発生しているために、舌が硬口蓋に接触していないことが原因と考えられる。なお、パワーの低下が比較的弱い場合、又はパワーの低下が起こっているがその時間が比較的長い場合においても、弾音が正しく発音されていないと言える。
 上述のように、被験者の発する音声には、被験者の舌に麻痺が発生しているか否か、言い換えれば被験者の構音異常の有無を検出し得る特徴が現れる。したがって、被験者の発する音声に現れる特徴を分析、例えば弾音が正しく発音されているか否かを分析することにより、被験者の構音異常の有無、更には被験者の脳卒中の発症の予兆の有無を検出することが可能である。
 [2.構成]
 次に、実施の形態に係る構音異常検出装置の構成、及び構音異常検出方法について詳細に説明する。図4は、実施の形態に係る構音異常検出装置100の構成の一例を示すブロック図である。実施の形態では、構音異常検出装置100は、スマートフォン、又はタブレット端末等の情報端末に搭載されている。もちろん、構音異常検出装置100は、デスクトップ型又はラップトップ型のパーソナルコンピュータに搭載されていてもよい。なお、構音異常検出装置100は、「構音異常検出システム100」とも呼ばれる。
 図4に示すように、構音異常検出装置100は、取得部11と、区分部12と、検出部13と、出力部14と、再生部15と、記憶部16と、を備えている。また、記憶部16には、区分モデル17と、検出モデル18と、が格納されている。実施の形態では、取得部11、区分部12、検出部13、出力部14、及び再生部15は、いずれも情報端末又はパーソナルコンピュータに搭載されたプロセッサが所定のプログラムを実行することにより実現される。
 取得部11は、被験者の発する音声に関する音声情報を取得する。取得部11は、構音異常検出方法における取得ステップの実行主体である。取得部11は、例えば情報端末に搭載されたマイクロフォンにより被験者の発する音声を収音し、収音した音声を電気信号に変換することで音声情報を取得する。ここで、音声情報は、被験者の発する音声の音声波形、又は音声波形に対して適宜の情報処理を実行することで得られる情報を含み得る。一例として、音声情報は、音声波形から得られるRMS(Root Mean Square:二乗平均平方根)エンベロープ、又は音声波形のスペクトログラム(メルスペクトログラムを含む)を含み得る。
 実施の形態では、被験者に複数のフレーズを含む検査フレーズの発声を促すことにより、取得部11は、複数のフレーズを含む音声情報を取得する。ここでいうフレーズは、例えば弾音等の被験者が舌を所定のパターンで動かすことで発せられる特定音と、破裂音とが連続するフレーズである。実施の形態では、フレーズは「デレ」である。つまり、実施の形態では、被験者に上記フレーズを複数回繰り返す「デレデレデレ…」という検査フレーズの発声を促す。
 このように、実施の形態では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含む。また、実施の形態では、特定音は、弾音である。また、実施の形態では、音声情報は、特定音と破裂音とが連続するフレーズを含む。さらには、実施の形態では、音声情報は、フレーズを複数含んでいる。
 以下、検査フレーズとして「デレデレデレ…」を採用した経緯について説明する。上述のように、検査フレーズに例えば弾音等の特定音が含まれていれば、被験者の発する音声から被験者の構音異常の有無を検出することが可能である。しかしながら、被験者が正しく特定音を発音したか否かを分析するためには、被験者が発する音声において特定音が発音されるべき位置を特定するのが好ましい。というのも、例えば脳卒中患者のように構音異常を有する被験者が検査フレーズを発声した場合、特定音が発音されるべき位置を把握していなければ、特定音を正しく発音できなかったのか、又はそもそも特定音を発音しようとしていなかったのかを判別できないからである。
 そこで、本願の発明者は、被験者が発する音声における位置を比較的特定しやすい破裂音と、特定音とが連続するフレーズを検査フレーズとして採用することを見い出した。破裂音は、両唇の間、舌先と上の歯茎の間、又は奥舌と軟口蓋との間等を閉じて呼気を止めた状態から、その閉鎖を急に破った時に発せられる音(子音)である。破裂音は、弾音と比較して舌が麻痺している場合でも発音が容易であり、かつ、発音時に一時的にパワーが低下することから、被験者が発する音声における位置を比較的特定しやすい音である。
 そして、被験者が発する音声における破裂音の位置が特定できれば、破裂音と連続する特定音の位置も特定することが可能である。実施の形態では、破裂音と特定音とが連続するフレーズとして「デレ」を採用している。
 また、検査フレーズとして単一のフレーズである「デレ」を採用するのではなく、複数のフレーズである「デレデレデレ…」を採用することで、被験者の構音異常の有無を検出する精度の更なる向上を図った。すなわち、単一のフレーズである「デレ」のみを被験者が発声した場合、例えば脳卒中患者のように構音異常を有する被験者が偶然にも特定音を正しく発音する場合もあり得るからである。これに対して、複数のフレーズである「デレデレデレ…」を被験者が発声した場合、少なくとも1以上のフレーズにおいて構音異常を有する被験者が特定音を正しく発音できない確率が高まるため、被験者の構音異常の有無を検出しやすくなることが期待できる。加えて、複数のフレーズを繰り返すことにより舌運動への要求が複雑となり、構音異常がより明確に現れやすくなる。
 図5は、複数のフレーズを発声した健常者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図6は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの一例を示す図である。図7は、複数のフレーズを発生した脳卒中患者の音声波形及び音声波形から得られたスペクトログラムの他の一例を示す図である。
 図5~図7の各々において、上側の領域A1が音声波形を表しており、下側の領域A2がスペクトログラムを表している。また、図5~図7に示す音声波形は、いずれも被験者に「デレデレデレ…」という検査フレーズを発声させ、その音声を収音することで得た波形である。
 図5~図7の各々において、白抜きの矢印は、検査フレーズにおいて「レ」、つまり弾音が発音される位置を示している。図5に示すように、健常者の音声波形から得られるスペクトログラムにおいては、弾音が発音される位置において弾音が正しく発音されているため、ごく短時間のパワーの低下を示す縦方向に暗い線状の領域B2が出現している。一方、図6に示すように、脳卒中患者の音声波形から得られるスペクトログラムにおいては、例えば領域C2に示すように、弾音が発音されるべき位置において、ごく短時間のパワーの低下を示す縦方向に長い暗い線状の領域が現れておらず、弾音が正しく発音されていない。また、図7に示す他の脳卒中患者の音声波形から得られるスペクトログラムにおいても、例えば領域C3に示すように、弾音が発音されるべき位置において、パワー低下が比較的長時間にわたって起こっており、やはり弾音が正しく発音されていない。
 また、構音異常の有無を検出し得る特徴は、音声波形から得られるスペクトログラムだけではなく、音声波形から得られるRMSエンベロープにも発現し得る。図8は、複数のフレーズを発生した健常者及び脳卒中患者の音声波形から得られたRMSエンベロープの一例を示す図である。図8の(a)は、健常者の音声波形から得られたRMSエンベロープを示す。一方、図8の(b)、(c)、(d)は、いずれも脳卒中患者の音声波形から得られたRMSエンベロープを示す。図8の(a)、(b)、(c)、(d)のRMSエンベロープは、いずれも被験者に「デレデレデレ…」という検査フレーズを発生させ、その音声を収音することで得られた音声波形に対して適宜の情報処理を実行して得ている。
 図8の(a)に示すように、健常者の音声波形から得られるRMSエンベロープにおいては、フレーズごとのエンベロープの形状が揃っており、かつ、フレーズごとの中央部において弾音を正しく発音することによるパワーの若干の低下が見られる。一方、図8の(b)に示す脳卒中患者の音声波形から得られるRMSエンベロープにおいては、フレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズごとの中央部において弾音を正しく発音できていないことによるパワーの急峻な低下が見られる。また、図8の(c)に示す他の脳卒中患者の音声波形から得られるRMSエンベロープにおいても、同様にフレーズごとのエンベロープの形状が不揃いである。また、図8の(d)に示す更に他の脳卒中患者の音声波形から得られるRMSエンベロープにおいては、同様にフレーズごとのエンベロープの形状が不揃いであり、かつ、フレーズの間隔も不揃いである。
 上述のように、検査フレーズとして「デレデレデレ…」を採用することにより、音声波形から得られるスペクトログラム及びRMSエンベロープのいずれにおいても、弾音が正しく発音されているか否かを示す特徴が現れやすくなっている。
 区分部12は、取得部11(取得ステップ)で取得した音声情報から複数のフレーズを区分する。区分部12は、構音異常検出方法における区分ステップの実行主体である。具体的には、被験者が発する検査フレーズは、上述のように「デレ」というフレーズを複数回繰り返した「デレデレデレ…」という音声であるため、複数のフレーズを含んでいる。区分部12は、この「デレデレデレ…」という複数のフレーズを、「デレ」というフレーズに1つずつ区分することにより、後述する検出部13で音声情報を取り扱いやすくしている。
 実施の形態では、区分部12(区分ステップ)は、音声情報としてのRMSエンベロープ又はスペクトログラム(ここでは、メルスペクトログラム)に基づいて、複数のフレーズを区分する。また、実施の形態では、区分部12(区分ステップ)は、区分モデル17に、取得部11(取得ステップ)で取得した音声情報を入力することで、複数のフレーズを区分する。区分モデル17は、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された学習済みモデルである。
 具体的には、区分モデル17は、例えば深層ニューラルネットワーク(Deep Neural Network:DNN)モデルであって、シーケンスラベリングモデルである。区分モデル17は、複数のフレーズを含む音声波形から得られたRMSエンベロープ又はスペクトログラムを入力として、ラベルデータを出力する。ラベルデータは、フレームごとにフレーズに属するか否かを示す2値情報の集合である。例えば、音声波形から100フレーム分のRMSエンベロープ又はスペクトログラムを得ている場合、ラベルデータは、100フレーム分の2値情報の集合となる。
 区分部12は、区分モデル17から出力されるラベルデータに基づいて、区分情報を生成して出力する。例えば、ラベルデータが「11…100111…」であれば、「1」の連続するデータがフレーズを表し、「0」が隣り合うフレーズの区切りを表す。したがって、区分部12は、ラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。
 以下、区分モデル17の学習フェーズの具体例について図9を用いて説明する。図9は、実施の形態に係る構音異常検出装置100の区分モデル17について、学習フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からRMSエンベロープ又はメルスペクトログラムを音声情報として取得する。図9に示す例では、メルスペクトログラムの一例を図示している。
 音声波形から得られるRMSエンベロープは、次元数が「α」(α=1)、フレーム数が「p」(pは自然数)となる。また、音声波形から得られるメルスペクトログラムは、次元数が「β」(βは自然数であって、β>1)、フレーム数が「p」となる。ここでいう次元数は、周波数軸に沿ったパワーの分解能を示している。また、ここでいうフレーム数は、音声波形を単位時間ごと切り出すことで得られるフレームの数を示している。
 次に、取得部11が取得した音声情報を機械学習が未だ完了していない区分モデル17(以下、「未完了の区分モデル17」という)に入力する。これにより、未完了の区分モデル17は、ラベルデータを出力する。このラベルデータは、次元数が「1」、フレーム数が「p」となる。
 そして、未完了の区分モデル17が出力するラベルデータと、正解データとを損失関数(ここでは、多クラス交差エントロピー誤差(Categorical Cross Entropy Error)関数)に入力し、損失関数の出力が最小値となるように誤差逆伝播法(Backpropagation)を実行することで、未完了の区分モデル17を教師あり学習により機械学習させる。正解データは、健常者に検査フレーズを発声させることで得た音声波形から事前に作成されるラベルデータである。正解データは、未完了の区分モデル17が出力するラベルデータと同様に、次元数が「1」、フレーム数が「p」となる。
 以下、機械学習が完了した区分モデル17を用いた推論フェーズの具体例について図10を用いて説明する。図10は、実施の形態に係る構音異常検出装置100の区分モデル17を用いた推論フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からRMSエンベロープ又はメルスペクトログラムを音声情報として取得する。図10に示す例では、メルスペクトログラムの一例を図示している。なお、RMSエンベロープ及びメルスペクトログラムのフレーム数は、学習フェーズと同様である。また、RMSエンベロープ及びメルスペクトログラムの次元数も、学習フェーズと同様である。
 次に、区分部12は、取得部11が取得した音声情報を区分モデル17に入力する。これにより、区分モデル17は、ラベルデータを出力する。そして、区分部12は、区分モデル17が出力したラベルデータに基づいて、複数のフレーズの各々の開始位置及び終了位置を含む区分情報を生成する。区分部12が生成した区分情報は、後述する検出部13にて用いられる。
 検出部13は、検出モデル18に、取得部11(取得ステップ)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。検出部13は、構音異常検出方法における検出ステップの実行主体である。実施の形態においては、検出部13(検出ステップ)は、区分部12(区分ステップ)で区分された複数のフレーズの各々が検出モデル18に入力される。つまり、実施の形態においては、取得部11(取得ステップ)で取得した音声情報が直接的に検出モデル18に入力されるのではなく、区分された複数のフレーズが音声情報として間接的に検出モデル18に入力される。
 検出モデル18は、音声を入力として構音異常の有無に関する情報を出力するように機械学習されたモデルである。具体的には、検出モデル18は、例えば畳み込みニューラルネットワーク(Convolutional Neural Network:CNN)モデルであって、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルである。例えば、検出モデル18は、区分部12により区分された複数のフレーズの各々のRMSエンベロープ又はメルスペクトログラムを入力として、これらの復元を試み、複数のフレーズの各々に対応するRMSエンベロープ又はメルスペクトログラムを出力する。
 そして、検出部13(検出ステップ)は、検出モデル18に入力される音声情報と、検出モデル18から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。例えば、健常者についての音声情報を検出モデル18に入力すると、入力した音声情報と殆ど同じ音声情報を復元して出力することになる。この場合、乖離度合いは比較的小さくなる。一方、脳卒中患者のような構音異常を有する被験者についての音声情報を検出モデル18に入力すると、検出モデル18はこの音声情報を復元することができず、入力した音声情報とは異なる音声情報を出力することになる。この場合、乖離度合いは比較的大きくなる。
 したがって、検出部13は、検出モデル18に入力される入力データと、検出モデル18から出力される出力データとの乖離度合いに基づいて、被験者の構音異常の有無に関する検出情報を生成する。例えば、検出部13は、検出モデル18に入力される入力データと、検出モデル18から出力される出力データとの平均二乗誤差(Mean Squared Error)を算出する。そして、検出部13は、算出した平均二乗誤差が閾値を上回れば被験者が構音異常を有していると検出し、閾値以下であれば被験者が構音異常を有しておらず健常者であると検出する。
 以下、検出モデル18の学習フェーズの具体例について図11を用いて説明する。図11は、実施の形態に係る構音異常検出装置100の検出モデル18について、学習フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。
 音声波形から得られるメルスペクトログラムは、次元数が「γ」(γは自然数であって、β≠γ)、フレーム数が「q」(qは自然数であって、q≠p)となる。
 次に、検出部13は、取得部11が取得した音声情報を、区分部12が出力する区分情報を参照することにより複数のフレーズに区分することで、複数のフレーズのみで構成された区分データを生成する。区分データは次元数が「γ」となり、区分データのフレーム数は「r」(rは自然数であって、r<q)となる。ここで生成した区分データにおいては、複数のフレーズの長さが不均一であるため、以下では「未整形区分データ」という。次に、区分データに含まれる複数のフレーズをリサイズすることにより、複数のフレーズの長さを統一する。以下ではリサイズされた区分データを単に「区分データ」という。区分データは、未整形区分データと同様に、次元数が「γ」であり、フレーム数が「r’」である。
 次に、区分データを機械学習が未だ完了していない検出モデル18(以下、「未完了の検出モデル18」という)に入力する。これにより、未完了の検出モデル18は、入力された区分データの復元を試みた復元データを出力する。この復元データは、区分データと同様に、次元数が「γ」であり、フレーム数が「r’」である。
 そして、区分データと、未完了の検出モデル18が出力する復元データとを損失関数(ここでは、平均二乗誤差関数)に入力し、損失関数の出力が最小値となるように誤差逆伝播法を実行することで、未完了の検出モデル18を教師なし学習により機械学習させる。
 以下、機械学習が完了した検出モデル18を用いた推論フェーズの具体例について図12を用いて説明する。図12は、実施の形態に係る構音異常検出装置100の検出モデル18を用いた推論フェーズの一例を示す図である。まず、取得部11は、収音した音声波形に対して適宜の情報処理を実行することにより、音声波形からメルスペクトログラムを音声情報として取得する。図12に示す例では、メルスペクトログラムの一例を図示している。なお、メルスペクトログラムの次元数及びフレーム数は、いずれも学習フェーズと同様である。
 次に、検出部13は、取得部11が取得した音声情報を、区分部12が出力する区分情報を参照することにより複数のフレーズに区分することで、未整形の区分データを生成する。次に、検出部13は、区分データに含まれる複数のフレーズをリサイズすることにより、区分データを生成する。
 次に、検出部13は、生成した区分データを検出モデル18に入力する。これにより、検出モデル18は、復元データを出力する。そして、検出部13は、検出モデル18に入力される区分データと、検出モデル18が出力した復元データとの平均二乗誤差を算出し、算出した平均二乗誤差と閾値とを比較することにより、被験者の構音異常の有無に関する検出情報を生成する。検出部13が生成した検出情報は、後述する出力部14にて用いられる。
 なお、実施の形態では、検出モデル18の学習フェーズ、及び検出モデル18を用いた推論フェーズのいずれにおいても音声波形から得られたメルスペクトログラムを音声情報として用いているが、音声波形から得られたRMSエンベロープを音声情報として用いてもよい。
 また、検出部13は、区分データを全て検出モデル18に入力するのではなく、例えば区分データに含まれる複数のフレーズのうち最後のフレーズを除く等して、区分データの一部を検出モデル18に入力してもよい。というのも、被験者が検査フレーズを最後まで確実に発声しない可能性があり、このような場合に最後のフレーズは検出モデル18にとってノイズとなるからである。
 出力部14は、検出部13(検出ステップ)で検出された被験者の構音異常の有無に関する検出情報を出力する。出力部14は、構音異常検出方法における出力ステップの実行主体である。検出情報は、被験者が構音異常を有しているか否かを示す情報を含み得る。実施の形態では、検出情報は、被験者の構音異常の有無に紐づく、被験者の脳卒中の発症の予兆の有無を示す情報を含む。出力部14は、例えば情報端末のディスプレイに検出情報を示す文字列又は画像等を表示することにより、検出情報を出力する。
 再生部15は、取得部11が音声情報を取得する前に(取得ステップの前に)、被験者の発する音声についてのサンプル音声を被験者に対して再生する。再生部15は、構音異常検出方法における再生ステップの実行主体である。サンプル音声は、例えば機械音声であって、検査フレーズを所定の音量及び所定のリズムで読み上げた音声である。再生部15は、例えば被験者が情報端末にて所定の操作を行うことをトリガとして、情報端末に搭載されたスピーカからサンプル音声を再生する。
 記憶部16は、取得部11、区分部12、検出部13、出力部14、及び再生部15が各種処理を行うために必要な情報(コンピュータプログラム等)が記憶される記憶装置である。記憶部16は、例えば半導体メモリにより実現されるが、特に限定されることなく公知の電子情報記憶の手段を用いることができる。記憶部16には、区分部12で用いられる区分モデル17と、検出部13で用いられる検出モデル18と、が格納されている。
 [3.動作]
 以下、実施の形態に係る構音異常検出装置100の動作(つまり、構音異常検出方法)の一例について図13~図15を用いて説明する。図13は、実施の形態に係る構音異常検出装置100の動作例を示すフローチャートである。図14は、実施の形態に係る構音異常検出装置100及び構音異常検出方法の概要の一例を示す図である。図15は、実施の形態に係る構音異常検出装置100の動作の具体例を示す図である。
 以下では、図14に示すように、区分モデル17及び検出モデル18は、いずれも既に説明した方法により事前に機械学習されていることとして説明する。また、以下では、被験者2は、過去に脳卒中を発症したことがあり、現時点では脳卒中から完全ではないが回復した軽症患者であることとして説明する。もちろん、被験者2は、過去に脳卒中を発症したことがない人であってもよい。
 図15の(a)~(d)は、いずれも情報端末3での「脳卒中再発チェッカー」というアプリケーションの実行フローを表している。図15の(a)は、当該アプリケーションを起動した際に情報端末3のディスプレイ31に表示される画像を表している。ディスプレイ31の中央には、「ことばでチェック」という文字列を含むアイコン41が表示されている。被験者2がアイコン41に指で触れる等してアイコン41を選択する操作を行うことで、図15の(b)に示すフローへ移行する。
 図15の(b)に示すように、情報端末3のディスプレイ31には、「次のように話してください」という被験者2に検査フレーズの発声を促す文字列M1と、「デレデレデレデレデレデレデレデレ」という検査フレーズを示す文字列M2と、が表示される。また、ディスプレイ31には、「お手本を聞く」という文字列を含むアイコン42と、「チェック開始」という文字列を含むアイコン43と、が文字列M1,M2と共に表示される。
 ここで、被験者2がアイコン42を選択する操作は、図13に示す「再生トリガ」に相当する。すなわち、被験者2がアイコン42を選択する操作を行う、言い換えれば再生トリガがあると(S1:Yes)、再生部15(再生ステップ)は、サンプル音声を再生する(S2)。なお、ディスプレイ31にアイコン42を表示するタイミングについては、音声情報を取得する前に限らず、音声情報を取得した後であってもよい。例えば、アイコン42は、被験者2の発する声の音量が小さい等して何らかの原因で被験者2の検査フレーズを検出できなかった場合にディスプレイ31に表示されてもよい。また、例えば、アイコン42は、後述するステップS4における音声情報から複数のフレーズを区分する処理が実行できなかった場合にディスプレイ31に表示されてもよい。また、例えば、アイコン42は、後述するステップS5における構音異常の有無を検出する処理が実行できなかった場合にディスプレイ31に表示されてもよい。
 被験者2がアイコン42を選択する操作を行わずに(S2:No)、又は被験者2がアイコン42を選択する操作を行った後に、被験者2がアイコン43を選択する操作を行うと、次に図15の(c)に示すフローへ移行する。なお、アイコン43は、被験者2がアイコン42を選択する操作を行ってサンプル音声を再生した後に、被験者2による操作を受け付ける(つまり、アクティブになる)態様であってもよい。この場合、被験者2がサンプル音声を聞くまでは、図15の(c)に示すフローへ移行することができない。アイコン43は、サンプル音声が再生されるまでの間は、例えば灰色で表示される等してインアクティブであることを示す態様で表示され、サンプル音声が再生させると、例えば白色で表示される等してアクティブであることを示す態様で表示されてもよい。
 図15の(c)に示すように、情報端末3のディスプレイ31には、引き続き文字列M1,M2が表示される。また、ディスプレイ31には、被験者2が発声する検査フレーズを録音していることを示すサブ画像5と、「判定」という文字列を含むアイコン44と、が文字列M1,M2と共に表示される。サブ画像5には、「録音中」という文字列と、情報端末3のマイクロフォンが収音した音声波形と、が表示される。つまり、図15の(c)に示すフローにおいて、取得部11(取得ステップ)は、音声情報を取得する(S3)。
 次に、被験者2がアイコン44を選択する操作を行うと、被験者2の構音異常の有無を判定(検出)する一連の処理が開始される。まず、区分部12(区分ステップ)は、取得部11(取得ステップ)が取得した音声情報から複数のフレーズを区分する(S4)。次に、検出部13(検出ステップ)は、区分部12(区分ステップ)で区分された複数のフレーズの各々を検出モデル18に入力することで、被験者2の構音異常の有無を検出する(S5)。そして、出力部14は、検出部13(検出ステップ)で検出された被験者2の構音異常の有無に関する検出情報を出力する(S6)。具体的には、図15の(d)に示すように、検出情報は、文字列M3として情報端末3のディスプレイ31に表示される。ここでは、被験者2に構音異常が検出された場合、言い換えれば被験者2に脳卒中の発症の予兆があった場合の検出情報として、「脳卒中が再発している可能性があります。専門医の受診をお勧めします。」という文字列M3が表示されている。なお、被験者2に構音異常が無い場合、言い換えれば被験者2に脳卒中の発症の予兆が無い場合は、例えば「特に異常はありません。」等の文字列がディスプレイ31に表示されることになる。
 その他、検出情報は、例えば図16に示すような形で情報端末3のディスプレイ31に表示されてもよい。図16は、実施の形態に係る構音異常検出装置100の動作の他の具体例を示す図である。
 図16の(a)に示す例では、検出情報は、文字列M3及び第1グラフ6としてディスプレイ31に表示されている。第1グラフ6は、被験者2の音声波形から得られたRMSエンベロープを表しており、被験者2が正確にフレーズを発声することに失敗した(言い換えれば、構音異常が認められた)失敗区間61を含んでいる。被験者2は、第1グラフ6を見ることで、自身がどのフレーズの発声を正しく行えなかったかを把握することができる。
 図16の(b)に示す例では、検出情報は、文字列M3及び第1グラフ6、並びに「失敗率38%です」という文字列M4としてディスプレイ31に表示されている。文字列M4は、被験者2が音声を発した全区間に対して失敗区間61が占める割合(つまり、失敗率)を提示する。被験者2は、文字列M4を見ることで、脳卒中が再発している可能性がどの程度高いかを把握することができる。
 図16の(c)に示す例では、検出情報は、文字列M3及び第2グラフ7としてディスプレイ31に表示されている。第2グラフ7は、失敗率を時系列に沿って表した棒グラフである。ここでは、第2グラフ7には、8月1日から8月11日までの期間において、連日、「脳卒中再発チェッカー」を実行した結果が表されている。第2グラフ7における横線71は、閾値を表しており、失敗率が当該閾値を上回ると、脳卒中が再発している可能性が高いことを示す。被験者2は、第2グラフ7を見ることで、脳卒中が再発している可能性がどの程度高いかを時系列で把握することができる。
 上述のように、実施の形態に係る構音異常検出装置100及び構音異常検出方法では、医師又は言語聴覚士等の専門家に頼ることなく、被験者2の発する音声から構音異常の有無、更には脳卒中の発症の予兆の有無を検出することが可能である。このため、実施の形態に係る構音異常検出装置100及び構音異常検出方法を用いることで、被験者2に脳卒中の発症の予兆があれば、被験者2に対して速やかに受診を促すことで早期の治療による重症化の防止が期待できる。
 [4.効果等]
 以上説明したように、実施の形態に係る構音異常検出方法は、取得ステップ(S3)と、検出ステップ(S5)と、を含む。取得ステップ(S3)では、被験者の発する音声に関する音声情報を取得する。検出ステップ(S5)では、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル18に、取得ステップ(S5)で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 また、実施の形態に係る構音異常検出方法では、音声情報は、被験者が舌を所定のパターンで動かすことで発せられる特定音を含んでいる。
 これによれば、構音異常の有無の指標となり得る舌の麻痺度合いを検出しやすいことから、音声情報が特定音を含まない場合と比較して、被験者の構音異常の有無を検出しやすくなる、という利点がある。
 また、実施の形態に係る構音異常検出方法では、特定音は、弾音である。
 これによれば、舌が麻痺している場合に発しにくい弾音を特定音に含めることで、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 また、実施の形態に係る構音異常検出方法では、音声情報は、特定音と破裂音とが連続するフレーズを含んでいる。
 これによれば、被験者の発する音声において位置を特定しやすい破裂音を特定音に連続させることで、被験者の発する音声における特定音の位置を特定しやすくなることから、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 また、実施の形態に係る構音異常検出方法では、音声情報は、フレーズを複数含んでいる。また、実施の形態に係る構音異常検出方法は、取得ステップ(S3)で取得した音声情報から複数のフレーズを区分する区分ステップ(S4)を更に含んでいる。また、検出ステップ(S5)では、区分ステップ(S4)で区分された複数のフレーズの各々が検出モデル18に入力される。
 これによれば、単一のフレーズから被験者の構音異常の有無を検出する場合と比較して、被験者の構音異常の有無を更に検出しやすくなる、という利点がある。
 また、実施の形態に係る構音異常検出方法において、区分ステップ(S4)では、音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、複数のフレーズを区分する。
 これによれば、RMSエンベロープ又はスペクトログラムに複数のフレーズを区別し得る特徴が現れやすいことから、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
 また、実施の形態に係る構音異常検出方法において、区分ステップ(S4)では、複数のフレーズを含む音声を入力として複数のフレーズを区分するように機械学習された区分モデル17に、取得ステップ(S3)で取得した音声情報を入力することで、複数のフレーズを区分する。
 これによれば、区分モデル17を用いずに複数のフレーズを区分する場合と比較して、複数のフレーズを区分する精度の向上が期待できる、という利点がある。
 また、実施の形態に係る構音異常検出方法では、検出モデル18は、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダである。また、検出ステップ(S5)では、検出モデル18に入力される音声情報と、検出モデル18から出力される音声情報との乖離度合いに基づいて、被験者の構音異常の有無を検出する。
 これによれば、健常者よりも少数である構音異常を有する患者の音声を用いて検出モデル18を学習する場合と比較して多数の学習用データを準備しやすいので、検出モデル18を学習しやすい、という利点がある。
 また、実施の形態に係る構音異常検出方法は、検出ステップ(S5)で検出された被験者の構音異常の有無に関する検出情報を出力する出力ステップ(S6)を更に含んでいる。
 これによれば、例えば検出情報を被験者に対して出力することで、自身が構音異常を有しているか否かを被験者が把握することができる、という利点がある。
 また、実施の形態に係る構音異常検出方法は、取得ステップ(S3)の前に、被験者の発する音声についてのサンプル音声を被験者に対して再生する再生ステップ(S2)を更に含んでいる。
 これによれば、被験者がサンプル音声を再現して発声できているか否かを含めて被験者の構音異常の有無を検出することが可能になり、被験者の構音異常の有無を検出する精度の向上が期待できる、という利点がある。
 また、実施の形態に係る構音異常検出装置100は、取得部11と、検出部13と、を備える。取得部11は、被験者の発する音声に関する音声情報を取得する。検出部13は、音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデル18に、取得部11で取得した音声情報を入力することで得られる出力結果に基づいて、被験者の構音異常の有無を検出する。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 (他の実施の形態)
 以上、本開示の1つ又は複数の態様に係る構音異常検出方法及び構音異常検出装置100について、上記の実施の形態に基づいて説明したが、本開示は、これらの実施の形態に限定されるものではない。本開示の主旨を逸脱しない限り、当業者が思いつく各種変形を実施の形態に施したものや、異なる実施の形態における構成要素を組み合わせて構成される形態も、本開示の1つ又は複数の態様の範囲内に含まれてもよい。
 例えば、上記実施の形態では、区分部12(区分ステップ)は、区分モデル17を用いて複数のフレーズを区分しているが、これに限られない。例えば、区分部12(区分ステップ)は、被験者の音声波形から得られるRMSエンベロープにおいてパワーが所定値以下となる箇所で区切るように、複数のフレーズを区分してもよい。この場合、区分モデル17は不要である。
 例えば、上記実施の形態では、被験者に発声させる検査フレーズ(つまり、取得部11が取得する音声情報)として複数のフレーズを採用しているが、単一のフレーズであってもよい。この場合、区分部12(区分ステップ)は不要である。
 また、上記実施の形態では、被験者に発声させる検査フレーズ(つまり、取得部11が取得する音声情報)として「デレデレデレ…」を採用しているが、これに限らず、破裂音と弾音とが連続するフレーズであってもよい。また、検査フレーズは、破裂音と弾音とが連続するフレーズに限らず、例えば弾音のみで構成されたフレーズであってもよい。また、検査フレーズは、検出モデル18の学習方法の如何によっては、弾音を含んでいなくてもよく、更には舌を所定のパターンで動かすことで発せられる特定音を含んでいなくてもよい。
 また、上記実施の形態では、構音異常検出装置100は情報端末に搭載されているが、これに限られない。例えば、構音異常検出装置100は、サーバ装置に搭載されていてもよい。サーバ装置は、クラウドサーバであってもよいし、ローカルサーバであってもよい。この場合、サーバ装置に搭載されたプロセッサが所定のプログラムを実現することにより、構音異常検出装置100が実現される。また、この場合、被験者は、情報端末を用いてサーバ装置にネットワーク等を通じてアクセスすればよい。また、例えば、構音異常検出装置100は、その一部の構成が情報端末に搭載され、残りの構成がサーバ装置に搭載される構成であってもよい。
 また、構音異常検出装置100は、スマートフォン又はタブレット端末等の汎用の情報端末ではなく、構音異常検出機能を有する専用端末とした装置に格納されていてもよい。この場合、上記専用端末とした装置に搭載されたプロセッサが所定のプログラムを実行することにより、構音異常検出装置100が実現される。
 例えば、上記実施の形態に係る構音異常検出装置100が備える構成要素の一部又は全部は、1個のシステムLSI(Large Scale Integration:大規模集積回路)から構成されているとしてもよい。システムLSIは、複数の構成部を1個のチップ上に集積して製造された超多機能LSIであり、具体的には、マイクロプロセッサ、ROM(Read Only Memory)、RAM(Random Access Memory)等を含んで構成されるコンピュータシステムである。ROMには、コンピュータプログラムが記憶されている。マイクロプロセッサが、コンピュータプログラムに従って動作することにより、システムLSIは、その機能を達成する。
 なお、ここでは、システムLSIとしたが、集積度の違いにより、IC(Integrated Circuit)、LSI、スーパーLSI、ウルトラLSIと呼称されることもある。また、集積回路化の手法は、LSIに限るものではなく、専用回路又は汎用プロセッサで実現してもよい。LSI製造後に、プログラムすることが可能なFPGA(Field Programmable Gate Array)、あるいは、LSI内部の回路セルの接続や設定を再構成可能なリコンフィギュラブル・プロセッサを利用してもよい。
 さらには、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて機能ブロックの集積化を行ってもよい。バイオ技術の適用等が可能性としてあり得る。
 また、本開示の一態様は、構音異常検出方法に含まれる特徴的な各ステップをコンピュータに実行させるコンピュータプログラムであってもよい。また、本開示の一態様は、そのようなコンピュータプログラムが記録されたコンピュータ読み取り可能な非一時的な記録媒体であってもよい。すなわち、プログラムは、1以上のプロセッサに、上記の構音異常検出方法を実行させてもよい。
 これによれば、被験者が音声を発するだけで、被験者の構音異常の有無を検出することが可能である。このため、被験者に自身の顔をビデオカメラで撮像することを委ねた場合と比較して、被験者に負担をかけることなく被験者の構音異常の有無を検出しやすい、という利点がある。
 本開示は、例えば、脳卒中の発症の予兆の有無を判定するための方法等に利用可能である。
 100 構音異常検出装置
 11 取得部
 12 区分部
 13 検出部
 14 出力部
 15 再生部
 16 記憶部
 17 区分モデル
 18 検出モデル
 2 被験者
 3 情報端末
 31 ディスプレイ
 41~44 アイコン
 5 サブ画像
 6 第1グラフ
 61 失敗区間
 7 第2グラフ
 71 横線
 A1、A2、B1、B2、C1~C3 領域
 M1~M4 文字列

Claims (12)

  1.  被験者の発する音声に関する音声情報を取得する取得ステップと、
     音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得ステップで取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出ステップと、を含む、
     構音異常検出方法。
  2.  前記音声情報は、前記被験者が舌を所定のパターンで動かすことで発せられる特定音を含む、
     請求項1に記載の構音異常検出方法。
  3.  前記特定音は、弾音である、
     請求項2に記載の構音異常検出方法。
  4.  前記音声情報は、前記特定音と破裂音とが連続するフレーズを含む、
     請求項2又は3に記載の構音異常検出方法。
  5.  前記音声情報は、前記フレーズを複数含んでおり、
     前記取得ステップで取得した前記音声情報から前記複数のフレーズを区分する区分ステップを更に含み、
     前記検出ステップでは、前記区分ステップで区分された前記複数のフレーズの各々が前記検出モデルに入力される、
     請求項4に記載の構音異常検出方法。
  6.  前記区分ステップでは、前記音声情報としてのRMS(Root Mean Square)エンベロープ又はスペクトログラムに基づいて、前記複数のフレーズを区分する、
     請求項5に記載の構音異常検出方法。
  7.  前記区分ステップでは、前記複数のフレーズを含む音声を入力として前記複数のフレーズを区分するように機械学習された区分モデルに、前記取得ステップで取得した前記音声情報を入力することで、前記複数のフレーズを区分する、
     請求項5に記載の構音異常検出方法。
  8.  前記検出モデルは、入力された健常者の音声と同じ音声を復元するように機械学習されたオートエンコーダモデルであって、
     前記検出ステップでは、前記検出モデルに入力される前記音声情報と、前記検出モデルから出力される音声情報との乖離度合いに基づいて、前記被験者の構音異常の有無を検出する、
     請求項1~3のいずれか1項に記載の構音異常検出方法。
  9.  前記検出ステップで検出された前記被験者の構音異常の有無に関する検出情報を出力する出力ステップを更に含む、
     請求項1~3のいずれか1項に記載の構音異常検出方法。
  10.  前記被験者の発する音声についてのサンプル音声を前記被験者に対して再生する再生ステップを更に含む、
     請求項1~3のいずれか1項に記載の構音異常検出方法。
  11.  1以上のプロセッサに、
     請求項1~3のいずれか1項に記載の構音異常検出方法を実行させる、
     プログラム。
  12.  被験者の発する音声に関する音声情報を取得する取得部と、
     音声を入力として構音異常の有無に関する情報を出力するように機械学習された検出モデルに、前記取得部で取得した前記音声情報を入力することで得られる出力結果に基づいて、前記被験者の構音異常の有無を検出する検出部と、を備える、
     構音異常検出装置。
PCT/JP2022/029503 2021-09-02 2022-08-01 構音異常検出方法、構音異常検出装置、及びプログラム WO2023032553A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
CN202280057302.5A CN117915839A (zh) 2021-09-02 2022-08-01 构音障碍检测方法、构音障碍检测装置以及程序

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021143569A JP2023036486A (ja) 2021-09-02 2021-09-02 構音異常検出方法、構音異常検出装置、及びプログラム
JP2021-143569 2021-09-02

Publications (1)

Publication Number Publication Date
WO2023032553A1 true WO2023032553A1 (ja) 2023-03-09

Family

ID=85410990

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/029503 WO2023032553A1 (ja) 2021-09-02 2022-08-01 構音異常検出方法、構音異常検出装置、及びプログラム

Country Status (3)

Country Link
JP (1) JP2023036486A (ja)
CN (1) CN117915839A (ja)
WO (1) WO2023032553A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010048931A (ja) * 2008-08-20 2010-03-04 Seiko Epson Corp 音声データ作成方法、記憶装置、集積回路装置及び音声再生システム
CN107456208A (zh) * 2016-06-02 2017-12-12 深圳先进技术研究院 多模式交互的言语语言功能障碍评估系统与方法
US20200118584A1 (en) * 2018-10-12 2020-04-16 SHINSUNG UNIVERSITY Industry-Academia Cooperation Group System and method for determining stroke based on voice analysis
JP2020166224A (ja) * 2019-03-28 2020-10-08 國立中正大學 構音障害の音声明瞭度の改善システム及びその方法
CN112927696A (zh) * 2019-12-05 2021-06-08 中国科学院深圳先进技术研究院 一种基于语音识别的构音障碍自动评估系统和方法
US20210202090A1 (en) * 2019-12-26 2021-07-01 Teladoc Health, Inc. Automated health condition scoring in telehealth encounters

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2010048931A (ja) * 2008-08-20 2010-03-04 Seiko Epson Corp 音声データ作成方法、記憶装置、集積回路装置及び音声再生システム
CN107456208A (zh) * 2016-06-02 2017-12-12 深圳先进技术研究院 多模式交互的言语语言功能障碍评估系统与方法
US20200118584A1 (en) * 2018-10-12 2020-04-16 SHINSUNG UNIVERSITY Industry-Academia Cooperation Group System and method for determining stroke based on voice analysis
JP2020166224A (ja) * 2019-03-28 2020-10-08 國立中正大學 構音障害の音声明瞭度の改善システム及びその方法
CN112927696A (zh) * 2019-12-05 2021-06-08 中国科学院深圳先进技术研究院 一种基于语音识别的构音障碍自动评估系统和方法
US20210202090A1 (en) * 2019-12-26 2021-07-01 Teladoc Health, Inc. Automated health condition scoring in telehealth encounters

Non-Patent Citations (1)

* Cited by examiner, † Cited by third party
Title
KANAI KIYOJI: "A study on speech intellectuality hospital patients with paralytic dysarthria following cerebral apoplexy", NIHON JIBIINKOKA GAKKAI KAIHO, vol. 79, no. 4, 20 April 1976 (1976-04-20), pages 478 - 490, XP093043179, DOI: 10.3950/jibiinkoka.79.478 *

Also Published As

Publication number Publication date
CN117915839A (zh) 2024-04-19
JP2023036486A (ja) 2023-03-14

Similar Documents

Publication Publication Date Title
Meghanani et al. An exploration of log-mel spectrogram and MFCC features for Alzheimer’s dementia recognition from spontaneous speech
Ghassemi et al. Learning to detect vocal hyperfunction from ambulatory neck-surface acceleration features: Initial results for vocal fold nodules
US11918372B2 (en) Cognitive function evaluation system, method, and storage medium for dementia by analyzing voice of evaluatee for recognition, remembering or jugment capabilities
Luz Longitudinal monitoring and detection of Alzheimer's type dementia from spontaneous speech data
US20160162807A1 (en) Emotion Recognition System and Method for Modulating the Behavior of Intelligent Systems
Muzammel et al. End-to-end multimodal clinical depression recognition using deep neural networks: A comparative analysis
EP3899938B1 (en) Automatic detection of neurocognitive impairment based on a speech sample
JP2012508903A (ja) 自動音声テキスト変換のためのシステムと方法
Khojasteh et al. Parkinson's disease diagnosis based on multivariate deep features of speech signal
JP2004514178A (ja) 音声の分析の方法及び装置
JP2018180334A (ja) 感情認識装置、方法およびプログラム
Gallardo-Antolín et al. On combining acoustic and modulation spectrograms in an attention LSTM-based system for speech intelligibility level classification
Bayerl et al. Detecting vocal fatigue with neural embeddings
Amato et al. Speech impairment in Parkinson’s disease: acoustic analysis of unvoiced consonants in Italian native speakers
Seppänen et al. Prosody-based classification of emotions in spoken finnish.
Sharma et al. Prediction of specific language impairment in children using speech linear predictive coding coefficients
Karan et al. An investigation about the relationship between dysarthria level of speech and the neurological state of Parkinson’s patients
Hason et al. Spontaneous speech feature analysis for alzheimer's disease screening using a random forest classifier
Huici et al. Speech rate estimation in disordered speech based on spectral landmark detection
WO2023032553A1 (ja) 構音異常検出方法、構音異常検出装置、及びプログラム
Gong et al. Towards an Automated Screening Tool for Developmental Speech and Language Impairments.
Tripathi et al. CNN based Parkinson's Disease Assessment using Empirical Mode Decomposition.
KR102472910B1 (ko) 인지 장애와 연관된 정보를 제공하는 방법 및 장치
Gong et al. Continuous assessment of children’s emotional states using acoustic analysis
KR20230130642A (ko) 발화-분석 기반 자동화된 생리학적 및 병리학적 평가

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22864140

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 202280057302.5

Country of ref document: CN

NENP Non-entry into the national phase

Ref country code: DE