WO2023228615A1 - 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置 - Google Patents

音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置 Download PDF

Info

Publication number
WO2023228615A1
WO2023228615A1 PCT/JP2023/014842 JP2023014842W WO2023228615A1 WO 2023228615 A1 WO2023228615 A1 WO 2023228615A1 JP 2023014842 W JP2023014842 W JP 2023014842W WO 2023228615 A1 WO2023228615 A1 WO 2023228615A1
Authority
WO
WIPO (PCT)
Prior art keywords
sound pressure
person
evaluated
voice
audio data
Prior art date
Application number
PCT/JP2023/014842
Other languages
English (en)
French (fr)
Inventor
雅司 石丸
絢子 中嶋
浩気 亀井
亜明 張
若正 清崎
吉浩 松村
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2023228615A1 publication Critical patent/WO2023228615A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L21/00Speech or voice signal processing techniques to produce another audible or non-audible signal, e.g. visual or tactile, in order to modify its quality or its intelligibility
    • G10L21/02Speech enhancement, e.g. noise reduction or echo cancellation
    • G10L21/0316Speech enhancement, e.g. noise reduction or echo cancellation by changing the amplitude
    • G10L21/0324Details of processing therefor
    • G10L21/0332Details of processing therefor involving modification of waveforms
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis

Definitions

  • the present invention relates to a voice feature calculation method, a voice feature calculation device, and an oral function evaluation device using the voice feature calculation device.
  • a device for evaluating the eating and swallowing function is attached to the neck of the person to be evaluated, and pharyngeal movement features are obtained as a eating and swallowing function evaluation index (marker) to evaluate the eating and swallowing function of the person being evaluated.
  • a method has been disclosed (see, for example, Patent Document 1).
  • an object of the present invention is to provide a voice feature amount calculation method etc. that can more appropriately calculate voice feature amounts from the voice of the person being evaluated.
  • a voice feature amount calculation method is a voice feature amount calculation method that is executed by a computer and for calculating the feature amount of the voice of an evaluated person from the voice uttered by the evaluated person. , obtain voice data obtained by collecting sounds uttered by the person to be evaluated, and obtain a first average of sounds collected during a period in which the person to be evaluated does not make any sound in the acquired voice data; The sound pressure in the audio data is adjusted based on the intensity, and the feature amount including at least a feature amount related to the sound pressure is calculated from the audio data after the sound pressure adjustment.
  • a voice feature amount calculation device is a voice feature amount calculation device that calculates a feature amount of the voice of the evaluated person from the voice uttered by the evaluated person.
  • an acquisition unit that acquires voice data obtained by collecting voices uttered by a person; and a first average intensity of sounds collected during a period in which the evaluated person is not making a sound in the acquired voice data; a sound pressure adjustment unit that adjusts the sound pressure in the audio data based on the sound pressure; and an extraction unit that calculates the feature amount by extracting the feature amount including at least a feature amount related to the sound pressure from the audio data after adjusting the sound pressure; Equipped with.
  • an oral function evaluation device includes the above-described voice feature amount calculation device, and an estimation formula that includes a feature amount related to sound pressure among the feature amounts extracted from the voice data.
  • a calculation unit that calculates an estimated value of the oral function of the person to be evaluated based on the feature amount extracted from the sound data after sound pressure adjustment;
  • the evaluation unit includes an evaluation unit that evaluates a state of decline in oral function of the person to be evaluated by making a determination using an index.
  • FIG. 1 is a diagram showing the configuration of an oral cavity function evaluation system according to an embodiment.
  • FIG. 1 is a block diagram showing a characteristic functional configuration of an oral cavity function evaluation system according to an embodiment.
  • 2 is a flowchart showing a processing procedure for evaluating the oral function of a person to be evaluated using the oral function evaluation method according to the embodiment.
  • 2 is a flowchart showing a processing procedure for audio data used in the oral function evaluation method according to the embodiment.
  • FIG. 3 is a diagram showing an example of information output in the oral function evaluation method according to the embodiment. It is a flowchart which shows the processing procedure about the audio data used for the oral function evaluation method based on another example of embodiment.
  • FIG. 1 is a first diagram illustrating adjustment of sound pressure of audio data according to an embodiment.
  • FIG. 1 is a first diagram illustrating adjustment of sound pressure of audio data according to an embodiment.
  • FIG. 2 is a second diagram illustrating adjustment of the sound pressure of audio data according to the embodiment.
  • FIG. 3 is a third diagram illustrating adjustment of the sound pressure of audio data according to the embodiment. It is a graph showing the relationship between adjusting sound pressure and accuracy (estimation accuracy) in the oral function evaluation method according to the embodiment.
  • FIG. 2 is a diagram illustrating an overview of a method for acquiring the voice of an evaluated person using the oral function evaluation method according to the embodiment.
  • FIG. 7 is a diagram illustrating an example of audio data showing a voice uttered by the person to be evaluated saying, “I have decided to draw a picture.”
  • FIG. 7 is a diagram showing an example of a change in the formant frequency of a voice uttered by the person to be evaluated saying, "I have decided to draw a picture.”
  • FIG. 6 is a diagram illustrating an example of audio data showing the voice repeatedly uttered by the person to be evaluated, such as "karakarakara".
  • FIG. 7 is a diagram illustrating an example of audio data representing a voice uttered by the person being evaluated, saying "what the home.”
  • FIG. 3 is a diagram showing an example of a Chinese syllable or fixed sentence that is similar in the degree of tongue movement or mouth opening and closing during pronunciation to a Japanese syllable or fixed sentence.
  • FIG. 2 is a diagram showing the International Phonetic Alphabet of vowels.
  • FIG. 1 is a diagram showing the International Phonetic Alphabet of vowels.
  • FIG. 2 is a diagram showing the International Phonetic Alphabet of consonants.
  • FIG. 6 is a diagram illustrating an example of audio data representing a voice uttered by the person being evaluated as “gao dao wu da ka ji ke da yi wu zhe.”
  • FIG. 6 is a diagram showing an example of a change in formant frequency of a voice uttered by the person being evaluated as "gao dao wu da ka ji ke da yi wu zhe.”
  • It is a figure showing an example of an oral function evaluation index.
  • FIG. 3 is a diagram showing an example of evaluation results for each element of oral function.
  • FIG. 3 is a diagram showing an example of evaluation results for each element of oral function. This is an example of predetermined data used when making proposals regarding oral cavity functions.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Furthermore, in each figure, substantially the same configurations are denoted by the same reference numerals, and overlapping explanations may be omitted or simplified.
  • the present invention relates to a method for evaluating a decline in oral function, and oral function includes various factors.
  • elements of oral function include tongue coating degree, oral mucosal moisture degree, occlusal force, tongue pressure, buccal pressure, number of remaining teeth, swallowing function, and masticatory function.
  • tongue coating degree degree
  • oral mucosal moisture degree degree
  • occlusal force tongue pressure
  • buccal pressure number of remaining teeth
  • swallowing function and masticatory function.
  • Tongue coating degree indicates the extent to which bacteria or food is deposited on the tongue. If the tongue coating is absent or thin, it indicates that there is mechanical abrasion (e.g., ingestion of food), that saliva has a cleaning effect, and that swallowing movements (tongue movements) are normal. On the other hand, when the tongue coating is thick, the movement of the tongue is poor and it is difficult to eat, which can lead to nutritional deficiencies or muscle strength deficiencies. Oral mucosal moisture is the degree of dryness of the tongue, and when it is dry, speaking movements are inhibited. In addition, food is crushed after it is taken into the oral cavity, but since it is difficult to swallow as it is, saliva works to organize the crushed food to make it easier to swallow.
  • bolus a collection of crushed food.
  • Bite force is the power to bite hard objects, and is the strength of the jaw muscles.
  • Tongue pressure is an indicator of the force with which the tongue presses against the roof of the mouth. When tongue pressure is weakened, swallowing movements may become difficult. Furthermore, when the tongue pressure becomes weak, the speed at which the tongue moves may decrease, which may result in a decrease in speaking speed. Mastication function is a comprehensive function of the oral cavity.
  • the present invention it is possible to evaluate the state of decline in the oral function of the person to be evaluated (for example, the state of decline in the elements of oral function) from the voice uttered by the person to be evaluated. This is because specific features are observed in the speech uttered by a person to be evaluated whose oral function has deteriorated, and by extracting these as prosodic features, it is possible to evaluate the oral function of the person to be evaluated.
  • the present invention is realized by an oral function evaluation method, a program for causing a computer or the like to execute the method, an oral function evaluation device which is an example of the computer, and an oral function evaluation system including the oral function evaluation device. Below, the oral function evaluation method and the like will be explained while showing the oral function evaluation system.
  • FIG. 1 is a diagram showing the configuration of an oral function evaluation system 200 according to an embodiment.
  • the oral function evaluation system 200 is a system for evaluating the oral function of the person U to be evaluated by analyzing the voice of the person U, and as shown in FIG.
  • a terminal 300 (an example of a terminal) is provided.
  • the oral function evaluation device 100 is a device that uses the mobile terminal 300 to acquire audio data representing the voice uttered by the person U to be evaluated, and evaluates the oral function of the person U to be evaluated from the acquired audio data.
  • the mobile terminal 300 is configured such that the person being evaluated consists of two or more moras that include a change in the first formant frequency or a change in the second formant frequency, or includes at least one of a plucking sound, a plosive sound, a voiceless sound, a consonant sound, and a fricative sound.
  • the mobile terminal 300 is a smartphone, a tablet, or the like that has a microphone.
  • the mobile terminal 300 is not limited to a smartphone or a tablet, and may be, for example, a notebook PC, as long as it has a sound collection function.
  • the oral function evaluation system 200 may include a sound collection device (microphone) instead of the mobile terminal 300.
  • the oral function evaluation system 200 may include an input interface for acquiring the personal information of the person U to be evaluated.
  • the input interface is not particularly limited as long as it has an input function, such as a keyboard or a touch panel.
  • the volume of the microphone may be set.
  • the mobile terminal 300 may be a display device that has a display and displays images based on image data output from the oral function evaluation device 100. That is, the mobile terminal 300 is an example of a presentation device for presenting information output from the oral function evaluation device 100 as an image.
  • the display device does not need to be the mobile terminal 300, and may be a monitor device configured with a liquid crystal panel, an organic EL panel, or the like. That is, in this embodiment, the mobile terminal 300 is both a sound collection device and a display device, but the sound collection device (microphone), input interface, and display device may be provided separately.
  • the oral function evaluation device 100 and the mobile terminal 300 may be connected by wire or wirelessly as long as they can transmit and receive audio data or image data for displaying images showing the evaluation results described later. May be connected.
  • the oral function evaluation device 100 analyzes the voice of the person U to be evaluated based on the voice data collected by the mobile terminal 300, evaluates the oral function of the person U to be evaluated based on the analysis result, and outputs the evaluation result. .
  • the oral function evaluation device 100 sends to the mobile terminal 300 image data for displaying an image showing the evaluation result, or data for making a proposal regarding the oral cavity to the person being evaluated, which is generated based on the evaluation result. Output.
  • the oral function evaluation device 100 can notify the evaluated person U of the degree of oral function and a proposal for preventing the decline in oral function. Prevention and improvement can be done.
  • the oral function evaluation device 100 is, for example, a personal computer, but may also be a server device. Furthermore, the oral function evaluation device 100 may be a mobile terminal 300. That is, the mobile terminal 300 may have the functions that the oral function evaluation device 100 described below has.
  • FIG. 2 is a block diagram showing the characteristic functional configuration of the oral cavity function evaluation system 200 according to the embodiment.
  • the oral function evaluation device 100 includes a voice feature calculation device 400, a calculation section 130, an evaluation section 140, an output section 150, a suggestion section 160, and a storage section 170.
  • the speech feature amount calculation device 400 is a device that calculates by extracting the feature amount (prosodic feature amount) of the voice of the person U to be evaluated.
  • the audio feature calculation device 400 specifically includes an acquisition section 110, an S/N ratio calculation section 115, a sound pressure adjustment section 116, an extraction section 120, and an information output section 180.
  • the voice feature amount calculation device 400 is built into the oral function evaluation device 100, but the voice feature amount calculation device 400 may be provided separately from the oral function evaluation device 100.
  • the oral function evaluation device 100 may include an acquisition section that acquires voice data, personal information, etc., separately from the acquisition section 110 of the voice feature amount calculation device 400.
  • the acquisition unit 110 acquires audio data obtained by non-contact collection of the voice uttered by the person U being evaluated by the mobile terminal 300.
  • the voice is a voice in which the person U to be evaluated utters a syllable or a fixed phrase consisting of two or more moras that includes a change in the first formant frequency or a change in the second formant frequency.
  • the voice is a voice uttering a syllable or a fixed phrase including at least one of a pop sound, a plosive sound, a voiceless sound, a consonant sound, and a fricative sound.
  • the voice may be the voice of an arbitrary sentence uttered.
  • the acquisition unit 110 may further acquire the personal information of the person U to be evaluated.
  • personal information is information input into the mobile terminal 300, and includes age, weight, height, gender, BMI (Body Mass Index), dental information (for example, number of teeth, presence or absence of dentures, location of occlusal support, function number of teeth, number of remaining teeth, etc.), serum albumin level, or eating rate.
  • the personal information may be obtained using a swallowing screening tool called EAT-10, a Seireishiki swallowing questionnaire, an interview, the Barthel Index, a basic checklist, or the like.
  • the acquisition unit 110 is, for example, a communication interface that performs wired or wireless communication.
  • the S/N ratio calculation unit 115 is a processing part that calculates the S/N ratio in the acquired audio data.
  • the S/N ratio in audio data is the ratio of the first average intensity of sound collected during the period when the evaluated person U does not make a sound (period of only background noise) in the acquired audio data to the This is the ratio of the second average intensity of the sound collected during the period in which the sound is being emitted. Therefore, the S/N ratio calculation unit 115 extracts sounds for a period in which the person U to be evaluated does not make a sound from the audio data to calculate the first average intensity, and The second average intensity can be calculated by extracting the sound for the period during which the user is emitting the sound.
  • the S/N ratio calculation unit 115 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the sound pressure adjustment unit 116 When the S/N ratio of the acquired audio data indicates a situation that is not suitable for evaluating oral cavity function, the sound pressure adjustment unit 116 performs sound pressure adjustment processing on this audio data to improve the oral cavity function. This is a processing unit that generates and outputs adjusted audio data suitable for functional evaluation. The adjustment of the sound pressure of audio data by the sound pressure adjustment section 116 will be described later. Specifically, the sound pressure adjustment section 116 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the extraction unit 120 is a processing unit that analyzes the voice data of the evaluated person U acquired by the acquisition unit 110 or the voice data whose sound pressure has been adjusted by the sound pressure adjustment unit 116.
  • the extraction unit 120 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the extraction unit 120 calculates by extracting the prosodic feature amount from the audio data acquired by the acquisition unit 110 or output by the sound pressure adjustment unit 116.
  • the prosodic feature amount is a numerical value indicating the feature of the voice of the person U to be evaluated, which is extracted from the voice data used by the evaluation unit 140 to evaluate the oral function of the person U to be evaluated.
  • the prosodic feature includes a feature related to sound pressure, which is composed of at least one of a sound pressure difference and a temporal change in the sound pressure difference.
  • the prosodic features include speech rate, first formant frequency, second formant frequency, amount of change in first formant frequency, amount of change in second formant frequency, temporal change in first formant frequency, and second formant frequency. It may include at least one of a time change in frequency, an opening time, a closing time, and a plosive time.
  • the information output unit 180 is a processing unit that outputs information for increasing the S/N ratio.
  • the information output unit 180 generates and outputs information on instructions to improve the environment for collecting the voice uttered by the person being evaluated, when the calculated S/N ratio does not meet a certain standard.
  • the information output unit 180 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the calculation unit 130 calculates an estimated value of the oral function of the person U to be evaluated based on the prosodic feature extracted by the extraction unit 120 and a preset estimation formula.
  • the calculation unit 130 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the evaluation unit 140 evaluates the state of decline in the oral function of the person U by determining the estimated value calculated by the calculation unit 130 using the oral function evaluation index.
  • Index data 172 indicating the oral function evaluation index is stored in the storage unit 170.
  • the evaluation unit 140 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the output unit 150 outputs the estimated value calculated by the calculation unit 130 to the proposal unit 160. Further, the output unit 150 may output the evaluation result of the oral function of the person U evaluated by the evaluation unit 140 to the mobile terminal 300 or the like.
  • the output unit 150 is specifically realized by a processor, a microcomputer, a dedicated circuit, and a communication interface that performs wired or wireless communication.
  • the proposal unit 160 makes a proposal regarding the oral function of the person U to be evaluated by comparing the estimated value calculated by the calculation unit 130 with predetermined data.
  • Proposal data 173, which is predetermined data, is stored in the storage unit 170. Further, the proposal unit 160 may also compare the personal information acquired by the acquisition unit 110 with the proposal data 173 and make a proposal regarding the oral cavity to the person U to be evaluated.
  • the proposal unit 160 outputs the proposal to the mobile terminal 300.
  • the proposal unit 160 is realized by, for example, a processor, a microcomputer, a dedicated circuit, and a communication interface that performs wired or wireless communication.
  • the storage unit 170 includes estimation formula data 171 indicating an estimation formula for oral function calculated based on a plurality of learning data, and index data indicating an oral function evaluation index for determining the estimated value of the oral function of the person U.
  • 172 a storage device in which proposal data 173 indicating the relationship between the estimated value of oral function and the proposal contents, and personal information data 174 indicating the above-mentioned personal information of the person to be evaluated U are stored.
  • the estimation formula data 171 is referred to by the calculation unit 130 when calculating the estimated value of the oral function of the person U to be evaluated.
  • the index data 172 is referred to by the evaluation unit 140 when evaluating the state of decline in the oral function of the person U to be evaluated.
  • the proposal data 173 is referred to by the proposal unit 160 when a proposal regarding the oral cavity function is made to the person U to be evaluated.
  • the personal information data 174 is, for example, data acquired via the acquisition unit 110. Note that the personal information data 174 may be stored in the storage unit 170 in advance.
  • the storage unit 170 is realized by, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a semiconductor memory, an HDD (Hard Disk Drive), or the like.
  • the storage unit 170 includes programs executed by a computer to implement each functional unit of the voice feature amount calculation device 400, the calculation unit 130, the evaluation unit 140, the output unit 150, and the proposal unit 160, and programs executed by the evaluator U.
  • Image data showing the evaluation results used when outputting the evaluation results of oral function, and data such as images, videos, audio, or text showing the content of the proposal may also be stored.
  • the storage unit 170 may store an instruction image to be described later.
  • the oral function evaluation device 100 is configured to have two or more moras including a change in the first formant frequency or a change in the second formant frequency, or at least one of a pop sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • the evaluation unit may include an instruction unit for instructing the person to be evaluated to pronounce syllables or fixed phrases including the following. Specifically, the instruction unit acquires image data of an instruction image or audio data of an instruction voice stored in the storage unit 170 for instructing to pronounce the syllable or fixed phrase. Then, the image data or the audio data is output to the mobile terminal 300.
  • FIG. 3A is a flowchart showing a processing procedure for evaluating the oral function of the person U to be evaluated using the oral function evaluation method according to the embodiment.
  • FIG. 4 is a diagram showing an outline of a method for acquiring the voice of the person to be evaluated U using the oral function evaluation method.
  • the instruction part is a syllable or fixed form that is composed of two or more moras that include a change in the first formant frequency or a change in the second formant frequency, or that includes at least one of a pop sound, a plosive sound, a voiceless sound, a consonant sound, and a fricative sound.
  • An instruction is given to pronounce the sentence (step S101).
  • the instruction unit acquires image data of an image for instructions to the person to be evaluated U stored in the storage unit 170 , and outputs the image data to the mobile terminal 300 .
  • FIG. 4(a) an image for instructions to the person being evaluated U is displayed on the mobile terminal 300.
  • syllables such as “kara”, “sara”, “chara”, “jara”, “shara”, “chara”, and “pura”. Also, “Aei”, “Iea”, “Ai”, “Ia”, “Kakeki”, “Kikeka”, “Naneni”, “Chitteta”, “Papepi”, “Pipepa” , “Katepi”, “Chipeka”, “Kaki”, “Tachi”, “Papi”, “Misa”, “Rari”, “Wani”, “Niwa”, “Eo”, “I The user may be instructed to utter syllables such as ⁇ o'', ⁇ iu'', ⁇ teko'', ⁇ kiro'', ⁇ teru'', ⁇ peko'', ⁇ memo'', and ⁇ emo''.
  • the pronunciation instruction may be an instruction to repeatedly utter such a syllable.
  • the instruction unit also acquires the audio data of the voice for instructions to the person to be evaluated U stored in the storage unit 170, and outputs the audio data to the mobile terminal 300 to instruct the person to pronounce the sound.
  • the above-mentioned instruction may be given using an instruction sound that instructs to pronounce the pronunciation without using an instruction image.
  • an evaluator family member, doctor, etc.
  • you wants to evaluate the oral function of person U without using images and sounds to instruct person U to pronounce the words can give the above instructions to person U using his/her own voice. You may go.
  • the syllables or fixed phrases to be uttered may include two or more vowels or a combination of vowels and consonants that are accompanied by the opening and closing of the mouth or the back and forth movement of the tongue to produce the utterance.
  • a syllable or fixed phrase in Japanese includes, ⁇ I decided to draw the picture.'' In order to utter the ⁇ ewo'' in ⁇ I have decided to draw a picture,'' the tongue must move back and forth, and in order to utter the ⁇ kimeta'' in ⁇ I have decided to draw a picture,'' Accompanied by opening and closing of the mouth.
  • the ⁇ e'' part of ⁇ I decided to draw a picture'' contains the second formant frequencies of the vowel ⁇ e'' and the vowel ⁇ o,'' and the vowel ⁇ e'' and the vowel ⁇ o'' are adjacent to each other. Since they match, the amount of change in the second formant frequency is included. Also, this part includes the temporal change in the second formant frequency.
  • the "decided" part of "I decided to draw a picture” includes the first formant frequencies of the vowel "i", the vowel "e”, and the vowel "a”; Since "e” and the vowel "a” are adjacent to each other, the amount of change in the first formant frequency is included.
  • this part includes the time change of the first formant frequency.
  • the sound pressure range, the first formant frequency, the second formant frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, and the first formant frequency It is possible to extract prosodic features such as the temporal change in the second formant frequency, the temporal change in the second formant frequency, and the speech rate.
  • a fixed sentence to be uttered may include repetition of a syllable consisting of a plucked sound and a consonant different from the plucked sound.
  • a fixed phrase includes "karakarakara".
  • the syllable or fixed sentence to be uttered may include at least one combination of a vowel and a plosive.
  • a syllable in Japanese includes “hetai” and the like.
  • the prosodic feature of the sound pressure difference is easily affected by background noise, so especially in a sound collection environment with a relatively low S/N ratio, the prosodic feature of the sound pressure difference may be less than the estimated value. This may have a negative impact on accuracy in estimation. Therefore, in the present invention, the sound of the audio data is adjusted so that the feature amount of the sound pressure difference calculated (extracted) is appropriate according to the S/N ratio calculated by the S/N ratio calculation unit 115. Adjust pressure. In the present invention, by doing this, an appropriate prosodic feature of the sound pressure range is calculated, and the possibility that an inappropriate prosodic feature of the sound pressure range has a negative effect on accuracy is reduced in estimating the estimated value. This makes it possible to estimate the estimated value.
  • FIG. 3B is a flowchart showing a processing procedure for audio data used in the oral function evaluation method according to the embodiment.
  • FIG. 3C is a diagram showing an example of information output in the oral function evaluation method according to the embodiment.
  • FIG. 3D is a flowchart showing a processing procedure for audio data used in an oral function evaluation method according to another example of the embodiment.
  • 3E to 3G are diagrams illustrating adjustment of the sound pressure of audio data according to the embodiment.
  • FIG. 3H is a graph showing the relationship between adjusting sound pressure and accuracy (estimation accuracy) in the oral function evaluation method according to the embodiment.
  • the S/N ratio calculation unit 115 measures background noise and calculates a first average intensity (sound pressure) of only the background noise (step S201 ).
  • a first average intensity (sound pressure) of only the background noise step S201 .
  • the S/N ratio calculation unit 115 calculates the second average intensity (sound pressure) during speech by the person U to be evaluated in order to calculate the S/N ratio (step S202).
  • the sound of the instructed syllable or fixed phrase may be used, or a separate instruction may be given to utter any syllable or fixed phrase to collect the sound. .
  • the person being evaluated U is in a situation where he or she is having a conversation with someone immediately before performing the oral function evaluation, the first average intensity and the second average intensity may be calculated using that situation.
  • the S/N ratio calculation unit 115 calculates the S/N ratio by calculating the ratio of the second average intensity to the first average intensity (step S203).
  • the calculated S/N ratio is output to the information output section 180.
  • the information output unit 180 determines whether the S/N ratio is larger than the second threshold (step S204). If it is determined that the S/N ratio is less than or equal to the second threshold (No in S204), the information output unit 180 generates and outputs information that improves the sound collection environment to increase the S/N ratio (step S205).
  • a message is displayed on the mobile terminal 300 saying, "Please check the connection status of the microphone or increase the volume of your voice when speaking.”
  • the current state is shown.
  • An instruction is given to increase the S/N ratio by performing this.
  • the message "Please move the sound collection location" may be displayed on the mobile terminal 300 so as to reduce the environmental sound when the person being evaluated speaks.
  • step S204a is executed after step S201 and before step S202, but is the same in other respects.
  • the presence or absence of information output is determined simply based on the magnitude of background noise without calculating the S/N ratio.
  • step S204a it is determined whether the first average intensity is smaller than the sound pressure threshold. If the first average intensity is smaller than the sound pressure threshold (Yes in S204), steps S202 and S203 are executed, and the process proceeds to step S206.
  • step S205 the information output unit 180 generates information for improving the sound collection environment to increase the S/N ratio.
  • This example is advantageous over the example shown in FIG. 3B in that it is possible to determine whether or not information is output simply based on the first average intensity without calculating the S/N ratio. That is, there is an advantage in that the quality of the sound collection environment can be determined from the viewpoint of the amount of noise before instructing the person U to speak in order to calculate the second average intensity.
  • the information output unit 180 does nothing in particular and steps Proceed to S206. Specifically, the calculated S/N ratio is also output to the sound pressure adjustment section 116.
  • the sound pressure adjustment unit 116 determines whether the S/N ratio is larger than the first threshold (step S206). If it is determined that the S/N ratio is equal to or less than the first threshold (No in S206), the sound pressure adjustment unit 116 adjusts the sound pressure of the audio data (step S208), and ends the process. On the other hand, if it is determined that the S/N ratio is greater than the first threshold (Yes in S206), the sound pressure adjustment unit 116 does not adjust the sound pressure of the audio data (step S207), and ends the process.
  • the sound pressure of the audio data is adjusted (or not) according to the S/N ratio, and the audio data is used for extraction of prosodic features.
  • FIG. 3E shows the change in intensity of audio data over time when the S/N ratio is smaller than the second threshold (or the first average intensity is larger than the sound pressure threshold).
  • the S/N ratio is so small that even if the sound pressure is adjusted, appropriate prosodic features cannot be extracted, so in order to improve the sound collection environment, the information output unit 180 is Information is output. Therefore, in the case of audio data as shown in FIG. 3E, neither the extraction of prosodic features nor the evaluation of oral function is performed.
  • FIG. 3F the transition of the intensity change over time (upper row) and the change in the fundamental frequency (pitch) over time of the audio data when the S/N ratio is equal to or higher than the second threshold value and lower than the first threshold value are shown.
  • the transition (lower row) is shown.
  • the sound pressure has been adjusted, and audio data (broken line) with the sound pressure adjusted is generated from the acquired audio data (solid line).
  • the sound pressure adjustment here is performed at the timing when the sound pressure in the audio data reaches its minimum value and when the fundamental frequency shows 0 (points marked by white arrows in the figure). Implemented. This makes it possible to appropriately adjust the sound pressure at the timing when there is no sound and the sound intensity is minimal.
  • the sound pressure of the difference between the sound intensity during silence and the first average intensity is subtracted from the sound pressure of the minimum value at the above timing.
  • the sound pressure difference which is characterized by the difference between the local maximum value and the local minimum value, can be extracted as a more appropriate feature amount.
  • the above-mentioned sound intensity in quiet conditions may be obtained by storing a virtual intensity set in advance in the storage unit 170, etc., and reading it out and using it when adjusting the sound pressure, or by storing it in the same collection.
  • the lowest value of the intensity actually measured in the past under the sound condition may be used as the intensity of the sound in the quiet state.
  • FIG. 3G shows the change in intensity of audio data over time when the S/N ratio is equal to or greater than the first threshold.
  • an example of voice data of a healthy person is shown by a solid line
  • an example of voice data of a person with symptoms is shown by a broken line.
  • the second threshold value is set to a value larger than the S/N ratio at which appropriate prosodic features cannot be extracted even if the sound pressure is adjusted. It would be good if it was decided.
  • the first threshold value is preferably determined empirically or experimentally so that the sound pressure is not adjusted for the voice data of the person with the symptom.
  • FIG. 3H shows the relationship between the S/N ratio and the estimation accuracy when prosodic features are extracted from the raw speech data without considering the S/N ratio, and ( b) shows the relationship between the S/N ratio and estimation accuracy when prosodic features are extracted from audio data whose sound pressure has been adjusted according to the S/N ratio.
  • both (a) and (b) show the same estimation accuracy.
  • the estimation accuracy is lower than in (b) of FIG. 3H.
  • the dashed line in FIG. 3H (b) if the S/N ratio becomes smaller than the second threshold, an instruction to increase the S/N ratio is given, so that the estimated value is , since the audio data is acquired and processed again after moving to an environment with an improved S/N ratio, it becomes difficult to estimate the estimated value with low estimation accuracy.
  • the estimation accuracy may be higher than in (a) of Figure 3H, and even if the estimated value is estimated in this state, it may be useful. .
  • the audio data may be obtained by collecting audio in which the evaluator U utters a syllable or a fixed phrase at least twice at different speaking speeds. For example, the person being evaluated U is instructed to utter "I have decided to draw a picture" at a normal speed and at a faster speed. By uttering ⁇ I've decided to draw'' at the usual speed and at a faster speed, it is possible to estimate the degree to which oral function has been maintained.
  • the acquisition unit 110 acquires the voice data of the person U who received the instruction in step S101 via the mobile terminal 300 (step S102).
  • step S102 for example, the person being evaluated U utters syllables or fixed phrases such as “I have decided to draw a picture” toward the mobile terminal 300.
  • the acquisition unit 110 acquires the syllables or fixed sentences uttered by the person being evaluated U as audio data.
  • the extraction unit 120 extracts prosodic features from the speech data acquired by the acquisition unit 110 when the S/N ratio is larger than the first threshold, and when the S/N ratio is less than or equal to the first threshold.
  • a prosodic feature is extracted from the audio data output by the sound pressure adjustment unit 116 (step S103).
  • the extraction unit 120 extracts the sound pressure range, the first formant frequency, the second formant frequency, etc.
  • the frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, the time change in the first formant frequency, the time change in the second formant frequency, and the speaking speed are extracted as prosodic features. This will be explained using FIGS. 5A and 5B.
  • FIG. 5A is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, "I've decided to draw a picture.”
  • the horizontal axis of the graph shown in FIG. 5A is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 5A is decibel (dB).
  • the graph shown in Figure 5A includes “e”, “wo”, “ka”, “ku”, “ko”, “to”, “ni”, “ki”, “me”, “ta”, “yo”. ” is confirmed.
  • the acquisition unit 110 acquires the audio data shown in FIG. 5A from the person being evaluated U in step S102 shown in FIG. 3A.
  • the S/N ratio of the acquired audio data is calculated by the S/N ratio calculation unit, and the audio data to be provided to the extraction unit 120 is determined according to the calculated S/N ratio by the acquisition unit 110. Either the audio data or the audio data output by the sound pressure adjustment section 116 is determined.
  • the extraction unit 120 extracts the sound pressures of "k” and “a” in “ka” included in the audio data shown in FIG.
  • Each sound pressure of "k” and “o” in “(ko)”, each sound pressure of "t” and “o” in “to (to)”, “t” and “a” in “ta (ta)” Extract each sound pressure.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between "k” and "a” from the extracted sound pressures of "k” and "a” as a prosodic feature amount.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ko) between “k” and “o", the sound pressure range Diff_P(to) between “t” and “o”, and the sound pressure range Diff_P(to) between "t” and “a”.
  • the pressure difference Diff_P(ta) is extracted as a prosodic feature.
  • sound pressure gradients can assess oral function with respect to the force of swallowing (the pressure with which the tongue contacts the roof of the mouth) or the force of holding food together.
  • the oral function related to the ability to prevent food and drink from flowing into the throat can also be evaluated by the sound pressure gradient including "k”.
  • FIG. 5B is a diagram showing an example of a change in the formant frequency of the voice uttered by the person being evaluated, "I have decided to draw a picture.” Specifically, FIG. 5B is a graph for explaining an example of changes in the first formant frequency and the second formant frequency.
  • the first formant frequency is the first amplitude peak frequency seen from the low frequency side of human speech, and is known to easily reflect characteristics related to opening and closing of the mouth.
  • the second formant frequency is the second amplitude peak frequency seen from the low frequency side of human speech, and is known to easily reflect the effects of back and forth movements of the tongue.
  • the extraction unit 120 extracts the first formant frequency and the second formant frequency of each of a plurality of vowels as prosodic features from the audio data representing the speech uttered by the person to be evaluated. For example, the extraction unit 120 extracts the second formant frequency F2e corresponding to the vowel "e” and the second formant frequency F2o corresponding to the vowel “o” in “Ewo” as prosodic features. For example, the extraction unit 120 also extracts the first formant frequency F1i corresponding to the vowel "i”, the first formant frequency F1e corresponding to the vowel "e”, and the first formant frequency F1e corresponding to the vowel "a" in "Kimeta”. The formant frequency F1a is extracted as a prosodic feature.
  • the extraction unit 120 extracts the amount of change in the first formant frequency and the amount of change in the second formant frequency of a character string with consecutive vowels as prosodic feature amounts. For example, the extraction unit 120 extracts the amount of change in the second formant frequency F2e and the second formant frequency F2o (F2e-F2o), and the amount of change in the first formant frequency F1i, the first formant frequency F1e, and the first formant frequency F1a ( F1e-F1i, F1a-F1e, F1a-F1i) are extracted as prosodic features.
  • the extraction unit 120 extracts the temporal change in the first formant frequency and the temporal change in the second formant frequency of the character string with consecutive vowels as prosodic features. For example, the extraction unit 120 extracts temporal changes in the second formant frequency F2e and second formant frequency F2o, and temporal changes in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a as prosodic features. do.
  • FIG. 5B shows an example of a time change in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a, and the time change is ⁇ F1/ ⁇ Time. This ⁇ F1 is F1a ⁇ F1i.
  • the oral function related to food gathering movements front, back, left, and right movements of the tongue
  • the oral function related to the ability to grind food can be evaluated based on the first formant frequency, the amount of change in the first formant frequency, or the time change in the first formant frequency.
  • oral function related to the ability to move the mouth quickly can be evaluated based on the temporal change in the first formant frequency.
  • the extraction unit 120 may extract speech speed as a prosodic feature.
  • the extraction unit 120 may extract the time from when the person U to be evaluated starts uttering "I decided to draw a picture" to when the utterance ends as a prosodic feature amount.
  • the extraction unit 120 is not limited to the time until the entire sentence "I have decided to draw a picture" is uttered, but the extraction unit 120 may emit the utterance from the time when a specific part of "I have decided to draw a picture” is uttered. The time taken to complete the process may be extracted as a prosodic feature.
  • the extraction unit 120 may extract the average time required to utter one or more words of all or a specific part of "I decided to draw a picture" as a prosodic feature.
  • speaking rate can assess oral function with respect to swallowing movements, food gathering movements, or tongue dexterity.
  • the extraction unit 120 extracts the temporal change in the sound pressure difference as a prosodic feature. do. This will be explained using FIG. 6.
  • FIG. 6 is a diagram illustrating an example of audio data showing the voice repeatedly uttered by the person being evaluated, "Karakakarakara".
  • the horizontal axis of the graph shown in FIG. 6 is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 6 is decibel (dB).
  • the acquisition unit 110 acquires the audio data shown in FIG. 6 from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "k” and “a” in “ka” included in the audio data shown in FIG.
  • the sound pressures of "r” and “a” in “(ra)” are extracted.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between "k” and "a” from the extracted sound pressures of "k” and "a” as a prosodic feature amount.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ra) between “r” and “a” as a prosodic feature amount. For example, the extraction unit 120 extracts the sound pressure difference Diff_P(ka) and the sound pressure difference Diff_P(ra) as prosodic features for each repeatedly uttered "kara”. Then, the extraction unit 120 extracts the temporal change of the sound pressure difference Diff_P(ka) from each of the extracted sound pressure differences Diff_P(ka) as a prosodic feature amount, and , the temporal change in the sound pressure difference Diff_P(ra) is extracted as a prosodic feature. For example, oral function with respect to swallowing movements, food gathering movements or the ability to crush food can be assessed by the temporal variation of the sound pressure gradient.
  • the extraction unit 120 may extract temporal changes in sound pressure as prosodic features. For example, the time change of the minimum sound pressure (sound pressure of "k”) for each "kara” when repeatedly uttered “karakarakara" may be extracted, or The time change of the maximum sound pressure (sound pressure of "a”) may be extracted, or the time change of the sound pressure between "ka” and "ra” (sound pressure of "r") in each "kara” may be extracted. Changes may be extracted. For example, oral function with respect to swallowing movements, food gathering movements, or the ability to crush food can be assessed by the temporal variation of sound pressure.
  • the extraction unit 120 may extract the number of repetitions, which is the number of times "kara" can be uttered within a predetermined period of time, as a feature quantity.
  • the predetermined time is not particularly limited, but may be 5 seconds or the like.
  • the number of repetitions per predetermined time period can assess oral function related to swallowing movements or food gathering movements.
  • the extraction unit 120 extracts the sound pressure difference and the duration of the plosive as prosodic features. This will be explained using FIG. 7.
  • FIG. 7 is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, saying, "What the home."
  • audio data showing repeated utterances such as "What the home" is shown.
  • the horizontal axis of the graph shown in FIG. 7 is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 7 is decibel (dB).
  • the acquisition unit 110 acquires the audio data shown in FIG. 7 from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "t” and "a” in "ta” included in the audio data shown in FIG. 7 using a known method.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ta) between "t” and "a” from the extracted sound pressures of "t” and "a” as a prosodic feature amount.
  • sound pressure gradients can assess oral function in terms of swallowing force or food holding power.
  • the extraction unit 120 also extracts the plosive time Time (i-ta) (the plosive time between "i” and "ta”) as a prosodic feature.
  • i-ta the plosive time between "i” and "ta”
  • the duration of the plosive can be used to assess oral function with respect to swallowing movements, food gathering movements, or steady movements of the tongue.
  • syllables or fixed phrases to be uttered are explained using Japanese syllables or fixed phrases as an example, they may be any language other than Japanese.
  • FIG. 8 is a diagram showing an example of a Chinese syllable or fixed sentence that is similar to a Japanese syllable or fixed sentence in the degree of tongue movement or mouth opening and closing during pronunciation.
  • FIG. 8 shows some examples of syllables or fixed sentences for Japanese and Chinese that have similar tongue movements or mouth opening/closing degrees during pronunciation.
  • FIGS. 9A and 9B Furthermore, the fact that there are languages in the world that have similar tongue movements or mouth opening/closing during pronunciation will be briefly explained using FIGS. 9A and 9B.
  • FIG. 9A is a diagram showing the International Phonetic Symbol of vowels.
  • FIG. 9B is a diagram showing the International Phonetic Alphabet of consonants.
  • the positional relationship of the International Phonetic Alphabet for vowels shown in Figure 9A shows the forward and backward movements of the tongue in the horizontal direction; the closer they are, the more similar the forward and backward movements of the tongue are, and the vertical direction shows the degree of opening and closing of the mouth. , the closer they are, the more similar are the degrees of opening and closing of the mouth.
  • the horizontal direction shows the parts used for pronunciation, from the lips to the throat. You can pronounce it using parts. Therefore, the present invention can be applied to various languages existing in the world.
  • the syllables or fixed phrases should include consecutive International Phonetic Symbols (for example, "i” and "a”) separated in the vertical direction as shown in FIG. 9A.
  • consecutive International Phonetic Symbols for example, "i” and "a”
  • the first formant frequency for example, "i" and "a”
  • the second formant frequency for example, "i" and "u”
  • the extraction unit 120 extracts the sound pressure range, first formant frequency, , the second formant frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, the temporal change in the first formant frequency, the temporal change in the second formant frequency, and the speaking speed are extracted as prosodic features. This will be explained using FIGS. 10A and 10B.
  • FIG. 10A is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, "gao dao wu da ka ji ke da yi wu zhe.”
  • the horizontal axis of the graph shown in FIG. 10A is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 10A is decibel (dB).
  • the graph shown in FIG. 10A includes “gao”, “dao”, “wu”, “da”, “ka”, “ji”, “ke”, “da”, “yi”, “wu”, “zhe” ” is confirmed.
  • the acquisition unit 110 acquires the audio data shown in FIG. 10A from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "d” and “a” in “dao” and "ka” included in the audio data shown in FIG. 10A using a known method.
  • the sound pressures of "k” and “a”, the sound pressures of "k” and “e” in “ke”, and the sound pressures of "zh” and “e” in “zhe” are extracted.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(da) between “d” and “a” from the extracted sound pressures of "d” and “a” as a prosodic feature amount.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between "k” and “a”, the sound pressure range Diff_P(ke) between "k” and “e”, and the sound pressure range Diff_P(ke) between "zh” and “e”.
  • the pressure difference Diff_P(zhe) is extracted as a prosodic feature.
  • sound pressure gradients can assess oral function in terms of swallowing force or food holding power.
  • the oral function related to the ability to prevent food and drink from flowing into the throat can also be evaluated by the sound pressure gradient including "k”.
  • FIG. 10B is a diagram illustrating an example of a change in the formant frequency of the voice uttered by the evaluator U as "gao dao wu da ka ji ke da yi wu zhe.” Specifically, FIG. 10B is a graph for explaining an example of changes in the first formant frequency and the second formant frequency.
  • the extraction unit 120 extracts the first formant frequency and the second formant frequency of each of a plurality of vowels as prosodic features from the audio data representing the speech uttered by the person to be evaluated. For example, the extraction unit 120 extracts the first formant frequency F1i corresponding to the vowel “i” in “ji", the first formant frequency F1e corresponding to the vowel “e” in “ke”, and the vowel “a” in “da”. The corresponding first formant frequency F1a is extracted as a prosodic feature. For example, the extraction unit 120 extracts the second formant frequency F2i corresponding to the vowel "i” in “yi” and the second formant frequency F2u corresponding to the vowel "u” in “wu” as prosodic features.
  • the extraction unit 120 extracts the amount of change in the first formant frequency and the amount of change in the second formant frequency of a character string with consecutive vowels as prosodic feature amounts. For example, the extraction unit 120 extracts the first formant frequency F1i, the first formant frequency F1e, and the amount of change in the first formant frequency F1a (F1e-F1i, F1a-F1e, F1a-F1i), as well as the second formant frequency F2i and the first formant frequency F1a. The amount of change (F2i-F2u) in the two-formant frequency F2u is extracted as a prosodic feature.
  • the extraction unit 120 extracts the temporal change in the first formant frequency and the temporal change in the second formant frequency of the character string with consecutive vowels as prosodic features. For example, the extraction unit 120 extracts temporal changes in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a, and temporal changes in the second formant frequency F2i and second formant frequency F2u as prosodic features. do.
  • the oral function related to food gathering movements can be evaluated based on the second formant frequency, the amount of change in the second formant frequency, or the temporal change in the second formant frequency.
  • the oral function related to the ability to grind food can be evaluated based on the first formant frequency, the amount of change in the first formant frequency, or the time change in the first formant frequency.
  • oral function related to the ability to move the mouth quickly can be evaluated based on the temporal change in the first formant frequency.
  • the extraction unit 120 may extract speech speed as a prosodic feature.
  • the extraction unit 120 may extract the time from when the person U to be evaluated starts saying "gao dao wu da ka ji ke da yi wu zhe" until the end of the utterance as the prosodic feature amount.
  • the extraction unit 120 is not limited to the time required to finish uttering all of "gao dao wu da ka ji ke da yi wu zhe”; Identification of “da yi wu zhe” The time from the beginning of the utterance to the end of the utterance may be extracted as a prosodic feature.
  • the extraction unit 120 extracts the average time it takes to utter one word or multiple words of all or a specific part of "gao dao wu da ka ji ke da yi wu zhe" as a prosodic feature.
  • speaking rate can assess oral function with respect to swallowing movements, food gathering movements, or tongue dexterity.
  • the calculation unit 130 estimates the oral function of the person U to be evaluated based on the extracted prosodic feature amount and the oral function estimation formula calculated based on the plurality of learning data. A value is calculated (step S104).
  • the estimation formula for oral function is set in advance based on the evaluation results performed on multiple subjects.
  • the voice features uttered by the test subject are collected, the test subject's oral function is actually diagnosed, and the correlation between the voice features and the diagnosis results is established through statistical analysis using multiple regression equations.
  • Different types of estimation formulas can be generated depending on how the audio features used as representative values are selected. In this way, an estimation formula can be generated in advance.
  • Machine learning may be used to set the correlation between the voice feature amount and the diagnosis result.
  • Machine learning methods include logistics regression, SVM (Support Vector Machine), and random forest.
  • the estimation formula can be configured to include a coefficient corresponding to an element of oral function and a variable to which the extracted prosodic feature is substituted and multiplied by the coefficient. Equations 1 to 5 below are examples of estimation equations.
  • Estimated tongue coating degree (A1 x F2e) + (B1 x F2o) + (C1 x F1i) + (D1 x F1e) + (E1 x F1a) + (F1 x Diff_P (ka)) + (G1 x Diff_P (ko))+(H1 ⁇ Diff_P(to))+(J1 ⁇ Diff_P(ta))+(K1 ⁇ Diff_P(ka))+(L1 ⁇ Diff_P(ra))+(M1 ⁇ Num(kara))+ (N1 ⁇ Diff_P(ta))+(P1 ⁇ Time(i-ta))+Q1 (Formula 1)
  • A1, B1, C1,..., P1, A2, B2, C2,..., P2, A3, B3, C3,..., P3, A4, B4, C4,..., P4, A5, B5, C5, . . . , P5 are coefficients, specifically, coefficients corresponding to elements of oral function.
  • A1, B1, C1, ..., P1 are coefficients corresponding to the degree of tongue coating, which is one of the factors of oral function
  • A2, B2, C2, ..., P2 are coefficients corresponding to the degree of tongue coating, which is one of the factors of oral function.
  • A3, B3, C3, ..., P3 are coefficients corresponding to occlusal force, which is one of the elements of oral function
  • A4, B4, C4, ..., P4 are coefficients corresponding to tongue pressure, which is one of the elements of oral function
  • A5, B5, C5, ..., P5 are coefficients, which are one of the elements of oral function. This is a coefficient corresponding to a certain mastication function.
  • Q1 is a constant corresponding to the degree of tongue coating adhesion
  • Q2 is a constant corresponding to the degree of oral mucosal moisture
  • Q3 is a constant corresponding to occlusal force
  • Q4 is a constant corresponding to tongue pressure
  • Q5 is a constant corresponding to mastication. It is a constant corresponding to a function.
  • F2e which is multiplied by A1, A2, A3, A4, and A5
  • F2o which is multiplied by B1, B2, B3, B4, and B5
  • This is a variable to which the second formant frequency, which is a prosodic feature extracted from speech data, is substituted.
  • F1i which is multiplied by C1, C2, C3, C4, and C5
  • F1e which is multiplied by D1, D2, D3, D4, and D5
  • F1a which is multiplied by E1, E2, E3, E4, and E5
  • Diff_P(ka) is multiplied by F1, F2, F3, F4, F5
  • Diff_P(ko) is multiplied by G1, G2, G3, G4, G5,
  • Diff_P( is multiplied by H1, H2, H3, H4, H5).
  • Diff_P(ta), which is multiplied by J1, J2, J3, J4, and J5, is the prosodic feature extracted from the utterance data when the evaluator U uttered, "I decided to draw a picture.” This is a variable to which the sound pressure difference, which is a quantity, is substituted.
  • Diff_P(ka), which is multiplied by K1, K2, K3, K4, and K5, and Diff_P(ra), which is multiplied by L1, L2, L3, L4, and L5, are This is a variable to which the sound pressure difference, which is a prosodic feature extracted from speech data, is substituted.
  • Num (kara), which is multiplied by M1, M2, M3, M4, and M5, is the number of repetitions, which is the prosodic feature extracted from the utterance data when the evaluator U repeatedly utters "kara" within a certain period of time. is the variable to be assigned.
  • Diff_P(ta), which is multiplied by N1, N2, N3, N4, and N5, is a variable to which the sound pressure difference, which is a prosodic feature extracted from the utterance data when the person U utters "hetai", is substituted. It is.
  • Time (i-ta), which is multiplied by P1, P2, P3, P4, and P5, is substituted with the time of the plosive, which is a prosodic feature extracted from the utterance data when the person being evaluated U utters “hetai”. It is a variable that is
  • the calculation unit 130 calculates each element of the oral function of the person U to be evaluated (e.g., degree of tongue coating adhesion, degree of oral mucosal moisture, occlusal force, tongue pressure, and masticatory function). Calculate the estimated value.
  • these elements of oral function are just examples, and the elements of oral function include degree of tongue coating adhesion, oral mucosal moisture, occlusal force, tongue pressure, cheek pressure, number of remaining teeth, swallowing function, and It is sufficient that at least one of the mastication functions is included.
  • the extraction unit 120 extracts a plurality of types of syllables or fixed phrases (for example, in Equations 1 to 5 above, "I decided to write the picture", "kara", and "hetai") to the evaluator U.
  • the calculation unit 130 extracts a plurality of prosodic features from the voice data obtained by collecting the sounds uttered by the user, and estimates the oral function based on the extracted plurality of prosodic features and the estimation formula. Calculate the value.
  • the calculation unit 130 can calculate an estimated value of oral function with high accuracy by substituting a plurality of prosodic features extracted from audio data of a plurality of types of syllables or fixed sentences into one estimation formula.
  • estimation equation may be a multidimensional equation such as a quadratic equation.
  • the evaluation unit 140 evaluates the state of decline in the oral function of the person to be evaluated U by determining the estimated value calculated by the calculation unit 130 using the oral function evaluation index (step S105). For example, the evaluation unit 140 determines the estimated value of each element of the oral function calculated using an oral function evaluation index determined for each element of the oral function, thereby reducing the decline in the oral function of the person being evaluated. Evaluate the condition for each element of oral function.
  • the oral function evaluation index is an index for evaluating oral function, and is, for example, a condition for determining that oral function has deteriorated. The oral function evaluation index will be explained using FIG. 11.
  • FIG. 11 is a diagram showing an example of an oral function evaluation index.
  • Oral function evaluation indicators are determined for each element of oral function. For example, an index of 50% or more is set for the degree of tongue coating adhesion, an index of 27 or less is set for the degree of oral mucosal moisture, and an index of less than 500N is set for the bite force (GC Corporation Dental When using Prescale II), an index of less than 30 kPa is set for tongue pressure, and an index of less than 100 mg/dL is set for masticatory function (for indicators, see the Japanese Dental Association's "Oral Function Decline”). basic concepts regarding diseases (https://www.jads.jp/basic/pdf/document_02.pdf).
  • the evaluation unit 140 compares the calculated estimated value for each element of oral function with the oral function evaluation index determined for each element of oral function to determine the state of decline in the oral function of the person U. Evaluate each functional element. For example, if the estimated value of the calculated degree of tongue coating is 50% or more, it is evaluated that oral hygiene as an element of oral function is in a deteriorated state.
  • the estimated value of the calculated oral mucosal moisture level is 27 or less, it is evaluated that the oral mucosal moisture level is in a decreased state as an element of oral function, and the calculated estimated value of the occlusal force is If it is less than 500N, it is evaluated that the occlusal force is in a decreased state as an element of oral function, and if the estimated value of the calculated tongue pressure is less than 30kPa, it is evaluated that tongue pressure is in a decreased state as an element of oral function. If the calculated estimated value of masticatory function is less than 100 mg/dL, it is evaluated that masticatory function as an element of oral function is in a decreased state.
  • the oral function evaluation indexes determined for the degree of tongue coating adhesion, the wetness of the oral mucosa, the occlusal force, the tongue pressure, and the masticatory function shown in FIG. 11 are merely examples, and are not limited thereto.
  • an index of remaining teeth may be determined for masticatory function.
  • the degree of tongue coating adhesion, the degree of oral mucosal moisture, the occlusal force, the tongue pressure, and the masticatory function are shown as elements of oral function, these are just examples.
  • there are oral function factors such as tongue movement, lip movement, and lip strength for tongue and lip motor dysfunction.
  • the output unit 150 outputs the evaluation result of the oral function of the person U evaluated by the evaluation unit 140 (step S106).
  • the output unit 150 outputs the evaluation result to the mobile terminal 300.
  • the output unit 150 may include, for example, a communication interface that performs wired communication or wireless communication, and acquires image data of an image corresponding to the evaluation result from the storage unit 170 and acquires it to the mobile terminal 300. Send image data. Examples of the image data (evaluation results) are shown in FIGS. 12 and 13.
  • the evaluation result may be a two-level evaluation result of OK or NG.
  • OK means normal
  • NG means abnormal.
  • normality and abnormality may not be indicated for each element of oral function; for example, only the evaluation results of elements suspected of being degraded may be indicated.
  • the evaluation result is not limited to a two-level evaluation result, but may be a detailed evaluation result in which the degree of evaluation is divided into three or more levels.
  • the index data 172 stored in the storage unit 170 may include a plurality of indexes for one element.
  • the evaluation results may be expressed in a radar chart.
  • FIGS. 12 and 13 the cleanliness of the mouth, the ability to hold food together, the ability to chew hard objects, the strength of the tongue, and the movement of the jaw are shown as elements of oral function.
  • the cleanliness of the mouth is based on the degree of tongue coating
  • the ability to hold food together is based on the moisture level of the oral mucosa
  • the ability to chew hard food is based on occlusal force
  • the force of the tongue is based on tongue pressure
  • the movement of the jaw is based on the estimated value of masticatory function. Evaluation results are presented. Note that FIGS. 12 and 13 are examples, and the wording of the evaluation items, the oral function items, and their corresponding combinations are not limited to those shown in FIGS. 12 and 13.
  • the proposal unit 160 makes a proposal regarding the oral function of the person U by comparing the estimated value calculated by the calculation unit 130 with predetermined data (proposal data 173). (Step S107).
  • predetermined data will be explained using FIG. 14.
  • FIG. 14 is an example of predetermined data (proposal data 173) used when making proposals regarding oral cavity functions.
  • the proposal data 173 is data in which evaluation results and proposal contents are associated with each other for each element of oral function. For example, if the calculated estimated value of oral cleanliness is less than 50%, the proposal unit 160 determines that it is OK because the index is satisfied, and proposes content that is associated with oral cleanliness.
  • the storage unit 170 includes data indicating the proposal contents (for example, images, videos, audio, text, etc.), and the proposal unit 160 Using such data, a proposal regarding the oral cavity function is made to the person U to be evaluated.
  • the voice feature amount calculation method is executed by a computer, and calculates the prosodic feature amount (feature amount) of the voice of the person U from the voice uttered by the person U.
  • This is a voice feature calculation method for calculating voice features, which acquires voice data obtained by collecting the voice uttered by the person being evaluated. The sound pressure in the audio data is adjusted based on the first average intensity of the sounds collected during the non-occurring period, and a prosodic feature amount including at least a feature amount related to the sound pressure is calculated from the audio data after the sound pressure adjustment.
  • the feature quantity related to the sound pressure calculated from the voice uttered by the person being evaluated is not suitable for use as it is, for example, in the evaluation of oral function, etc.
  • a prosodic feature amount that is an appropriate feature amount related to sound pressure.
  • the calculated feature quantity related to the sound pressure becomes more appropriate from the viewpoint of using it, for example, for evaluating the oral function of the person U to be evaluated. That is, it becomes possible to more appropriately calculate the prosodic feature amount of the voice from the voice of the person to be evaluated.
  • the voice feature amount calculation method is the voice feature amount calculation method described in the first aspect, in which sound is collected during a period in which the evaluated person U is making a sound in the acquired voice data. further calculates the S/N ratio which is the ratio of the second average intensity of the sound to the first average intensity, and when the calculated S/N ratio is less than or equal to the first threshold, adjusts the sound pressure in the audio data. You can.
  • the sound pressure of the audio data can be adjusted, and a feature amount related to the sound pressure can be calculated from the audio data after the sound pressure has been adjusted.
  • the calculated feature quantity related to the sound pressure becomes more appropriate from the viewpoint of using it, for example, for evaluating the oral function of the person U to be evaluated. That is, it becomes possible to more appropriately calculate the prosodic feature amount of the voice from the voice of the person to be evaluated.
  • the audio feature amount calculation method according to the third aspect is the audio feature amount calculation method described in the second aspect, and when the calculated S/N ratio is larger than the first threshold, There is no need to adjust the pressure.
  • the feature amount related to sound pressure is suitable for use as is, based on the condition of whether the S/N ratio is larger than the first threshold value. According to the determination, a feature amount related to the sound pressure can be calculated from the audio data with the same sound pressure without adjusting the sound pressure of the audio data. Thereby, the calculated feature quantity related to the sound pressure becomes more appropriate from the viewpoint of using it, for example, for evaluating the oral function of the person U to be evaluated. That is, it becomes possible to more appropriately calculate the prosodic feature amount of the voice from the voice of the person to be evaluated.
  • the audio feature amount calculation method according to the fourth aspect is the audio feature amount calculation method according to any one of the first to third aspects, in which the sound pressure in the audio data is adjusted by measuring the sound pressure in advance.
  • the sound pressure may be adjusted by subtracting the sound pressure of the difference between the quiet sound intensity and the first average intensity from the sound pressure in the audio data.
  • the difference in sound pressure from the intensity of can be adjusted.
  • the audio feature amount calculation method according to the fifth aspect is the audio feature amount calculation method according to any one of the first to fourth aspects, and the adjustment of the sound pressure in the audio data is It may be performed at a timing when the sound pressure shows a minimum value.
  • the audio feature amount calculation method according to the sixth aspect is the audio feature amount calculation method described in the fifth aspect, and the adjustment of the sound pressure in the audio data indicates that the fundamental frequency of the audio data is 0. It may also be implemented with respect to timing.
  • the sound pressure can be adjusted by specifying the time when the evaluated person U is not speaking based on the timing when the fundamental frequency of the audio data indicates 0.
  • the voice feature amount calculation method according to the seventh aspect is the voice feature amount calculation method according to any one of the first to sixth aspects, wherein the feature amounts include a sound pressure difference and a sound pressure difference. and at least one of formant, formant change, opening time, closing time, plosive time, and speech rate.
  • the calculated feature quantities include at least one of sound pressure gradient and sound pressure gradient change as feature quantities related to sound pressure, and other feature quantities include formant, formant change, opening time, closing time, and plosive sound. time and/or speaking speed may be included.
  • the audio feature amount calculation method according to the eighth aspect is the audio feature amount calculation method described in the second or third aspect, and when the calculated S/N ratio is equal to or less than the second threshold, the Information for increasing the /N ratio may also be output.
  • the audio feature amount calculation method according to the ninth aspect is the audio feature amount calculation method according to any one of the second or third aspects, and the first average intensity is equal to or higher than the sound pressure threshold. Additionally, information for increasing the S/N ratio may be further output.
  • it may be composed of two or more moras including a change in the first formant frequency or a change in the second formant frequency, or at least one of a plucking sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • step S103 a calculation step of calculating an estimated value of the oral function of the person U to be evaluated based on the estimation formula for the oral function calculated based on a plurality of learning data and the extracted prosodic feature amount; (Step S104), and an evaluation step (Step S105) of evaluating the state of decline in oral function of the person U to be evaluated by determining the calculated estimated value using an oral function evaluation index.
  • the oral function of the person U to be evaluated can be easily evaluated by acquiring audio data suitable for evaluating the oral function.
  • the oral function of the person U can be evaluated simply by the person U uttering the above syllables or fixed phrases into a sound collection device such as the mobile terminal 300.
  • the estimated value of oral cavity function is calculated using an estimation formula calculated based on a plurality of learning data, it is possible to quantitatively evaluate the state of decline in oral cavity function.
  • an estimated value is calculated from the prosodic features and an estimation formula, and this estimated value is compared with a threshold (oral function evaluation index). Therefore, it is possible to accurately evaluate the state of decline in oral function.
  • the estimation formula may include a coefficient corresponding to an element of oral function and a variable to which the extracted prosodic feature is substituted and multiplied by the coefficient.
  • an estimated value of oral function can be easily calculated by simply substituting the extracted prosodic feature amount into the estimation formula.
  • an estimated value is calculated for each element of the oral function of the person being evaluated, and in the evaluation step, the estimated value for each element of the oral function is calculated based on the oral cavity defined for each element of the oral function.
  • the state of decline in the oral function of the person U may be evaluated for each element of the oral function.
  • the state of decline in oral cavity function can be evaluated for each element. For example, by preparing an estimation formula for each element of oral function with different coefficients depending on the element of oral function, it is possible to easily evaluate the state of decline in oral function for each element.
  • the elements of oral function may include at least one of the following: degree of tongue coating, degree of oral mucosal moisture, occlusal force, tongue pressure, buccal pressure, number of remaining teeth, swallowing function, and masticatory function of assessee U. good.
  • the state of decline in at least one element of the oral function of the assessee U including the degree of tongue coating adhesion, the moisture level of the oral mucosa, the occlusal force, the tongue pressure, the buccal pressure, the number of remaining teeth, the swallowing function, and the masticatory function. can be evaluated.
  • the prosodic features include speech rate, sound pressure difference, time change in sound pressure difference, first formant frequency, second formant frequency, amount of change in first formant frequency, amount of change in second formant frequency, and first formant frequency. It may include at least one of a time change in frequency, a time change in second formant frequency, and a plosive time.
  • a plurality of prosodic features are extracted from the voice data obtained by collecting the voice of the evaluator U who uttered multiple types of syllables or fixed sentences, and in the calculation step, the extracted prosodic features are The estimated value may be calculated based on a plurality of prosodic feature amounts and estimation formulas.
  • a syllable or a fixed sentence may include two or more vowels or a combination of vowels and consonants that involve opening and closing the mouth or moving the tongue back and forth in order to speak.
  • the amount of change in the first formant frequency, the time change in the first formant frequency, the amount of change in the second formant frequency, or the amount of change in the second formant frequency is determined from the voice in which the evaluator U utters such syllables or fixed phrases. It is possible to extract prosodic features including temporal changes in frequency.
  • the audio data may be obtained by collecting audio in which the person being evaluated U utters a syllable or a fixed phrase at least twice at different speaking speeds.
  • the fixed sentence may include repetition of a syllable consisting of a plucked sound and a consonant different from the plucked sound.
  • the prosodic feature amount including the time change of the sound pressure difference, the time change of the sound pressure, and the number of repetitions from the speech of the evaluator U uttering such syllables or fixed phrases.
  • a syllable or fixed sentence may include at least one combination of a vowel and a plosive.
  • the oral function evaluation method may further include a proposing step of making a proposal regarding the oral function of the person U to be evaluated by comparing the calculated estimated value with predetermined data.
  • the person being evaluated U can receive suggestions on what measures to take when oral function deteriorates.
  • the voice feature amount calculation device 400 is a voice feature amount calculation device 400 that calculates the feature amount of the voice of the evaluated person U from the voice uttered by the evaluated person U.
  • an acquisition unit 110 that acquires audio data obtained by collecting voices uttered by person U; and a first average of sounds collected during a period in which person U is not making a sound in the acquired audio data.
  • a sound pressure adjustment unit 116 that adjusts the sound pressure in audio data based on the intensity; and an extraction unit 120 that calculates by extracting feature quantities including at least sound pressure-related features from the sound pressure-adjusted audio data. , is provided.
  • An oral function evaluation device 100 includes the audio feature calculation device 400 according to the tenth aspect, and an estimation formula that includes a feature amount related to sound pressure among the feature amounts extracted from audio data. and the feature quantity extracted from the sound data after sound pressure adjustment. and an evaluation unit 140 that evaluates the state of decline in the oral function of the person U to be evaluated by making a determination using the following.
  • the oral function of the person U to be evaluated can be evaluated using the voice feature value calculation device 400.
  • a sound collection device used to collect sounds uttered by the person being evaluated
  • a presentation device mobile terminal 300 for presenting the evaluated state of deteriorated oral function of the person U being evaluated.
  • a sound collection device microphone
  • a presentation device mobile terminal 300
  • syllables or fixed phrases that consist of two or more moras that include a change in the first formant frequency or a change in the second formant frequency, or that include at least one of a pop, a plosive, a voiceless, a consonant, and a fricative.
  • An acquisition unit 110 that acquires voice data obtained by collecting the voice uttered by the person being evaluated, an extraction unit 120 that extracts prosodic features from the acquired voice data, and a A calculation unit 130 that calculates an estimated value of the oral function of the person U to be evaluated based on the calculated oral function estimation formula and the extracted prosodic feature amount;
  • the evaluation unit 140 may also be provided, which evaluates the state of decline in the oral function of the person U by making a determination using the following.
  • the oral function evaluation device 100 that can easily evaluate the oral function of the person U to be evaluated.
  • the oral function evaluation device 100 and a sound collection device that collects sounds of syllables or fixed phrases uttered by the person U to be evaluated in a non-contact manner may be provided.
  • an oral function evaluation system 200 that can easily evaluate the oral function of the person U to be evaluated.
  • the estimation formula candidates may be updated based on the evaluation results obtained when an expert actually diagnoses the oral function of the person U to be evaluated. Thereby, the accuracy of evaluation of oral cavity function can be improved. Machine learning may be used to improve the accuracy of evaluating oral function.
  • the proposal data 173 may be updated based on the evaluation result after the person U evaluates the proposal content. For example, if a proposal is made regarding an oral function that does not pose a problem for the person being evaluated U, the person being evaluated U evaluates the content of this proposal as incorrect. Then, by updating the proposal data 173 based on this evaluation result, the above-mentioned erroneous proposals are prevented from being made. In this way, the content of the proposal regarding the oral cavity function for the person U to be evaluated can be made more effective. Note that machine learning may be used to make suggestions regarding oral cavity functions more effective.
  • the oral function evaluation results may be accumulated as big data together with personal information and used for machine learning.
  • the content of proposals related to oral cavity functions may be accumulated as big data together with personal information and used for machine learning.
  • the oral function evaluation method included a proposal step (step S107) for making a proposal regarding oral function, but it does not have to be included.
  • the oral function evaluation device 100 does not need to include the suggestion unit 160.
  • the personal information of the person to be evaluated U is acquired in the acquisition step (step S102), but it is not necessary to acquire it.
  • the acquisition unit 110 does not need to acquire the personal information of the person U to be evaluated.
  • the steps in the oral function evaluation method may be executed by a computer (computer system).
  • the present invention can be realized as a program for causing a computer to execute the steps included in those methods.
  • the present invention can be realized as a non-transitory computer-readable recording medium such as a CD-ROM on which the program is recorded.
  • each step is executed by executing the program using hardware resources such as a computer's CPU, memory, and input/output circuits. . That is, each step is executed by the CPU acquiring data from a memory or an input/output circuit, etc., performing calculations, and outputting the calculation results to the memory, input/output circuit, etc.
  • hardware resources such as a computer's CPU, memory, and input/output circuits.
  • each component included in the oral function evaluation device 100 and the oral function evaluation system 200 of the above embodiments may be realized as a dedicated or general-purpose circuit.
  • each component included in the oral function evaluation device 100 and the oral function evaluation system 200 of the above embodiments may be realized as an LSI (Large Scale Integration) that is an integrated circuit (IC).
  • LSI Large Scale Integration
  • IC integrated circuit
  • the integrated circuit is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • a programmable FPGA (Field Programmable Gate Array) or a reconfigurable processor in which connections and settings of circuit cells inside the LSI can be reconfigured may be used.
  • Oral function evaluation device 110 Acquisition unit 115 S/N ratio calculation unit 116 Sound pressure adjustment unit 120 Extraction unit 130 Calculation unit 140 Evaluation unit 150 Output unit 160 Proposal unit 180 Information output unit 200 Oral function evaluation system 300 Mobile terminal (terminal, microphone, presentation device) 400 Voice feature calculation device U Evaluated person

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Physics & Mathematics (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Signal Processing (AREA)
  • Computational Linguistics (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Molecular Biology (AREA)
  • Pathology (AREA)
  • Animal Behavior & Ethology (AREA)
  • Medical Informatics (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Veterinary Medicine (AREA)
  • Biomedical Technology (AREA)
  • Surgery (AREA)
  • Quality & Reliability (AREA)
  • Biophysics (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Dentistry (AREA)
  • Physiology (AREA)
  • Epidemiology (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

音声特徴量算出方法は、コンピュータによって実行され、被評価者(U)が発話した音声から、被評価者(U)の音声の特徴量を算出するための音声特徴量算出方法であって、被評価者(U)が発話した音声を集音することで得られる音声データを取得し、取得した音声データにおいて被評価者(U)が音声を発していない期間に集音された音の第1平均強度に基づいて、音声データにおける音圧を調整し、音圧の調整後の音声データから少なくとも音圧に関する特徴量を含む特徴量を算出する。

Description

音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置
 本発明は、被評価者の音声特徴量を算出する音声特徴量算出方法、音声特徴量算出装置、及び、音声特徴量算出装置を利用した口腔機能評価装置に関する。
 被評価者の首に摂食嚥下機能を評価するための器具を装着させ、摂食嚥下機能評価指標(マーカー)として、咽頭運動特徴量を取得し、被評価者の摂食嚥下機能を評価する方法が開示されている(例えば、特許文献1参照)。
特開2017-23676号公報
 しかしながら、上記特許文献1に開示された方法では、摂食嚥下機能等の口腔機能を評価するために、被評価者に器具を装着する必要があり、被評価者に不快感を与え、被評価者に負担が生じる場合がある。また、歯科医師、歯科衛生士、言語聴覚士又は内科医師等の専門家による視診、問診又は触診等によっても口腔機能を評価することはできるが、高齢者は、加齢による影響で、ずっとむせていたり、食べこぼしをしたりしているにもかかわらず、高齢だから当然の症状であるとして口腔機能の低下が見過ごされることがある。口腔機能の低下が見過ごされることで、例えば食事量の低下からくる低栄養を招き、低栄養が免疫力の低下を招く。加えて、誤嚥もしやすく、誤嚥と免疫力低下が結果として誤嚥性肺炎に至らしめるおそれにつながる悪循環を招く。
 ところで、このような方法を利用せずとも被評価者が発話した音声から被評価者の口腔機能を評価することができるが、その評価等に用いられる音声の特徴量の算出において、正確性に課題があった。
 そこで、本発明は、被評価者の音声から、より適切に音声の特徴量を算出することが可能な音声特徴量算出方法等を提供することを目的とする。
 本発明の一態様に係る音声特徴量算出方法は、コンピュータによって実行され、被評価者が発話した音声から、前記被評価者の音声の特徴量を算出するための音声特徴量算出方法であって、前記被評価者が発話した音声を集音することで得られる音声データを取得し、取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度に基づいて、前記音声データにおける音圧を調整し、音圧の調整後の前記音声データから少なくとも音圧に関する特徴量を含む前記特徴量を算出する。
 また、本発明の一態様に係る音声特徴量算出装置は、被評価者が発話した音声から、前記被評価者の音声の特徴量を算出する音声特徴量算出装置であって、前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度に基づいて、前記音声データにおける音圧を調整する音圧調整部と、音圧の調整後の前記音声データから少なくとも音圧に関する特徴量を含む前記特徴量を抽出することで算出する抽出部と、を備える。
 また、本発明の一態様に係る口腔機能評価装置は、上記に記載の音声特徴量算出装置と、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を演算に含む推定式と、音圧の調整後の前記音声データから抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を備える。
 本発明の口腔機能評価方法等によれば、被評価者の音声から、より適切に音声の特徴量を算出することが可能となる。
実施の形態に係る口腔機能評価システムの構成を示す図である。 実施の形態に係る口腔機能評価システムの特徴的な機能構成を示すブロック図である。 実施の形態に係る口腔機能評価方法による被評価者の口腔機能を評価する処理手順を示すフローチャートである。 実施の形態に係る口腔機能評価方法に用いられる音声データについての処理手順を示すフローチャートである。 実施の形態に係る口腔機能評価方法において出力される情報の一例を示す図である。 実施の形態の別例に係る口腔機能評価方法に用いられる音声データについての処理手順を示すフローチャートである。 実施の形態に係る音声データの音圧の調整について説明する第1図である。 実施の形態に係る音声データの音圧の調整について説明する第2図である。 実施の形態に係る音声データの音圧の調整について説明する第3図である。 実施の形態に係る口腔機能評価方法において音圧を調整することと正確性(推定精度)との関係を示すグラフである。 実施の形態に係る口腔機能評価方法による被評価者の音声の取得方法の概要を示す図である。 被評価者が「えをかくことにきめたよ」と発話した音声を示す音声データの一例を示す図である。 被評価者が「えをかくことにきめたよ」と発話した音声のフォルマント周波数の変化の一例を示す図である。 被評価者が「からからから・・・」と繰り返し発話した音声を示す音声データの一例を示す図である。 被評価者が「いったい」と発話した音声を示す音声データの一例を示す図である。 日本語の音節又は定型文と、発音の際の舌の動き又は口の開閉の程度が類似する中国語の音節又は定型文の一例を示す図である。 母音の国際音声記号を示す図である。 子音の国際音声記号を示す図である。 被評価者が「gao dao wu da ka ji ke da yi wu zhe」と発話した音声を示す音声データの一例を示す図である。 被評価者が「gao dao wu da ka ji ke da yi wu zhe」と発話した音声のフォルマント周波数の変化の一例を示す図である。 口腔機能評価指標の一例を示す図である。 口腔機能の要素毎の評価結果の一例を示す図である。 口腔機能の要素毎の評価結果の一例を示す図である。 口腔機能に関する提案を行う際に用いられる予め定められたデータの一例である。
 以下、実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [口腔機能の要素]
 本発明は、口腔機能の低下の評価方法等に関するものであり、口腔機能には様々な要素がある。
 例えば、口腔機能の要素には、舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能などがある。ここでは、舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧及び咀嚼機能について簡単に説明する。
 舌苔付着度は、舌に細菌又は食べ物の沈着がどの程度あるかを示すものである。舌苔がないか、薄い場合には、機械的な擦過(食事摂取など)環境があること、唾液による洗浄作用があること、飲み込みの動き(舌の動き)が正常であることがわかる。一方で、舌苔が厚い場合には、舌の動きが悪く、食事を摂りにくいことから、栄養不足又は筋力不足を招くおそれがあることがわかる。口腔粘膜湿潤度は、舌の乾燥度合いであり、乾燥していると話すための運動が阻害される。また、食べ物は口腔に取り込まれた後に粉砕されるが、そのままでは飲み込みにくいため、粉砕された食べ物を飲み込みやすくするために唾液が粉砕された食べ物をまとめる働きをする。しかし、口腔が乾燥していると食塊(粉砕された食べ物がまとまったもの)が形成されにくい。咬合力は、硬いものを噛む力であり、顎の筋力の強さである。舌圧は、舌が口蓋を押す力を表す指標である。舌圧が弱くなると飲み込みの動きが摂りにくくなる場合がある。また、舌圧が弱くなると舌を動かす速度が落ちることがあり話速度が落ちる場合がある。咀嚼機能は、口腔の総合的な機能である。
 本発明では、被評価者が発した音声から被評価者の口腔機能の低下状態(例えば口腔機能の要素についての低下状態)を評価することができる。口腔機能が低下している被評価者が発話した音声には特定の特徴がみられ、これを韻律特徴量として抽出することで、被評価者の口腔機能を評価することができるためである。本発明は、口腔機能評価方法、当該方法をコンピュータ等に実行させるプログラム、当該コンピュータの一例である口腔機能評価装置、及び、口腔機能評価装置を備える口腔機能評価システムによって実現される。以下では、口腔機能評価システムを示しながら、口腔機能評価方法等について説明する。
 [口腔機能評価システムの構成]
 実施の形態に係る口腔機能評価システム200の構成に関して説明する。
 図1は、実施の形態に係る口腔機能評価システム200の構成を示す図である。
 口腔機能評価システム200は、被評価者Uの音声を解析することで被評価者Uの口腔機能を評価するためのシステムであり、図1に示されるように、口腔機能評価装置100と、携帯端末300(端末の一例)とを備える。
 口腔機能評価装置100は、携帯端末300によって、被評価者Uが発した音声を示す音声データを取得し、取得した音声データから被評価者Uの口腔機能を評価する装置である。
 携帯端末300は、被評価者Uが第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、音節又は定型文を発話した音声を非接触により集音する集音装置であり、集音した音声を示す音声データを口腔機能評価装置100へ出力する。例えば、携帯端末300は、マイクを有するスマートフォン又はタブレット等である。なお、携帯端末300は、集音機能を有する装置であれば、スマートフォン又はタブレット等に限らず、例えば、ノートPC等であってもよい。また、口腔機能評価システム200は、携帯端末300の代わりに、集音装置(マイク)を備えていてもよい。また、口腔機能評価システム200は、被評価者Uの個人情報を取得するための入力インターフェースを備えていてもよい。当該入力インターフェースは、例えば、キーボード、タッチパネル等の入力機能を有するものであれば特に限定されない。また、口腔機能評価システム200において、マイクの音量が設定されてもよい。
 携帯端末300は、ディスプレイを有し、口腔機能評価装置100から出力される画像データに基づいた画像等を表示する表示装置であってもよい。つまり、携帯端末300は、画像として、口腔機能評価装置100から出力される情報を提示するための提示装置の一例である。なお、表示装置は携帯端末300でなくてもよく、液晶パネル又は有機ELパネルなどによって構成されるモニタ装置であってもよい。つまり、本実施の形態では、携帯端末300が集音装置でもあり表示装置でもあるが、集音装置(マイク)と入力インターフェースと表示装置とが別体に設けられていてもよい。
 口腔機能評価装置100と携帯端末300とは、音声データ又は後述する評価結果を示す画像を表示するための画像データ等を送受信可能であればよく、有線で接続されていてもよいし、無線で接続されていてもよい。
 口腔機能評価装置100は、携帯端末300によって集音された音声データに基づいて被評価者Uの音声を分析し、分析した結果から被評価者Uの口腔機能を評価し、評価結果を出力する。例えば、口腔機能評価装置100は、評価結果を示す画像を表示するための画像データ、もしくは、評価結果に基づいて生成された被評価者Uに対する口腔に関する提案をするためのデータを携帯端末300へ出力する。こうすることで、口腔機能評価装置100は、被評価者Uへ口腔機能の程度や口腔機能の低下の予防等するための提案を通知できるため、例えば、被評価者Uは口腔機能の低下の予防や改善を行うことができる。
 なお、口腔機能評価装置100は、例えば、パーソナルコンピュータであるが、サーバ装置であってもよい。また、口腔機能評価装置100は、携帯端末300であってもよい。つまり、以下で説明する口腔機能評価装置100が有する機能を携帯端末300が有していてもよい。
 図2は、実施の形態に係る口腔機能評価システム200の特徴的な機能構成を示すブロック図である。口腔機能評価装置100は、音声特徴量算出装置400と、算出部130と、評価部140と、出力部150と、提案部160と、記憶部170とを備える。
 音声特徴量算出装置400は、被評価者Uの音声の特徴量(韻律特徴量)を抽出することで算出する装置である。音声特徴量算出装置400は、具体的には、取得部110と、S/N比算出部115と、音圧調整部116と、抽出部120と、情報出力部180と、を備える。なお、ここでは、音声特徴量算出装置400が、口腔機能評価装置100に内蔵されている例を示すが、音声特徴量算出装置400は、口腔機能評価装置100とは別に設けられてもよい。その場合、音声特徴量算出装置400の取得部110とは別に、口腔機能評価装置100が、音声データ及び個人情報等を取得する取得部を備えてもよい。
 取得部110は、被評価者Uが発話した音声を携帯端末300が非接触により集音することで得られる音声データを取得する。当該音声は、被評価者Uが第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる音節又は定型文を発話した音声である。又は、当該音声は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む音節又は定型文を発話した音声である。ただし、後述する一部の状況においては、音声は、任意の文を発話した音声である場合もある。また、取得部110は、さらに、被評価者Uの個人情報を取得してもよい。例えば、個人情報は携帯端末300に入力された情報であり、年齢、体重、身長、性別、BMI(Body Mass Index)、歯科情報(例えば、歯の数、入れ歯の有無、咬合支持の場所、機能歯数、残存歯数など)、血清アルブミン値又は喫食率等である。なお、個人情報は、EAT-10(イート・テン)と呼ばれる嚥下スクリーニングツール、聖隷式嚥下質問紙、問診、Barthel Index又は基本チェックリスト等により取得されてもよい。取得部110は、例えば、有線通信又は無線通信を行う通信インターフェースである。
 S/N比算出部115は、取得した音声データにおけるS/N比を算出する処理部分である。音声データにおけるS/N比とは、取得した音声データにおいて被評価者Uが音声を発していない期間(暗騒音のみの期間)に集音された音の第1平均強度に対する、被評価者Uが音声を発している期間に集音された音の第2平均強度の比である。そのため、S/N比算出部115は、音声データから被評価者Uが音声を発していない期間分の音を抽出して第1平均強度を算出すること、及び、音声データから被評価者Uが音声を発している期間分の音を抽出して第2平均強度を算出することが可能なように構成されている。S/N比算出部115は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 音圧調整部116は、取得した音声データのS/N比が、口腔機能の評価に適していない状況を示す場合に、この音声データに対して、音圧の調整処理を行うことで、口腔機能の評価に適した調整後の音声データを生成して出力する処理部である。音圧調整部116による音声データの音圧の調整については後述する。音圧調整部116は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 抽出部120は、取得部110で取得された被評価者Uの音声データ、又は、音圧調整部116によって音圧が調整された音声データを解析する処理部である。抽出部120は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 抽出部120は、取得部110が取得した、又は、音圧調整部116が出力した音声データから韻律特徴量を抽出することによって算出する。韻律特徴量とは、評価部140が被評価者Uの口腔機能を評価するために用いる音声データから抽出される被評価者Uの音声の特徴を示す数値である。韻律特徴量は、音圧較差及び音圧較差の時間変化の少なくとも1つからなる音圧に関する特徴量を含む。また、韻律特徴量は、他に、話速度、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化、開口時間、閉口時間、及び破裂音の時間の少なくとも1つを含んでいてもよい。
 情報出力部180は、S/N比を増大させるための情報を出力する処理部である。情報出力部180は、算出されたS/N比が一定の基準を満たさない場合に、被評価者Uが発話した音声を集音する環境を改善させるような指示の情報を生成して出力する。情報出力部180は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 算出部130は、抽出部120で抽出された韻律特徴量と、あらかじめ設定された推定式とに基づいて、被評価者Uの口腔機能の推定値を算出する。算出部130は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 評価部140は、算出部130で算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する。口腔機能評価指標を示す指標データ172は、記憶部170に記憶されている。評価部140は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 出力部150は、算出部130で算出された推定値を提案部160に出力する。また、出力部150は、評価部140で評価された被評価者Uの口腔機能の評価結果を携帯端末300等に出力してもよい。出力部150は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路、及び、有線通信又は無線通信を行う通信インターフェースによって実現される。
 提案部160は、算出部130で算出された推定値を、予め定められたデータに照合することで、被評価者Uの口腔機能に関する提案を行う。予め定められたデータである提案データ173は、記憶部170に記憶されている。また、提案部160は、取得部110が取得した個人情報についても提案データ173と照合して、被評価者Uに対する口腔に関する提案を行ってもよい。提案部160は、当該提案を携帯端末300へ出力する。提案部160は、例えば、プロセッサ、マイクロコンピュータ又は専用回路、及び、有線通信又は無線通信を行う通信インターフェースによって実現される。
 記憶部170は、複数の学習データに基づいて算出された口腔機能の推定式を示す推定式データ171、被評価者Uの口腔機能の推定値を判定するための口腔機能評価指標を示す指標データ172、口腔機能の推定値と提案内容との関係を示す提案データ173、及び、被評価者Uの上記個人情報を示す個人情報データ174が記憶されている記憶装置である。推定式データ171は、被評価者Uの口腔機能の推定値の算出が行われるときに算出部130によって参照される。指標データ172は、被評価者Uの口腔機能の低下状態の評価が行われるときに評価部140によって参照される。提案データ173は、被評価者Uに対する口腔機能に関する提案が行われるときに提案部160によって参照される。個人情報データ174は、例えば、取得部110を介して取得されたデータである。なお、個人情報データ174は、予め記憶部170に記憶されていてもよい。記憶部170は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、半導体メモリ、HDD(Hard Disk Drive)等によって実現される。
 また、記憶部170には、音声特徴量算出装置400の各機能部、算出部130、評価部140、出力部150及び提案部160を実現するためにコンピュータに実行されるプログラム、被評価者Uの口腔機能の評価結果を出力する際に用いられる当該評価結果を示す画像データ、及び、提案内容を示す画像、動画、音声又はテキスト等のデータも記憶されていてもよい。また、記憶部170には、後述する指示用の画像が記憶されていてもよい。
 図示していないが、口腔機能評価装置100は、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、音節又は定型文を発音することを被評価者Uに指示するための指示部を備えていてもよい。指示部は、具体的には、記憶部170に記憶された、上記音節又は定型文を発音することを指示するための指示用の画像の画像データ、又は、指示用の音声の音声データを取得し、当該画像データ又は当該音声データを携帯端末300に出力する。
 [口腔機能評価方法の処理手順]
 続いて、口腔機能評価装置100が実行する口腔機能評価方法における具体的な処理手順について説明する。
 図3Aは、実施の形態に係る口腔機能評価方法による被評価者Uの口腔機能を評価する処理手順を示すフローチャートである。図4は、口腔機能評価方法による被評価者Uの音声の取得方法の概要を示す図である。
 まず、指示部は、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、音節又は定型文を発音することを指示する(ステップS101)。例えば、ステップS101において、指示部は、記憶部170に記憶された、被評価者Uへの指示用の画像の画像データを取得し、当該画像データを、携帯端末300に出力する。そうすると、図4の(a)に示すように、携帯端末300には、被評価者Uへの指示用の画像が表示される。なお、図4の(a)では、「えをかくことにきめたよ」が定型文の一例として示されているが、「はなさかじいさんとさるかにかっせん」、「はなびのえをかく」、「ひまわりがさいた」等の定型文を発話することが指示されてもよい。また、「いっぱい」、「いったい」、「いっかい」、「ぱったん」、「かっぱ」、「しっぽ」、「きっかり」、「かってに」等の音節を発話することが指示されてもよい。また、「から」、「さら」、「ちゃら」、「じゃら」、「しゃら」、「きゃら」、「ぷら」等の音節を発話することが指示されてもよい。また、「あえい」、「いえあ」、「あい」、「いあ」、「かけき」、「きけか」、「なねに」、「ちてた」、「ぱぺぴ」、「ぴぺぱ」、「かてぴ」、「ちぺか」、「かき」、「たち」、「ぱぴ」、「みさ」、「らり」、「わに」、「にわ」、「えお」、「いお」、「いう」、「てこ」、「きろ」、「てる」、「ぺこ」、「めも」、「えも」等の音節を発話することが指示されてもよい。発音の指示は、このような音節を繰り返し発声させる指示であってもよい。
 また、指示部は、記憶部170に記憶された、被評価者Uへの指示用の音声の音声データを取得し、当該音声データを、携帯端末300に出力することで、発音することを指示する指示用の画像を用いずに発音することを指示する指示用の音声を用いて上記指示を行ってもよい。さらに、発音することを指示する指示用の画像及び音声を用いずに、被評価者Uの口腔機能を評価したい評価者(家族、医師等)が自身の声で被評価者Uに上記指示を行ってもよい。
 例えば、発話される音節又は定型文は、発話するために口の開閉又は舌の前後の動きを伴う、2つ以上の母音又は母音及び子音の組み合わせを含んでいてもよい。例えば、このような音節又は定型文として、日本語においては、「えをかくことにきめたよ」等がある。「えをかくことにきめたよ」の「えを」を発話するためには、舌の前後の動きを伴い、「えをかくことにきめたよ」の「きめた」を発話するためには、口の開閉を伴う。「えをかくことにきめたよ」の「えを」の部分には、母音「e」及び母音「o」の第二フォルマント周波数が含まれ、また、母音「e」及び母音「o」が隣り合っていることから、第二フォルマント周波数の変化量が含まれる。また、この部分には、第二フォルマント周波数の時間変化が含まれる。「えをかくことにきめたよ」の「きめた」の部分には、母音「i」、母音「e」及び母音「a」の第一フォルマント周波数が含まれ、また、母音「i」、母音「e」及び母音「a」が隣り合っていることから、第一フォルマント周波数の変化量が含まれる。また、この部分には、第一フォルマント周波数の時間変化が含まれる。「えをかくことにきめたよ」が発話されることで、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化、話速度等の韻律特徴量を抽出することができる。
 例えば、発話される定型文には、弾き音と当該弾き音とは異なる子音からなる音節の繰り返しを含んでいてもよい。例えば、このような定型文として、日本語においては、「からからから・・・」等がある。「からからから・・・」と繰り返し発話されることで、音圧較差、音圧較差の時間変化、音圧の時間変化、繰り返しの回数等の韻律特徴量を抽出することができる。
 例えば、発話される音節又は定型文は、母音及び破裂音の組み合わせを少なくとも1つ含んでいてもよい。例えば、このような音節として、日本語においては、「いったい」等がある。「いったい」と発話されることで、音圧較差、破裂音の時間(母音間の時間)等の韻律特徴量を抽出することができる。
 ところで、音圧較差の韻律特徴量は、暗騒音の影響を受けやすいため、特に、S/N比が比較的小さい集音環境である場合は、音圧較差の韻律特徴量が、推定値の推定において正確性への悪影響を及ぼす可能性がある。そこで、本発明では、S/N比算出部115において算出されたS/N比に応じて、算出される(抽出される)音圧較差の特徴量が適切となるように、音声データの音圧を調整する。本発明では、このようにすることで、適切な音圧較差の韻律特徴量が算出され、推定値の推定において不適切な音圧較差の韻律特徴量が正確性へ悪影響を及ぼす可能性を低減して、推定値を推定することを可能にしている。
 このための具体的な処理などの動作について、図3B~図3Hを用いて説明する。図3Bは、実施の形態に係る口腔機能評価方法に用いられる音声データについての処理手順を示すフローチャートである。図3Cは、実施の形態に係る口腔機能評価方法において出力される情報の一例を示す図である。図3Dは、実施の形態の別例に係る口腔機能評価方法に用いられる音声データについての処理手順を示すフローチャートである。図3E~図3Gは、実施の形態に係る音声データの音圧の調整について説明する図である。図3Hは、実施の形態に係る口腔機能評価方法において音圧を調整することと正確性(推定精度)との関係を示すグラフである。
 図3Bに示すように、S/N比算出部115は、S/N比を算出するために、暗騒音を測定し、暗騒音のみの第1平均強度(音圧)を算出する(ステップS201)。暗騒音の測定においては、被評価者Uが音声を発していない期間の音を抽出して用いればよく、例えば、上記したように、被評価者Uが指示された音節又は定型文を発話しているときに、音節又は定型文の前後の暗騒音のみの期間に音を抽出してもよいし、定型文の中に音が途切れる箇所があれば、その箇所を暗騒音のみの期間として、音を抽出してもよい。
 続いて、S/N比算出部115は、S/N比を算出するために、被評価者Uの発話時の第2平均強度(音圧)を算出する(ステップS202)。このとき、指示された音節又は定型文を発話している際の音を利用してもよいし、音の集音のために、別に任意の音節又は定型文を発話させる指示を行ってもよい。あるいは、被評価者Uが、口腔機能の評価を行う直前に誰かと会話している状況であれば、その状況を利用して、第1平均強度及び第2平均強度を算出してもよい。
 そして、S/N比算出部115は、第1平均強度に対する第2平均強度の比を算出することにより、S/N比を算出する(ステップS203)。ここで、算出したS/N比は、情報出力部180へと出力される。そして、情報出力部180は、S/N比が第2閾値よりも大きいか否かを判定する(ステップS204)。S/N比が第2閾値以下と判定された場合(S204でNo)、情報出力部180は、S/N比を増大させるための集音環境を改善させる情報を生成して出力する(ステップS205)。
 例えば、図3Cには、このような情報が出力された場合の一例として、「マイクの接続状態を確認するか、発話時の声量を大きくしてください」ということを携帯端末300に表示させたときの状態が示されている。このように、情報を出力して、暗騒音を低減させる、すなわち、第1平均強度を低下させること、及び、発話時の声量を大きくさせる、すなわち、第2平均強度を増大させることの少なくとも一方を行わせることでS/N比を増大させる指示がされる。なお、被評価者が発話する際の環境音を低減させるように、「集音場所を移動してください」ということを携帯端末300に表示させてもよい。
 また、同様の効果を奏する別例として、図3Dに示すフローが実行されてもよい。図3Dでは、図3Bに対して、ステップS204に代えて、ステップS204aが、ステップS201の後、かつ、ステップS202の前に実行される点で異なり、その他の点で共通している。ここでは、S/N比を算出することなく、単に暗騒音の大小のみで、情報の出力の有無を判定している。具体的には、ステップS204aでは、第1平均強度が音圧閾値よりも小さいか否かを判定している。第1平均強度が音圧閾値よりも小さい場合(S204でYes)、ステップS202、ステップS203を実行して、ステップS206に進む。一方で、第1平均強度が音圧閾値以上の場合(S204でNo)、ステップS205に進み、情報出力部180がS/N比を増大させるための集音環境を改善させる情報を生成して出力する。この例では、S/N比を算出することなく、単に第1平均強度のみで、情報の出力の有無を判定できる点で、図3Bに示す例に比べて有利である。つまり、第2平均強度を算出するために被評価者Uに発話を指示するよりも以前に、ノイズ量の観点で集音環境の良し悪しを判定できる点にメリットがある。
 図3Bに戻り、S/N比が第2閾値よりも大きいと判定された場合(S204でYes)(又は、図3Dで、ステップS203の後に)、情報出力部180は特に何もせず、ステップS206へと進む。具体的には、算出したS/N比は、音圧調整部116にも出力される。音圧調整部116は、S/N比が第1閾値よりも大きいか否かを判定する(ステップS206)。S/N比が第1閾値以下と判定された場合(S206でNo)、音圧調整部116は、音声データの音圧を調整し(ステップS208)、処理を終了する。一方、S/N比が第1閾値より大きいと判定された場合(S206でYes)、音圧調整部116は、音声データの音圧を調整せず(ステップS207)、処理を終了する。
 このようにして、S/N比に応じて、音声データの音圧の調整が行われ(又は、行われず)、当該音声データが韻律特徴量の抽出に供される。
 ここで、図3E~図3Fを用いて音圧の調整について説明する。図3Eでは、S/N比が第2閾値よりも小さい(又は、第1平均強度が音圧閾値より大きい)場合の音声データの時間に対する強度の変化の推移を示している。図3Eの例では、音圧の調整をしたとしても適切な韻律特徴量の抽出ができないほどに、S/N比の数値が小さいので、集音環境を改善させるべく、情報出力部180からの情報の出力が行われる。したがって、図3Eに示すような音声データの場合には、韻律特徴量の抽出も、口腔機能の評価も行われない。
 図3Fでは、S/N比が第2閾値以上、かつ、第1閾値よりも小さい場合の音声データの時間に対する強度の変化の推移(上段)、及び、時間に対する基本周波数(ピッチ)の変化の推移(下段)を示している。図3Fの例では、音圧の調整が行われており、取得された音声データ(実線)に対して、音圧の調整がされた音声データ(破線)が生成される。図中に示すように、ここでの音圧の調整は、音声データにおける音圧が極小値を示すタイミング、かつ、基本周波数が0を示すタイミング(図中の白抜き矢印の箇所)に対して実施される。これにより、無音かつ、音声の強度が極小となるタイミングの音圧を適切に調整することが可能となる。
 また、音圧の調整においては、静寂時の音声の強度と、第1平均強度との差分の音圧を、上記のタイミングにおける極小値の音圧から減算される。その結果、音声データにおける極大箇所周辺に大きな変化を生じさせずに、極小値のみが低下して、暗騒音の影響が低減される。そうすることで、極大値と極小値との差で特徴づけられる音圧較差等が、より適切な特徴量として抽出されるようになる。なお、上記の静寂時の音声の強度は、事前に設定された仮想的な強度を記憶部170などに格納しておき、音圧の調整の際に読み出して利用されてもよいし、同じ集音条件での過去に実測された強度の最低値を静寂時の音声の強度として利用してもよい。
 一方、図3Gでは、S/N比が第1閾値以上の場合の音声データの時間に対する強度の変化の推移を示している。図3Gの例では、健常者の音声データの一例を実線で示し、有症者の音声データの一例を破線で示している。S/N比が第1閾値以上の場合には、無闇に音圧の調整を行うと、有症者の音声データが、疑似的に健常者の音声データのように判断される可能性がある。そのため、S/N比が第1閾値以上の場合には、音圧の調整を禁止するように設定することが有効である。
 以上のことから、第2閾値は、音圧の調整をしたとしても適切な韻律特徴量の抽出ができないようなS/N比よりも大きい値に設定されるように、経験的又は実験的に決定されているとよい。また、第1閾値は、有症者の音声データに対する音圧の調整がなされないように、経験的又は実験的に決定されているとよい。例えば、図3Hでは、(a)に、S/N比を考慮せずにそのままの音声データから韻律特徴量を抽出した場合のS/N比と推定精度との関係が示されており、(b)に、S/N比に応じて、音圧の調整を行った音声データから韻律特徴量を抽出した場合のS/N比と推定精度との関係が示されている。
 図3Hに示されるように、S/N比が第1閾値以上であれば(a)及び(b)いずれでも同じ推定精度を示している。しかしながら、S/N比が第1閾値より小さくかつ第2閾値以上の範囲では、図3Hの(a)は、暗騒音によって影響された音圧に関する韻律特徴量が推定精度を低下させることで、図3Hの(b)よりも推定精度が低下してしまう。また、図3Hの(b)に一点鎖線で示すように、S/N比が第2閾値より小さくなれば、S/N比を増大させる指示がされるので、推定値が推定される前に、S/N比が改善された環境に移行して再度音声データの取得から処理が行われるので、推定精度が低い状態で推定値が推定されにくくなっている。ただし、このS/N比が第2閾値より小さい状態でも、図3Hの(a)に比べて推定精度が高いことがあり、この状態で推定値を推定したとしても有用である可能性もある。
 図3Aの説明に戻り、音声データは、音節又は定型文を被評価者Uが異なる話速度で少なくとも2回発話した音声を集音することで得られてもよい。例えば、被評価者Uは、「えをかくことにきめたよ」を普段通りの速さとそれよりも速い速さでそれぞれ発話するように指示される。「えをかくことにきめたよ」を普段通りの速さとそれよりも速い速さでそれぞれ発話されることで、口腔機能の状態の保持の程度を推定できる。
 次に、図3Aに示されるように、取得部110は、ステップS101において指示を受けた被評価者Uの音声データを、携帯端末300を介して取得する(ステップS102)。図4の(b)に示すように、ステップS102において、例えば、被評価者Uは、「えをかくことにきめたよ」等の音節又は定型文を携帯端末300に向けて発する。取得部110は、被評価者Uが発した音節又は定型文を、音声データとして取得する。
 次に、抽出部120は、S/N比が第1閾値よりも大きい場合に、取得部110が取得した音声データから韻律特徴量を抽出し、S/N比が第1閾値以下の場合に、音圧調整部116が出力した音声データから韻律特徴量を抽出する(ステップS103)。
 例えば、取得部110が取得した音声データが、「えをかくことにきめたよ」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び話速度を韻律特徴量として抽出する。これについて、図5A及び図5Bを用いて説明する。
 図5Aは、被評価者Uが「えをかくことにきめたよ」と発話した音声を示す音声データの一例を示す図である。図5Aに示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図5Aのグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図5Aに示すグラフには、「え」、「を」、「か」、「く」、「こ」、「と」、「に」、「き」、「め」、「た」、「よ」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図5Aに示す音声データを取得する。取得された音声データでは、S/N比算出部によってS/N比が算出され、算出されたS/N比に応じて、抽出部120に供される音声データが、取得部110が取得した音声データ、又は、音圧調整部116が出力した音声データのいずれかに決定される。
 抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図5Aに示す音声データに含まれる「か(ka)」における「k」及び「a」の各音圧、「こ(ko)」における「k」及び「o」の各音圧、「と(to)」における「t」及び「o」の各音圧、「た(ta)」における「t」及び「a」の各音圧を抽出する。抽出部120は、抽出した「k」及び「a」の各音圧から、「k」及び「a」の音圧較差Diff_P(ka)を韻律特徴量として抽出する。同じように、抽出部120は、「k」及び「o」の音圧較差Diff_P(ko)、「t」及び「o」の音圧較差Diff_P(to)、「t」及び「a」の音圧較差Diff_P(ta)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力(舌が口蓋に接触する圧力)又は食べ物をまとめる力に関する口腔機能を評価することができる。また、「k」を含む音圧較差によって、喉への飲食物の流入防止能力に関する口腔機能も評価することができる。
 図5Bは、被評価者Uが「えをかくことにきめたよ」と発話した音声のフォルマント周波数の変化の一例を示す図である。具体的には、図5Bは、第一フォルマント周波数及び第二フォルマント周波数の変化の一例を説明するためのグラフである。
 第一フォルマント周波数は、人の音声の低周波数側から数えて1番目に見られる振幅のピーク周波数であり、口の開閉に関する特徴が反映されやすいことが知られている。第二フォルマント周波数は、人の音声の低周波数側から数えて2番目に見られる振幅のピーク周波数であり、舌の前後の動きに関する影響が反映されやすいことが知られている。
 抽出部120は、被評価者Uが発話した音声を示す音声データから、複数の母音それぞれの第一フォルマント周波数及び第二フォルマント周波数を韻律特徴量として抽出する。例えば、抽出部120は、「えを」における、母音「e」に対応する第二フォルマント周波数F2e及び母音「o」に対応する第二フォルマント周波数F2oを韻律特徴量として抽出する。また、例えば、抽出部120は、「きめた」における、母音「i」に対応する第一フォルマント周波数F1i、母音「e」に対応する第一フォルマント周波数F1e及び母音「a」に対応する第一フォルマント周波数F1aを韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の変化量と第二フォルマント周波数の変化量を韻律特徴量として抽出する。例えば、抽出部120は、第二フォルマント周波数F2e及び第二フォルマント周波数F2oの変化量(F2e-F2o)、ならびに、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの変化量(F1e-F1i、F1a-F1e、F1a-F1i)を韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の時間変化と第二フォルマント周波数の時間変化を韻律特徴量として抽出する。例えば、抽出部120は、第二フォルマント周波数F2e及び第二フォルマント周波数F2oの時間変化、ならびに、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化を韻律特徴量として抽出する。図5Bには、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化の一例を示しており、当該時間変化は、ΔF1/ΔTimeである。このΔF1は、F1a-F1iである。
 例えば、第二フォルマント周波数、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化によって、食べ物をまとめる動き(舌の前後左右の動き)に関する口腔機能を評価することができる。また、例えば、第一フォルマント周波数、第一フォルマント周波数の変化量又は第一フォルマント周波数の時間変化によって、食べ物を粉砕する能力に関する口腔機能を評価することができる。また、第一フォルマント周波数の時間変化によって、早く口を動かす能力に関する口腔機能を評価することができる。
 また、図5Aに示すように、抽出部120は、話速度を韻律特徴量として抽出してもよい。例えば、抽出部120は、被評価者Uが「えをかくことにきめたよ」を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「えをかくことにきめたよ」の全てを発話し終わるまでの時間に限らず、「えをかくことにきめたよ」の特定の部分を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「えをかくことにきめたよ」の全て又は特定の部分の1語又は複数語を発話するのにかかる平均時間を韻律特徴量として抽出してもよい。例えば、話速度によって、飲み込みの動き、食べ物をまとめる動き又は舌の巧緻性に関する口腔機能を評価することができる。
 例えば、取得部110が取得した音声データが、「からからから・・・」と繰り返し発話した音声から得られる音声データの場合、抽出部120は、音圧較差の時間変化を韻律特徴量として抽出する。これについて、図6を用いて説明する。
 図6は、被評価者Uが「からからから・・・」と繰り返し発話した音声を示す音声データの一例を示す図である。図6に示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図6のグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図6に示すグラフには、「か」、「ら」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図6に示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図6に示す音声データに含まれる「か(ka)」における「k」及び「a」の各音圧、「ら(ra)」における「r」及び「a」の各音圧を抽出する。抽出部120は、抽出した「k」及び「a」の各音圧から、「k」及び「a」の音圧較差Diff_P(ka)を韻律特徴量として抽出する。同じように、抽出部120は、「r」及び「a」の音圧較差Diff_P(ra)を韻律特徴量として抽出する。例えば、抽出部120は、繰り返し発話される「から」のそれぞれについて、音圧較差Diff_P(ka)及び音圧較差Diff_P(ra)を韻律特徴量として抽出する。そして、抽出部120は、抽出した音圧較差Diff_P(ka)のそれぞれから、音圧較差Diff_P(ka)の時間変化を韻律特徴量として抽出し、抽出した音圧較差Diff_P(ra)のそれぞれから、音圧較差Diff_P(ra)の時間変化を韻律特徴量として抽出する。例えば、音圧較差の時間変化によって、飲み込みの動き、食べ物をまとめる動き又は食べ物を粉砕する能力に関する口腔機能を評価することができる。
 なお、抽出部120は、音圧の時間変化を韻律特徴量として抽出してもよい。例えば、「からからから・・・」と繰り返し発話される際の各「から」における最小の音圧(「k」の音圧)の時間変化が抽出されてもよいし、各「から」における最大の音圧(「a」の音圧)の時間変化が抽出されてもよいし、各「から」における「か」と「ら」の間の音圧(「r」の音圧)の時間変化が抽出されてもよい。例えば、音圧の時間変化によって、飲み込みの動き、食べ物をまとめる動き又は食べ物を粉砕する能力に関する口腔機能を評価することができる。
 また、図6に示すように、抽出部120は、所定の時間あたりに「から」を発声できた回数である繰り返し回数を特徴量として抽出してもよい。所定の時間は特に限定されないが、5秒等である。例えば、所定の時間あたりの繰り返し回数によって、飲み込みの動き又は食べ物をまとめる動きに関する口腔機能を評価することができる。
 例えば、取得部110が取得した音声データが、「いったい」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差及び破裂音の時間を韻律特徴量として抽出する。これについて、図7を用いて説明する。
 図7は、被評価者Uが「いったい」と発話した音声を示す音声データの一例を示す図である。ここでは、「いったいいったい・・・」と繰り返し発話した音声を示す音声データの一例を示している。図7に示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図7のグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図7に示すグラフには、「い」、「っ」、「た」、「い」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図7に示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図7に示す音声データに含まれる「た(ta)」における「t」及び「a」の各音圧を抽出する。抽出部120は、抽出した「t」及び「a」の各音圧から、「t」及び「a」の音圧較差Diff_P(ta)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力又は食べ物をまとめる力に関する口腔機能を評価することができる。また、抽出部120は、破裂音の時間Time(i-ta)(「i」と「ta」の間の破裂音の時間)を韻律特徴量として抽出する。例えば、破裂音の時間によって、飲み込みの動き、食べ物をまとめる動き又は舌の安定した動きに関する口腔機能を評価することができる。
 なお、発話される音節又は定型文として日本語での音節又は定型文を例にあげて説明したが、日本語に限らずどのような言語であってもよい。
 図8は、日本語の音節又は定型文と、発音の際の舌の動き又は口の開閉の程度が類似する中国語の音節又は定型文の一例を示す図である。
 世界には様々な言語が存在するが、発音の際の舌の動き又は口の開閉の程度が類似するものが存在する。例えば、中国語の
Figure JPOXMLDOC01-appb-I000001
(以下、gao dao wu da ka ji ke da yi wu zheと記載する)を発音する際の発音の際の舌の動き又は口の開閉の程度は、日本語の「えをかくことにきめたよ」を発音する際の発音の際の舌の動き又は口の開閉の程度と類似しているため、日本語の「えをかくことにきめたよ」と類似する韻律特徴量を抽出することができる。なお、本明細書では声調符号の記載を省略している。図8には、日本語及び中国語について、発音の際の舌の動き又は口の開閉の程度が類似する音節又は定型文の例が参考までにいくつか示されている。
 また、世界に存在する様々な言語に、発音の際の舌の動き又は口の開閉の程度が類似するものが存在することについて、図9A及び図9Bを用いて簡単に説明する。
 図9Aは、母音の国際音声記号を示す図である。
 図9Bは、子音の国際音声記号を示す図である。
 図9Aに示す母音の国際音声記号の位置関係は、横方向は舌の前後の動きを示しており、近いほど舌の前後の動きが類似し、縦方向は口の開閉の程度を示しており、近いほど口の開閉の程度が類似する。図9Bに示す子音の国際音声記号の表は、横方向は、唇から喉までの、発音の際に使用する部位を示しており、表の同じマス目にある国際音声記号によって同じ音を同じ部位を使用して発音することができる。このため、世界に存在する様々な言語について、本発明を適用することができる。
 例えば、口の開閉を大きくしたい場合には、図9Aに示す縦方向に離れた国際音声記号(例えば「i」と「a」)が連続したものが音節又は定型文に含むようにする。これにより、韻律特徴量として第一フォルマント周波数の変化量を大きくすることができる。また、例えば、舌の前後の位置を大きくしたい場合には、図9Aに示す横方向に離れた国際音声記号(例えば「i」と「u」)が連続したものが音節又は定型文に含むようにする。これにより、韻律特徴量として第二フォルマント周波数の変化量を大きくすることができる。
 例えば、取得部110が取得した音声データが、「gao dao wu da ka ji ke da yi wu zhe」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び話速度を韻律特徴量として抽出する。これについて、図10A及び図10Bを用いて説明する。
 図10Aは、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」と発話した音声を示す音声データの一例を示す図である。図10Aに示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図10Aのグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図10Aに示すグラフには、「gao」、「dao」、「wu」、「da」、「ka」、「ji」、「ke」、「da」、「yi」、「wu」、「zhe」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図10Aに示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図10Aに示す音声データに含まれる「dao」における「d」及び「a」の各音圧、「ka」における「k」及び「a」の各音圧、「ke」における「k」及び「e」の各音圧、「zhe」における「zh」及び「e」の各音圧を抽出する。抽出部120は、抽出した「d」及び「a」の各音圧から、「d」及び「a」の音圧較差Diff_P(da)を韻律特徴量として抽出する。同じように、抽出部120は、「k」及び「a」の音圧較差Diff_P(ka)、「k」及び「e」の音圧較差Diff_P(ke)、「zh」及び「e」の音圧較差Diff_P(zhe)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力又は食べ物をまとめる力に関する口腔機能を評価することができる。また、「k」を含む音圧較差によって、喉への飲食物の流入防止能力に関する口腔機能も評価することができる。
 図10Bは、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」と発話した音声のフォルマント周波数の変化の一例を示す図である。具体的には、図10Bは、第一フォルマント周波数及び第二フォルマント周波数の変化の一例を説明するためのグラフである。
 抽出部120は、被評価者Uが発話した音声を示す音声データから、複数の母音それぞれの第一フォルマント周波数及び第二フォルマント周波数を韻律特徴量として抽出する。例えば、抽出部120は、「ji」における母音「i」に対応する第一フォルマント周波数F1i、「ke」における母音「e」に対応する第一フォルマント周波数F1e及び「da」における母音「a」に対応する第一フォルマント周波数F1aを韻律特徴量として抽出する。また、例えば、抽出部120は、「yi」における母音「i」に対応する第二フォルマント周波数F2i及び「wu」における母音「u」に対応する第二フォルマント周波数F2uを韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の変化量と第二フォルマント周波数の変化量を韻律特徴量として抽出する。例えば、抽出部120は、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの変化量(F1e-F1i、F1a-F1e、F1a-F1i)、ならびに、第二フォルマント周波数F2i及び第二フォルマント周波数F2uの変化量(F2i-F2u)を韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の時間変化と第二フォルマント周波数の時間変化を韻律特徴量として抽出する。例えば、抽出部120は、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化、ならびに、第二フォルマント周波数F2i及び第二フォルマント周波数F2uの時間変化を韻律特徴量として抽出する。
 例えば、第二フォルマント周波数、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化によって、食べ物をまとめる動きに関する口腔機能を評価することができる。また、例えば、第一フォルマント周波数、第一フォルマント周波数の変化量又は第一フォルマント周波数の時間変化によって、食べ物を粉砕する能力に関する口腔機能を評価することができる。また、第一フォルマント周波数の時間変化によって、早く口を動かす能力に関する口腔機能を評価することができる。
 また、図10Aに示すように、抽出部120は、話速度を韻律特徴量として抽出してもよい。例えば、抽出部120は、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「gao dao wu da ka ji ke da yi wu zhe」の全てを発話し終わるまでの時間に限らず、「gao dao wu da ka ji ke da yi wu zhe」の特定の部分を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「gao dao wu da ka ji ke da yi wu zhe」の全て又は特定の部分の1語又は複数語を発話するのにかかる平均時間を韻律特徴量として抽出してもよい。例えば、話速度によって、飲み込みの動き、食べ物をまとめる動き又は舌の巧緻性に関する口腔機能を評価することができる。
 図3Aでの説明に戻り、算出部130は、抽出された韻律特徴量と、複数の学習データに基づいて算出された口腔機能の推定式とに基づいて、被評価者Uの口腔機能の推定値を算出する(ステップS104)。
 口腔機能の推定式は、予め、複数の被験者に対して行った評価結果を元に設定されている。被験者が発話した音声特徴量を収集し、また、被験者の口腔機能を実際に診断し、音声特徴量と診断結果との間の相関を重回帰式などを利用して統計的解析により設定する。代表値として用いる音声特徴量の選び方によって、推定式は異なる種類を生成できる。このようにして、予め、推定式を生成できる。
 また、音声特徴量と診断結果との間の相関関係を表すために、機械学習を利用して設定しても構わない。機械学習の手法として、ロジスティクス回帰、SVM (Support Vector Machine)、ランダムフォレストなどがある。
 例えば、推定式は、口腔機能の要素に対応する係数、及び、抽出された韻律特徴量が代入され、上記係数が掛けられる変数を含むように構成することができる。以下の式1から式5は、推定式の一例である。
 舌苔付着度の推定値=(A1×F2e)+(B1×F2o)+(C1×F1i)+(D1×F1e)+(E1×F1a)+(F1×Diff_P(ka))+(G1×Diff_P(ko))+(H1×Diff_P(to))+(J1×Diff_P(ta))+(K1×Diff_P(ka))+(L1×Diff_P(ra))+(M1×Num(kara))+(N1×Diff_P(ta))+(P1×Time(i-ta))+Q1
  (式1)
 口腔粘膜湿潤度の推定値=(A2×F2e)+(B2×F2o)+(C2×F1i)+(D2×F1e)+(E2×F1a)+(F2×Diff_P(ka))+(G2×Diff_P(ko))+(H2×Diff_P(to))+(J2×Diff_P(ta))+(K2×Diff_P(ka))+(L2×Diff_P(ra))+(M2×Num(kara))+(N2×Diff_P(ta))+(P2×Time(i-ta))+Q2
  (式2)
 咬合力の推定値=(A3×F2e)+(B3×F2o)+(C3×F1i)+(D3×F1e)+(E3×F1a)+(F3×Diff_P(ka))+(G3×Diff_P(ko))+(H3×Diff_P(to))+(J3×Diff_P(ta))+(K3×Diff_P(ka))+(L3×Diff_P(ra))+(M3×Num(kara))+(N3×Diff_P(ta))+(P3×Time(i-ta))+Q3 
 (式3)
 舌圧の推定値=(A4×F2e)+(B4×F2o)+(C4×F1i)+(D4×F1e)+(E4×F1a)+(F4×Diff_P(ka))+(G4×Diff_P(ko))+(H4×Diff_P(to))+(J4×Diff_P(ta))+(K4×Diff_P(ka))+(L4×Diff_P(ra))+(M4×Num(kara))+(N4×Diff_P(ta))+(P4×Time(i-ta))+Q4  (式4)
 咀嚼機能の推定値=(A5×F2e)+(B5×F2o)+(C5×F1i)+(D5×F1e)+(E5×F1a)+(F5×Diff_P(ka))+(G5×Diff_P(ko))+(H5×Diff_P(to))+(J5×Diff_P(ta))+(K5×Diff_P(ka))+(L5×Diff_P(ra))+(M5×Num(kara))+(N5×Diff_P(ta))+(P5×Time(i-ta))+Q5
  (式5)
 A1、B1、C1、・・・、P1、A2、B2、C2、・・・、P2、A3、B3、C3、・・・、P3、A4、B4、C4、・・・、P4、A5、B5、C5、・・・、P5、は、係数であり、具体的には、口腔機能の要素に対応する係数である。例えば、A1、B1、C1、・・・、P1は、口腔機能の要素の1つである舌苔付着度に対応する係数であり、A2、B2、C2、・・・、P2は、口腔機能の要素の1つである口腔粘膜湿潤度に対応する係数であり、A3、B3、C3、・・・、P3は、口腔機能の要素の1つである咬合力に対応する係数であり、A4、B4、C4、・・・、P4は、口腔機能の要素の1つである舌圧に対応する係数であり、A5、B5、C5、・・・、P5は、口腔機能の要素の1つである咀嚼機能に対応する係数である。
 Q1は舌苔付着度に対応する定数であり、Q2は口腔粘膜湿潤度に対応する定数であり、Q3は咬合力に対応する定数であり、Q4は舌圧に対応する定数であり、Q5は咀嚼機能に対応する定数である。
 A1、A2、A3、A4、A5が掛けられるF2eと、B1、B2、B3、B4、B5が掛けられるF2oとは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である第二フォルマント周波数が代入される変数である。C1、C2、C3、C4、C5が掛けられるF1iと、D1、D2、D3、D4、D5が掛けられるF1eと、E1、E2、E3、E4、E5が掛けられるF1aとは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である第一フォルマント周波数が代入される変数である。F1、F2、F3、F4、F5が掛けられるDiff_P(ka)と、G1、G2、G3、G4、G5が掛けられるDiff_P(ko)と、H1、H2、H3、H4、H5が掛けられるDiff_P(to)と、J1、J2、J3、J4、J5が掛けられるDiff_P(ta)とは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。K1、K2、K3、K4、K5が掛けられるDiff_P(ka)と、L1、L2、L3、L4、L5が掛けられるDiff_P(ra)とは、被評価者Uが「から」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。M1、M2、M3、M4、M5が掛けられるNum(kara)とは、被評価者Uが一定期間内に「から」と繰り返し発話したときの発話データから抽出された韻律特徴量である繰り返し回数が代入される変数である。N1、N2、N3、N4、N5が掛けられるDiff_P(ta)は、被評価者Uが「いったい」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。P1、P2、P3、P4、P5が掛けられるTime(i-ta)は、被評価者Uが「いったい」と発話したときの発話データから抽出された韻律特徴量である破裂音の時間が代入される変数である。
 上記式1から式5に示されるように、例えば、算出部130は、被評価者Uの口腔機能の要素(例えば、舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧及び咀嚼機能)毎に推定値を算出する。なお、これらの口腔機能の要素は一例であり、口腔機能の要素には、被評価者Uの舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つが含まれていればよい。
 また、例えば、抽出部120は、複数種類の音節又は定型文(例えば、上記式1から式5では、「えをかくことにきめたよ」、「から」及び「いったい」)を被評価者Uが発話した音声を集音することで取得された音声データから複数の韻律特徴量を抽出し、算出部130は、抽出された複数の韻律特徴量と推定式とに基づいて、口腔機能の推定値を算出する。算出部130は、複数種類の音節又は定型文の音声データから抽出された複数の韻律特徴量を1つの推定式に代入することで、口腔機能の推定値を精度よく算出することができる。
 なお、推定式として一次式が示されているが、推定式は二次式等の多次式であってもよい。
 次に、評価部140は、算出部130により算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する(ステップS105)。例えば、評価部140は、算出された口腔機能の要素毎の推定値を、口腔機能の要素毎に定められた口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価する。口腔機能評価指標は、口腔機能を評価するための指標であり、例えば、口腔機能が低下していると判定する条件である。口腔機能評価指数について、図11を用いて説明する。
 図11は、口腔機能評価指標の一例を示す図である。
 口腔機能評価指標は、口腔機能の要素毎に定められる。例えば、舌苔付着度に対して50%以上という指標が定められ、口腔粘膜湿潤度に対して27以下という指標が定められ、咬合力に対して500N未満という指標が定められ(株式会社ジーシーのデンタルプレスケールIIを利用した場合)、舌圧に対して30kPa未満という指標が定められ、咀嚼機能に対して100mg/dL未満という指標が定められる(指標については、日本歯科医学会の「口腔機能低下症に関する基本的な考え方(https://www.jads.jp/basic/pdf/document_02.pdf)」を参照)。評価部140は、算出された口腔機能の要素毎の推定値と、口腔機能の要素毎に定められた口腔機能評価指標とを比較することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価する。例えば、算出された舌苔付着度の推定値が50%以上である場合、口腔機能の要素として口腔衛生が低下状態となっていると評価される。同じように、算出された口腔粘膜湿潤度の推定値が27以下である場合、口腔機能の要素として口腔粘膜湿潤度が低下状態となっていると評価され、算出された咬合力の推定値が500N未満である場合、口腔機能の要素として咬合力が低下状態となっていると評価され、算出された舌圧の推定値が30kPa未満である場合、口腔機能の要素として舌圧が低下状態となっていると評価され、算出された咀嚼機能の推定値が100mg/dL未満である場合、口腔機能の要素として咀嚼機能が低下状態となっていると評価される。なお、舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧及び咀嚼機能に対して定められる口腔機能評価指標として、図11に示されるものは一例であり、これに限らない。例えば、咀嚼機能に対して残歯の指標が定められてもよい。また、口腔機能の要素として舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧及び咀嚼機能を示しているが、これらは一例である。例えば、舌口唇運動機能低下に対しては、舌の動き、唇の動き、唇の強さなどの口腔機能の要素がある。
 図3Aでの説明に戻り、出力部150は、評価部140が評価した被評価者Uの口腔機能の評価結果を出力する(ステップS106)。例えば、出力部150は、評価結果を携帯端末300へ出力する。この場合、出力部150は、例えば、有線通信又は無線通信を行う通信インターフェースを含んでいてもよく、評価結果に対応する画像の画像データを記憶部170から取得して、携帯端末300へ取得した画像データを送信する。当該画像データ(評価結果)の一例を図12及び図13に示す。
 図12及び図13は、口腔機能の要素毎の評価結果の一例を示す図である。図12に示すように、評価結果は、OK又はNGの2段階の評価結果であってもよい。OKは正常を意味し、NGは異常を意味する。なお、口腔機能の要素毎に正常、異常が示されなくてもよく、例えば、低下の疑いのある要素の評価結果だけが示されてもよい。また、評価結果は、2段階の評価結果に限らず、評価の程度が3段階以上に分かれた細かい評価結果であってもよい。この場合、記憶部170に記憶された指標データ172には、1つの要素に対して複数の指標が含まれていてもよい。また、図13に示すように、評価結果は、レーダーチャートで表現されてもよい。図12及び図13には、口腔機能の要素として、口の清潔さ、食べ物をまとめる力、硬いものを噛む力、舌の力及びあごの動きが示されている。口の清潔さは舌苔付着度、食べ物をまとめる力は口腔粘膜湿潤度、硬いものを噛む力は咬合力、舌の力は舌圧、あごの動きは咀嚼機能の推定値を基にして、それぞれ評価結果が提示されている。なお、図12及び図13は、一例であり、評価項目の文言、口腔機能の項目、また、これらの対応する組み合わせは図12及び図13に示されるものに限らない。
 図3Aでの説明に戻り、提案部160は、算出部130により算出された推定値を、予め定められたデータ(提案データ173)に照合することで、被評価者Uの口腔機能に関する提案を行う(ステップS107)。ここで、予め定められたデータについて、図14を用いて説明する。
 図14は、口腔機能に関する提案を行う際に用いられる予め定められたデータ(提案データ173)の一例である。
 図14に示すように、提案データ173は、口腔機能の要素毎に評価結果と提案内容とが対応付けられたデータである。例えば、提案部160は、算出された口の清潔さの推定値が50%未満である場合には、指標を満たしているので、OKと判断し、口の清潔さに対応付けられた提案内容による提案を行う。なお、具体的な提案内容については記載を省略しているが、例えば、記憶部170は、提案内容を示すデータ(例えば、画像、動画、音声、テキスト等)を含み、提案部160は、このようなデータを用いて被評価者Uへ口腔機能に関する提案を行う。
 [効果等]
 以上説明したように、本開示の第1態様に係る音声特徴量算出方法は、コンピュータによって実行され、被評価者Uが発話した音声から、被評価者Uの音声の韻律特徴量(特徴量)を算出するための音声特徴量算出方法であって、被評価者Uが発話した音声を集音することで得られる音声データを取得し、取得した音声データにおいて被評価者Uが音声を発していない期間に集音された音の第1平均強度に基づいて、音声データにおける音圧を調整し、音圧の調整後の音声データから少なくとも音圧に関する特徴量を含む韻律特徴量を算出する。
 これによれば、被評価者Uが発話した音声から算出される音圧に関する特徴量が、例えば、口腔機能の評価等の用途において、そのまま使用するのに適していない場合などに、音圧の調整後の音声データから、音圧に関する特徴量が適切である韻律特徴量を算出することができる。これにより、算出される音圧に関する特徴量が、例えば、被評価者Uの口腔機能の評価等に用いるという観点でより適切なものとなる。すなわち、被評価者の音声から、より適切に音声の韻律特徴量を算出することが可能となる。
 また、例えば、第2態様に係る音声特徴量算出方法は、第1態様に記載の音声特徴量算出方法であって、取得した音声データにおいて被評価者Uが音声を発している期間に集音された音の第2平均強度の、第1平均強度に対する比であるS/N比をさらに算出し、算出したS/N比が第1閾値以下の場合に、音声データにおける音圧を調整してもよい。
 これによれば、S/N比が第1閾値以下であるか否かの条件により、音圧に関する特徴量がそのまま使用するのに適していないかを判定できる。その判定に従って、音声データの音圧を調整し、音圧の調整後の音声データから音圧に関する特徴量を算出することができる。これにより、算出される音圧に関する特徴量が、例えば、被評価者Uの口腔機能の評価等に用いるという観点でより適切なものとなる。すなわち、被評価者の音声から、より適切に音声の韻律特徴量を算出することが可能となる。
 また、例えば、第3態様に係る音声特徴量算出方法は、第2態様に記載の音声特徴量算出方法であって、算出したS/N比が第1閾値より大きい場合に、音声データにおける音圧を調整しなくてもよい。
 これによれば、S/N比が第1閾値より大きいか否かの条件により、音圧に関する特徴量がそのまま使用するのに適しているかを判定できる。その判定に従って、音声データの音圧を調整することなく、音圧がそのままの音声データから音圧に関する特徴量を算出することができる。これにより、算出される音圧に関する特徴量が、例えば、被評価者Uの口腔機能の評価等に用いるという観点でより適切なものとなる。すなわち、被評価者の音声から、より適切に音声の韻律特徴量を算出することが可能となる。
 また、例えば、第4態様に係る音声特徴量算出方法は、第1~第3態様のいずれか1態様に記載の音声特徴量算出方法であって、音声データにおける音圧の調整では、予め測定された静寂時の音の強度と、第1平均強度との差分の音圧を音声データにおける音圧から減算することで音圧を調整してもよい。
 これによれば、本来の静寂時の音圧に対応する予め測定された静寂時の音の強度と、音声データにおける音声が集音された条件における被評価者Uが発声していないときの音の強度との差分の音圧を求め、その差分を減じることで、被評価者Uが発声していないときの音の強度が本来の静寂時の音圧に対応する強度になるように音圧を調整することができる。
 また、例えば、第5態様に係る音声特徴量算出方法は、第1~第4態様のいずれか1態様に記載の音声特徴量算出方法であって、音声データにおける音圧の調整は、音声データのうち音圧が極小値を示すタイミングに対して実施されてもよい。
 これによれば、被評価者Uが発声していないときを、音圧が極小値を示すタイミングによって特定して音圧の調整をすることができる。
 また、例えば、第6態様に係る音声特徴量算出方法は、第5態様に記載の音声特徴量算出方法であって、音声データにおける音圧の調整は、音声データのうち基本周波数が0を示すタイミングに対して実施されてもよい。
 これによれば、被評価者Uが発声していないときを、音声データのうち基本周波数が0を示すタイミングによって特定して音圧の調整をすることができる。
 また、例えば、第7態様に係る音声特徴量算出方法は、第1~第6態様のいずれか1態様に記載の音声特徴量算出方法であって、特徴量は、音圧較差及び音圧較差変化の少なくとも一方と、フォルマント、フォルマント変化、開口時間、閉口時間、破裂音の時間、及び、話速度の少なくともいずれかと、を含んでいてもよい。
 これによれば、算出される特徴量に、音圧に関する特徴量として音圧較差及び音圧較差変化の少なくとも一方を含め、その他の特徴量としてフォルマント、フォルマント変化、開口時間、閉口時間、破裂音の時間、及び、話速度の少なくともいずれかを含めることができる。
 また、例えば、第8態様に係る音声特徴量算出方法は、第2又は第3態様に記載の音声特徴量算出方法であって、算出したS/N比が第2閾値以下の場合に、S/N比を増大させるための情報をさらに出力してもよい。
 これによれば、S/N比が第1閾値よりもさらに小さい第2閾値よりも小さいような不適な環境で集音された音声データから韻律特徴量を算出しようとしている場合に、その環境を改善させるための働きかけを行うことができる。このような不適な環境で集音された音声データから韻律特徴量を算出することが行われることが抑制される。
 また、例えば、第9態様に係る音声特徴量算出方法は、第2又は第3態様のいずれか1態様に記載の音声特徴量算出方法であって、第1平均強度が音圧閾値以上の場合に、S/N比を増大させるための情報をさらに出力してもよい。
 これによれば、第1平均強度が音圧閾値以上のような不適な環境で集音された音声データから韻律特徴量を算出しようとしている場合に、その環境を改善させるための働きかけを行うことができる。このような不適な環境で集音された音声データから韻律特徴量を算出することが行われることが抑制される。
 また、例えば、図3Aに示されるように、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、音節又は定型文を被評価者Uが発話した音声を集音することで得られる音声データを取得する取得ステップ(ステップS102)と、取得された音声データから韻律特徴量を抽出する抽出ステップ(ステップS103)と、複数の学習データに基づいて算出された口腔機能の推定式と、抽出された韻律特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出ステップ(ステップS104)と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価ステップ(ステップS105)と、を含んでもよい。
 これによれば、口腔機能の評価に適した音声データを取得することで、簡便に被評価者Uの口腔機能の評価が可能となる。つまり、被評価者Uが携帯端末300等の集音装置に向けて上記音節又は定型文を発話するだけで、被評価者Uの口腔機能の評価が可能となる。特に、複数の学習データに基づいて算出された推定式を用いて口腔機能の推定値が算出されるため、口腔機能の低下状態を定量的に評価できる。また、韻律特徴量を直接閾値と比較することで口腔機能を評価するのではなく、韻律特徴量及び推定式から推定値が算出され、当該推定値が閾値(口腔機能評価指標)と比較されるため、口腔機能の低下状態を精度良く評価することができる。
 例えば、推定式は、口腔機能の要素に対応する係数、及び、抽出された韻律特徴量が代入され、上記係数が掛けられる変数を含んでいてもよい。
 これによれば、抽出された韻律特徴量を推定式に代入するだけで、容易に口腔機能の推定値を算出することができる。
 例えば、算出ステップでは、被評価者Uの口腔機能の要素毎に推定値を算出し、評価ステップでは、算出された口腔機能の要素毎の推定値を、口腔機能の要素毎に定められた口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価してもよい。
 これによれば、口腔機能の低下状態を要素毎に評価することができる。例えば、口腔機能の要素に応じて係数が異なる推定式を口腔機能の要素毎に準備することで、口腔機能の低下状態を要素毎に容易に評価することができる。
 例えば、口腔機能の要素には、被評価者Uの舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つが含まれていてもよい。
 これによれば、被評価者Uの舌苔付着度、口腔粘膜湿潤度、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つの口腔機能の要素についての低下状態を評価することができる。
 例えば、韻律特徴量は、話速度、音圧較差、音圧較差の時間変化、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び破裂音の時間の少なくとも1つを含んでいてもよい。
 口腔機能が低下することで、発音に変化が現れることから、これらの韻律特徴量から口腔機能の低下状態を評価することができる。
 例えば、抽出ステップでは、複数種類の音節又は定型文を被評価者Uが発話した音声を集音することで取得された音声データから複数の韻律特徴量を抽出し、算出ステップでは、抽出された複数の韻律特徴量と推定式とに基づいて、推定値を算出してもよい。
 これによれば、1つの推定式に対して複数種類の音節又は定型文に基づいて抽出される複数の韻律特徴量を用いることで、口腔機能の推定値の算出の精度を高めることができる。
 例えば、音節又は定型文は、発話するために口の開閉又は舌の前後の動きを伴う、2つ以上の母音又は母音及び子音の組み合わせを含んでいてもよい。
 これによれば、被評価者Uがこのような音節又は定型文を発話した音声から、第一フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化を含む韻律特徴量を抽出することができる。
 例えば、音声データは、音節又は定型文を被評価者Uが異なる話速度で少なくとも2回発話した音声を集音することで得られてもよい。
 これによれば、被評価者Uがこのような音節又は定型文を発話した音声から、口腔機能の状態の保持の程度を推定できる。
 例えば、定型文は、弾き音と当該弾き音とは異なる子音からなる音節の繰り返しを含んでいてもよい。
 これによれば、被評価者Uがこのような音節又は定型文を発話した音声から、音圧較差の時間変化、音圧の時間変化及び繰り返し回数を含む韻律特徴量を抽出することができる。
 例えば、音節又は定型文は、母音及び破裂音の組み合わせを少なくとも1つ含んでいてもよい。
 これによれば、被評価者Uがこのような音節又は定型文を発話した音声から、音圧較差及び破裂音の時間を含む韻律特徴量を抽出することができる。
 例えば、口腔機能評価方法は、さらに、算出された推定値を、予め定められたデータに照合することで、被評価者Uの口腔機能に関する提案を行う提案ステップを含んでいてもよい。
 これによれば、被評価者Uは、口腔機能が低下したときにどのような対策をすればよいかの提案を受けることができる。
 本開示の第10態様に係る音声特徴量算出装置400は、被評価者Uが発話した音声から、被評価者Uの音声の特徴量を算出する音声特徴量算出装置400であって、被評価者Uが発話した音声を集音することで得られる音声データを取得する取得部110と、取得した音声データにおいて被評価者Uが音声を発していない期間に集音された音の第1平均強度に基づいて、音声データにおける音圧を調整する音圧調整部116と、音圧の調整後の音声データから少なくとも音圧に関する特徴量を含む特徴量を抽出することで算出する抽出部120と、を備える。
 これによれば、上記に記載の音声特徴量算出方法と同様の効果を奏することができる。
 本開示の第11態様に係る口腔機能評価装置100は、第10態様に記載の音声特徴量算出装置400と、音声データから抽出される特徴量のうち音圧に関する特徴量を演算に含む推定式と、音圧の調整後の音声データから抽出された特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出部130と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価部140と、を備える。
 これによれば、音声特徴量算出装置400を用いて、被評価者Uの口腔機能を評価することができる。
 例えば、被評価者Uが発話した音声の集音に用いられる集音装置(マイク)と、評価された被評価者Uの口腔機能の低下状態を提示するための提示装置(携帯端末300)と、をさらに備えてもよい。
 また、例えば、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、音節又は定型文を被評価者Uが発話した音声を集音することで得られる音声データを取得する取得部110と、取得された音声データから韻律特徴量を抽出する抽出部120と、複数の学習データに基づいて算出された口腔機能の推定式と、抽出された韻律特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出部130と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価部140と、を備えてもよい。
 これによれば、簡便に被評価者Uの口腔機能の評価が可能な口腔機能評価装置100を提供できる。
 また、例えば、口腔機能評価装置100と、音節又は定型文を被評価者Uが発話した音声を非接触により集音する集音装置(携帯端末300)と、を備えてもよい。
 これによれば、簡便に被評価者Uの口腔機能の評価が可能な口腔機能評価システム200を提供できる。
 (その他の実施の形態)
 以上、実施の形態に係る口腔機能評価方法等について説明したが、本発明は、上記実施の形態に限定されるものではない。
 例えば、推定式の候補は、専門家が被評価者Uの口腔機能を実際に診断した際に得られた評価結果に基づいて、更新されてもよい。これにより、口腔機能の評価精度を高めることができる。口腔機能の評価精度を高めるために機械学習が用いられてもよい。
 また、例えば、提案データ173は、被評価者Uが提案内容を評価して、その評価結果に基づいて更新されてもよい。例えば、被評価者Uにとって問題ない口腔機能についての提案がされた場合には、被評価者Uは、この提案内容に対して間違っていると評価する。そして、この評価結果に基づいて提案データ173が更新されることで、上記のような誤った提案がされないようになる。このように、被評価者Uに対する口腔機能に関する提案内容をより効果的なものとすることができる。なお、口腔機能に関する提案内容をより効果的なものとするのに機械学習が用いられてもよい。
 また、例えば、口腔機能の評価結果は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。また、口腔機能に関する提案内容は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。
 また、例えば、上記実施の形態では、口腔機能評価方法は、口腔機能に関する提案を行う提案ステップ(ステップS107)を含んでいたが、含んでいなくてもよい。言い換えると、口腔機能評価装置100は、提案部160を備えていなくてもよい。
 また、例えば、上記実施の形態では、取得ステップ(ステップS102)では、被評価者Uの個人情報を取得したが、取得しなくてもよい。言い換えると、取得部110は、被評価者Uの個人情報を取得しなくてもよい。
 また、例えば、口腔機能評価方法におけるステップは、コンピュータ(コンピュータシステム)によって実行されてもよい。そして、本発明は、それらの方法に含まれるステップを、コンピュータに実行させるためのプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
 例えば、本発明が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。
 また、上記実施の形態の口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素は、専用又は汎用の回路として実現されてもよい。
 また、上記実施の形態の口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素は、集積回路(IC:Integrated Circuit)であるLSI(Large Scale Integration)として実現されてもよい。
 また、集積回路はLSIに限られず、専用回路又は汎用プロセッサで実現されてもよい。プログラム可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続及び設定が再構成可能なリコンフィギュラブル・プロセッサが、利用されてもよい。
 さらに、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素の集積回路化が行われてもよい。
 その他、実施の形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。
 100 口腔機能評価装置
 110 取得部
 115 S/N比算出部
 116 音圧調整部
 120 抽出部
 130 算出部
 140 評価部
 150 出力部
 160 提案部
 180 情報出力部
 200 口腔機能評価システム
 300 携帯端末(端末、マイク、提示装置)
 400 音声特徴量算出装置
 U 被評価者

Claims (11)

  1.  コンピュータによって実行され、被評価者が発話した音声から、前記被評価者の音声の特徴量を算出するための音声特徴量算出方法であって、
     前記被評価者が発話した音声を集音することで得られる音声データを取得し、
     取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度に基づいて、前記音声データにおける音圧を調整し、
     音圧の調整後の前記音声データから少なくとも音圧に関する特徴量を含む前記特徴量を算出する
     音声特徴量算出方法。
  2.  取得した前記音声データにおいて前記被評価者が音声を発している期間に集音された音の第2平均強度の、前記第1平均強度に対する比であるS/N比をさらに算出し、
     算出した前記S/N比が第1閾値以下の場合に、前記音声データにおける音圧を調整する
     請求項1に記載の音声特徴量算出方法。
  3.  算出した前記S/N比が前記第1閾値より大きい場合に、前記音声データにおける音圧を調整しない
     請求項2に記載の音声特徴量算出方法。
  4.  前記音声データにおける音圧の調整では、
     予め測定された静寂時の音の強度と、前記第1平均強度との差分の音圧を前記音声データにおける音圧から減算することで音圧を調整する
     請求項1に記載の音声特徴量算出方法。
  5.  前記音声データにおける音圧の調整は、前記音声データのうち音圧が極小値を示すタイミングに対して実施される
     請求項1に記載の音声特徴量算出方法。
  6.  前記音声データにおける音圧の調整は、前記音声データのうち基本周波数が0を示すタイミングに対して実施される
     請求項5に記載の音声特徴量算出方法。
  7.  前記特徴量は、音圧較差及び音圧較差変化の少なくとも一方と、フォルマント、フォルマント変化、開口時間、閉口時間、破裂音の時間、及び、話速度の少なくともいずれかと、を含む
     請求項1に記載の音声特徴量算出方法。
  8.  算出した前記S/N比が第2閾値以下の場合に、前記S/N比を増大させるための情報をさらに出力する
     請求項2又は3に記載の音声特徴量算出方法。
  9.  前記第1平均強度が音圧閾値以上の場合に、前記S/N比を増大させるための情報をさらに出力する
     請求項2又は3に記載の音声特徴量算出方法。
  10.  被評価者が発話した音声から、前記被評価者の音声の特徴量を算出する音声特徴量算出装置であって、
     前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、
     取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度に基づいて、前記音声データにおける音圧を調整する音圧調整部と、
     音圧の調整後の前記音声データから少なくとも音圧に関する特徴量を含む前記特徴量を抽出することで算出する抽出部と、を備える
     音声特徴量算出装置。
  11.  請求項10に記載の音声特徴量算出装置と、
     前記音声データから抽出される前記特徴量のうち前記音圧に関する特徴量を演算に含む推定式と、音圧の調整後の前記音声データから抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、
     算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を備える
     口腔機能評価装置。
PCT/JP2023/014842 2022-05-25 2023-04-12 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置 WO2023228615A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-085002 2022-05-25
JP2022085002 2022-05-25

Publications (1)

Publication Number Publication Date
WO2023228615A1 true WO2023228615A1 (ja) 2023-11-30

Family

ID=88919112

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/014842 WO2023228615A1 (ja) 2022-05-25 2023-04-12 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置

Country Status (1)

Country Link
WO (1) WO2023228615A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP2012168499A (ja) * 2011-01-28 2012-09-06 Fujitsu Ltd 音声補正装置、音声補正方法及び音声補正プログラム
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
WO2019225242A1 (ja) * 2018-05-23 2019-11-28 パナソニックIpマネジメント株式会社 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH06208395A (ja) * 1992-10-30 1994-07-26 Gijutsu Kenkyu Kumiai Iryo Fukushi Kiki Kenkyusho ホルマント検出装置及び音声加工装置
WO2010089976A1 (ja) * 2009-02-09 2010-08-12 パナソニック株式会社 補聴器
JP2012168499A (ja) * 2011-01-28 2012-09-06 Fujitsu Ltd 音声補正装置、音声補正方法及び音声補正プログラム
JP2013148724A (ja) * 2012-01-19 2013-08-01 Sony Corp 雑音抑圧装置、雑音抑圧方法およびプログラム
WO2019225242A1 (ja) * 2018-05-23 2019-11-28 パナソニックIpマネジメント株式会社 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム

Similar Documents

Publication Publication Date Title
Icht et al. Oral-diadochokinesis rates across languages: English and Hebrew norms
Gick et al. Language-specific articulatory settings: Evidence from inter-utterance rest position
Kent et al. Speech impairment in Down syndrome: A review
CN112135564B (zh) 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统
Benus et al. Articulatory characteristics of Hungarian ‘transparent’vowels
Watts et al. The effect of stretch-and-flow voice therapy on measures of vocal function and handicap
Shaw et al. The lingual articulation of devoiced/u/in Tokyo Japanese
US20200261014A1 (en) Cognitive function evaluation device, cognitive function evaluation system, cognitive function evaluation method, and non-transitory computer-readable storage medium
Soltani et al. Fundamental frequency changes of persian speakers across the life span
WO2019225241A1 (ja) 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム
Knipfer et al. Speech intelligibility enhancement through maxillary dental rehabilitation with telescopic prostheses and complete dentures: a prospective study using automatic, computer-based speech analysis.
Núñez-Batalla et al. Validation of the spanish adaptation of the consensus auditory-perceptual evaluation of voice (CAPE-V)
Kuo et al. Acoustic and perceptual correlates of faster-than-habitual speech produced by speakers with Parkinson's disease and multiple sclerosis
Howson et al. Czech trills revisited: An ultrasound EGG and acoustic study
Celata et al. Nasal place assimilation between phonetics and phonology: An EPG study of Italian nasal-to-velar clusters
Osfar Articulation of whispered alveolar consonants
Lorenc et al. Articulatory and acoustic variation in Polish palatalised retroflexes compared with plain ones
WO2023228615A1 (ja) 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置
Rong et al. Speech intelligibility loss due to amyotrophic lateral sclerosis: the effect of tongue movement reduction on vowel and consonant acoustic features
Ünal-Logacev et al. A multimodal approach to the voicing contrast in Turkish: Evidence from simultaneous measures of acoustics, intraoral pressure and tongue palatal contacts
WO2023203962A1 (ja) 口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法
Parrell et al. Interaction between general prosodic factors and languagespecific articulatory patterns underlies divergent outcomes of coronal stop reduction
Percival et al. An Ultrasound Study of Gemination in Coronal Stops in Eastern Oromo.
WO2022254973A1 (ja) 口腔機能評価方法、プログラム、口腔機能評価装置および口腔機能評価システム
Thomas et al. Voice onset time in early-and late-stage amyotrophic lateral sclerosis

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23811493

Country of ref document: EP

Kind code of ref document: A1