WO2023203962A1 - 口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法 - Google Patents

口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法 Download PDF

Info

Publication number
WO2023203962A1
WO2023203962A1 PCT/JP2023/011742 JP2023011742W WO2023203962A1 WO 2023203962 A1 WO2023203962 A1 WO 2023203962A1 JP 2023011742 W JP2023011742 W JP 2023011742W WO 2023203962 A1 WO2023203962 A1 WO 2023203962A1
Authority
WO
WIPO (PCT)
Prior art keywords
evaluated
person
oral function
oral
ratio
Prior art date
Application number
PCT/JP2023/011742
Other languages
English (en)
French (fr)
Inventor
雅司 石丸
亜明 張
浩気 亀井
絢子 中嶋
若正 清崎
吉浩 松村
Original Assignee
パナソニックIpマネジメント株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パナソニックIpマネジメント株式会社 filed Critical パナソニックIpマネジメント株式会社
Publication of WO2023203962A1 publication Critical patent/WO2023203962A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/21Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being power information
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment

Definitions

  • the present invention relates to an oral function evaluation device, an oral function evaluation system, and an oral function evaluation method that can evaluate the oral function of a person being evaluated.
  • a device for evaluating the eating and swallowing function is attached to the neck of the person to be evaluated, and pharyngeal movement features are obtained as a eating and swallowing function evaluation index (marker) to evaluate the eating and swallowing function of the person being evaluated.
  • a method has been disclosed (see, for example, Patent Document 1).
  • an object of the present invention is to provide an oral function evaluation device and the like that can more accurately evaluate oral function while using the voice of the person being evaluated.
  • An oral function evaluation device is an oral function evaluation device that evaluates the state of decline in the oral function of an evaluated person based on the voice uttered by the evaluated person.
  • an acquisition unit that acquires audio data obtained by collecting audio; an extraction unit that extracts a feature amount from the acquired audio data; and the evaluator does not utter a voice in the acquired audio data.
  • a first average intensity of the sounds collected during the period and a second average intensity of the sounds collected during the period in which the person to be evaluated is making a sound are respectively calculated, and the an S/N ratio calculating unit that calculates an S/N ratio that is a ratio of second average intensities; a determining unit that determines an estimation formula to be used for evaluating the oral function of the person to be evaluated; and the determined estimation formula.
  • a calculation unit that calculates an estimated value of the oral function of the person to be evaluated based on the extracted feature amount, and determining the calculated estimated value using an oral function evaluation index, an evaluation unit that evaluates a state of decline in the oral function of the person to be evaluated, and the determination unit is configured to extract the S/N ratio from the audio data when the calculated S/N ratio is larger than a first threshold.
  • a first estimation equation that includes a sound pressure-related feature among the features is determined as the estimation equation, and if the calculated S/N ratio is less than or equal to the first threshold, the sound pressure-related feature is included.
  • a second estimating equation that does not exist is determined as the estimating equation.
  • an oral function evaluation system is an oral function evaluation system that evaluates the state of decline in the oral function of a person to be evaluated based on the voice uttered by the person to be evaluated, and includes a terminal, and the terminal.
  • an oral function evaluation device connected to the terminal the terminal includes a sound collection device used to collect sounds uttered by the person to be evaluated, and an oral function evaluation device connected to the device;
  • a presentation device for presenting the oral function evaluation device includes an acquisition unit that acquires voice data obtained by collecting the voice uttered by the person to be evaluated, and the acquired voice data.
  • an extraction unit that extracts a feature amount from a first average intensity of sounds collected during a period in which the evaluated person did not make a sound in the acquired audio data
  • an S/N ratio calculation unit that calculates a second average intensity of the sounds collected during the period, and calculates an S/N ratio that is a ratio of the second average intensity to the first average intensity
  • a determining unit that determines an estimation formula to be used for evaluating the oral function of the person to be evaluated, and estimation of the oral function of the person to be evaluated based on the determined estimation formula and the extracted feature amount.
  • the determining unit sets a first estimation equation including a feature related to sound pressure among the features extracted from the audio data as the estimation equation. If the determined and calculated S/N ratio is less than or equal to the first threshold, a second estimating equation that does not include the feature amount related to the sound pressure is determined as the estimating equation.
  • the oral function evaluation method is performed by a terminal and an oral function evaluation device, and evaluates the state of decline in the oral function of the evaluated person based on the voice uttered by the evaluated person.
  • the terminal obtains voice data by collecting the voice uttered by the person being evaluated
  • the oral function evaluation device acquires the voice data
  • the oral function evaluation device acquires the voice data from the acquired voice data.
  • a first average intensity of sounds collected during a period when the person to be evaluated is not making a sound in the acquired voice data and a first average intensity of sounds collected during a period when the person to be evaluated is making a sound are extracted.
  • an estimation formula to be used is determined, an estimated value of the oral function of the person to be evaluated is calculated based on the determined estimation equation and the extracted feature quantity, and the calculated estimated value is used as an oral function evaluation index. evaluating the state of decline in the oral function of the person to be evaluated by making a determination using the estimation formula; In the determination, if the calculated S/N ratio is larger than a first threshold, a first estimation equation including a feature related to sound pressure among the features extracted from the audio data is determined as the estimation equation. However, when the calculated S/N ratio is less than or equal to the first threshold value, a second estimating equation that does not include the feature amount related to the sound pressure is determined as the estimating equation.
  • the oral function evaluation method of the present invention it is possible to evaluate oral function more accurately while using the voice of the person being evaluated.
  • FIG. 1 is a diagram showing the configuration of an oral cavity function evaluation system according to an embodiment.
  • FIG. 1 is a block diagram showing a characteristic functional configuration of an oral cavity function evaluation system according to an embodiment.
  • 2 is a flowchart showing a processing procedure for evaluating the oral function of a person to be evaluated using the oral function evaluation method according to the embodiment. It is a flowchart which shows the processing procedure about the determination of an estimation formula in the oral function evaluation method based on embodiment.
  • FIG. 3 is a diagram showing an example of information output in the oral function evaluation method according to the embodiment. It is a graph showing the relationship between determining an estimation formula and accuracy (estimation accuracy) in the oral function evaluation method according to the embodiment.
  • FIG. 1 is a diagram showing the configuration of an oral cavity function evaluation system according to an embodiment.
  • FIG. 1 is a block diagram showing a characteristic functional configuration of an oral cavity function evaluation system according to an embodiment.
  • 2 is a flowchart showing a processing procedure for evaluating the oral function of a person to
  • FIG. 2 is a diagram illustrating an overview of a method for acquiring the voice of an evaluated person using the oral function evaluation method according to the embodiment.
  • FIG. 7 is a diagram illustrating an example of audio data showing a voice uttered by the person to be evaluated saying, “I have decided to draw a picture.”
  • FIG. 7 is a diagram showing an example of a change in the formant frequency of a voice uttered by the person to be evaluated saying, "I have decided to draw a picture.”
  • FIG. 6 is a diagram illustrating an example of audio data showing the voice repeatedly uttered by the person to be evaluated, such as "karakarakara".
  • FIG. 7 is a diagram illustrating an example of audio data representing a voice uttered by the person being evaluated, saying "what the home.”
  • FIG. 4 is a diagram showing an example of a Chinese phrase or a fixed sentence that is similar to a Japanese phrase or fixed sentence in the degree of tongue movement or mouth opening and closing during pronunciation.
  • FIG. 2 is a diagram showing the International Phonetic Alphabet of vowels.
  • FIG. 2 is a diagram showing the International Phonetic Alphabet of consonants.
  • FIG. 6 is a diagram illustrating an example of audio data representing a voice uttered by the person being evaluated as “gao dao wu da ka ji ke da yi wu zhe.”
  • FIG. 6 is a diagram showing an example of a change in formant frequency of a voice uttered by the person being evaluated as "gao dao wu da ka ji ke da yi wu zhe.” It is a figure showing an example of an oral function evaluation index.
  • FIG. 3 is a diagram showing an example of evaluation results for each element of oral function.
  • FIG. 3 is a diagram showing an example of evaluation results for each element of oral function. This is an example of predetermined data used when making proposals regarding oral cavity functions.
  • each figure is a schematic diagram and is not necessarily strictly illustrated. Furthermore, in each figure, substantially the same configurations are denoted by the same reference numerals, and overlapping explanations may be omitted or simplified.
  • the present invention relates to a method for evaluating a decline in oral function, and oral function includes various factors.
  • elements of oral function include tongue coating, dry mouth, occlusal force, tongue pressure, buccal pressure, number of remaining teeth, swallowing function, and masticatory function.
  • tongue coating dry mouth, occlusal force, tongue pressure, and masticatory function.
  • Tongue coating indicates the extent of bacterial or food deposits on the tongue (i.e. oral hygiene). If the tongue coating is absent or thin, it indicates that there is mechanical abrasion (e.g., ingestion of food), that saliva has a cleaning effect, and that swallowing movements (tongue movements) are normal. On the other hand, when the tongue coating is thick, the movement of the tongue is poor and it is difficult to eat, which can lead to nutritional deficiencies or muscle strength deficiencies. Xerostomia is the degree of dryness of the tongue, and when it is dry, speaking movements are inhibited. In addition, food is crushed after it is taken into the oral cavity, but since it is difficult to swallow as it is, saliva works to organize the crushed food to make it easier to swallow.
  • bolus a collection of crushed food.
  • Bite force is the power to bite hard objects, and is the strength of the jaw muscles.
  • Tongue pressure is an indicator of the force with which the tongue presses against the roof of the mouth. When tongue pressure is weakened, swallowing movements may become difficult. Furthermore, when the tongue pressure becomes weak, the speed at which the tongue moves may decrease, which may result in a decrease in speaking speed. Mastication function is a comprehensive function of the oral cavity.
  • the present invention it is possible to evaluate the state of decline in the oral function of the person to be evaluated (for example, the state of decline in the elements of oral function) from the voice uttered by the person to be evaluated. This is because specific features are observed in the speech uttered by a person to be evaluated whose oral function has deteriorated, and by extracting these as prosodic features, it is possible to evaluate the oral function of the person to be evaluated.
  • the present invention is realized by an oral function evaluation method, a program for causing a computer or the like to execute the method, an oral function evaluation device which is an example of the computer, and an oral function evaluation system including the oral function evaluation device. Below, the oral function evaluation method and the like will be explained while showing the oral function evaluation system.
  • FIG. 1 is a diagram showing the configuration of an oral function evaluation system 200 according to an embodiment.
  • the oral function evaluation system 200 is a system for evaluating the oral function of the person U to be evaluated by analyzing the voice of the person U, and as shown in FIG.
  • a terminal 300 (an example of a terminal) is provided.
  • the oral function evaluation device 100 is a device that uses the mobile terminal 300 to acquire audio data representing the voice uttered by the person U to be evaluated, and evaluates the oral function of the person U to be evaluated from the acquired audio data.
  • the mobile terminal 300 is configured such that the person being evaluated consists of two or more moras that include a change in the first formant frequency or a change in the second formant frequency, or includes at least one of a plucking sound, a plosive sound, a voiceless sound, a consonant sound, and a fricative sound.
  • the mobile terminal 300 is a smartphone, a tablet, or the like that has a microphone.
  • the mobile terminal 300 is not limited to a smartphone or a tablet, and may be, for example, a notebook PC, as long as it has a sound collection function.
  • the oral function evaluation system 200 may include a sound collection device (microphone) instead of the mobile terminal 300. Furthermore, the oral function evaluation system 200 may include an input interface for acquiring the personal information of the person U to be evaluated.
  • the input interface is not particularly limited as long as it has an input function, such as a keyboard or a touch panel. Furthermore, in the oral function evaluation system 200, the volume of the microphone may be set.
  • the mobile terminal 300 may be a display device that has a display and displays images based on image data output from the oral function evaluation device 100. That is, the mobile terminal 300 is an example of a presentation device for presenting information output from the oral function evaluation device 100 as an image.
  • the display device does not need to be the mobile terminal 300, and may be a monitor device configured with a liquid crystal panel, an organic EL panel, or the like. That is, in this embodiment, the mobile terminal 300 is both a sound collection device and a display device, but the sound collection device (microphone), input interface, and display device may be provided separately.
  • the oral function evaluation device 100 and the mobile terminal 300 may be connected by wire or wirelessly as long as they can transmit and receive audio data or image data for displaying images showing the evaluation results described later. May be connected.
  • the oral function evaluation device 100 analyzes the voice of the person U to be evaluated based on the voice data collected by the mobile terminal 300, evaluates the oral function of the person U to be evaluated based on the analysis result, and outputs the evaluation result. .
  • the oral function evaluation device 100 sends to the mobile terminal 300 image data for displaying an image showing the evaluation result, or data for making a proposal regarding the oral cavity to the person being evaluated, which is generated based on the evaluation result. Output.
  • the oral function evaluation device 100 can notify the evaluated person U of the degree of oral function and a proposal for preventing the decline in oral function. Prevention and improvement can be done.
  • the oral function evaluation device 100 is, for example, a personal computer, but may also be a server device. Furthermore, the oral function evaluation device 100 may be a mobile terminal 300. That is, the mobile terminal 300 may have the functions that the oral function evaluation device 100 described below has.
  • FIG. 2 is a block diagram showing the characteristic functional configuration of the oral cavity function evaluation system 200 according to the embodiment.
  • the oral function evaluation device 100 includes an acquisition section 110, an S/N ratio calculation section 115, a determination section 116, an extraction section 120, a calculation section 130, an evaluation section 140, an output section 150, and a proposal section 160. , a storage section 170, and an information output section 180.
  • the acquisition unit 110 acquires audio data obtained by non-contact collection of the voice uttered by the person U being evaluated by the mobile terminal 300.
  • the voice is a voice in which the person being evaluated U utters a phrase or a fixed sentence consisting of two or more moras that includes a change in the first formant frequency or a change in the second formant frequency.
  • the voice is a voice uttering a phrase or a fixed sentence including at least one of a pop sound, a plosive sound, a voiceless sound, a consonant sound, and a fricative sound.
  • the voice may be the voice of an arbitrary sentence uttered.
  • the acquisition unit 110 may further acquire the personal information of the person U to be evaluated.
  • personal information is information input into the mobile terminal 300, and includes age, weight, height, gender, BMI (Body Mass Index), dental information (for example, number of teeth, presence or absence of dentures, location of occlusal support, function number of teeth, number of remaining teeth, etc.), serum albumin level, or eating rate.
  • the personal information may be obtained using a swallowing screening tool called EAT-10, a Seireishiki swallowing questionnaire, an interview, the Barthel Index, a basic checklist, or the like.
  • the acquisition unit 110 is, for example, a communication interface that performs wired or wireless communication.
  • the S/N ratio calculation unit 115 is a processing part that calculates the S/N ratio in the acquired audio data.
  • the S/N ratio in audio data is the ratio of the first average intensity of sound collected during the period when the evaluated person U does not make a sound (period of only background noise) in the acquired audio data to the This is the ratio of the second average intensity of the sound collected during the period in which the sound is being emitted. Therefore, the S/N ratio calculation unit 115 extracts sounds for a period in which the person U to be evaluated does not make a sound from the audio data to calculate the first average intensity, and The second average intensity can be calculated by extracting the sound for the period during which the user is emitting the sound.
  • the S/N ratio calculation unit 115 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the determining unit 116 determines an estimation formula to be used when calculating the estimated value of the oral function of the person U to be evaluated in the calculating unit 130, which will be described later, based on the S/N ratio calculated by the S/N ratio calculating unit 115.
  • This is a processing section that performs Specifically, the determining unit 116 selects the effect of background noise expected from the S/N ratio from among several estimation equation candidates including at least the first estimation equation and the second estimation equation set in advance.
  • the estimation formula to be used for estimation is determined by considering the following. Note that the estimation formula candidates are stored in the storage unit 170 or the like in a state that has been calculated in advance based on a plurality of pieces of learning data.
  • the determining unit 116 determines an estimation equation to be used for estimation from the estimation equation candidates stored in the storage unit 170, and separately stores it in the storage unit 170 as estimation equation data 171.
  • the determining unit 116 is specifically implemented by a processor, a microcomputer, or a dedicated circuit.
  • the extraction unit 120 is a processing unit that analyzes the voice data of the person being evaluated U acquired by the acquisition unit 110.
  • the extraction unit 120 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the extraction unit 120 calculates prosodic features from the audio data acquired by the acquisition unit 110.
  • the prosodic feature amount is a numerical value indicating the feature of the voice of the person U to be evaluated, which is extracted from the voice data used by the evaluation unit 140 to evaluate the oral function of the person U to be evaluated.
  • the prosodic features include speech rate, sound pressure range, time change in sound pressure range, first formant frequency, second formant frequency, amount of change in first formant frequency, amount of change in second formant frequency, and amount of change in first formant frequency. It may include at least one of a time change, a time change of the second formant frequency, and a plosive time.
  • the calculation unit 130 calculates the estimated value of the oral function of the person U to be evaluated based on the prosodic feature extracted by the extraction unit 120 and the determined estimation formula.
  • the calculation unit 130 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the evaluation unit 140 evaluates the state of decline in the oral function of the person U by determining the estimated value calculated by the calculation unit 130 using the oral function evaluation index.
  • Index data 172 indicating the oral function evaluation index is stored in the storage unit 170.
  • the evaluation unit 140 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the output unit 150 outputs the estimated value calculated by the calculation unit 130 to the proposal unit 160. Further, the output unit 150 may output the evaluation result of the oral function of the person U evaluated by the evaluation unit 140 to the mobile terminal 300 or the like.
  • the output unit 150 is specifically realized by a processor, a microcomputer, a dedicated circuit, and a communication interface that performs wired or wireless communication.
  • the proposal unit 160 makes a proposal regarding the oral function of the person U to be evaluated by comparing the estimated value calculated by the calculation unit 130 with predetermined data.
  • Proposal data 173, which is predetermined data, is stored in the storage unit 170. Further, the proposal unit 160 may also compare the personal information acquired by the acquisition unit 110 with the proposal data 173 and make a proposal regarding the oral cavity to the person U to be evaluated.
  • the proposal unit 160 outputs the proposal to the mobile terminal 300.
  • the proposal unit 160 is realized by, for example, a processor, a microcomputer, a dedicated circuit, and a communication interface that performs wired or wireless communication.
  • the storage unit 170 stores candidate data (not shown) for the estimation formula for oral cavity functions calculated based on a plurality of learning data, estimation formula data 171 indicating the estimation formula determined by the determination unit 116, and the data of the evaluated person U.
  • Indicator data 172 indicating an oral function evaluation index for determining the estimated value of oral function
  • proposal data 173 indicating the relationship between the estimated value of oral function and the proposal content
  • the estimation formula data 171 is referred to by the calculation unit 130 when calculating the estimated value of the oral function of the person U to be evaluated.
  • the index data 172 is referred to by the evaluation unit 140 when evaluating the state of decline in the oral function of the person U to be evaluated.
  • the proposal data 173 is referred to by the proposal unit 160 when a proposal regarding the oral cavity function is made to the person U to be evaluated.
  • the personal information data 174 is, for example, data acquired via the acquisition unit 110. Note that the personal information data 174 may be stored in the storage unit 170 in advance.
  • the storage unit 170 is realized by, for example, a ROM (Read Only Memory), a RAM (Random Access Memory), a semiconductor memory, an HDD (Hard Disk Drive), or the like.
  • the information output unit 180 is a processing unit that outputs information for increasing the S/N ratio.
  • the information output unit 180 generates and outputs information on instructions to improve the environment for collecting the voice uttered by the person being evaluated, when the calculated S/N ratio does not meet a certain standard.
  • the information output unit 180 is realized by a processor, a microcomputer, or a dedicated circuit.
  • the storage unit 170 also includes a computer for realizing the S/N ratio calculation unit 115, the determination unit 116, the extraction unit 120, the calculation unit 130, the evaluation unit 140, the output unit 150, the proposal unit 160, and the information output unit 180.
  • the program to be executed in You can leave it there. Further, the storage unit 170 may store an instruction image to be described later.
  • the oral function evaluation device 100 is configured to have two or more moras including a change in the first formant frequency or a change in the second formant frequency, or at least one of a pop sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • the evaluation unit may include an instruction unit for instructing the person U to be evaluated to pronounce a phrase or a fixed phrase including the following. Specifically, the instruction unit acquires image data of an instruction image or audio data of an instruction voice stored in the storage unit 170 for instructing to pronounce the passage or fixed phrase. Then, the image data or the audio data is output to the mobile terminal 300.
  • FIG. 3A is a flowchart showing a processing procedure for evaluating the oral function of the person U to be evaluated using the oral function evaluation method according to the embodiment.
  • FIG. 4 is a diagram showing an outline of a method for acquiring the voice of the person to be evaluated U using the oral function evaluation method.
  • the instruction part is a phrase or a fixed phrase that consists of two or more moras that include a change in the first formant frequency or a change in the second formant frequency, or that includes at least one of a pop sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • An instruction is given to pronounce the sentence (step S101).
  • the instruction unit acquires image data of an image for instructions to the person to be evaluated U stored in the storage unit 170 , and outputs the image data to the mobile terminal 300 .
  • FIG. 4(a) an image for instructions to the person being evaluated U is displayed on the mobile terminal 300.
  • the user may be instructed to utter phrases such as “kara”, “sara”, “chara”, “jara”, “shara”, “chara”, and “pura”. Also, “Aei”, “Iea”, “Ai”, “Ia”, “Kakeki”, “Kikeka”, “Naneni”, “Chitteta”, “Papepi”, “Pipepa” , “Katepi”, “Chipeka”, “Kaki”, “Tachi”, “Papi”, “Misa”, “Rari”, “Wani”, “Niwa”, “Eo”, “I The user may be instructed to utter phrases such as ⁇ o'', ⁇ iu'', ⁇ teko'', ⁇ kiro'', ⁇ teru'', ⁇ peko'', ⁇ memo'', and ⁇ emo''.
  • the pronunciation instruction may be an instruction to repeatedly utter such a phrase.
  • the instruction unit also acquires the audio data of the voice for instructions to the person to be evaluated U stored in the storage unit 170, and outputs the audio data to the mobile terminal 300 to instruct the person to pronounce the sound.
  • the above-mentioned instruction may be given using an instruction sound that instructs to pronounce the pronunciation without using an instruction image.
  • an evaluator family member, doctor, etc.
  • you wants to evaluate the oral function of person U without using images and sounds to instruct person U to pronounce the words can give the above instructions to person U using his/her own voice. You may go.
  • a phrase or a fixed sentence to be uttered may include two or more vowels or a combination of vowels and consonants that are accompanied by opening and closing of the mouth or back and forth movements of the tongue in order to speak.
  • a phrase or fixed phrase in Japanese includes, ⁇ I decided to draw the picture.'' In order to utter the ⁇ ewo'' in ⁇ I have decided to draw a picture,'' the tongue must move back and forth, and in order to utter the ⁇ kimeta'' in ⁇ I have decided to draw a picture,'' Accompanied by opening and closing of the mouth.
  • the ⁇ e'' part of ⁇ I decided to draw a picture'' contains the second formant frequencies of the vowel ⁇ e'' and the vowel ⁇ o,'' and the vowel ⁇ e'' and the vowel ⁇ o'' are adjacent to each other. Since they match, the amount of change in the second formant frequency is included. Also, this part includes the temporal change in the second formant frequency.
  • the "decided" part of "I decided to draw a picture” includes the first formant frequencies of the vowel "i", the vowel "e”, and the vowel "a”; Since "e” and the vowel "a” are adjacent to each other, the amount of change in the first formant frequency is included.
  • this part includes the time change of the first formant frequency.
  • the sound pressure range, the first formant frequency, the second formant frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, and the first formant frequency It is possible to extract prosodic features such as the temporal change in the second formant frequency, the temporal change in the second formant frequency, and the speech rate.
  • a fixed sentence to be uttered may include a repetition of a phrase consisting of a plucked sound and a consonant different from the plucked sound.
  • a fixed phrase includes "karakarakara".
  • the phrase or fixed sentence to be uttered may include at least one combination of a vowel and a plosive.
  • such phrases in Japanese include ⁇ hetai'' and the like.
  • hetai it is possible to extract prosodic features such as sound pressure difference and plosive time (time between vowels).
  • the prosodic feature of the sound pressure difference is easily affected by background noise, so especially in a sound collection environment with a relatively low S/N ratio, the prosodic feature of the sound pressure difference may be less than the estimated value. This may have a negative impact on accuracy in estimation. Therefore, in the present invention, an estimation formula is determined in such a way that the influence of the feature amount of the sound pressure difference on the calculation of the estimated value is changed according to the S/N ratio calculated by the S/N ratio calculation unit 115. . In the present invention, by doing so, it is possible to reduce the possibility that the prosodic feature amount of the sound pressure difference has a negative effect on the accuracy in estimating the estimated value, and to estimate the estimated value.
  • FIG. 3B is a flowchart showing a processing procedure for determining an estimation formula in the oral function evaluation method according to the embodiment.
  • FIG. 3C is a diagram showing an example of information output in the oral function evaluation method according to the embodiment.
  • FIG. 3D is a graph showing the relationship between determining an estimation formula and accuracy (estimation accuracy) in the oral function evaluation method according to the embodiment.
  • the S/N ratio calculation unit 115 measures background noise and calculates a first average intensity (sound pressure) of only the background noise (step S201 ).
  • a first average intensity (sound pressure) of only the background noise step S201 .
  • the S/N ratio calculation unit 115 calculates the second average intensity (sound pressure) during speech by the person U to be evaluated in order to calculate the S/N ratio (step S202).
  • the first average intensity and the second average intensity may be calculated using that situation.
  • the S/N ratio calculation unit 115 calculates the S/N ratio by calculating the ratio of the second average intensity to the first average intensity (step S203).
  • the calculated S/N ratio is output to the information output section 180.
  • the information output unit 180 determines whether the S/N ratio is larger than the second threshold (step S204). If it is determined that the S/N ratio is less than or equal to the second threshold (No in S204), the information output unit 180 generates and outputs information that improves the sound collection environment to increase the S/N ratio (step S205).
  • a message is displayed on the mobile terminal 300 saying, "Please check the connection status of the microphone or increase the volume of your voice when speaking.”
  • the current state is shown.
  • An instruction is given to increase the S/N ratio by performing this.
  • the message "Please move the sound collection location" may be displayed on the mobile terminal 300 so as to reduce the environmental sound when the person being evaluated speaks.
  • the information output unit 180 does nothing in particular and proceeds to step S206. Specifically, the calculated S/N ratio is also output to the determining section 116.
  • the determining unit 116 determines whether the S/N ratio is larger than the first threshold (step S206). If it is determined that the S/N ratio is less than or equal to the first threshold (No in S206), the determining unit 116 estimates a second estimation formula that does not include the feature amount related to sound pressure among the prosodic feature amount extracted from the audio data. (step S208), and the estimation formula data 171 is stored in the storage unit 170.
  • the determining unit 116 uses a first estimation formula that includes a feature related to sound pressure among the prosodic features extracted from the audio data. is determined as an estimation equation to be used for estimation (step S207), and estimation equation data 171 is stored in the storage unit 170.
  • an estimation formula that is changed in terms of whether or not it includes the prosodic feature amount related to the sound pressure is determined according to the S/N ratio, and is used for estimating the estimated value.
  • FIG. 3D shows the relationship between the S/N ratio and the estimation accuracy when the same estimation formula is uniformly used without considering the S/N ratio, and (b) shows the relationship between the S/N ratio and the estimation accuracy.
  • the relationship between the S/N ratio and the estimation accuracy is shown when an estimation formula is determined based on whether or not the prosodic features related to sound pressure are included depending on the S/N ratio. There is.
  • both (a) and (b) show the same estimation accuracy. However, in a range where the S/N ratio is below the first threshold and above the second threshold, (a) in FIG. , the estimation accuracy is lower than that in FIG. 3D (b).
  • the S/N ratio becomes less than the second threshold, an instruction to increase the S/N ratio is given, so that the estimated value is , since the audio data is acquired and processed again after moving to an environment with an improved S/N ratio, it becomes difficult to estimate the estimated value with low estimation accuracy.
  • the audio data may be obtained by collecting audio in which the person being evaluated U utters a phrase or a fixed phrase at least twice at different speaking speeds. For example, the person being evaluated U is instructed to utter "I have decided to draw a picture" at a normal speed and at a faster speed. By uttering ⁇ I've decided to draw'' at the usual speed and at a faster speed, it is possible to estimate the degree to which oral function has been maintained.
  • the acquisition unit 110 acquires the voice data of the person U who received the instruction in step S101 via the mobile terminal 300 (step S102).
  • step S102 for example, the person being evaluated U utters a clause or a fixed phrase such as "I have decided to draw a picture" toward the mobile terminal 300.
  • the acquisition unit 110 acquires a phrase or a fixed phrase uttered by the person being evaluated U as audio data.
  • the extraction unit 120 extracts prosodic features from the audio data acquired by the acquisition unit 110 (step S103).
  • the extraction unit 120 extracts the sound pressure range, the first formant frequency, the second formant frequency, etc.
  • the frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, the time change in the first formant frequency, the time change in the second formant frequency, and the speaking speed are extracted as prosodic features. This will be explained using FIGS. 5A and 5B.
  • FIG. 5A is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, "I've decided to draw a picture.”
  • the horizontal axis of the graph shown in FIG. 5A is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 5A is decibel (dB).
  • the graph shown in Figure 5A includes “e”, “wo”, “ka”, “ku”, “ko”, “to”, “ni”, “ki”, “me”, “ta”, “yo”. ” is confirmed.
  • the acquisition unit 110 acquires the audio data shown in FIG. 5A from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "k” and “a” in “ka” included in the audio data shown in FIG.
  • Each sound pressure of "k” and “o” in “(ko)” each sound pressure of "t” and “o” in “to (to)", “t” and “a” in “ta (ta)” Extract each sound pressure.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between “k” and “a” from the extracted sound pressures of "k” and “a” as a prosodic feature amount. Similarly, the extraction unit 120 extracts the sound pressure difference Diff_P(ko) between “k” and “o", the sound pressure range Diff_P(to) between “t” and “o”, and the sound pressure range Diff_P(to) between "t” and “a”.
  • the pressure difference Diff_P(ta) is extracted as a prosodic feature.
  • sound pressure gradients can assess oral function with respect to the force of swallowing (the pressure with which the tongue contacts the roof of the mouth) or the force of holding food together.
  • the oral function related to the ability to prevent food and drink from flowing into the throat can also be evaluated by the sound pressure gradient including "k”.
  • FIG. 5B is a diagram showing an example of a change in the formant frequency of the voice uttered by the person being evaluated, "I have decided to draw a picture.” Specifically, FIG. 5B is a graph for explaining an example of changes in the first formant frequency and the second formant frequency.
  • the first formant frequency is the first amplitude peak frequency seen from the low frequency side of human speech, and is known to easily reflect characteristics related to opening and closing of the mouth.
  • the second formant frequency is the second amplitude peak frequency seen from the low frequency side of human speech, and is known to easily reflect the effects of back and forth movements of the tongue.
  • the extraction unit 120 extracts the first formant frequency and the second formant frequency of each of a plurality of vowels as prosodic features from the audio data representing the speech uttered by the person to be evaluated. For example, the extraction unit 120 extracts the second formant frequency F2e corresponding to the vowel "e” and the second formant frequency F2o corresponding to the vowel “o” in “Ewo” as prosodic features. For example, the extraction unit 120 also extracts the first formant frequency F1i corresponding to the vowel "i”, the first formant frequency F1e corresponding to the vowel "e”, and the first formant frequency F1e corresponding to the vowel "a" in "Kimeta”. The formant frequency F1a is extracted as a prosodic feature.
  • the extraction unit 120 extracts the amount of change in the first formant frequency and the amount of change in the second formant frequency of a character string with consecutive vowels as prosodic feature amounts. For example, the extraction unit 120 extracts the amount of change in the second formant frequency F2e and the second formant frequency F2o (F2e-F2o), and the amount of change in the first formant frequency F1i, the first formant frequency F1e, and the first formant frequency F1a ( F1e-F1i, F1a-F1e, F1a-F1i) are extracted as prosodic features.
  • the extraction unit 120 extracts the temporal change in the first formant frequency and the temporal change in the second formant frequency of the character string with consecutive vowels as prosodic features. For example, the extraction unit 120 extracts temporal changes in the second formant frequency F2e and second formant frequency F2o, and temporal changes in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a as prosodic features. do.
  • FIG. 5B shows an example of a time change in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a, and the time change is ⁇ F1/ ⁇ Time. This ⁇ F1 is F1a ⁇ F1i.
  • the oral function related to food gathering movements front, back, left, and right movements of the tongue
  • the oral function related to the ability to grind food can be evaluated based on the first formant frequency, the amount of change in the first formant frequency, or the time change in the first formant frequency.
  • oral function related to the ability to move the mouth quickly can be evaluated based on the temporal change in the first formant frequency.
  • the extraction unit 120 may extract speech speed as a prosodic feature.
  • the extraction unit 120 may extract the time from when the person U to be evaluated starts uttering "I decided to draw a picture" to when the utterance ends as a prosodic feature amount.
  • the extraction unit 120 is not limited to the time until the entire sentence "I have decided to draw a picture" is uttered, but the extraction unit 120 may emit the utterance from the time when a specific part of "I have decided to draw a picture” is uttered. The time taken to complete the process may be extracted as a prosodic feature.
  • the extraction unit 120 may extract the average time required to utter one or more words of all or a specific part of "I decided to draw a picture" as a prosodic feature.
  • speaking rate can assess oral function with respect to swallowing movements, food gathering movements, or tongue dexterity.
  • the extraction unit 120 extracts the temporal change in the sound pressure difference as a prosodic feature. do. This will be explained using FIG. 6.
  • FIG. 6 is a diagram illustrating an example of audio data showing the voice repeatedly uttered by the person being evaluated, "Karakakarakara".
  • the horizontal axis of the graph shown in FIG. 6 is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 6 is decibel (dB).
  • the acquisition unit 110 acquires the audio data shown in FIG. 6 from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "k” and “a” in “ka” included in the audio data shown in FIG.
  • the sound pressures of "r” and “a” in “(ra)” are extracted.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between "k” and "a” from the extracted sound pressures of "k” and "a” as a prosodic feature amount.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ra) between “r” and “a” as a prosodic feature amount. For example, the extraction unit 120 extracts the sound pressure difference Diff_P(ka) and the sound pressure difference Diff_P(ra) as prosodic features for each repeatedly uttered "kara”. Then, the extraction unit 120 extracts the temporal change of the sound pressure difference Diff_P(ka) from each of the extracted sound pressure differences Diff_P(ka) as a prosodic feature amount, and , the temporal change in the sound pressure difference Diff_P(ra) is extracted as a prosodic feature. For example, oral function with respect to swallowing movements, food gathering movements or the ability to crush food can be assessed by the temporal variation of the sound pressure gradient.
  • the extraction unit 120 may extract temporal changes in sound pressure as prosodic features. For example, the time change of the minimum sound pressure (sound pressure of "k”) for each "kara” when repeatedly uttered “karakarakara" may be extracted, or The time change of the maximum sound pressure (sound pressure of "a”) may be extracted, or the time change of the sound pressure between "ka” and "ra” (sound pressure of "r") in each "kara” may be extracted. Changes may be extracted. For example, oral function with respect to swallowing movements, food gathering movements, or the ability to crush food can be assessed by the temporal variation of sound pressure.
  • the extraction unit 120 may extract the number of repetitions, which is the number of times "kara" can be uttered within a predetermined period of time, as a feature quantity.
  • the predetermined time is not particularly limited, but may be 5 seconds or the like.
  • the number of repetitions per predetermined time period can assess oral function related to swallowing movements or food gathering movements.
  • the extraction unit 120 extracts the sound pressure difference and the duration of the plosive as prosodic features. This will be explained using FIG. 7.
  • FIG. 7 is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, saying, "What the home."
  • audio data showing repeated utterances such as "What the home" is shown.
  • the horizontal axis of the graph shown in FIG. 7 is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 7 is decibel (dB).
  • the acquisition unit 110 acquires the audio data shown in FIG. 7 from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "t” and "a” in "ta” included in the audio data shown in FIG. 7 using a known method.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ta) between "t” and "a” from the extracted sound pressures of "t” and "a” as a prosodic feature amount.
  • sound pressure gradients can assess oral function in terms of swallowing force or food holding power.
  • the extraction unit 120 also extracts the plosive time Time (i-ta) (the plosive time between "i” and "ta”) as a prosodic feature.
  • i-ta the plosive time between "i” and "ta”
  • the duration of the plosive can be used to assess oral function with respect to swallowing movements, food gathering movements, or steady movements of the tongue.
  • phrases or fixed sentences to be uttered have been explained using phrases or fixed sentences in Japanese as an example, they may be in any language other than Japanese.
  • FIG. 8 is a diagram showing an example of a Chinese phrase or fixed sentence that is similar to a Japanese phrase or fixed sentence in the degree of tongue movement or mouth opening and closing during pronunciation.
  • FIG. 8 shows some examples of phrases or fixed sentences for Japanese and Chinese that have similar tongue movements or mouth opening/closing degrees during pronunciation.
  • FIGS. 9A and 9B Furthermore, the fact that there are languages in the world that have similar tongue movements or mouth opening/closing during pronunciation will be briefly explained using FIGS. 9A and 9B.
  • FIG. 9A is a diagram showing the International Phonetic Symbol of vowels.
  • FIG. 9B is a diagram showing the International Phonetic Alphabet of consonants.
  • the positional relationship of the International Phonetic Alphabet for vowels shown in Figure 9A shows the forward and backward movements of the tongue in the horizontal direction; the closer they are, the more similar the forward and backward movements of the tongue are, and the vertical direction shows the degree of opening and closing of the mouth. , the closer they are, the more similar are the degrees of opening and closing of the mouth.
  • the horizontal direction shows the parts used for pronunciation, from the lips to the throat. You can pronounce it using parts. Therefore, the present invention can be applied to various languages existing in the world.
  • the phrase or fixed phrase should include consecutive International Phonetic Symbols (for example, "i” and “a”) separated in the vertical direction as shown in FIG. 9A.
  • consecutive International Phonetic Symbols for example, "i” and "a” separated laterally as shown in FIG. 9A in a clause or fixed sentence. Make it. Thereby, it is possible to increase the amount of change in the second formant frequency as a prosodic feature.
  • the extraction unit 120 extracts the sound pressure range, first formant frequency, , the second formant frequency, the amount of change in the first formant frequency, the amount of change in the second formant frequency, the temporal change in the first formant frequency, the temporal change in the second formant frequency, and the speaking speed are extracted as prosodic features. This will be explained using FIGS. 10A and 10B.
  • FIG. 10A is a diagram illustrating an example of audio data showing the voice uttered by the person being evaluated, "gao dao wu da ka ji ke da yi wu zhe.”
  • the horizontal axis of the graph shown in FIG. 10A is time, and the vertical axis is power (sound pressure). Note that the unit of power shown on the vertical axis of the graph in FIG. 10A is decibel (dB).
  • the graph shown in FIG. 10A includes “gao”, “dao”, “wu”, “da”, “ka”, “ji”, “ke”, “da”, “yi”, “wu”, “zhe” ” is confirmed.
  • the acquisition unit 110 acquires the audio data shown in FIG. 10A from the person being evaluated U in step S102 shown in FIG. 3A.
  • the extraction unit 120 extracts the sound pressures of "d” and “a” in “dao” and "ka” included in the audio data shown in FIG. 10A using a known method.
  • the sound pressures of "k” and “a”, the sound pressures of "k” and “e” in “ke”, and the sound pressures of "zh” and “e” in “zhe” are extracted.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(da) between “d” and “a” from the extracted sound pressures of "d” and “a” as a prosodic feature amount.
  • the extraction unit 120 extracts the sound pressure difference Diff_P(ka) between "k” and “a”, the sound pressure range Diff_P(ke) between "k” and “e”, and the sound pressure range Diff_P(ke) between "zh” and “e”.
  • the pressure difference Diff_P(zhe) is extracted as a prosodic feature.
  • sound pressure gradients can assess oral function in terms of swallowing force or food holding power.
  • the oral function related to the ability to prevent food and drink from flowing into the throat can also be evaluated by the sound pressure gradient including "k”.
  • FIG. 10B is a diagram illustrating an example of a change in the formant frequency of the voice uttered by the evaluator U as "gao dao wu da ka ji ke da yi wu zhe.” Specifically, FIG. 10B is a graph for explaining an example of changes in the first formant frequency and the second formant frequency.
  • the extraction unit 120 extracts the first formant frequency and the second formant frequency of each of a plurality of vowels as prosodic features from the audio data representing the speech uttered by the person to be evaluated. For example, the extraction unit 120 extracts the first formant frequency F1i corresponding to the vowel “i” in “ji", the first formant frequency F1e corresponding to the vowel “e” in “ke”, and the vowel “a” in “da”. The corresponding first formant frequency F1a is extracted as a prosodic feature. For example, the extraction unit 120 extracts the second formant frequency F2i corresponding to the vowel "i” in “yi” and the second formant frequency F2u corresponding to the vowel "u” in “wu” as prosodic features.
  • the extraction unit 120 extracts the amount of change in the first formant frequency and the amount of change in the second formant frequency of a character string with consecutive vowels as prosodic feature amounts. For example, the extraction unit 120 extracts the first formant frequency F1i, the first formant frequency F1e, and the amount of change in the first formant frequency F1a (F1e-F1i, F1a-F1e, F1a-F1i), as well as the second formant frequency F2i and the first formant frequency F1a. The amount of change (F2i-F2u) in the two-formant frequency F2u is extracted as a prosodic feature.
  • the extraction unit 120 extracts the temporal change in the first formant frequency and the temporal change in the second formant frequency of the character string with consecutive vowels as prosodic features. For example, the extraction unit 120 extracts temporal changes in the first formant frequency F1i, first formant frequency F1e, and first formant frequency F1a, and temporal changes in the second formant frequency F2i and second formant frequency F2u as prosodic features. do.
  • the oral function related to food gathering movements can be evaluated based on the second formant frequency, the amount of change in the second formant frequency, or the temporal change in the second formant frequency.
  • the oral function related to the ability to grind food can be evaluated based on the first formant frequency, the amount of change in the first formant frequency, or the time change in the first formant frequency.
  • oral function related to the ability to move the mouth quickly can be evaluated based on the temporal change in the first formant frequency.
  • the extraction unit 120 may extract speech speed as a prosodic feature.
  • the extraction unit 120 may extract the time from when the person U to be evaluated starts saying "gao dao wu da ka ji ke da yi wu zhe" until the end of the utterance as the prosodic feature amount.
  • the extraction unit 120 is not limited to the time required to finish uttering all of "gao dao wu da ka ji ke da yi wu zhe”; Identification of “da yi wu zhe” The time from the beginning of the utterance to the end of the utterance may be extracted as a prosodic feature.
  • the extraction unit 120 extracts the average time it takes to utter one word or multiple words of all or a specific part of "gao dao wu da ka ji ke da yi wu zhe" as a prosodic feature.
  • speaking rate can assess oral function with respect to swallowing movements, food gathering movements, or tongue dexterity.
  • the calculation unit 130 estimates the oral function of the person U to be evaluated based on the extracted prosodic feature amount and the oral function estimation formula calculated based on the plurality of learning data. A value is calculated (step S104).
  • the estimation formula for the oral cavity function is selectively determined from a plurality of candidates based on the S/N ratio by the determination unit 116.
  • Each of the plurality of estimation formula candidates is set in advance based on evaluation results performed on a plurality of subjects.
  • the voice features uttered by the test subject are collected, the test subject's oral function is actually diagnosed, and the correlation between the voice features and the diagnosis results is established through statistical analysis using multiple regression equations. Different types of estimation formulas can be generated depending on how the audio features used as representative values are selected. In this way, estimation formula candidates can be generated in advance.
  • a plurality of candidates for the estimation formula are set for each of the elements of oral cavity function.
  • each of the first estimation equation and the second estimation equation is set for each of the elements of oral cavity function.
  • Machine learning may be used to set the correlation between the voice feature amount and the diagnosis result.
  • Machine learning methods include logistics regression, SVM (Support Vector Machine), and random forest.
  • the estimation formula candidate can be configured to include a coefficient corresponding to an element of oral function and a variable to which the extracted prosodic feature is substituted and multiplied by the coefficient. Equations 1 to 5 below are examples of first estimation equations.
  • A1, B1, C1,..., P1, A2, B2, C2,..., P2, A3, B3, C3,..., P3, A4, B4, C4,..., P4, A5, B5, C5, . . . , P5 are coefficients, specifically, coefficients corresponding to elements of oral function.
  • A1, B1, C1, ..., P1 are coefficients corresponding to oral hygiene, which is one of the elements of oral function
  • A2, B2, C2, ..., P2 are the factors of oral function.
  • A3, B3, C3, ..., P3 are coefficients corresponding to occlusal force, which is one of the elements of oral function
  • A4, B4, C4 , ..., P4 is a coefficient corresponding to tongue pressure, which is one of the elements of oral function
  • A5, B5, C5, ..., P5 is a coefficient corresponding to the masticatory function, which is one of the elements of oral function. is the coefficient corresponding to .
  • Q1 is a constant corresponding to oral hygiene
  • Q2 is a constant corresponding to dry mouth
  • Q3 is a constant corresponding to occlusal force
  • Q4 is a constant corresponding to tongue pressure
  • Q5 is a constant corresponding to masticatory function. is a constant.
  • F2e which is multiplied by A1, A2, A3, A4, and A5
  • F2o which is multiplied by B1, B2, B3, B4, and B5
  • This is a variable to which the second formant frequency, which is a prosodic feature extracted from speech data, is substituted.
  • F1i which is multiplied by C1, C2, C3, C4, and C5
  • F1e which is multiplied by D1, D2, D3, D4, and D5
  • F1a which is multiplied by E1, E2, E3, E4, and E5
  • Diff_P(ka) which is multiplied by F1, F2, F3, F4, F5, Diff_P(ko) which is multiplied by G1, G2, G3, G4, G5, and Diff_P( which is multiplied by H1, H2, H3, H4, H5)
  • Diff_P(ta) which is multiplied by J1, J2, J3, J4, and J5
  • I decided to draw a picture This is a variable to which the sound pressure difference, which is a quantity, is substituted.
  • Diff_P(ka), which is multiplied by K1, K2, K3, K4, and K5, and Diff_P(ra), which is multiplied by L1, L2, L3, L4, and L5, are This is a variable to which the sound pressure difference, which is a prosodic feature extracted from speech data, is substituted.
  • Num (kara), which is multiplied by M1, M2, M3, M4, and M5, is the number of repetitions, which is the prosodic feature extracted from the utterance data when the evaluator U repeatedly utters "kara" within a certain period of time. is the variable to be assigned.
  • Diff_P(ta), which is multiplied by N1, N2, N3, N4, and N5, is a variable to which the sound pressure difference, which is a prosodic feature extracted from the utterance data when the person U uttered "hetai", is substituted. It is. Time (i-ta), which is multiplied by P1, P2, P3, P4, and P5, is substituted with the time of the plosive, which is a prosodic feature extracted from the utterance data when the person being evaluated U uttered “hetai”. This is a variable that is
  • the calculation unit 130 calculates estimated values for each element of the oral function of the person U to be evaluated (e.g., tongue coating, dry mouth, occlusal force, tongue pressure, and masticatory function). calculate.
  • these elements of oral function are just examples, and the elements of oral function include at least the following: tongue coating, dry mouth, occlusal force, tongue pressure, cheek pressure, number of remaining teeth, swallowing function, and masticatory function of assessee U. It is sufficient if one is included.
  • the extraction unit 120 extracts multiple types of clauses or fixed phrases (for example, in Equations 1 to 5 above, "I decided to write the picture", "kara", and "hetai") to the evaluator U.
  • the calculation unit 130 extracts a plurality of prosodic features from the voice data obtained by collecting the sounds uttered by the user, and estimates the oral function based on the extracted plurality of prosodic features and the estimation formula. Calculate the value.
  • the calculation unit 130 can accurately calculate the estimated value of the oral function by substituting a plurality of prosodic feature amounts extracted from the audio data of a plurality of types of clauses or fixed sentences into one estimation formula.
  • Equations 6 to 10 below are examples of second estimation equations.
  • the second estimation equation omits terms of prosodic features related to sound pressure, such as sound pressure difference, and is suitable for sound collection environments with small S/N ratios.
  • estimation equation may be a multidimensional equation such as a quadratic equation.
  • the evaluation unit 140 evaluates the state of decline in the oral function of the person to be evaluated U by determining the estimated value calculated by the calculation unit 130 using the oral function evaluation index (step S105). For example, the evaluation unit 140 determines the estimated value of each element of the oral function calculated using an oral function evaluation index determined for each element of the oral function, thereby reducing the decline in the oral function of the person being evaluated. Evaluate the condition for each element of oral function.
  • the oral function evaluation index is an index for evaluating oral function, and is, for example, a condition for determining that oral function has deteriorated. The oral function evaluation index will be explained using FIG. 11.
  • FIG. 11 is a diagram showing an example of an oral function evaluation index.
  • Oral function evaluation indicators are determined for each element of oral function. For example, an index of 50% or more is established for oral hygiene, an index of 27 or less is established for dry mouth, and an index of less than 200N is established for occlusal force (GC Corporation's Dental Prescale II). ), an index of less than 30 kPa is established for tongue pressure, and an index of less than 100 mg/dL is established for masticatory function. (See https://www.jads.jp/basic/pdf/document_02.pdf).
  • the evaluation unit 140 compares the calculated estimated value for each element of oral function with the oral function evaluation index determined for each element of oral function to determine the state of decline in the oral function of the person U. Evaluate each functional element.
  • the calculated estimated value of oral hygiene is 50% or more, it is evaluated that oral hygiene is in a deteriorated state as an element of oral function.
  • the calculated estimated value of xerostomia is 27 or less, it is evaluated that xerostomia is in a declining state as an element of oral function, and the calculated estimated value of occlusal force is less than 200N.
  • the estimated value of the calculated tongue pressure is less than 30 kPa, it is evaluated that the occlusal force is in a decreased state as an element of oral function.
  • the estimated value of masticatory function evaluated and calculated is less than 100 mg/dL, it is evaluated that masticatory function as an element of oral function is in a deteriorated state.
  • oral function evaluation index determined for oral hygiene, oral dryness, occlusal force, tongue pressure, and masticatory function shown in FIG. 11 is an example, and is not limited thereto.
  • an index of remaining teeth may be determined for masticatory function.
  • oral hygiene, dry mouth, occlusal force, tongue pressure, and masticatory function are shown as elements of oral function, but these are just examples.
  • there are oral function factors such as tongue movement, lip movement, and lip strength for tongue and lip motor dysfunction.
  • the output unit 150 outputs the evaluation result of the oral function of the person U evaluated by the evaluation unit 140 (step S106).
  • the output unit 150 outputs the evaluation result to the mobile terminal 300.
  • the output unit 150 may include, for example, a communication interface that performs wired communication or wireless communication, and acquires image data of an image corresponding to the evaluation result from the storage unit 170 and acquires it to the mobile terminal 300. Send image data. Examples of the image data (evaluation results) are shown in FIGS. 12 and 13.
  • the evaluation result may be a two-level evaluation result of OK or NG.
  • OK means normal
  • NG means abnormal.
  • normality and abnormality may not be indicated for each element of oral function; for example, only the evaluation results of elements suspected of being degraded may be indicated.
  • the evaluation result is not limited to a two-level evaluation result, but may be a detailed evaluation result in which the degree of evaluation is divided into three or more levels.
  • the index data 172 stored in the storage unit 170 may include a plurality of indexes for one element.
  • the evaluation results may be expressed in a radar chart.
  • FIGS. 12 and 13 are examples, and the wording of the evaluation items, the oral function items, and their corresponding combinations are not limited to those shown in FIGS. 12 and 13.
  • the proposal unit 160 makes a proposal regarding the oral function of the person U by comparing the estimated value calculated by the calculation unit 130 with predetermined data (proposal data 173). (Step S107).
  • predetermined data will be explained using FIG. 14.
  • FIG. 14 is an example of predetermined data (proposal data 173) used when making proposals regarding oral cavity functions.
  • the proposal data 173 is data in which evaluation results and proposal contents are associated with each other for each element of oral function. For example, when the estimated value of the calculated oral cleanliness is 50% or more, the proposal unit 160 determines that the index is satisfied because the index is satisfied, and the proposal content is associated with the oral cleanliness.
  • the storage unit 170 includes data indicating the proposal contents (for example, images, videos, audio, text, etc.), and the proposal unit 160 Using such data, a proposal regarding the oral cavity function is made to the person U to be evaluated.
  • the oral function evaluation method is executed by the terminal (mobile terminal 300) and the oral function evaluation apparatus 100, and the An oral function evaluation method for evaluating the state of decline in oral function of a person, in which a terminal obtains voice data by collecting the voice uttered by the person being evaluated, and an oral function evaluation device 100 acquires the voice data. Then, the feature quantity is extracted from the acquired audio data, and the first average intensity of the sound collected during the period when the evaluated person U is not making a sound in the acquired audio data and the voice of the evaluated person U are calculated. The second average intensity of the sound collected during the emitting period is calculated, and the S/N ratio, which is the ratio of the second average intensity to the first average intensity, is calculated.
  • An estimation formula to be used for functional evaluation is determined, an estimated value of the oral function of the person U is calculated based on the determined estimation equation and the extracted feature quantity, and the calculated estimated value is used for the oral function evaluation. Determining an estimation formula, including evaluating the deteriorated state of the oral function of the evaluated person U by making a determination using the index, and the terminal presenting the evaluated deteriorated state of the oral function of the evaluated person U.
  • the calculated S/N ratio is larger than the first threshold
  • the first estimation equation that includes the sound pressure feature among the features extracted from the audio data is determined as the estimation equation
  • the calculated S/N ratio is determined as the estimation equation. If the /N ratio is less than or equal to the first threshold, a second estimation equation that does not include the feature amount related to sound pressure is determined as the estimation equation.
  • FIG. 3A it may be composed of two or more moras including a change in the first formant frequency or a change in the second formant frequency, or at least one of a plucking sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • step S102 an acquisition step (step S102) of acquiring voice data obtained by collecting the voice uttered by the person to be evaluated U who uttered a phrase or a fixed phrase containing phrases or fixed sentences (step S102); step (step S103); a calculation step of calculating an estimated value of the oral function of the person U to be evaluated based on the estimation formula for the oral function calculated based on a plurality of learning data and the extracted prosodic feature amount; (Step S104), and an evaluation step (Step S105) of evaluating the state of decline in oral function of the person U to be evaluated by determining the calculated estimated value using an oral function evaluation index. .
  • the oral function of the person U to be evaluated can be easily evaluated by acquiring audio data suitable for evaluating the oral function. That is, the oral function of the person U to be evaluated can be evaluated simply by the person U uttering the above-mentioned phrase or fixed phrase toward a sound collection device such as the mobile terminal 300.
  • the estimated value of oral cavity function is calculated using an estimation formula calculated based on a plurality of learning data, it is possible to quantitatively evaluate the state of decline in oral cavity function.
  • an estimated value is calculated from the prosodic features and an estimation formula, and this estimated value is compared with a threshold (oral function evaluation index). Therefore, it is possible to accurately evaluate the state of decline in oral function.
  • the estimation formula may include a coefficient corresponding to an element of oral function and a variable to which the extracted prosodic feature is substituted and multiplied by the coefficient.
  • an estimated value of oral function can be easily calculated by simply substituting the extracted prosodic feature amount into the estimation formula.
  • an estimated value is calculated for each element of the oral function of the person being evaluated, and in the evaluation step, the estimated value for each element of the oral function is calculated based on the oral cavity defined for each element of the oral function.
  • the state of decline in the oral function of the person U may be evaluated for each element of the oral function.
  • the state of decline in oral cavity function can be evaluated for each element. For example, by preparing an estimation formula for each element of oral function with different coefficients depending on the element of oral function, it is possible to easily evaluate the state of decline in oral function for each element.
  • the oral function elements may include at least one of the tongue coating, dry mouth, occlusal force, tongue pressure, buccal pressure, number of remaining teeth, swallowing function, and mastication function of the person U to be evaluated.
  • the prosodic features include speech rate, sound pressure difference, time change in sound pressure difference, first formant frequency, second formant frequency, amount of change in first formant frequency, amount of change in second formant frequency, and first formant frequency. It may include at least one of a time change in frequency, a time change in second formant frequency, and a plosive time.
  • a plurality of prosodic features are extracted from the voice data obtained by collecting the voice of the person being evaluated who uttered multiple types of clauses or fixed sentences, and in the calculation step, the extracted prosodic features are The estimated value may be calculated based on a plurality of prosodic feature amounts and estimation formulas.
  • a phrase or a fixed sentence may include two or more vowels or a combination of vowels and consonants that are accompanied by opening and closing of the mouth or back and forth movements of the tongue in order to speak.
  • the amount of change in the first formant frequency, the time change in the first formant frequency, the amount of change in the second formant frequency, or the amount of change in the second formant frequency is determined from the voice in which the evaluator U utters such a phrase or fixed phrase. It is possible to extract prosodic features including temporal changes in frequency.
  • the audio data may be obtained by collecting audio in which the person being evaluated U utters a phrase or a fixed phrase at least twice at different speaking speeds.
  • a fixed sentence may include repetition of a phrase consisting of a plucked sound and a consonant different from the plucked sound.
  • the prosodic feature amount including the time change of the sound pressure difference, the time change of the sound pressure, and the number of repetitions from the voice of the person being evaluated U who uttered such a phrase or a fixed phrase.
  • a phrase or a fixed sentence may include at least one combination of a vowel and a plosive.
  • the oral function evaluation method may further include a proposing step of making a proposal regarding the oral function of the person U to be evaluated by comparing the calculated estimated value with predetermined data.
  • the person being evaluated U can receive suggestions on what measures to take when oral function deteriorates.
  • the oral function evaluation device 100 is an oral function evaluation device 100 that evaluates the state of decline in the oral function of the person U to be evaluated based on the voice uttered by the person U to be evaluated.
  • An acquisition unit 110 that acquires audio data obtained by collecting spoken audio
  • an extraction unit 120 that extracts feature quantities from the acquired audio data
  • an extraction unit 120 that extracts features from the acquired audio data
  • the first average intensity of the sounds collected during the period when the person being evaluated is not making a sound and the second average intensity of the sounds collected during the period when the evaluator U is making a sound are respectively calculated, and with respect to the first average intensity
  • An S/N ratio calculating unit 115 that calculates an S/N ratio that is a ratio of the second average intensity
  • a determining unit 116 that determines an estimation formula used for evaluating the oral function of the person U, and the determined estimation
  • the calculation unit 130 calculates the estimated value of the oral function of the person U based on the formula and the extracted feature amount, and the calculated estimated value is determined using
  • the first estimation formula including the feature quantity related to sound pressure is used.
  • the oral function of the person U to be evaluated may be at least one of the following: tongue coating, xerostomia, occlusal force, tongue pressure, buccal pressure, number of remaining teeth, swallowing function, and masticatory function of the person U. .
  • each of the first estimation equation and the second estimation equation is May be set.
  • the state of decline can be evaluated.
  • the information output unit 180 may be further provided to output information for increasing the S/N ratio when the calculated S/N ratio is less than or equal to a second threshold value that is smaller than the first threshold value.
  • the information may include checking the connection state of a sound collection device (microphone) used to collect the voice spoken by the person being evaluated, increasing the volume of voice when the person being evaluated U speaks, and The information may recommend at least one of reducing environmental sounds when the person U to be evaluated speaks.
  • a sound collection device microphone
  • the connection status of the sound collection device (microphone) used to collect the voice uttered by the person being evaluated should be confirmed, and when the person being evaluated U speaks, It is possible to recommend at least one of increasing the volume of the voice of the person being evaluated, and reducing the environmental sound when the person U is speaking.
  • the acquisition unit 110 acquires the first audio data as audio data that is not used for evaluating the oral function of the person U, and the S/N ratio calculation unit calculates the S/N ratio in the acquired first audio data.
  • the N ratio may also be calculated.
  • the S/N ratio can be calculated using the first audio data that is not used for evaluating the oral function of the person U to be evaluated.
  • the acquisition unit 110 acquires the second audio data as the audio data used for evaluating the oral function of the person U, and the S/N ratio calculation unit calculates the S/N ratio in the acquired second audio data. may be calculated.
  • the S/N ratio can be calculated using the second audio data used for evaluating the oral function of the person U to be evaluated.
  • it may further include a proposal unit 160 that makes a proposal regarding the oral function of the person U to be evaluated by comparing the calculated estimated value with predetermined data.
  • a proposal unit 160 that makes a proposal regarding the oral function of the person U to be evaluated by comparing the calculated estimated value with predetermined data.
  • the person being evaluated U can receive suggestions on what measures to take when oral function deteriorates.
  • a sound collection device used to collect sounds uttered by the person being evaluated
  • a presentation device mobile terminal 300 for presenting the evaluated state of deteriorated oral function of the person U being evaluated.
  • a sound collection device microphone
  • a presentation device mobile terminal 300
  • a phrase or a fixed sentence consisting of two or more moras that includes a change in the first formant frequency or a change in the second formant frequency, or that includes at least one of a pop sound, a plosive sound, a voiceless sound, a consonant, and a fricative.
  • An acquisition unit 110 that acquires voice data obtained by collecting the voice uttered by the person being evaluated, an extraction unit 120 that extracts prosodic features from the acquired voice data, and a A calculation unit 130 that calculates an estimated value of the oral function of the person U to be evaluated based on the calculated oral function estimation formula and the extracted prosodic feature amount;
  • the evaluation unit 140 may also be provided, which evaluates the state of decline in the oral function of the person U by making a determination using the following.
  • the oral function evaluation device 100 that can easily evaluate the oral function of the person U to be evaluated.
  • the oral function evaluation system 200 is an oral function evaluation system 200 that evaluates the state of deterioration of the oral function of the person U to be evaluated based on the voice uttered by the person U to be evaluated. ) and an oral function evaluation device 100 connected to the terminal, the terminal includes a sound collection device (microphone) used to collect the voice uttered by the evaluated person U, and an oral function evaluation device 100 connected to the evaluated person U.
  • a sound collection device microphone
  • the oral function evaluation device 100 includes a presentation device (part of the mobile terminal 300) for presenting the state of decline in the oral function of
  • An acquisition unit 110 that acquires audio data
  • an extraction unit 120 that extracts feature amounts from the acquired audio data
  • an extraction unit 120 that extracts feature quantities from the acquired audio data
  • an extraction unit 120 that extracts features from the acquired audio data.
  • a S/N ratio calculating unit 115 that calculates the S/N ratio
  • a determining unit 116 that determines an estimation formula to be used for evaluating the oral function of the person U, the determined estimation formula, and the extracted feature amount.
  • the calculation unit 130 calculates an estimated value of the oral function of the person U based on the evaluation result, and determines the state of decline in the oral function of the person U by determining the calculated estimated value using the oral function evaluation index. If the calculated S/N ratio is larger than the first threshold, the determining unit 116 selects a sound pressure-related feature quantity from among the feature quantities extracted from the audio data. A first estimation equation including the sound pressure is determined as the estimation equation, and when the calculated S/N ratio is less than or equal to the first threshold value, a second estimation equation that does not include the feature amount related to the sound pressure is determined as the estimation equation.
  • the oral function evaluation device 100 and a sound collection device (portable terminal 300) that collects the sounds of the phrases or fixed phrases uttered by the person to be evaluated U in a non-contact manner may be provided.
  • an oral function evaluation system 200 that can easily evaluate the oral function of the person U to be evaluated.
  • the estimation formula candidates may be updated based on the evaluation results obtained when an expert actually diagnoses the oral function of the person U to be evaluated. Thereby, the accuracy of evaluation of oral cavity function can be improved. Machine learning may be used to improve the accuracy of evaluating oral function.
  • the proposal data 173 may be updated based on the evaluation result after the person U evaluates the proposal content. For example, if a proposal is made regarding an oral function that does not pose a problem for the person being evaluated U, the person being evaluated U evaluates the content of this proposal as incorrect. Then, by updating the proposal data 173 based on this evaluation result, the above-mentioned erroneous proposals are prevented from being made. In this way, the content of the proposal regarding the oral cavity function for the person U to be evaluated can be made more effective. Note that machine learning may be used to make suggestions regarding oral cavity functions more effective.
  • the oral function evaluation results may be accumulated as big data together with personal information and used for machine learning.
  • the content of proposals related to oral cavity functions may be accumulated as big data together with personal information and used for machine learning.
  • the oral function evaluation method included a proposal step (step S107) for making a proposal regarding oral function, but it does not have to be included.
  • the oral function evaluation device 100 does not need to include the suggestion unit 160.
  • the personal information of the person to be evaluated U is acquired in the acquisition step (step S102), but it is not necessary to acquire it.
  • the acquisition unit 110 does not need to acquire the personal information of the person U to be evaluated.
  • the steps in the oral function evaluation method may be executed by a computer (computer system).
  • the present invention can be realized as a program for causing a computer to execute the steps included in those methods.
  • the present invention can be realized as a non-transitory computer-readable recording medium such as a CD-ROM on which the program is recorded.
  • each step is executed by executing the program using hardware resources such as a computer's CPU, memory, and input/output circuits. . That is, each step is executed by the CPU acquiring data from a memory or an input/output circuit, etc., performing calculations, and outputting the calculation results to the memory, input/output circuit, etc.
  • hardware resources such as a computer's CPU, memory, and input/output circuits.
  • each component included in the oral function evaluation device 100 and the oral function evaluation system 200 of the above embodiments may be realized as a dedicated or general-purpose circuit.
  • each component included in the oral function evaluation device 100 and the oral function evaluation system 200 of the above embodiments may be realized as an LSI (Large Scale Integration) that is an integrated circuit (IC).
  • LSI Large Scale Integration
  • IC integrated circuit
  • the integrated circuit is not limited to LSI, and may be realized by a dedicated circuit or a general-purpose processor.
  • a programmable FPGA (Field Programmable Gate Array) or a reconfigurable processor in which connections and settings of circuit cells inside the LSI can be reconfigured may be used.
  • Oral function evaluation device 100 Oral function evaluation device 110 Acquisition unit 115 S/N ratio calculation unit 116 Determination unit 120 Extraction unit 130 Calculation unit 140 Evaluation unit 150 Output unit 160 Proposal unit 180 Information output unit 200 Oral function evaluation system 300 Mobile terminal (terminal, microphone, presentation device) U Evaluated person

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Medical Informatics (AREA)
  • Physics & Mathematics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Veterinary Medicine (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Molecular Biology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Epidemiology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Biophysics (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Human Computer Interaction (AREA)
  • Physiology (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Dentistry (AREA)
  • Data Mining & Analysis (AREA)
  • Databases & Information Systems (AREA)
  • Primary Health Care (AREA)
  • Measuring And Recording Apparatus For Diagnosis (AREA)

Abstract

口腔機能評価装置(100)は、音声データを取得する取得部(110)と、音声データから特徴量を抽出する抽出部(120)と、音声を発していない期間に集音された音の第1平均強度と、音声を発している期間に集音された音の第2平均強度との比であるS/N比を算出するS/N比算出部(115)と、推定式を決定する決定部(116)と、決定された推定式と、抽出された特徴量とに基づいて、口腔機能評価指標を用いて判定することで、口腔機能の低下状態を評価する評価部(140)と、を備え、決定部(116)は、S/N比が第1閾値よりも大きい場合には、音圧に関する特徴量を含む第1推定式を推定式として決定し、第1閾値以下の場合には、音圧に関する特徴量を含まない第2推定式を推定式として決定する。

Description

口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法
 本発明は、被評価者の口腔機能を評価することができる、口腔機能評価装置、口腔機能評価システム及び口腔機能評価方法に関する。
 被評価者の首に摂食嚥下機能を評価するための器具を装着させ、摂食嚥下機能評価指標(マーカー)として、咽頭運動特徴量を取得し、被評価者の摂食嚥下機能を評価する方法が開示されている(例えば、特許文献1参照)。
特開2017-23676号公報
 しかしながら、上記特許文献1に開示された方法では、摂食嚥下機能等の口腔機能を評価するために、被評価者に器具を装着する必要があり、被評価者に不快感を与え、被評価者に負担が生じる場合がある。また、歯科医師、歯科衛生士、言語聴覚士又は内科医師等の専門家による視診、問診又は触診等によっても口腔機能を評価することはできるが、高齢者は、加齢による影響で、ずっとむせていたり、食べこぼしをしたりしているにもかかわらず、高齢だから当然の症状であるとして口腔機能の低下が見過ごされることがある。口腔機能の低下が見過ごされることで、例えば食事量の低下からくる低栄養を招き、低栄養が免疫力の低下を招く。加えて、誤嚥もしやすく、誤嚥と免疫力低下が結果として誤嚥性肺炎に至らしめるおそれにつながる悪循環を招く。
 ところで、このような方法を利用せずとも被評価者が発話した音声から被評価者の口腔機能を評価することができるが、音声が適切に集音できないことで、その評価の正確性に課題があった。
 そこで、本発明は、被評価者の音声を利用しつつ、より正確に口腔機能を評価することが可能な口腔機能評価装置等の提供を目的とする。
 本発明の一態様に係る口腔機能評価装置は、被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価装置であって、前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、取得された前記音声データから特徴量を抽出する抽出部と、取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1平均強度に対する、前記第2平均強度の比であるS/N比を算出するS/N比算出部と、前記被評価者の口腔機能の評価に用いられる推定式を決定する決定部と、決定された前記推定式と、抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を備え、前記決定部は、算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する。
 また、本発明の一態様に係る口腔機能評価システムは、被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価システムであって、端末と、前記端末に接続された口腔機能評価装置と、を備え、前記端末は、前記被評価者が発話した音声の集音に用いられる集音装置と、評価された前記被評価者の口腔機能の低下状態を提示するための提示装置と、を有し、前記口腔機能評価装置は、前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、取得された前記音声データから特徴量を抽出する抽出部と、取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1の平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1の平均強度に対する、前記第2平均強度の比であるS/N比を算出するS/N比算出部と、前記被評価者の口腔機能の評価に用いられる推定式を決定する決定部と、決定された前記推定式と、抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を有し、前記決定部は、算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する。
 また、本発明の一態様に係る口腔機能評価方法は、端末と、口腔機能評価装置とによって実行され、被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価方法であって、前記端末が、前記被評価者が発話した音声を集音することで音声データを得、前記口腔機能評価装置が、前記音声データを取得し、取得した前記音声データから特徴量を抽出し、取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1の平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1の平均強度に対する、前記第2平均強度の比であるS/N比を算出し、前記被評価者の口腔機能の評価に用いられる推定式を決定し、決定した前記推定式と、抽出した前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出し、算出した前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価し、前記端末が、評価された前記被評価者の口腔機能の低下状態を提示することを含み、前記推定式の決定では、算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する。
 本発明の口腔機能評価方法等によれば、被評価者の音声を利用しつつ、より正確に口腔機能を評価することが可能となる。
実施の形態に係る口腔機能評価システムの構成を示す図である。 実施の形態に係る口腔機能評価システムの特徴的な機能構成を示すブロック図である。 実施の形態に係る口腔機能評価方法による被評価者の口腔機能を評価する処理手順を示すフローチャートである。 実施の形態に係る口腔機能評価方法における推定式の決定についての処理手順を示すフローチャートである。 実施の形態に係る口腔機能評価方法において出力される情報の一例を示す図である。 実施の形態に係る口腔機能評価方法において推定式を決定することと正確性(推定精度)との関係を示すグラフである。 実施の形態に係る口腔機能評価方法による被評価者の音声の取得方法の概要を示す図である。 被評価者が「えをかくことにきめたよ」と発話した音声を示す音声データの一例を示す図である。 被評価者が「えをかくことにきめたよ」と発話した音声のフォルマント周波数の変化の一例を示す図である。 被評価者が「からからから・・・」と繰り返し発話した音声を示す音声データの一例を示す図である。 被評価者が「いったい」と発話した音声を示す音声データの一例を示す図である。 日本語の文節又は定型文と、発音の際の舌の動き又は口の開閉の程度が類似する中国語の文節又は定型文の一例を示す図である。 母音の国際音声記号を示す図である。 子音の国際音声記号を示す図である。 被評価者が「gao dao wu da ka ji ke da yi wu zhe」と発話した音声を示す音声データの一例を示す図である。 被評価者が「gao dao wu da ka ji ke da yi wu zhe」と発話した音声のフォルマント周波数の変化の一例を示す図である。 口腔機能評価指標の一例を示す図である。 口腔機能の要素毎の評価結果の一例を示す図である。 口腔機能の要素毎の評価結果の一例を示す図である。 口腔機能に関する提案を行う際に用いられる予め定められたデータの一例である。
 以下、実施の形態について、図面を参照しながら説明する。なお、以下で説明する実施の形態は、いずれも包括的又は具体的な例を示すものである。以下の実施の形態で示される数値、形状、材料、構成要素、構成要素の配置位置及び接続形態、ステップ、ステップの順序等は、一例であり、本発明を限定する主旨ではない。また、以下の実施の形態における構成要素のうち、最上位概念を示す独立請求項に記載されていない構成要素については、任意の構成要素として説明される。
 なお、各図は模式図であり、必ずしも厳密に図示されたものではない。また、各図において、実質的に同一の構成に対しては同一の符号を付しており、重複する説明は省略又は簡略化される場合がある。
 (実施の形態)
 [口腔機能の要素]
 本発明は、口腔機能の低下の評価方法等に関するものであり、口腔機能には様々な要素がある。
 例えば、口腔機能の要素には、舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能などがある。ここでは、舌苔、口腔乾燥、咬合力、舌圧及び咀嚼機能について簡単に説明する。
 舌苔は、舌に細菌又は食べ物の沈着がどの程度あるか(すなわち口腔衛生)を示すものである。舌苔がないか、薄い場合には、機械的な擦過(食事摂取など)環境があること、唾液による洗浄作用があること、飲み込みの動き(舌の動き)が正常であることがわかる。一方で、舌苔が厚い場合には、舌の動きが悪く、食事を摂りにくいことから、栄養不足又は筋力不足を招くおそれがあることがわかる。口腔乾燥は、舌の乾燥度合いであり、乾燥していると話すための運動が阻害される。また、食べ物は口腔に取り込まれた後に粉砕されるが、そのままでは飲み込みにくいため、粉砕された食べ物を飲み込みやすくするために唾液が粉砕された食べ物をまとめる働きをする。しかし、口腔が乾燥していると食塊(粉砕された食べ物がまとまったもの)が形成されにくい。咬合力は、硬いものを噛む力であり、顎の筋力の強さである。舌圧は、舌が口蓋を押す力を表す指標である。舌圧が弱くなると飲み込みの動きが摂りにくくなる場合がある。また、舌圧が弱くなると舌を動かす速度が落ちることがあり話速度が落ちる場合がある。咀嚼機能は、口腔の総合的な機能である。
 本発明では、被評価者が発した音声から被評価者の口腔機能の低下状態(例えば口腔機能の要素についての低下状態)を評価することができる。口腔機能が低下している被評価者が発話した音声には特定の特徴がみられ、これを韻律特徴量として抽出することで、被評価者の口腔機能を評価することができるためである。本発明は、口腔機能評価方法、当該方法をコンピュータ等に実行させるプログラム、当該コンピュータの一例である口腔機能評価装置、及び、口腔機能評価装置を備える口腔機能評価システムによって実現される。以下では、口腔機能評価システムを示しながら、口腔機能評価方法等について説明する。
 [口腔機能評価システムの構成]
 実施の形態に係る口腔機能評価システム200の構成に関して説明する。
 図1は、実施の形態に係る口腔機能評価システム200の構成を示す図である。
 口腔機能評価システム200は、被評価者Uの音声を解析することで被評価者Uの口腔機能を評価するためのシステムであり、図1に示されるように、口腔機能評価装置100と、携帯端末300(端末の一例)とを備える。
 口腔機能評価装置100は、携帯端末300によって、被評価者Uが発した音声を示す音声データを取得し、取得した音声データから被評価者Uの口腔機能を評価する装置である。
 携帯端末300は、被評価者Uが第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、文節又は定型文を発話した音声を非接触により集音する集音装置であり、集音した音声を示す音声データを口腔機能評価装置100へ出力する。例えば、携帯端末300は、マイクを有するスマートフォン又はタブレット等である。なお、携帯端末300は、集音機能を有する装置であれば、スマートフォン又はタブレット等に限らず、例えば、ノートPC等であってもよい。また、口腔機能評価システム200は、携帯端末300の代わりに、集音装置(マイク)を備えていてもよい。また、口腔機能評価システム200は、被評価者Uの個人情報を取得するための入力インターフェースを備えていてもよい。当該入力インターフェースは、例えば、キーボード、タッチパネル等の入力機能を有するものであれば特に限定されない。また、口腔機能評価システム200において、マイクの音量が設定されてもよい。
 携帯端末300は、ディスプレイを有し、口腔機能評価装置100から出力される画像データに基づいた画像等を表示する表示装置であってもよい。つまり、携帯端末300は、画像として、口腔機能評価装置100から出力される情報を提示するための提示装置の一例である。なお、表示装置は携帯端末300でなくてもよく、液晶パネル又は有機ELパネルなどによって構成されるモニタ装置であってもよい。つまり、本実施の形態では、携帯端末300が集音装置でもあり表示装置でもあるが、集音装置(マイク)と入力インターフェースと表示装置とが別体に設けられていてもよい。
 口腔機能評価装置100と携帯端末300とは、音声データ又は後述する評価結果を示す画像を表示するための画像データ等を送受信可能であればよく、有線で接続されていてもよいし、無線で接続されていてもよい。
 口腔機能評価装置100は、携帯端末300によって集音された音声データに基づいて被評価者Uの音声を分析し、分析した結果から被評価者Uの口腔機能を評価し、評価結果を出力する。例えば、口腔機能評価装置100は、評価結果を示す画像を表示するための画像データ、もしくは、評価結果に基づいて生成された被評価者Uに対する口腔に関する提案をするためのデータを携帯端末300へ出力する。こうすることで、口腔機能評価装置100は、被評価者Uへ口腔機能の程度や口腔機能の低下の予防等するための提案を通知できるため、例えば、被評価者Uは口腔機能の低下の予防や改善を行うことができる。
 なお、口腔機能評価装置100は、例えば、パーソナルコンピュータであるが、サーバ装置であってもよい。また、口腔機能評価装置100は、携帯端末300であってもよい。つまり、以下で説明する口腔機能評価装置100が有する機能を携帯端末300が有していてもよい。
 図2は、実施の形態に係る口腔機能評価システム200の特徴的な機能構成を示すブロック図である。口腔機能評価装置100は、取得部110と、S/N比算出部115と、決定部116と、抽出部120と、算出部130と、評価部140と、出力部150と、提案部160と、記憶部170と、情報出力部180とを備える。
 取得部110は、被評価者Uが発話した音声を携帯端末300が非接触により集音することで得られる音声データを取得する。当該音声は、被評価者Uが第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる文節又は定型文を発話した音声である。又は、当該音声は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む文節又は定型文を発話した音声である。ただし、後述する一部の状況においては、音声は、任意の文を発話した音声である場合もある。また、取得部110は、さらに、被評価者Uの個人情報を取得してもよい。例えば、個人情報は携帯端末300に入力された情報であり、年齢、体重、身長、性別、BMI(Body Mass Index)、歯科情報(例えば、歯の数、入れ歯の有無、咬合支持の場所、機能歯数、残存歯数など)、血清アルブミン値又は喫食率等である。なお、個人情報は、EAT-10(イート・テン)と呼ばれる嚥下スクリーニングツール、聖隷式嚥下質問紙、問診、Barthel Index又は基本チェックリスト等により取得されてもよい。取得部110は、例えば、有線通信又は無線通信を行う通信インターフェースである。
 S/N比算出部115は、取得した音声データにおけるS/N比を算出する処理部分である。音声データにおけるS/N比とは、取得した音声データにおいて被評価者Uが音声を発していない期間(暗騒音のみの期間)に集音された音の第1平均強度に対する、被評価者Uが音声を発している期間に集音された音の第2平均強度の比である。そのため、S/N比算出部115は、音声データから被評価者Uが音声を発していない期間分の音を抽出して第1平均強度を算出すること、及び、音声データから被評価者Uが音声を発している期間分の音を抽出して第2平均強度を算出することが可能なように構成されている。S/N比算出部115は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 決定部116は、S/N比算出部115において算出されたS/N比に基づいて後述する算出部130で被評価者Uの口腔機能の推定値を算出する際に用いられる推定式を決定する処理部である。具体的には、決定部116は、あらかじめ設定されている少なくとも第1推定式及び第2推定式を含むいくつかの推定式の候補の中から、S/N比から想定される暗騒音の影響を考慮して、推定に用いるべき推定式を決定する。なお、推定式の候補は、複数の学習データに基づいてあらかじめ算出された状態で記憶部170などに記憶されている。そして、決定部116は、記憶部170に記憶された推定式の候補から、推定に用いる推定式を決定して、推定式データ171として、記憶部170に別に記憶させる。決定部116は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 抽出部120は、取得部110で取得された被評価者Uの音声データを解析する処理部である。抽出部120は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 抽出部120は、取得部110が取得した音声データから韻律特徴量を算出する。韻律特徴量とは、評価部140が被評価者Uの口腔機能を評価するために用いる音声データから抽出される被評価者Uの音声の特徴を示す数値である。韻律特徴量は、話速度、音圧較差、音圧較差の時間変化、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び破裂音の時間の少なくとも1つを含んでいてもよい。
 算出部130は、抽出部120で抽出された韻律特徴量と、決定された推定式とに基づいて、被評価者Uの口腔機能の推定値を算出する。算出部130は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 評価部140は、算出部130で算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する。口腔機能評価指標を示す指標データ172は、記憶部170に記憶されている。評価部140は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 出力部150は、算出部130で算出された推定値を提案部160に出力する。また、出力部150は、評価部140で評価された被評価者Uの口腔機能の評価結果を携帯端末300等に出力してもよい。出力部150は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路、及び、有線通信又は無線通信を行う通信インターフェースによって実現される。
 提案部160は、算出部130で算出された推定値を、予め定められたデータに照合することで、被評価者Uの口腔機能に関する提案を行う。予め定められたデータである提案データ173は、記憶部170に記憶されている。また、提案部160は、取得部110が取得した個人情報についても提案データ173と照合して、被評価者Uに対する口腔に関する提案を行ってもよい。提案部160は、当該提案を携帯端末300へ出力する。提案部160は、例えば、プロセッサ、マイクロコンピュータ又は専用回路、及び、有線通信又は無線通信を行う通信インターフェースによって実現される。
 記憶部170は、複数の学習データに基づいて算出された口腔機能の推定式の候補のデータ(不図示)、決定部116によって決定された推定式を示す推定式データ171、被評価者Uの口腔機能の推定値を判定するための口腔機能評価指標を示す指標データ172、口腔機能の推定値と提案内容との関係を示す提案データ173、及び、被評価者Uの上記個人情報を示す個人情報データ174が記憶されている記憶装置である。推定式データ171は、被評価者Uの口腔機能の推定値の算出が行われるときに算出部130によって参照される。指標データ172は、被評価者Uの口腔機能の低下状態の評価が行われるときに評価部140によって参照される。提案データ173は、被評価者Uに対する口腔機能に関する提案が行われるときに提案部160によって参照される。個人情報データ174は、例えば、取得部110を介して取得されたデータである。なお、個人情報データ174は、予め記憶部170に記憶されていてもよい。記憶部170は、例えば、ROM(Read Only Memory)、RAM(Random Access Memory)、半導体メモリ、HDD(Hard Disk Drive)等によって実現される。
 情報出力部180は、S/N比を増大させるための情報を出力する処理部である。情報出力部180は、算出されたS/N比が一定の基準を満たさない場合に、被評価者Uが発話した音声を集音する環境を改善させるような指示の情報を生成して出力する。情報出力部180は、具体的には、プロセッサ、マイクロコンピュータ、又は、専用回路によって実現される。
 また、記憶部170には、S/N比算出部115、決定部116、抽出部120、算出部130、評価部140、出力部150、提案部160及び情報出力部180を実現するためにコンピュータに実行されるプログラム、被評価者Uの口腔機能の評価結果を出力する際に用いられる当該評価結果を示す画像データ、及び、提案内容を示す画像、動画、音声又はテキスト等のデータも記憶されていてもよい。また、記憶部170には、後述する指示用の画像が記憶されていてもよい。
 図示していないが、口腔機能評価装置100は、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、文節又は定型文を発音することを被評価者Uに指示するための指示部を備えていてもよい。指示部は、具体的には、記憶部170に記憶された、上記文節又は定型文を発音することを指示するための指示用の画像の画像データ、又は、指示用の音声の音声データを取得し、当該画像データ又は当該音声データを携帯端末300に出力する。
 [口腔機能評価方法の処理手順]
 続いて、口腔機能評価装置100が実行する口腔機能評価方法における具体的な処理手順について説明する。
 図3Aは、実施の形態に係る口腔機能評価方法による被評価者Uの口腔機能を評価する処理手順を示すフローチャートである。図4は、口腔機能評価方法による被評価者Uの音声の取得方法の概要を示す図である。
 まず、指示部は、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、文節又は定型文を発音することを指示する(ステップS101)。例えば、ステップS101において、指示部は、記憶部170に記憶された、被評価者Uへの指示用の画像の画像データを取得し、当該画像データを、携帯端末300に出力する。そうすると、図4の(a)に示すように、携帯端末300には、被評価者Uへの指示用の画像が表示される。なお、図4の(a)では、「えをかくことにきめたよ」が定型文の一例として示されているが、「はなさかじいさんとさるかにかっせん」、「はなびのえをかく」、「ひまわりがさいた」等の定型文を発話することが指示されてもよい。また、「いっぱい」、「いったい」、「いっかい」、「ぱったん」、「かっぱ」、「しっぽ」、「きっかり」、「かってに」等の文節を発話することが指示されてもよい。また、「から」、「さら」、「ちゃら」、「じゃら」、「しゃら」、「きゃら」、「ぷら」等の文節を発話することが指示されてもよい。また、「あえい」、「いえあ」、「あい」、「いあ」、「かけき」、「きけか」、「なねに」、「ちてた」、「ぱぺぴ」、「ぴぺぱ」、「かてぴ」、「ちぺか」、「かき」、「たち」、「ぱぴ」、「みさ」、「らり」、「わに」、「にわ」、「えお」、「いお」、「いう」、「てこ」、「きろ」、「てる」、「ぺこ」、「めも」、「えも」等の文節を発話することが指示されてもよい。発音の指示は、このような文節を繰り返し発声させる指示であってもよい。
 また、指示部は、記憶部170に記憶された、被評価者Uへの指示用の音声の音声データを取得し、当該音声データを、携帯端末300に出力することで、発音することを指示する指示用の画像を用いずに発音することを指示する指示用の音声を用いて上記指示を行ってもよい。さらに、発音することを指示する指示用の画像及び音声を用いずに、被評価者Uの口腔機能を評価したい評価者(家族、医師等)が自身の声で被評価者Uに上記指示を行ってもよい。
 例えば、発話される文節又は定型文は、発話するために口の開閉又は舌の前後の動きを伴う、2つ以上の母音又は母音及び子音の組み合わせを含んでいてもよい。例えば、このような文節又は定型文として、日本語においては、「えをかくことにきめたよ」等がある。「えをかくことにきめたよ」の「えを」を発話するためには、舌の前後の動きを伴い、「えをかくことにきめたよ」の「きめた」を発話するためには、口の開閉を伴う。「えをかくことにきめたよ」の「えを」の部分には、母音「e」及び母音「o」の第二フォルマント周波数が含まれ、また、母音「e」及び母音「o」が隣り合っていることから、第二フォルマント周波数の変化量が含まれる。また、この部分には、第二フォルマント周波数の時間変化が含まれる。「えをかくことにきめたよ」の「きめた」の部分には、母音「i」、母音「e」及び母音「a」の第一フォルマント周波数が含まれ、また、母音「i」、母音「e」及び母音「a」が隣り合っていることから、第一フォルマント周波数の変化量が含まれる。また、この部分には、第一フォルマント周波数の時間変化が含まれる。「えをかくことにきめたよ」が発話されることで、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化、話速度等の韻律特徴量を抽出することができる。
 例えば、発話される定型文には、弾き音と当該弾き音とは異なる子音からなる文節の繰り返しを含んでいてもよい。例えば、このような定型文として、日本語においては、「からからから・・・」等がある。「からからから・・・」と繰り返し発話されることで、音圧較差、音圧較差の時間変化、音圧の時間変化、繰り返しの回数等の韻律特徴量を抽出することができる。
 例えば、発話される文節又は定型文は、母音及び破裂音の組み合わせを少なくとも1つ含んでいてもよい。例えば、このような文節として、日本語においては、「いったい」等がある。「いったい」と発話されることで、音圧較差、破裂音の時間(母音間の時間)等の韻律特徴量を抽出することができる。
 ところで、音圧較差の韻律特徴量は、暗騒音の影響を受けやすいため、特に、S/N比が比較的小さい集音環境である場合は、音圧較差の韻律特徴量が、推定値の推定において正確性への悪影響を及ぼす可能性がある。そこで、本発明では、S/N比算出部115において算出されたS/N比に応じて、音圧較差の特徴量が推定値の算出に及ぼす影響を変化させるように、推定式を決定する。本発明では、このようにすることで、音圧較差の韻律特徴量が推定値の推定において正確性へ悪影響を及ぼす可能性を低減して、推定値を推定することを可能にしている。
 このための具体的な処理などの動作について、図3B~図3Dを用いて説明する。図3Bは、実施の形態に係る口腔機能評価方法における推定式の決定についての処理手順を示すフローチャートである。図3Cは、実施の形態に係る口腔機能評価方法において出力される情報の一例を示す図である。図3Dは、実施の形態に係る口腔機能評価方法において推定式を決定することと正確性(推定精度)との関係を示すグラフである。
 図3Bに示すように、S/N比算出部115は、S/N比を算出するために、暗騒音を測定し、暗騒音のみの第1平均強度(音圧)を算出する(ステップS201)。暗騒音の測定においては、被評価者Uが音声を発していない期間の音を抽出して用いればよく、例えば、上記したように、被評価者Uが指示された文節又は定型文を発話しているときに、文節又は定型文の前後の暗騒音のみの期間に音を抽出してもよいし、定型文の中に音が途切れる箇所があれば、その箇所を暗騒音のみの期間として、音を抽出してもよい。
 続いて、S/N比算出部115は、S/N比を算出するために、被評価者Uの発話時の第2平均強度(音圧)を算出する(ステップS202)。このとき、指示された文節又は定型文を発話している際の音を利用してもよいし、音の集音のために、別に任意の文節又は定型文を発話させる指示を行ってもよい。あるいは、被評価者Uが、口腔機能の評価を行う直前に誰かと会話している状況であれば、その状況を利用して、第1平均強度及び第2平均強度を算出してもよい。
 そして、S/N比算出部115は、第1平均強度に対する第2平均強度の比を算出することにより、S/N比を算出する(ステップS203)。ここで、算出したS/N比は、情報出力部180へと出力される。そして、情報出力部180は、S/N比が第2閾値よりも大きいか否かを判定する(ステップS204)。S/N比が第2閾値以下と判定された場合(S204でNo)、情報出力部180は、S/N比を増大させるための集音環境を改善させる情報を生成して出力する(ステップS205)。
 例えば、図3Cには、このような情報が出力された場合の一例として、「マイクの接続状態を確認するか、発話時の声量を大きくしてください」ということを携帯端末300に表示させたときの状態が示されている。このように、情報を出力して、暗騒音を低減させる、すなわち、第2平均強度を低下させること、及び、発話時の声量を大きくさせる、すなわち、第1平均強度を増大させることの少なくとも一方を行わせることでS/N比を増大させる指示がされる。なお、被評価者が発話する際の環境音を低減させるように、「集音場所を移動してください」ということを携帯端末300に表示させてもよい。
 図3Bに戻り、S/N比が第2閾値よりも大きいと判定された場合(S204でYes)、情報出力部180は特に何もせず、ステップS206へと進む。具体的には、算出したS/N比は、決定部116にも出力される。決定部116は、S/N比が第1閾値よりも大きいか否かを判定する(ステップS206)。S/N比が第1閾値以下と判定された場合(S206でNo)、決定部116は、音声データから抽出される韻律特徴量のうち音圧に関する特徴量を含まない第2推定式を推定に用いる推定式として決定し(ステップS208)、推定式データ171を記憶部170に記憶させる。一方、S/N比が第1閾値より大きいと判定された場合(S206でYes)、決定部116は、音声データから抽出される韻律特徴量のうち音圧に関する特徴量を含む第1推定式を推定に用いる推定式として決定し(ステップS207)、推定式データ171を記憶部170に記憶させる。
 このようにして、S/N比に応じて、音圧に関する韻律特徴量を含むか、含まないかの観点で変化させた推定式が決定されて推定値の推定に用いられる。例えば、図3Dでは、(a)に、S/N比を考慮せずに一律に同じ推定式を用いた場合のS/N比と推定精度との関係が示されており、(b)に、S/N比に応じて、音圧に関する韻律特徴量を含むか、含まないかの観点で変化させた推定式が決定される場合のS/N比と推定精度との関係が示されている。
 図3Dに示されるように、S/N比が第1閾値よりも大きければ(a)及び(b)いずれでも同じ推定精度を示している。しかしながら、S/N比が第1閾値以下かつ第2閾値より大きい範囲では、図3Dの(a)は、暗騒音の影響によって影響された音圧に関する韻律特徴量が推定精度を低下させることで、図3Dの(b)よりも推定精度が低下してしまう。また、図3Dの(b)に一点鎖線で示すように、S/N比が第2閾値以下となれば、S/N比を増大させる指示がされるので、推定値が推定される前に、S/N比が改善された環境に移行して再度音声データの取得から処理が行われるので、推定精度が低い状態で推定値が推定されにくくなっている。ただし、このS/N比が第2閾値以下の状態でも、図3Dの(a)に比べて推定精度が高いため、この状態で推定値を推定したとしても有用であるといえる。 図3Aの説明に戻り、音声データは、文節又は定型文を被評価者Uが異なる話速度で少なくとも2回発話した音声を集音することで得られてもよい。例えば、被評価者Uは、「えをかくことにきめたよ」を普段通りの速さとそれよりも速い速さでそれぞれ発話するように指示される。「えをかくことにきめたよ」を普段通りの速さとそれよりも速い速さでそれぞれ発話されることで、口腔機能の状態の保持の程度を推定できる。
 次に、図3Aに示されるように、取得部110は、ステップS101において指示を受けた被評価者Uの音声データを、携帯端末300を介して取得する(ステップS102)。図4の(b)に示すように、ステップS102において、例えば、被評価者Uは、「えをかくことにきめたよ」等の文節又は定型文を携帯端末300に向けて発する。取得部110は、被評価者Uが発した文節又は定型文を、音声データとして取得する。
 次に、抽出部120は、取得部110が取得した音声データから韻律特徴量を抽出する(ステップS103)。
 例えば、取得部110が取得した音声データが、「えをかくことにきめたよ」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び話速度を韻律特徴量として抽出する。これについて、図5A及び図5Bを用いて説明する。
 図5Aは、被評価者Uが「えをかくことにきめたよ」と発話した音声を示す音声データの一例を示す図である。図5Aに示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図5Aのグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図5Aに示すグラフには、「え」、「を」、「か」、「く」、「こ」、「と」、「に」、「き」、「め」、「た」、「よ」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図5Aに示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図5Aに示す音声データに含まれる「か(ka)」における「k」及び「a」の各音圧、「こ(ko)」における「k」及び「o」の各音圧、「と(to)」における「t」及び「o」の各音圧、「た(ta)」における「t」及び「a」の各音圧を抽出する。抽出部120は、抽出した「k」及び「a」の各音圧から、「k」及び「a」の音圧較差Diff_P(ka)を韻律特徴量として抽出する。同じように、抽出部120は、「k」及び「o」の音圧較差Diff_P(ko)、「t」及び「o」の音圧較差Diff_P(to)、「t」及び「a」の音圧較差Diff_P(ta)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力(舌が口蓋に接触する圧力)又は食べ物をまとめる力に関する口腔機能を評価することができる。また、「k」を含む音圧較差によって、喉への飲食物の流入防止能力に関する口腔機能も評価することができる。
 図5Bは、被評価者Uが「えをかくことにきめたよ」と発話した音声のフォルマント周波数の変化の一例を示す図である。具体的には、図5Bは、第一フォルマント周波数及び第二フォルマント周波数の変化の一例を説明するためのグラフである。
 第一フォルマント周波数は、人の音声の低周波数側から数えて1番目に見られる振幅のピーク周波数であり、口の開閉に関する特徴が反映されやすいことが知られている。第二フォルマント周波数は、人の音声の低周波数側から数えて2番目に見られる振幅のピーク周波数であり、舌の前後の動きに関する影響が反映されやすいことが知られている。
 抽出部120は、被評価者Uが発話した音声を示す音声データから、複数の母音それぞれの第一フォルマント周波数及び第二フォルマント周波数を韻律特徴量として抽出する。例えば、抽出部120は、「えを」における、母音「e」に対応する第二フォルマント周波数F2e及び母音「o」に対応する第二フォルマント周波数F2oを韻律特徴量として抽出する。また、例えば、抽出部120は、「きめた」における、母音「i」に対応する第一フォルマント周波数F1i、母音「e」に対応する第一フォルマント周波数F1e及び母音「a」に対応する第一フォルマント周波数F1aを韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の変化量と第二フォルマント周波数の変化量を韻律特徴量として抽出する。例えば、抽出部120は、第二フォルマント周波数F2e及び第二フォルマント周波数F2oの変化量(F2e-F2o)、ならびに、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの変化量(F1e-F1i、F1a-F1e、F1a-F1i)を韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の時間変化と第二フォルマント周波数の時間変化を韻律特徴量として抽出する。例えば、抽出部120は、第二フォルマント周波数F2e及び第二フォルマント周波数F2oの時間変化、ならびに、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化を韻律特徴量として抽出する。図5Bには、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化の一例を示しており、当該時間変化は、ΔF1/ΔTimeである。このΔF1は、F1a-F1iである。
 例えば、第二フォルマント周波数、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化によって、食べ物をまとめる動き(舌の前後左右の動き)に関する口腔機能を評価することができる。また、例えば、第一フォルマント周波数、第一フォルマント周波数の変化量又は第一フォルマント周波数の時間変化によって、食べ物を粉砕する能力に関する口腔機能を評価することができる。また、第一フォルマント周波数の時間変化によって、早く口を動かす能力に関する口腔機能を評価することができる。
 また、図5Aに示すように、抽出部120は、話速度を韻律特徴量として抽出してもよい。例えば、抽出部120は、被評価者Uが「えをかくことにきめたよ」を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「えをかくことにきめたよ」の全てを発話し終わるまでの時間に限らず、「えをかくことにきめたよ」の特定の部分を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「えをかくことにきめたよ」の全て又は特定の部分の1語又は複数語を発話するのにかかる平均時間を韻律特徴量として抽出してもよい。例えば、話速度によって、飲み込みの動き、食べ物をまとめる動き又は舌の巧緻性に関する口腔機能を評価することができる。
 例えば、取得部110が取得した音声データが、「からからから・・・」と繰り返し発話した音声から得られる音声データの場合、抽出部120は、音圧較差の時間変化を韻律特徴量として抽出する。これについて、図6を用いて説明する。
 図6は、被評価者Uが「からからから・・・」と繰り返し発話した音声を示す音声データの一例を示す図である。図6に示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図6のグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図6に示すグラフには、「か」、「ら」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図6に示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図6に示す音声データに含まれる「か(ka)」における「k」及び「a」の各音圧、「ら(ra)」における「r」及び「a」の各音圧を抽出する。抽出部120は、抽出した「k」及び「a」の各音圧から、「k」及び「a」の音圧較差Diff_P(ka)を韻律特徴量として抽出する。同じように、抽出部120は、「r」及び「a」の音圧較差Diff_P(ra)を韻律特徴量として抽出する。例えば、抽出部120は、繰り返し発話される「から」のそれぞれについて、音圧較差Diff_P(ka)及び音圧較差Diff_P(ra)を韻律特徴量として抽出する。そして、抽出部120は、抽出した音圧較差Diff_P(ka)のそれぞれから、音圧較差Diff_P(ka)の時間変化を韻律特徴量として抽出し、抽出した音圧較差Diff_P(ra)のそれぞれから、音圧較差Diff_P(ra)の時間変化を韻律特徴量として抽出する。例えば、音圧較差の時間変化によって、飲み込みの動き、食べ物をまとめる動き又は食べ物を粉砕する能力に関する口腔機能を評価することができる。
 なお、抽出部120は、音圧の時間変化を韻律特徴量として抽出してもよい。例えば、「からからから・・・」と繰り返し発話される際の各「から」における最小の音圧(「k」の音圧)の時間変化が抽出されてもよいし、各「から」における最大の音圧(「a」の音圧)の時間変化が抽出されてもよいし、各「から」における「か」と「ら」の間の音圧(「r」の音圧)の時間変化が抽出されてもよい。例えば、音圧の時間変化によって、飲み込みの動き、食べ物をまとめる動き又は食べ物を粉砕する能力に関する口腔機能を評価することができる。
 また、図6に示すように、抽出部120は、所定の時間あたりに「から」を発声できた回数である繰り返し回数を特徴量として抽出してもよい。所定の時間は特に限定されないが、5秒等である。例えば、所定の時間あたりの繰り返し回数によって、飲み込みの動き又は食べ物をまとめる動きに関する口腔機能を評価することができる。
 例えば、取得部110が取得した音声データが、「いったい」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差及び破裂音の時間を韻律特徴量として抽出する。これについて、図7を用いて説明する。
 図7は、被評価者Uが「いったい」と発話した音声を示す音声データの一例を示す図である。ここでは、「いったいいったい・・・」と繰り返し発話した音声を示す音声データの一例を示している。図7に示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図7のグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図7に示すグラフには、「い」、「っ」、「た」、「い」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図7に示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図7に示す音声データに含まれる「た(ta)」における「t」及び「a」の各音圧を抽出する。抽出部120は、抽出した「t」及び「a」の各音圧から、「t」及び「a」の音圧較差Diff_P(ta)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力又は食べ物をまとめる力に関する口腔機能を評価することができる。また、抽出部120は、破裂音の時間Time(i-ta)(「i」と「ta」の間の破裂音の時間)を韻律特徴量として抽出する。例えば、破裂音の時間によって、飲み込みの動き、食べ物をまとめる動き又は舌の安定した動きに関する口腔機能を評価することができる。
 なお、発話される文節又は定型文として日本語での文節又は定型文を例にあげて説明したが、日本語に限らずどのような言語であってもよい。
 図8は、日本語の文節又は定型文と、発音の際の舌の動き又は口の開閉の程度が類似する中国語の文節又は定型文の一例を示す図である。
 世界には様々な言語が存在するが、発音の際の舌の動き又は口の開閉の程度が類似するものが存在する。例えば、中国語の
Figure JPOXMLDOC01-appb-I000001
(以下、gao dao wu da ka ji ke da yi wu zheと記載する)を発音する際の発音の際の舌の動き又は口の開閉の程度は、日本語の「えをかくことにきめたよ」を発音する際の発音の際の舌の動き又は口の開閉の程度と類似しているため、日本語の「えをかくことにきめたよ」と類似する韻律特徴量を抽出することができる。なお、本明細書では声調符号の記載を省略している。図8には、日本語及び中国語について、発音の際の舌の動き又は口の開閉の程度が類似する文節又は定型文の例が参考までにいくつか示されている。
 また、世界に存在する様々な言語に、発音の際の舌の動き又は口の開閉の程度が類似するものが存在することについて、図9A及び図9Bを用いて簡単に説明する。
 図9Aは、母音の国際音声記号を示す図である。
 図9Bは、子音の国際音声記号を示す図である。
 図9Aに示す母音の国際音声記号の位置関係は、横方向は舌の前後の動きを示しており、近いほど舌の前後の動きが類似し、縦方向は口の開閉の程度を示しており、近いほど口の開閉の程度が類似する。図9Bに示す子音の国際音声記号の表は、横方向は、唇から喉までの、発音の際に使用する部位を示しており、表の同じマス目にある国際音声記号によって同じ音を同じ部位を使用して発音することができる。このため、世界に存在する様々な言語について、本発明を適用することができる。
 例えば、口の開閉を大きくしたい場合には、図9Aに示す縦方向に離れた国際音声記号(例えば「i」と「a」)が連続したものが文節又は定型文に含むようにする。これにより、韻律特徴量として第一フォルマント周波数の変化量を大きくすることができる。また、例えば、舌の前後の位置を大きくしたい場合には、図9Aに示す横方向に離れた国際音声記号(例えば「i」と「u」)が連続したものが文節又は定型文に含むようにする。これにより、韻律特徴量として第二フォルマント周波数の変化量を大きくすることができる。
 例えば、取得部110が取得した音声データが、「gao dao wu da ka ji ke da yi wu zhe」を発話した音声から得られる音声データの場合、抽出部120は、音圧較差、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び話速度を韻律特徴量として抽出する。これについて、図10A及び図10Bを用いて説明する。
 図10Aは、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」と発話した音声を示す音声データの一例を示す図である。図10Aに示すグラフの横軸は時間であり、縦軸はパワー(音圧)である。なお、図10Aのグラフの縦軸に示すパワーの単位は、デシベル(dB)である。
 図10Aに示すグラフには、「gao」、「dao」、「wu」、「da」、「ka」、「ji」、「ke」、「da」、「yi」、「wu」、「zhe」に対応する音圧の変化が確認される。取得部110は、図3Aに示すステップS102において、被評価者Uから図10Aに示す音声データを取得する。抽出部120は、例えば、図3Aに示すステップS103において、既知の方法により、図10Aに示す音声データに含まれる「dao」における「d」及び「a」の各音圧、「ka」における「k」及び「a」の各音圧、「ke」における「k」及び「e」の各音圧、「zhe」における「zh」及び「e」の各音圧を抽出する。抽出部120は、抽出した「d」及び「a」の各音圧から、「d」及び「a」の音圧較差Diff_P(da)を韻律特徴量として抽出する。同じように、抽出部120は、「k」及び「a」の音圧較差Diff_P(ka)、「k」及び「e」の音圧較差Diff_P(ke)、「zh」及び「e」の音圧較差Diff_P(zhe)を韻律特徴量として抽出する。例えば、音圧較差によって、飲み込みの力又は食べ物をまとめる力に関する口腔機能を評価することができる。また、「k」を含む音圧較差によって、喉への飲食物の流入防止能力に関する口腔機能も評価することができる。
 図10Bは、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」と発話した音声のフォルマント周波数の変化の一例を示す図である。具体的には、図10Bは、第一フォルマント周波数及び第二フォルマント周波数の変化の一例を説明するためのグラフである。
 抽出部120は、被評価者Uが発話した音声を示す音声データから、複数の母音それぞれの第一フォルマント周波数及び第二フォルマント周波数を韻律特徴量として抽出する。例えば、抽出部120は、「ji」における母音「i」に対応する第一フォルマント周波数F1i、「ke」における母音「e」に対応する第一フォルマント周波数F1e及び「da」における母音「a」に対応する第一フォルマント周波数F1aを韻律特徴量として抽出する。また、例えば、抽出部120は、「yi」における母音「i」に対応する第二フォルマント周波数F2i及び「wu」における母音「u」に対応する第二フォルマント周波数F2uを韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の変化量と第二フォルマント周波数の変化量を韻律特徴量として抽出する。例えば、抽出部120は、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの変化量(F1e-F1i、F1a-F1e、F1a-F1i)、ならびに、第二フォルマント周波数F2i及び第二フォルマント周波数F2uの変化量(F2i-F2u)を韻律特徴量として抽出する。
 さらに、抽出部120は、母音が連続した文字列の第一フォルマント周波数の時間変化と第二フォルマント周波数の時間変化を韻律特徴量として抽出する。例えば、抽出部120は、第一フォルマント周波数F1i、第一フォルマント周波数F1e及び第一フォルマント周波数F1aの時間変化、ならびに、第二フォルマント周波数F2i及び第二フォルマント周波数F2uの時間変化を韻律特徴量として抽出する。
 例えば、第二フォルマント周波数、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化によって、食べ物をまとめる動きに関する口腔機能を評価することができる。また、例えば、第一フォルマント周波数、第一フォルマント周波数の変化量又は第一フォルマント周波数の時間変化によって、食べ物を粉砕する能力に関する口腔機能を評価することができる。また、第一フォルマント周波数の時間変化によって、早く口を動かす能力に関する口腔機能を評価することができる。
 また、図10Aに示すように、抽出部120は、話速度を韻律特徴量として抽出してもよい。例えば、抽出部120は、被評価者Uが「gao dao wu da ka ji ke da yi wu zhe」を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「gao dao wu da ka ji ke da yi wu zhe」の全てを発話し終わるまでの時間に限らず、「gao dao wu da ka ji ke da yi wu zhe」の特定の部分を発話し始めてから発話し終わるまでの時間を韻律特徴量として抽出してもよい。また、例えば、抽出部120は、「gao dao wu da ka ji ke da yi wu zhe」の全て又は特定の部分の1語又は複数語を発話するのにかかる平均時間を韻律特徴量として抽出してもよい。例えば、話速度によって、飲み込みの動き、食べ物をまとめる動き又は舌の巧緻性に関する口腔機能を評価することができる。
 図3Aでの説明に戻り、算出部130は、抽出された韻律特徴量と、複数の学習データに基づいて算出された口腔機能の推定式とに基づいて、被評価者Uの口腔機能の推定値を算出する(ステップS104)。
 口腔機能の推定式は、上記したように決定部116によってS/N比に基づいて複数の候補の中から択一的に決定されている。推定式の複数の候補のそれぞれは、予め、複数の被験者に対して行った評価結果を元に設定されている。被験者が発話した音声特徴量を収集し、また、被験者の口腔機能を実際に診断し、音声特徴量と診断結果との間の相関を重回帰式などを利用して統計的解析により設定する。代表値として用いる音声特徴量の選び方によって、推定式は異なる種類を生成できる。このようにして、予め、推定式の候補を生成できる。また、口腔機能の要素のそれぞれについて通常適した推定式は異なるため、口腔機能の要素のそれぞれに対して、推定式の複数の候補が設定されている。特に、本発明では、口腔機能の要素のそれぞれに対して、第1推定式及び第2推定式のそれぞれが設定されている。
 また、音声特徴量と診断結果との間の相関関係を表すために、機械学習を利用して設定しても構わない。機械学習の手法として、ロジスティクス回帰、SVM (Support Vector Machine)、ランダムフォレストなどがある。
 例えば、推定式の候補は、口腔機能の要素に対応する係数、及び、抽出された韻律特徴量が代入され、上記係数が掛けられる変数を含むように構成することができる。以下の式1から式5は、第1推定式の一例である。
 口腔衛生の推定値=(A1×F2e)+(B1×F2o)+(C1×F1i)+(D1×F1e)+(E1×F1a)+(F1×Diff_P(ka))+(G1×Diff_P(ko))+(H1×Diff_P(to))+(J1×Diff_P(ta))+(K1×Diff_P(ka))+(L1×Diff_P(ra))+(M1×Num(kara))+(N1×Diff_P(ta))+(P1×Time(i-ta))+Q1
  (式1)
 口腔乾燥の推定値=(A2×F2e)+(B2×F2o)+(C2×F1i)+(D2×F1e)+(E2×F1a)+(F2×Diff_P(ka))+(G2×Diff_P(ko))+(H2×Diff_P(to))+(J2×Diff_P(ta))+(K2×Diff_P(ka))+(L2×Diff_P(ra))+(M2×Num(kara))+(N2×Diff_P(ta))+(P2×Time(i-ta))+Q2
  (式2)
 咬合力の推定値=(A3×F2e)+(B3×F2o)+(C3×F1i)+(D3×F1e)+(E3×F1a)+(F3×Diff_P(ka))+(G3×Diff_P(ko))+(H3×Diff_P(to))+(J3×Diff_P(ta))+(K3×Diff_P(ka))+(L3×Diff_P(ra))+(M3×Num(kara))+(N3×Diff_P(ta))+(P3×Time(i-ta))+Q3 
 (式3)
 舌圧の推定値=(A4×F2e)+(B4×F2o)+(C4×F1i)+(D4×F1e)+(E4×F1a)+(F4×Diff_P(ka))+(G4×Diff_P(ko))+(H4×Diff_P(to))+(J4×Diff_P(ta))+(K4×Diff_P(ka))+(L4×Diff_P(ra))+(M4×Num(kara))+(N4×Diff_P(ta))+(P4×Time(i-ta))+Q4  (式4)
 咀嚼機能の推定値=(A5×F2e)+(B5×F2o)+(C5×F1i)+(D5×F1e)+(E5×F1a)+(F5×Diff_P(ka))+(G5×Diff_P(ko))+(H5×Diff_P(to))+(J5×Diff_P(ta))+(K5×Diff_P(ka))+(L5×Diff_P(ra))+(M5×Num(kara))+(N5×Diff_P(ta))+(P5×Time(i-ta))+Q5
  (式5)
 A1、B1、C1、・・・、P1、A2、B2、C2、・・・、P2、A3、B3、C3、・・・、P3、A4、B4、C4、・・・、P4、A5、B5、C5、・・・、P5、は、係数であり、具体的には、口腔機能の要素に対応する係数である。例えば、A1、B1、C1、・・・、P1は、口腔機能の要素の1つである口腔衛生に対応する係数であり、A2、B2、C2、・・・、P2は、口腔機能の要素の1つである口腔乾燥に対応する係数であり、A3、B3、C3、・・・、P3は、口腔機能の要素の1つである咬合力に対応する係数であり、A4、B4、C4、・・・、P4は、口腔機能の要素の1つである舌圧に対応する係数であり、A5、B5、C5、・・・、P5は、口腔機能の要素の1つである咀嚼機能に対応する係数である。
 Q1は口腔衛生に対応する定数であり、Q2は口腔乾燥に対応する定数であり、Q3は咬合力に対応する定数であり、Q4は舌圧に対応する定数であり、Q5は咀嚼機能に対応する定数である。
 A1、A2、A3、A4、A5が掛けられるF2eと、B1、B2、B3、B4、B5が掛けられるF2oとは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である第二フォルマント周波数が代入される変数である。C1、C2、C3、C4、C5が掛けられるF1iと、D1、D2、D3、D4、D5が掛けられるF1eと、E1、E2、E3、E4、E5が掛けられるF1aとは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である第一フォルマント周波数が代入される変数である。F1、F2、F3、F4、F5が掛けられるDiff_P(ka)と、G1、G2、G3、G4、G5が掛けられるDiff_P(ko)と、H1、H2、H3、H4、H5が掛けられるDiff_P(to)と、J1、J2、J3、J4、J5が掛けられるDiff_P(ta)とは、被評価者Uが「えをかくことにきめたよ」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。K1、K2、K3、K4、K5が掛けられるDiff_P(ka)と、L1、L2、L3、L4、L5が掛けられるDiff_P(ra)とは、被評価者Uが「から」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。M1、M2、M3、M4、M5が掛けられるNum(kara)とは、被評価者Uが一定期間内に「から」と繰り返し発話したときの発話データから抽出された韻律特徴量である繰り返し回数が代入される変数である。N1、N2、N3、N4、N5が掛けられるDiff_P(ta)は、被評価者Uが「いったい」と発話したときの発話データから抽出された韻律特徴量である音圧較差が代入される変数である。P1、P2、P3、P4、P5が掛けられるTime(i-ta)は、被評価者Uが「いったい」と発話したときの発話データから抽出された韻律特徴量である破裂音の時間が代入される変数である。
 上記式1から式5に示されるように、例えば、算出部130は、被評価者Uの口腔機能の要素(例えば、舌苔、口腔乾燥、咬合力、舌圧及び咀嚼機能)毎に推定値を算出する。なお、これらの口腔機能の要素は一例であり、口腔機能の要素には、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つが含まれていればよい。
 また、例えば、抽出部120は、複数種類の文節又は定型文(例えば、上記式1から式5では、「えをかくことにきめたよ」、「から」及び「いったい」)を被評価者Uが発話した音声を集音することで取得された音声データから複数の韻律特徴量を抽出し、算出部130は、抽出された複数の韻律特徴量と推定式とに基づいて、口腔機能の推定値を算出する。算出部130は、複数種類の文節又は定型文の音声データから抽出された複数の韻律特徴量を1つの推定式に代入することで、口腔機能の推定値を精度よく算出することができる。
 以下の式6から式10は、第2推定式の一例である。
 口腔衛生の推定値=(A1×F2e)+(B1×F2o)+(C1×F1i)+(D1×F1e)+(E1×F1a)+(M1×Num(kara))+(P1×Time(i-ta))+Q1  (式6)
 口腔乾燥の推定値=(A2×F2e)+(B2×F2o)+(C2×F1i)+(D2×F1e)+(E2×F1a)+(M2×Num(kara))+(P2×Time(i-ta))+Q2  (式7)
 咬合力の推定値=(A3×F2e)+(B3×F2o)+(C3×F1i)+(D3×F1e)+(E3×F1a)+(M3×Num(kara))+(P3×Time(i-ta))+Q3  (式8)
 舌圧の推定値=(A4×F2e)+(B4×F2o)+(C4×F1i)+(D4×F1e)+(E4×F1a)+(M4×Num(kara))+(P4×Time(i-ta))+Q4  (式9)
 咀嚼機能の推定値=(A5×F2e)+(B5×F2o)+(C5×F1i)+(D5×F1e)+(E5×F1a)+(M5×Num(kara))+(P5×Time(i-ta))+Q5  (式10)
 このように、第1推定式に比べて、第2推定式では、音圧較差など、音圧に関する韻律特徴量の項が省略される形となっており、小さいS/N比の集音環境でも推定精度が比較的高い適切な推定値を推定することが可能となっている。
 なお、推定式として一次式が示されているが、推定式は二次式等の多次式であってもよい。
 次に、評価部140は、算出部130により算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する(ステップS105)。例えば、評価部140は、算出された口腔機能の要素毎の推定値を、口腔機能の要素毎に定められた口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価する。口腔機能評価指標は、口腔機能を評価するための指標であり、例えば、口腔機能が低下していると判定する条件である。口腔機能評価指数について、図11を用いて説明する。
 図11は、口腔機能評価指標の一例を示す図である。
 口腔機能評価指標は、口腔機能の要素毎に定められる。例えば、口腔衛生に対して50%以上という指標が定められ、口腔乾燥に対して27以下という指標が定められ、咬合力に対して200N未満という指標が定められ(株式会社ジーシーのデンタルプレスケールIIを利用した場合)、舌圧に対して30kPa未満という指標が定められ、咀嚼機能に対して100mg/dL未満という指標が定められる(指標については、日本歯科医学会の「口腔機能低下症に関する基本的な考え方(https://www.jads.jp/basic/pdf/document_02.pdf)」を参照)。評価部140は、算出された口腔機能の要素毎の推定値と、口腔機能の要素毎に定められた口腔機能評価指標とを比較することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価する。例えば、算出された口腔衛生の推定値が50%以上である場合、口腔機能の要素として口腔衛生が低下状態となっていると評価される。同じように、算出された口腔乾燥の推定値が27以下である場合、口腔機能の要素として口腔乾燥が低下状態となっていると評価され、算出された咬合力の推定値が200N未満である場合、口腔機能の要素として咬合力が低下状態となっていると評価され、算出された舌圧の推定値が30kPa未満である場合、口腔機能の要素として咬合力が低下状態となっていると評価され、算出された咀嚼機能の推定値が100mg/dL未満である場合、口腔機能の要素として咀嚼機能が低下状態となっていると評価される。なお、口腔衛生、口腔乾燥、咬合力、舌圧及び咀嚼機能に対して定められる口腔機能評価指標として、図11に示されるものは一例であり、これに限らない。例えば、咀嚼機能に対して残歯の指標が定められてもよい。また、口腔機能の要素として口腔衛生、口腔乾燥、咬合力、舌圧及び咀嚼機能を示しているが、これらは一例である。例えば、舌口唇運動機能低下に対しては、舌の動き、唇の動き、唇の強さなどの口腔機能の要素がある。
 図3Aでの説明に戻り、出力部150は、評価部140が評価した被評価者Uの口腔機能の評価結果を出力する(ステップS106)。例えば、出力部150は、評価結果を携帯端末300へ出力する。この場合、出力部150は、例えば、有線通信又は無線通信を行う通信インターフェースを含んでいてもよく、評価結果に対応する画像の画像データを記憶部170から取得して、携帯端末300へ取得した画像データを送信する。当該画像データ(評価結果)の一例を図12及び図13に示す。
 図12及び図13は、口腔機能の要素毎の評価結果の一例を示す図である。図12に示すように、評価結果は、OK又はNGの2段階の評価結果であってもよい。OKは正常を意味し、NGは異常を意味する。なお、口腔機能の要素毎に正常、異常が示されなくてもよく、例えば、低下の疑いのある要素の評価結果だけが示されてもよい。また、評価結果は、2段階の評価結果に限らず、評価の程度が3段階以上に分かれた細かい評価結果であってもよい。この場合、記憶部170に記憶された指標データ172には、1つの要素に対して複数の指標が含まれていてもよい。また、図13に示すように、評価結果は、レーダーチャートで表現されてもよい。図12及び図13には、口腔機能の要素として、口の清潔さ、食べ物をまとめる力、硬いものを噛む力、舌の力及びあごの動きが示されている。口の清潔さは口腔衛生、食べ物をまとめる力は口腔乾燥、硬いものを噛む力は咬合力、舌の力は舌圧、あごの動きは咀嚼機能の推定値を基にして、それぞれ評価結果が提示されている。なお、図12及び図13は、一例であり、評価項目の文言、口腔機能の項目、また、これらの対応する組み合わせは図12及び図13に示されるものに限らない。
 図3Aでの説明に戻り、提案部160は、算出部130により算出された推定値を、予め定められたデータ(提案データ173)に照合することで、被評価者Uの口腔機能に関する提案を行う(ステップS107)。ここで、予め定められたデータについて、図14を用いて説明する。
 図14は、口腔機能に関する提案を行う際に用いられる予め定められたデータ(提案データ173)の一例である。
 図14に示すように、提案データ173は、口腔機能の要素毎に評価結果と提案内容とが対応付けられたデータである。例えば、提案部160は、算出された口の清潔さの推定値が50%以上である場合には、指標を満たしているので、OKと判断し、口の清潔さに対応付けられた提案内容による提案を行う。なお、具体的な提案内容については記載を省略しているが、例えば、記憶部170は、提案内容を示すデータ(例えば、画像、動画、音声、テキスト等)を含み、提案部160は、このようなデータを用いて被評価者Uへ口腔機能に関する提案を行う。
 [効果等]
 以上説明したように、本実施の形態に係る口腔機能評価方法は、端末(携帯端末300)と、口腔機能評価装置100とによって実行され、被評価者Uが発話した音声から、被評価者Uの口腔機能の低下状態を評価する口腔機能評価方法であって、端末が、被評価者Uが発話した音声を集音することで音声データを得、口腔機能評価装置100が、音声データを取得し、取得した音声データから特徴量を抽出し、取得した音声データにおいて被評価者Uが音声を発していない期間に集音された音の第1の平均強度と、被評価者Uが音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、第1の平均強度に対する、第2平均強度の比であるS/N比を算出し、被評価者Uの口腔機能の評価に用いられる推定式を決定し、決定した推定式と、抽出した特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出し、算出した推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価し、端末が、評価された被評価者Uの口腔機能の低下状態を提示することを含み、推定式の決定では、算出したS/N比が第1閾値よりも大きい場合には、音声データから抽出される特徴量のうち音圧に関する特徴量を含む第1推定式を推定式として決定し、算出したS/N比が第1閾値以下の場合には、音圧に関する特徴量を含まない第2推定式を推定式として決定する。
 これによれば、後述する、口腔機能評価装置と同様の効果を奏することができる。
 また、例えば、図3Aに示されるように、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、文節又は定型文を被評価者Uが発話した音声を集音することで得られる音声データを取得する取得ステップ(ステップS102)と、取得された音声データから韻律特徴量を抽出する抽出ステップ(ステップS103)と、複数の学習データに基づいて算出された口腔機能の推定式と、抽出された韻律特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出ステップ(ステップS104)と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価ステップ(ステップS105)と、を含んでもよい。
 これによれば、口腔機能の評価に適した音声データを取得することで、簡便に被評価者Uの口腔機能の評価が可能となる。つまり、被評価者Uが携帯端末300等の集音装置に向けて上記文節又は定型文を発話するだけで、被評価者Uの口腔機能の評価が可能となる。特に、複数の学習データに基づいて算出された推定式を用いて口腔機能の推定値が算出されるため、口腔機能の低下状態を定量的に評価できる。また、韻律特徴量を直接閾値と比較することで口腔機能を評価するのではなく、韻律特徴量及び推定式から推定値が算出され、当該推定値が閾値(口腔機能評価指標)と比較されるため、口腔機能の低下状態を精度良く評価することができる。
 例えば、推定式は、口腔機能の要素に対応する係数、及び、抽出された韻律特徴量が代入され、上記係数が掛けられる変数を含んでいてもよい。
 これによれば、抽出された韻律特徴量を推定式に代入するだけで、容易に口腔機能の推定値を算出することができる。
 例えば、算出ステップでは、被評価者Uの口腔機能の要素毎に推定値を算出し、評価ステップでは、算出された口腔機能の要素毎の推定値を、口腔機能の要素毎に定められた口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を口腔機能の要素毎に評価してもよい。
 これによれば、口腔機能の低下状態を要素毎に評価することができる。例えば、口腔機能の要素に応じて係数が異なる推定式を口腔機能の要素毎に準備することで、口腔機能の低下状態を要素毎に容易に評価することができる。
 例えば、口腔機能の要素には、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つが含まれていてもよい。
 これによれば、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能及び咀嚼機能の少なくとも1つの口腔機能の要素についての低下状態を評価することができる。
 例えば、韻律特徴量は、話速度、音圧較差、音圧較差の時間変化、第一フォルマント周波数、第二フォルマント周波数、第一フォルマント周波数の変化量、第二フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の時間変化及び破裂音の時間の少なくとも1つを含んでいてもよい。
 口腔機能が低下することで、発音に変化が現れることから、これらの韻律特徴量から口腔機能の低下状態を評価することができる。
 例えば、抽出ステップでは、複数種類の文節又は定型文を被評価者Uが発話した音声を集音することで取得された音声データから複数の韻律特徴量を抽出し、算出ステップでは、抽出された複数の韻律特徴量と推定式とに基づいて、推定値を算出してもよい。
 これによれば、1つの推定式に対して複数種類の文節又は定型文に基づいて抽出される複数の韻律特徴量を用いることで、口腔機能の推定値の算出の精度を高めることができる。
 例えば、文節又は定型文は、発話するために口の開閉又は舌の前後の動きを伴う、2つ以上の母音又は母音及び子音の組み合わせを含んでいてもよい。
 これによれば、被評価者Uがこのような文節又は定型文を発話した音声から、第一フォルマント周波数の変化量、第一フォルマント周波数の時間変化、第二フォルマント周波数の変化量又は第二フォルマント周波数の時間変化を含む韻律特徴量を抽出することができる。
 例えば、音声データは、文節又は定型文を被評価者Uが異なる話速度で少なくとも2回発話した音声を集音することで得られてもよい。
 これによれば、被評価者Uがこのような文節又は定型文を発話した音声から、口腔機能の状態の保持の程度を推定できる。
 例えば、定型文は、弾き音と当該弾き音とは異なる子音からなる文節の繰り返しを含んでいてもよい。
 これによれば、被評価者Uがこのような文節又は定型文を発話した音声から、音圧較差の時間変化、音圧の時間変化及び繰り返し回数を含む韻律特徴量を抽出することができる。
 例えば、文節又は定型文は、母音及び破裂音の組み合わせを少なくとも1つ含んでいてもよい。
 これによれば、被評価者Uがこのような文節又は定型文を発話した音声から、音圧較差及び破裂音の時間を含む韻律特徴量を抽出することができる。
 例えば、口腔機能評価方法は、さらに、算出された推定値を、予め定められたデータに照合することで、被評価者Uの口腔機能に関する提案を行う提案ステップを含んでいてもよい。
 これによれば、被評価者Uは、口腔機能が低下したときにどのような対策をすればよいかの提案を受けることができる。
 本実施の形態に係る口腔機能評価装置100は、被評価者Uが発話した音声から、被評価者Uの口腔機能の低下状態を評価する口腔機能評価装置100であって、被評価者Uが発話した音声を集音することで得られる音声データを取得する取得部110と、取得された音声データから特徴量を抽出する抽出部120と、取得した音声データにおいて被評価者Uが音声を発していない期間に集音された音の第1平均強度と、被評価者Uが音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、第1平均強度に対する、第2平均強度の比であるS/N比を算出するS/N比算出部115と、被評価者Uの口腔機能の評価に用いられる推定式を決定する決定部116と、決定された推定式と、抽出された特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出部130と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価部140と、を備え、決定部116は、算出したS/N比が第1閾値よりも大きい場合には、音声データから抽出される特徴量のうち音圧に関する特徴量を含む第1推定式を推定式として決定し、算出したS/N比が第1閾値以下の場合には、音圧に関する特徴量を含まない第2推定式を推定式として決定する。
 これによれば、S/N比から音圧に関する特徴量を使用するのに適した条件であるか否かを判定し、その判定に従って、音圧に関する特徴量を含む第1推定式を用いるのか、又は、音圧に関する特徴量を含まない第2推定式を用いるのかを決定することができる。これにより、音圧に関する特徴量を含むか含まないかの観点で、適切な推定式によって被評価者Uの口腔機能の低下状態を評価することが可能となる。つまり、音圧に関する特徴量を適切に用いることで、より正確に被評価者Uの口腔機能を評価することが可能となる。
 例えば、被評価者Uの口腔機能は、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能の少なくとも1つであってもよい。
 これによれば、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能の少なくとも1つの低下状態を評価することができる。
 例えば、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能のそれぞれに対して、第1推定式及び第2推定式のそれぞれが設定されていてもよい。
 これによれば、被評価者Uの舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能のそれぞれについて、第1推定式を用いるのが適しているのか、又は、第2推定式を用いるのが適しているのかを決定したうえで低下状態の評価を行うことができる。
 例えば、算出したS/N比が第1閾値よりも小さい第2閾値以下の場合に、S/N比を増大させるための情報を出力する情報出力部180をさらに備えてもよい。
 これによれば、S/N比がさらに小さいような不適な環境で口腔機能の低下状態の評価をしようとしている場合に、その環境を改善させるための働きかけを行うことができるため、このような不適な環境で口腔機能の低下状態の評価が行われることが抑制される。
 例えば、情報は、被評価者Uが発話した音声の集音に用いられる集音装置(マイク)の接続状態を確認させること、被評価者Uが発話する際の声量を増大させること、及び、被評価者Uが発話する際の環境音を低減させることの少なくとも1つを推奨する情報であってもよい。
 これによれば、環境を改善させるための働きかけとして、被評価者Uが発話した音声の集音に用いられる集音装置(マイク)の接続状態を確認させること、被評価者Uが発話する際の声量を増大させること、及び、被評価者Uが発話する際の環境音を低減させることの少なくとも1つを推奨することができる。
 例えば、取得部110は、被評価者Uの口腔機能の評価には用いられない音声データとして、第1音声データを取得し、S/N比算出部は、取得した第1音声データにおいてS/N比を算出してもよい。
 これによれば、被評価者Uの口腔機能の評価には用いられない第1音声データを用いて、S/N比を算出することができる。
 例えば、取得部110は、被評価者Uの口腔機能の評価に用いられる音声データとして、第2音声データを取得し、S/N比算出部は、取得した第2音声データにおいてS/N比を算出してもよい。
 これによれば、被評価者Uの口腔機能の評価に用いられる第2音声データを用いて、S/N比を算出することができる。
 例えば、算出された推定値を、予め定められたデータに照合することで、被評価者Uの口腔機能に関する提案を行う提案部160をさらに備えてもよい。
 これによれば、被評価者Uは、口腔機能が低下したときにどのような対策をすればよいかの提案を受けることができる。
 例えば、被評価者Uが発話した音声の集音に用いられる集音装置(マイク)と、評価された被評価者Uの口腔機能の低下状態を提示するための提示装置(携帯端末300)と、をさらに備えてもよい。
 また、例えば、第一フォルマント周波数の変化もしくは第二フォルマント周波数の変化を含む2モーラ以上からなる、又は、弾き音、破裂音、無声音、促音及び摩擦音の少なくとも1つを含む、文節又は定型文を被評価者Uが発話した音声を集音することで得られる音声データを取得する取得部110と、取得された音声データから韻律特徴量を抽出する抽出部120と、複数の学習データに基づいて算出された口腔機能の推定式と、抽出された韻律特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出部130と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者Uの口腔機能の低下状態を評価する評価部140と、を備えてもよい。
 これによれば、簡便に被評価者Uの口腔機能の評価が可能な口腔機能評価装置100を提供できる。
 本実施の形態に係る口腔機能評価システム200は、被評価者Uが発話した音声から、被評価者Uの口腔機能の低下状態を評価する口腔機能評価システム200であって、端末(携帯端末300)と、端末に接続された口腔機能評価装置100と、を備え、端末は、被評価者Uが発話した音声の集音に用いられる集音装置(マイク)と、評価された被評価者Uの口腔機能の低下状態を提示するための提示装置(携帯端末300の一部)と、を有し、口腔機能評価装置100は、被評価者Uが発話した音声を集音することで得られる音声データを取得する取得部110と、取得された音声データから特徴量を抽出する抽出部120と、取得した音声データにおいて被評価者Uが音声を発していない期間に集音された音の第1の平均強度と、被評価者Uが音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、第1の平均強度に対する、第2平均強度の比であるS/N比を算出するS/N比算出部115と、被評価者Uの口腔機能の評価に用いられる推定式を決定する決定部116と、決定された推定式と、抽出された特徴量とに基づいて、被評価者Uの口腔機能の推定値を算出する算出部130と、算出された推定値を、口腔機能評価指標を用いて判定することで、被評価者の口腔機能の低下状態を評価する評価部140と、を有し、決定部116は、算出したS/N比が第1閾値よりも大きい場合には、音声データから抽出される特徴量のうち音圧に関する特徴量を含む第1推定式を推定式として決定し、算出したS/N比が第1閾値以下の場合には、音圧に関する特徴量を含まない第2推定式を推定式として決定する。
 これによれば、より正確に口腔機能を評価することが可能な口腔機能評価システム200を提供できる。
 また、例えば、口腔機能評価装置100と、文節又は定型文を被評価者Uが発話した音声を非接触により集音する集音装置(携帯端末300)と、を備えてもよい。
 これによれば、簡便に被評価者Uの口腔機能の評価が可能な口腔機能評価システム200を提供できる。
 (その他の実施の形態)
 以上、実施の形態に係る口腔機能評価方法等について説明したが、本発明は、上記実施の形態に限定されるものではない。
 例えば、推定式の候補は、専門家が被評価者Uの口腔機能を実際に診断した際に得られた評価結果に基づいて、更新されてもよい。これにより、口腔機能の評価精度を高めることができる。口腔機能の評価精度を高めるために機械学習が用いられてもよい。
 また、例えば、提案データ173は、被評価者Uが提案内容を評価して、その評価結果に基づいて更新されてもよい。例えば、被評価者Uにとって問題ない口腔機能についての提案がされた場合には、被評価者Uは、この提案内容に対して間違っていると評価する。そして、この評価結果に基づいて提案データ173が更新されることで、上記のような誤った提案がされないようになる。このように、被評価者Uに対する口腔機能に関する提案内容をより効果的なものとすることができる。なお、口腔機能に関する提案内容をより効果的なものとするのに機械学習が用いられてもよい。
 また、例えば、口腔機能の評価結果は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。また、口腔機能に関する提案内容は、個人情報と共にビッグデータとして蓄積されて、機械学習に用いられてもよい。
 また、例えば、上記実施の形態では、口腔機能評価方法は、口腔機能に関する提案を行う提案ステップ(ステップS107)を含んでいたが、含んでいなくてもよい。言い換えると、口腔機能評価装置100は、提案部160を備えていなくてもよい。
 また、例えば、上記実施の形態では、取得ステップ(ステップS102)では、被評価者Uの個人情報を取得したが、取得しなくてもよい。言い換えると、取得部110は、被評価者Uの個人情報を取得しなくてもよい。
 また、例えば、口腔機能評価方法におけるステップは、コンピュータ(コンピュータシステム)によって実行されてもよい。そして、本発明は、それらの方法に含まれるステップを、コンピュータに実行させるためのプログラムとして実現できる。さらに、本発明は、そのプログラムを記録したCD-ROM等である非一時的なコンピュータ読み取り可能な記録媒体として実現できる。
 例えば、本発明が、プログラム(ソフトウェア)で実現される場合には、コンピュータのCPU、メモリ及び入出力回路等のハードウェア資源を利用してプログラムが実行されることによって、各ステップが実行される。つまり、CPUがデータをメモリ又は入出力回路等から取得して演算したり、演算結果をメモリ又は入出力回路等に出力したりすることによって、各ステップが実行される。
 また、上記実施の形態の口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素は、専用又は汎用の回路として実現されてもよい。
 また、上記実施の形態の口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素は、集積回路(IC:Integrated Circuit)であるLSI(Large Scale Integration)として実現されてもよい。
 また、集積回路はLSIに限られず、専用回路又は汎用プロセッサで実現されてもよい。プログラム可能なFPGA(Field Programmable Gate Array)、又は、LSI内部の回路セルの接続及び設定が再構成可能なリコンフィギュラブル・プロセッサが、利用されてもよい。
 さらに、半導体技術の進歩又は派生する別技術によりLSIに置き換わる集積回路化の技術が登場すれば、当然、その技術を用いて、口腔機能評価装置100及び口腔機能評価システム200に含まれる各構成要素の集積回路化が行われてもよい。
 その他、実施の形態に対して当業者が思いつく各種変形を施して得られる形態や、本発明の趣旨を逸脱しない範囲で各実施の形態における構成要素及び機能を任意に組み合わせることで実現される形態も本発明に含まれる。
 100 口腔機能評価装置
 110 取得部
 115 S/N比算出部
 116 決定部
 120 抽出部
 130 算出部
 140 評価部
 150 出力部
 160 提案部
 180 情報出力部
 200 口腔機能評価システム
 300 携帯端末(端末、マイク、提示装置)
 U 被評価者

Claims (11)

  1.  被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価装置であって、
     前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、
     取得された前記音声データから特徴量を抽出する抽出部と、
     取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1平均強度に対する、前記第2平均強度の比であるS/N比を算出するS/N比算出部と、
     前記被評価者の口腔機能の評価に用いられる推定式を決定する決定部と、
     決定された前記推定式と、抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、
     算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を備え、
     前記決定部は、
      算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、
      算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する
     口腔機能評価装置。
  2.  前記被評価者の口腔機能は、前記被評価者の舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能の少なくとも1つである
     請求項1に記載の口腔機能評価装置。
  3.  前記被評価者の舌苔、口腔乾燥、咬合力、舌圧、頬圧、残存歯数、嚥下機能、及び、咀嚼機能のそれぞれに対して、前記第1推定式及び前記第2推定式のそれぞれが設定されている
     請求項1に記載の口腔機能評価装置。
  4.  算出した前記S/N比が前記第1閾値よりも小さい第2閾値以下の場合に、前記S/N比を増大させるための情報を出力する情報出力部をさらに備える
     請求項1に記載の口腔機能評価装置。
  5.  前記情報は、前記被評価者が発話した音声の集音に用いられる集音装置の接続状態を確認させること、前記被評価者が発話する際の声量を増大させること、及び、前記被評価者が発話する際の環境音を低減させることの少なくとも1つを推奨する情報である
     請求項4に記載の口腔機能評価装置。
  6.  前記取得部は、前記被評価者の口腔機能の評価には用いられない前記音声データとして、第1音声データを取得し、
     前記S/N比算出部は、取得した前記第1音声データにおいて前記S/N比を算出する
     請求項4に記載の口腔機能評価装置。
  7.  前記取得部は、前記被評価者の口腔機能の評価に用いられる前記音声データとして、第2音声データを取得し、
     前記S/N比算出部は、取得した前記第2音声データにおいて前記S/N比を算出する
     請求項4に記載の口腔機能評価装置。
  8.  算出された前記推定値を、予め定められたデータに照合することで、前記被評価者の口腔機能に関する提案を行う提案部をさらに備える
     請求項1~6のいずれか1項に記載の口腔機能評価装置。 
  9.  前記被評価者が発話した音声の集音に用いられる集音装置と、
     評価された前記被評価者の口腔機能の低下状態を提示するための提示装置と、をさらに備える
     請求項8に記載の口腔機能評価装置。
  10.  被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価システムであって、
     端末と、
     前記端末に接続された口腔機能評価装置と、を備え、
     前記端末は、
      前記被評価者が発話した音声の集音に用いられる集音装置と、
      評価された前記被評価者の口腔機能の低下状態を提示するための提示装置と、を有し、
     前記口腔機能評価装置は、
      前記被評価者が発話した音声を集音することで得られる音声データを取得する取得部と、
      取得された前記音声データから特徴量を抽出する抽出部と、
      取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1の平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1の平均強度に対する、前記第2平均強度の比であるS/N比を算出するS/N比算出部と、
      前記被評価者の口腔機能の評価に用いられる推定式を決定する決定部と、
      決定された前記推定式と、抽出された前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出する算出部と、
      算出された前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価する評価部と、を有し、
     前記決定部は、
      算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、
      算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する
     口腔機能評価システム。
  11.  端末と、口腔機能評価装置とによって実行され、被評価者が発話した音声から、前記被評価者の口腔機能の低下状態を評価する口腔機能評価方法であって、
     前記端末が、前記被評価者が発話した音声を集音することで音声データを得、
     前記口腔機能評価装置が、
     前記音声データを取得し、
     取得した前記音声データから特徴量を抽出し、
     取得した前記音声データにおいて前記被評価者が音声を発していない期間に集音された音の第1の平均強度と、前記被評価者が音声を発している期間に集音された音の第2平均強度とをそれぞれ算出し、前記第1の平均強度に対する、前記第2平均強度の比であるS/N比を算出し、
     前記被評価者の口腔機能の評価に用いられる推定式を決定し、
     決定した前記推定式と、抽出した前記特徴量とに基づいて、前記被評価者の口腔機能の推定値を算出し、
     算出した前記推定値を、口腔機能評価指標を用いて判定することで、前記被評価者の口腔機能の低下状態を評価し、
     前記端末が、評価された前記被評価者の口腔機能の低下状態を提示することを含み、
     前記推定式の決定では、
      算出した前記S/N比が第1閾値よりも大きい場合には、前記音声データから抽出される前記特徴量のうち音圧に関する特徴量を含む第1推定式を前記推定式として決定し、
      算出した前記S/N比が前記第1閾値以下の場合には、前記音圧に関する特徴量を含まない第2推定式を前記推定式として決定する
     口腔機能評価方法。
PCT/JP2023/011742 2022-04-18 2023-03-24 口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法 WO2023203962A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022-068302 2022-04-18
JP2022068302 2022-04-18

Publications (1)

Publication Number Publication Date
WO2023203962A1 true WO2023203962A1 (ja) 2023-10-26

Family

ID=88419639

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/011742 WO2023203962A1 (ja) 2022-04-18 2023-03-24 口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法

Country Status (1)

Country Link
WO (1) WO2023203962A1 (ja)

Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019225242A1 (ja) * 2018-05-23 2019-11-28 パナソニックIpマネジメント株式会社 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム

Patent Citations (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2019225242A1 (ja) * 2018-05-23 2019-11-28 パナソニックIpマネジメント株式会社 摂食嚥下機能評価方法、プログラム、摂食嚥下機能評価装置および摂食嚥下機能評価システム

Similar Documents

Publication Publication Date Title
Icht et al. Oral-diadochokinesis rates across languages: English and Hebrew norms
Kent et al. Speech impairment in Down syndrome: A review
Shellikeri et al. Speech movement measures as markers of bulbar disease in amyotrophic lateral sclerosis
CN112135564B (zh) 摄食吞咽功能评价方法、记录介质、评价装置以及评价系统
Alghowinem et al. Detecting depression: a comparison between spontaneous and read speech
Kent Hearing and believing: Some limits to the auditory-perceptual assessment of speech and voice disorders
Benus et al. Articulatory characteristics of Hungarian ‘transparent’vowels
Watts et al. The effect of stretch-and-flow voice therapy on measures of vocal function and handicap
Chon et al. Differences of articulation rate and utterance length in fluent and disfluent utterances of preschool children who stutter
Lee et al. Acoustic and tongue kinematic vowel space in speakers with and without dysarthria
Munson Variability in/s/production in children and adults
Wang et al. Automatic prediction of intelligible speaking rate for individuals with ALS from speech acoustic and articulatory samples
EP1947643A1 (en) Pronunciation diagnosis device, pronunciation diagnosis method, recording medium, and pronunciation diagnosis program
Neel et al. Is tongue strength an important influence on rate of articulation in diadochokinetic and reading tasks?
Núñez-Batalla et al. Validation of the spanish adaptation of the consensus auditory-perceptual evaluation of voice (CAPE-V)
Seneviratne et al. Extended Study on the Use of Vocal Tract Variables to Quantify Neuromotor Coordination in Depression.
Kuo et al. Acoustic and perceptual correlates of faster-than-habitual speech produced by speakers with Parkinson's disease and multiple sclerosis
Didirková et al. A two-case study of coarticulation in stuttered speech. An articulatory approach
Ribeiro et al. Exploiting ultrasound tongue imaging for the automatic detection of speech articulation errors
Celata et al. Nasal place assimilation between phonetics and phonology: An EPG study of Italian nasal-to-velar clusters
WO2023203962A1 (ja) 口腔機能評価装置、口腔機能評価システム、及び、口腔機能評価方法
Soroski et al. Evaluating web-based automatic transcription for Alzheimer speech data: transcript comparison and machine learning analysis
Rong et al. Speech intelligibility loss due to amyotrophic lateral sclerosis: the effect of tongue movement reduction on vowel and consonant acoustic features
WO2023228615A1 (ja) 音声特徴量算出方法、音声特徴量算出装置、及び、口腔機能評価装置
Silva et al. Critical Articulators Identification from RT-MRI of the Vocal Tract.

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23791615

Country of ref document: EP

Kind code of ref document: A1