WO2023127504A1 - 評価装置、評価方法、及び評価プログラム - Google Patents

評価装置、評価方法、及び評価プログラム Download PDF

Info

Publication number
WO2023127504A1
WO2023127504A1 PCT/JP2022/046101 JP2022046101W WO2023127504A1 WO 2023127504 A1 WO2023127504 A1 WO 2023127504A1 JP 2022046101 W JP2022046101 W JP 2022046101W WO 2023127504 A1 WO2023127504 A1 WO 2023127504A1
Authority
WO
WIPO (PCT)
Prior art keywords
model
mastication
user
time
series
Prior art date
Application number
PCT/JP2022/046101
Other languages
English (en)
French (fr)
Inventor
雅史 西村
一弘 津賀
Original Assignee
国立大学法人静岡大学
国立大学法人広島大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 国立大学法人静岡大学, 国立大学法人広島大学 filed Critical 国立大学法人静岡大学
Publication of WO2023127504A1 publication Critical patent/WO2023127504A1/ja

Links

Images

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/103Detecting, measuring or recording devices for testing the shape, pattern, colour, size or movement of the body or parts thereof, for diagnostic purposes
    • A61B5/11Measuring movement of the entire body or parts thereof, e.g. head or hand tremor, mobility of a limb
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B7/00Instruments for auscultation
    • A61B7/02Stethoscopes
    • A61B7/04Electric stethoscopes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/27Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique
    • G10L25/30Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the analysis technique using neural networks
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition

Definitions

  • One aspect of the embodiments relates to an evaluation device, an evaluation method, and an evaluation program for detecting the pulverized state of food masticated in the user's oral cavity and evaluating the user's masticatory ability.
  • Patent Literature 1 listed below discloses a device that detects the number of times a user chews. Specifically, the device detects a frequency corresponding to the sound generated by the movement of the jaw joint, the sound of teeth hitting each other, or the sound of teeth clenching food, among sounds detected by a microphone attached to the user. The frequency of mastication by the user is detected by shaping the waveform of the band into a pulse and counting it.
  • one aspect of the embodiments has been made in view of such problems, and aims to evaluate the crushed state of food in the user's mouth and evaluate the user's masticatory ability without imposing a burden on the user.
  • One aspect of the embodiment is an evaluation device that evaluates the pulverization state of a mastication sample when the user masticates the mastication sample based on an audio signal acquired by a skin contact microphone attached to the user's neck. , based on the audio signal from the skin contact type microphone, an extraction unit that extracts the time-series audio feature amount, and the amount of contents that flowed out from the mastication sample pulverized by the user by inputting the audio feature amount. a discriminator constituted by a learning model constructed in advance by machine learning, which outputs the outflow amount of contents.
  • a computer evaluates the pulverization state of the mastication sample when the user masticates the mastication sample based on the audio signal acquired by the skin contact microphone attached to the user's neck.
  • An evaluation method comprising: an extraction step of extracting a time-series audio feature value based on an audio signal from a skin contact microphone; and an output step of outputting the outflow amount of the contents, which is the amount of the contents.
  • another aspect of the embodiment is to evaluate the pulverization state of the mastication sample when the user masticates the mastication sample based on the audio signal acquired by the skin contact microphone attached to the user's neck.
  • An evaluation program comprising: an extraction unit for extracting a time-series audio feature quantity based on an audio signal from a skin contact microphone; It functions as a discriminator composed of a learning model constructed in advance by machine learning, which outputs the outflow amount of contents, which is the amount of outflow of contents.
  • time-series audio features are extracted based on the audio signal from the skin contact microphone worn on the user's neck, and the extracted audio features are input to the learning model.
  • the outflow amount of contents which is the amount of contents that flowed out from the masticated sample pulverized by the user, is output without removing the masticated sample after mastication from the user's mouth.
  • the outflow amount of contents is an index indicating the pulverized state of the mastication sample in the user's mouth. Therefore, it is possible to evaluate the state of pulverization of the mastication sample in the mouth of the user and evaluate the masticatory ability of the user without imposing a burden on the user.
  • FIG. 1 is a block diagram showing a schematic configuration of an evaluation device 1 according to an embodiment
  • FIG. 2 is a diagram showing a hardware configuration of an evaluation device 1 of FIG. 1
  • FIG. 2 is a block diagram showing the functional configuration of a learning model 20 that constitutes the discriminator 12 of FIG. 1
  • FIG. 2 is a block diagram showing the functional configuration of a learning model 30 used in learning processing in the training unit 14 of FIG. 1
  • FIG. 3 is a flow chart showing an operation procedure of pre-learning processing of the learning model 30 in the training unit 14 of FIG. 1.
  • FIG. 2 is a flow chart showing an operation procedure of learning processing of a learning model 20 in a training unit 14 of FIG. 1
  • 2 is a flow chart showing an operation procedure of evaluation processing in the discriminator 12 of FIG.
  • FIG. 1; 3 is a block diagram showing the configuration of an evaluation program P1 of the embodiment;
  • FIG. FIG. 4 is a graph showing the relationship between the evaluation result of the content outflow amount and the correct data of the content outflow amount in the learning model 20 of FIG. 3 ;
  • FIG. FIG. 5 is a graph showing an example of temporal changes in time-series latent feature quantities in the LSTM model 21 of FIG. 4 ;
  • FIG. FIG. 5 is a graph showing an example of temporal changes in time-series latent feature quantities in the LSTM model 21 of FIG. 4 ;
  • FIG. 1 is a block diagram showing a schematic configuration of the evaluation device 1 of the embodiment.
  • the evaluation device 1 detects the pulverization state of the mastication sample when the user masticates the mastication sample, based on the audio signal acquired by the throat microphone (skin contact microphone) M1 on the neck of the user. It is a device for evaluating a user's masticatory ability by evaluating .
  • the evaluation device 1 estimates (evaluates) the amount of the content of the mastication sample that flows out due to mastication (hereinafter referred to as the outflow amount of content) when the user masticates the mastication sample for a certain period of time. Evaluate the grinding state.
  • the evaluation device 1 uses the evaluation result of the pulverized state of the mastication sample as the evaluation result of the user's mastication ability.
  • the chewable samples are, for example, chewing gum, gummy jelly, rice, and ATP granules.
  • the content of the masticated sample is, for example, sugar, gelatin, glucose, starch, and pigment.
  • the evaluation device 1 is configured to be able to receive, via a cable, audio signals, which are analog signals, from a pair of microphones M1R and M1L provided in the throat microphone M1, and uses the audio signals received from the pair of microphones M1R and M1L It has a function of executing the evaluation process and outputting and storing the result of the evaluation process.
  • the evaluation device 1 may be configured to be able to receive audio signals from the throat microphone M1 using wireless signals such as Bluetooth (registered trademark) and wireless LAN.
  • the throat microphone M1 is worn in contact with the skin of the user's neck near the throat or oropharynx, detects vibrations of the skin according to the user's actions such as chewing and swallowing when ingesting food, and outputs sound corresponding to the action. It is a skin-contact sensing device that produces a signal.
  • the pair of microphones M1R and M1L constituting the throat microphone M1 those incorporating piezo elements or condenser microphones are used. These pair of microphones M1R and M1L respectively detect vibrations of the skin on the right and left sides near the throat or oropharynx of the user's neck when the throat microphone M1 is worn by the user.
  • the evaluation device 1 includes a feature amount extraction unit (extraction unit) 11, a discriminator 12, an output unit 13, and a training unit 14 as functional components.
  • FIG. 2 is a block diagram showing the hardware configuration of the evaluation device 1.
  • the evaluation device 1 is implemented by an arithmetic device 50 typified by a smart phone, a tablet terminal, a computer terminal, or the like.
  • the computing device 50 physically includes a CPU (Central Processing Unit) 101 that is a processor, a RAM (Random Access Memory) 102 and a ROM (Read Only Memory) 103 that are recording media, a communication module 104, and an input/output device 105. and the like, each of which is electrically connected inside.
  • the input/output device 105 is a keyboard, mouse, display device, touch panel display device, speaker, or the like.
  • Each functional unit of the evaluation apparatus 1 described above operates the communication module 104, the input/output device 105, etc. under the control of the CPU 101 by loading the evaluation program of the embodiment onto the hardware such as the CPU 101 and the RAM 102. It is realized by operating, reading data from the ROM 103, and reading and writing data in the RAM 102.
  • the feature quantity extraction unit 11 simultaneously receives audio signals from each of the microphones M1R and M1L constituting the throat microphone M1, and A/D converts each audio signal.
  • the audio signal received from the microphone M1R is also referred to as the right audio signal
  • the audio signal received from the microphone M1L is also referred to as the left audio signal.
  • the feature amount extraction unit 11 sets a time window (frame) with a window width of 80 msec for the right audio signal and the left audio signal while shifting it by 40 msec, and extracts the feature amount (audio feature amount) for each time window. Extract in chronological order.
  • the feature amount extraction unit 11 After synthesizing the right-side audio signal and the left-side audio signal, the feature amount extraction unit 11 performs spectral analysis on the spectral feature amount that expresses the spectral features of the synthesized signal obtained as a result. Extract. At the same time, the feature amount extraction unit 11 extracts the cross-correlation value between the right audio signal and the left audio signal as a feature amount. Also, the right audio signal and the left audio signal are, for example, 20 seconds. In this case, the audio feature quantity is extracted for 20 seconds. In other words, the audio features are extracted for 500 frames. Note that the right audio signal and the left audio signal may be present for 20 seconds or more. In this case, the feature amount extraction unit 11 extracts the audio feature amounts in time series for the signals for 20 seconds after mastication is started in the right audio signal and the left audio signal.
  • This spectral feature amount is not limited to a specific one as long as it expresses the feature of the spectrum. mentioned.
  • a 13-dimensional MFCC Mel Frequency Cepstral Coefficient
  • a 13-dimensional ⁇ value that is the amount of change over time (the amount of change in each dimension of the cepstrum of the three frames before and after)
  • a 13-dimensional A 13-dimensional ⁇ value which is the amount of change in the ⁇ value of
  • the cross-correlation value is obtained by shifting the sampling points between the right audio signal and the left audio signal by seven types (in the case of a sampling frequency of 16 kHz and a time window of 80 msec, the sampling points are 1280 The two signals of points are shifted with respect to each other from -3 points to +3 points.) and their mutual cross-correlation values are calculated, resulting in the extraction of 7-dimensional cross-correlation values.
  • the discriminator 12 sequentially processes the multidimensional feature amount for each time window input in time series from the feature amount extraction unit 11, and outputs the outflow amount of contents. That is, the discriminator 12 receives spectral feature amounts and cross-correlation values as feature amounts for each time window, and processes them to output the outflow amount of contents that flow out from the mastication sample in the user's mouth.
  • the discriminator 12 that implements the above functions is configured by a learning model based on a deep neural network.
  • FIG. 3 shows the functional configuration of the learning model 20 that constitutes the discriminator 12.
  • the learning model 20 is a model in which two models are combined, an LSTM (Long Short-term Memory) model (first model) 21 and a full connection model 22 (second model). contains.
  • the output of LSTM model 21 is connected to the input of fully connected model 22 .
  • the LSTM model 21 is a neural network configured to process time series data.
  • the LSTM model 21 is, for example, a type of RNN (Recurrent Neural Network), which is a deep neural network, and receives input of time-series feature amounts of continuous time windows to indicate the likelihood for each of the plurality of events described above. It is possible to generate and output latent features in chronological order.
  • the plurality of mastication events include "right-side mastication" indicating a mastication event on the right side of the user's chin, "left-side mastication” indicating a mastication event on the left side of the user's chin, and includes at least "forward chewing", which indicates a chewing event in the forward jaw.
  • the latent feature values include the likelihood L Right of the event “chewing toward the right”, the likelihood L Left of the event “chewing toward the left”, the likelihood L Front of the event “chewing toward the front”, and the occurrence of swallowing.
  • the likelihood of events L Swallow and the likelihood of events in blanks indicating the absence of those events L Blank are included.
  • the latent feature quantity may not include the likelihood L Front of the event “forward chewing” and the likelihood L Swallow of the event of swallowing occurrence.
  • the latent feature amount is output for, for example, 20 seconds. That is, the latent feature amounts are output for, for example, 500 frames. Further, the number of latent feature amounts may be reduced by, for example, averaging five frames in time series. As a result, the size of the fully-connected model 22, which will be described later, can be greatly reduced, and as a result, the learning of the fully-connected model 22 can be made more efficient. That is, even with a limited number of training data, the accuracy of the learning model 20 can be greatly improved.
  • the fully connected model 22 is a kind of neural network, for example, a full connection neural network.
  • a time-series latent feature amount is input, the time-series latent feature amount is converted, and one contents outflow amount is output.
  • the fully connected model 22 is combined with the LSTM model 21 to form an encoder/decoder model.
  • the fully-connected model 22 is a model that applies linear transformation and non-linear transformation to all input latent feature quantities, and outputs the numerical value after transformation as the content outflow amount.
  • the fully-connected model 22 receives the likelihoods h 1 to h t for each of multiple events in time series from the LSTM model 21 .
  • the fully-connected model 22 performs linear transformation by multiplying the input likelihoods h 1 to h t by a weighting value and adding a bias value.
  • the fully-connected model 22 transforms the likelihoods h 1 to h t into vectors a 1 to a t of any dimension by performing the linear transformation.
  • the fully-connected model 22 performs nonlinear transformation by inputting an arbitrary dimensional vector a 1 to a t after linear transformation into an activation function.
  • the fully-connected model 22 transforms arbitrary dimensional vectors a 1 to a t into arbitrary dimensional vectors b 1 to b t by performing the nonlinear transformation.
  • the fully-connected model 22 obtains one numerical value y (one-dimensional vector) by performing such linear transformation and nonlinear transformation multiple times.
  • the fully-connected model 22 outputs the acquired numerical value as the outflow amount of the content that has flowed out from the mastication sample in the user's mouth.
  • the output unit 13 outputs the contents outflow amount, which is the output of the fully connected model 22 of the discriminator 12, to the input/output device 105 such as a display or a speaker.
  • the output unit 13 may output (transmit) data including the outflow amount of contents to an external device such as a terminal device via the communication module 104 .
  • the training unit 14 has a function of constructing the learning model 20 used by the discriminator 12 through machine learning training.
  • FIG. 4 shows the functional configuration of the learning model 30 that the training unit 14 uses for training.
  • the training unit 14 converts the learning model 30 including the LSTM model 21 into a time-series speech feature amount output from the feature amount extraction unit 11 and information indicating the time-series occurrence of mastication-related events. is constructed in advance by machine learning so as to output a prediction result approximating the information indicating the time-series occurrence of events related to mastication from the speech feature amount using training data including .
  • the training unit 14 reflects the parameters of the LSTM model 21 included in the constructed learning model 30 to the learning model 20, and uses the learning model 20 as training data.
  • a fully connected model 22 included in the learning model 20 is constructed. That is, the fully-connected model 22 is constructed by fine-tuning.
  • the information indicating the chronological occurrence of mastication-related events may be, for example, information indicating events such as mastication without time information, or information indicating the timing of mastication-related events.
  • the information indicating an event such as chewing without time information is data specifying events at multiple timings, and the time-series label specifies events recognized by the user in order, For example, data specifying events such as “left chewing”, “left chewing”, “right chewing”, . . . “swallowing” may be included in the order of occurrence.
  • the training unit 14 trains the learning model 30 by connecting the event extraction model 31 to the output of the LSTM model 21 .
  • the training unit 14 adds time information received from the operator of the evaluation apparatus 1 via the input/output device 105 or the like to the time-series speech feature quantity extracted from the speech signal received from the throat microphone M1 by the feature quantity extraction unit 11.
  • Information indicating an event such as mastication without time information is associated, and a data set (training data) is a time-series speech feature amount and information indicating an event such as mastication without time information.
  • the training unit 14 uses the dataset to train the learning model 30 .
  • the event extraction model 31 includes a CTC (Connectionist Temporal Classification) model (third model) 32 and an attention model 33 .
  • the CTC model 32 is connected after the LSTM model 21 in the learning model 30, and is described in “A. Graveset al., “Connectionist temporal classification: Labeling unsegmented sequence data with recurrent neural networks,” Proc. ICML, pp.369-376. (2006)” is a learning model with known neural network algorithms.
  • This CTC model 32 receives the likelihood for each of a plurality of events in chronological order from the LSTM model 21, and removes temporal duplication of mastication or swallowing events and removes blank events. It is a learning model that outputs the likelihood of a mastication event or a swallowing event for each occurrence timing of these events. Specifically, the CTC model 32 removes the combination when the likelihood L Blank of the event in the blank portion is the maximum at the timing of a certain time window, and removes the combination, and If the degree is maximum, remove the combination at the subsequent timing.
  • the attention model 33 is connected after the LSTM model 21 in parallel with the CTC model 32 in the learning model 30, and is described in "Neural Machine Translation by Jointly Learning to Align and Translate (Bahdanau et al, 2015)". It is a decoder model with known neural network algorithms. This attention model 33 is combined with the LSTM model 21 to form an encoder/decoder model. When the attention model 33 receives the output of the likelihood of each event in consecutive time windows, the attention model 33 determines the output in consideration of the relationship between the events and the overall context. Output information indicating the event.
  • the attention model 33 includes an attention part 34 connected after the LSTM model 21 and an LSTM model 35 connected after the attention part 34 .
  • the attention unit 34 When receiving the output of the likelihood of each event in consecutive time windows, the attention unit 34 outputs a value obtained by weighting the likelihood of each event to each module of the LSTM model 35 as a weighted likelihood. Specifically, when the latent feature quantities h 1 to h t are input, the attention unit 34 considers the relationship between events or the overall context, etc., and outputs j 1 to j m (m is an arbitrary integer between 1 and t) is determined. The attention unit 34 outputs the weighted latent features j 1 to j m to modules 35(1) to 35(m) (described later) of the LSTM model 35, respectively.
  • the attention unit 34 learns sub-networks for estimating the degree of association between the output vector values of the LSTM model 21 and the LSTM model 35, and dynamically calculates weights during estimation, thereby obtaining the weighted likelihood j Determine 1 to j m .
  • the LSTM model 35 is a type of RNN (Recurrent Neural Network), which is a deep neural network, and processes the weighted likelihood input in time series from the attention unit 34 in time series.
  • the LSTM model 35 is a neural network consisting of one layer or a plurality of layers, with a plurality of modules 35(1) to 35(m) as one layer, as shown in FIG. Specifically, the LSTM model 35 receives weighted latent feature quantities j 1 to j m and outputs information y 1 to y m indicating each event at each event occurrence timing. In the example shown in FIG. 4, the LSTM model 35 has a plurality of modules 35(1)-35(m).
  • the LSTM model 35 processes the output j1 input from the attention unit 34 in the module 35(1) to obtain the information y1 indicating the event and the memory cell c1 .
  • the LSTM model 35 processes the input output j 2 , event indicating information y 1 and storage cell c 1 in module 35 ( 2 ) to obtain event indicating information y 2 and storage cell c 2 .
  • the module 35(n) (an arbitrary integer of 2 or more and m ⁇ 1 or less), similarly to the processing in the module 35(2), the input output j n , the information y n ⁇ 1 indicating the event and memory cell cn -1 to obtain information y n indicating the event and memory cell cn .
  • the LSTM model 35 processes the input output j m , the event-indicating information y m-1 and the storage cell c m-1 in module 35(m) to obtain the event-indicating information y m .
  • the learning model 30 generates a final output in consideration of the output of the CTC model 32 and the output of the attention model 33 . That is, the learning model 30 generates information z 1 to z t indicating the event output from the CTC model 32 and information y 1 to y m indicating each event output from the attention model 33 at each occurrence timing of the event. are weighted and added, and the optimum result is estimated as information indicating an event such as mastication without time information.
  • the training unit 14 trains the learning model 30 so as to minimize the linear sum of the loss functions of the CTC model 32 and the attention model 33 estimated from the information indicating the event such as mastication without time information and the training data. implement. Specifically, the training unit 14 performs inference using beam search.
  • the training unit 14 prepares a large amount of mastication/swallowing sound data (weakly labeled) associated with information indicating an event such as mastication without time information.
  • the training unit 14 pre-learns the LSTM model 21 as part of the learning model 30 (CTC/Attention model) as described above, using the mastication/deglutition sound data.
  • the training unit 14 adds the fully-connected model 22 to the pre-trained LSTM model 21 to construct the learning model 20 as the learning model 20 by machine learning. Fine-tuning is performed in the training unit 14 in this way.
  • the training unit 14 associates the outflow amount of contents received from the operator via the input/output device 105 or the like with the time-series audio feature amount extracted from the audio signal received from the throat microphone M1 by the feature amount extraction unit 11.
  • the data set (training data) is the time-series speech feature quantity and contents outflow quantity.
  • the training unit 14 uses the dataset to train the learning model 20 . This training is performed by updating each parameter of each layer of the neural network that constitutes the learning model 20 using, for example, the error backpropagation method.
  • Each parameter is, for example, a weighting value, a bias value, an activation function, etc. in the fully connected model 22 .
  • the outflow amount of contents input by the operator is evaluated by colorimetry, weight measurement, etc., with contents such as sugar, gelatin, glucose, starch, and pigments flowing out by mastication.
  • contents such as sugar, gelatin, glucose, starch, and pigments flowing out by mastication.
  • contents such as sugar, gelatin, glucose, starch, and pigments flowing out by mastication.
  • the masticatory sample is masticated by the user, everything contained in the user's mouth is taken out, and the amount or concentration of the contents contained in the filtrate obtained by filtering the taken out sample is measured. .
  • the measurement result of the amount or concentration of the contents thus measured is specified as the outflow amount of the contents, and is input by the operator to the evaluation apparatus 1 having the training unit 14 .
  • FIG. 5 is a flow chart showing the operation procedure of the pre-learning process of the learning model 30 in the training unit 14.
  • FIG. 6 is a flow chart showing the operation procedure of the learning process of the learning model 20 in the training unit 14.
  • FIG. 7 is a flow chart showing an operation procedure of evaluation processing in the discriminator 12. As shown in FIG.
  • the pre-learning process of the learning model 30 including the LSTM model 21 is started with the user wearing the throat microphone M1 at an arbitrary timing before executing the content outflow amount evaluation process.
  • This pre-learning process does not have to be executed by the target user of the content outflow amount evaluation process every time the content outflow amount evaluation process is executed. may be executed after the user wears the throat microphone M1.
  • the evaluation device 1 receives audio signals from the throat microphone M1, and the feature quantity extraction unit 11 A/D converts those audio signals. , information indicating an event such as mastication without time information is input to the evaluation device 1 (step S01).
  • the feature amount extraction unit 11 extracts time-series audio feature amounts from the audio signal obtained from the throat microphone M1 (step S02).
  • the training unit 14 generates a data set in which information indicating an event such as mastication without time information is associated with the time-series speech feature amount, and training of the learning model 30 is performed using the data set. It is executed by machine learning (step S03).
  • the training unit 14 stores the learning model 30 whose parameters have been updated by training in the internal memory (step S04).
  • the learning model 30 including the LSTM model 21 is constructed by machine learning.
  • pre-learning of the LSTM model 21 is performed using a large number of subjects, a large amount of mastication/deglutition sound data, and information (weak labels) indicating events such as mastication without time information.
  • pre-recorded speech signals may be input to the evaluation device 1 by the operator.
  • the learning process of the learning model 20 is executed after the above-described pre-learning process of the learning model 30 is finished and the parameters of the LSTM model 21 included in the learning model 30 are reflected in the learning model 20 .
  • the learning process of the learning model 20 does not need to be executed by the target user of the content outflow amount evaluation process each time the content outflow amount evaluation process is executed. It may be executed after a user other than the user wears the throat microphone M1.
  • the evaluation device 1 receives audio signals from the throat microphone M1.
  • the data indicating the measurement result of the amount of outflow of contents is input (step S101).
  • the feature amount extraction unit 11 extracts time-series audio feature amounts from the audio signal obtained from the throat microphone M1 (step S102).
  • the training unit 14 generates a data set in which the content outflow amount is associated with the time-series speech feature amount, and training of the learning model 20 is executed using the data set (step S103).
  • the training unit 14 stores the learning model 20 whose parameters have been updated by training in the internal memory (step S104). In this way, after the parameters of the LSTM model 21 included in the learning model 30 constructed in advance are reflected in the learning model 20, the learning model 20 is constructed by machine learning (fine tuning). As a result, the fully connected model 22 is constructed.
  • a voice signal recorded in advance may be input to the evaluation device 1 by the operator.
  • This evaluation process is started in response to an instruction input to the evaluation device 1 when the user attaches the throat microphone M1 and starts mastication of the mastication sample.
  • the evaluation device 1 receives an audio signal from the throat microphone M1, and the feature quantity extraction unit 11 A/D converts the right audio signal and the left audio signal (step S201).
  • the feature amount extraction unit 11 extracts time-series audio feature amounts based on the A/D-converted right and left audio signals in consecutive time windows (step S202).
  • the classifier 12 sequentially inputs time-series speech feature amounts for the input of the learning model 20 (step S203).
  • the discriminator 12 outputs the outflow amount of contents from the learning model 20 (step S204).
  • the evaluation program P1 comprises a main module P10, a feature quantity extraction module P11, an identification module P12, an output module P13, and a training module P14.
  • the main module P10 is a part that comprehensively controls the operation of the evaluation device 1.
  • Functions realized by executing the feature amount extraction module P11, the identification module P12, the output module P13, and the training module P14 are the feature amount extraction unit 11, the classifier 12, the output unit 13, and the training unit 14, respectively. is similar to the function of
  • the evaluation program P1 is provided by, for example, a computer-readable recording medium such as a CD-ROM, DVD, or ROM, or a semiconductor memory.
  • the evaluation program P1 may also be provided via a network as a computer data signal superimposed on a carrier wave.
  • a method of having a user masticate a masticatory sample and measuring the amount or concentration of the contents flowing out from the fracture surface of the masticatory sample is known.
  • this method for example, when a user chews gummy jelly as a chewable sample, the user holds a certain amount of water in his/her mouth and then spits out all the water. This removes whatever is contained in the user's mouth. Then, the amount or concentration of glucose contained in the filtrate obtained by filtering the extracted material is measured. In this method, if the user swallows the masticated sample held in the mouth, the measurement accuracy will be degraded.
  • gummy jelly which is an example of a chewable sample, gives the user a sweet taste when chewed by the user. In particular, it has become a heavy burden for users such as dementia patients.
  • a time-series speech feature quantity is extracted based on the speech signal from the throat microphone M1 worn on the neck of the user, and the extracted speech feature quantity is input to the learning model 20.
  • the outflow amount of contents which is the amount of contents that flowed out from the masticated sample pulverized by the user, is output without removing the masticated sample after mastication from the user's mouth.
  • the outflow amount of contents is an index indicating the pulverized state of the mastication sample in the user's mouth.
  • the evaluation apparatus 1 since it is possible to directly evaluate (estimate) the outflow amount of the contents from the audio signal from the throat microphone M1, the crushed state of the food or the like can be detected while the user is chewing the food. can be evaluated. That is, it is possible to directly evaluate (estimate) the outflow amount of contents by grasping the state of mastication from mastication sounds, swallowing sounds, and the like. Therefore, even if the user swallows the mastication sample without spitting it out when the voice recording by the throat microphone M1 is finished, the evaluation can be performed, thereby further reducing the burden on the user.
  • FIG. 9 is a graph showing the relationship between the glucose value, which is the content outflow amount estimated from the voice signal, and the correct data of the glucose value in the learning model 20 .
  • the vertical axis in FIG. 9 indicates the glucose level estimated from the voice signal (estimated glucose level).
  • the horizontal axis of FIG. 9 indicates the correct data (correct value) of the glucose level.
  • the correct data of the glucose level is measured as follows.
  • one test subject male in his twenties chewed the gummy jelly for 20 seconds, and then took out everything in the test subject's mouth and filtered to obtain a filtrate.
  • the resulting filtrate is used to measure correct glucose level data with a glucosensor GS-II.
  • the strength of mastication is intentionally strengthened or weakened by the subject, thereby reproducing the case where the user's mastication ability is strong or the case where the user's mastication ability is weak. is obtained as correct data.
  • the correct glucose level data has a correlation of approximately 0.7 with the estimated glucose level.
  • the evaluation apparatus 1 of the present embodiment can be used even if the user's mastication ability is in three levels of high, medium, and low. For example, it is possible to estimate the user's masticatory ability from the audio signal.
  • the learning model 20 is input with time-series speech feature amounts, and calculates the likelihood for each event of mastication occurrence including at least right-side mastication and left-side mastication, and the occurrence of the event.
  • the LSTM model 21 constructed in advance by machine learning (by pre-learning), which outputs in time series the latent feature amount indicating the likelihood of the blank part without and a fully coupled model 22 that transforms the volume and outputs a single content outflow.
  • the LSTM model 21 can be built in advance using time-series speech feature amounts and information indicating events such as mastication without time information as training data.
  • the LSTM model 21 is constructed in advance using, as training data, time-series speech feature amounts and information indicating events such as mastication without time information.
  • the learning model 30 including the LSTM model 21 is constructed by pre-learning, and after the parameters of the LSTM model 21 are reflected in the learning model 20, the learning model 20 including the LSTM model 21 and the fully-connected model 22 is timed.
  • the learning model 30 is learned through training using sound data reflecting mastication sounds, swallowing sounds, and the like. This sound is the sound produced from the inside of the human mouth when eating. This sound data can be easily collected not only from elderly people but also from healthy people if there is the above-described throat microphone M1. Furthermore, by using the LSTM model 21, which is the encoder of the learning model 30, as a part of the learning model 20, speech features can be efficiently extracted. Then, the learning model 20 can be constructed by machine learning using a small amount of learning data (content outflow amount). As a result, the function of evaluating the crushed state of food in the user's mouth is realized.
  • the present inventor has found that there is a correlation between the outflow of contents indicating masticatory ability and the time-series latent feature quantity output from the LSTM model 21 .
  • the sound of food being crushed gradually changes in the oral cavity, so based on the probability output from a deep neural network (DNN: Deep Neural Network) such as an LSTM neural network, It has been found that it is possible to estimate when grinding is complete.
  • DNN Deep Neural Network
  • the inventors of the present invention use the LSTM model 21 constructed to estimate mastication events from audio signals. I thought.
  • FIG. 10 shows the latent feature amount derived using the feature amount extraction unit 11 and the constructed LSTM model 21 based on the audio signal from the throat microphone M1 when the user has a masticatory ability higher than normal. It is a graph showing series.
  • FIG. 11 shows the latent feature values derived using the feature value extraction unit 11 and the built LSTM model 21 based on the audio signal from the throat microphone M1 when the user has normal masticatory ability. is a graph shown in FIG. In FIGS. 10 and 11, the latent feature amount is log-likelihood-ized using the softmax function and displayed. The horizontal axis of the graphs in FIGS. 10 and 11 indicates time, and the numerical value on the horizontal axis indicates the number of the frame.
  • FIG. 10A and 11A indicate the likelihood L left of the event "leftward chewing".
  • the vertical axis of the graphs of FIGS. 10B and 11B indicates the likelihood L Right of the event "rightward chewing”.
  • the vertical axis of the graphs of FIGS. 10(c) and 11(c) indicates the likelihood L Swallow of the swallowing event.
  • 10(d) and 11(d) indicates the event likelihood L Blank of the blank portion indicating that no event has occurred.
  • the likelihood value for each event is larger on average when masticatory ability is higher than normal.
  • the present inventors found that the outflow of contents is an index that indicates the pulverization state of the mastication sample and has a correlation with the masticatory ability. I thought there might be a correlation.
  • the evaluation apparatus 1 of this embodiment was created based on such an idea.
  • the latent feature amount is input to the fully-connected model 22, and the outflow amount of contents, which is an index indicating the crushed state of the mastication sample in the user's mouth, is output from the fully-connected model 22. .
  • the outflow amount of contents which is an index indicating the crushed state of the mastication sample in the user's mouth.
  • the LSTM model 21 is a neural network configured to be able to process time-series data.
  • abstract time-series features can be superimposed on time-series audio features. Model building in the can be made more efficient.
  • the fully connected model 22 is a neural network.
  • a learning model 20 it is possible to produce a correlation between the latent feature amount and the content outflow amount, and to output one content outflow amount considering all the input latent feature amounts. .
  • the accuracy of estimating the content outflow amount in the learning model 20 can be improved.
  • the output of the LSTM model 21 is the removal of duplication of consecutive identical events output from the LSTM model 21 and the LSTM model 21, and an attention model 33 that outputs the likelihood of each event at each occurrence timing of the event.
  • the learning model 30 including the LSTM model 21, the CTC model 32, and the attention model 33 uses, as training data, data including time-series speech features and information indicating events such as mastication without time information.
  • the LSTM model 21 is constructed in advance by being constructed so as to predict the relevant information from the speech feature quantity. In this case, the training data for constructing the LSTM model 21 can be more efficiently prepared in the learning model 20, so the accuracy of estimating the outflow amount of contents in the learning model 20 is improved.
  • the LSTM model 21 outputs the likelihood of an event related to swallowing based on the speech feature amount. This makes it possible to determine whether or not swallowing is performed in the user's mouth based on the audio signal from the throat microphone M1.
  • the likelihood of the event related to swallowing is input to the fully connected model 22, when the user swallows the masticated sample, the occurrence of the event related to swallowing is taken into consideration, and the outflow amount of the content is evaluated. . That is, when the mastication sample is swallowed, the evaluation value is automatically corrected in consideration of it.
  • the data length of the audio signal from the throat microphone M1 is fixed at 20 seconds.
  • the length of the latent feature quantity output by the LSTM model 21 is also fixed, and as a result, a network with a fixed width can be connected to the LSTM model 21 . That is, the fully-connected model 22 can be connected to the LSTM model 21 .
  • the LSTM model 21 may be constructed before the learning model 20 is constructed (pre-learning may be performed). That is, in the present embodiment, when the LSTM model 21 is constructed, the learning model 30, which is a model connected to the CTC model 32 and the attention model 33, is constructed by machine learning in the LSTM model 21, but it is not limited to this.
  • the output of the LSTM model 21 is elimination of duplication of consecutive identical events output from the LSTM model 21 and output from the LSTM model 21. It may be connected only to the CTC model 32 that removes blank parts, and the training unit 14 uses information indicating events such as mastication without time-series speech feature values and time information as training data, By executing the training of the LSTM model 21 and the CTC model 32 so as to reduce the error between the training data and the information indicating an event such as mastication without time information, which is the output of the CTC model 32, the LSTM model 21 is preliminarily may be constructed.
  • the learning model 30 uses the output of the CTC model 32 as its final output.
  • the learning model 30 uses the output of the CTC model 32 as its final output.
  • the output of the LSTM model 21 may be connected only to the attention model 33 that outputs the likelihood of each event for each occurrence timing of the event.
  • Information indicating an event such as mastication without feature amount and time information is used as training data so as to reduce the error between the information indicating an event such as mastication without time information output from the attention model 33 and the training data.
  • LSTM model 21 and attention model 33 the LSTM model 21 may be pre-built.
  • the learning model 30 uses the output of the attention model 33 as the final output. With such a configuration of the learning model 30 as well, the training data for constructing the LSTM model 21 can be prepared more efficiently, so the accuracy of estimating the content outflow amount in the learning model 20 is improved.
  • the learning model 30 is configured to include only the LSTM model 21, and in the training unit 14, the LSTM model 21 uses time-series speech feature values and information indicating events such as mastication without time information as training data.
  • information indicating an event such as mastication without time information may be predicted from the audio feature amount. According to the configuration of the learning model 30, even when the LSTM model 21 and the fully-connected model 22 are constructed using the time-series speech feature quantity and the amount of content outflow as training data, the content distribution in the learning model 20 It is possible to achieve sufficient accuracy in estimating the output amount.
  • the LSTM model 21 only needs to be able to process time-series speech features. It may also be a directed LSTM neural network.
  • the fully-connected model 22 considers all the input values and should be able to output one value that has a correlation with the input value.
  • a CNN Convolutional Neural Network
  • TCN Temporal Covolutional Network
  • the number of layers included in the fully connected model 22 may be three layers, an input layer, an intermediate layer, and an output layer, or may be five layers, including an input layer, three intermediate layers, and an output layer. or an arbitrary number of three or more layers.
  • the information indicating the chronological occurrence of events related to mastication may be, for example, information representing an event such as mastication without time information, or may be the timing of an event related to mastication. Furthermore, it may be the number of events related to mastication.
  • the learning model is input with time-series speech feature values, and the likelihood for each event of mastication occurrence including at least right-side mastication and left-side mastication;
  • a first model constructed in advance by machine learning which outputs a latent feature value indicating the degree of erosion in time series, and a latent feature value is input, and the time-series latent feature value is converted into one outflow of contents.
  • a second model that outputs a quantity.
  • the first model uses time-series speech features and information indicating the time-series occurrence of events related to mastication as training data, and predicts the information from the speech features. can be constructed in advance.
  • the first model and the second model are constructed using time-series voice features and the amount of outflow of contents as training data, the accuracy of estimating the amount of outflow of contents in the learning model is considered to be insufficient. turn into.
  • the first model is constructed in advance using, for example, time-series speech feature values and information indicating the time-series occurrence of mastication-related events as training data.
  • the first model and the second model are built using the time-series speech feature amount and the outflow amount of contents as training data, thereby obtaining a learning model In this case, the accuracy of estimating the content outflow amount can be made sufficient.
  • the first model preferably includes at least a neural network configured to process time-series data.
  • a learning model an abstract time-series feature can be superimposed on the time-series sound feature quantity, so the model in the learning model that learns the temporal change of the crushed state of the mastication sample in the user's mouth. Construction can be made more efficient.
  • the second model includes at least a neural network.
  • a learning model it is possible to produce a correlation between the latent feature quantity and the contents outflow quantity, and to output one content outflow quantity considering all the input latent feature quantities. Become. As a result, it is possible to improve the accuracy of estimating the content outflow amount in the learning model.
  • the output of the first model includes elimination of duplication of consecutive identical events output from the first model
  • the first model and the third model are connected to a third model that removes the blank portion output from the model, and the first model and the third model are connected to the time-series speech feature amount and the time-series generation of events related to mastication.
  • the first model is constructed in advance by using information indicating and as training data to predict the information from the speech feature amount. With such a learning model, the training data for constructing the first model can be prepared more efficiently, so the accuracy of estimating the content outflow amount in the learning model is improved.
  • the first model uses time-series speech features and information indicating the time-series occurrence of events related to mastication as training data, and predicts the information from the speech features. It is preferably pre-built. In such a learning model, even when the first model and the second model are constructed using the time-series speech feature quantity and the contents outflow amount as training data, the accuracy of estimating the contents outflow amount in the learning model can be sufficient.
  • SYMBOLS 1 Evaluation apparatus, 11... Feature-value extraction part (extraction part), 12... Discriminator, 20... Learning model, 21... LSTM model (first model), 22... Fully-connected model (second model), 32... CTC model (third model), M1... Throat microphone (skin contact type microphone), P1... Evaluation program, P11... Feature quantity extraction module, P12... Identification module.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Acoustics & Sound (AREA)
  • Public Health (AREA)
  • General Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Computational Linguistics (AREA)
  • Biomedical Technology (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Multimedia (AREA)
  • Human Computer Interaction (AREA)
  • Veterinary Medicine (AREA)
  • Signal Processing (AREA)
  • Epidemiology (AREA)
  • Pathology (AREA)
  • Dentistry (AREA)
  • Oral & Maxillofacial Surgery (AREA)
  • Physiology (AREA)
  • Biophysics (AREA)
  • Artificial Intelligence (AREA)
  • Evolutionary Computation (AREA)
  • Investigating Or Analyzing Materials By The Use Of Ultrasonic Waves (AREA)

Abstract

評価装置1は、ユーザに負担をかけることなく、ユーザの口内における食物の粉砕状態を評価し、ユーザの咀嚼能力を評価することを目的とする装置である。評価装置1は、ユーザの首部に装着された咽喉マイクM1によって取得された音声信号を基に、ユーザが咀嚼試料を咀嚼した際に咀嚼試料の粉砕状態を評価する装置であって、咽喉マイクM1からの音声信号を基に、時系列の音声特徴量を抽出する特徴量抽出部11と、音声特徴量が入力されて、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量を出力する、予め機械学習により構築された学習モデル20によって構成される識別器12と、を備える。

Description

評価装置、評価方法、及び評価プログラム
 実施形態の一側面は、ユーザの口腔内で咀嚼される食物の粉砕状態を検出して、ユーザの咀嚼能力を評価する評価装置、評価方法、及び評価プログラムに関する。
 従来から、ユーザの咀嚼の状態を自動的に検出する装置が用いられている。例えば、下記特許文献1には、ユーザの咀嚼回数を検出する装置が開示されている。具体的には、この装置は、ユーザに取り付けられたマイクが検出した音のうち、顎の関節の動きにより発生する音、歯と歯がぶつかる音、または歯が食物を噛み締める音に応じた周波数帯域のものをパルスに波形整形しカウントすることにより、ユーザの咀嚼回数を検出する。
特開平11-123185号公報
 上述したような従来の装置では、人間の咀嚼による食物の粉砕状態を検出することは困難であった。すなわち、ユーザによるその都度の咀嚼の回数を検出することはできるが、食物がどの程度かみ砕かれたかを検出することは困難である。例えば、従来では、食物の粉砕状態を検出するためには、ユーザの口内から咀嚼後の食物を取り出すことが行われていた。そのため、ユーザに負担を強いることなくユーザの口内における食物の粉砕状態を検出して、当該検出結果に基づいてユーザの咀嚼能力を評価することが望まれる。
 そこで、実施形態の一側面は、かかる課題を鑑みてなされたものであり、ユーザに負担をかけることなく、ユーザの口内における食物の粉砕状態を評価し、ユーザの咀嚼能力を評価することを目的とする。
 実施形態の一側面は、ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、ユーザが咀嚼試料を咀嚼した際に咀嚼試料の粉砕状態を評価する評価装置であって、皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出部と、音声特徴量が入力されて、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量を出力する、予め機械学習により構築された学習モデルによって構成された識別器と、を備える。
 あるいは、実施形態の他の側面は、ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、ユーザが咀嚼試料を咀嚼した際に咀嚼試料の粉砕状態を評価するコンピュータによる評価方法であって、皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出ステップと、音声特徴量を学習モデルに入力し、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量を出力する出力ステップと、を備える。
 あるいは、実施形態の他の側面は、ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、ユーザが咀嚼試料を咀嚼した際に咀嚼試料の粉砕状態を評価するための評価プログラムであって、コンピュータを、皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出部、及び音声特徴量が入力されて、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量を出力する、予め機械学習により構築された学習モデルによって構成される識別器、として機能させる。
 上記いずれかの側面によれば、ユーザの首部に装着された皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量が抽出され、抽出された音声特徴量が学習モデルに入力されることにより、ユーザの口内から咀嚼後の咀嚼試料を取り出すことなく、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量が出力される。ここで、内容物流出量は、ユーザの口内における咀嚼試料の粉砕状態を示す指標である。そのため、ユーザに負担をかけることなく、ユーザの口内における咀嚼試料の粉砕状態の評価し、ユーザの咀嚼能力を評価することができる。
 ユーザに負担をかけることなく、ユーザの口内における食物の粉砕状態を評価し、ユーザの咀嚼能力を評価することができる。
実施形態にかかる評価装置1の概略構成を示すブロック図である。 図1の評価装置1のハードウェア構成を示す図である。 図1の識別器12を構成する学習モデル20の機能構成を示すブロック図である。 図1のトレーニング部14における学習処理で用いる学習モデル30の機能構成を示すブロック図である。 図1のトレーニング部14における学習モデル30の事前学習処理の動作手順を示すフローチャートである。 図1のトレーニング部14における学習モデル20の学習処理の動作手順を示すフローチャートである。 図1の識別器12における評価処理の動作手順を示すフローチャートである。 実施形態の評価プログラムP1の構成を示すブロック図である。 図3の学習モデル20における内容物流出量の評価結果と内容物流出量の正解データとの関係を示すグラフである。 図4のLSTMモデル21における時系列の潜在特徴量の時間的変化の一例を示すグラフである。 図4のLSTMモデル21における時系列の潜在特徴量の時間的変化の一例を示すグラフである。
 以下、添付図面を参照して、本開示の実施形態について詳細に説明する。なお、説明において、同一要素又は同一機能を有する要素には、同一符号を用いることとし、重複する説明は省略する。
 図1は、実施形態の評価装置1の概略構成を示すブロック図である。図1に示されるように、評価装置1は、ユーザの首部における咽喉マイク(皮膚接触型マイク)M1によって取得された音声信号を基に、ユーザが咀嚼試料を咀嚼した際に咀嚼試料の粉砕状態を評価することにより、ユーザの咀嚼能力を評価するための装置である。評価装置1は、ユーザが咀嚼試料を一定時間咀嚼した際に、咀嚼によって流出する咀嚼試料の内容物の量(以下、内容物流出量と表記する)を推定(評価)することで咀嚼試料の粉砕状態を評価する。そして、評価装置1は、咀嚼試料の粉砕状態の評価結果をユーザの咀嚼能力の評価結果とする。なお、咀嚼試料とは、例えば、チューインガム、グミゼリー、米、及びATP顆粒剤である。また、咀嚼試料の内容物とは、例えば、糖、ゼラチン、グルコース、でんぷん、色素である。
 評価装置1は、咽喉マイクM1に備えられる一対のマイクM1R,M1Lからアナログ信号である音声信号を、ケーブルを介して受信可能に構成され、一対のマイクM1R,M1Lから受信した音声信号を用いて評価処理を実行し、評価処理の結果を出力および記憶する機能を有する。ただし、評価装置1は、ブルートゥース(登録商標)、無線LAN等の無線信号を用いて、咽喉マイクM1から音声信号を受信可能に構成されていてもよい。咽喉マイクM1は、ユーザの首の咽喉又は中咽頭付近の皮膚に接触させて装着され、ユーザによる食物摂取時の咀嚼、嚥下等の動作に応じた皮膚の振動を検出して動作に対応した音声信号を生成する皮膚接触型の検出機器である。咽喉マイクM1を構成する一対のマイクM1R,M1Lとしては、ピエゾ素子を内蔵したもの、あるいは、コンデンサマイクを内蔵したもの等が用いられる。これらの一対のマイクM1R,M1Lは、それぞれ、咽喉マイクM1がユーザに装着された際に、ユーザの首の咽喉又は中咽頭付近の右側及び左側の皮膚の振動を検出する。
 ここで、評価装置1は、機能的な構成要素として、特徴量抽出部(抽出部)11、識別器12、出力部13及びトレーニング部14を含んで構成されている。
 図2は、評価装置1のハードウェア構成を示すブロック図である。図2に示すように、評価装置1は、スマートフォン、タブレット端末、コンピュータ端末等に代表される演算装置50によって実現される。演算装置50は、物理的には、プロセッサであるCPU(Central Processing Unit)101、記録媒体であるRAM(Random Access Memory)102及びROM(Read Only Memory)103、通信モジュール104、及び入出力デバイス105等を含んだコンピュータ等であり、各々は内部で電気的に接続されている。入出力デバイス105は、キーボード、マウス、ディスプレイ装置、タッチパネルディスプレイ装置、スピーカ等である。上述した評価装置1の各機能部は、CPU101及びRAM102等のハードウェア上に実施形態の評価プログラムを読み込ませることにより、CPU101の制御のもとで、通信モジュール104、及び入出力デバイス105等を動作させるとともに、ROM103からのデータの読み出し、RAM102におけるデータの読み出し及び書き込みを行うことで実現される。
 以下、図1に戻って、評価装置1の各機能部の機能について詳細に説明する。
 特徴量抽出部11は、咽喉マイクM1を構成するマイクM1R,M1Lのそれぞれから同時に音声信号を受信し、それぞれの音声信号をA/D変換する。以下では、マイクM1Rから受信した音声信号を右側音声信号、マイクM1Lから受信した音声信号を左側音声信号とも呼ぶものとする。そして、特徴量抽出部11は、右側音声信号及び左側音声信号を対象に、ウィンドウ幅80msecの時間ウィンドウ(フレーム)を40msecでシフトさせながら設定し、時間ウィンドウ毎の特徴量(音声特徴量)を時系列に抽出する。詳細には、特徴量抽出部11は、右側音声信号と左側音声信号を合成した上で、その結果得られた合成信号のスペクトルの特徴を表現するスペクトル特徴量を、スペクトル分析を実行することにより抽出する。同時に、特徴量抽出部11は、右側音声信号と左側音声信号との相互相関値を特徴量として抽出する。また、右側音声信号及び左側音声信号は、例えば、20秒間である。この場合、音声特徴量は、20秒間分の数だけ抽出される。すなわち、音声特徴量は、500フレーム分の数だけ抽出される。なお、右側音声信号及び左側音声信号は、20秒間以上あってもよい。この場合、特徴量抽出部11には、右側音声信号及び左側音声信号において咀嚼が開始されてから20秒間の信号について、音声特徴量が時系列に抽出される。
 このスペクトル特徴量は、スペクトルの特徴を表現するものであれば特定のものには限定されないが、例えば、スペクトルをフーリエ変換して得られるケプストラム、メルケプストラム等の音声スペクトルの概形を表すケプストラムが挙げられる。例えば、本実施形態では、13次元のMFCC(Mel Frequency Cepstral Coefficient)が算出され、それらの時間変化量(前後3フレームのケプストラムの各次元における変化量)である13次元のΔ値と、13次元のΔ値の変化量である13次元のΔΔ値と、がさらに付加された合計39次元のスペクトル特徴量が抽出される。また、本実施形態では、相互相関値として、右側音声信号と左側音声信号との間がサンプリング点を7種類でシフトされた後に(16KHzのサンプリング周波数、80msecの時間ウィンドウの場合、サンプリング点が1280点の2つの信号を-3点~+3点で互いにシフトさせる。)、それらの互いの相互相関値が計算される結果、7次元の相互相関値が抽出される。
 識別器12は、特徴量抽出部11から時系列に入力される時間ウィンドウ毎の多次元の特徴量を順次処理して、内容物流出量を出力する。すなわち、識別器12は、時間ウィンドウ毎の特徴量として、スペクトル特徴量及び相互相関値を入力され、それらを処理することにより、ユーザの口内における咀嚼試料から流出した内容物流出量を出力する。
 上記機能を実現する識別器12は、深層ニューラルネットワークによる学習モデルによって構成される。図3には、識別器12を構成する学習モデル20の機能構成を示している。学習モデル20は、2つのモデルが組み合わされたモデルであり、LSTM(Long Short-term Memory)モデル(第1のモデル)21と、全結合型(Full Connection)モデル22(第2のモデル)とを含んでいる。学習モデル20においては、LSTMモデル21の出力が全結合型モデル22の入力に接続されている。
 LSTMモデル21は、時系列データを処理することができるように構成されたニューラルネットワークである。LSTMモデル21は、例えば、深層ニューラルネットワークであるRNN(Recurrent Neural Network)の一種であり、連続する時間ウィンドウの時系列の特徴量の入力を受けて、上述した複数のイベント毎の尤度を示す潜在特徴量を時系列に生成して出力することができる。例えば、咀嚼発生の複数のイベントとしては、ユーザの顎の右寄りでの咀嚼のイベントを示す「右寄りの咀嚼」、ユーザの顎の左寄りでの咀嚼のイベントを示す「左寄りの咀嚼」、及び、ユーザの顎の前寄りでの咀嚼のイベントを示す「前寄りの咀嚼」が少なくとも含まれる。また、例えば、潜在特徴量には、イベント「右寄りの咀嚼」の尤度LRight、イベント「左寄りの咀嚼」の尤度LLeft、イベント「前寄りの咀嚼」の尤度LFront、嚥下発生のイベントの尤度LSwallow、及び、それらのイベントの発生のないことを示すブランク部のイベントの尤度LBlankとが含まれる。このようなLSTMモデル21の機能により、音声信号の時間ウィンドウのタイミング毎に、各イベントの起こりうる確率を評価した出力を得ることができる。なお、潜在特徴量には、イベント「前寄りの咀嚼」の尤度LFront、及び嚥下発生のイベントの尤度LSwallow、が含まれていなくてもよい。
 また、潜在特徴量は、例えば、20秒間分の数だけ出力される。すなわち、潜在特徴量は、例えば、500フレーム分の数だけ出力される。また、潜在特徴量は、例えば時系列に5フレーム分ずつ平均化することにより、潜在特徴量の数が減らされてもよい。これにより、後述する全結合型モデル22のサイズを大きく減らすことができ、その結果、全結合型モデル22の学習を効率化することができる。すなわち、限られた数の訓練データでも、学習モデル20の精度を大きく向上させることができる。
 全結合型モデル22は、ニューラルネットワークの一種であり、例えば全結合型(Full Connection)ニューラルネットワークである。時系列の潜在特徴量を入力されて、時系列の潜在特徴量を変換して1つの内容物流出量を出力する。全結合型モデル22は、LSTMモデル21と組み合わされてエンコーダ・デコーダモデルを構成する。具体的には、全結合型モデル22は、入力された全ての潜在特徴量に線形変換及び非線形変換を施し、変換後の数値を、内容物流出量として出力するモデルである。図3に示される例では、全結合型モデル22は、LSTMモデル21から時系列に複数のイベント毎の尤度h~hが入力される。全結合型モデル22は、入力された各尤度h~hに対して、重み付け値を乗算してバイアス値を加算することで線形変換を実施する。全結合型モデル22は、当該線形変換を実施することにより、各尤度h~hを、任意の次元のベクトルa~aに変換する。全結合型モデル22は、線形変換後の任意の次元のベクトルa~aを、活性化関数に入力することで非線形変換を実施する。全結合型モデル22は、当該非線形変換を実施することにより、任意の次元のベクトルa~aを、任意の次元のベクトルb~bに変換する。全結合型モデル22は、このような線形変換及び非線形変換を複数回実施して1つの数値y(1次元のベクトル)を取得する。全結合型モデル22は、取得した数値を、ユーザの口内における咀嚼試料から流出した内容物流出量として出力する。
 出力部13は、識別器12の全結合型モデル22の出力である内容物流出量を、ディスプレイ又はスピーカ等の入出力デバイス105に出力する。また、出力部13は、内容物流出量を含むデータを、通信モジュール104を経由して端末装置等の外部の装置に出力(送信)してもよい。
 トレーニング部14は、識別器12の使用する学習モデル20を機械学習によるトレーニングにより構築する機能を有する。図4には、トレーニング部14がトレーニングに用いる学習モデル30の機能構成を示している。具体的には、トレーニング部14は、LSTMモデル21が含まれる学習モデル30を、特徴量抽出部11の出力である時系列の音声特徴量と、咀嚼に関するイベントの時系列の発生を示す情報とを含む訓練データを用いて、音声特徴量から咀嚼に関するイベントの時系列の発生を示す情報に近似する予測結果を出力するように、予め機械学習により構築する。その後、トレーニング部14は、構築された学習モデル30に含まれるLSTMモデル21のパラメータを学習モデル20に反映し、その学習モデル20を、音声特徴量及び内容物流出量を訓練データとして用いて機械学習により構築することにより、学習モデル20に含まれる全結合型モデル22を構築する。つまり、全結合型モデル22は、ファインチューニングにより構築される。
 なお、咀嚼に関するイベントの時系列の発生を示す情報とは、例えば、時間情報のない咀嚼等のイベントを示す情報であってもよいし、咀嚼に関するイベントのタイミングを示す情報であってもよい。また、時間情報のない咀嚼等のイベントを示す情報とは、複数のタイミング毎のイベントを特定するデータであり、時系列のラベルは、ユーザによって認識されたイベントを順番に特定するものであり、例えば、「左寄りの咀嚼」、「左寄りの咀嚼」、「右寄りの咀嚼」、…、「嚥下」、のようにイベントを特定するデータを、発生した順番に含んでもよい。
 一例としては、トレーニング部14は、LSTMモデル21を機械学習により構築するとき、LSTMモデル21の出力にイベント抽出モデル31を接続した学習モデル30のトレーニングを実行する。トレーニング部14は、特徴量抽出部11によって咽喉マイクM1から受信された音声信号から抽出された時系列の音声特徴量に、評価装置1のオペレータから入出力デバイス105等を介して受け付けた時間情報のない咀嚼等のイベントを示す情報を対応付け、時系列の音声特徴量、及び時間情報のない咀嚼等のイベントを示す情報をデータセット(訓練データ)とする。トレーニング部14は、データセットを用いて学習モデル30のトレーニングを実行する。このトレーニングは、例えば、誤差逆伝搬法を用いて、学習モデルを構成するニューラルネットワークの各層の各パラメータを更新することにより実行される。また、トレーニングは、ハイブリッドモデルである学習モデル30の最終出力を対象に実行される。イベント抽出モデル31は、CTC(Connectionist Temporal Classification)モデル(第3のモデル)32と、アテンション(Attention)モデル33と、を含んでいる。
 CTCモデル32は、学習モデル30において、LSTMモデル21の後段に接続され、“A. Graveset al., “Connectionist temporal classification: Labelling unsegmented sequence data with recurrent neural networks,” Proc. ICML, pp.369-376(2006)” に記載された既知のニューラルネットワークのアルゴリズムを有する学習モデルである。このCTCモデル32は、LSTMモデル21から時系列に複数のイベント毎の尤度が入力され、咀嚼発生のイベントあるいは嚥下発生のイベントの時間的な重複の除去と、ブランク部のイベントの除去とを行って、咀嚼発生のイベントあるいは嚥下発生のイベントの尤度を、それらのイベントの発生タイミング毎に出力する学習モデルである。具体的には、CTCモデル32は、ある時間ウィンドウのタイミングにおいてブランク部のイベントの尤度LBlankが最大である場合には、その組み合わせを除去し、連続した時間ウィンドウのタイミングにおいて同じイベントの尤度が最大である場合には、後続のタイミングにおける組み合わせを除去する。
 アテンションモデル33は、学習モデル30において、CTCモデル32と並列になるようにLSTMモデル21の後段に接続され、“Neural Machine Translation by Jointly Learning to Align and Translate(Bahdanau et al, 2015)”に記載された既知のニューラルネットワークのアルゴリズムを有するデコーダモデルである。このアテンションモデル33は、LSTMモデル21と組み合わされてエンコーダ・デコーダモデルを構成する。アテンションモデル33は、連続した時間ウィンドウの各イベントの尤度の出力を受けた場合には、イベント間の関係性や全体のコンテキストを考慮して出力を決定することにより、イベントの発生タイミング毎にイベントを示す情報を出力する。アテンションモデル33は、LSTMモデル21の後段に接続されるアテンション部34と、アテンション部34の後段に接続されているLSTMモデル35と、を含んでいる。
 アテンション部34は、連続した時間ウィンドウの各イベントの尤度の出力を受けた場合には、各イベントの尤度を重み付けした値を重み付き尤度としてLSTMモデル35の各モジュールに出力する。具体的には、アテンション部34は、潜在特徴量h~hを入力された場合には、イベント間の関係性又は全体のコンテキスト等を考慮して、LSTMモデル35の各モジュールに対する出力j~j(mは、1以上t以下の任意の整数)を決定する。アテンション部34は、重み付き潜在特徴量j~jを、LSTMモデル35のモジュール35(1)~35(m)(後述する)にそれぞれ出力する。
 アテンション部34は、例えば、LSTMモデル21とLSTMモデル35のそれぞれの出力ベクトル値の関連度を推定するサブネットワークを学習しておき、推定時には動的に重みを算出することにより、重み付け尤度j~jを決定する。
 LSTMモデル35は、深層ニューラルネットワークであるRNN(Recurrent Neural Network)の一種であり、アテンション部34から時系列に入力される重み付け尤度を時系列に処理する。LSTMモデル35は、図4に示されるように複数のモジュール35(1)~35(m)を1層として、1層又は複数の層からなるニューラルネットワークである。具体的には、LSTMモデル35は、重み付き潜在特徴量j~jが入力されて、イベントの発生タイミング毎に各イベントを示す情報y~yを出力する。図4に示される例では、LSTMモデル35は、複数のモジュール35(1)~35(m)を有している。LSTMモデル35は、モジュール35(1)において、アテンション部34から入力された出力jを処理し、イベントを示す情報y及び記憶セルcを得る。LSTMモデル35は、モジュール35(2)において、入力された出力j、イベントを示す情報y及び記憶セルcを処理して、イベントを示す情報y及び記憶セルcを得る。LSTMモデル35は、モジュール35(n)(2以上m-1以下の任意の整数)において、モジュール35(2)における処理と同様に、入力された出力j、イベントを示す情報yn―1及び記憶セルcn-1を処理して、イベントを示す情報y及び記憶セルcを得る。さらに、LSTMモデル35は、モジュール35(m)において、入力された出力j、イベントを示す情報ym-1及び記憶セルcm-1を処理して、イベントを示す情報yを得る。
 学習モデル30は、最終出力として、CTCモデル32の出力とアテンションモデル33の出力とを加味した出力を生成する。すなわち、学習モデル30は、イベントの発生タイミング毎に、CTCモデル32から出力されたイベントを示す情報z~zと、アテンションモデル33から出力された各イベントを示す情報y~yとを重み付け加算して最適な結果を時間情報のない咀嚼等のイベントを示す情報として推定する。トレーニング部14は、この時間情報のない咀嚼等のイベントを示す情報及び訓練データから推定されるCTCモデル32及びアテンションモデル33の損失関数の線形和を最小とするように、学習モデル30の学習を実施する。具体的には、トレーニング部14は、ビームサーチを用いた推論が行われる。
 トレーニング部14は、時間情報のない咀嚼等のイベントを示す情報を対応付けられた(弱ラベル付き)咀嚼・嚥下音データを大量に準備する。トレーニング部14は、LSTMモデル21を、上述のような学習モデル30(CTC/Attentionモデル)の一部として、上記咀嚼・嚥下音データを用いて事前学習する。その後、トレーニング部14は、事前学習済みのLSTMモデル21に全結合型モデル22を付加して学習モデル20として、学習モデル20を機械学習により構築する。このようにして、トレーニング部14において、Fine-tuningが実施される。トレーニング部14は、特徴量抽出部11によって咽喉マイクM1から受信された音声信号から抽出された時系列の音声特徴量に、オペレータから入出力デバイス105等を介して受け付けた内容物流出量を対応付け、時系列の音声特徴量及び内容物流出量をデータセット(訓練データ)とする。トレーニング部14は、データセット用いて学習モデル20のトレーニングを実行する。このトレーニングは、例えば、誤差逆伝搬法を用いて、学習モデル20を構成するニューラルネットワークの各層の各パラメータを更新することにより実行される。各パラメータとは、例えば、全結合型モデル22における重み付け値、バイアス値及び活性化関数等である。
 なお、オペレータにより入力される内容物流出量は、咀嚼によって流出する糖、ゼラチン、グルコース、澱粉、色素などを内容物として、比色法及び重量の測定等によって評価される。例えば、ユーザにより咀嚼試料が咀嚼された際に、ユーザの口内に含まれるものが全て取り出され、取り出されたものがろ過されて得られたろ液に含まれる内容物の量又は濃度が測定される。このようにして測定された内容物の量又は濃度の測定結果が、内容物流出量として特定され、オペレータによって、トレーニング部14を有する評価装置1に入力される。
 次に、上述した評価装置1の学習処理における動作及び評価処理における動作を説明するとともに、実施形態に係る評価方法の流れについて詳細に説明する。図5は、トレーニング部14における学習モデル30の事前学習処理の動作手順を示すフローチャートである。図6は、トレーニング部14における学習モデル20の学習処理の動作手順を示すフローチャートである。図7は、識別器12における評価処理の動作手順を示すフローチャートである。
 最初に、内容物流出量の評価処理を実行する前の任意のタイミングでユーザによって咽喉マイクM1が装着された状態でLSTMモデル21が含まれる学習モデル30の事前学習処理が開始される。この事前学習処理は、内容物流出量の評価処理を実行する度に内容物流出量の評価処理の対象のユーザによって毎回実行される必要はなく、評価装置1の提供者等の対象のユーザ以外のユーザが咽喉マイクM1を装着した上で実行されてもよい。事前学習処理が開始されると、ユーザによる食物の摂取時に評価装置1によって咽喉マイクM1から音声信号が受信され、特徴量抽出部11によって、それらの音声信号がA/D変換されるとともに、オペレータから評価装置1に時間情報のない咀嚼等のイベントを示す情報が入力される(ステップS01)。次に、特徴量抽出部11によって、咽喉マイクM1から得られた音声信号から時系列の音声特徴量が抽出される(ステップS02)。その後、トレーニング部14によって、時系列の音声特徴量に対して時間情報のない咀嚼等のイベントを示す情報が対応付けられたデータセットが生成され、データセットが用いられて学習モデル30のトレーニングが機械学習により実行される(ステップS03)。そして、トレーニング部14により、トレーニングによりパラメータが更新された学習モデル30が内部メモリに記憶される(ステップS04)。このようにして、LSTMモデル21が含まれる学習モデル30が機械学習により構築される。すなわち、多人数の被験者及び大量の咀嚼・嚥下音データと、時間情報のない咀嚼等のイベントを示す情報(弱ラベル)とを用いてLSTMモデル21の事前学習が実施される。なお、学習モデル30の事前学習処理において、予め記録された音声信号が、オペレータによって評価装置1に入力されてもよい。
 図6に移って、LSTMモデル21と、全結合型モデル22とを含む学習モデル20の学習処理の流れについて説明する。学習モデル20の学習処理は、上述した学習モデル30の事前学習処理が終了し、学習モデル30に含まれるLSTMモデル21のパラメータが学習モデル20に反映された後に、実行される。学習モデル20の学習処理は、内容物流出量の評価処理を実行する度に内容物流出量の評価処理の対象のユーザによって毎回実行される必要はなく、評価装置1の提供者等の対象のユーザ以外のユーザが咽喉マイクM1を装着した上で実行されてもよい。学習処理が開始されると、ユーザによる咀嚼試料の咀嚼時に評価装置1によって咽喉マイクM1から音声信号が受信され、特徴量抽出部11によって、それらの音声信号がA/D変換されるとともに、オペレータにより内容物流出量の測定結果を示すデータが入力される(ステップS101)。次に、特徴量抽出部11によって、咽喉マイクM1から得られた音声信号から時系列の音声特徴量が抽出される(ステップS102)。その後、トレーニング部14によって、時系列の音声特徴量に対して内容物流出量が対応付けられたデータセットが生成され、データセットを用いて学習モデル20のトレーニングが実行される(ステップS103)。そして、トレーニング部14により、トレーニングによりパラメータが更新された学習モデル20が内部メモリに記憶される(ステップS104)。このように、予め構築された学習モデル30に含まれるLSTMモデル21のパラメータが学習モデル20に反映された後に、学習モデル20が機械学習により構築される(ファインチューニング:fine tuning)。これにより、全結合型モデル22が構築される。なお、学習モデル20の学習処理において、予め記録された音声信号が、オペレータによって評価装置1に入力されてもよい。
 図7に移って、内容物流出量の評価処理の流れについて説明する。この評価処理は、ユーザによって咽喉マイクM1が装着されて咀嚼試料の咀嚼が開始された際に、評価装置1に対する指示入力に応じて開始される。
 最初に、ユーザによる食物の摂取時に評価装置1によって咽喉マイクM1から音声信号が受信され、特徴量抽出部11によって、右側音声信号及び左側音声信号がA/D変換される(ステップS201)。次に、特徴量抽出部11によって、連続する時間ウィンドウにおいてA/D変換された右側音声信号及び左側音声信号を基に、時系列の音声特徴量が抽出される(ステップS202)。その後、識別器12によって学習モデル20の入力に対して時系列の音声特徴量が順次入力される(ステップS203)。そして、識別器12によって、学習モデル20から内容物流出量が出力される(ステップS204)。
 次に、図8を参照して、コンピュータを上記評価装置1として機能させるための評価プログラムを説明する。
 評価プログラムP1は、メインモジュールP10、特徴量抽出モジュールP11、識別モジュールP12、出力モジュールP13、及び、トレーニングモジュールP14を備えている。
 メインモジュールP10は、評価装置1の動作を統括的に制御する部分である。特徴量抽出モジュールP11、識別モジュールP12、出力モジュールP13、及び、トレーニングモジュールP14を実行することにより実現される機能は、それぞれ、特徴量抽出部11、識別器12、出力部13、及びトレーニング部14の機能と同様である。
 評価プログラムP1は、例えば、CD-ROM、DVDもしくはROM等のコンピュータ読み取り可能な記録媒体または半導体メモリによって提供される。また、評価プログラムP1は、搬送波に重畳されたコンピュータデータ信号としてネットワークを介して提供されてもよい。
 従来から、咀嚼能力を評価する客観的な方法として、ユーザに咀嚼試料を咀嚼させて、咀嚼試料の破断面から流出する内容物の量又は濃度を測定する方法が知られている。この方法では、例えば、ユーザによりグミゼリーが咀嚼試料として咀嚼された際に、ユーザは一定量の水を口に含んだ状態で後に全ての水を吐き出させる。これにより、ユーザの口内に含まれるものが全て取り出される。そして、取り出されたものがろ過されて得られたろ液に含まれるグルコースの量又は濃度が測定される。この方法では、ユーザが口に含んだ咀嚼試料を飲み込んでしまうと測定精度が低下する。測定精度を確保しようとするとユーザによる適切な吐き出しが必要となるため、咀嚼能力の測定に際してユーザに負担をかけていた。例えば、咀嚼試料の一例であるグミゼリーは、ユーザに咀嚼される時に甘い味をユーザに感じさせるものであるため、ユーザに対してグミゼリーを飲み込まずに咀嚼することを要求することは、高齢者、特に認知症患者等のユーザにとって大きな負担となっていた。
 上述した評価装置1によれば、ユーザの首部に装着された咽喉マイクM1からの音声信号を基に、時系列の音声特徴量が抽出され、抽出された音声特徴量が学習モデル20に入力されることにより、ユーザの口内から咀嚼後の咀嚼試料を取り出すことなく、ユーザによって粉砕された咀嚼試料から流出した内容物の量である内容物流出量が出力される。ここで、内容物流出量は、ユーザの口内における咀嚼試料の粉砕状態を示す指標である。そのため、ユーザに負担をかけることなく、ユーザの口内における咀嚼試料の粉砕状態を評価し、ユーザの咀嚼能力を評価することができる。すなわち、簡便且つ客観的な咀嚼能力評価を実現することができる。
 また、上述した評価装置1によれば、咽喉マイクM1からの音声信号から内容物流出量を直接評価(推定)することができるため、ユーザが食物等を咀嚼している途中で食物の粉砕状態を評価することができる。つまり、咀嚼音及び嚥下音等から咀嚼状態を把握して、内容物流出量を直接評価(推定)することができる。このため、咽喉マイクM1における音声の録音が終了した際、ユーザが咀嚼試料を吐き出さずに飲み込んだ場合でも評価が可能となり、ユーザの負担がより軽減される。
 また、上述した評価装置1において、40個の訓練データを用いてファインチューニングされた学習モデル20において、内容物流出量を出力した場合、訓練データが少ないのにも関わらず、咀嚼能力の推定が可能となる。図9は、学習モデル20において、音声信号から推定された内容物流出量であるグルコース値と、グルコース値の正解データとの関係を示すグラフである。図9の縦軸は、音声信号から推定されたグルコース値(推定グルコース値)を示す。図9の横軸は、グルコース値の正解データ(正解値)を示す。なお、当該グラフにおいて、グルコース値の正解データは、以下のように測定される。まず、1名の被験者(20代男性)によってグミゼリーを20秒間咀嚼された後に、被験者の口内のものが全て取り出されてろ過されることにより、ろ液が得られる。得られたろ液を用いて、グルコセンサーGS-IIによりグルコース値の正解データが測定される。上記の測定では、被験者により咀嚼の強さが意図的に強められたり弱められたりすることにより、ユーザの咀嚼能力が強い場合又はユーザの咀嚼能力が弱い場合が再現されつつ、グルコース値の測定値が正解データとして得られる。図9に示される例では、グルコース値の正解データは、推定されたグルコース値と0.7程度の相関を得ている。したがって、本実施形態の評価装置1は、訓練データ数がニューラルネットワークを初期状態から学習するには少ない数である場合でも、ユーザの咀嚼能力が高い、中程度、及び低いの三段階程度であれば、ユーザの咀嚼能力を音声信号から推定することが可能である。
 また、本実施形態の識別器12において、学習モデル20は、時系列の音声特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを示す潜在特徴量を時系列に出力する、予め機械学習により(事前学習により)構築されたLSTMモデル21と、潜在特徴量を入力されて、時系列の潜在特徴量を変換して1つの内容物流出量を出力する全結合型モデル22と、を含む。このような学習モデル20では、LSTMモデル21を、時系列の音声特徴量と、時間情報のない咀嚼等のイベントを示す情報とを訓練データとして用いて、予め構築することが可能となる。ここで、上述したように、内容物流出量の正解データを準備する際には、咀嚼能力が低下した高齢者を含む多くの被験者に対して口内から咀嚼試料を取り出してろ過等を行うことにより、咀嚼能力検査を実施する必要がある。このため、内容物流出量について、学習モデル20のような複雑なニューラルネットワークを初期状態から学習するに足りうる十分な数の正解データ(訓練データ)を準備することは困難であり、非現実的である。したがって、LSTMモデル21及び全結合型モデル22を、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築した場合、学習モデル20において内容物流出量の推定精度は不十分なものとなってしまう。上記一側面における学習モデル20では、LSTMモデル21を、時系列の音声特徴量と、時間情報のない咀嚼等のイベントを示す情報とを訓練データとして用いて予め構築する。これにより、LSTMモデル21を含む学習モデル30を事前学習により構築し、当該LSTMモデル21のパラメータを学習モデル20に反映した後に、LSTMモデル21及び全結合型モデル22を含む学習モデル20を、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築することにより、学習モデル20において内容物流出量の推定精度を十分なものとすることができる。
 本実施形態では、学習モデル30は、咀嚼音及び嚥下音等を反映した音データでトレーニングにより学習される。この音は、食事をする際に人間の口内から生じる音である。この音データは、上述した咽喉マイクM1があれば高齢者だけでなく健常者を対象にして、容易に収集することができる。さらに、学習モデル20の一部として、学習モデル30のエンコーダであるLSTMモデル21を利用することにより、音声特徴量を効率よく抽出することができる。そして、学習モデル20を少量の学習データ(内容物流出量)による機械学習によって構築できる。その結果、ユーザの口内における食物の粉砕状態を評価する機能が実現される。
 さらに、本発明者により、咀嚼能力を示す内容物流出量と、LSTMモデル21から出力された時系列の潜在特徴量との間には相関があるということが見出されている。まず、本発明者により、食物が粉砕される音は、口腔内で徐々に変化するため、LSTMニューラルネットワーク等のディープニューラルネットワーク(DNN:Deep Neural Network)から出力された確率に基づいて、食物の粉砕が完了した時点を推定することが可能であるということが見出されている。この知見を基に、本発明者は、音声信号から咀嚼のイベントを推定するように構築されたLSTMモデル21を用いることにより、咀嚼の質(咀嚼能力)についても識別が可能であるのではないかと考えた。
 図10は、ユーザが通常より高い咀嚼能力を有する場合において、咽喉マイクM1からの音声信号を基に、特徴量抽出部11及び構築済みのLSTMモデル21を用いて導出された潜在特徴量を時系列に示すグラフである。図11は、ユーザが通常の咀嚼能力を有する場合において、咽喉マイクM1からの音声信号を基に、特徴量抽出部11及び構築済みのLSTMモデル21を用いて導出された潜在特徴量を時系列に示すグラフである。図10及び図11において、潜在特徴量は、softmax関数を用いて対数尤度化されて表示されている。図10及び図11のグラフの横軸は、時間を示しており、横軸の数値は、何番目のフレームかを示している。なお、図10及び図11における横軸の最大値である770フレームは、約30秒である。なお、評価装置1における評価時には、30秒のうち咀嚼の開始から20秒間分のデータから抽出される500フレーム分の潜在特徴量が全結合型モデル22に入力されることになる。図10(a)及び図11(a)のグラフの縦軸は、イベント「左寄りの咀嚼」の尤度Lleftを示す。図10(b)及び図11(b)のグラフの縦軸は、イベント「右寄りの咀嚼」の尤度LRightを示す。図10(c)及び図11(c)のグラフの縦軸は、嚥下発生のイベントの尤度LSwallowを示す。図10(d)及び図11(d)のグラフの縦軸は、イベントの発生のないことを示すブランク部のイベントの尤度LBlankを示す。図10及び図11に示されるように、通常より高い咀嚼能力を有する場合、イベント毎の尤度値が平均的により大きくなっている。このように、咀嚼能力と潜在特徴量との間に相関があることが明らかにされた。この特性を基に、本発明者は、内容物流出量が、咀嚼試料の粉砕状態を示す指標であり、咀嚼能力と相関を有する、つまり、内容物流出量と潜在特徴量との間には相関があるのではないかと考えた。本実施形態の評価装置1は、このような着想を基に創作された。詳細には、評価装置1では、全結合型モデル22に潜在特徴量が入力され、全結合型モデル22からユーザの口内における咀嚼試料の粉砕状態を示す指標である内容物流出量が出力される。これにより、内容物流出量を精度良く推定することができる。
 また、本実施形態の識別器12において、LSTMモデル21は、時系列データを処理することができるように構成されたニューラルネットワークである。このような学習モデル20では、時系列の音声特徴量に対して抽象的な時系列特徴を重畳することができるため、ユーザの口内における咀嚼試料の粉砕状態の時間的変化を学習する学習モデル20におけるモデル構築をより効率化することができる。
 また、本実施形態の識別器12において、全結合型モデル22は、ニューラルネットワークである。このような学習モデル20では、潜在特徴量と内容物流出量との間に相関を生じさせると共に、入力された全ての潜在特徴量を考慮して1つの内容物流出量を出力することができる。これにより、学習モデル20において内容物流出量の推定精度を向上させることができる。
 また、本実施形態のトレーニング部14において、LSTMモデル21の出力は、LSTMモデル21が機械学習により構築されるとき、LSTMモデル21から出力された連続する同一のイベントの重複の除去と、LSTMモデル21から出力されたブランク部の除去とを行うCTCモデル32、及び、イベントの発生タイミング毎にイベント毎の尤度を出力するアテンションモデル33に接続されている。このようなLSTMモデル21、CTCモデル32及びアテンションモデル33を含む学習モデル30が、時系列の音声特徴量と、時間情報のない咀嚼等のイベントを示す情報とを含むデータとを、訓練データとして用いて、音声特徴量から当該情報を予測するように構築されることにより、LSTMモデル21が予め構築される。この場合、学習モデル20では、LSTMモデル21を構築するための訓練データをより効率よく準備することができるため、学習モデル20における内容物流出量の推定精度が向上する。
 また、本実施形態の識別器12では、LSTMモデル21によって、音声特徴量に基づいて、嚥下に関するイベントの尤度が出力される。これにより、咽喉マイクM1からの音声信号を基に、ユーザの口内で嚥下が行われたか否かを判定することが可能となる。また、嚥下に関するイベントの尤度は、全結合型モデル22に入力されるため、ユーザが咀嚼試料を嚥下してしまった場合、嚥下に関するイベントの発生が考慮されて内容物流出量が評価される。すなわち、咀嚼試料の嚥下があった場合、それを考慮した評価数値の自動補正が行われる。
 また、本実施形態の評価装置1では、咽喉マイクM1からの音声信号のデータ長は、20秒に固定されている。これにより、LSTMモデル21が出力する潜在特徴量の長さも固定され、その結果、固定の幅を持つネットワークをLSTMモデル21に接続可能となる。つまり、全結合型モデル22をLSTMモデル21に接続可能となる。
 以上、本開示の種々の実施形態について説明したが、本開示は上記実施形態に限定されるものではなく、各請求項に記載した要旨を変更しない範囲で変形し、又は他のものに適用したものであってもよい。
 本実施形態では、LSTMモデル21が、学習モデル20が構築されるより前に構築されていればよい(事前学習が実施されていればよい)。すなわち、本実施形態では、LSTMモデル21が構築される際に、LSTMモデル21にCTCモデル32及びアテンションモデル33に接続したモデルである学習モデル30を機械学習により構築したが、これに限定されない。
 例えば、トレーニング部14において、LSTMモデル21の出力は、LSTMモデル21が機械学習により構築されるとき、LSTMモデル21から出力された連続する同一のイベントの重複の除去と、LSTMモデル21から出力されたブランク部の除去とを行うCTCモデル32のみに接続されていてもよく、トレーニング部14が、時系列の音声特徴量及び時間情報のない咀嚼等のイベントを示す情報を訓練データとして用いて、CTCモデル32の出力である時間情報のない咀嚼等のイベントを示す情報と訓練データとの誤差を少なくするように、LSTMモデル21及びCTCモデル32のトレーニングを実行することにより、LSTMモデル21が予め構築されてもよい。この場合、学習モデル30は、CTCモデル32の出力を最終出力とする。このような学習モデル30を用いれば、LSTMモデル21を含む学習モデル30を構築するための訓練データをより効率よく準備することができるため、学習モデル20における内容物流出量の推定精度が向上する。
 また、例えば、トレーニング部14において、LSTMモデル21の出力は、イベントの発生タイミング毎にイベント毎の尤度を出力するアテンションモデル33のみに接続されてもよく、トレーニング部14が、時系列の音声特徴量及び時間情報のない咀嚼等のイベントを示す情報を訓練データとして用いて、アテンションモデル33の出力である時間情報のない咀嚼等のイベントを示す情報と訓練データとの誤差を少なくするように、LSTMモデル21及びアテンションモデル33のトレーニングを実行することにより、LSTMモデル21が予め構築されてもよい。この場合、学習モデル30は、アテンションモデル33の出力を最終出力とする。このような学習モデル30の構成によっても、LSTMモデル21を構築するための訓練データをより効率よく準備することができるため、学習モデル20における内容物流出量の推定精度が向上する。
 また、例えば、学習モデル30をLSTMモデル21のみを含む構成とし、トレーニング部14において、LSTMモデル21が、時系列の音声特徴量及び時間情報のない咀嚼等のイベントを示す情報を訓練データとして用いて、音声特徴量から時間情報のない咀嚼等のイベントを示す情報を予測するように構築されてもよい。このような学習モデル30の構成によればLSTMモデル21及び全結合型モデル22を、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築した場合でも、学習モデル20において内容物流出量の推定精度を十分なものとすることができる。
 本実施形態では、LSTMモデル21は、時系列の音声特徴量を処理できればよいので、例えば、RNNであってもよいし、アテンションベースのモデルであるトランスフォーマー(Transformer)であってもよいし、双方向LSTMニューラルネットワークであってもよい。
 本実施形態では、全結合型モデル22は、入力された値全てを考慮して、入力された値と相関を有する1つの値を出力することができればよいので、例えば、RNN(Recurrent Neural Network)であってもよいし、CNN(Convolutional Neural Network)であってもよいし、TCN(Temporal Covolutional Network)であってもよい。また、全結合型モデル22が有する層の数は、入力層、中間層及び出力層の3層であってもよいし、入力層、3層の中間層、及び出力層からなる5層であってもよいし、3層以上の任意の数であってもよい。
 本実施形態では、咀嚼に関するイベントの時系列の発生を示す情報は、例えば、時間情報のない咀嚼等のイベントを示す情報であってもよいし、咀嚼に関するイベントのタイミングであってもよいが、さらに、咀嚼に関するイベントの回数であってもよい。
 本実施形態では、咽喉マイクM1から得られる音声信号のみを用いて、内容物流出量を評価する場合について記載したが、音声信号に加えて、筋電及び画像等から得られる情報を併用してもよい。
 上記実施形態においては、学習モデルは、時系列の音声特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、イベントの発生がないブランク部の尤度とを示す潜在特徴量を時系列に出力する、予め機械学習により構築された第1のモデルと、潜在特徴量を入力されて、時系列の潜在特徴量を変換して1つの内容物流出量を出力する第2のモデルと、を含む、ことが好適である。ここで、時系列の潜在特徴量から咀嚼に関するイベントの時系列の発生を示す情報を生成することが可能である。したがって、このような学習モデルでは、第1のモデルを、時系列の音声特徴量及び咀嚼に関するイベントの時系列の発生を示す情報を訓練データとして用いて、音声特徴量から当該情報を予測するように予め構築することが可能となる。ここで、内容物流出量の正解データを準備する際には、ユーザの口内から咀嚼試料を取り出してろ過等を行う必要がある。このため、内容物流出量の膨大な数の正解データ(訓練データ)を準備することは困難である。したがって、第1のモデル及び第2のモデルを、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築した場合、学習モデルにおいて内容物流出量の推定精度は不十分なものとなってしまう。上記一側面における学習モデルでは、第1のモデルを、例えば、時系列の音声特徴量及び咀嚼に関するイベントの時系列の発生を示す情報を訓練データとして用いて予め構築する。これにより、第1のモデルを事前学習により構築した後に、第1のモデル及び第2のモデルを、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築することにより、学習モデルにおいて内容物流出量の推定精度を十分なものとすることができる。
 また、上記実施形態においては、第1のモデルは、時系列データを処理することができるように構成されたニューラルネットワークを少なくとも含む、ことが好適である。このような学習モデルでは、時系列の音声特徴量に対して抽象的な時系列特徴を重畳することができるため、ユーザの口内における咀嚼試料の粉砕状態の時間的変化を学習する学習モデルにおけるモデル構築をより効率化することができる。
 また、上記実施形態においては、第2のモデルは、ニューラルネットワークを少なくとも含む、ことが好適である。このような学習モデルでは、潜在特徴量と内容物流出量との間に相関を生じさせると共に、入力された全ての潜在特徴量を考慮して1つの内容物流出量を出力することが可能となる。これにより、学習モデルにおいて内容物流出量の推定精度を向上させることができる。
 また、上記実施形態においては、第1のモデルの出力は、第1のモデルが機械学習により構築されるとき、第1のモデルから出力された連続する同一のイベントの重複の除去と、第1のモデルから出力されたブランク部の除去とを行う第3のモデルに接続されており、第1のモデル及び第3のモデルが、時系列の音声特徴量と、咀嚼に関するイベントの時系列の発生を示す情報とを訓練データとして用いて、音声特徴量から当該情報を予測するように構築されることにより、第1のモデルが予め構築される、ことが好適である。このような学習モデルでは、第1のモデルを構築するための訓練データをより効率よく準備することができるため、学習モデルにおける内容物流出量の推定精度が向上する。
 また、上記実施形態においては、第1のモデルは、時系列の音声特徴量及び咀嚼に関するイベントの時系列の発生を示す情報を訓練データとして用いて、音声特徴量から当該情報を予測するように予め構築される、ことが好適である。このような学習モデルでは、第1のモデル及び第2のモデルを、時系列の音声特徴量及び内容物流出量を訓練データとして用いて構築した場合でも、学習モデルにおいて内容物流出量の推定精度を十分なものとすることができる。
 1…評価装置、11…特徴量抽出部(抽出部)、12…識別器、20…学習モデル、21…LSTMモデル(第1のモデル)、22…全結合型モデル(第2のモデル)、32…CTCモデル(第3のモデル)、M1…咽喉マイク(皮膚接触型マイク)、P1…評価プログラム、P11…特徴量抽出モジュール、P12…識別モジュール。

 

Claims (8)

  1.  ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、前記ユーザが咀嚼試料を咀嚼した際に前記咀嚼試料の粉砕状態を評価する評価装置であって、
     前記皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出部と、
     前記音声特徴量が入力されて、前記ユーザによって粉砕された前記咀嚼試料から流出した内容物の量である内容物流出量を出力する、予め機械学習により構築された学習モデルによって構成される識別器と、を備える評価装置。
  2.  前記学習モデルは、
     時系列の前記音声特徴量が入力されて、右寄りの咀嚼及び左寄りの咀嚼を少なくとも含む咀嚼発生のイベント毎の尤度と、前記イベントの発生がないブランク部の尤度とを示す潜在特徴量を時系列に出力する、予め機械学習により構築された第1のモデルと、
     前記潜在特徴量を入力されて、時系列の前記潜在特徴量を変換して1つの前記内容物流出量を出力する第2のモデルと、を含む、
    請求項1に記載の評価装置。
  3.  前記第1のモデルは、時系列データを処理することができるように構成されたニューラルネットワークを少なくとも含む、
    請求項2に記載の評価装置。
  4.  前記第2のモデルは、ニューラルネットワークを少なくとも含む、
    請求項2又は3に記載の評価装置。
  5.  前記第1のモデルの出力は、前記第1のモデルが機械学習により構築されるとき、前記第1のモデルから出力された連続する同一の前記イベントの重複の除去と、前記第1のモデルから出力された前記ブランク部の除去とを行う第3のモデルに接続されており、
     前記第1のモデル及び前記第3のモデルが、時系列の前記音声特徴量と、咀嚼に関する前記イベントの時系列の発生を示す情報とを訓練データとして用いて、前記音声特徴量から前記情報を予測するように構築されることにより、前記第1のモデルが予め構築される、請求項2~4のいずれか1項に記載の評価装置。
  6.  前記第1のモデルは、
     時系列の前記音声特徴量及び咀嚼に関する前記イベントの時系列の発生を示す情報を訓練データとして用いて、前記音声特徴量から前記情報を予測するように予め構築される、
    請求項2~4のいずれか1項に記載の評価装置。
  7.  ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、前記ユーザが咀嚼試料を咀嚼した際に前記咀嚼試料の粉砕状態を評価するコンピュータによる評価方法であって、
     前記皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出ステップと、
     前記音声特徴量を学習モデルに入力し、前記ユーザによって粉砕された前記咀嚼試料から流出した内容物の量である内容物流出量を出力する出力ステップと、
    を備える評価方法。
  8.  ユーザの首部に装着された皮膚接触型マイクによって取得された音声信号を基に、前記ユーザが咀嚼試料を咀嚼した際に前記咀嚼試料の粉砕状態を評価するための評価プログラムであって、
     コンピュータを、
     前記皮膚接触型マイクからの音声信号を基に、時系列の音声特徴量を抽出する抽出部、及び、
     前記音声特徴量が入力されて、前記ユーザによって粉砕された前記咀嚼試料から流出した内容物の量である内容物流出量を出力する、予め機械学習により構築された学習モデルによって構成される識別器、として機能させる、
    評価プログラム。

     
PCT/JP2022/046101 2021-12-27 2022-12-14 評価装置、評価方法、及び評価プログラム WO2023127504A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021212349 2021-12-27
JP2021-212349 2021-12-27

Publications (1)

Publication Number Publication Date
WO2023127504A1 true WO2023127504A1 (ja) 2023-07-06

Family

ID=86998753

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/046101 WO2023127504A1 (ja) 2021-12-27 2022-12-14 評価装置、評価方法、及び評価プログラム

Country Status (1)

Country Link
WO (1) WO2023127504A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011072559A (ja) * 2009-09-30 2011-04-14 Tokyo Medical & Dental Univ 咀嚼力判定用カラースケールの作成方法
JP2018007723A (ja) * 2016-07-11 2018-01-18 国立大学法人静岡大学 嚥下情報提示装置
JP2019047859A (ja) * 2017-09-08 2019-03-28 株式会社吉田製作所 治療検査システム、該治療検査システムの作動方法、治療検査プログラム、及び、記憶媒体
JP2020058609A (ja) * 2018-10-10 2020-04-16 シャープ株式会社 食事モニタリング方法、プログラム及び食事モニタリング装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2011072559A (ja) * 2009-09-30 2011-04-14 Tokyo Medical & Dental Univ 咀嚼力判定用カラースケールの作成方法
JP2018007723A (ja) * 2016-07-11 2018-01-18 国立大学法人静岡大学 嚥下情報提示装置
JP2019047859A (ja) * 2017-09-08 2019-03-28 株式会社吉田製作所 治療検査システム、該治療検査システムの作動方法、治療検査プログラム、及び、記憶媒体
JP2020058609A (ja) * 2018-10-10 2020-04-16 シャープ株式会社 食事モニタリング方法、プログラム及び食事モニタリング装置

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN117558296A (zh) * 2024-01-11 2024-02-13 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备
CN117558296B (zh) * 2024-01-11 2024-04-09 腾讯科技(深圳)有限公司 目标音频识别模型的确定方法、装置及计算设备

Similar Documents

Publication Publication Date Title
Schuller et al. The interspeech 2017 computational paralinguistics challenge: Addressee, cold & snoring
US20220071588A1 (en) Sensor fusion to validate sound-producing behaviors
US20230333635A1 (en) Systems, methods, apparatuses and devices for detecting facial expression and for tracking movement and location in at least one of a virtual and augmented reality system
Bi et al. AutoDietary: A wearable acoustic sensor system for food intake recognition in daily life
Messner et al. Heart sound segmentation—an event detection approach using deep recurrent neural networks
Reyes-Galaviz et al. A system for the processing of infant cry to recognize pathologies in recently born babies with neural networks
Kohler et al. Analysis and classification of voice pathologies using glottal signal parameters
WO2023127504A1 (ja) 評価装置、評価方法、及び評価プログラム
Liu et al. Infant cry signal detection, pattern extraction and recognition
Messner et al. Crackle and breathing phase detection in lung sounds with deep bidirectional gated recurrent neural networks
Dong et al. Machine listening for heart status monitoring: Introducing and benchmarking hss—the heart sounds shenzhen corpus
US20110021939A1 (en) Method and Device for the Determination of Murmur Frequency Band
JP5099711B2 (ja) 乳児の情動を判定する方法、そのための装置とプログラム
EP3954278A1 (en) Apnea monitoring method and device
CN108354315B (zh) 一种基于双单元非对称声场的刷牙质量检测系统及方法
Humayun et al. An ensemble of transfer, semi-supervised and supervised learning methods for pathological heart sound classification
CN107045876A (zh) 一种基于语音的帕金森症严重程度诊断方法
Ribeiro et al. Speaker-independent classification of phonetic segments from raw ultrasound in child speech
Turan et al. Detection of food intake events from throat microphone recordings using convolutional neural networks
Koike et al. Transferring cross-corpus knowledge: an investigation on data augmentation for heart sound classification
CN110956949B (zh) 一种口含式缄默通信方法与系统
JP2022126977A (ja) 評価装置、評価方法、及び評価プログラム
CN114373484A (zh) 语音驱动的帕金森病多症状特征参数的小样本学习方法
Patel et al. Different Transfer Learning Approaches for Recognition of Lung Sounds
Hidayati et al. The extraction of acoustic features of infant cry for emotion detection based on pitch and formants

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22915728

Country of ref document: EP

Kind code of ref document: A1

WWE Wipo information: entry into national phase

Ref document number: 2023570825

Country of ref document: JP