WO2020013296A1 - 精神・神経系疾患を推定する装置 - Google Patents

精神・神経系疾患を推定する装置 Download PDF

Info

Publication number
WO2020013296A1
WO2020013296A1 PCT/JP2019/027587 JP2019027587W WO2020013296A1 WO 2020013296 A1 WO2020013296 A1 WO 2020013296A1 JP 2019027587 W JP2019027587 W JP 2019027587W WO 2020013296 A1 WO2020013296 A1 WO 2020013296A1
Authority
WO
WIPO (PCT)
Prior art keywords
disease
subject
estimation
reference range
unit
Prior art date
Application number
PCT/JP2019/027587
Other languages
English (en)
French (fr)
Inventor
慎一 徳野
修二 篠原
光晃 中村
康宏 大宮
Original Assignee
Pst株式会社
国立大学法人 東京大学
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Pst株式会社, 国立大学法人 東京大学 filed Critical Pst株式会社
Priority to GB2100152.4A priority Critical patent/GB2590201B/en
Priority to SG11202100147VA priority patent/SG11202100147VA/en
Priority to JP2020530269A priority patent/JP7389421B2/ja
Priority to US17/258,948 priority patent/US12029579B2/en
Publication of WO2020013296A1 publication Critical patent/WO2020013296A1/ja
Priority to JP2023190849A priority patent/JP7563683B2/ja

Links

Images

Classifications

    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/20ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for computer-aided diagnosis, e.g. based on medical expert systems
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B10/00Other methods or instruments for diagnosis, e.g. instruments for taking a cell sample, for biopsy, for vaccination diagnosis; Sex determination; Ovulation-period determination; Throat striking implements
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/16Devices for psychotechnics; Testing reaction times ; Devices for evaluating the psychological state
    • A61B5/165Evaluating the state of mind, e.g. depression, anxiety
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4082Diagnosing or monitoring movement diseases, e.g. Parkinson, Huntington or Tourette
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/40Detecting, measuring or recording for evaluating the nervous system
    • A61B5/4076Diagnosing or monitoring particular conditions of the nervous system
    • A61B5/4088Diagnosing of monitoring cognitive diseases, e.g. Alzheimer, prion diseases or dementia
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/30ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for calculating health indices; for individual health risk assessment
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification techniques
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H10/00ICT specially adapted for the handling or processing of patient-related medical or healthcare data
    • G16H10/40ICT specially adapted for the handling or processing of patient-related medical or healthcare data for data related to laboratory analysis, e.g. patient specimen analysis
    • GPHYSICS
    • G16INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR SPECIFIC APPLICATION FIELDS
    • G16HHEALTHCARE INFORMATICS, i.e. INFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR THE HANDLING OR PROCESSING OF MEDICAL OR HEALTHCARE DATA
    • G16H50/00ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics
    • G16H50/70ICT specially adapted for medical diagnosis, medical simulation or medical data mining; ICT specially adapted for detecting, monitoring or modelling epidemics or pandemics for mining of medical data, e.g. analysing previous cases of other patients

Definitions

  • the present invention relates to an apparatus for estimating a psychiatric / nervous system disease.
  • Patent Literature 1 discloses a technique in which a subject's voice is converted into a frequency spectrum, an autocorrelation waveform is obtained while being shifted on a frequency axis, and a pitch frequency is calculated therefrom to estimate an emotional state.
  • the range that can be estimated by the above technique is limited to the range of estimating the state of "emotional" of a person such as anger, joy, tension, sadness, or depressive symptoms, and the accuracy of estimating a disease was not high.
  • the present invention has been made in view of such circumstances, and has as its object to provide a medical device that estimates a psychiatric / nervous system disease with high accuracy.
  • the present invention is an apparatus for estimating a psychiatric / nervous system disease from voice data uttered by a subject, comprising: an arithmetic processing device; and an estimation program for causing the arithmetic processing device to execute processing.
  • a first acoustic parameter is calculated from audio data obtained from the subject, and a feature amount is calculated based on the second acoustic parameter associated with the disease in advance, thereby calculating the score of the subject.
  • Setting a reference range based on the calculation unit and the feature amount, and detecting a disease whose score exceeds the reference range.
  • An estimating unit for estimating a systemic disease When the detection unit detects one or more diseases.
  • the present invention it is possible to provide a medical device that estimates a psychiatric / nervous system disease with high accuracy.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter. It is a figure showing an example of scoring.
  • It is a flowchart of this invention. It is a flowchart of this invention. It is a flowchart of this invention. It is a flowchart of this invention.
  • FIG. 5 is an ROC curve showing the estimation accuracy of the present invention. 5 is an ROC curve showing the estimation accuracy of the present invention.
  • FIG. 9 is an explanatory diagram of a second acoustic parameter. It is a figure of the regression analysis of this invention. It is a figure of the regression analysis of this invention.
  • FIG. 1 shows a configuration diagram of an estimation device 100 of the present invention.
  • the arithmetic processing unit 110 includes functional units of a calculating unit 111, a detecting unit 112, and an estimating unit 113.
  • the estimation device 100 is connected to the communication terminal 200 via a wire or wirelessly.
  • the communication terminal 200 includes an audio input unit 201 such as a microphone and a video output unit 202 for displaying an estimation result. Note that the calculation unit 111, the detection unit 112, and the estimation unit 113 may be realized by hardware.
  • FIG. 2 shows an embodiment of the estimation device 100 via the network NW.
  • the estimating apparatus 100 is realized by a server A having an arithmetic processing function and a recording function of recording an estimation program, and a database (DB) server B in which audio data classified by disease is stored.
  • the server A may independently perform the processing of the database (DB) server B.
  • the communication terminal 200 is connected to the server A via the network NW, and the server A is further connected to the database (DB) server B via a wire or wirelessly.
  • the estimation device 100 may be realized by the communication terminal 200.
  • the estimation program stored in server A via network NW is downloaded and recorded in recording device 120 of communication terminal 200.
  • the communication terminal 200 may function as the calculation unit 111, the detection unit 112, and the estimation unit 113 when the CPU included in the communication terminal 200 executes an application recorded in the recording device 120 of the communication terminal 200.
  • the estimation program may be recorded on an optical disc such as a DVD or a portable recording medium such as a USB memory and distributed.
  • the communication terminal 200 is a device including an audio input unit 201 and a video output unit 202.
  • a smartphone for example, a smartphone, a tablet-type terminal, or a notebook computer or a desktop personal computer including a microphone.
  • the communication terminal 200 obtains an audio signal spoken by the subject via the microphone of the communication terminal 200, and generates audio data of a digital signal by sampling the audio signal at a predetermined sampling frequency (for example, 11 kHz). .
  • the generated audio data is transmitted to the estimation device 100.
  • the communication terminal 200 displays the result estimated by the estimation device 100 on a display as the video output unit 202.
  • the display is an organic EL (Organic Electro-Luminescence) or a liquid crystal.
  • the microphone may be directly connected to the estimation device 100 via a wire or wirelessly.
  • the estimation device 100 may sample the audio signal from the microphone at a predetermined sampling frequency to obtain digital signal audio data.
  • FIG. 10 illustrates an example of an estimation process in the estimation device 100 illustrated in FIG.
  • the processing illustrated in FIG. 10 is realized by the arithmetic processing device 110 of the estimation device 100 executing the estimation program recorded in the recording device 120 of the estimation device 100.
  • Each function of the calculation unit 111, the detection unit 112, and the estimation unit 113 of the arithmetic processing device 110 will be described with reference to FIG.
  • step S101 the calculation unit 111 determines whether or not audio data has been acquired.
  • audio data There are two types of audio data, one of which is first audio data obtained from a target subject.
  • the other is second audio data obtained from the database (DB) server B or the like in FIG.
  • the second audio data is associated with each disease in advance.
  • the second audio data may be recorded in advance in the recording device 120 of the estimation device 100 together with the estimation program.
  • step S103 If the audio data has been acquired, the process proceeds to step S103. If the audio data has not yet been acquired, the audio data is acquired via the communication terminal 200 and the database (DB) server B in step S102.
  • the calculation unit 111 calculates a first acoustic parameter and a second acoustic parameter from the obtained two types of audio data.
  • the acoustic parameter is obtained by parameterizing a characteristic when a sound is transmitted, and is used as a variable f (n) of a characteristic amount appearing thereafter.
  • the first acoustic parameter is calculated from first audio data of a subject whose disease is to be estimated.
  • the second acoustic parameter is calculated from the second audio data acquired from the database (DB) server B or the like. Since the second voice data is associated with each disease in advance, each disease and the acoustic parameter are also associated with the calculated second acoustic parameter.
  • the second acoustic parameter may be recorded in advance in the recording device 120 of the estimation device 100 together with the estimation program.
  • the disease group that can be estimated using the estimation device 100 that is, the disease group that has been previously associated with the second voice data includes Lewy body dementia, Alzheimer's dementia, Parkinson's disease, major depression, and bipolar. Including disability or non-specific depression.
  • the disease group is not limited to this.
  • the acoustic parameters include the following items.
  • One or more arbitrary acoustic parameters to be used as the variable f (n) are selected from the above acoustic parameter items, and a coefficient is added to the selected arbitrary acoustic parameter to obtain a feature amount F (a). Is created. Any acoustic parameters used are selected that are correlated with the particular disease to be estimated. For the variable f (n) and their coefficients, the estimation program may improve the quality of the feature quantity by machine learning from information stored in a database or the like after selection by the user.
  • the acoustic parameters may be normalized because their numerical values have large differences.
  • the feature amount may be normalized to two or more.
  • step S104 the calculation unit 111 determines whether a linear model specific to the disease has been created. If a linear model has already been created, the process proceeds to step S106. If a linear model has not been created yet, in step S105, a linear model is created based on the second acoustic parameter in which the acoustic parameter is associated with each disease.
  • a feature amount is created based on the created linear model.
  • the feature amount can be represented by the following equation F (a).
  • the subject's score used in the next detection unit 112 is calculated from the first acoustic parameter based on the feature value F (a).
  • f (n) is an arbitrarily selected one or more second acoustic parameters from the above acoustic parameter items (1) to (11).
  • xn is a disease-specific coefficient.
  • f (n) and xn may be recorded in the recording device 120 of the estimation program in advance. Further, the feature amount may be improved in the process of machine learning of the estimation program.
  • the estimation program has a learning function using artificial intelligence and performs estimation processing using the learning function.
  • Neural network type deep learning may be used, reinforcement learning etc. that partially strengthens the learning field may be used, and other, genetic algorithm, cluster analysis, self-organizing map, ensemble learning, Etc. may be used.
  • other technologies related to artificial intelligence may be used.
  • ensemble learning a classification algorithm may be created by a technique using both boosting and a decision tree.
  • the feature quantity may be divided into two or more. For example, the following division is possible.
  • FIG. 3 is an explanatory diagram relating to a volume envelope.
  • the horizontal axis indicates time t, and the vertical axis indicates the normalized power spectrum density.
  • the volume envelope consists of an attack time, a decay time, a sustain level, and a release time.
  • the attack time (“Attack”) is the time from the start of the sound to the maximum volume.
  • the decay time (“Decay”) is a decay time from when a sound is generated until the sound reaches a certain fixed volume (sustain level).
  • the release time is the disappearance time from when the sound is produced until the sound completely disappears.
  • FIG. 4 is an explanatory diagram relating to wave information of a waveform.
  • the horizontal axis indicates time t, and the vertical axis indicates sound pressure.
  • the wave information of the waveform includes jitter (Jitter) and shimmer (Shimmer). Jitter indicates a disturbance in the cycle on the time axis when the time per cycle is Ti, and can be described by the following equation.
  • Shimmer indicates a disturbance in amplitude with respect to the sound pressure when the sound pressure per amplitude is Ai, and can be described by the following equation.
  • FIG. 5 is an explanatory diagram regarding the zero-point crossing rate.
  • the zero-point crossing rate is obtained by calculating the number of times that the waveform of the sound pressure of the voice crosses the reference pressure per unit time, as the degree of the change of the waveform of the voice. The zero point crossing rate will be described later in detail.
  • FIG. 6 is an explanatory diagram related to the Hurst index.
  • the Hurst exponent indicates the correlation of changes in the audio waveform.
  • the Hurst index will be described later in detail.
  • FIG. 7 is an explanatory diagram related to VOT (Voice Onset Time).
  • VOT means the time from the start of air flow (Start of voicingng) until the vocal cords start vibrating (Stop Release), that is, the voiced start time (VOT).
  • the horizontal axis indicates time t
  • the vertical axis indicates sound pressure.
  • FIG. 8 is a diagram illustrating various types of statistics in the utterance data.
  • the upper part shows a graph of the sound intensity of a certain frequency component, with the horizontal axis representing time t and the vertical axis representing the frequency axis.
  • the level of the sound intensity is indicated by the shading of the color.
  • the frequency region to be processed is trimmed, and the frequency spectrum of each point in the trimmed region is shown in the middle graph.
  • the middle graph shows the frequency spectrum at each point on the time axis of the upper graph, so the darker part of the upper graph is drawn with higher sound intensity, and the lighter part is drawn with lower sound intensity.
  • the lower part of the graph shows the power spectrum density on the vertical axis and the time axis on the horizontal axis, by analyzing the spectrum of the middle frequency spectrum.
  • the statistical value of the distribution in the utterance for a certain coefficient of the mel frequency cepstrum (first quartile, median, third quartile, 95 percent, arithmetic mean, geometric mean, third quartile
  • Statistical value of the distribution in the utterance at the rate of change of the frequency spectrum (first quartile, median, third quartile, 95 percent point, arithmetic mean, geometric Average, the difference between the third quartile and the median)
  • the statistical value of the distribution in the utterance with respect to the time change of a certain coefficient of the mel frequency cepstrum (the first quartile, the median, the third quartile, 95% point, arithmetic mean, geometric mean, difference between third quartile and median, etc., statistical value of utterance distribution with respect to time change of a certain coefficient of mel frequency cepstrum (first quartile) , Median, third quartile, 95 percent, arithmetic flat ,
  • the geometric mean the difference between the third
  • step S106 in FIG. 10 the subject is scored after the feature amount is set. Scoring is a process of calculating a subject's score based on the characteristic amount F (a) unique to the disease and the first acoustic parameter.
  • the subject's score obtained by scoring is transmitted to the detection unit 112 and the estimation unit 113.
  • the detection unit 112 determines whether or not a health reference range created based on the feature amount is set.
  • the health reference range is an area that distinguishes a healthy subject from a subject having an individual disease based on a regression line created by the feature value F (a).
  • step S107 If the detecting unit 112 determines that the health reference range is set in step S107, the process proceeds to step S109. If it is determined that the health reference range has not been set, in step S108, a health reference range is set based on the feature amount. The information on the reference range is transmitted to the estimation unit 113.
  • step S109 the detection unit 112 detects a disease exceeding the health reference range from the subject's score calculated by the calculation unit 111.
  • step S110 the detection unit 112 determines whether there are a plurality of detected diseases. If there is no detected disease, or if there is only one detected disease, the process proceeds to step S112.
  • step S111 the common terms and coefficients of the feature amounts of the detected diseases are compared to improve the feature amounts.
  • the result of the feature amount improvement may be output to a database (DB) server B or a recording device 120 that records an estimation program for machine learning.
  • the improvement of the feature amount may be compared and verified until a significant difference occurs between the plurality of feature amounts. If the detected feature quantities of the disease have a common term, the differences in the common terms may be compared first, and then the individual feature quantities may be compared.
  • the comparison method may be comparison by range calculation in addition to comparison by multiplication.
  • the characteristic amount specific to the disease may be improved by comparing characteristic amounts specific to the disease and selecting the maximum value, or by adding them.
  • the plurality of diseases when a plurality of detected diseases are confirmed to have a sufficient difference from the health reference range, the plurality of diseases may be detected as final candidates. Further, the improvement of the feature amount may be manually adjusted by the user.
  • step S106 After the feature amount is improved, the score of the subject obtained in step S106 is recalculated if necessary. The improved feature amount and the recalculated score result are transmitted to the estimation unit 113. After all the processes in the detection unit 112 are completed, the process proceeds to step S112.
  • the estimation unit 113 estimates a disease from the feature amount acquired by the calculation unit 111 and the detection unit 112 and the subject's score based on the feature amount.
  • step S113 the estimation unit 113 outputs an estimation result to the communication terminal 200.
  • a disease having the largest value among differences between a subject's score and a health reference range may be selected to estimate the disease.
  • scores of the plurality of diseases may be shown as shown in FIG. 9 and final determination may be left to the user.
  • the estimation unit 113 may estimate the degree of health of the subject according to the distance between the subject's score calculated in step S106 and the boundary of the reference range set in step S108. Then, the estimation unit 113 may output information indicating the estimated health condition and the degree of health of the subject to the communication terminal 200.
  • the estimation device 100 ends the estimation processing.
  • the estimating apparatus 100 repeatedly executes the processing from step S101 to step S113 each time receiving the voice data of the subject from the communication terminal 200.
  • step S104 when the information of the reference range is determined in advance by the estimation device 100 or an external computer device and is recorded in the recording device 120 of the estimation device 100, step S104, step S105, and step S104 are performed. Steps S107 and S108 may be omitted.
  • the calculation unit 111 calculates the score of the subject based on the feature amount using the voice data of the subject obtained from the communication terminal 200.
  • the estimating unit 113 estimates the health condition or disease of the subject based on a comparison between the calculated score of the subject and the reference range set by the detecting unit 112.
  • FIG. 13 shows an example of the result estimated in the above steps S101 to S113.
  • FIG. 13 is a graph of an ROC curve showing the separation performance of a healthy person or a specific disease and the other.
  • the horizontal axis indicates specificity, and the vertical axis indicates sensitivity. In other words, the horizontal axis indicates the false positive rate, and the vertical axis indicates the true positive rate.
  • the ROC curves in FIG. 13 all showed a high value of the true positive rate at the time of low false positive standing.
  • AUC Absolute ⁇ under ⁇ an ⁇ ROC ⁇ curve
  • the estimating apparatus 100 can highly and professionally estimate a specific disease among a plurality of mental and nervous system diseases with high accuracy. Can be.
  • the calculation unit 111 calculates the zero-point crossing rate as the degree of the change of the waveform in the voice. In addition, the calculation unit 111 calculates a Hurst exponent indicating a correlation between changes in the waveform of the sound. The calculation unit 111 outputs the calculated zero-point crossing rate and the Hurst exponent of the subject to the detection unit 112 and the estimation unit 113.
  • the detecting unit 112 estimates the health state of the subject from the zero-crossing rate and the Hurst index of the subject calculated by the calculating unit 111, so that the health state indicating a healthy state without a disease such as depression is estimated. Set the reference range for.
  • the calculation unit 111 reads voice data of a plurality of persons whose health status is known whether or not they suffer from a disease such as depression from the database or the recording device 120 of the estimation device 100, and reads a plurality of voice data from the read voice data.
  • the second acoustic parameter is calculated, including the zero crossing rate and the Hurst exponent for each of the persons.
  • the calculation unit 111 calculates a linear discriminant or a logistic for the distribution of the zero crossing rates and the Hurst indices of the plurality of persons calculated by the calculation unit 111 in the two-dimensional space of the zero crossing rate and the Hurst exponent. By performing a process of linear classification such as regression analysis, a feature amount is created based on these linear models.
  • the detection unit 112 sets a boundary line that separates a region of a person suffering from depression or the like from a reference range of a healthy person not suffering from depression or the like based on the feature amount created by the calculation unit 111. Set.
  • the detection unit 112 outputs information indicating the reference range including the determined boundary line to the estimation unit 113.
  • the detection unit 112 may be omitted.
  • the estimating unit 113 determines a health state (for example, whether the subject is in a depressed state or the like) of the subject based on the subject's zero-crossing rate and the Hurst index score calculated by the calculating unit 111 and the reference range set by the detecting unit 112. E). Then, the estimation unit 113 outputs information indicating the estimated health condition to the communication terminal 200.
  • a health state for example, whether the subject is in a depressed state or the like
  • FIG. 14 shows an example of audio data obtained via the communication terminal 200 shown in FIG.
  • FIG. 14 shows a temporal change in the sound pressure of the voice uttered by the subject obtained via the communication terminal 200.
  • the horizontal axis in FIG. 14 indicates time t, and the vertical axis indicates sound pressure.
  • FIG. 14 shows the data of the utterance unit that uttered “Thank you” in the voice data of the utterance by the subject.
  • Times t0, t1, t2, t3, and t4 indicate the start times at which the words “A”, “R”, “GA”, “TO”, and “U” included in the utterance unit are uttered.
  • the calculation process performed by the calculation unit 111 on the voice data in which the word “Ri” is uttered in the utterance unit of “Thank you” will be described. The same or similar calculation process is executed for the unit.
  • the calculation unit 111 calculates the zero point crossing rate and the Hurst exponent for each window WD having a sample number of 512 or the like using the audio data acquired from the communication terminal 200. As shown in FIG. 14, since the sound pressure greatly changes in the utterance of each word, for example, the calculation unit 111 calculates the zero-point crossing rate by using a window WD1 having a sample number smaller than the window WD, such as 30. Then, the average value of the sound pressure is calculated, and the average value calculated in each window WD1 is set as the reference pressure of each window WD1. The calculation unit 111 measures the number of times the subject's sound pressure crosses the calculated reference pressure (average value) in each window WD1, and calculates the zero-point crossing rate.
  • Calculating section 111 calculates an average value of the zero-point crossing rates calculated in each window WD1 as zero-point crossing rate ZCR of window WD.
  • the standard deviation ⁇ ( ⁇ ) of the difference between the sound pressure x (t) at time t and the sound pressure x (t + ⁇ ) separated by time ⁇ from time t is related as shown in Expression (1). It is known that there is a power law relationship as shown in Expression (2) between the time interval ⁇ and the standard deviation ⁇ ( ⁇ ). H in Equation (2) is the Hurst exponent.
  • the Hurst exponent H is "0" because there is no temporal correlation between the audio data. Also, as the audio data changes from white noise to pink noise or brown noise, that is, as the audio waveform has temporal correlation, the Hurst exponent H shows a value larger than “0”.
  • the Hurst exponent H is 0.5. Further, as the audio data has a stronger correlation than the brown noise, that is, as the audio data becomes more dependent on the past state, the Hurst exponent H takes a value between 0.5 and 1.
  • the calculation unit 111 obtains the standard deviation ⁇ ( ⁇ ) of the audio data for each ⁇ in which the time interval ⁇ is from 1 to 15, and calculates the standard deviation ⁇ ( ⁇ ) of each obtained time interval ⁇ .
  • the Hurst exponent H is calculated by performing a regression analysis on ()).
  • Calculating section 111 moves window WD at a predetermined interval such as a quarter of the width of window WD, and calculates zero-point crossing rate ZCR and Hurst exponent H in each window WD. Then, the calculation unit 111 averages the calculated zero-point crossing rate ZCR and the Hurst exponent H of all the calculated windows WD, and uses the averaged zero-point crossing rate ZCR and the Hurst exponent H as the zero-point crossing rate and the Hurst exponent of the subject PA. Output to estimation section 113.
  • FIG. 15 shows an example of the distribution of the zero-crossing rate ZCR and the Hurst exponent H of a plurality of persons calculated by the calculation unit 111 shown in FIG.
  • the vertical axis indicates the zero-point crossing rate ZCR
  • the horizontal axis indicates the Hurst index H.
  • the zero-crossing rate ZCR and the Hurst index H of a person suffering from a disease such as depression are indicated by crosses, and the zero-crossing rate ZCR and the Hurst index H of a healthy person are indicated by circles.
  • the distribution of the zero point crossing rate ZCR and the Hurst exponent H shown in FIG. 15 is generated using the voice data of 1,218 people. Out of a total of 1218 people, 697 people have a disease such as depression, and 521 healthy people.
  • the calculation unit 111 executes a linear classification process such as a linear discriminant or a logistic regression analysis on the distribution of the zero-crossing rates ZCR and the Hurst exponent H of a plurality of persons shown in FIG.
  • the detection unit 112 determines a boundary line indicated by a broken line that separates a person suffering from a disease such as depression from a healthy person.
  • the detection unit 112 outputs information of the reference range including the determined boundary line to the estimation unit 113 using the region below the boundary line indicated by the broken line as the reference range, and sets the reference range in the estimation unit 113.
  • the vertical axis of the zero-point crossing rate ZCR and the horizontal axis of the Hurst exponent H are linear axes.
  • the boundary indicated by a broken line is represented by an exponential function or a power function, the boundary line It is preferable to use a logarithmic axis in order to show a straight line.
  • FIG. 16 shows an example of the distribution of the zero-crossing rate ZCR and the Hurst exponent H according to the environment in which audio data is acquired.
  • the vertical axis indicates the zero-point crossing rate ZCR and the horizontal axis indicates the Hurst index H, as in FIG.
  • FIG. 16 shows a boundary line determined by the detection unit 112 from the distribution of the zero point crossing rate ZCR and the Hurst exponent H shown in FIG.
  • FIG. 16 shows the distribution of the zero-crossing rate ZCR and the Hurst exponent H calculated by the communication terminal 200 using voice data obtained by sampling the voice of the subject at a sampling frequency of 11 kHz, as black triangles.
  • the communication terminal 200 downsamples the voice data of the subject PA sampled at 11 kHz at a sampling frequency of 8 kHz.
  • FIG. 16 shows the distribution of the zero-crossing rate ZCR and the Hurst exponent H calculated using the audio data down-sampled to 8 kHz, as white rectangles.
  • the zero-point crossing rate ZCR and the Hurst exponent H of the subject PA are affected by deterioration of sound quality (increase in noise) due to downsampling. That is, the zero-crossing rate ZCR of the down-sampled audio data is increased by increasing the number of times the noise and the sound pressure of the voice cross the reference pressure. It shows a large value as compared with.
  • the Hurst exponent H of the down-sampled audio shows a smaller value than the Hurst exponent H of the audio data sampled at 11 kHz because the audio data approaches white noise due to an increase in noise.
  • the zero-crossing rate ZCR and the Hurst exponent H are affected by downsampling, but do not change independently of each other but change in a relationship. That is, as shown in FIG. 16, the zero-point crossing rate ZCR and the Hurst exponent H change along the boundary indicated by the broken line while correlating with each other with respect to the deterioration of the sound quality due to downsampling or the like. .
  • the estimation device 100 can estimate the health condition of the subject with higher accuracy than in the past, regardless of the environment in which the voice data is acquired.
  • FIG. 11 shows an example of the estimation process in the estimation device 100 shown in FIG.
  • the processing illustrated in FIG. 11 is realized by the arithmetic processing device 110 of the estimation device 100 executing the estimation program recorded in the recording device 120 of the estimation device 100.
  • step S201 the calculation unit 111 determines whether or not audio data has been acquired.
  • audio data There are two types of audio data, one of which is first audio data obtained from a target subject.
  • the other is second audio data obtained from the database (DB) server B or the like in FIG.
  • the second audio data is associated with major depression in advance.
  • the second audio data may be recorded in advance in the recording device 120 of the estimation device 100 together with the estimation program.
  • step S203 If the voice data has been acquired, the process proceeds to step S203. If the audio data has not yet been acquired, the audio data is acquired via the communication terminal 200 and the database (DB) server B in step S202.
  • step S203 the calculation unit 111 calculates a first acoustic parameter and a second acoustic parameter, that is, a zero-point crossing rate ZCR and a Hurst exponent H from the acquired two types of audio data.
  • the second acoustic parameter may be recorded in advance in the recording device 120 of the estimation device 100 together with the estimation program.
  • step S204 the calculation unit 111 determines whether or not feature amounts unique to the disease have been created. If the feature has already been created, the process proceeds to step S206. If a feature has not been created yet, in step S205, a feature is created based on the zero crossing rate ZCR and the Hurst index H associated with major depression. Specifically, a linear classification process such as a linear discriminant or a logistic regression analysis is performed on the distribution of the zero-point crossing rate ZCR and the Hurst index H.
  • scoring of the subject is performed. Scoring is a process of calculating a subject's score based on a characteristic amount specific to a disease and a first acoustic parameter.
  • the subject's score obtained by scoring is transmitted to the detection unit 112 and the estimation unit 113.
  • step S207 the detection unit 112 determines whether or not a health reference range created based on the feature amount is set.
  • step S207 If the detecting unit 112 determines that the health reference range has been set in step S207, the process proceeds to step S209. If it is determined that the health reference range has not been set, in step S208, a health reference range is set based on the feature amount.
  • step S209 the detection unit 112 detects whether or not the score related to the zero-crossing rate ZCR and the Hurst index H of the subject calculated by the calculation unit 111 is within the reference range of health.
  • step S212 the estimating unit 113 estimates that the disease has major depression when the score of the subject exceeds the reference range in the detecting unit 112.
  • the estimating unit 113 estimates that the subject is healthy.
  • the estimating unit 113 outputs information indicating the estimated health condition of the subject to the communication terminal 200.
  • the estimating unit 113 determines, for example, according to the distance between the score related to the subject's zero-crossing rate ZCR and the Hurst exponent H detected in step S206 and the boundary of the reference range set in step S208. Thus, the degree of health of the subject may be estimated. Then, the estimation unit 113 may output information indicating the estimated health condition and the degree of health of the subject to the communication terminal 200.
  • the estimation device 100 ends the estimation process.
  • the estimating apparatus 100 repeatedly executes the processing from step S201 to step S213 every time receiving the voice data of the subject from the communication terminal 200.
  • step S204 when the information of the reference range is determined in advance by the estimation device 100 or an external computer device and is recorded in the recording device 120 of the estimation device 100, step S204, step S205, and step S204 are performed. Steps S207 and S208 may be omitted.
  • the calculation unit 111 calculates the score of the feature amount related to the zero-crossing rate ZCR and the Hurst exponent H of the subject using the voice data of the subject obtained from the communication terminal 200.
  • the estimation unit 113 estimates the health state of the subject based on a comparison between the calculated position of the zero-crossing rate ZCR and the Hurst index H of the subject and the reference range set by the detection unit 112.
  • the zero point crossing rate ZCR and the Hurst exponent H are affected by sound quality deterioration due to downsampling or the like, but do not change independently of each other but change with a relationship. . For this reason, deterioration in sound quality due to downsampling or the like does not affect the operation of the estimating unit 113 that determines whether or not a score related to the subject's zero crossing rate ZCR and the Hurst exponent H is included in the reference range. That is, the estimation device 100 can estimate the health state of the subject with higher accuracy than before, regardless of the environment in which the voice data is acquired.
  • the estimation device 100 can obtain the zero-crossing rate ZCR and the Hurst exponent H from voice data of a subject suffering from major depression or the like, voice data including long vowels, or the like. For this reason, the estimation device 100 can accurately estimate the health state of the subject as compared with the related art that uses information indicating the correspondence between the voice parameter and the emotional state.
  • the calculation unit 111 uses, for example, a waveform model of a voice represented by Expression (3), and changes a zero-point crossing rate ZCR and a Hurst exponent that change according to a ratio of noise included in the voice.
  • a feature amount is created based on the relationship with H, and a boundary line of the reference range can be set.
  • x (t-1), x (t), and x (t + 1) indicate audio data sampled at times t-1, t, and t + 1.
  • indicates the degree to which the audio data x (t) depends on the past state. For example, when ⁇ is 0, the audio data x (t) indicates an independent value without depending on the past state, indicating that it is white noise.
  • Rand1 and rand2 indicate uniform random numbers between 0 and 1.
  • the scale adjusts the amount of change in the waveform of the audio data x (t) according to the uniform random number of rand1, and is set to a value such as 0.1 or 0.2.
  • SIGN is a function shown in Expression (4), and determines a change in the audio data x (t).
  • adjusts the fluctuation of the audio data x (t) according to the uniform random number of rand2 via the function SIGN. For example, when ⁇ is set to 1 and ⁇ is set to 0.5, the audio data x (t) reproduces a waveform similar to brown noise.
  • the speech waveform model shown in Expression (3) is an example, and may be expressed using another function.
  • the calculating unit 111 changes ⁇ from 0 to 1 using the audio waveform model of Expression (3) in which ⁇ is set to 1, and calculates the audio data x (t) at each ⁇ value.
  • the zero point crossing rate ZCR and the Hurst index H are calculated.
  • the calculation unit 111 performs a regression analysis process such as a least squares method on the distribution of the zero point crossing rate ZCR and the Hurst exponent H at the calculated values of ⁇ .
  • the calculation unit 111 determines a straight line passing through the zero point crossing rate ZCR of each value of ⁇ and the Hurst exponent H as a boundary line.
  • the estimation device 100 can easily set the boundary of the reference range without acquiring voice data of a plurality of persons to determine the boundary of the reference range.
  • calculation section 111 outputs information on the reference range including the determined boundary line to estimation section 113, and sets the reference range in estimation section 113.
  • the calculation unit 111 may be omitted.
  • FIG. 12 shows an example of an estimation process in the estimation device 100 shown in FIG.
  • the process shown in FIG. 12 is realized by the arithmetic processing unit 110 of the estimation device 100 executing the estimation program recorded in the recording device 120 of the estimation device 100. That is, the process illustrated in FIG. 12 illustrates another embodiment of the estimation method and the estimation program.
  • step S301 the calculation unit 111 determines whether or not audio data has been acquired. If the audio data has been acquired, the process proceeds to step S303. If the audio data has not been acquired yet, in step S302, the audio data is acquired via the communication terminal 200 or the like.
  • step S303 the calculation unit 111 calculates first acoustic parameters, that is, a zero-point crossing rate ZCR and a Hurst exponent H from the acquired audio data.
  • step S307 the calculation unit 111 determines whether a health reference range has been set. If the health reference range has been set, the calculation unit 111 proceeds to step S308a. If the reference range has not been set, the calculation unit 111 proceeds to step S308.
  • step S308 the calculation unit 111 changes ⁇ from 0 to 1 using the audio waveform model of Expression (3) in which ⁇ is set to 1, and sets the audio data x (t) at each ⁇ value.
  • the zero point crossing rate ZCR and the Hurst index H are calculated.
  • the detection unit 112 performs a regression analysis process such as a least squares method on the distribution of the zero-point crossing rate ZCR and the Hurst exponent H at the calculated value of ⁇ , and performs the zero-point crossing of the value of each ⁇ .
  • a straight line passing through the rate ZCR and the Hurst exponent H is set as a boundary line.
  • step S308a the detection unit 112 outputs information on the reference range including the boundary set in step S308 to the estimation unit 113, and sets the reference range.
  • step S308a the subject is scored.
  • the scoring in the third embodiment uses the first acoustic parameter of the subject, that is, the zero-crossing rate ZCR and the Hurst exponent H of the subject.
  • the result of scoring is output to detection section 112 and estimation section 113.
  • step S309 the detection unit 112 detects whether or not the zero-crossing rate ZCR and the Hurst exponent H of the subject calculated in step S308a are within the reference range set in step S308.
  • step S312 when the score of the subject exceeds the reference range by the detection unit 112, the estimation unit 113 estimates that the disease is due to major depression.
  • the estimating unit 113 estimates that the subject is healthy.
  • the estimating unit 113 outputs information indicating the estimated health condition of the subject to the communication terminal 200.
  • the estimating unit 113 calculates, for example, the distance between the score related to the zero-crossing rate ZCR and the Hurst exponent H of the subject calculated in step S308a and the boundary line of the reference range set in step S308. Thus, the degree of health of the subject may be estimated. Then, the estimation unit 113 may output information indicating the estimated health condition and the degree of health of the subject to the communication terminal 200.
  • the estimation device 100 ends the estimation process.
  • the estimating apparatus 100 repeatedly executes the processing from step S301 to step S313 every time the voice data of the subject is received from the communication terminal 200.
  • the calculation unit 111 calculates the zero-crossing rate ZCR and the Hurst exponent H of the subject using the voice data of the subject obtained via the communication terminal 200.
  • the estimating unit 113 estimates the health condition of the subject PA based on a comparison between the calculated position of the zero-crossing rate ZCR and the Hurst index H of the subject and the reference range set by the detecting unit 112.
  • the estimation device 100 can estimate the health state of the subject with higher accuracy than before, regardless of the environment in which the voice data is acquired.
  • the estimation device 100 can obtain the zero-crossing rate ZCR and the Hurst exponent H from voice data of a subject suffering from major depression or the like, voice data including long vowels, or the like. For this reason, the estimation device 100 can accurately estimate the health state of the subject as compared with the related art that uses information indicating the correspondence between the voice parameter and the emotional state.
  • estimation device may be applied to, for example, robots, artificial intelligence, automobiles, call centers, the Internet, mobile terminal device applications and services such as smartphones and tablet terminals, and search systems. Further, the estimation device may be applied to a diagnosis device, an automatic inquiry device, a disaster triage, and the like.
  • the estimation device has been mainly described so far, the operation method of the medical device that operates the medical device including the estimation device as described above may be used, or the computer may perform the same processing as the medical device.
  • An estimation program, a non-transitory recording medium readable by a computer that records the estimation program, and the like may be used.

Landscapes

  • Health & Medical Sciences (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Public Health (AREA)
  • Medical Informatics (AREA)
  • Biomedical Technology (AREA)
  • General Health & Medical Sciences (AREA)
  • Pathology (AREA)
  • Neurology (AREA)
  • Veterinary Medicine (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Physics & Mathematics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Biophysics (AREA)
  • Psychiatry (AREA)
  • Neurosurgery (AREA)
  • Developmental Disabilities (AREA)
  • Hospice & Palliative Care (AREA)
  • Physiology (AREA)
  • Psychology (AREA)
  • Child & Adolescent Psychology (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Data Mining & Analysis (AREA)
  • Primary Health Care (AREA)
  • Epidemiology (AREA)
  • Databases & Information Systems (AREA)
  • Social Psychology (AREA)
  • Educational Technology (AREA)
  • Multimedia (AREA)
  • Acoustics & Sound (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Medical Treatment And Welfare Office Work (AREA)

Abstract

精神・神経系疾患を高い精度で推定する医療装置を提供する。本医療装置は、演算処理装置と、演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、さらに被験者のスコアを算出する算出部と、スコアが基準範囲を超える疾患を検出する検出部と、精神・神経系の疾患を推定する推定部、を備える。

Description

精神・神経系疾患を推定する装置
 関連出願の相互参照
 本出願は、平成30年7月13日に出願された特願2018-133333の優先権を主張する。
 本発明は、精神・神経系疾患を推定する装置に関する。
 被験者の音声を分析して感情を推定する技術が普及しつつある。特許文献1は、被験者の音声を周波数スペクトルに変換して、周波数軸上でずらしながら自己相関波形を求め、そこからピッチ周波数を算出して感情状態を推定する技術を開示する。
国際公開第2006/132159号
 しかしながら、上記の技術で推定可能な範囲は、怒り、喜び、緊張、悲しみ、または抑うつ症状など人の「感情」の状態を推定する範囲に止まり、疾患を推定する精度は高くなかった。
 本発明は、このような状況を鑑みてなされたものであり、精神・神経系疾患を高い精度で推定する医療装置を提供することを目的とする。
 上記課題を解決するために、本発明は、被験者が発話した音声データから精神・神経系の疾患を推定する装置であって、演算処理装置と、演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、被験者から取得した音声データから第1の音響パラメータを算出するとともに、予め疾患と関連付けされた第2の音響パラメータにより特徴量を算出して、被験者のスコアを算出する、算出部と、特徴量に基づき基準範囲を設定して、スコアが基準範囲を超える疾患を検出する、検出部と、検出部で1つ以上の疾患が検出された場合に、精神・神経系の疾患を推定する、推定部、を備えることを特徴とする。
 本発明によれば、精神・神経系疾患を高い精度で推定する医療装置を提供することができる。
本願発明の構成図である。 本願発明の構成図である。 第2の音響パラメータの説明図である。 第2の音響パラメータの説明図である。 第2の音響パラメータの説明図である。 第2の音響パラメータの説明図である。 第2の音響パラメータの説明図である。 第2の音響パラメータの説明図である。 スコアリングの一例を示す図である。 本願発明のフローチャートである。 本願発明のフローチャートである。 本願発明のフローチャートである。 本願発明の推定の精度を示すROC曲線である。 本願発明の推定の精度を示すROC曲線である。 第2の音響パラメータの説明図である。 本願発明の回帰分析の図である。 本願発明の回帰分析の図である。
(実施形態)
 以下、本発明を実施するための形態について図面などを参照して説明する。
 図1は、本願発明の推定装置100の構成図を示す。
 図1の推定装置100は、演算処理装置110(CPU)と、演算処理装置110が処理を実行するための推定プログラムを記録したハードディスク等の記録装置120を備えるコンピュータである。演算処理装置110は、算出部111と、検出部112と、推定部113の各機能部を備える。推定装置100は、有線または無線を介して通信端末200に接続される。通信端末200は、マイクロホン等の音声入力部201と、推定結果を表示する映像出力部202を備える。なお、算出部111、検出部112および推定部113は、ハードウェアにより実現されてもよい。
 図2は、ネットワークNWを介した推定装置100の一実施形態を示す。推定装置100は、演算処理機能を有し、かつ推定プログラムを記録する記録機能を有するサーバAと、疾患別に分類された音声データが保存されるデータベース(DB)サーバBにより実現される。サーバAが単独でデータベース(DB)サーバBの処理を行ってもよい。図2に示す推定装置100の場合、通信端末200はネットワークNWを介してサーバAと接続され、さらにサーバAはデータベース(DB)サーバBと有線または無線を介して接続される。
 推定装置100は、通信端末200により実現されてもよい。この場合には、ネットワークNWを介してサーバAに格納される推定プログラムがダウンロードされ、通信端末200の記録装置120に記録される。通信端末200に含まれるCPUが、通信端末200の記録装置120に記録されるアプリケーションを実行することにより、通信端末200が算出部111、検出部112および推定部113として機能してもよい。
 推定プログラムは、DVD等の光ディスクやUSBメモリ等の可搬型記録媒体に記録して頒布されてもよい。
 通信端末200は、音声の入力部201と、映像の出力部202を備える装置である。例えば、スマートフォン、タブレット型の端末、またはマイクロホンを備えるノートパソコンやデスクトップパソコン等である。通信端末200は、通信端末200のマイクロホンを介して被験者が発話する音声信号を取得し、音声信号を所定のサンプリング周波数(例えば、11キロヘルツ等)でサンプリングすることでデジタル信号の音声データを生成する。生成した音声データは、推定装置100に送信される。
 通信端末200は、推定装置100により推定された結果を、映像の出力部202であるディスプレイに表示する。ディスプレイは、有機EL(Organic Electro-Luminescence)や液晶等である。
 なお、マイクロホンは有線または無線を介して推定装置100に直接接続されてもよい。この場合、推定装置100はマイクロホンからの音声の信号を、所定のサンプリング周波数でサンプリングし、デジタル信号の音声データを取得してもよい。
 (第1実施形態)
 図10は、図1に示した推定装置100における推定処理の一例を示す。図10に示す処理は、推定装置100の演算処理装置110が推定装置100の記録装置120に記録された推定プログラムを実行することにより実現される。図10を用いて、演算処理装置110の算出部111、検出部112および推定部113の各機能についてそれぞれ説明する。
 (算出部111)
 処理を開始すると、ステップS101において、算出部111は音声データが取得済みであるか否かを判定する。音声データには2種類のデータがあり、1つは対象とする被験者から取得する第1の音声データである。もう1つは、図2のデータベース(DB)サーバB等から取得する第2の音声データである。第2の音声データは、各疾患と予め関連付けがされている。第2の音声データは、推定プログラムと一緒に推定装置100の記録装置120に予め記録されていてもよい。
 音声データが取得済みである場合には、ステップS103へ進む。音声データが未だ取得されていない場合には、ステップS102において、通信端末200およびデータベース(DB)サーバB等を介して音声データを取得する。
 次に、ステップS103において、算出部111は取得した2種類の音声データから第1の音響パラメータおよび第2の音響パラメータを算出する。音響パラメータは、音が伝わる際の特徴をパラメータ化したものであり、以降に登場する特徴量の変数f(n)として使用される。第1の音響パラメータは、疾患を推定する対象である被験者の第1の音声データから算出する。
 第2の音響パラメータは、データベース(DB)サーバB等から取得する第2の音声データから算出する。第2の音声データは、各疾患と予め関連付けがされているため、算出後の第2の音響パラメータにおいても、各疾患と音響パラメータが関連付けされている。第2の音響パラメータについては、推定プログラムと一緒に推定装置100の記録装置120に予め記録されていてもよい。
 推定装置100を用いて推定可能な疾患群、すなわち、第2の音声データと予め関連付けがされている疾患群は、レビー小体型認知症、アルツハイマー型認知症、パーキンソン病、大うつ病、双極性障害、または非特定うつ病を含む。但し、疾患群はこれに限定されるものではない。
 音響パラメータには、以下のような項目がある。
Figure JPOXMLDOC01-appb-T000001
 上記の音響パラメータの項目の中から、変数f(n)として使用する任意の音響パラメータを1つまたは複数選択し、選択された任意の音響パラメータに対し係数を付すことにより特徴量F(a)が作成される。使用される任意の音響パラメータは、推定を行うべき特定の疾患と相関性を有する音響パラメータが選択される。変数f(n)およびそれらの係数については、ユーザが選択した後に、データベースに蓄積される情報などから機械学習により推定プログラムが特徴量の品質の改善を行ってもよい。
 音響パラメータは、数値に大きな開きがあるためそれぞれを正規化してもよい。また、2つ以上の疾患で共通項が存在する場合には、特徴量を2つ以上に正規化してもよい。
 次に、ステップS104において、算出部111は疾患に固有の線形モデルが作成済みであるか否かを判定する。既に線形モデルが作成済みである場合には、ステップS106へ進む。未だ線形モデルが作成されていない場合には、ステップS105において、各疾患と音響パラメータが関連付けされている第2の音響パラメータに基づいて、線形モデルを作成する。
 次に、ステップS106において、作成された線形モデルに基づいて特徴量を作成する。特徴量は、以下の式F(a)で示すことができる。次の検出部112において用いられる被験者のスコアは、特徴量F(a)に基づいて第1の音響パラメータから算出される。
Figure JPOXMLDOC01-appb-M000002
 ここで、f(n)は、上記の音響パラメータの項目(1)ないし(11)の中からいずれか1つ以上の第2の音響パラメータを任意に選択したものである。xnは疾患に固有の係数である。f(n)、xnは、予め推定プログラムの記録装置120に記録されていてもよい。また、推定プログラムの機械学習の過程で特徴量を改善してもよい。
 推定プログラムは、人工知能による学習機能を有しその学習機能によって推定処理を行う。ニューラルネットワーク型のディープラーニングが利用されてもよいし、部分的に学習分野を強化する強化学習等が利用されてもよいし、その他、遺伝的アルゴリズム、クラスタ分析、自己組織化マップ、アンサンブル学習、等が利用されてもよい。もちろん、これら以外の人工知能に関する技術が利用されてもよい。アンサンブル学習においては、ブースティングと決定木を併用した手法により分類アルゴリズムを作成してもよい。
 2つ以上の疾患に共通項が存在する場合は、特徴量を2つ以上に分割してもよい。例えば、次式のような分割が可能である。
Figure JPOXMLDOC01-appb-M000003
 ここで、音響パラメータの詳細について説明する。
(1.音量のエンベロープ)
 図3は、音量のエンベロープに関する説明図である。横軸は時間tを示し、縦軸は正規化したパワースペクトル密度を示す。
 音量のエンベロープは、アタックタイム、ディケイタイム、サステインレベル、リリースタイムから構成される。アタックタイム(「Attack」)は、音の立ち上がりから最大音量になるまでの時間である。ディケイタイム(「Decay」)は、発音してからある一定の音量(サステインレベル)に落ちつくまでの減衰時間である。リリースタイムは、発音してから音が完全に無くなるまでの消失時間である。
 (2.波形の波動情報)
 図4は、波形の波動情報に関する説明図である。横軸は時間tを示し、縦軸は音圧を示す。
 波形の波動情報には、ジッター(Jitter)やシマー(Shimmer)が含まれる。ジッター(Jitter)とは、一周期当たりの時間をTiとした場合の時間軸における周期の乱れを示し、以下の式で説明することができる。
Figure JPOXMLDOC01-appb-M000004
 シマー(Shimmer)とは、一振幅当たりの音圧をAiとした場合の音圧に対する振幅の乱れを示し、以下の式で説明することができる。
Figure JPOXMLDOC01-appb-M000005
 (3.ゼロ点交差率)
 図5は、ゼロ点交差率に関する説明図である。ゼロ点交差率は、音声の音圧の波形が基準圧力を横切る単位時間あたりの回数を、音声における波形の変化の激しさの度合いとして算出したものである。ゼロ点交差率に関しては、後に詳述する。
 (4.ハースト指数)
 図6は、ハースト指数に関する説明図である。ハースト指数は、音声の波形における変化の相関性を示す。ハースト指数に関しては、後に詳述する。
 (5.VOT(Voice Onset Time))
 図7は、VOT(Voice Onset Time)に関する説明図である。VOTとは、空気が流れだしてから(Start of Voicing)、声帯が振動を始めるまで(Stop Release)の時間、すなわち有声開始時間(VOT)を意味する。図7では、横軸に時間tを示し、縦軸に音圧を示す。
 (6.ないし11.発話データ内の各種統計量)
 図8は、発話データ内の統計量に関する各種説明図である。上段は、ある周波数成分の音声の強度について、横軸を時間tとして示し、縦軸を周波数軸としてグラフを示す。上段のグラフでは、音声の強度の高低を色の濃淡で示している。上段のグラフのうち、処理対象とする周波数の領域をトリミングして、トリミングされた領域における各点の周波数スペクトルを中段に示す。
 中段のグラフは、上段のグラフの時間軸上の各点における周波数スペクトルを示しているため、上段の濃色で示す部分は音声強度が高く描かれ、淡色で示す部分は音声強度が低く描かれる。さらに、中段の周波数スペクトルをスペクトル解析し、縦軸をパワースペクトル密度、横軸を時間軸として示したのが下段のグラフである。
 下段のグラフより、メル周波数ケプストラムのある係数に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)、周波数スペクトラムの変化の速さにおける発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)、メル周波数ケプストラムのある係数の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)、メル周波数ケプストラムのある係数の時間変化の時間変化に関する発話内分布の統計値(第1四分位点、中央値、第3四分位点、95パーセント点、算術平均、幾何平均、第3四分位点と中央値の差など)、周波数スペクトラム90%ロールオフの発話内時間変化における2次回帰近似に対する二乗誤差、または周波数スペクトラム重心の発話内時間変化における2次回帰近似に対する算術誤差を算出する。
 次に、図10のステップS106において、特徴量が設定された後に被験者のスコアリングが行われる。スコアリングは、疾患に固有の特徴量F(a)と、第1の音響パラメータに基づき、被験者のスコアを算出する処理である。スコアリングによって取得された被験者のスコアは、検出部112と推定部113に送信される。
 (検出部112)
 次に、ステップS107において、検出部112は特徴量を基に作成された健康の基準範囲が設定されているか否かを判定する。健康の基準範囲とは、特徴量F(a)により作成される回帰直線から、健常な被験者と個々の疾患を有する被験者とを区別する領域である。
 検出部112は、ステップS107で健康の基準範囲が設定されていると判定した場合にはステップS109へ進む。健康の基準範囲が設定されてないと判定した場合には、ステップS108において、特徴量に基づいて健康の基準範囲を設定する。基準範囲の情報は、推定部113へ送信される。
 次に、ステップS109において、検出部112は算出部111で算出した被験者のスコアの中から健康の基準範囲を超える疾患を検出する。
 次に、ステップS110において、検出部112は検出された疾患が複数あるか否かを判定する。検出された疾患が無かった場合、あるいは検出された疾患が1つであった場合には、ステップS112へ進む。
 ステップS110で検出された疾患が複数あると判定された場合には、ステップS111において、検出された疾患どうしの特徴量の共通項、係数を比較して、特徴量の改善を行う。特徴量の改善の結果は、機械学習のためにデータベース(DB)サーバBまたは推定プログラムを記録する記録装置120に出力されてもよい。特徴量の改善は、複数の特徴量に有意な差が生じるまで比較・検証されてもよい。検出された疾患の特徴量どうしに共通項がある場合には、まず共通項における差異を比較し、次いで個々の特徴量の比較をおこなってもよい。
 また、比較の方法には乗算による比較の他、レンジ計算による比較を行っても良い。例えば、疾患固有の特徴量を比較し最大値を選ぶ、あるいはそれらを加算することで、疾患固有の特徴量を改善してもよい。
 また、検出された複数の疾患が健康の基準範囲と十分な差が確認される場合には、複数の疾患を最終的な候補として検出してもよい。また、特徴量の改善はユーザが手動で調整を行ってもよい。
 特徴量が改善された後は、必要であればステップS106で取得した被験者のスコアを再計算する。改善された特徴量および再計算されたスコア結果は、推定部113に送信される。検出部112における全ての処理が終了した後、ステップS112へ進む。
 (推定部113)
 次に、ステップS112において、推定部113は算出部111および検出部112で取得した特徴量およびそれに基づく被験者のスコアから、疾患の推定を行う。
 次に、ステップS113において、推定部113は通信端末200に推定結果を出力する。疾患の推定方法としては、被験者のスコアと健康の基準範囲との差の中で最も大きな値を持つ疾患を選択し、疾患を推定してもよい。また、検出された複数の疾患のうち十分な差が認められる場合には、図9に示す様に複数の疾患のスコアを示し、最終的な判断をユーザに委ねてもよい。
 推定部113は、ステップS106で算出された被験者のスコアと、ステップS108で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部113は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末200に出力してもよい。
 最後に、推定装置100は、推定処理を終了する。推定装置100は、通信端末200から被験者の音声データを受信する度に、ステップS101ないしステップS113の処理を繰り返し実行する。
 なお、図10に示した処理において、基準範囲の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記録装置120に記録されている場合、ステップS104、ステップS105、ステップS107およびステップS108の処理は、省略されてもよい。
 以上、実施形態1では、算出部111は、通信端末200から取得した被験者の音声データを用いて、特徴量に基づき被験者のスコアを算出する。推定部113は、算出された被験者のスコアと、検出部112により設定された基準範囲との比較に基づいて被験者の健康状態または疾患を推定する。
 以上のステップS101ないしステップS113によって推定された結果の一例を図13に示す。図13は、健常者または特定疾患と、それ以外の分離性能を示すROC曲線のグラフである。横軸が特異度を示し、縦軸が感度を示す。言い換えると、横軸が偽陽性率を示し、縦軸が真陽性率を示す。図13のROC曲線は、いずれも偽陽性立が低い時点で真陽性率が高い値を示した。
 また、AUC(Area under an ROC curve)はいずれも0.5より高く、ランダムに識別した場合と有意な差が確認できた。分離性能の検証が行われた疾患は、レビー小体型認知症、アルツハイマー型認知症、パーキンソン病、大うつ病、双極性障害、非特定うつ病である。それぞれのROC曲線におけるAUCは、レビー小体型認知症が0.794、アルツハイマー型認知症が0.799、パーキンソン病が0.771、大うつ病が0.869、双極性障害が0.86、非特定うつ病が0.86であった。なお、本願発明を用いて推定可能な疾患は上記のものに限定されない。
 以上に示す様に、図10に示すステップS101ないしステップS113を行うことにより、推定装置100は、複数の精神・神経系疾患の中から特定の疾患を高度・専門的に高精度で推定することができる。
 (第2実施形態)
 次に、第2の音響パラメータとして、ゼロ点交差率、ハースト指数を選択した場合の一実施例について詳述する。
 算出部111は、音声における波形の変化の激しさの度合いとしてゼロ点交差率を算出する。また、算出部111は、音声の波形における変化の相関性を示すハースト指数を算出する。算出部111は、算出した被験者のゼロ点交差率およびハースト指数を、検出部112および推定部113に出力する。
 検出部112は、算出部111が算出した被験者のゼロ点交差率およびハースト指数から被験者の健康状態を推定部113が推定するために、うつ病等の病を患っていない健康な状態を示す健康の基準範囲を設定する。
 例えば、算出部111は、うつ病等の病を患っているか否かの健康状態が既知である複数の人の音声データをデータベースまたは推定装置100の記録装置120から読み出し、読み出した音声データから複数の人の各々のゼロ点交差率およびハースト指数を含む第2の音響パラメータを算出する。
 さらに、算出部111は、ゼロ点交差率とハースト指数との2次元空間において、算出部111により算出された複数の人のゼロ点交差率およびハースト指数の分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行して、これらの線形モデルを基にして特徴量を作成する。
 次に、検出部112は、算出部111で作成した特徴量に基づいてうつ病等を患っている人の領域と、うつ病等を患っていない健康な人の基準範囲とを分ける境界線を設定する。検出部112は、決定した境界線を含む基準範囲を示す情報を推定部113に出力する。
 なお、特徴量が作成済みであって、疾患どうしの区別をする必要がなく、健康の基準範囲を示す情報が、推定装置100または外部のコンピュータ装置により予め設定され、推定装置100の記録装置120に記録されている場合、検出部112は省略されてもよい。
 推定部113は、算出部111により算出された被験者のゼロ点交差率およびハースト指数のスコアと、検出部112により設定された基準範囲とに基づいて被験者における健康状態(例えば、うつ状態等か否か)を推定する。そして、推定部113は、推定した健康状態を示す情報を通信端末200に出力する。
 図14は、図1に示した通信端末200を介して取得した音声データの一例を示す。図14は、通信端末200を介して取得した被験者が発話した音声の音圧の時間変化を示す。図14の横軸は時刻tを示し、縦軸は音圧を示す。
 図14では、被験者による発話の音声データのうち、“ありがとう”と発話した発話単位のデータを示す。時刻t0、t1、t2、t3、t4は、発話単位に含まれる“あ”、“り”、“が”、“と”、“う”の各語が発話された開始の時刻を示す。なお、“ありがとう”の発話単位のうち、“り”の語が発話された音声データに対する算出部111の算出処理について説明するが、算出部111は、“ありがとう”の他の語および他の発話単位に対しても、同一または同様に算出処理を実行する。
 算出部111は、通信端末200から取得した音声データを用いて、ゼロ点交差率およびハースト指数を、512等のサンプル数のウィンドウWD毎に算出する。図14に示すように、音圧は各語の発話において大きく変化するため、例えば、算出部111は、ゼロ点交差率を算出するために、ウィンドウWDより小さい30等のサンプル数のウィンドウWD1毎に音圧の平均値を算出し、各ウィンドウWD1で算出した平均値を各ウィンドウWD1の基準圧力とする。算出部111は、各ウィンドウWD1において、算出した基準圧力(平均値)を被験者の音圧が横切る回数を計測し、ゼロ点交差率を算出する。
 算出部111は、各ウィンドウWD1で算出したゼロ点交差率の平均値をウィンドウWDのゼロ点交差率ZCRとして算出する。
 一方、時刻tの音圧x(t)と時刻tから時間τ離れた音圧x(t+τ)との差分の標準偏差σ(τ)は、式(1)に示すように関係付けられる。また、時間間隔τと標準偏差σ(τ)の間には、式(2)に示すようなべき則の関係があることが知られている。そして、式(2)におけるHがハースト指数である。
Figure JPOXMLDOC01-appb-M000006
 例えば、ホワイトノイズのような音声データの場合、音声データの各データ間において互いに時間的な相関がないため、ハースト指数Hは“0”となる。また、音声データがホワイトノイズからピンクノイズやブラウンノイズになるに従い、すなわち音声の波形が時間的な相関性を有するに従い、ハースト指数Hは“0”より大きな値を示す。
 例えば、音声データがブラウンノイズの場合、ハースト指数Hは0.5となる。さらに、音声データがブラウンノイズより強い相関性を有する、すなわち音声データが過去の状態に依存する度合いが増すに従い、ハースト指数Hは、0.5から1の間の値を示す。
 算出部111は、例えば、ウィンドウWDにおいて、時間間隔τが1から15の間の各τに対して音声データの標準偏差σ(τ)を求め、求めた各時間間隔τの標準偏差σ(τ)に対して回帰分析を実行することによりハースト指数Hを算出する。
 算出部111は、ウィンドウWDの幅の4分の1等の所定の間隔でウィンドウWDを移動させて、各ウィンドウWDにおけるゼロ点交差率ZCRおよびハースト指数Hを算出する。そして、算出部111は、算出した全てのウィンドウWDのゼロ点交差率ZCRおよびハースト指数Hを平均し、平均したゼロ点交差率ZCRおよびハースト指数Hを被験者PAのゼロ点交差率およびハースト指数として推定部113に出力する。
 図15は、図1に示した算出部111により算出された複数の人のゼロ点交差率ZCRおよびハースト指数Hの分布の一例を示す。図15では、縦軸はゼロ点交差率ZCRを示し、横軸はハースト指数Hを示す。
 また、図15では、うつ病等の病を患っている人のゼロ点交差率ZCRおよびハースト指数Hをバツ印で示し、健康な人のゼロ点交差率ZCRおよびハースト指数Hを丸印で示す。なお、図15に示したゼロ点交差率ZCRおよびハースト指数Hの分布は、1218人の音声データを用いて生成されている。そして、のべ1218人のうち、うつ病等の病を患っている人は697人であり、健康な人は521人である。
 算出部111は、図15に示した複数の人のゼロ点交差率ZCRおよびハースト指数Hの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。検出部112は、うつ病等の病を患っている人と、健康な人とを分ける破線で示した境界線を決定する。
 図15の場合、破線で示した境界線は、ZCR=-0.299H+0.299と表される。検出部112は、破線で示した境界線より下側の領域を基準範囲として、決定した境界線を含む基準範囲の情報を推定部113に出力し、推定部113に基準範囲を設定する。
 なお、図15では、ゼロ点交差率ZCRの縦軸およびハースト指数Hの横軸は、線形軸としたが、破線で示した境界線が指数関数やべき関数等で表される場合、境界線を直線で示すために対数軸にするのが好ましい。
 図16は、音声データの取得環境に応じたゼロ点交差率ZCRおよびハースト指数Hの分布の一例を示す。図16では、図15と同様に、縦軸はゼロ点交差率ZCRを示し、横軸はハースト指数Hを示す。また、図16は、図15に示したゼロ点交差率ZCRおよびハースト指数Hの分布から検出部112により決定された境界線を破線で示す。
 図16は、例えば、通信端末200が被験者の音声を11キロヘルツのサンプリング周波数でサンプリングした音声データを用いて算出されたゼロ点交差率ZCRおよびハースト指数Hの分布を黒色の三角で示す。
 一方、通信端末200は、例えば、ネットワークNWを介して音声データを推定装置100に送信するために、11キロヘルツでサンプリングした被験者PAの音声データを、8キロヘルツのサンプリング周波数でダウンサンプリングする。図16は、8キロヘルツにダウンサンプリングされた音声データを用いて算出されたゼロ点交差率ZCRおよびハースト指数Hの分布を白色の矩形で示す。
 図16に示すように、被験者PAのゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリングによる音質の劣化(ノイズの増加)による影響を受けている。すなわち、ダウンサンプリングされた音声データのゼロ点交差率ZCRは、ノイズが増加し、音声の音圧が基準圧力を横切る回数が増加するため、11キロヘルツでサンプリングされた音声データのゼロ点交差率ZCRと比べて大きな値を示す。
 一方、ダウンサンプリングされた音声のハースト指数Hは、ノイズが増加することにより音声データがホワイトノイズに近づくため、11キロヘルツでサンプリングされた音声データのハースト指数Hと比べて小さな値を示す。
 しかしながら、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリングによる影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。すなわち、図16に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化に対して、互いの相関性を有しつつ破線で示した境界線に沿って変化する。
 このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ZCRおよびハースト指数Hが基準範囲に含まれるか否かを判定する推定部113の動作に影響を与えない。すなわち、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等の音質の劣化に対してロバスト性を有する。そして、推定装置100は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。
 図11は、図1に示した推定装置100における推定処理の一例を示す。図11に示す処理は、推定装置100の演算処理装置110が推定装置100の記録装置120に記録された推定プログラムを実行することにより実現される。
 処理を開始すると、ステップS201において、算出部111は音声データが取得済みであるか否かを判定する。音声データには2種類のデータがあり、1つは対象とする被験者から取得する第1の音声データである。もう1つは、図2のデータベース(DB)サーバB等から取得する第2の音声データである。第2の音声データは、実施形態2の場合には、大うつ病と予め関連付けがされている。第2の音声データは、推定プログラムと一緒に推定装置100の記録装置120に予め記録されていてもよい。
 音声データが取得済みである場合には、ステップS203へ進む。音声データが未だ取得されていない場合には、ステップS202において、通信端末200およびデータベース(DB)サーバB等を介して音声データを取得する。
 次に、ステップS203において、算出部111は取得した2種類の音声データから第1の音響パラメータおよび第2の音響パラメータ、すなわちゼロ点交差率ZCRおよびハースト指数Hを算出する。第2の音響パラメータについては、推定プログラムと一緒に推定装置100の記録装置120に予め記録されていてもよい。
 次に、ステップS204において、算出部111は疾患に固有の特徴量が作成済みであるか否かを判定する。既に特徴量が作成済みである場合には、ステップS206へ進む。未だ特徴量が作成されていない場合には、ステップS205において、大うつ病と関連付けされているゼロ点交差率ZCRおよびハースト指数Hに基づいて、特徴量を作成する。具体的にはゼロ点交差率ZCRおよびハースト指数Hの分布に対して、線形判別式やロジスティック回帰分析等の線形分類の処理を実行する。
 次に、ステップS206において、被験者のスコアリングが行われる。スコアリングは、疾患に固有の特徴量と、第1の音響パラメータに基づき、被験者のスコアを算出する処理である。スコアリングによって取得された被験者のスコアは、検出部112と推定部113に送信される。
 次に、ステップS207において、検出部112は特徴量を基に作成された健康の基準範囲が設定されているか否かを判定する。
 検出部112は、ステップS207で健康の基準範囲が設定されていると判定した場合にはステップS209へ進む。健康の基準範囲が設定されてないと判定した場合には、ステップS208において、特徴量に基づいて健康の基準範囲を設定する。
 次に、ステップS209において、検出部112は算出部111で算出した被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアが健康の基準範囲内に位置するか否かを検出する。
 次に、ステップS212において、推定部113は、検出部112で被験者のスコアが基準範囲を超えた場合には、疾患を大うつ病を患っていると推定する。被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアが健康の基準範囲内に位置する場合には、推定部113は被験者が健康であると推定する。推定部113は、推定した被験者の健康状態を示す情報を、通信端末200へ出力する。
 なお、推定部113は、例えば、ステップS206で検出された被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアと、ステップS208で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部113は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末200に出力してもよい。
 そして、推定装置100は、推定処理を終了する。推定装置100は、通信端末200から被験者の音声データを受信する度に、ステップS201からステップS213の処理を繰り返し実行する。
 なお、図11に示した処理において、基準範囲の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記録装置120に記録されている場合、ステップS204、ステップS205、ステップS207およびステップS208の処理は、省略されてもよい。
 以上、実施形態2では、算出部111は、通信端末200から取得した被験者の音声データを用いて、被験者のゼロ点交差率ZCRおよびハースト指数Hに関連する特徴量のスコアを算出する。推定部113は、算出された被験者のゼロ点交差率ZCRおよびハースト指数Hの位置と、検出部112により設定された基準範囲との比較に基づいて被験者の健康状態を推定する。
 さらに、図16に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアが基準範囲に含まれるか否かを判定する推定部113の動作に影響を与えない。すなわち、推定装置100は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。
 また、推定装置100は、大うつ病等を患っている被験者の音声データや、長母音等を含む音声データ等からゼロ点交差率ZCRおよびハースト指数Hを求めることができる。このため、推定装置100は、音声のパラメータと感情状態との対応関係を示す情報を用いる従来と比べて、被験者の健康状態を精度良く推定できる。
 (実施形態3)
 図1に示す推定装置100において、算出部111は、例えば、式(3)に示される音声の波形モデルを用い、音声に含まれるノイズの割合に応じて変化するゼロ点交差率ZCRとハースト指数Hとの関係性に基づいて特徴量を作成して、基準範囲の境界線を設定することができる。
Figure JPOXMLDOC01-appb-M000007
 ここで、x(t-1)、x(t)、x(t+1)は、時刻t-1、t、t+1にサンプリングされた音声データを示す。αは、音声データx(t)が過去の状態に依存する度合いを示す。例えば、αが0の場合、音声データx(t)は、過去の状態に依存することなく独立した値を示し、ホワイトノイズであることを示す。
 rand1、rand2は、0から1の間の一様乱数を示す。scaleは、rand1の一様乱数に応じて音声データx(t)の波形が変動する変動量を調整し、例えば、0.1や0.2等の値に設定される。SIGNは、式(4)に示す関数であり、音声データx(t)の変動を決定する。
Figure JPOXMLDOC01-appb-M000008
 音声データx(t)は、p>qの場合、増加または減少する状態を維持し、p<qの場合、増加から減少または減少から増加に状態を変化させる。また、音声データx(t)は、p=qの場合、現在と同じ状態を維持し変化しない。βは、関数SIGNを介して、rand2の一様乱数に応じて音声データx(t)の変動を調整する。例えば、αが1且つβが0.5に設定される場合、音声データx(t)は、ブラウンノイズと同様の波形が再現される。なお、式(3)に示した音声の波形モデルは、一例であり、他の関数を用いて表されてもよい。
 算出部111は、例えば、αが1に設定された式(3)の音声の波形モデルを用いて、βを0から1の間で変化させ、各βの値における音声データx(t)からゼロ点交差率ZCRおよびハースト指数Hを算出する。そして、算出部111は、算出した各βの値におけるゼロ点交差率ZCRとハースト指数Hとの分布に対して最小二乗法等の回帰分析の処理を実行する。算出部111は、各βの値のゼロ点交差率ZCRとハースト指数Hとを通る直線を、境界線として決定する。式(3)に示した音声の波形モデルの場合、算出部111により決定された境界線は、ZCR=-0.299H+0.305で表され、波線で示した図15の境界線と類似する直線となる。これにより、推定装置100は、基準範囲の境界線を決定するために複数の人の音声データを取得することなく、容易に基準範囲の境界線を設定できる。
 そして、算出部111は、決定した境界線を含む基準範囲の情報を推定部113に出力し、推定部113に基準範囲を設定する。
 なお、基準範囲の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記録装置120に記録されている場合、算出部111は省略されてもよい。
 図12は、図1に示した推定装置100における推定処理の一例を示す。
 図12に示した処理は、推定装置100の演算処理装置110が推定装置100の記録装置120に記録された推定プログラムを実行することにより実現される。すなわち、図12に示した処理は、推定方法および推定プログラムの別の実施形態を示す。
 処理を開始すると、ステップS301において、算出部111は音声データが取得済みであるか否かを判定する。そして、音声データが取得済みである場合には、ステップS303へ進む。音声データが未だ取得されていない場合には、ステップS302において、通信端末200等を介して音声データを取得する。
 次に、ステップS303において、算出部111は取得した音声データから第1の音響パラメータ、すなわちゼロ点交差率ZCRおよびハースト指数Hを算出する。
 次に、ステップS307において、算出部111は健康の基準範囲が設定されているか否かを判定する。健康の基準範囲が設定されている場合、算出部111はステップS308aに進む。基準範囲が設定されていない場合、算出部111はステップS308に進む。
 ステップS308では、算出部111はαが1に設定された式(3)の音声の波形モデルを用いて、βを0から1の間で変化させ、各βの値における音声データx(t)からゼロ点交差率ZCRおよびハースト指数Hを算出する。そして、検出部112は、算出した各βの値におけるゼロ点交差率ZCRとハースト指数Hとの分布に対して最小二乗法等の回帰分析の処理を実行し、各βの値のゼロ点交差率ZCRとハースト指数Hとを通る直線を境界線として設定する。
 次に、ステップS308aでは、検出部112は、ステップS308で設定した境界線を含む基準範囲の情報を推定部113に出力し、基準範囲を設定する。
 次に、ステップS308aにおいて、被験者のスコアリングが行われる。実施形態3におけるスコアリングは、被験者の第1の音響パラメータ、すなわち被験者のゼロ点交差率ZCRおよびハースト指数Hが用いられる。スコアリングの結果は、検出部112および推定部113に出力される。
 次に、ステップS309において、検出部112はステップS308aで算出された被験者のゼロ点交差率ZCRおよびハースト指数Hが、ステップS308で設定された基準範囲内に位置するか否か検出する。
 次に、ステップS312において、推定部113は検出部112で被験者のスコアが基準範囲を超えた場合には、疾患を大うつ病を患っていると推定する。被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアが健康の基準範囲内に位置する場合には、推定部113は被験者が健康であると推定する。推定部113は、推定した被験者の健康状態を示す情報を、通信端末200へ出力する。
 なお、推定部113は、例えば、ステップS308aで算出された被験者のゼロ点交差率ZCRおよびハースト指数Hに関連するスコアと、ステップS308で設定された基準範囲の境界線との間の距離に応じて、被験者の健康の度合いを推定してもよい。そして、推定部113は、推定した被験者の健康状態と健康の度合いとを示す情報を、通信端末200に出力してもよい。
 そして、推定装置100は、推定処理を終了する。推定装置100は、通信端末200から被験者の音声データを受信する度に、ステップS301からステップS313の処理を繰り返し実行する。
 なお、図12に示した処理において、基準範囲の情報が、推定装置100または外部のコンピュータ装置により予め決定され、推定装置100の記録装置120に記録されている場合、ステップS307、ステップS308の処理は、省略されてもよい。
 以上、実施形態3では、算出部111は、通信端末200を介して取得した被験者の音声データを用いて、被験者のゼロ点交差率ZCRおよびハースト指数Hを算出する。推定部113は、算出された被験者のゼロ点交差率ZCRおよびハースト指数Hの位置と、検出部112により設定された基準範囲との比較に基づいて被験者PAの健康状態を推定する。
 そして、図16に示すように、ゼロ点交差率ZCRおよびハースト指数Hは、ダウンサンプリング等による音質の劣化の影響を受けるが、互いに独立に変化するのではなく、関係性を有して変化する。このため、ダウンサンプリング等による音質の劣化は、被験者のゼロ点交差率ZCRおよびハースト指数Hが基準範囲に含まれるか否かを判定する推定部113の動作に影響を与えない。すなわち、推定装置100は、音声データの取得環境に拘わらず、従来と比べて精度良く被験者の健康状態を推定できる。
 また、推定装置100は、大うつ病等を患っている被験者の音声データや、長母音等を含む音声データ等からゼロ点交差率ZCRおよびハースト指数Hを求めることができる。このため、推定装置100は、音声のパラメータと感情状態との対応関係を示す情報を用いる従来と比べて、被験者の健康状態を精度良く推定できる。
 なお、推定装置は、例えば、ロボット、人工知能や自動車、あるいはコールセンター、インターネット、スマートフォンやタブレット型端末等の携帯端末装置アプリケーションやサービス、検索システムへ応用されてもよい。また、推定装置は、診断装置、自動問診装置、災害トリアージ等に応用されてもよい。
 なお、これまで主として推定装置について説明したが、推定装置を備える医療装置を上述したように作動させる医療装置の作動方法であっても良いし、コンピュータに医療装置と同様の処理を行わせるための推定プログラム、該推定プログラムを記録するコンピュータにより読み取り可能な一時的でない記録媒体、等であっても構わない。
 以上の詳細な説明により、実施形態の特徴点および利点は明らかになるであろう。これは、特許請求の範囲がその精神および権利範囲を逸脱しない範囲で前述のような実施形態の特徴点および利点にまで及ぶことを意図するものである。また、当該技術分野において通常の知識を有する者であれば、あらゆる改良および変更に容易に想到できるはずである。したがって、発明性を有する実施形態の範囲を前述したものに限定する意図はなく、実施形態に開示された範囲に含まれる適当な改良物および均等物に拠ることも可能である。
 精神・神経系疾患を高い精度で推定する医療装置を提供することができる。
111…算出部
112…検出部
113…推定部
100…推定装置
200…通信端末

 

Claims (5)

  1.  被験者が発話した音声データから精神・神経系の疾患を推定する装置であって、演算処理装置と、前記演算処理装置が処理を実行するための推定プログラムを記録した記録装置、を備え、
     前記被験者から取得した前記音声データから第1の音響パラメータを算出するとともに、予め疾患と関連付けされた第2の音響パラメータにより特徴量を算出して、前記被験者のスコアを算出する、算出部と、
     前記特徴量に基づき基準範囲を設定して、前記スコアが前記基準範囲を超える疾患を検出する、検出部と、
     前記検出部で1つ以上の疾患が検出された場合に、前記精神・神経系の疾患を推定する、推定部、
    を備える、
    装置。
  2.  前記精神・神経系の疾患の候補は、アルツハイマー型認知症、レビー小体型認知症、パーキンソン病、大うつ病、非定型うつ病、および双極性障害からなる群から1つ以上が選択され、前記第2の音響パラメータは、選択された前記疾患の候補と相関性を有する、
    請求項1に記載の装置。
  3.  前記基準範囲を超えて検出された前記疾患が1つ以下である場合は、検出する作業を終了し、
     前記基準範囲を超えて検出された前記疾患が2つ以上ある場合は、検出された前記疾患どうしの前記特徴量を比較して、前記特徴量を改善する、
    請求項1または請求項2に記載の装置。
  4.  請求項1~3のいずれか一項に記載の医療装置を実行させるための推定プログラムが記録された記録媒体。
  5.  被験者が発話した音声データから精神・神経系の疾患を推定するための、医療装置の作動方法であって、前記医療装置は、演算処理装置と、前記演算処理装置が処理を実行するための推定プログラムを記録した記録装置と、を備え、
     前記演算処理装置の算出部が、前記被験者から取得した前記音声データから第1の音響パラメータを算出するとともに、予め疾患と関連付けされた第2の音響パラメータに基づき特徴量を算出して、前記被験者のスコアを算出する、ステップと、
     前記演算処理装置の検出部が、前記特徴量に基づき健康の基準範囲を設定して、前記スコアが前記基準範囲を超える疾患を検出する、ステップと、
     前記演算処理装置の推定部が、前記検出部で1つ以上の疾患が検出された場合に、前記精神・神経系の疾患を推定する、ステップと、
    を備える、
    医療装置の作動方法。

     
PCT/JP2019/027587 2018-07-13 2019-07-11 精神・神経系疾患を推定する装置 WO2020013296A1 (ja)

Priority Applications (5)

Application Number Priority Date Filing Date Title
GB2100152.4A GB2590201B (en) 2018-07-13 2019-07-11 Apparatus for estimating mental/neurological disease
SG11202100147VA SG11202100147VA (en) 2018-07-13 2019-07-11 Apparatus for estimating mental/neurological disease
JP2020530269A JP7389421B2 (ja) 2018-07-13 2019-07-11 精神・神経系疾患を推定する装置
US17/258,948 US12029579B2 (en) 2018-07-13 2019-07-11 Apparatus for estimating mental/neurological disease
JP2023190849A JP7563683B2 (ja) 2018-07-13 2023-11-08 精神・神経系疾患を推定する装置

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2018-133333 2018-07-13
JP2018133333 2018-07-13

Publications (1)

Publication Number Publication Date
WO2020013296A1 true WO2020013296A1 (ja) 2020-01-16

Family

ID=69143045

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/027587 WO2020013296A1 (ja) 2018-07-13 2019-07-11 精神・神経系疾患を推定する装置

Country Status (5)

Country Link
US (1) US12029579B2 (ja)
JP (2) JP7389421B2 (ja)
GB (1) GB2590201B (ja)
SG (1) SG11202100147VA (ja)
WO (1) WO2020013296A1 (ja)

Cited By (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP6854554B1 (ja) * 2020-06-11 2021-04-07 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
WO2021220646A1 (ja) * 2020-04-28 2021-11-04 Pst株式会社 情報処理装置、方法、及びプログラム
JP2023533331A (ja) * 2020-07-10 2023-08-02 イモコグ カンパニー リミテッド 音声特性に基づくアルツハイマー病予測方法及び装置
WO2024116254A1 (ja) * 2022-11-28 2024-06-06 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

Families Citing this family (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR101958188B1 (ko) * 2018-10-12 2019-03-14 신성대학 산학협력단 음성 분석을 기반으로 하는 뇌졸중 판단 시스템 및 그 방법
WO2020128542A1 (en) * 2018-12-18 2020-06-25 Szegedi Tudományegyetem Automatic detection of neurocognitive impairment based on a speech sample
WO2020163645A1 (en) * 2019-02-06 2020-08-13 Daniel Glasner Biomarker identification
US11232570B2 (en) 2020-02-13 2022-01-25 Olympus Corporation System and method for diagnosing severity of gastritis

Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030078768A1 (en) * 2000-10-06 2003-04-24 Silverman Stephen E. Method for analysis of vocal jitter for near-term suicidal risk assessment
JP2011255106A (ja) * 2010-06-11 2011-12-22 Nagoya Institute Of Technology 認知機能障害危険度算出装置、認知機能障害危険度算出システム、及びプログラム
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
WO2017138376A1 (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
JP2017532082A (ja) * 2014-08-22 2017-11-02 エスアールアイ インターナショナルSRI International 患者の精神状態のスピーチベース評価のためのシステム
US20170354363A1 (en) * 2011-08-02 2017-12-14 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム
JP2018121749A (ja) * 2017-01-30 2018-08-09 株式会社リコー 診断装置、プログラム及び診断システム

Family Cites Families (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPS56114912A (en) * 1980-02-18 1981-09-09 Nippon Telegr & Teleph Corp <Ntt> Manufacture of connector for optical fiber
JPS6337362U (ja) 1986-08-28 1988-03-10
CN101199002B (zh) 2005-06-09 2011-09-07 株式会社A.G.I. 检测音调频率的语音分析器和语音分析方法
CA2689848A1 (en) * 2006-02-28 2007-09-07 Phenomenome Discoveries Inc. Methods for the diagnosis of dementia and other neurological disorders
AU2010357179A1 (en) * 2010-07-06 2013-02-14 Rmit University Emotional and/or psychiatric state detection
US10276260B2 (en) * 2012-08-16 2019-04-30 Ginger.io, Inc. Method for providing therapy to an individual
US10293160B2 (en) * 2013-01-15 2019-05-21 Electrocore, Inc. Mobile phone for treating a patient with dementia
KR20230161532A (ko) * 2015-11-24 2023-11-27 메사추세츠 인스티튜트 오브 테크놀로지 치매를 예방, 경감 및/또는 치료하기 위한 시스템 및 방법
US11504038B2 (en) * 2016-02-12 2022-11-22 Newton Howard Early detection of neurodegenerative disease
EP3711680A4 (en) * 2017-11-14 2021-08-18 Osaka University COGNITIVE MALFUNCTION DIAGNOSIS AND COGNITIVE MALFUNCTION DIAGNOSIS PROGRAM
JP6667907B2 (ja) * 2018-06-28 2020-03-18 株式会社アルム 認知症診断装置、および認知症診断システム
EP3821815A4 (en) * 2018-07-13 2021-12-29 Life Science Institute, Inc. Mental/nervous system disorder estimation system, estimation program, and estimation method
KR20220009954A (ko) * 2019-04-17 2022-01-25 컴퍼스 패쓰파인더 리미티드 신경인지 장애, 만성 통증을 치료하고 염증을 감소시키는 방법

Patent Citations (8)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20030078768A1 (en) * 2000-10-06 2003-04-24 Silverman Stephen E. Method for analysis of vocal jitter for near-term suicidal risk assessment
JP2011255106A (ja) * 2010-06-11 2011-12-22 Nagoya Institute Of Technology 認知機能障害危険度算出装置、認知機能障害危険度算出システム、及びプログラム
US20170354363A1 (en) * 2011-08-02 2017-12-14 Massachusetts Institute Of Technology Phonologically-based biomarkers for major depressive disorder
WO2015168606A1 (en) * 2014-05-02 2015-11-05 The Regents Of The University Of Michigan Mood monitoring of bipolar disorder using speech analysis
JP2017532082A (ja) * 2014-08-22 2017-11-02 エスアールアイ インターナショナルSRI International 患者の精神状態のスピーチベース評価のためのシステム
WO2017138376A1 (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
JP2018121749A (ja) * 2017-01-30 2018-08-09 株式会社リコー 診断装置、プログラム及び診断システム
JP6337362B1 (ja) * 2017-11-02 2018-06-06 パナソニックIpマネジメント株式会社 認知機能評価装置、及び、認知機能評価システム

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
2018 CBEES-BBS BALI, INDONESIA CONFERENCE ABSTRACT, 23 April 2018 (2018-04-23), pages 1 - 7 , 16, 48, Retrieved from the Internet <URL:http://www.icpps.org/ICPPS2018-program.pdf> [retrieved on 20190917] *
HIGUCHI, M. ET AL.: "CLASSIFICATION OF BIPOLAR DISORDER, MAJOR DEPRESSIVE DISORDER, AND HEALTHY STATE USING VOICE", ASIAN JOURNAL OF PHARMACEUTICAL AND CLINICAL RESEARCH, vol. 11, no. 15, October 2018 (2018-10-01), pages 89 - 93, XP055674862, Retrieved from the Internet <URL:http://dx.doi.org/10.22159/ajpcr.2018.vlls3.30042> *

Cited By (11)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2021220646A1 (ja) * 2020-04-28 2021-11-04 Pst株式会社 情報処理装置、方法、及びプログラム
JPWO2021220646A1 (ja) * 2020-04-28 2021-11-04
EP4144302A1 (en) * 2020-04-28 2023-03-08 PST Inc. Information processing device, method, and program
JP7466131B2 (ja) 2020-04-28 2024-04-12 Pst株式会社 情報処理装置、方法、及びプログラム
EP4144302A4 (en) * 2020-04-28 2024-05-29 PST Inc. INFORMATION PROCESSING DEVICE, METHOD AND PROGRAM
JP6854554B1 (ja) * 2020-06-11 2021-04-07 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
WO2021250854A1 (ja) 2020-06-11 2021-12-16 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
JP2021194527A (ja) * 2020-06-11 2021-12-27 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
JP7430398B2 (ja) 2020-06-11 2024-02-13 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム
JP2023533331A (ja) * 2020-07-10 2023-08-02 イモコグ カンパニー リミテッド 音声特性に基づくアルツハイマー病予測方法及び装置
WO2024116254A1 (ja) * 2022-11-28 2024-06-06 Pst株式会社 情報処理装置、情報処理方法、情報処理システム、及び情報処理プログラム

Also Published As

Publication number Publication date
GB2590201A8 (en) 2021-07-28
JPWO2020013296A1 (ja) 2021-08-05
JP7389421B2 (ja) 2023-11-30
JP7563683B2 (ja) 2024-10-08
US20210121125A1 (en) 2021-04-29
GB2590201A (en) 2021-06-23
US12029579B2 (en) 2024-07-09
JP2024020321A (ja) 2024-02-14
SG11202100147VA (en) 2021-02-25
GB2590201B (en) 2022-09-21
GB202100152D0 (en) 2021-02-17

Similar Documents

Publication Publication Date Title
WO2020013296A1 (ja) 精神・神経系疾患を推定する装置
US9536525B2 (en) Speaker indexing device and speaker indexing method
JP6755304B2 (ja) 情報処理装置
JP5024154B2 (ja) 関連付け装置、関連付け方法及びコンピュータプログラム
JP3584458B2 (ja) パターン認識装置およびパターン認識方法
US20160086622A1 (en) Speech processing device, speech processing method, and computer program product
US20190279644A1 (en) Speech processing device, speech processing method, and recording medium
JP3298858B2 (ja) 低複雑性スピーチ認識器の区分ベースの類似性方法
CN110914897B (zh) 语音识别系统和语音识别装置
CN114127849A (zh) 语音情感识别方法和装置
JP7160095B2 (ja) 属性識別装置、属性識別方法、およびプログラム
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
TW201721631A (zh) 聲音辨識裝置、聲音強調裝置、聲音辨識方法、聲音強調方法以及導航系統
CN111862946B (zh) 一种订单处理方法、装置、电子设备及存储介质
CN114155882B (zh) 一种基于语音识别的“路怒”情绪判断方法和装置
JP7307507B2 (ja) 病態解析システム、病態解析装置、病態解析方法、及び病態解析プログラム
JP7159655B2 (ja) 感情推定システムおよびプログラム
JP6933335B2 (ja) 推定方法、推定プログラムおよび推定装置
Perera et al. Automatic Evaluation Software for Contact Centre Agents’ voice Handling Performance
JP2022114906A (ja) 心理状態管理装置
CN110364182B (zh) 一种声音信号处理方法及装置
US20240071409A1 (en) Aerosol quantity estimation method, aerosol quantity estimation device, and recording medium
CN117352008A (zh) 语音监测方法、装置、电子设备及可读存储介质
Chapaneri et al. Emotion recognition from speech using Teager based DSCC features
JP4970371B2 (ja) 情報処理装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19834426

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 202100152

Country of ref document: GB

Kind code of ref document: A

Free format text: PCT FILING DATE = 20190711

ENP Entry into the national phase

Ref document number: 2020530269

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19834426

Country of ref document: EP

Kind code of ref document: A1