WO2014178749A1 - Method for determining an individual's risk of developing disorders on the basis of the individual's voice, and hardware and software system for implementing same - Google Patents

Method for determining an individual's risk of developing disorders on the basis of the individual's voice, and hardware and software system for implementing same Download PDF

Info

Publication number
WO2014178749A1
WO2014178749A1 PCT/RU2013/000672 RU2013000672W WO2014178749A1 WO 2014178749 A1 WO2014178749 A1 WO 2014178749A1 RU 2013000672 W RU2013000672 W RU 2013000672W WO 2014178749 A1 WO2014178749 A1 WO 2014178749A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice signal
individual
signal
voice
parameters
Prior art date
Application number
PCT/RU2013/000672
Other languages
French (fr)
Russian (ru)
Inventor
Антон Павлович ЛЫСАК
Original Assignee
Общество С Ограниченной Ответственностью "Эм Ди Войс"
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Общество С Ограниченной Ответственностью "Эм Ди Войс" filed Critical Общество С Ограниченной Ответственностью "Эм Ди Войс"
Publication of WO2014178749A1 publication Critical patent/WO2014178749A1/en

Links

Classifications

    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/48Other medical applications
    • A61B5/4803Speech analysis specially adapted for diagnostic purposes
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/66Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for extracting parameters related to health condition
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7235Details of waveform analysis
    • AHUMAN NECESSITIES
    • A61MEDICAL OR VETERINARY SCIENCE; HYGIENE
    • A61BDIAGNOSIS; SURGERY; IDENTIFICATION
    • A61B5/00Measuring for diagnostic purposes; Identification of persons
    • A61B5/72Signal processing specially adapted for physiological signals or for diagnostic purposes
    • A61B5/7271Specific aspects of physiological measurement analysis
    • A61B5/7275Determining trends in physiological measurement data; Predicting development of a medical condition based on physiological measurements, e.g. determining a risk factor

Definitions

  • the invention relates to medicine and is intended to study the functional state of the vocal folds.
  • the invention also relates to information and network technologies used in medicine, namely, to an electronic information system that provides the formation and visual display on the screen of a terminal device of an individual (user) of a system of information about the state of his voice folds according to the parameters of the voice signal.
  • the claimed invention is an expandable, modifiable, modular and interactive tool for analysis and visualization of the functional state of voice folds, designed to inform the user about the current state of his voice and the likelihood of a disease.
  • the user can monitor the functional state of their vocal folds with the aim of early diagnosis of diseases of the larynx and timely prevention of chronic diseases associated with the vocal folds, as well as associated with some diseases of the upper respiratory tract, nervous system and other diseases, the marker of which may be change in the state of the vocal folds.
  • the technology is implemented in a simple and understandable form, and the likelihood of a disease is assessed by the results of a simple speech test, which the user of the system can pass independently without involving a phoniatrist specialist, outside the clinic, at a convenient time for him.
  • Diagnosis of throat diseases according to the results of the assessment of voice changes associated with changes in the fluctuations of the vocal folds, which lead to a change in voice quality, for example, a change in voice to hoarse, rough, etc.
  • the reason for such changes may be disturbances in the process of vibrations of the vocal folds, which arise as a result of the presence of a pathology that changes the behavior of the folds during phonation.
  • certain methods for assessing the probability of diseases of the vocal folds are known, based on recording a voice signal with subsequent analysis based on the study of the frequency track of the fundamental tone of the voice signal and obtaining various speech parameters that describe the functional state of the individual's voice folds.
  • a method based on the study of random fluctuations in the pitch period is the Jitter effect (“USE OF PERIODICITY AND JITTER AS SPEECH RECOGNITION FEATURES” DL Thomson and R.
  • Closest to the claimed solution is a system and method of voice analysis for the diagnosis of diseases of the vocal folds (application US 2008/0300867, IPC: G10L11 / 04), based on the assessment of quantitative indicators of vibration of the vocal fold by analyzing recordings of images of the larynx obtained using endoscopic equipment during time for speech reproduction, and analysis of the waveform of the acoustic signal obtained using sound recording devices.
  • the analytical processing of the acoustic signal is carried out using software and hardware and methods for calculating indicators characterizing including Jitter effect, Flicker effect, turbulent noise level.
  • the objective of the invention is the creation of a new method and hardware-software complex (system) for assessing the physiological parameters of the sound of the vocal folds by processing the parameters of the functional state of the vocal folds and displaying these results in a clear and intuitive way.
  • the technical result is to increase the reliability of determining the risk of any
  • the results of visualization of the indicators of the functional state of the vocal folds are presented in a form accessible for perception by a person who does not have special medical training.
  • Indicators of the functional state of the vocal folds can be presented in the form of graphic images or in combination with text information that does not require a medical education to understand.
  • the hardware-software complex (system) for determining the risk of developing an individual’s disease by his voice includes an individual’s terminal device with an individual voice recording module located in it, a voice recording recording control module configured to select a sampling frequency and duration recording a voice signal, a computing module configured to translate the recorded voice signal from analog to digital signal, the module from the display of information on the monitor of the terminal device of an individual obtained from the voice signal analysis unit, configured to determine for the recorded voice signal at least one parameter from the group characterizing the Jitter effect and / or the Shimmer effect ) and / or physiological properties of the vocal folds and / or noise level in the voice signal and a parameter characterizing the nonlinearity of the voice signal with subsequent construction of the vector in the N-dimensional space of the voice signal parameters the individual, where N is the number of groups used, and by determining the posterior probability of the vector being preliminarily formed in multidimensional space for norm and pathology by calculating probability density functions for norm and pathology.
  • the voice signal analysis unit is configured to form a multidimensional space for norm and pathology using aggregating functions for each group of parameters.
  • the voice signal analysis unit may be located in the terminal device of the individual.
  • the voice analysis unit the signal can be located on the remote access server, while the hardware-software complex further comprises an Internet connection module, which is located in the terminal device of the individual and is configured to receive and transmit a digital signal to the voice signal analysis unit.
  • the voice signal analysis unit includes a database with probability density distribution functions for voice signals in normal and pathological conditions.
  • An individual uses a mobile phone, smartphone, personal computer, laptop, tablet computer as a terminal device, and the voice signal analysis unit is configured to calculate parameters on x86, x64, ARM, MIPS platforms using the following operating systems: Windows, Linux, MacOS family, iOS, Android.
  • the computing module is configured to generate a voice signal from the recorded continuous speech by processing it by extracting individual stressed vowels from the continuous speech.
  • the method of determining the risk of developing an individual’s disease by his voice using a hardware-software complex includes recording an individual’s voice signal, consisting of a set of vowels, or forming the said voice signal from recorded continuous speech, followed by its analysis, including determining for a recorded voice signal at least one parameter from a group characterizing the Jitter effect and / or the Shimmer effect and / or physiologists properties of the vocal folds and / or noise level in the vocal signal and non-linearity of the vocal signal with subsequent construction of the vector of the N-dimensional space of the individual voice signal parameters, where N is the number of groups used and the posterior probability of the resulting vector for belonging to pre-formed multidimensional spaces for the norm and pathology by calculating the probability density function for the norm and pathology, while forming a multidimensional space for the norm and pathology in the presence of more than one parameter in the group is carried out using aggregating functions, which are calculated for each group of parameters.
  • An individual’s voice signal is recorded using a microphone, and the recorded signal is sent to the voice signal analysis unit located in the terminal device of the individual and / or on the remote server.
  • An analysis of an individual's voice signal is carried out using a hardware-software complex made on x86, x64, ARM, MIPS platforms using the families of operating systems: Windows, Linux, MacOS, iOS, Android.
  • the formation of the voice signal from the recorded continuous speech is carried out on the computing module of the terminal device of the individual by processing it by extracting individual stressed vowels from the continuous speech.
  • the number of vowels is selected at least two, one of which is closed, the second is open, and the duration of vowels is at least five seconds.
  • the total duration of the vowel sound in the set, composed of the selected fragments from continuous speech is at least 10 s.
  • Aggregate functions are determined using the principal component method.
  • N-dimensional spaces for norm and pathology is carried out using databases of sound signals of individual voices in norm and pathology, respectively.
  • An individual's voice signal is recorded in the form of a sound wave of the pulse-code modulation format, "Mono", with a sampling frequency of not less than 16 kHz.
  • the method provides for the re-recording of an individual's voice signal and its analysis to obtain parameters that are compared with previously obtained parameters with the determination of the level of deviation, which is used to judge the dynamics of the probability of illness of the vocal folds of an individual.
  • the parameters of the Jitter effect are obtained by determining the fundamental frequency from the recorded voice signal of the track, followed by analysis of the fundamental frequency oscillations.
  • the parameters of the “Shimmer” effect are obtained by determining the track of maximum amplitudes on the periods of the fundamental tone, followed by analysis of fluctuations in the amplitude characteristics of the signal.
  • the parameters characterizing the physiological properties of the vocal folds are obtained by reverse filtering the voice signal, followed by analysis of the remainder signal.
  • the parameters of the noise level in a voice signal are determined at intervals of the fundamental tone. Parameters characterizing the nonlinearity of the voice signal are obtained by constructing the phase space of the voice signal.
  • parameters characterizing the effect of “Jitter” use the average absolute value of the effect of “Jitter” (Mean absolute Jitter), and / or the standard deviation of the fundamental frequency (Standard deviation of F0 contour), and / or voice frequency range (Phonatory frequency Range), and / or the Pitch perturbation Factor, and / or the relative value of the “Jitter” effect, expressed as% (Jitter (%)), and / or the Pitch Perturbation Quotient ), and / or a smoothed pitch perturbation factor (Smoothed Pitch Pertur bation Quotient), and / or Relative Average Perturbation.
  • parameters characterizing the effect of "Trembling additionally use a short-term change in the effect of "Trembling” (Short term Jitter Estimation).
  • parameters characterizing the noise level in the intervals of the fundamental tone use the parameter characterizing the level of turbulent noise in the period of the fundamental tone (Turbulent noise index (TNI)) and / or the parameter characterizing the degree of collapse of the vocal folds (Soft phonation index (SPI)), and / or an indicator of the noise level relative to the level of the voiced component (Voice turbulence index (VTI)), and / or the ratio of the harmonic component of the signal to the non-harmonic component (Harmonic to Noise Ratio (HNR)), and / or the ratio of the excitation energy to the noise energy (Glottal to Noise Excitation Ratio (G NER)).
  • TTI the parameter characterizing the degree of collapse of the vocal folds
  • SPI Soft phonation index
  • VTI voice turbulence index
  • HNR Harmonic to Noise Ratio
  • G NER Average to Noise Excitation Ratio
  • the parameters use the level of turbulent noise (Glottal to Noise Distribution Ratio), which is determined as follows: the signal in the format of pulse-code modulation, "Mono", with a sampling frequency of 16 kHz, which determines the track of the fundamental frequency, is input; after that, the input signal is back-filtered (calculation of the residual signal), then the cochlear spectrum of the residual signal is calculated, the spectral energy of the residual signal is weighed in the range from 1.5 kHz to 2 kHz using using average energy in this frequency range, then the spectral energy of the remainder signal is weighed in the fundamental frequency range using the average energy in the range from the minimum fundamental frequency to the maximum fundamental frequency, based on the results of the obtained values, the ratio of weighted energies is determined and the distribution of the energy ratio is obtained by plotting a histogram.
  • the level of turbulent noise Glottal to Noise Distribution Ratio
  • the Shannon entropy method and / or the Repier entropy method and / or the value of the first minimum of the information function (Value of First Minimum of Mutual Information Function), and / or the signal periodicity indicator (Recurrent period density entropy); and / or an indicator obtained as a result of signal analysis with the exception of the internal trend (Detrended Fluctuation Analysis), and / or an indicator obtained as a result of signal analysis by the Taken's Estimator method, and / or an indicator obtained as a result of empirical decomposition of the signal into levels ( Empirical Mode Decomposition Excitations Ratios).
  • FIG. 1 shows a variant of the hardware architecture of the inventive system, according to which, the analysis unit is located in the cloud infrastructure
  • FIG. 2 is a block diagram of a system implementation
  • FIG. 3 schematically shows the algorithm of the learning process of the system
  • FIG. 4 - 1 1 show the results of the steps for determining the level of turbulent noise of a voice source, in particular, in FIG. 4 is a fragment of a speech signal
  • FIG. 5 is a pitch track
  • FIG. 6 shows a signal - remainder, in FIG. 7 is a cochlear spectrum of a residual signal
  • FIG. 8 weighted energy of the residual signal in the range of 1.5-2.5 kHz, FIG.
  • FIG. 9 shows the weighted energy of the residual signal in the range from minimum to maximum frequency of the fundamental tone of the voice signal
  • FIG. 10 is the ratio of the weighted energies shown in FIG. 9 and FIG. 8, in FIG. 1 1 shows a spectrogram of the distribution of the noise level
  • FIG. 12 is a flowchart of an algorithm for calculating the turbulent noise level of a voice source
  • FIG. 13 schematically shows an algorithm for implementing the analysis unit of the proposed method
  • FIG. 14-15 are a diagram showing the results of assessing the likelihood of presence of diseases of the vocal folds on a user terminal device, in particular in FIG. 14 shows a variant of displaying information in the form of an increment of parameters relative to the previous test, FIG. 15 shows a variant of displaying information in the form of absolute parameter values
  • FIG. 16 is a schematic representation of the information output by the information display module before testing an individual; FIG. 17 - before starting recording a vowel, in FIG. 18 after recording all vowels.
  • Database - a set of independent materials presented in an objective form on a digital medium, systematized in this way, so that these materials can be found and processed using an electronic computer (computer).
  • PCM Pulse code modulation
  • Eng. Pulse Code Modulation PCM
  • PCM Pulse code modulation
  • a method for diagnosing a disease of the vocal folds can be implemented using the system shown in Fig.1-2.
  • the system contains the following modules: 1 — information display module; 2 - control module; 3 - module recording sound (voice signal of the individual); 4— network connection module; 5— computing module, which includes a processor device and all the necessary subsystems for the full functioning of blocks 1-4; 6 - an external interface to the "cloud" service, which includes a set of servers and virtual machines based on the x32, x64, ARM platform, supporting the following families of operating systems: Windows, Linux, MacOS, iOS, Android.
  • client application module 5 is executed on the platforms x32, x64, ARM, with support for the operating systems families Windows, Linux, MacOS, iOS, Android, then it is possible to fully install software that implements the algorithm of the proposed method (see figure 2), into this module, which eliminates the need for a cloud service and module 4.
  • Modules 1-5 can be implemented on the basis of any devices with these functions, including personal terminal devices of an individual, for example, a mobile phone, smartphone, personal computer, laptop, tablet computer, etc.
  • the system contains a client application 7 (see Fig. 2) that implements a graphical interface for user interaction; external interface 6, in the case of cloud architecture, a remote service can be used as an interface; analysis unit 8, consisting of three main elements: module 9, which is a database containing probability density functions for voices normal (characterized by the absence of any diseases of the vocal folds) and pathology (characterized by the presence of a functional or organic disorder of the vocal folds),
  • YU signal analysis module 10 which calculates the signal parameters for the subsequent classification of the signal
  • statistics module 11 which classifies the signal according to the parameters obtained from the analysis module 10 for the probability of norm / pathology. If the hardware of the client application meets the above requirements, then block 8 can be integrated into the client application.
  • the method is as follows.
  • a software module that implements the algorithm of the proposed method is downloaded to an individual’s personal device, for example, a telephone, or to a cloud service, for example, Microsoft Windows Azure.
  • the analysis unit 8 of the recorded signal that implements the analytical part of the proposed method can be embedded both in the terminal device of the individual and can be located in remote access, for example, on the server of the organization serving the terminal devices via the Internet.
  • the user launches the software module and records the voice signal for the purpose of its subsequent analysis by the hardware-software complex.
  • the terminal device must support the recording format of the voice signal, with a sampling frequency of 16 kHz.
  • vowel segments of speech are selected, for example, by the method described in (“Analysis and automatic segmentation of a speech signal”, A. Tsyplikhin, thesis of the candidate of technical sciences, 2006). Moreover, to assess the likelihood of the disease, it is necessary to accumulate the total duration of the segments of the order of 10 seconds for each type of vowel.
  • the length of the voice recording is about 5 seconds for each type of vowel.
  • the recorded signals are transmitted to the data analysis unit, where the received signal is analyzed according to the algorithm shown in FIG. 13.
  • the incoming audio signal is subjected to preliminary analysis, which determines the signal balance, frequency track the pitch and the track of the amplitudes of the signal over the periods of the pitch (the method of determination is presented in more detail below), on the basis of which the groups of parameters characterizing are calculated: the “Jitter” effect and / or the “Flicker” effect and / or the level of turbulent noise in the voice signal and / or physiological properties of the vocal folds and non-linearity of the voice signal.
  • the following is a description of the operation of the system using five groups of parameters.
  • the main component is calculated for each of the groups of parameters.
  • the calculation of the probability density distribution functions is carried out at the stage of training the system, which is a preliminary step before the replication of the system (hardware and software complex) according to the scheme shown in FIG. 3.
  • oS is the main component for the parameters characterizing the "Flicker” effect (S)
  • oJ is the main component for parameters characterizing the "Jitter” effect (J)
  • oN is the main component for the parameters characterizing the level of turbulent noise (N)
  • oG is the main component for the parameters characterizing the parameters of the voice source (G)
  • oP is the main component for the parameters characterizing the nonlinearity of the phonation process (P).
  • the posterior probability of the obtained five-dimensional vector belongs to the probability density distribution function for voices in normal and to the probability density distribution function for voices in pathology.
  • This measure can be calculated, for example, using the method described in the literature (“The Optimality of Naive Bayes”, H. Zhang, American Association for Artificial Intelligence, 2004); (Caruana, R .; Niculescu-Mizil, A. (2006). "An empirical comparison of supervised learning algorithms.” Proceedings of the 23rd international conference on Machine learning).
  • the likelihood of vocal cord pathology can be calculated, for example, using the logistic regression algorithm (Hosmer, David W .; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd ed.). Wiley), having previously conducted joint training of the system and this algorithm.
  • logistic regression algorithm Hosmer, David W .; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd ed.). Wiley
  • the total information containing the data obtained after analyzing the voice signal is displayed on the terminal device of the user.
  • Data can be presented in the form of indicators showing the functional state of the vocal folds and voice quality.
  • the absolute value of the parameter (see FIG. 16) and its increment compared to the previous value (see FIG. 15) are alternately displayed.
  • the following parameters are used as output parameters: the main component of the group of parameters describing the “Flicker” effect, which is displayed as a parameter called “respiration stability”; the main component of the group of parameters describing the “Jitter” effect, which is displayed with the name “Voice jitter,” the main component of the group of parameters that describe the level of turbulent noise, which is displayed with the name “Voice hoarseness”, the main component of the group of parameters that describe the non-linearity of the oscillation process, which display with the name "Harmony of voice”, the probability of the presence of pathology of the vocal folds of the individual, which is displayed with the name "Probability of the presence of pathology.”
  • the purpose of the system learning process is to identify the main components for each of the groups of parameters and to obtain the values of the probability density functions for voices in normal and pathological conditions. Training systems are produced on the existing database of votes in norm and pathology. In this case, the database must satisfy the following conditions:
  • the database should include an individual’s voice recording, presented in the form of a PCM sound wave, “Mono”, with a sampling frequency of not less than 16 kHz; Also, the database may contain records in a format that can be converted to the desired format without losing data, for example: * .wav, * .nsp, etc.
  • the database must contain data on what category the recording of an individual’s voice belongs to: norm / pathology; data on the gender of the individual: husband / wife; sampling rate at which voice recording is made; data on what sound the voice recording refers to: / a: /, / o: /, / i: /, / and: /.
  • the invention can be used as commercially available databases, for example, The Disordered Voice Database of Massachusetts Eye and Ear Infirmary (MEEI) Voice and Speech Lab
  • a preliminary analysis is performed (a detailed description of which is presented below), after which the parameters related to one or another group characterizing: the effect of “Shake” and / or the “Flicker” effect, and / or the level of turbulent noise in the voice signal, and / or the physiological properties of the vocal folds and non-linearity of the voice signal.
  • the following is a description of the learning process using five groups of parameters.
  • a reliable result of assessing the probability of risk of vocal cord disease can be obtained by using a smaller number of groups of parameters (from two to five) characterizing the above effects (which are used both in training the system and in the process of implementing the method).
  • oS is the main component for the parameters characterizing the “Flicker” effect (8)
  • oJ is the main component for the parameters characterizing the “Flicker” effect ( t )
  • oN is the main component for parameters characterizing the level of turbulent noise (N)
  • oG is the main component for parameters characterizing the parameters of the voice source (G)
  • oP is the main component for parameters characterizing the nonlinearity of the phonation process (P).
  • the determination of the frequency of the fundamental tone can be implemented by known methods: L. R. Rabiner, M. J. Cheng, A. E. Rosenberg and C. A. McGonegal, “A comparative perfomance study of several pitch detection algorithms,” IEEE Trans. Audio Electroacoust., Pp. 399-417, 1976 .; D. Gerhard, “Pitch extraction and fundamental frequency: history and current techniques,” University of Regina, Saskatchewan, Canada, 2003 .; A. De Cheveigne, “International Conference on Acoustics,” in Pitch perception models from origins to today, Kyoto, 2004 .; V. N. Sorokin and V. P. Trifonenkov, "Autocorrelational Analysis of Speech Signal," Vol. 3, N "42, 1996.
  • the invention can be implemented using the following algorithms:
  • ITU G.726 (“GS Recommendation G.726," [On the Internet]. Http://www.itu.int/rec/T- REC-G.726 / en.), YIN (A. De Cheveigne and H Kawahara, “ ⁇ , a fundamental frequency estimator for speech and music,” JASA, 1 1 1, pp. 1917-1930, 2002.), TWIN (A. I. Tsyplikhin, “Impulse analysis of a voice source,” Acoustic Journal, T. 53, pp. 119-133, 2007.).
  • the track of maximum signal amplitudes on the periods of the fundamental tone is preliminarily calculated.
  • One of the possible methods for isolating the track of maximum signal amplitudes is described in TWIN (A. I. Tsyplikhin, “Analysis of Impulses of a Voice Source,” Acoustic Journal, vol. 53, pp. 119-133, 2007.)
  • the remainder signal is calculated (Fig. 6) (“INITIAL CONDITIONS IN THE PROBLEM OF VOICE SOURCE IDENTIFICATION”, V.N. Sorokin, A.A. Tananykin, Information Processes, Volume 10, ⁇ , page 1 - 10) by reverse filtering the original signal (D. Wong, J. Markel, A. Gray, "Least Squares Glottal Inverse Filtering from the Acoustic Speech Waveform", IEEE Trans. Acoust., Speech, Signal Process., Vol. ASSP- 27, No. 4, pp. 350-355, 1979).
  • the main parameters of the “Jitter” effect are based on the pitch track and can be calculated using the formulas presented in Table 1.
  • Fj is the fundamental frequency with the i-th number obtained from the fundamental frequency track
  • F0_av is the average fundamental frequency over the entire fundamental frequency track.
  • a parameter can be used that determines the short-term change in the “Short term Jitter Estimation” effect, the calculation method of which is presented in Voice Pathology Detection Based on Short-Term Jitter Estimations in Running Speech ”, M. Vasilakis, Y. Stylianou, Folia Phoniatr Logop 509-T1.
  • the noise level determines the quality of the signal and voice in general, in particular, the presence of wheezing and hoarseness of the voice.
  • the noise level in the signal is a good indicator for determining the presence of pathology of the larynx.
  • the invention proposes to use one or more of the following parameters to characterize the noise level in the signal.
  • Parameter characterizing the level of turbulent noise in the period of the fundamental tone (Turbule where N is the pitch track, R (tn, Tn) is the normalized autocorrelation function.
  • the TNI parameter can be determined, for example, by the method presented in P. Mitev and S. Hadjitodorov, “A method for turbulent noise estimation in voiced signal,” Med Biol Eng Comput., Vol. 38, N ° 6, pp. 625-631, 2000; SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105, KayPentax.
  • the parameter characterizing the degree of collapse of the vocal folds is determined by the ratio of harmonic energy in the frequency range from 70Hz to 1600Hz to harmonic energy in the frequency range from 1600Hz to 4500Hz (S. An Xue, “Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications "2001;” SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105 ", KayPentax).
  • the noise level indicator relative to the level of the voiced component is a parameter characterized by the average ratio of the non-harmonic signal energy in the frequency range from 2800Hz to 5800Hz to harmonic energy in the frequency range from 70Hz to 4500Hz.
  • the level of harmonic energy must be calculated in the region with the minimum level of fluctuation of the harmonic frequency, signal amplitude and minimum energy of the subharmonic component of the signal.
  • the definition of this parameter can be implemented according to the methodology presented in the following information sources: S. An Xue, “Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications” 2001; V. D. Nicola, M. I. Fiorella, D. A.
  • the ratio of the harmonic component of the signal to the non-harmonic component is a parameter that characterizes relative noise level in the speech signal.
  • HNR Harmonic to Noise Ratio
  • the ratio of the excitation energy to the noise energy is a parameter that characterizes the quality of the speech signal.
  • the parameter is calculated as the maximum correlation coefficient between the Hilbert envelopes of the speech signal in different frequency ranges.
  • Voice source turbulent noise level this parameter characterizes the ratio of the voice source energy to the turbulent noise energy.
  • the parameter calculation algorithm is shown in FIG. 12.
  • At the input of the terminal module of the individual serves a voice signal with a sampling frequency of 16 kHz (Fig. 4). After that, a search is made for the frequency track of the fundamental tone of the input signal (Fig. 5) and the remainder signal is obtained by reverse filtering, Fig. 6.
  • the cochlear spectrum (FIG. 7) is calculated by the method described in the Up Efficient Implementation of the Patterson-Holdsworth Auditory Filter I3ank, M. Slaney, Apple Computer Technical Report # 35 Perception Group — Advanced Technology Group.
  • Signal periodicity index (Recurrent period density entropy) - a parameter that is calculated based on the phase space of the signal and characterizes the frequency of the signal.
  • the definition of this parameter can be implemented according to the methodology presented in NONLINEAR, BIOPHYSICALLY-INFORMED SPEECH PATHOLOGY DETECTION Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK the exception of the internal trend (Detrended Fluctuation Analysis) can be determined by the methodology presented in NONLINEAR, BIOPHYSICALLY-INFORMED SPEECH PATHOLOGY DETECTION Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK.
  • the value of the first minimum of the information function is a parameter characterizing the phase shift of the signal by 180 °.
  • the definition of this parameter can be implemented according to the methodology presented in information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics »Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria.
  • the indicator obtained as a result of signal analysis by the Taken method (Taken's Estimator) characterizes the correlation dimension of the signal.
  • Shannon Entropy is a measure of the uncertainty or unpredictability of a signal.
  • the definition of this parameter can be implemented according to the methodology presented in the information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics * Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria.
  • Renyi Entropies is a parameter that determines the quantitative diversity of signal uncertainty.
  • the definition of this parameter can be implemented according to the methodology presented in the Information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics * Patricia Henriquez, Jesiis B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria.
  • the glottis quotient opening coefficient characterizes random changes in the period during which the glottis is open.
  • the definition of this parameter can be implemented according to the methodology presented in the Journal of the Royal Society Interface Electronic Supplementary Material, “Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity * Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige.
  • the Vocal Fold Excitation Ratios characterize the energy level of the impulses of the voice source in comparison with the level of turbulent noise.
  • the definition of this parameter can be implemented according to the methodology presented in the Journal of the Royal Society Interface Electronic Supplementary Material, “Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity "Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige.
  • Parameters of the single-mass model of vocal folds - parameters characterizing the mass and stiffness of the vocal folds. These parameters can be obtained by the method described in P. Gomez-Vilda, R. Fernandez-Baillo, V. Rodllar-Biarge, VN lluis, A. Alvarez-Marquina, LM Mazaira-Fernandez, R. Martinez-Olalla and JI Godino -Llorente, Glottal source biomedical signature for voice pathology detections Speech Communication, 2008.
  • the inventive system was made based on a cloud service Windows
  • the user starts the system by pressing the appropriate button on the smartphone.
  • the system displays information about the testing process and provides the user with the opportunity to start testing by clicking the "Start Testing” button (see Fig. 17).
  • the system displays the vowel sound / a: / as text and allows the user to start recording the displayed vowel sound (see Fig. 18).
  • the user pronounces this sound until the system unlocks the “Record” button and changes the information about the sound that the user needs to pronounce.
  • the user continues to record all the necessary sounds (/ o: /, / i: /, / and: /). Then the user clicks the “Next” button (see Fig. 18), thereby transferring all recorded files to the analysis module.
  • the system uses the option of analysis of continuous speech, then the system is launched in the background, which is activated, for example, at the time of an individual's phone call.
  • the terminal device of the individual records the voice signal, after which it is segmented with the allocation of sections of vowels. Upon reaching a total duration of 10 seconds for each vowel sound, the terminal device transmits data to the analysis module.
  • the analysis module receives all voice signals recorded by the user, which are either recorded on the terminal device in the desired format, or converted by the computing module of the terminal device to the format of a single-channel signal with a frequency of 16 kHz (see Fig. 4).
  • the analysis module performs a preliminary analysis of each received signal, during which it calculates the track of the frequency of the fundamental tone (see Fig. 5), the track of the maximum amplitudes of the signal on the periods of the fundamental tone and the signal balance (see Fig. 6).
  • Oscillation of the amplitude relative to the average calculated on three periods of the fundamental tone
  • Oscillation of the amplitude on the average calculated on five periods of the fundamental tone
  • Oscillation of the amplitude on the average calculated on eleven periods of the fundamental tone
  • Relative value of the effect " Flicker ”, expressed in% Parameter characterizing the degree of collapse of the vocal folds
  • Parameter characterizing the level of turbulent noise in the period of the fundamental tone The ratio of the harmonic component of the signal to the non-harmonic component,
  • the ratio of the excitation energy to the noise energy, Relative value of the “Jitter” effect expressed in%
  • Oscillation coefficient of the fundamental frequency calculated for three periods of the fundamental tones
  • the coefficient of oscillation of the frequency of the fundamental tone calculated for five periods of the fundamental tone
  • the coefficient of oscillation of the frequency of the fundamental tone calculated
  • the analysis module transmits the resulting data to the terminal device of the individual, where they are displayed to the individual in an understandable and easily interpreted form (see Fig. 14-15). Using the data provided by the system, the individual concludes that the condition of the vocal folds is close to normal and there is no need to visit a specialist doctor.
  • the inventive method and system for implementing the method allows monitoring the functional state of the vocal folds of an individual at any time convenient for him, without requiring the presence of a specialist doctor and makes it possible to undergo regular “screening” examinations in order to determine changes in the individual’s voice.
  • This approach allows you to save money and time of the individual, while increasing the likelihood of early detection of pathologies of the vocal folds or other diseases, a marker of which may be a change in the state of the vocal folds.

Landscapes

  • Health & Medical Sciences (AREA)
  • Engineering & Computer Science (AREA)
  • Life Sciences & Earth Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • General Health & Medical Sciences (AREA)
  • Public Health (AREA)
  • Physics & Mathematics (AREA)
  • Signal Processing (AREA)
  • Heart & Thoracic Surgery (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Epidemiology (AREA)
  • Biophysics (AREA)
  • Pathology (AREA)
  • Biomedical Technology (AREA)
  • Human Computer Interaction (AREA)
  • Medical Informatics (AREA)
  • Molecular Biology (AREA)
  • Surgery (AREA)
  • Animal Behavior & Ethology (AREA)
  • Veterinary Medicine (AREA)
  • Measurement Of The Respiration, Hearing Ability, Form, And Blood Characteristics Of Living Organisms (AREA)
  • Telephonic Communication Services (AREA)

Abstract

The invention relates to medicine and is intended for examining the functional status of the vocal cords. The aim of the invention is to create a novel method and a software and hardware system for evaluating the physiological parameters of vocal cord vibration by means of processing functional status parameters of the vocal cords and presenting the results obtained in a clear and easily comprehensible form. A software and hardware complex for determining an individual's risk of developing disorders on the basis of said individual's voice comprises a terminal device for the individual, which contains a module for recording the individual's voice signal, a module for controlling the recording of the voice signal, which is capable of selecting a sampling frequency and duration for the recording of the voice signal, a computation module, which is capable of converting the recorded voice signal from an analogue signal into a digital signal, and a module for displaying on the screen of the terminal device for the individual information obtained from a voice signal analysis unit.

Description

СПОСОБ ОПРЕДЕЛЕНИЯ РИСКА РАЗВИТИЯ ЗАБОЛЕВАНИЙ ИНДИВИДА ПО ЕГО ГОЛОСУ И АППАРАТНО-ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ  METHOD FOR DETERMINING THE RISK OF THE DEVELOPMENT OF INDIVIDUAL DISEASES BY ITS VOICE AND THE HARDWARE AND SOFTWARE COMPLEX FOR
РЕАЛИЗАЦИИ СПОСОБА Область техники  METHODS OF IMPLEMENTATION
Изобретение относится к медицине и предназначено для исследования функционального состояния голосовых складок. Изобретение также относится к информационным и сетевым технологиям, используемым в медицине, а именно, к электронной информационной системе, обеспечивающей формирование и визуальное отображение на экране терминального устройства индивида (пользователя) системы информации о состоянии его голосовых складок по параметрам голосового сигнала. Заявляемое изобретение представляет собой расширяемый, модифицируемый, модульный и интерактивный инструмент анализа и визуализации функционального состояния голосовых складок, предназначенный для информирования пользователя о текущем состоянии его голоса и вероятности наличия заболевания.  The invention relates to medicine and is intended to study the functional state of the vocal folds. The invention also relates to information and network technologies used in medicine, namely, to an electronic information system that provides the formation and visual display on the screen of a terminal device of an individual (user) of a system of information about the state of his voice folds according to the parameters of the voice signal. The claimed invention is an expandable, modifiable, modular and interactive tool for analysis and visualization of the functional state of voice folds, designed to inform the user about the current state of his voice and the likelihood of a disease.
С помощью заявляемой системы пользователь может осуществлять мониторинг функционального состояния своих голосовых складок с целью ранней диагностики заболеваний гортани и своевременной профилактики хронических заболеваний, связанных с голосовыми складками, а также связанных с частью заболеваний верхних дыхательных путей, нервной системы и других заболеваний, маркером которых может являться изменение состояния голосовых складок.  Using the inventive system, the user can monitor the functional state of their vocal folds with the aim of early diagnosis of diseases of the larynx and timely prevention of chronic diseases associated with the vocal folds, as well as associated with some diseases of the upper respiratory tract, nervous system and other diseases, the marker of which may be change in the state of the vocal folds.
Предшествующий уровень техники  State of the art
За 2008 год было диагностировано более 150 тыс. новых случаев рака гортани: более 8 тыс. - РФ, более 12 тыс. - США и более 28 тыс. в странах Евросоюза. Рак гортани стал причиной более чем 80 тыс. смертей. В течение многих лет остаётся стабильной поздняя диагностика заболевания (60-70% составляют III- IV стадии заболевания), в течении первого года после установления диагноза рака гортани умирают 32,8% больных. Существует еще множество заболеваний влияющих на голос. Около 5% населения имеют различные проблемы с голосом. К группе риска относятся: курильщики, педагоги, экскурсоводы, переводчики, диспетчеры, дикторы, артисты и т.д. Заявляемые способ и система позволяют производить мониторинг функционального состояния голосовых складок и обратить внимание пользователя на необходимость дополнительного обследования. При этом для индивида технология реализована в простой и понятной форме, а вероятность заболевания оценивается по итогам простого речевого теста, который пользователь системы может пройти самостоятельно без привлечения специалиста-фониатра, вне клиники, в удобное для него время. In 2008, more than 150 thousand new cases of laryngeal cancer were diagnosed: more than 8 thousand - of the Russian Federation, more than 12 thousand - of the USA and more than 28 thousand in the countries of the European Union. Laryngeal cancer has caused more than 80 thousand deaths. For many years, the late diagnosis of the disease remains stable (60-70% are III-IV stages of the disease), during the first year after the diagnosis of laryngeal cancer, 32.8% of patients die. There are many more diseases affecting the voice. About 5% of the population have various voice problems. The risk group includes: smokers, teachers, guides, translators, dispatchers, broadcasters, entertainers, etc. The inventive method and system allows to monitor the functional state of the vocal folds and draw the user's attention to the need for additional examination. Moreover, for an individual, the technology is implemented in a simple and understandable form, and the likelihood of a disease is assessed by the results of a simple speech test, which the user of the system can pass independently without involving a phoniatrist specialist, outside the clinic, at a convenient time for him.
Из уровня техники известна диагностика заболеваний горла по итогам оценки изменений голоса, связанных с изменениями колебаний голосовых складок, которые приводят к изменению качества голоса, например, изменению голоса на хриплый, грубый, и т.п. Причиной таких изменений могут быть нарушения процесса колебаний голосовых складок, которые возникают в результате наличия патологии, меняющей поведение складок при фонации.  Diagnosis of throat diseases according to the results of the assessment of voice changes associated with changes in the fluctuations of the vocal folds, which lead to a change in voice quality, for example, a change in voice to hoarse, rough, etc. The reason for such changes may be disturbances in the process of vibrations of the vocal folds, which arise as a result of the presence of a pathology that changes the behavior of the folds during phonation.
Например, известны отдельные методы оценки вероятности заболеваний голосовых складок, основанные на записи голосового сигнала с последующим анализом, базирующемся на исследовании трека частоты основного тона голосового сигнала и получении различных параметров речи, описывающих функциональное состояние голосовых складок индивида. В их числе способ, основанный на исследовании случайных колебаний периода основного тона - эффект «Дрожания» (Jitter) («USE OF PERIODICITY AND JITTER AS SPEECH RECOGNITION FEATURES » D. L. Thomson and R. Chengalvarayan, Speech Processing Group Bell Labs, Lucent Technologies, Naperville, Illinois 60566, USA); способ, основанный на исследовании случайных колебаний амплитуды сигнала на соседних периодах основного тона - эффект «Мерцания» (Shimmer) («Voice Pathology Assessment based on a Dialogue System and Speech Analysis* R. B. Reilly, R. Moran, P. Lacy, Department of Electronic and Electrical Engineering, University College Dublin, Ireland); способ, основанный на исследовании турбулентного шума или уровня шума на периоде основного тона («Harmonics-to-noise ratio as an index of the degree of hoarseness» Yumoto E, Gould WJ, Baer T, J Acoust Soc Am. 1982 Jun;71(6): 1544-9.)  For example, certain methods for assessing the probability of diseases of the vocal folds are known, based on recording a voice signal with subsequent analysis based on the study of the frequency track of the fundamental tone of the voice signal and obtaining various speech parameters that describe the functional state of the individual's voice folds. Among them, a method based on the study of random fluctuations in the pitch period is the Jitter effect (“USE OF PERIODICITY AND JITTER AS SPEECH RECOGNITION FEATURES” DL Thomson and R. Chengalvarayan, Speech Processing Group Bell Labs, Lucent Technologies, Naperville Illinois 60566, USA); a method based on the study of random fluctuations in the amplitude of a signal at adjacent periods of the fundamental tone - the Shimmer effect (Voice Pathology Assessment based on a Dialogue System and Speech Analysis * RB Reilly, R. Moran, P. Lacy, Department of Electronic and Electrical Engineering, University College Dublin, Ireland); method based on the study of turbulent noise or noise level over the period of the fundamental tone ("Harmonics-to-noise ratio as an index of the degree of hoarseness" Yumoto E, Gould WJ, Baer T, J Acoust Soc Am. 1982 Jun; 71 ( 6): 1544-9.)
Однако, несмотря на понимание основных механизмов воспроизведения звуков, оцениваемых критериев, описывающих голосовые условия, не всегда достаточно для получения достоверного результата, касающегося определения отклонений состояния голосовых складок от нормы. Из уровня техники известны также решения, касающиеся диагностики состояния голосовых складок (клинической оценки голоса), основанные на получении серии изображений голосовых складок в процессе фонации с последующим анализом изображений и выявлением нарушений процесса колебаний голосовых складок (Yuling Yan, Kartini Ahmad, Melda Kunduk, Diane Bless. Analysis of Vocal-fold Vibrations from High-Speed Laryngeal Images Using a Hilbert Transform- Based Methodology, Journal of Voice, Volume 19, Issue 2, June 2005, Pages 161-175). However, despite the understanding of the basic mechanisms for reproducing sounds, the evaluated criteria that describe the vocal conditions are not always sufficient to obtain a reliable result regarding the determination of deviations of the state of the vocal folds from the norm. The prior art also knows solutions related to the diagnosis of the state of vocal folds (clinical assessment of voice), based on obtaining a series of images of the vocal folds during the phonation process, followed by image analysis and identification of irregularities in the process of vibrations of the vocal folds (Yuling Yan, Kartini Ahmad, Melda Kunduk, Diane Bless. Analysis of Vocal-fold Vibrations from High-Speed Laryngeal Images Using a Hilbert Transform-Based Methodology, Journal of Voice, Volume 19, Issue 2, June 2005, Pages 161-175).
Однако имеющиеся инструментальные аналитические средства не обеспечивают эффективную обработку большого количества изображений и интерпретацию данных для получения достоверного результата о состоянии исследуемых голосовых складок.  However, the available analytical tools do not provide effective processing of a large number of images and data interpretation to obtain a reliable result on the state of the studied voice folds.
Наиболее близким к заявляемому решению является система и метод анализа голоса для диагностики заболеваний голосовых складок (заявка US 2008/0300867, МПК: G10L11/04), основанные на оценке количественных показателей вибрации голосовой складки посредством анализа записей изображений гортани, полученных с использованием эндоскопического оборудования во время воспроизведения речи, и анализа формы волны акустического сигнала, полученного с использованием звукозаписывающих устройств. При этом аналитическую обработку акустического сигнала осуществляют с использованием программно-аппаратных средств и методик расчета показателей, характеризующих в т.ч. эффект «Дрожания», эффект «Мерцания», уровень турбулентного шума.  Closest to the claimed solution is a system and method of voice analysis for the diagnosis of diseases of the vocal folds (application US 2008/0300867, IPC: G10L11 / 04), based on the assessment of quantitative indicators of vibration of the vocal fold by analyzing recordings of images of the larynx obtained using endoscopic equipment during time for speech reproduction, and analysis of the waveform of the acoustic signal obtained using sound recording devices. In this case, the analytical processing of the acoustic signal is carried out using software and hardware and methods for calculating indicators characterizing including Jitter effect, Flicker effect, turbulent noise level.
Однако для проведения описанного диагностического исследования требуется присутствие врача специалиста и наличие специализированной техники, что значительно ограничивает сферу применения метода и допускает его использование только в рамках специализированных клиник.  However, to carry out the described diagnostic study requires the presence of a specialist doctor and the availability of specialized equipment, which significantly limits the scope of the method and allows its use only in specialized clinics.
Раскрытие изобретения  Disclosure of invention
Задачей изобретения является создание новых способа и программно- аппаратного комплекса (системы) для оценки физиологических параметров звучания голосовых складок посредством обработки параметров функционального состояния голосовых складок и отображения этих результатов в наглядной и интуитивно-понятной форме.  The objective of the invention is the creation of a new method and hardware-software complex (system) for assessing the physiological parameters of the sound of the vocal folds by processing the parameters of the functional state of the vocal folds and displaying these results in a clear and intuitive way.
Техническим результатом, на достижение которого направлено заявленное изобретение, является повышение достоверности определения риска какого-либо  The technical result, the achievement of which the claimed invention is directed, is to increase the reliability of determining the risk of any
з заболевания, симптомом которого является нарушение качества голоса (функционального состояния голосовых складок). При этом результаты визуализации показателей функционального состояния голосовых складок представляются в форме, доступной для восприятия лицом, не имеющим специальной медицинской подготовки. Показатели функционального состояния голосовых складок могут быть представлены в виде графических изображений или в комбинации с текстовой информацией, не требующих медицинского образования для понимания. s diseases, the symptom of which is a violation of voice quality (the functional state of the vocal folds). At the same time, the results of visualization of the indicators of the functional state of the vocal folds are presented in a form accessible for perception by a person who does not have special medical training. Indicators of the functional state of the vocal folds can be presented in the form of graphic images or in combination with text information that does not require a medical education to understand.
Поставленная задача решается тем, что аппаратно-программный комплекс (система) для определения риска развития заболеваний индивида по его голосу включает терминальное устройство индивида с расположенными в нем модулем записи голосового сигнала индивида, модулем управления записью голосового сигнала, выполненным с возможностью выбора частоты дискретизации и длительности записи голосового сигнала, вычислительным модулем, выполненным с возможностью перевода записанного голосового сигнала из аналогового в цифровой сигнал, модулем отображения информации на мониторе терминального устройства индивида, полученной с блока анализа голосового сигнала, выполненного с возможностью определения для записанного голосового сигнала, по крайней мере, одного параметра из группы, характеризующей эффект «Дрожания» (Jitter) и/или эффект «Мерцания» (Shimmer) и/или физиологические свойства голосовых складок и/или уровень шума в голосовом сигнале и параметр, характеризующий нелинейность голосового сигнала с последующим построением вектора в N-мерном пространстве параметров голосового сигнала индивида, где N— количество используемых групп, и определением апостериорной вероятности принадлежности полученного вектора к предварительно сформированным в многомерном пространстве областям для нормы и патологии посредством вычисления функций плотности вероятности для нормы и патологии.  The problem is solved in that the hardware-software complex (system) for determining the risk of developing an individual’s disease by his voice includes an individual’s terminal device with an individual voice recording module located in it, a voice recording recording control module configured to select a sampling frequency and duration recording a voice signal, a computing module configured to translate the recorded voice signal from analog to digital signal, the module from the display of information on the monitor of the terminal device of an individual obtained from the voice signal analysis unit, configured to determine for the recorded voice signal at least one parameter from the group characterizing the Jitter effect and / or the Shimmer effect ) and / or physiological properties of the vocal folds and / or noise level in the voice signal and a parameter characterizing the nonlinearity of the voice signal with subsequent construction of the vector in the N-dimensional space of the voice signal parameters the individual, where N is the number of groups used, and by determining the posterior probability of the vector being preliminarily formed in multidimensional space for norm and pathology by calculating probability density functions for norm and pathology.
При наличии более одного параметра в группе, блок анализа голосового сигнала выполнен с возможностью формирования многомерного пространства для нормы и патологии с применением агрегирующих функций для каждой группы параметров.  If there is more than one parameter in the group, the voice signal analysis unit is configured to form a multidimensional space for norm and pathology using aggregating functions for each group of parameters.
Блок анализа голосового сигнала может быть расположен в терминальном устройстве индивида. В другом варианте исполнения блок анализа голосового сигнала может быть расположен на сервере удаленного доступа, при этом аппаратно-программный комплекс дополнительно содержит модуль подключения к сети Интернет, который расположен в терминальном устройстве индивида и выполнен с возможностью приема - передачи цифрового сигнала в блок анализа голосового сигнала. The voice signal analysis unit may be located in the terminal device of the individual. In another embodiment, the voice analysis unit the signal can be located on the remote access server, while the hardware-software complex further comprises an Internet connection module, which is located in the terminal device of the individual and is configured to receive and transmit a digital signal to the voice signal analysis unit.
Блок анализа голосового сигнала включает БД с функциями распределения плотности вероятности для голосовых сигналов в норме и патологии.  The voice signal analysis unit includes a database with probability density distribution functions for voice signals in normal and pathological conditions.
В качестве терминального устройства индивида используют мобильный телефон, смартфон, персональный компьютер, ноутбук, планшетный компьютер, а блок анализа голосового сигнала выполнен с возможностью вычисления параметров на платформах х86, х64, ARM, MIPS с использованием операционных систем: семейство Windows, Linux, MacOS, iOS, Android.  An individual uses a mobile phone, smartphone, personal computer, laptop, tablet computer as a terminal device, and the voice signal analysis unit is configured to calculate parameters on x86, x64, ARM, MIPS platforms using the following operating systems: Windows, Linux, MacOS family, iOS, Android.
Вычислительный модуль выполнен с возможностью формирования голосового сигнала из записанной слитной речи посредством ее обработки путем выделения из слитной речи отдельных ударных гласных.  The computing module is configured to generate a voice signal from the recorded continuous speech by processing it by extracting individual stressed vowels from the continuous speech.
Поставленная задача решается также тем, что способ определения риска развития заболеваний индивида по его голосу с использованием аппаратно- программного комплекса включает запись голосового сигнала индивида, состоящего из набора гласных звуков, или формирование упомянутого голосового сигнала из записанной слитной речи, с последующим его анализом, включающим определение для записанного голосового сигнала, по крайней мере, одного параметра из группы, характеризующей эффект «Дрожания» (Jitter) и/или эффект «Мерцания» (Shimmer) и/или физиологические свойства голосовых складок и/или уровень шума в голосовом сигнале и нелинейность голосового сигнала с последующим построением вектора N-мерного пространства параметров голосового сигнала индивида, где N - количество используемых групп и вычислением апостериорной вероятности полученного вектора на принадлежность к предварительно сформированным многомерным пространствам для нормы и патологии посредством вычисления функции плотности вероятности для нормы и патологии, при этом формирование многомерного пространства для нормы и патологии при наличии более одного параметра в группе осуществляют с применением агрегирующих функций, которые вычисляют для каждой группы параметров. Запись голосового сигнала индивида осуществляют с использованием микрофона, при этом записанный сигнал направляют в блок анализа голосового сигнала, расположенный в терминальном устройстве индивида и/или на удаленном сервере. Анализ голосового сигнала индивида осуществляют с использованием программно-аппаратного комплекса, выполненного на платформах х86, х64, ARM, MIPS с использованием семейств операционных систем: Windows, Linux, MacOS, iOS, Android. The problem is also solved by the fact that the method of determining the risk of developing an individual’s disease by his voice using a hardware-software complex includes recording an individual’s voice signal, consisting of a set of vowels, or forming the said voice signal from recorded continuous speech, followed by its analysis, including determining for a recorded voice signal at least one parameter from a group characterizing the Jitter effect and / or the Shimmer effect and / or physiologists properties of the vocal folds and / or noise level in the vocal signal and non-linearity of the vocal signal with subsequent construction of the vector of the N-dimensional space of the individual voice signal parameters, where N is the number of groups used and the posterior probability of the resulting vector for belonging to pre-formed multidimensional spaces for the norm and pathology by calculating the probability density function for the norm and pathology, while forming a multidimensional space for the norm and pathology in the presence of more than one parameter in the group is carried out using aggregating functions, which are calculated for each group of parameters. An individual’s voice signal is recorded using a microphone, and the recorded signal is sent to the voice signal analysis unit located in the terminal device of the individual and / or on the remote server. An analysis of an individual's voice signal is carried out using a hardware-software complex made on x86, x64, ARM, MIPS platforms using the families of operating systems: Windows, Linux, MacOS, iOS, Android.
Формирование голосового сигнала из записанной слитной речи осуществляют на вычислительном модуле терминального устройства индивида посредством ее обработки путем выделения из слитной речи отдельных ударных гласных.  The formation of the voice signal from the recorded continuous speech is carried out on the computing module of the terminal device of the individual by processing it by extracting individual stressed vowels from the continuous speech.
При записи голосового сигнала индивида, состоящего из набора гласных звуков, количество гласных звуков выбирают не менее двух, один из которых - закрытый, второй - открытый, при этом продолжительность гласных звуков - не менее пяти секунд.  When recording an individual's voice signal, consisting of a set of vowels, the number of vowels is selected at least two, one of which is closed, the second is open, and the duration of vowels is at least five seconds.
При формировании голосового сигнала из записанной слитной речи, суммарная длительность гласного звука в наборе, составленная из выделенных фрагментов из слитной речи, составляет не менее 10 с.  When forming a voice signal from recorded continuous speech, the total duration of the vowel sound in the set, composed of the selected fragments from continuous speech, is at least 10 s.
Агрегирующие функции определяют с использованием метода главных компонент.  Aggregate functions are determined using the principal component method.
Для получения N-мерного пространства используют функцию распределения плотности вероятности.  To obtain the N-dimensional space using the probability density distribution function.
Формирование N-мерных пространств для нормы и патологии осуществляют с использованием баз данных звуковых сигналов голосов индивидов в норме и патологии, соответственно.  The formation of N-dimensional spaces for norm and pathology is carried out using databases of sound signals of individual voices in norm and pathology, respectively.
Запись голосового сигнала индивида производят в виде звуковой волны формата импульсно - кодовой модуляции, «Моно», с частотой дискретизации не меньше чем 16кГц.  An individual's voice signal is recorded in the form of a sound wave of the pulse-code modulation format, "Mono", with a sampling frequency of not less than 16 kHz.
В способе предусмотрена повторная запись голосового сигнала индивида и ее анализ с получением параметров, которые сравнивают с ранее полученными параметрами с определением уровня отклонения, по которому судят о динамике вероятности заболевания голосовых складок индивида. The method provides for the re-recording of an individual's voice signal and its analysis to obtain parameters that are compared with previously obtained parameters with the determination of the level of deviation, which is used to judge the dynamics of the probability of illness of the vocal folds of an individual.
Параметры эффекта «Дрожания» (Jitter) получают посредством определения из записанного голосового сигнала трека частоты основного тона с последующим анализом колебаний частоты основного тона. Параметры эффекта «Мерцания» (Shimmer) получают посредством определения трека максимальных амплитуд на периодах основного тона с последующим анализом колебаний амплитудных характеристик сигнала. Параметры, характеризующие физиологические свойства голосовых складок получают посредством обратной фильтрации голосового сигнала с последующим анализом сигнала остатка. Параметры уровня шума в голосовом сигнале определяют на интервалах основного тона. Параметры, характеризующие нелинейность голосового сигнала получают посредством построения фазового пространства голосового сигнала.  The parameters of the Jitter effect are obtained by determining the fundamental frequency from the recorded voice signal of the track, followed by analysis of the fundamental frequency oscillations. The parameters of the “Shimmer” effect (Shimmer) are obtained by determining the track of maximum amplitudes on the periods of the fundamental tone, followed by analysis of fluctuations in the amplitude characteristics of the signal. The parameters characterizing the physiological properties of the vocal folds are obtained by reverse filtering the voice signal, followed by analysis of the remainder signal. The parameters of the noise level in a voice signal are determined at intervals of the fundamental tone. Parameters characterizing the nonlinearity of the voice signal are obtained by constructing the phase space of the voice signal.
При этом в качестве параметров, характеризующих эффект «Дрожания», используют усреднённое абсолютное значение эффекта «Дрожания» (Mean absolute Jitter), и/или стандартное отклонение частоты основного тона (Standard deviation of F0 contour), и/или голосовой диапазон частот (Phonatory frequency Range), и/или фактор возмущения частоты основного тона (Pitch perturbation Factor), и/или относительное значение эффекта «Дрожания», выраженное в % (Jitter (%)), и/или коэффициент колебания частоты основного тона (Pitch Perturbation Quotient), и/или сглаженный коэффициент возмущения частоты основного тона (Smoothed Pitch Perturbation Quotient), и/или относительное среднее колебание частоты основного тона (Relative Average Perturbation). В качестве параметров, характеризующих эффект «Дрожания», дополнительно используют кратковременное изменение эффекта «Дрожания» (Short term Jitter Estimation).  In this case, as parameters characterizing the effect of “Jitter”, use the average absolute value of the effect of “Jitter” (Mean absolute Jitter), and / or the standard deviation of the fundamental frequency (Standard deviation of F0 contour), and / or voice frequency range (Phonatory frequency Range), and / or the Pitch perturbation Factor, and / or the relative value of the “Jitter” effect, expressed as% (Jitter (%)), and / or the Pitch Perturbation Quotient ), and / or a smoothed pitch perturbation factor (Smoothed Pitch Pertur bation Quotient), and / or Relative Average Perturbation. As parameters characterizing the effect of "Trembling", additionally use a short-term change in the effect of "Trembling" (Short term Jitter Estimation).
В качестве параметров, характеризующих эффект «Мерцания», используют относительное значение эффекта «Мерцания», выраженное в % (Shimmer (%)), и/или абсолютное значение эффекта «Мерцания» (Mean absolute shimmer), и/или стандартное отклонение амплитуды (Standard deviation of Amp contour), и/или фактор возмущения амплитуды (Amplitude Perturbation Factor), и/или значение эффекта «Мерцания», выраженное в децибелах (Shimmer (dB)), и/или колебания амплитуды относительно среднего (Amplitude Relative Average Perturbation), и/или коэффициент колебания амплитуды (Amplitude Perturbation Quotient), и/или сглаженный коэффициент колебания амплитуды (Smoothed Amplitude Perturbation Quotient). As parameters characterizing the Flicker effect, use the relative value of the Flicker effect, expressed in% (Shimmer (%)), and / or the absolute value of the Flicker effect (Mean absolute shimmer), and / or standard deviation of the amplitude ( Standard deviation of Amp contour), and / or the amplitude perturbation factor (Amplitude Perturbation Factor), and / or the value of the Flicker effect, expressed in decibels (Shimmer (dB)), and / or amplitude fluctuations relative to the average (Amplitude Relative Average Perturbation ), and / or the amplitude fluctuation coefficient (Amplitude Perturbation Quotient), and / or Smoothed Amplitude Perturbation Quotient
В качестве параметров, характеризующих уровень шума на интервалах основного тона, используют параметр характеризующий уровень турбулентного шума на периоде основного тона (Turbulent noise index (TNI)), и/или параметр, характеризующий степень схлопывания голосовых складок (Soft phonation index (SPI)), и/или показатель уровня шума относительно уровня вокализированной компоненты (Voice turbulence index (VTI)), и/или отношение гармонической компоненты сигнала к негармонической компоненте (Harmonic to Noise Ratio (HNR)), и/или отношение энергии возбуждения к энергии шума (Glottal to Noise Excitation Ratio (GNER)). Дополнительно в качестве параметров используют уровень турбулентного шума (Glottal to Noise Distribution Ratio), который определяют в следующим образом: на вход подают сигнал в формате импульсно - кодовой модуляции, «Моно», с частотой дискретизации 16кГц, у которого определяют трек частоты основного тона, после этого производят обратную фильтрацию входного сигнала (вычисление сигнала остатка), затем производят вычисление кохлеарного спектра_сигнала остатка, осуществляют взвешивание спектральной энергии сигнала остатка в диапазоне от 1,5кГц до 2кГц с использованием средней энергии в данном диапазоне частот, затем осуществляют взвешивание спектральной энергии сигнала остатка в диапазоне частоты основного тона с использованием средней энергии в диапазоне от минимальной частоты основного тона до максимальной частоты основного тона, по итогам полученных значений определяют отношение взвешенных энергий и получают распределение энергетического отношения посредством построения гистограммы. As parameters characterizing the noise level in the intervals of the fundamental tone, use the parameter characterizing the level of turbulent noise in the period of the fundamental tone (Turbulent noise index (TNI)) and / or the parameter characterizing the degree of collapse of the vocal folds (Soft phonation index (SPI)), and / or an indicator of the noise level relative to the level of the voiced component (Voice turbulence index (VTI)), and / or the ratio of the harmonic component of the signal to the non-harmonic component (Harmonic to Noise Ratio (HNR)), and / or the ratio of the excitation energy to the noise energy (Glottal to Noise Excitation Ratio (G NER)). In addition, the parameters use the level of turbulent noise (Glottal to Noise Distribution Ratio), which is determined as follows: the signal in the format of pulse-code modulation, "Mono", with a sampling frequency of 16 kHz, which determines the track of the fundamental frequency, is input; after that, the input signal is back-filtered (calculation of the residual signal), then the cochlear spectrum of the residual signal is calculated, the spectral energy of the residual signal is weighed in the range from 1.5 kHz to 2 kHz using using average energy in this frequency range, then the spectral energy of the remainder signal is weighed in the fundamental frequency range using the average energy in the range from the minimum fundamental frequency to the maximum fundamental frequency, based on the results of the obtained values, the ratio of weighted energies is determined and the distribution of the energy ratio is obtained by plotting a histogram.
Для определения параметров, характеризующих нелинейность голосового сигнала, используют метод энтропии Шеннона, и/или метод энтропии Репье, и/или значение первого минимума информационной функции (Value of First Minimum of Mutual Information Function), и/или показатель периодичности сигнала (Recurrent period density entropy); и/или показатель получаемый в результате анализа сигнала с исключением внутреннего тренда (Detrended Fluctuation Analysis), и/или показатель получаемый в результате анализа сигнала методом Теккен-Трейлера (Taken's Estimator), и/или показатель получаемый в результате эмпирической декомпозиции сигнала на уровни (Empirical Mode Decomposition Excitations Ratios). Для определения физиологических свойства голосовых складок используют параметры, характеризующие массу и жесткость в одномассовой модели голосовых складок, коэффициент открытия голосовой щели (Glottis Quotient) и/или показатель возбуждения голосовых складок (Vocal Fold Excitation Ratios). Краткое описание чертежей To determine the parameters characterizing the nonlinearity of the voice signal, use the Shannon entropy method and / or the Repier entropy method, and / or the value of the first minimum of the information function (Value of First Minimum of Mutual Information Function), and / or the signal periodicity indicator (Recurrent period density entropy); and / or an indicator obtained as a result of signal analysis with the exception of the internal trend (Detrended Fluctuation Analysis), and / or an indicator obtained as a result of signal analysis by the Taken's Estimator method, and / or an indicator obtained as a result of empirical decomposition of the signal into levels ( Empirical Mode Decomposition Excitations Ratios). To determine the physiological properties of the vocal folds, parameters characterizing the mass and stiffness in the single-mass model of the vocal folds, the glottis opening coefficient (Glottis Quotient) and / or the vocal fold excitation rate (Vocal Fold Excitation Ratios) are used. Brief Description of the Drawings
Изобретение поясняется чертежами, где на фиг.1 представлен вариант архитектуры аппаратного комплекса заявляемой системы, согласно которому, блок анализа расположен в облачной инфраструктуре, на фиг. 2 представлена блок-схема реализации системы, на фиг. 3 схематично представлен алгоритм процесса обучения системы, на фиг. 4 - 1 1 представлены результаты этапов определения уровня турбулентного шума голосового источника в частности, на фиг. 4 представлен фрагмент речевого сигнала, на фиг. 5 представлен трек частоты основного тона, на фиг. 6 представлен сигнал - остаток, на фиг. 7 - кохлеарный спектр сигнала остатка, на фиг. 8 - взвешенная энергия сигнала остатка в диапазоне 1.5-2.5кГц, на фиг.9 представлена взвешенная энергия сигнала остатка в диапазоне от минимальной до максимальной частоты основного тона голосового сигнала, на фиг. 10 - отношение взвешенных энергий, представленных на фиг. 9 и фиг. 8, на фиг. 1 1 представлена спектрограмма распределения уровня шума, на фиг. 12 представлена блок-схема алгоритма вычисления уровня турбулентного шума голосового источника, на фиг. 13 схематично представлен алгоритм реализации блока анализа заявляемого способа, на фиг. 14-15 представлена схема отображения результатов оценки вероятности наличия заболеваний голосовых складок на терминальном устройстве пользователя, в частности на фиг. 14 показан вариант отображения информации в виде приращения параметров относительно предыдущего теста, на фиг. 15 представлен вариант отображения информации в виде абсолютных значений параметров, на фиг. 16 схематично представлена информация, выводимая модулем отображения информации перед началом тестирования индивида, на фиг. 17 - перед началом записи гласного звука, на фиг. 18 после записи всех гласных звуков.  The invention is illustrated by drawings, where FIG. 1 shows a variant of the hardware architecture of the inventive system, according to which, the analysis unit is located in the cloud infrastructure, FIG. 2 is a block diagram of a system implementation; FIG. 3 schematically shows the algorithm of the learning process of the system, FIG. 4 - 1 1 show the results of the steps for determining the level of turbulent noise of a voice source, in particular, in FIG. 4 is a fragment of a speech signal; FIG. 5 is a pitch track; FIG. 6 shows a signal - remainder, in FIG. 7 is a cochlear spectrum of a residual signal; FIG. 8 - weighted energy of the residual signal in the range of 1.5-2.5 kHz, FIG. 9 shows the weighted energy of the residual signal in the range from minimum to maximum frequency of the fundamental tone of the voice signal, FIG. 10 is the ratio of the weighted energies shown in FIG. 9 and FIG. 8, in FIG. 1 1 shows a spectrogram of the distribution of the noise level, in FIG. 12 is a flowchart of an algorithm for calculating the turbulent noise level of a voice source; FIG. 13 schematically shows an algorithm for implementing the analysis unit of the proposed method, FIG. 14-15 are a diagram showing the results of assessing the likelihood of presence of diseases of the vocal folds on a user terminal device, in particular in FIG. 14 shows a variant of displaying information in the form of an increment of parameters relative to the previous test, FIG. 15 shows a variant of displaying information in the form of absolute parameter values, FIG. 16 is a schematic representation of the information output by the information display module before testing an individual; FIG. 17 - before starting recording a vowel, in FIG. 18 after recording all vowels.
Лучший вариант осуществления изобретения The best embodiment of the invention
В настоящем изобретении использована следующая терминология.  The following terminology is used in the present invention.
База данных - представленная в объективной форме на цифровом носителе совокупность самостоятельных материалов, систематизированных таким образом, чтобы эти хматериалы могли быть найдены и обработаны с помощью электронной вычислительной машины (ЭВМ). Database - a set of independent materials presented in an objective form on a digital medium, systematized in this way, so that these materials can be found and processed using an electronic computer (computer).
Импульсно-кодовая модуляция (ИКМ, англ. Pulse Code Modulation, PCM) — используется для оцифровки аналоговых сигналов. Практически все виды аналоговых данных (видео, голос, музыка, данные телеметрии, виртуальные миры) допускают применение ИКМ.  Pulse code modulation (PCM, Eng. Pulse Code Modulation, PCM) - used to digitize analog signals. Almost all types of analog data (video, voice, music, telemetry data, virtual worlds) allow the use of PCM.
Моно формат - формат одноканальной записи звука.  Mono format - single-channel audio recording format.
Способ диагностики заболевания голосовых складок может быть реализован с помощью системы, представленной на Фиг.1-2. Система содержит следующие модули: 1— модуль отображения информации; 2 - модуль управления; 3 - модуль записи звука (голосового сигнала индивида); 4— модуль подключения к сети; 5— вычислительный модуль, включающий в себя процессорное устройство и все необходимые подсистемы для полноценного функционирования блоков 1 -4; 6 - внешний интерфейс к «облачному» сервису, включающему в себя набор серверов и виртуальных машин, выполненных на базе платформы х32, х64, ARM, поддерживающих следующие семейства операционных систем: Windows, Linux, MacOS, iOS, Android.  A method for diagnosing a disease of the vocal folds can be implemented using the system shown in Fig.1-2. The system contains the following modules: 1 — information display module; 2 - control module; 3 - module recording sound (voice signal of the individual); 4— network connection module; 5— computing module, which includes a processor device and all the necessary subsystems for the full functioning of blocks 1-4; 6 - an external interface to the "cloud" service, which includes a set of servers and virtual machines based on the x32, x64, ARM platform, supporting the following families of operating systems: Windows, Linux, MacOS, iOS, Android.
В случае если модуль 5 клиентского приложения выполнен на платформах х32, х64, ARM, с поддержкой семейств операционных систем Windows, Linux, MacOS, iOS, Android - то возможна полная установка программного обеспечения, реализующего алгоритм заявляемого способа (см. фиг.2), в данный модуль, что исключает потребность в облачном сервисе и модуле 4.  If the client application module 5 is executed on the platforms x32, x64, ARM, with support for the operating systems families Windows, Linux, MacOS, iOS, Android, then it is possible to fully install software that implements the algorithm of the proposed method (see figure 2), into this module, which eliminates the need for a cloud service and module 4.
Модули 1-5 могут быть реализованы на базе любых устройств с данными функциями, в т.ч. персональных терминальных устройств индивида, например, мобильного телефона, смартфона, персонального компьютера, ноутбука, планшетного компьютера и т.д.  Modules 1-5 can be implemented on the basis of any devices with these functions, including personal terminal devices of an individual, for example, a mobile phone, smartphone, personal computer, laptop, tablet computer, etc.
Система содержит клиентское приложение 7 (см. фиг. 2), реализующее графический интерфейс для взаимодействия с пользователем; внешний интерфейс 6, в случае облачной архитектуры в качестве интерфейса может быть использован удаленный сервис; блок анализа 8, состоящий из трех основных элементов: модуля 9, представляющего собой базу данных, содержащую функции плотности распределения вероятности для голосов в норме (характеризующихся отсутствием каких-либо заболеваний голосовых складок) и патологии (характеризующихся наличием функционального или органического расстройства голосовых складок),  The system contains a client application 7 (see Fig. 2) that implements a graphical interface for user interaction; external interface 6, in the case of cloud architecture, a remote service can be used as an interface; analysis unit 8, consisting of three main elements: module 9, which is a database containing probability density functions for voices normal (characterized by the absence of any diseases of the vocal folds) and pathology (characterized by the presence of a functional or organic disorder of the vocal folds),
Ю модуля анализа сигнала 10, производящего вычисление параметров сигнала с целью последующей классификации сигнала; модуля статистики 11, производящего классификацию сигнала по полученным из модуля анализа 10 параметрам на вероятность нормы/патологии. В случае если аппаратное обеспечение клиентского приложения удовлетворяет предъявляемым выше требованиям, то блок 8 может быть встроен в клиентское приложение. YU signal analysis module 10, which calculates the signal parameters for the subsequent classification of the signal; statistics module 11, which classifies the signal according to the parameters obtained from the analysis module 10 for the probability of norm / pathology. If the hardware of the client application meets the above requirements, then block 8 can be integrated into the client application.
Способ осуществляют следующим образом.  The method is as follows.
Программный модуль, реализующий алгоритм заявляемого способа, загружают в персональное устройство индивида, например, телефон или в облачный сервис, например, Microsoft Windows Azure. При этом блок анализа 8 записанного сигнала, реализующего аналитическую часть заявляемого способа, может быть встроен как в терминальное устройство индивида, так и может быть расположен в удаленном доступе, например, на сервере организации, обслуживающей терминальные устройства через сеть Интернет.  A software module that implements the algorithm of the proposed method is downloaded to an individual’s personal device, for example, a telephone, or to a cloud service, for example, Microsoft Windows Azure. At the same time, the analysis unit 8 of the recorded signal that implements the analytical part of the proposed method can be embedded both in the terminal device of the individual and can be located in remote access, for example, on the server of the organization serving the terminal devices via the Internet.
Пользователь запускает программный модуль и производит запись голосового сигнала с целью его последующего анализа аппаратно-программным комплексом. При этом терминальное устройство должно поддерживать формат записи голосового сигнала, с частотой дискретизации 16кГц.  The user launches the software module and records the voice signal for the purpose of its subsequent analysis by the hardware-software complex. In this case, the terminal device must support the recording format of the voice signal, with a sampling frequency of 16 kHz.
В случае если система работает в режиме анализа слитной речи, то производится выделение гласных сегментов речи, например, методом, описанным в («Анализ и автоматическая сегментация речевого сигнала», А. Цыплихин, диссертация кандидата технических наук, 2006). При этом для оценки вероятности заболевания необходимо накопить суммарную длительность сегментов порядка 10 секунд для каждого типа гласного.  If the system operates in the mode of analysis of continuous speech, then vowel segments of speech are selected, for example, by the method described in (“Analysis and automatic segmentation of a speech signal”, A. Tsyplikhin, dissertation of the candidate of technical sciences, 2006). Moreover, to assess the likelihood of the disease, it is necessary to accumulate the total duration of the segments of the order of 10 seconds for each type of vowel.
В случае если система работает в режиме анализа продолжительных сигналов, необходимо чтобы длина голосовой записи была порядка 5 секунд для каждого типа гласного.  If the system operates in the analysis mode of continuous signals, it is necessary that the length of the voice recording is about 5 seconds for each type of vowel.
На следующем этапе посредством сети Интернет или внутренней памяти (в случае если вычислительный модуль установлен на терминальном устройстве), производят передачу записанных сигналов в блок анализа данных, где осуществляют анализ полученного сигнала по алгоритму, представленному на фиг. 13. На первом этапе анализа входящий звуковой сигнал подвергают предварительному анализу, на котором определяют сигнал остаток, трек частоты основного тона и трек амплитуд сигнала на периодах основного тона (метод определения более подробно представлен ниже), на основании которых вычисляют группы параметров характеризующие: эффект «Дрожания» и/или эффект «Мерцания» и/или уровень турбулентного шума в голосовом сигнале и/или физиологические свойства голосовых складок и нелинейность голосового сигнала. Далее представлено описание процесса эксплуатации системы с использованием пяти групп параметров. At the next stage, by means of the Internet or internal memory (if the computing module is installed on the terminal device), the recorded signals are transmitted to the data analysis unit, where the received signal is analyzed according to the algorithm shown in FIG. 13. At the first stage of analysis, the incoming audio signal is subjected to preliminary analysis, which determines the signal balance, frequency track the pitch and the track of the amplitudes of the signal over the periods of the pitch (the method of determination is presented in more detail below), on the basis of which the groups of parameters characterizing are calculated: the “Jitter” effect and / or the “Flicker” effect and / or the level of turbulent noise in the voice signal and / or physiological properties of the vocal folds and non-linearity of the voice signal. The following is a description of the operation of the system using five groups of parameters.
На втором этапе на основе данных, полученных при обучении системы (алгоритм обучения см. ниже) и представляющих собой базы данных функций плотности вероятности для голосов в норме и патологии, и коэффициенты для вычисления главных компонент, производят вычисление главной компоненты для каждой из групп параметров. При этом вычисление функций распределения плотности вероятности производят на этапе обучения системы, который является предварительным этапом перед тиражированием системы (программно-аппаратного комплекса) по схеме, представленной на фиг. 3.  At the second stage, based on the data obtained during the training of the system (the training algorithm, see below) and representing databases of probability density functions for voices in norm and pathology, and coefficients for calculating the main components, the main component is calculated for each of the groups of parameters. In this case, the calculation of the probability density distribution functions is carried out at the stage of training the system, which is a preliminary step before the replication of the system (hardware and software complex) according to the scheme shown in FIG. 3.
Для каждой входящей записи голосового сигнала получают пятимерный вектор {oS, oJ, oN, oG, oP} где, oS - главная компонента для параметров, характеризующих эффект «Мерцания» (S), oJ - главная компонента для параметров, характеризующих эффект «Дрожания» (J), oN - главная компонента для параметров, характеризующих уровень турбулентного шума (N), oG - главная компонента для параметров, характеризующих параметры голосового источника (G), оР — главная компонента для параметров, характеризующих нелинейность процесса фонации (Р).  For each incoming voice signal recording, a five-dimensional vector {oS, oJ, oN, oG, oP} is obtained where, oS is the main component for the parameters characterizing the "Flicker" effect (S), oJ is the main component for parameters characterizing the "Jitter" effect (J), oN is the main component for the parameters characterizing the level of turbulent noise (N), oG is the main component for the parameters characterizing the parameters of the voice source (G), oP is the main component for the parameters characterizing the nonlinearity of the phonation process (P).
На следующем шаге производят вычисление апостериорной вероятности принадлежности полученного пятимерного вектора к функции распределения плотности вероятности для голосов в норме и к функции распределения плотности вероятности для голосов в патологии. Данная мера может быть рассчитана, например, с помощью метода, описанного в литературе («The Optimality of Naive Bayes», H. Zhang, American Association for Artificial Intelligence, 2004); (Caruana, R.; Niculescu-Mizil, A. (2006). "An empirical comparison of supervised learning algorithms". Proceedings of the 23rd international conference on Machine learning).  At the next step, the posterior probability of the obtained five-dimensional vector belongs to the probability density distribution function for voices in normal and to the probability density distribution function for voices in pathology. This measure can be calculated, for example, using the method described in the literature (“The Optimality of Naive Bayes”, H. Zhang, American Association for Artificial Intelligence, 2004); (Caruana, R .; Niculescu-Mizil, A. (2006). "An empirical comparison of supervised learning algorithms." Proceedings of the 23rd international conference on Machine learning).
Вероятность наличия патологии голосовых складок можно вычислить, например, с помощью алгоритма логистической регрессии (Hosmer, David W.; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd ed.). Wiley), предварительно проведя совместное обучение системы и данного алгоритма. The likelihood of vocal cord pathology can be calculated, for example, using the logistic regression algorithm (Hosmer, David W .; Lemeshow, Stanley (2000). Applied Logistic Regression (2nd ed.). Wiley), having previously conducted joint training of the system and this algorithm.
Итоговую информацию, содержащую данные, полученные после анализа голосового сигнала, отображают на терминальном устройстве пользователя. Данные могут быть представлены в виде индикаторов, отображающих функциональное состояние голосовых складок и качества голоса. При этом поочередно отображают абсолютное значение параметра (см. фиг. 16) и его приращение по сравнению с предыдущим значением (см. фиг. 15). В качестве выводимых параметров используют: главную компоненту группы параметров, описывающих эффект «Мерцания», которую отображают как параметр с названием «стабильность дыхания»; главную компоненту группы параметров, описывающих эффект «Дрожания», которую отображают с названием «Дрожание голоса», главную компоненту группы параметров, описывающих уровень турбулентного шума, которую отображают с названием «Осиплость голоса», главную компоненту группы параметров, описывающих нелинейность процесса колебаний, которую отображают с названием «Гармония голоса», вероятность наличия патологии голосовых складок индивида, которую отображают с названием «Вероятность наличия патологии».  The total information containing the data obtained after analyzing the voice signal is displayed on the terminal device of the user. Data can be presented in the form of indicators showing the functional state of the vocal folds and voice quality. In this case, the absolute value of the parameter (see FIG. 16) and its increment compared to the previous value (see FIG. 15) are alternately displayed. The following parameters are used as output parameters: the main component of the group of parameters describing the “Flicker” effect, which is displayed as a parameter called “respiration stability”; the main component of the group of parameters describing the “Jitter” effect, which is displayed with the name “Voice jitter,” the main component of the group of parameters that describe the level of turbulent noise, which is displayed with the name “Voice hoarseness”, the main component of the group of parameters that describe the non-linearity of the oscillation process, which display with the name "Harmony of voice", the probability of the presence of pathology of the vocal folds of the individual, which is displayed with the name "Probability of the presence of pathology."
Обучение системы. Training system.
Целью процесса обучения системы является выделение главных компонент для каждой из групп параметров и получение значений функций плотности распределения вероятности для голосов в норме и патологии. Обучение системы производят на существующей базе данных голосов в норме и патологии. При этом база данных должна удовлетворять следующим условиям:  The purpose of the system learning process is to identify the main components for each of the groups of parameters and to obtain the values of the probability density functions for voices in normal and pathological conditions. Training systems are produced on the existing database of votes in norm and pathology. In this case, the database must satisfy the following conditions:
1. База данных должна включать запись голоса индивида, представленную в виде звуковой волны формата ИКМ, «Моно», с частотой дискретизации не меньше, чем 16кГц; также база данных может содержать записи в формате, который может быть конвертирован в требуемый формат без потери данных, например: *.wav, *.nsp, и т.д.  1. The database should include an individual’s voice recording, presented in the form of a PCM sound wave, “Mono”, with a sampling frequency of not less than 16 kHz; Also, the database may contain records in a format that can be converted to the desired format without losing data, for example: * .wav, * .nsp, etc.
2. В базе данных должны присутствовать данные о том, к какой категории относится запись голоса индивида: норма/патология; данные о поле индивида: муж/жен; частота дискретизации, с которой произведена запись голоса; данные о том, к какому звуку относится запись голоса: /а:/, /о:/, /i:/, /и:/. В изобретении могут быть использованы как имеющиеся на рынке базы данных, например, The Disordered Voice Database of Massachusetts Eye and Ear Infirmary (MEEI) Voice and Speech Lab2. The database must contain data on what category the recording of an individual’s voice belongs to: norm / pathology; data on the gender of the individual: husband / wives; sampling rate at which voice recording is made; data on what sound the voice recording refers to: / a: /, / o: /, / i: /, / and: /. The invention can be used as commercially available databases, for example, The Disordered Voice Database of Massachusetts Eye and Ear Infirmary (MEEI) Voice and Speech Lab
(http://\vw\v.kayelenietrics.com/index.php?option=com_pi duct& (http: // \ vw \ v.kayelenietrics.com/index.php? option = com_pi duct &
ltemid=3&controller=piOduct&task=learn_more&cid%5B 5D=52). так и базы данных, сформированные отдельно при наличии вышеперечисленных критериев. ltemid = 3 & controller = piOduct & task = learn_more & cid% 5B 5D = 52). and databases formed separately in the presence of the above criteria.
На первом этапе процесса обучения (см. фиг. 3) для каждой голосовой записи сигнала производят предварительный анализ (подробное описание которого представлено ниже), после чего вычисляют параметры, относящиеся к той или иной группе, характеризующей: эффект «Дрожания», и/или эффект «Мерцания», и/или уровень турбулентного шума в голосовом сигнале, и/или физиологические свойства голосовых складок и нелинейность голосового сигнала. Далее представлено описание процесса обучения с использованием пяти групп параметров. При этом достоверный результат оценки вероятности риска заболевания голосовых складок может быть получен при использовании меньшего количества групп параметров (от двух до пяти), характеризующих перечисленные выше эффекты (которые используют как при обучении системы, так и в процессе реализации способа).  At the first stage of the learning process (see Fig. 3), for each voice recording of the signal, a preliminary analysis is performed (a detailed description of which is presented below), after which the parameters related to one or another group characterizing: the effect of “Shake” and / or the “Flicker” effect, and / or the level of turbulent noise in the voice signal, and / or the physiological properties of the vocal folds and non-linearity of the voice signal. The following is a description of the learning process using five groups of parameters. At the same time, a reliable result of assessing the probability of risk of vocal cord disease can be obtained by using a smaller number of groups of parameters (from two to five) characterizing the above effects (which are used both in training the system and in the process of implementing the method).
На втором этапе процесса обучения с помощью метода главных компонент («А Tutorial on Principal Component Analysis», J. Shlens, Center for Neural Science, New York University New York City, NY 10003-6603 and Systems Neurobiology Laboratory, Salk Institute for Biological Studies La Jolla, CA 92037) выделяют главные компоненты для каждой из групп параметров (см. фиг. 3), таким образом для каждой голосовой записи сигнала получают пятимерный вектор главных компонент {oS, oJ, oN, oG, oP} где, oS— главная компонента для параметров, характеризующих эффект «Мерцания»(8), oJ - главная компонента для параметров, характеризующих эффект «Дрожания»(т), oN - главная компонента для параметров, характеризующих уровень турбулентного шума (N), oG - главная компонента для параметров, характеризующих параметры голосового источника (G), оР - главная компонента для параметров, характеризующих нелинейность процесса фонации (Р). In the second stage of the learning process using the principal component analysis (“A Tutorial on Principal Component Analysis”, J. Shlens, Center for Neural Science, New York University New York City, NY 10003-6603 and Systems Neurobiology Laboratory, Salk Institute for Biological Studies La Jolla, CA 92037) isolate the principal components for each of the parameter groups (see Fig. 3), so for each voice recording of the signal a five-dimensional vector of principal components {oS, oJ, oN, oG, oP} is obtained where, oS is the main component for the parameters characterizing the “Flicker” effect (8), oJ is the main component for the parameters characterizing the “Flicker” effect ( t ), oN is the main component for parameters characterizing the level of turbulent noise (N), oG is the main component for parameters characterizing the parameters of the voice source (G), oP is the main component for parameters characterizing the nonlinearity of the phonation process (P).
На третьем этапе производят построение функции плотности вероятности At the third stage, the probability density function is constructed
(http://en.wikipedia.org/wiki/Probability_density_function) для полученных векторов, относящихся к голосам в норме и функции плотности вероятности для полученных векторов, относящихся к голосам в патологии. Предварительный анализ голосового сигнала. (http://en.wikipedia.org/wiki/Probability_density_function) for the obtained vectors related to normal voices and the probability density function for the obtained vectors related to voices in pathology. Preliminary analysis of the voice signal.
Большинство параметров, получаемых из голосового сигнала (фиг. 4) с целью описания текущего состояния голоса, базируются на треке частоты основного тона (фиг.5).  Most of the parameters obtained from the voice signal (Fig. 4) in order to describe the current state of the voice are based on the pitch track (Fig. 5).
При этом определение частоты основного тона может быть реализовано по известным методикам: L. R. Rabiner, М. J. Cheng, А. Е. Rosenberg и С. A. McGonegal, «А comparative perfomance study of several pitch detection algorithms,» IEEE Trans. Audio Electroacoust., pp. 399-417, 1976.; D. Gerhard, «Pitch extraction and fundamental frequency: history and current techniques,» University of Regina, Saskatchewan, Canada, 2003.; A. De Cheveigne, «International Conference on Acoustics,» в Pitch perception models from origins to today, Kyoto, 2004.; V. N. Sorokin и V. P. Trifonenkov, «Autocorrelational Analysis of Speech Signal, » т. 3, N" 42, 1996.  In this case, the determination of the frequency of the fundamental tone can be implemented by known methods: L. R. Rabiner, M. J. Cheng, A. E. Rosenberg and C. A. McGonegal, “A comparative perfomance study of several pitch detection algorithms,” IEEE Trans. Audio Electroacoust., Pp. 399-417, 1976 .; D. Gerhard, “Pitch extraction and fundamental frequency: history and current techniques,” University of Regina, Saskatchewan, Canada, 2003 .; A. De Cheveigne, “International Conference on Acoustics,” in Pitch perception models from origins to today, Kyoto, 2004 .; V. N. Sorokin and V. P. Trifonenkov, "Autocorrelational Analysis of Speech Signal," Vol. 3, N "42, 1996.
Изобретение может быть реализовано с использованием следующих алгоритмов:  The invention can be implemented using the following algorithms:
· Алгоритмы, основанные на анализе сигнала во временной области: · Algorithms based on signal analysis in the time domain:
ITU G.726 («ГШ Recommendation G.726,» [В Интернете]. http://www.itu.int/rec/T- REC-G.726/en.), YIN (A. De Cheveigne и H. Kawahara, «ΥΙΝ, a fundamental frequency estimator for speech and music,» JASA, 1 1 1, pp. 1917-1930, 2002.), TWIN (А. И. Цыплихин, «Анализ импульсов голосового источника,» Акустический журнал, т. 53, pp. 119-133, 2007.). ITU G.726 ("GS Recommendation G.726," [On the Internet]. Http://www.itu.int/rec/T- REC-G.726 / en.), YIN (A. De Cheveigne and H Kawahara, “ΥΙΝ, a fundamental frequency estimator for speech and music,” JASA, 1 1 1, pp. 1917-1930, 2002.), TWIN (A. I. Tsyplikhin, “Impulse analysis of a voice source,” Acoustic Journal, T. 53, pp. 119-133, 2007.).
• Алгоритмы, основанные на анализе сигнала в спектральной области: REPS, DASH (Т. Nakatani и Т. Irino, «Robust and accurate fundamental frequency estimation based on dominant harmonic components,» JASA, т. 116, No 6, pp. 3690-3700, 2004.), TEMPO (H. Kawahara, I. Masuda-Kasuse и A. De Cheveigne, ((Restructuring speech representations a pitch-adaptive time-frequency smoothing and instantaneous- frequency-based F0 exctraction: Possible role of repetitive structure in sounds,» Speech Communication, т. 29, JN° 3-4, pp. 187-207, 1999.).  • Algorithms based on signal analysis in the spectral domain: REPS, DASH (T. Nakatani and T. Irino, “Robust and accurate fundamental frequency estimation based on dominant harmonic components,” JASA, vol. 116, No. 6, pp. 3690- 3700, 2004.), TEMPO (H. Kawahara, I. Masuda-Kasuse and A. De Cheveigne, ((Restructuring speech representations a pitch-adaptive time-frequency smoothing and instantaneous-frequency-based F0 exctraction: Possible role of repetitive structure in sounds, ”Speech Communication, vol. 29, JN ° 3-4, pp. 187-207, 1999.).
Учитывая зависимость точности вычисления параметров от точности вычисления трека частоты основного тона, целесообразно использовать группу алгоритмов, основанных на анализе сигнала во временной области.  Given the dependence of the accuracy of the calculation of parameters on the accuracy of the calculation of the track of the frequency of the fundamental tone, it is advisable to use a group of algorithms based on the analysis of the signal in the time domain.
Для расчета группы параметров эффекта «Мерцания» предварительно вычисляют трек максимальных амплитуд сигнала на периодах основного тона. Один из возможных методов выделения трека максимальных амплитуд сигнала описан в TWIN (А. И. Цыплихин, «Анализ импульсов голосового источника,» Акустический журнал, т. 53, pp. 119-133, 2007.) To calculate the group of parameters of the “Flicker” effect, the track of maximum signal amplitudes on the periods of the fundamental tone is preliminarily calculated. One of the possible methods for isolating the track of maximum signal amplitudes is described in TWIN (A. I. Tsyplikhin, “Analysis of Impulses of a Voice Source,” Acoustic Journal, vol. 53, pp. 119-133, 2007.)
Также на этапе предварительного анализа сигнала производят вычисление сигнала остатка (фиг.6) («НАЧАЛЬНЫЕ УСЛОВИЯ В ЗАДАЧЕ ИДЕНТИФИКАЦИИ ГОЛОСОВОГО ИСТОЧНИКА», В.Н.Сорокин, А.А.Тананыкин, Информационные процессы, Том 10, Νϋΐ , стр. 1 - 10), путем обратной фильтрации исходного сигнала (D. Wong, J. Markel, A. Gray, "Least Squares Glottal Inverse Filtering from the Acoustic Speech Waveform", IEEE Trans. Acoust., Speech, Signal Process., vol. ASSP-27, No 4, pp. 350-355, 1979).  Also, at the preliminary signal analysis stage, the remainder signal is calculated (Fig. 6) (“INITIAL CONDITIONS IN THE PROBLEM OF VOICE SOURCE IDENTIFICATION”, V.N. Sorokin, A.A. Tananykin, Information Processes, Volume 10, Νϋΐ, page 1 - 10) by reverse filtering the original signal (D. Wong, J. Markel, A. Gray, "Least Squares Glottal Inverse Filtering from the Acoustic Speech Waveform", IEEE Trans. Acoust., Speech, Signal Process., Vol. ASSP- 27, No. 4, pp. 350-355, 1979).
Определение параметров эффекта «Дрожания».  Determination of the parameters of the effect of "tremble".
Основные параметры эффекта «Дрожания» базируются на треке частоты основного тона и могут быть вычислены с помощью формул, представленных в Таблице 1.  The main parameters of the “Jitter” effect are based on the pitch track and can be calculated using the formulas presented in Table 1.
Таблица 1 - Параметры эффекта «Дрожания»  Table 1 - Parameters of the effect of "tremble"
Figure imgf000017_0001
Figure imgf000017_0001
где, Fj - частота основного тона с i-ым номером, полученная из трека частоты основного тона, F0_av - средняя частота основного тона на всем треке частоты основного тона.  where, Fj is the fundamental frequency with the i-th number obtained from the fundamental frequency track, F0_av is the average fundamental frequency over the entire fundamental frequency track.
В качестве дополнительного параметра может быть использован параметр, определяющий кратковременное изменение эффекта «Дрожания» (Short term Jitter Estimation), методика вычисления которого представлена в «Voice Pathology Detection Based on Short-Term Jitter Estimations in Running Speech», M. Vasilakis, Y. Stylianou, Folia Phoniatr Logop 509-T1. As an additional parameter, a parameter can be used that determines the short-term change in the “Short term Jitter Estimation” effect, the calculation method of which is presented in Voice Pathology Detection Based on Short-Term Jitter Estimations in Running Speech ”, M. Vasilakis, Y. Stylianou, Folia Phoniatr Logop 509-T1.
Определение параметров эффекта «Мерцания».  Determination of the parameters of the "Flicker" effect.
Голосовые складки человека в большинстве случаев способны генерировать звуковой сигнал, амплитуда которого будет постоянной. Исключением является слитная речь, где помимо всего прочего, на амплитуду будут влиять эмоциональные и артикуляторные аспекты. Однако даже в случае слитной речи изменение амплитуды на гласных звуках будет происходить монотонно. Случайные колебания амплитуды сигнала служат признаком патологии и называются эффектом «Мерцания». В Таблице 2 представлены параметры, которые отобраны для использования в заявляемом способе.  The vocal folds of a person in most cases are able to generate an audio signal whose amplitude will be constant. An exception is continuous speech, where, among other things, the amplitude will be affected by emotional and articulatory aspects. However, even in the case of continuous speech, the amplitude change in vowels will occur monotonously. Random fluctuations in the signal amplitude serve as a sign of pathology and are called the “Flicker” effect. Table 2 presents the parameters that are selected for use in the claimed method.
Таблица 2 - Параметры эффекта «Мерцания»  Table 2 - Parameters of the “Flicker” effect
Figure imgf000018_0001
Figure imgf000018_0001
Ampav = Amp av =
Все параметры, для оценки эффекта «Мерцания», вычисляют по треку максимальных амплитуд сигнала, синхронному с треком частоты основного тона.  All parameters, for assessing the “Flicker” effect, are calculated from the track of maximum signal amplitudes, synchronous with the pitch track.
Определение параметров турбулентного шума.  Determination of turbulent noise parameters.
Уровень шума определяет качество сигнала и голоса в целом, в частности, наличие хрипов и осиплости голоса. Уровень шума в сигнале является хорошим показателем для определения наличия патологии гортани. В изобретении предлагается использовать один или несколько из следующих параметров, позволяющих характеризовать уровень шума в сигнале. Параметр, характеризующий уровень турбулентного шума на периоде основного тона (Turbule
Figure imgf000019_0001
где N - длина трека основного тона, R(tn,Tn) - нормализованная автокорреляционная функция. Параметр TNI может быть определен, например, по методике, представленной в P. Mitev и S. Hadjitodorov, «А method for turbulent noise estimation in voiced signal,» Med Biol Eng Comput., т. 38, N° 6, pp. 625-631, 2000; «SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105», KayPentax.
The noise level determines the quality of the signal and voice in general, in particular, the presence of wheezing and hoarseness of the voice. The noise level in the signal is a good indicator for determining the presence of pathology of the larynx. The invention proposes to use one or more of the following parameters to characterize the noise level in the signal. Parameter characterizing the level of turbulent noise in the period of the fundamental tone (Turbule
Figure imgf000019_0001
where N is the pitch track, R (tn, Tn) is the normalized autocorrelation function. The TNI parameter can be determined, for example, by the method presented in P. Mitev and S. Hadjitodorov, “A method for turbulent noise estimation in voiced signal,” Med Biol Eng Comput., Vol. 38, N ° 6, pp. 625-631, 2000; SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105, KayPentax.
Параметр, характеризующий степень схлопывания голосовых складок (Soft phonation index (SPI)) - определяется отношением гармонической энергии в частотном диапазоне от 70Hz до 1600Hz к гармонической энергии в частотном диапазоне от 1600Hz до 4500Hz (S. An Xue, «Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications» 2001; «SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105», KayPentax).  The parameter characterizing the degree of collapse of the vocal folds (Soft phonation index (SPI)) is determined by the ratio of harmonic energy in the frequency range from 70Hz to 1600Hz to harmonic energy in the frequency range from 1600Hz to 4500Hz (S. An Xue, “Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications "2001;" SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105 ", KayPentax).
Показатель уровня шума относительно уровня вокализированной компоненты (Voice turbulence index (VTI)) - параметр, характеризующийся средним отношением негармонической энергии сигнала в частотном диапазоне от 2800Hz до 5800Hz к гармонической энергии в частотном диапазоне от 70Hz до 4500Hz. При этом уровень гармонической энергии необходимо вычислять в области с минимальным уровнем колебания частоты гармоник, амплитуды сигнала и минимальной энергией субгармонической составляющей сигнала. Определение данного параметра может быть реализовано по методике, представленной в следующих источниках информации: S. An Xue, «Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications» 2001; V. D. Nicola, M. I. Fiorella, D. A. Spinelli и R. Fiorella, «Acoustic analysis of voice in patients treated by reconstructive subtotal laryngectomy. Evaluation and critical review» ACTA OTORHINOLARYNGOL, т. 26, pp. 56-68, 2006; «SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105», KayPentax.  The noise level indicator relative to the level of the voiced component (Voice turbulence index (VTI)) is a parameter characterized by the average ratio of the non-harmonic signal energy in the frequency range from 2800Hz to 5800Hz to harmonic energy in the frequency range from 70Hz to 4500Hz. In this case, the level of harmonic energy must be calculated in the region with the minimum level of fluctuation of the harmonic frequency, signal amplitude and minimum energy of the subharmonic component of the signal. The definition of this parameter can be implemented according to the methodology presented in the following information sources: S. An Xue, “Effects of aging on selected acoustic voice parameters: preliminary normative data and educational implications” 2001; V. D. Nicola, M. I. Fiorella, D. A. Spinelli and R. Fiorella, “Acoustic analysis of voice in patients treated by reconstructive subtotal laryngectomy. Evaluation and critical review »ACTA OTORHINOLARYNGOL, vol. 26, pp. 56-68, 2006; SOFTWARE INSTRUCTION MANUAL Multi-Dimensional Voice Program (MDVP) Model 5105, KayPentax.
Отношение гармонической компоненты сигнала к негармонической компоненте (Harmonic to Noise Ratio (HNR)) - параметр, который характеризует относительный уровень шума в речевом сигнале. Способы определения данного параметра представлены в следующих материалах: L. L. Oiler, «Analysis of voice signals for the harmonic-to-noise crossover frequency,» UPC Barselona, 2008.; K. Shama, A. Krishna и N. U. Cholayya, «Study of harmonics to noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology,» EURASIP Journal on Advances Signal Processing, 2007.; Q. Yingyong, «Temporal and spectral estimations of harmonic to noise ratio in human voice signal,» JASA, т. 102, JsTe 1, pp. 537-543, 1997.; L. Girin, «14th European Signal Processing Conference (EUSIPCO 2006),» в Theoretical and experimental bases of a new method for accurate separation of harmonic and noise components of speech signals, Florence, Italy, 2006.; P. Boersma, «Accurate short-term analysis of the fundamental frequncy and the harmonic to noise ratio of sampled sound,» Proceedings, т. 17, pp. 97-110, 1993.; E. Yumoto и W. J. Gould, «Harmonics to noise ratio as an index of the degree of hoarseness,» JASA, т. 71 , N° 6, pp. 1544-1550, 1982.; C. Ferrer, E. Gonzalez, H. Hernandez-Diaz, D. Torres и A. del Того, «Removing the influence of shimmer in the calculation of harmonic noise ratios using ensemble-averages in voice signals,» EURASIP Journal on Advances in Signal Processing, 2009. The ratio of the harmonic component of the signal to the non-harmonic component (Harmonic to Noise Ratio (HNR)) is a parameter that characterizes relative noise level in the speech signal. Methods for determining this parameter are presented in the following materials: LL Oiler, “Analysis of voice signals for the harmonic-to-noise crossover frequency,” UPC Barselona, 2008 .; K. Shama, A. Krishna and NU Cholayya, “Study of harmonics to noise ratio and critical-band energy spectrum of speech as acoustic indicators of laryngeal and voice pathology,” EURASIP Journal on Advances Signal Processing, 2007 .; Q. Yingyong, “Temporal and spectral estimates of harmonic to noise ratio in human voice signal,” JASA, T. 102, JsTe 1, pp. 537-543, 1997 .; L. Girin, “14th European Signal Processing Conference (EUSIPCO 2006),” in Theoretical and experimental bases of a new method for accurate separation of harmonic and noise components of speech signals, Florence, Italy, 2006 .; P. Boersma, “Accurate short-term analysis of the fundamental frequncy and the harmonic to noise ratio of sampled sound,” Proceedings, vol. 17, pp. 97-110, 1993 .; E. Yumoto and WJ Gould, “Harmonics to noise ratio as an index of the degree of hoarseness,” JASA, vol. 71, N ° 6, pp. 1544-1550, 1982 .; C. Ferrer, E. Gonzalez, H. Hernandez-Diaz, D. Torres and A. del Togo, “Removing the influence of shimmer in the calculation of harmonic noise ratios using ensemble-averages in voice signals,” EURASIP Journal on Advances in Signal Processing, 2009.
Отношение энергии возбуждения к энергии шума (Glottal to Noise Excitation Ratio (GNER)) - параметр, характеризующий качество речевого сигнала. Параметр рассчитывается как максимальный коэффициент корреляции между Гильбертовыми огибающими речевого сигнала в различных частотных диапазонах. («Glottal-to- Noise Excitation Ratio - a New Measure for Describing Pathological Voices», D. Michaelis, T. Gramss, H.W. Strube).  The ratio of the excitation energy to the noise energy (Glottal to Noise Excitation Ratio (GNER)) is a parameter that characterizes the quality of the speech signal. The parameter is calculated as the maximum correlation coefficient between the Hilbert envelopes of the speech signal in different frequency ranges. (“Glottal-to-Noise Excitation Ratio - a New Measure for Describing Pathological Voices”, D. Michaelis, T. Gramss, H.W. Strube).
Уровень турбулентного шума голосового источника — параметр характеризует отношение энергии голосового источника к энергии турбулентного шума. Алгоритм вычисления параметра представлен на фиг. 12. На вход терминального модуля индивида подают голосовой сигнал, с частотой дискретизации 16кГц (фиг. 4). После чего производят поиск трека частоты основного тона входного сигнала (фиг. 5) и путем обратной фильтрации получают сигнал остаток, фиг. 6. По сигналу остатку вычисляют кохлеарный спектр (фиг. 7) методом, описанным в «Ап Efficient Implementation of the Patterson-Holdsworth Auditory Filter I3ank», M. Slaney, Apple Computer Technical Report #35 Perception Group— Advanced Technology Group. Производят взвешивание спектральной энергии сигнала остатка в диапазоне от 1,5кГц до 2кГц с использованием средней энергии в данном диапазоне частот (фиг.8), а также взвешивание спектральной энергии сигнала остатка в диапазоне частоты основного тона с использованием средней энергии в диапазоне от минимальной частоты основного тона до максимальной частоты основного тона (фиг. 9). После чего берут отношение взвешенных энергий, полученных в пунктах выше (фиг. 10), и вычисляют распределение энергетического отношения путем построения гистограммы (фиг. И). В качестве результирующего параметра берут максимальное значение в функции распределения отношения энергий, полученной на предыдущем этапе. Voice source turbulent noise level - this parameter characterizes the ratio of the voice source energy to the turbulent noise energy. The parameter calculation algorithm is shown in FIG. 12. At the input of the terminal module of the individual serves a voice signal with a sampling frequency of 16 kHz (Fig. 4). After that, a search is made for the frequency track of the fundamental tone of the input signal (Fig. 5) and the remainder signal is obtained by reverse filtering, Fig. 6. Using the residual signal, the cochlear spectrum (FIG. 7) is calculated by the method described in the Up Efficient Implementation of the Patterson-Holdsworth Auditory Filter I3ank, M. Slaney, Apple Computer Technical Report # 35 Perception Group — Advanced Technology Group. Weigh the spectral energy of the residual signal in the range from 1.5 kHz to 2 kHz using the average energy in this frequency range (Fig. 8), as well as weighting the spectral energy of the remainder signal in the frequency range of the fundamental tone using average energy in the range from the minimum fundamental frequency to the maximum fundamental frequency (Fig. 9). Then take the ratio of the weighted energies obtained in the paragraphs above (Fig. 10), and calculate the distribution of the energy ratio by constructing a histogram (Fig. I). As the resulting parameter, take the maximum value in the distribution function of the energy ratio obtained in the previous step.
Определение параметров характеризующих нелинейность процесса фонации (нелинейность голосового сигнала).  Determination of parameters characterizing the nonlinearity of the phonation process (nonlinearity of the voice signal).
В качестве параметров, характеризующих нелинейность процесса фонации, могут быть использованы следующие параметры:  The following parameters can be used as parameters characterizing the nonlinearity of the phonation process:
Показатель периодичности сигнала (Recurrent period density entropy) - параметр, который вычисляется на основе фазового пространства сигнала и характеризует периодичность сигнала. Определение данного параметра может быть реализовано по методике, представленной в «NONLINEAR, BIOPHYSICALLY- INFORMED SPEECH PATHOLOGY DETECTION » Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK Показатель, получаемый в результате анализа сигнала с исключением внутреннего тренда (Detrended Fluctuation Analysis) может быть определен по методике, представленной в «NONLINEAR, BIOPHYSICALLY-INFORMED SPEECH PATHOLOGY DETECTION» Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK.  Signal periodicity index (Recurrent period density entropy) - a parameter that is calculated based on the phase space of the signal and characterizes the frequency of the signal. The definition of this parameter can be implemented according to the methodology presented in NONLINEAR, BIOPHYSICALLY-INFORMED SPEECH PATHOLOGY DETECTION Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK the exception of the internal trend (Detrended Fluctuation Analysis) can be determined by the methodology presented in NONLINEAR, BIOPHYSICALLY-INFORMED SPEECH PATHOLOGY DETECTION Max Little, Patrick McSharryab, Irene Moroza and Stephen Robertsb Mathematical Institute, Engineering Science, Oxford University, UK.
Значение первого минимума информационной функции (Value of First Minimum of Mutual Information) - параметр, характеризующий смещение фазы сигнала на 180 °. Определение данного параметра может быть реализовано по методике, представленной в information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics» Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente, and Fernando Diaz-de-Maria. Показатель, получаемый в результате анализа сигнала методом Теккен (Taken's Estimator) - характеризует корреляционную размерность сигнала. Определение данного параметра может быть реализовано по методике, представленной в «Information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics* Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente, and Fernando Diaz-de-Man'a. The value of the first minimum of the information function (Value of First Minimum of Mutual Information) is a parameter characterizing the phase shift of the signal by 180 °. The definition of this parameter can be implemented according to the methodology presented in information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics »Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria. The indicator obtained as a result of signal analysis by the Taken method (Taken's Estimator) - characterizes the correlation dimension of the signal. The definition of this parameter can be implemented according to the methodology presented in the Information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics * Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino- Llorente, and Fernando Diaz-de-Man'a.
Энтропия Шеннона (Shannon Entropy) - мера неопределённости или непредсказуемости сигнала. Определение данного параметра может быть реализовано по методике, представленной в information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics* Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente, and Fernando Diaz-de-Maria.  Shannon Entropy is a measure of the uncertainty or unpredictability of a signal. The definition of this parameter can be implemented according to the methodology presented in the information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics * Patricia Henriquez, Jesus B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria.
Энтропия Ренье (Renyi Entropies) - параметр, определяющий количественное разнообразие неопределенности сигнала. Определение данного параметра может быть реализовано по методике, представленной в information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics* Patricia Henriquez, Jesiis B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente, and Fernando Diaz-de-Maria.  Renyi Entropies is a parameter that determines the quantitative diversity of signal uncertainty. The definition of this parameter can be implemented according to the methodology presented in the Information Function Characterization of Healthy and Pathological Voice Through Measures Based on Nonlinear Dynamics * Patricia Henriquez, Jesiis B. Alonso, Miguel A. Ferrer, Carlos M. Travieso, Juan I. Godino-Llorente , and Fernando Diaz-de-Maria.
Определение параметров голосового источника  Defining Voice Source Settings
Коэффициент открытия голосовой щели (Glottis Quotient) характеризует случайные изменения периода, на котором голосовая щель находится в открытом состоянии. Определение данного параметра может быть реализовано по методике, представленной в Journal of the Royal Society Interface Electronic Supplementary Material, «Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity* Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige.  The glottis quotient opening coefficient characterizes random changes in the period during which the glottis is open. The definition of this parameter can be implemented according to the methodology presented in the Journal of the Royal Society Interface Electronic Supplementary Material, “Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity * Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige.
Показатель возбуждения голосовых складок (Vocal Fold Excitation Ratios) характеризует уровень энергии импульсов голосового источника в сравнении с уровнем турбулентного шума. Определение данного параметра может быть реализовано по методике, представленной в Journal of the Royal Society Interface Electronic Supplementary Material, «Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity» Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige. The Vocal Fold Excitation Ratios characterize the energy level of the impulses of the voice source in comparison with the level of turbulent noise. The definition of this parameter can be implemented according to the methodology presented in the Journal of the Royal Society Interface Electronic Supplementary Material, “Nonlinear speech analysis algorithms mapped to a standard metric achieve clinically useful quantification of average Parkinson's disease symptom severity "Athanasios Tsanasa, Max A. Little, Patrick E. McSharry, Lorraine O. Ramige.
Параметры одномассовой модели голосовых складок - параметры, характеризующие массу и жесткость голосовых складок. Данные параметры могут быть получены по методу, описанному в P. Gomez-Vilda, R. Fernandez-Baillo, V. Rodllar-Biarge, V. N. lluis, A. Alvarez-Marquina, L. M. Mazaira-Fernandez, R. Martinez- Olalla и J. I. Godino-Llorente, «Glottal source biomedical signature for voice pathology detections Speech Communication, 2008.  Parameters of the single-mass model of vocal folds - parameters characterizing the mass and stiffness of the vocal folds. These parameters can be obtained by the method described in P. Gomez-Vilda, R. Fernandez-Baillo, V. Rodllar-Biarge, VN lluis, A. Alvarez-Marquina, LM Mazaira-Fernandez, R. Martinez-Olalla and JI Godino -Llorente, Glottal source biomedical signature for voice pathology detections Speech Communication, 2008.
Пример выполнения  Execution example
Заявляемая система была изготовлена на базе облачного сервиса Windows The inventive system was made based on a cloud service Windows
Azure, смартфона Nokia Lumia 800 (http://allnokia.ru/catalog/nokia-Lumia+800/ с модулем 7, встроенным в смартфон и модулями 6, 8, встроенными в облачный сервис. Azure, Nokia Lumia 800 smartphone (http://allnokia.ru/catalog/nokia-Lumia+800/ with module 7, built-in to the smartphone and modules 6, 8, built-in to the cloud service.
Пользователь производит запуск системы нажатием соответствующей кнопки на смартфоне. Система выводит информацию о процессе тестирования и предоставляет пользователю возможность начать тестирование посредством нажатия кнопки «Начать тестирование» (см. фиг. 17). После нажатия кнопки «Начать тестирование» система выводит в качестве текста гласный звук /а:/ и предоставляет пользователю возможность начать запись отображенного гласного звука (см. фиг. 18). После нажатия кнопки «Запись» пользователь произносит данный звук до тех пор, пока система не разблокирует кнопку «Запись» и не поменяет информацию о звуке, который необходимо произнести пользователю. По описанному выше алгоритму пользователь продолжает запись всех необходимых звуков (/о:/, /i:/, /и:/). После чего пользователь нажимает кнопку «Далее» (см. фиг. 18), тем самым осуществляя передачу всех записанных файлов в модуль анализа.  The user starts the system by pressing the appropriate button on the smartphone. The system displays information about the testing process and provides the user with the opportunity to start testing by clicking the "Start Testing" button (see Fig. 17). After clicking the “Start Testing” button, the system displays the vowel sound / a: / as text and allows the user to start recording the displayed vowel sound (see Fig. 18). After pressing the “Record” button, the user pronounces this sound until the system unlocks the “Record” button and changes the information about the sound that the user needs to pronounce. According to the algorithm described above, the user continues to record all the necessary sounds (/ o: /, / i: /, / and: /). Then the user clicks the “Next” button (see Fig. 18), thereby transferring all recorded files to the analysis module.
В случае если в системе используется вариант анализа слитной речи, то производится фоновый запуск системы, которая активируется, например, в момент телефонного звонка индивида. Терминальное устройство индивида производит запись голосового сигнала, после чего осуществляется его сегментация с выделением участков гласных звуков. При достижении суммарной длительности по 10 секунд для каждого гласного звука терминальное устройство производит передачу данных в модуль анализа.  If the system uses the option of analysis of continuous speech, then the system is launched in the background, which is activated, for example, at the time of an individual's phone call. The terminal device of the individual records the voice signal, after which it is segmented with the allocation of sections of vowels. Upon reaching a total duration of 10 seconds for each vowel sound, the terminal device transmits data to the analysis module.
Модуль анализа принимает все голосовые сигналы, записанные пользователем, которые, либо записаны на терминальном устройстве в требуемом формате, либо преобразованы вычислительным модулем терминального устройства к формату одноканалыюго сигнала с частотой 16кГц (см. фиг. 4). Модуль анализа производит предварительный анализ каждого полученного сигнала, в ходе которого вычисляет трек частоты основного тона (см. фиг. 5), трек максимальных амплитуд сигнала на периодах основного тона и сигнал остаток (см. фиг. 6). После чего по полученным данным производят расчет следующих параметров: Колебание амплитуды относительно среднего, рассчитанное на трех периодах основного тона, Колебание амплитуды относительно среднего, рассчитанное на пяти периодах основного тона, Колебание амплитуды относительно среднего, рассчитанное на одиннадцати периодах основного тона, Относительное значение эффекта «Мерцания», выраженное в %, Параметр, характеризующий степень схлопывания голосовых складок, Показатель уровня шума относительно уровня вокализированной компоненты, Параметр, характеризующий уровень турбулентного шума на периоде основного тона, Отношение гармонической компоненты сигнала к негармонической компоненте, Отношение энергии возбуждения к энергии шума, Относительное значение эффекта «Дрожания», выраженное в %, Коэффициент колебания частоты основного тона, вычисленный для трех периодов основного тона, Коэффициент колебания частоты основного тона, вычисленный для пяти периодов основного тона, Коэффициент колебания частоты основного тона, вычисленный для одиннадцати периодов основного тона, Энтропия Шеннона, Энтропия Ренье, Показатель, получаемый в результате анализа сигнала с исключением внутреннего тренда, Показатель периодичности сигнала. The analysis module receives all voice signals recorded by the user, which are either recorded on the terminal device in the desired format, or converted by the computing module of the terminal device to the format of a single-channel signal with a frequency of 16 kHz (see Fig. 4). The analysis module performs a preliminary analysis of each received signal, during which it calculates the track of the frequency of the fundamental tone (see Fig. 5), the track of the maximum amplitudes of the signal on the periods of the fundamental tone and the signal balance (see Fig. 6). Then, according to the obtained data, the following parameters are calculated: Oscillation of the amplitude relative to the average, calculated on three periods of the fundamental tone, Oscillation of the amplitude on the average, calculated on five periods of the fundamental tone, Oscillation of the amplitude on the average, calculated on eleven periods of the fundamental tone, Relative value of the effect " Flicker ”, expressed in%, Parameter characterizing the degree of collapse of the vocal folds, The indicator of the noise level relative to the level of the vocalized component nents, Parameter characterizing the level of turbulent noise in the period of the fundamental tone, The ratio of the harmonic component of the signal to the non-harmonic component, The ratio of the excitation energy to the noise energy, Relative value of the “Jitter” effect, expressed in%, Oscillation coefficient of the fundamental frequency calculated for three periods of the fundamental tones, The coefficient of oscillation of the frequency of the fundamental tone, calculated for five periods of the fundamental tone, The coefficient of oscillation of the frequency of the fundamental tone, calculated for eleven periods of the fundamental tones, Shannon's entropy, Rainier's entropy, The indicator obtained as a result of signal analysis with the exception of the internal trend, The signal periodicity indicator.
Используя коэффициенты (Таблица 3), полученные в ходе обучения для каждой из групп параметров, модуль анализа выделяет главные компоненты: oS=31,83; oJ=12,53; oN=ll,07; оР=0,22; По полученным значениям главных компонент вычисляют вектор {31,83; 12,53; 11,07; 0,22} и функции плотности распределения для голосов в норме и патологии. После чего модуль анализа производит определение вероятности наличия патологии голосовых складок у индивида. Полученная вероятность риска какого-либо заболевания у индивида по настоящему примеру составила 5,2%. Таблица 3 - Значения полученных коэффициентов Using the coefficients (Table 3) obtained during the training for each of the groups of parameters, the analysis module identifies the main components: oS = 31.83; oJ = 12.53; oN = ll, 07; oP = 0.22; Based on the obtained values of the main components, the vector {31.83; 12.53; 11.07; 0.22} and distribution density functions for normal and pathological voices. After that, the analysis module determines the probability of the presence of pathology of the vocal folds in the individual. The resulting probability of a disease risk in an individual in the present example was 5.2%. Table 3 - Values of the obtained coefficients
Figure imgf000025_0001
Модуль анализа передает результирующие данные терминальному устройству индивида, где производится их отображение индивиду в понятной и легко интерпретируемой форме (см. фиг. 14-15). Используя предоставленные системой данные, индивид делает вывод, что состояние голосовых складок приближено к норме и нет необходимости посещения врача-специалиста.
Figure imgf000025_0001
The analysis module transmits the resulting data to the terminal device of the individual, where they are displayed to the individual in an understandable and easily interpreted form (see Fig. 14-15). Using the data provided by the system, the individual concludes that the condition of the vocal folds is close to normal and there is no need to visit a specialist doctor.
Преимущества заявляемой технологии  The advantages of the claimed technology
Заявляемые способ и система для реализации способа позволяют производить мониторинг функционального состояния голосовых складок индивида в любое удобное для него время, при этом не требуют присутствия врача специалиста и дают возможность проходить регулярные «скрининг» обследования с целью определения изменений в голосе индивида. Такой подход позволяет экономить средства и время индивида, при этом увеличивая вероятность раннего обнаружения патологий голосовых складок или других заболеваний, маркером которых может являться изменение состояния голосовых складок.  The inventive method and system for implementing the method allows monitoring the functional state of the vocal folds of an individual at any time convenient for him, without requiring the presence of a specialist doctor and makes it possible to undergo regular “screening” examinations in order to determine changes in the individual’s voice. This approach allows you to save money and time of the individual, while increasing the likelihood of early detection of pathologies of the vocal folds or other diseases, a marker of which may be a change in the state of the vocal folds.

Claims

ФОРМУЛА ИЗОБРЕТЕНИЯ CLAIM
1. АППАРАТНО-ПРОГРАММНЫЙ КОМПЛЕКС ДЛЯ ОПРЕДЕЛЕНИЯ РИСКА РАЗВИТИЯ ЗАБОЛЕВАНИЙ ИНДИВИДА ПО ЕГО ГОЛОСУ, включающий терминальное устройство индивида с расположенными в нем модулем записи голосового сигнала индивида, модулем управления записью голосового сигнала, выполненным с возможностью выбора частоты дискретизации и длительности записи голосового сигнала, вычислительным модулем, выполненным с возможностью перевода записанного голосового сигнала из аналогового в цифровой сигнал, модулем отображения информации на мониторе терминального устройства индивида, полученной с блока анализа голосового сигнала, выполненного с возможностью определения для записанного голосового сигнала, по крайней мере, одного параметра из группы, характеризующей эффект «Дрожания» (Jitter) и/или эффект «Мерцания» (Shimmer) и/или физиологические свойства голосовых складок и/или уровень шума в голосовом сигнале и параметра, характеризующего нелинейность голосового сигнала с последующим построением вектора в N-мерном пространстве параметров голосового сигнала индивида, где N - количество используемых групп, и определением апостериорной вероятности принадлежности полученного вектора к предварительно сформированным в многомерном пространстве областям для нормы и патологии посредством вычисления функций плотности вероятности для нормы и патологии. 1. HARDWARE-SOFTWARE COMPLEX FOR DETERMINING THE RISK OF DEVELOPING DISEASES OF AN INDIVIDUAL BY HIS VOICE, including an individual’s terminal device with a module for recording the individual’s voice signal located in it, a voice signal recording control module made with the ability to select the sampling frequency and duration of the voice signal recording, a computing module , configured to convert the recorded voice signal from an analogue signal to a digital signal, by a module for displaying information on the monitor of an individual’s terminal device, received from a voice signal analysis unit, configured to determine for the recorded voice signal at least one parameter from the group characterizing the effect “Jitter” and/or the “Shimmer” effect and/or the physiological properties of the vocal folds and/or the level of noise in the voice signal and a parameter characterizing the nonlinearity of the voice signal with subsequent construction of a vector in the N-dimensional space of the parameters of the voice signal individual, where N is the number of groups used, and determining the posterior probability of the resulting vector belonging to areas pre-formed in multidimensional space for norm and pathology by calculating probability density functions for norm and pathology.
2. Аппаратно-программный комплекс по п.1 , характеризующийся тем, что при наличии более одного параметра в группе, блок анализа голосового сигнала выполнен с возможностью формирования многомерного пространства для нормы и патологии с применением агрегирующих функций для каждой группы параметров. 2. The hardware and software complex according to claim 1, characterized by the fact that if there is more than one parameter in a group, the voice signal analysis unit is configured to form a multidimensional space for normality and pathology using aggregation functions for each group of parameters.
3. Аппаратно-программный комплекс по п.1, характеризующийся тем, что блок анализа голосового сигнала расположен в терминальном устройстве индивида. 3. The hardware and software complex according to claim 1, characterized in that the voice signal analysis unit is located in the individual’s terminal device.
4. Аппаратно-программный комплекс по п.1, характеризующийся тем, что он содержит сервер удаленного доступа и модуль подключения к сети Интернет, который расположен в терминальном устройстве индивида и выполнен с возможностью приема - передачи цифрового сигнала в блок анализа голосового сигнала, который расположен на сервере удаленного доступа. 4. The hardware and software complex according to claim 1, characterized in that it contains a remote access server and an Internet connection module, which is located in the individual’s terminal device and is configured to receive and transmit a digital signal to a voice signal analysis unit, which is located on the remote access server.
5. Аппаратно-программный комплекс по п.1, характеризующийся тем, что блок анализа голосового сигнала включает базу данных с функциями распределения плотности вероятности для голосовых сигналов в норме и патологии. 5. The hardware and software complex according to claim 1, characterized in that the voice signal analysis unit includes a database with probability density distribution functions for normal and pathological voice signals.
6. Аппаратно-программный комплекс по п.1 , характеризующийся тем, что в качестве терминального устройства индивида используют мобильный телефон, смартфон, персональный компьютер, ноутбук, планшетный компьютер, а блок анализа голосового сигнала выполнен с возможностью вычисления параметров на платформах х86, х64, ARM, MIPS с использованием операционных систем: семейство Windows, Linux, MacOS, iOS, Android. 6. The hardware and software complex according to claim 1, characterized in that a mobile phone, smartphone, personal computer, laptop, tablet computer is used as an individual’s terminal device, and the voice signal analysis unit is designed to calculate parameters on x86, x64 platforms, ARM, MIPS using operating systems: Windows family, Linux, MacOS, iOS, Android.
7. Аппаратно-программный комплекс по п.1, характеризующийся тем, что вычислительный модуль выполнен с возможностью формирования голосового сигнала из записанной слитной речи посредством ее обработки путем вьщеления из слитной речи отдельных ударных гласных. 7. The hardware and software complex according to claim 1, characterized in that the computing module is configured to generate a voice signal from recorded continuous speech by processing it by extracting individual stressed vowels from the continuous speech.
8. СПОСОБ ОПРЕДЕЛЕНИЯ РИСКА РАЗВИТИЯ ЗАБОЛЕВАНИЙ ИНДИВИДА ПО ЕГО ГОЛОСУ с использованием аппаратно-программного комплекса по п.1, включающий запись голосового сигнала индивида, состоящего из набора гласных звуков, или формирование упомянутого голосового сигнала из записанной слитной речи, с последующим его анализом, включающим определение для записанного голосового сигнала, по крайней мере, одного параметра из группы, характеризующей эффект «Дрожания» (Jitter) и/или эффект «Мерцания» (Shimmer) и/или физиологические свойства голосовых складок и/или уровень шума в голосовом сигнале и нелинейность голосового сигнала с последующим построением вектора N-мерного пространства параметров голосового сигнала индивида, где N— количество используемых групп и вычислением апостериорной вероятности полученного вектора на принадлежность к предварительно сформированным многомерным пространствам для нормы и патологии посредством вычисления функции плотности вероятности для нормы и патологии, при этом формирование многомерного пространства для нормы и патологии при наличии более одного параметра в группе осуществляют с применением агрегирующих функций, которые вычисляют для каждой группы параметров. 8. METHOD FOR DETERMINING THE RISK OF DEVELOPING DISEASES IN AN INDIVIDUAL BY HIS VOICE using the hardware-software complex according to claim 1, including recording the individual’s voice signal consisting of a set of vowel sounds, or generating the said voice signal from recorded continuous speech, followed by its analysis, including determination for the recorded voice signal of at least one parameter from the group characterizing the “Jitter” effect and/or the “Shimmer” effect and/or the physiological properties of the vocal folds and/or the noise level in the voice signal and nonlinearity voice signal with the subsequent construction of a vector of the N-dimensional space of parameters of the individual’s voice signal, where N is the number of groups used and the calculation of the posterior probability of the resulting vector for belonging to pre-generated multidimensional spaces for norm and pathology by calculating the probability density function for norm and pathology, while the formation of a multidimensional space for normality and pathology in the presence of more than one parameter in a group is carried out using aggregation functions that are calculated for each group of parameters.
9. Способ по п.8, характеризующийся тем, что запись голосового сигнала индивида осуществляют с использованием микрофона, при этом записанный сигнал направляют в блок анализа голосового сигнала, расположенный в терминальном устройстве индивида и/или на удаленном сервере. 9. The method according to claim 8, characterized in that the recording of the individual’s voice signal is carried out using a microphone, and the recorded signal is sent to a voice signal analysis unit located in the individual’s terminal device and/or on a remote server.
10. Способ по п.8, характеризующийся тем, что анализ голосового сигнала индивида осуществляют с использованием программно-аппаратного комплекса, выполненного на платформах х86, х64, ARM, MIPS с использованием семейств операционных систем: Windows, Linux, MacOS, iOS, Android. 10. The method according to claim 8, characterized in that the analysis of the individual’s voice signal is carried out using a hardware and software complex, performed on x86, x64, ARM, MIPS platforms using operating system families: Windows, Linux, MacOS, iOS, Android.
И. Способ по п.8, характеризующийся тем, что формирование голосового сигнала из записанной слитной речи осуществляют на вычислительном модуле терминального устройства индивида посредством ее обработки путем выделения из слитной речи отдельных ударных гласных. I. The method according to claim 8, characterized in that the formation of a voice signal from recorded continuous speech is carried out on the computing module of an individual’s terminal device by processing it by extracting individual stressed vowels from continuous speech.
12. Способ по п.8, характеризующийся тем, что при записи голосового сигнала индивида, состоящего из набора гласных звуков, количество гласных звуков выбирают не менее двух, один из которых - закрытый, второй - открытый, при этом продолжительность гласных звуков - не менее пяти секунд. 12. The method according to claim 8, characterized in that when recording an individual’s voice signal consisting of a set of vowel sounds, the number of vowel sounds is selected at least two, one of which is closed, the second is open, and the duration of the vowel sounds is at least five seconds.
13. Способ по п.8, характеризующийся тем, что при формировании голосового сигнала из записанной слитной речи, суммарная длительность гласного звука в наборе, составленная из выделенных фрагментов слитной речи, составляет не менее Ю с. 13. The method according to claim 8, characterized in that when forming a voice signal from recorded continuous speech, the total duration of the vowel sound in the set, composed of selected fragments of continuous speech, is at least 10 seconds.
14. Способ по п.8, характеризующийся тем, что параметры «Jitter» эффекта получают посредством определения из записанного голосового сигнала трека частоты основного тона с последующим анализом колебаний частоты основного тона. 14. The method according to claim 8, characterized in that the parameters of the “Jitter” effect are obtained by determining the fundamental tone frequency track from the recorded voice signal, followed by analyzing fluctuations in the fundamental frequency.
15. Способ по п.8, характеризующийся тем, что параметры «Shimmer» эффекта получают посредством определения трека максимальных амплитуд на периодах основного тона с последующим анализом колебаний амплитудных характеристик сигнала. 15. The method according to claim 8, characterized in that the parameters of the “Shimmer” effect are obtained by determining the track of maximum amplitudes at periods of the fundamental tone with subsequent analysis of fluctuations in the amplitude characteristics of the signal.
16. Способ по п.8, характеризующийся тем, что параметры, характеризующие физиологические свойства голосовых складок получают посредством обратной фильтрации голосового сигнала с последующим анализом сигнала остатка. 16. The method according to claim 8, characterized in that the parameters characterizing the physiological properties of the vocal folds are obtained through reverse filtering of the voice signal followed by analysis of the residual signal.
17. Способ по п.8, характеризующийся тем, что параметры уровня шума в голосовом сигнале определяют на интервалах основного тона. 17. The method according to claim 8, characterized in that the noise level parameters in the voice signal are determined at pitch intervals.
18. Способ по п.8, характеризующийся тем, что параметры, характеризующие нелинейность голосового сигнала получают посредством построения фазового пространства голосового сигнала. 18. The method according to claim 8, characterized in that the parameters characterizing the nonlinearity of the voice signal are obtained by constructing the phase space of the voice signal.
19. Способ по п.8, характеризующийся тем, что агрегирующие функции определяют с использованием метода главных компонент. 19. The method according to claim 8, characterized in that the aggregation functions are determined using the principal component method.
20. Способ по п.8, характеризующийся тем, что для получения N-мерного пространства используют функцию распределения плотности вероятности. 20. The method according to claim 8, characterized in that to obtain an N-dimensional space, a probability density distribution function is used.
21. Способ по п.8, характеризующийся тем, что формирование N-мерных пространств для нормы и патологии осуществляют с использованием баз данных звуковых сигналов голосов индивидов в норме и патологии, соответственно. 21. The method according to claim 8, characterized in that the formation of N-dimensional spaces for normality and pathology is carried out using databases of sound signals of the voices of individuals in normality and pathology, respectively.
22. Способ по п.8, характеризующийся тем, что запись голосового сигнала индивида производят в виде звуковой волны формата импульсно - кодовой модуляции, «Моно», с частотой дискретизации не меньше чем 16кГц. 22. The method according to claim 8, characterized in that the individual’s voice signal is recorded in the form of a sound wave in the pulse code modulation format, “Mono”, with a sampling frequency of no less than 16 kHz.
23. Способ по п.8, характеризующийся тем, что осуществляют повторную запись голосового сигнала индивида и ее анализ с получением параметров, которые сравнивают с ранее полученными параметрами с определением уровня отклонения, по которому судят о динамике вероятности заболевания голосовых складок индивида. 23. The method according to claim 8, characterized in that the individual’s voice signal is re-recorded and analyzed to obtain parameters that are compared with previously obtained parameters to determine the level of deviation by which the dynamics of the probability of disease of the individual’s vocal folds is judged.
24. Способ по п.8, характеризующийся тем, что в качестве параметров, характеризующих эффект «Дрожания», используют усреднённое абсолютное значение эффекта «Дрожания» (Mean absolute Jitter), и/или стандартное отклонение частоты основного тона (Standard deviation of FO contour), и/или голосовой диапазон частот (Phonatory frequency Range), и/или фактор возмущения частоты основного тона (Pitch perturbation Factor), и/или относительное значение эффекта «Дрожания», выраженное в % (Jitter (%)), и/или коэффициент колебания частоты основного тона (Pitch Perturbation Quotient), и/или сглаженный коэффициент возмущения частоты основного тона (Smoothed Pitch Perturbation Quotient), и/или относительное среднее колебание частоты основного тона (Relative Average Perturbation). 24. The method according to claim 8, characterized in that the average absolute value of the “Jitter” effect (Mean absolute Jitter) and/or the standard deviation of the pitch frequency (Standard deviation of FO contour) are used as parameters characterizing the “Jitter” effect ), and/or the vocal frequency range (Phonatory frequency Range), and/or the Pitch perturbation Factor, and/or the relative value of the “Jitter” effect, expressed in % (Jitter (%)), and/ or the Pitch Perturbation Quotient, and/or the Smoothed Pitch Perturbation Quotient, and/or the Relative Average Perturbation.
25. Способ по п.24, характеризующийся тем, что в качестве параметров, характеризующих эффект «Дрожания», дополнительно используют кратковременное изменение эффекта «Дрожания» (Short term Jitter Estimation). 25. The method according to claim 24, characterized in that as parameters characterizing the “Jitter” effect, a short-term change in the “Jitter” effect (Short term Jitter Estimation) is additionally used.
26. Способ по п.8, характеризующийся тем, что в качестве параметров, характеризующих эффект «Мерцания», используют относительное значение эффекта «Мерцания», выраженное в % (Shimmer (%)), и/или абсолютное значение эффекта «Мерцания» (Mean absolute shimmer), и/или стандартное отклонение амплитуды (Standard deviation of Amp contour), и/или фактор возмущения амплитуды (Amplitude Perturbation Factor), и/или значение эффекта «Мерцания», выраженное в децибелах (Shimmer (dB)), и/или колебания амплитуды относительно среднего (Amplitude Relative Average Perturbation), и/или коэффициент колебания амплитуды (Amplitude Perturbation Quotient), и/или сглаженный коэффициент колебания амплитуды (Smoothed Amplitude Perturbation Quotient). 26. The method according to claim 8, characterized in that the relative value of the Shimmer effect, expressed in % (Shimmer (%)), and/or the absolute value of the Shimmer effect ( Mean absolute shimmer), and/or Standard deviation of Amp contour, and/or Amplitude Perturbation Factor, and/or Shimmer (dB), and/or amplitude fluctuations relative to the average (Amplitude Relative Average Perturbation), and/or Amplitude Perturbation Quotient, and/or Smoothed Amplitude Perturbation Quotient.
27. Способ по п.8, характеризующийся тем, что в качестве параметров, характеризующих уровень шума на интервалах основного тона, используют параметр, характеризующий уровень турбулентного шума на периоде основного тона (Turbulent noise index (TNI)), и/или параметр, характеризующий степень схлопывания голосовых складок (Soft phonation index (SPI)), и/или показатель уровня шума относительно уровня вокализированной компоненты (Voice turbulence index (VTI)), и/или отношение гармонической компоненты сигнала к негармонической компоненте (Harmonic to Noise Ratio (HNR)), и/или отношение энергии возбуждения к энергии шума (Glottal to Noise Excitation Ratio (GNER)). 27. The method according to claim 8, characterized in that as parameters characterizing the noise level at pitch intervals, a parameter characterizing the level of turbulent noise at the pitch period (Turbulent noise index (TNI)) and/or a parameter characterizing the degree of collapse of the vocal folds (Soft phonation index (SPI)), and/or the noise level relative to the level of the vocalized component (Voice turbulence index (VTI)), and/or the ratio of the harmonic component of the signal to the non-harmonic component (Harmonic to Noise Ratio (HNR) ), and/or the ratio of excitation energy to noise energy (Glottal to Noise Excitation Ratio (GNER)).
28. Способ по п.8, характеризующийся тем, что дополнительно в качестве параметров используют уровень турбулентного шума (Glottal to Noise Distribution Ratio), который определяют следующим образом: на вход подают сигнал в формате импульсно - кодовой модуляции, «Моно», с частотой дискретизации 16кГц, у которого определяют трек частоты основного тона, после этого производят обратную фильтрацию входного сигнала (вычисление сигнала остатка), затем производят вычисление кохлеарного спектра_сигнала остатка, осуществляют взвешивание спектральной энергии сигнала остатка в диапазоне от 1,5 кГц до 2кГц с использованием средней энергии в данном диапазоне частот, затем осуществляют взвешивание спектральной энергии сигнала остатка в диапазоне частоты основного тона с использованием средней энергии в диапазоне от минимальной частоты основного тона до максимальной частоты основного тона, по итогам полученных значений определяют отношение взвешенных энергий и получают распределение энергетического отношения посредством построения гистограммы. 28. The method according to claim 8, characterized in that additionally the level of turbulent noise (Glottal to Noise Distribution Ratio) is used as parameters, which is determined as follows: a signal is supplied to the input in the pulse code modulation format, “Mono”, with a frequency 16 kHz sampling, from which the fundamental frequency track is determined, after which the input signal is reverse filtered (calculation of the residual signal), then the cochlear spectrum_residue signal is calculated, the spectral energy of the residual signal is weighed in the range from 1.5 kHz to 2 kHz using the average energy in a given frequency range, then the spectral energy of the residual signal is weighed in the fundamental frequency range using the average energy in the range from the minimum fundamental frequency to the maximum fundamental frequency, based on the results obtained, the ratio of the weighted energies is determined and the distribution of the energy ratio is obtained by constructing a histogram .
29. Способ по п.8, характеризующийся тем, что для определения параметров, характеризующих нелинейность голосового сигнала, используют метод энтропии Шеннона, и/или метод энтропии Ренье, и/или значение первого минимума информационной функции (Value of First Minimum of Mutual Information Function), и/или показатель периодичности сигнала (Recurrent period density entropy); и/или показатель, получаемый в результате анализа сигнала с исключением внутреннего тренда (Detrended Fluctuation Analysis), и/или показатель, получаемый в результате анализа сигнала методом Теккен-Трейлера (Taken's Estimator), и/или показатель, получаемый в результате эмпирической декомпозиции сигнала на уровни (Empirical Mode Decomposition Excitations Ratios). 29. The method according to claim 8, characterized in that to determine the parameters characterizing the nonlinearity of the voice signal, the Shannon entropy method, and/or the Rainier entropy method, and/or the Value of First Minimum of Mutual Information Function are used ), and/or signal periodicity indicator (Recurrent period density entropy); and/or an indicator obtained as a result of signal analysis with the exception of the internal trend (Detrended Fluctuation Analysis), and/or an indicator obtained as a result of signal analysis using the Tekken-Trailer method (Taken's Estimator), and/or an indicator obtained as a result of empirical signal decomposition to levels (Empirical Mode Decomposition Excitations Ratios).
30. Способ по п.8, характеризующийся тем, что для определения физиологических свойств голосовых складок используют параметры, характеризующие массу и жесткость в одномассовой модели голосовых складок, коэффициент открытия голосовой щели (Glottis Quotient) и/или показатель возбуждения голосовых складок (Vocal Fold Excitation Ratios). 30. The method according to claim 8, characterized in that to determine the physiological properties of the vocal folds, parameters characterizing the mass and stiffness in a single-mass model of the vocal folds, the glottis opening coefficient (Glottis Quotient) and/or the vocal fold excitation index (Vocal Fold Excitation) are used Ratios).
PCT/RU2013/000672 2013-04-29 2013-08-05 Method for determining an individual's risk of developing disorders on the basis of the individual's voice, and hardware and software system for implementing same WO2014178749A1 (en)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
RU2013119828 2013-04-29
RU2013119828/08A RU2559689C2 (en) 2013-04-29 2013-04-29 Method of determining risk of development of individual's disease by their voice and hardware-software complex for method realisation

Publications (1)

Publication Number Publication Date
WO2014178749A1 true WO2014178749A1 (en) 2014-11-06

Family

ID=51843751

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/RU2013/000672 WO2014178749A1 (en) 2013-04-29 2013-08-05 Method for determining an individual's risk of developing disorders on the basis of the individual's voice, and hardware and software system for implementing same

Country Status (2)

Country Link
RU (1) RU2559689C2 (en)
WO (1) WO2014178749A1 (en)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN116473521A (en) * 2023-06-21 2023-07-25 四川大学华西医院 Voice frequency spectrum identification method and system for suspected cyprocoytenoid dislocation
EP4101370A4 (en) * 2020-03-05 2024-03-06 The Catholic University Of Korea Industry-Academic Cooperation Foundation Apparatus for diagnosing disease causing voice and swallowing disorders and method for diagnosing same

Families Citing this family (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2582050C1 (en) * 2015-01-28 2016-04-20 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Пензенский государственный университет" (ФГБОУ ВПО "Пензенский государственный университет") Method for adaptive processing of speech signals in conditions of unstable operation of speech apparatus

Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008054162A1 (en) * 2006-11-03 2008-05-08 Min Hwa Lee Method, apparatus, and system for diagnosing health status of mobile terminal users
US20080300867A1 (en) * 2007-06-03 2008-12-04 Yan Yuling System and method of analyzing voice via visual and acoustic data
US20120220899A1 (en) * 2011-02-28 2012-08-30 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice

Family Cites Families (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
RU2313280C1 (en) * 2006-05-16 2007-12-27 Государственное образовательное учреждение высшего профессионального образования "Курский государственный технический университет" Method for studying vocal cords functional state

Patent Citations (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2008054162A1 (en) * 2006-11-03 2008-05-08 Min Hwa Lee Method, apparatus, and system for diagnosing health status of mobile terminal users
US20080300867A1 (en) * 2007-06-03 2008-12-04 Yan Yuling System and method of analyzing voice via visual and acoustic data
US20120220899A1 (en) * 2011-02-28 2012-08-30 Samsung Electronics Co., Ltd. Apparatus and method of diagnosing health by using voice

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
EP4101370A4 (en) * 2020-03-05 2024-03-06 The Catholic University Of Korea Industry-Academic Cooperation Foundation Apparatus for diagnosing disease causing voice and swallowing disorders and method for diagnosing same
CN116473521A (en) * 2023-06-21 2023-07-25 四川大学华西医院 Voice frequency spectrum identification method and system for suspected cyprocoytenoid dislocation
CN116473521B (en) * 2023-06-21 2023-08-18 四川大学华西医院 Voice frequency spectrum identification method and system for suspected cyprocoytenoid dislocation

Also Published As

Publication number Publication date
RU2013119828A (en) 2014-11-10
RU2559689C2 (en) 2015-08-10

Similar Documents

Publication Publication Date Title
Kadiri et al. Analysis and detection of pathological voice using glottal source features
Kreiman et al. Variability in the relationships among voice quality, harmonic amplitudes, open quotient, and glottal area waveform shape in sustained phonation
Rusz et al. Quantitative acoustic measurements for characterization of speech and voice disorders in early untreated Parkinson’s disease
Basilakos et al. A multivariate analytic approach to the differential diagnosis of apraxia of speech
Karan et al. Hilbert spectrum analysis for automatic detection and evaluation of Parkinson’s speech
AU2013274940B2 (en) Cepstral separation difference
Hlavnička et al. Acoustic tracking of pitch, modal, and subharmonic vibrations of vocal folds in Parkinson’s disease and parkinsonism
Mittal et al. Analysis of production characteristics of laughter
Lansford et al. Free-classification of perceptually similar speakers with dysarthria
Khan et al. Cepstral separation difference: A novel approach for speech impairment quantification in Parkinson's disease
Pah et al. Phonemes based detection of parkinson’s disease for telehealth applications
Vojtech et al. Refining algorithmic estimation of relative fundamental frequency: Accounting for sample characteristics and fundamental frequency estimation method
Cordella et al. Classification-based screening of Parkinson’s disease patients through voice signal
Kopf et al. Pitch strength as an outcome measure for treatment of dysphonia
RU2559689C2 (en) Method of determining risk of development of individual's disease by their voice and hardware-software complex for method realisation
Jalali-najafabadi et al. Acoustic analysis and digital signal processing for the assessment of voice quality
Mittapalle et al. Glottal flow characteristics in vowels produced by speakers with heart failure
Ekström et al. PREQUEL: Supervised phonetic approaches to analyses of great ape quasi-vowels
Cordeiro et al. Spectral envelope first peak and periodic component in pathological voices: A spectral analysis
Dubey et al. Detection and assessment of hypernasality in repaired cleft palate speech using vocal tract and residual features
Reddy et al. Exemplar-Based Sparse Representations for Detection of Parkinson's Disease From Speech
Narendra et al. Automatic intelligibility assessment of dysarthric speech using glottal parameters
Selvakumari et al. A voice activity detector using SVM and Naïve Bayes classification algorithm
Le The use of spectral information in the development of novel techniques for speech-based cognitive load classification
Schultz et al. A tutorial review on clinical acoustic markers in speech science

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 13883386

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 13883386

Country of ref document: EP

Kind code of ref document: A1