WO2006132159A1 - ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム - Google Patents

ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム Download PDF

Info

Publication number
WO2006132159A1
WO2006132159A1 PCT/JP2006/311123 JP2006311123W WO2006132159A1 WO 2006132159 A1 WO2006132159 A1 WO 2006132159A1 JP 2006311123 W JP2006311123 W JP 2006311123W WO 2006132159 A1 WO2006132159 A1 WO 2006132159A1
Authority
WO
WIPO (PCT)
Prior art keywords
frequency
pitch
speech
autocorrelation waveform
pitch frequency
Prior art date
Application number
PCT/JP2006/311123
Other languages
English (en)
French (fr)
Inventor
Shunji Mitsuyoshi
Kaoru Ogata
Fumiaki Monma
Original Assignee
A.G.I. Inc.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by A.G.I. Inc. filed Critical A.G.I. Inc.
Priority to JP2007520082A priority Critical patent/JP4851447B2/ja
Priority to CA2611259A priority patent/CA2611259C/en
Priority to EP06756944A priority patent/EP1901281B1/en
Priority to KR1020087000497A priority patent/KR101248353B1/ko
Priority to CN2006800201678A priority patent/CN101199002B/zh
Priority to US11/921,697 priority patent/US8738370B2/en
Publication of WO2006132159A1 publication Critical patent/WO2006132159A1/ja

Links

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals

Definitions

  • Speech analysis apparatus speech analysis method, and speech analysis program for detecting pitch frequency
  • the present invention relates to a speech analysis technique for detecting a pitch frequency of speech.
  • the present invention also relates to an emotion detection technique for estimating an emotion from the pitch frequency of speech.
  • Patent Document 1 proposes a technique for obtaining the fundamental frequency of a singing voice and estimating the emotion of the singer from the vertical change of the basic frequency at the end of the singing.
  • Patent Document 1 Japanese Patent Laid-Open No. 10-187178
  • an object of the present invention is to provide a technique for accurately and reliably detecting the frequency of sound.
  • Another object of the present invention is to provide a new emotion estimation technique based on speech processing.
  • the speech analysis apparatus of the present invention includes a speech acquisition unit, a frequency conversion unit, an autocorrelation unit, and a pitch detection unit.
  • the voice acquisition unit captures the voice signal of the subject.
  • the frequency conversion unit converts the audio signal into a frequency spectrum.
  • the autocorrelation unit obtains the autocorrelation waveform while shifting the frequency spectrum on the frequency axis.
  • the pitch detector obtains a pitch frequency based on the local crests or crests or troughs of the autocorrelation waveform.
  • the autocorrelation unit obtains discrete data of the autocorrelation waveform while discretely shifting the frequency spectrum on the frequency axis.
  • the pitch detector interpolates the discrete data of the autocorrelation waveform, and the interpolated line force also determines the frequency of local peaks or valleys.
  • the pitch detector obtains the pitch frequency based on the appearance frequency interval thus obtained.
  • the pitch detection unit obtains a plurality of (appearance order, appearance frequency) for at least one of peaks or valleys of the autocorrelation waveform.
  • the pitch detection unit performs a regression analysis on the appearance order and the appearance frequency, and obtains the pitch frequency based on the slope of the obtained regression line.
  • the pitch detection unit excludes a sample having a small level fluctuation of the autocorrelation waveform from a plurality of populations (order of appearance, frequency of appearance) obtained.
  • the pitch detector performs a regression analysis on the remaining population in this way, and based on the slope of the obtained regression line! /, Find the pitch frequency.
  • the pitch detection unit includes an extraction unit and a subtraction unit.
  • the extraction unit extracts “a component dependent on formants” included in the autocorrelation waveform by approximating the autocorrelation waveform with a curve.
  • the subtractor obtains an autocorrelation waveform that reduces the influence of formants by removing this component.
  • the pitch detection unit can obtain the pitch frequency based on the autocorrelation waveform in which the influence of formants is reduced.
  • the speech analysis apparatus described above includes a correspondence storage unit and an emotion estimation unit.
  • the correspondence storage unit stores at least a correspondence relationship between “pitch frequency” and “emotion state”.
  • the emotion estimation unit inquires the pitch frequency detected by the pitch detection unit in the correspondence relationship, and estimates the emotional state of the subject.
  • the pitch detection unit is configured such that “the degree of dispersion of the (appearance order, appearance frequency) with respect to the regression line” and “the deviation between the regression line and the origin”. At least one is determined as irregularity of the pitch frequency.
  • This speech analysis apparatus includes a correspondence storage unit and an emotion estimation unit.
  • the correspondence storage unit stores at least a correspondence relationship between “pitch frequency” and “irregularity of pitch frequency” and “emotional state”.
  • the emotion estimation unit queries the “pitch frequency” obtained by the pitch detection unit and “irregularity of the pitch frequency” in the correspondence relationship, and estimates the emotional state of the subject.
  • the speech analysis method of the present invention includes the following steps.
  • Step 1 Step of capturing the subject's audio signal
  • Step 2 Step of converting audio signal into frequency spectrum
  • Step 3 Step to obtain autocorrelation waveform while shifting the frequency spectrum on the frequency axis
  • Step 4 Step of obtaining the pitch frequency based on the local peak-to-peak or valley-to-valley interval of the autocorrelation waveform
  • the speech analysis program of the present invention is a program for causing a computer to function as the speech analysis apparatus according to any one of the above ⁇ 1 >> to ⁇ 7 >>.
  • an audio signal is converted into a frequency spectrum.
  • This frequency spectrum includes fluctuations of the fundamental frequency and irregularities of harmonic components as noise components. For this reason, it is difficult to read the fundamental frequency of this frequency spectrum force.
  • the present invention obtains an autocorrelation waveform while shifting this frequency spectrum on the frequency axis.
  • this autocorrelation waveform spectral noise with low periodicity is suppressed.
  • harmonic components with strong periodicity appear as peaks in the autocorrelation waveform.
  • the pitch frequency is accurately obtained by obtaining the interval between the local peaks and peaks (or valleys and valleys) that appear periodically from the autocorrelation waveform with reduced noise.
  • the pitch frequency obtained in this way may be similar to the fundamental frequency, but it does not necessarily match the fundamental frequency because it is not calculated from the maximum peak or the first peak of the self-correlation waveform. Rather, by determining the spacing force between the peaks and peaks (or valleys and valleys), it is possible to determine the pitch frequency stably and accurately even for voice power with an unclear basic frequency.
  • the interval between local peaks and peaks (or valleys and valleys) that appear periodically in the autocorrelation waveform may be unequal.
  • the pitch frequency is determined with reference to only one force interval, the exact pitch frequency cannot be obtained. Therefore, it is preferable to obtain a plurality of (appearance order, appearance frequency) for at least one of the peaks or valleys of the autocorrelation waveform. By approximating these (appearance order, appearance frequency) with a regression line, it is possible to obtain a pitch frequency that equalizes the variation of the unequal interval.
  • the pitch frequency obtained in this way is a parameter that represents characteristics such as voice pitch and voice quality, and it also changes sensitively depending on the emotion during speech. Therefore, by using this pitch frequency as a material for emotion estimation, it is possible to reliably perform emotion estimation even for speech whose fundamental frequency is difficult to detect.
  • the degree of variance of (appearance order, appearance frequency) with respect to the regression line is statistically obtained.
  • the deviation between the regression line and the origin is obtained.
  • the irregularity obtained in this way indicates the quality of the voice collection environment and the subtle changes in the voice. Therefore, by adding irregularity of this pitch frequency to the material for emotion estimation, it is possible to increase the types of emotions that can be estimated and to increase the success rate of subtle emotion estimation.
  • FIG. 1 is a block diagram of an emotion detection device (including a voice analysis device) 11.
  • FIG. 2 is a flowchart for explaining the operation of the emotion detection device 11.
  • FIG. 3 is a diagram for explaining a process of processing an audio signal.
  • FIG. 4 is a diagram illustrating an autocorrelation waveform interpolation process.
  • FIG. 5 is a diagram for explaining the relationship between the regression line and the pitch frequency.
  • FIG. 1 is a block diagram of an emotion detection device (including a voice analysis device) 11.
  • the emotion detection device 11 has the following configuration.
  • Microphone 12. 'Converts the voice of the subject into a voice signal.
  • Frequency converter 14 ⁇ Performs frequency conversion of the captured audio signal and obtains the frequency spectrum of the audio signal.
  • Pitch detector 16 Frequency interval between peaks and peaks (or valleys and valleys) of the autocorrelation waveform is obtained as the pitch frequency.
  • Correspondence storage section 17 Stores the correspondence between judgment materials such as pitch frequency and dispersion and the emotional state of the subject. This correspondence is based on experimental data such as pitch frequency and dispersion.
  • Emotion estimation unit 18 The pitch frequency obtained by the pitch detection unit 16 is referred to the correspondence relationship in the correspondence storage unit 17 to determine the corresponding emotional state.
  • the determined emotional state is output as an estimated emotion.
  • configurations 13 to 18 may be configured as a nodeware. Also, by executing an emotion detection program (including speech analysis program) on the computer, implement part or all of configurations 13 to 18 in software.
  • an emotion detection program including speech analysis program
  • FIG. 2 is a flowchart for explaining the operation of the emotion detection device 11.
  • Step S1 The frequency conversion unit 14 receives an FFT (Fast Fourier Transform) from the voice acquisition unit 13. ) Cut out the audio signal in the interval necessary for the calculation (see Fig. 3 [A]). At this time, a window function such as a cosine window is applied to the cutout section so as to reduce the influence of both ends of the cutout section.
  • FFT Fast Fourier Transform
  • Step S2 The frequency converter 14 performs an FFT operation on the audio signal processed by the window function to obtain a frequency spectrum (see FIG. 3 [B]).
  • level suppression processing by a general logarithmic operation if level suppression processing by a general logarithmic operation is performed, a negative value is generated, so that the autocorrelation operation described later becomes complicated and difficult. Therefore, it is preferable to perform a level suppression process for obtaining a positive value such as a root calculation that is not performed in the logarithmic calculation level suppression process for the frequency spectrum.
  • Step S3 In the frequency spectrum, a spectrum equivalent to a harmonic overtone appears periodically. However, since the frequency spectrum of speech speech contains complex components as shown in Fig. 3 [B], it is difficult to clearly distinguish the periodic spectrum. Therefore, the autocorrelation unit 15 sequentially obtains autocorrelation values while shifting the frequency spectrum by a predetermined width in the frequency axis direction. Autocorrelation waveforms can be obtained by plotting discrete data of autocorrelation values obtained by this calculation for each shift frequency (see Fig. 3 [C]).
  • the frequency spectrum includes unnecessary components (DC component and extremely low frequency components) other than the voice band. These unnecessary components upset the autocorrelation calculation. Therefore, prior to the calculation of autocorrelation, the frequency conversion unit 14 preferably suppresses or removes these unnecessary components of the frequency spectrum force.
  • a DC component for example, 60 Hz or less
  • a DC component for example, 60 Hz or less
  • a predetermined lower limit level for example, the average level of the frequency spectrum
  • cut off the frequency spectrum lower limit
  • cut the minute frequency component as noise! /.
  • Step S4 The autocorrelation waveform is discrete data as shown in FIG. Therefore, the pitch detection unit 16 obtains the appearance frequency for a plurality of peaks and Z or valleys by interpolating discrete data.
  • a method of interpolating discrete data in the vicinity of peaks and valleys by linear interpolation or a curve function is simple and preferable. If the interval of the scattered data is sufficiently narrow, the interpolation processing of the discrete data can be omitted. In this way, a plurality of sample data of (appearance order, appearance frequency) is obtained.
  • Step S5 The pitch detection unit 16 takes out the sample data of the population power obtained in Step S4 and arranges the appearance frequencies in the order of appearance. At this time, the level fluctuation of the autocorrelation waveform is small, so the order of appearance removed is a missing number.
  • the pitch detection unit 16 performs a regression analysis in the coordinate space in which the sample data are arranged in this way, and obtains the slope of the regression line. Based on this slope, it is possible to obtain a pitch frequency that eliminates fluctuations in the appearance frequency.
  • the pitch detection unit 16 statistically obtains the variance of the appearance frequency with respect to the regression line and sets it as the variance of the pitch frequency.
  • the deviation between the regression line and the origin (for example, the intercept of the regression line) is obtained and this deviation force is larger than the predetermined allowable limit, it is a speech section (noise, etc.) that is not suitable for pitch frequency detection. May be determined. In this case, it is preferable to detect the pitch frequency in the remaining voice intervals except for the voice interval.
  • Step S6 The emotion estimation unit 18 inquires the data of (pitch frequency, variance) obtained in step S5 in the correspondence relationship of the correspondence storage unit 17, and the corresponding emotional state (anger, joy, tension) Or grief). [0020] [Effects of the present embodiment]
  • the pitch frequency in the present embodiment corresponds to the interval between the peaks and peaks (or valleys and valleys) of the autocorrelation waveform, and corresponds to the slope of the regression line in FIGS.
  • the conventional fundamental frequency corresponds to the appearance frequency of the first peak shown in Fig. 5 [A] and [B].
  • the regression line passes near the origin, and its variance is small. In this case, peaks appear regularly in the autocorrelation waveform at approximately equal intervals. Therefore, even in the prior art, the basic frequency can be detected clearly.
  • the reliability of the pitch frequency is determined based on whether the regression line obtained from the appearance frequency of the mountain passes near the origin, whether the variance of the pitch frequency is small, or the like. can do. Therefore, according to the present embodiment, it is possible to remove the material power of emotion estimation by determining that the pitch signal reliability of FIG. 5 [B] is low and that the reliability of the pitch frequency is low! This makes it possible to use only a reliable pitch frequency and further increase the success rate of emotion estimation.
  • the degree of inclination can be obtained as a broad pitch frequency. It is also preferable to use this broad pitch frequency as a material for emotion estimation. Furthermore, it is also possible to obtain “dispersion degree” and Z or “deviation between regression line and origin” as irregularities in pitch frequency. It is also preferable to use the irregularity obtained in this way as a material for emotion estimation. Of course, it is also preferable to use the pitch frequency and the irregularity obtained in this way as materials for emotion estimation. These processes enable not only narrow pitch frequency but also emotion estimation that comprehensively reflects the characteristics and changes of the audio frequency.
  • local peaks and peaks are obtained by interpolating discrete data of autocorrelation waveforms. Find the interval (or valley). Therefore, it is possible to obtain the pitch frequency with a much higher resolution. As a result, it becomes possible to detect changes in the pitch frequency more precisely, and it is possible to estimate emotions more precisely.
  • the degree of dispersion of pitch frequency (such as dispersion and standard deviation) is also added to the judgment material for emotion estimation.
  • This degree of pitch frequency dispersion indicates unique information such as the instability of the audio signal and the degree of dissonance, and is suitable for detecting emotions such as the speaker's lack of confidence and the degree of tension. Also, it is possible to realize a lie detector that detects lie-specific emotions based on the degree of tension.
  • the appearance frequency of peaks and valleys is obtained as it is as the autocorrelation waveform force.
  • the present invention is not limited to this.
  • a specific peak (formant) that moves with time appears in the frequency component of the audio signal.
  • a component that reflects this formant also appears in the autocorrelation waveform. Therefore, it is preferable to estimate the “component depending on the formant” included in the autocorrelation waveform by approximating the autocorrelation waveform with a curve function that does not fit to the fine fluctuations of the mountains and valleys.
  • an autocorrelation waveform with reduced formant effects can be obtained.
  • the autocorrelation waveform force can also remove the turbulence waveform due to formants, and the pitch frequency can be obtained more accurately and reliably.
  • a small peak appears between the peaks of the autocorrelation waveform. If this small peak is mistakenly recognized as the peak of the autocorrelation waveform, the half-pitch frequency is obtained. In this case, it is preferable to compare the heights of the peaks of the autocorrelation waveform, and regard the small peaks as waveform valleys. This process makes it possible to obtain an accurate pitch frequency.
  • a regression analysis may be performed on the autocorrelation waveform to obtain a regression line, and the peak point of the autocorrelation waveform above the regression line may be detected as a peak of the autocorrelation waveform.
  • emotion estimation is performed using (pitch frequency, variance) as a determination material.
  • emotion estimation may be performed using at least the pitch frequency as a judgment material.
  • emotion estimation may be performed using time series data obtained by collecting such judgment materials in time series.
  • emotion estimation that takes into account the changing tendency of emotion may be realized by adding emotion estimated in the past to the judgment material.
  • emotion estimation that considers the content of the conversation may be realized by adding the speech-recognized semantic information to the determination material.
  • the pitch frequency is obtained by regression analysis.
  • the embodiment is not limited to this.
  • the pitch frequency may be obtained by obtaining the interval between peaks (or valleys) of the autocorrelation waveform.
  • the pitch frequency may be obtained for each interval between peaks (or valleys), and statistical processing may be performed using the plurality of pitch frequencies as a population to determine the pitch frequency and the degree of dispersion thereof.
  • the pitch frequency is obtained by speaking voice, and the correspondence for emotion estimation can be created based on the time change (inflection amount) of the pitch frequency. preferable.
  • the inventor tried to estimate the emotion of a song (a kind of audio signal) such as a singing voice or a musical instrument performance, using the correspondence created experimentally from this spoken voice.
  • inflection information reflecting a plurality of notes by sampling a long speech section including a plurality of notes such as a clause unit and obtaining a pitch frequency.
  • the feeling of joy Z sadness is detected according to the difference in tone such as major Z minor It becomes possible to do.
  • a strong joy can be detected in a rusted portion with a good tempo that floats and floats.
  • intense drum sound makes it possible to detect anger.
  • the emotion detection device of this embodiment it is possible to estimate the emotion appearing in the music.
  • the corresponding emotional state is estimated based on the pitch frequency.
  • the present invention is not limited to this.
  • the emotional state may be estimated with at least one of the following parameters.
  • a correspondence relationship for emotion estimation can be created in advance.
  • the correspondence storage unit 17 stores this correspondence relationship.
  • the emotion estimation unit 18 correlates the pitch frequency obtained for the voice signal power with the above parameters.
  • the emotional state is estimated by referring to the correspondence relationship in the storage unit 17.
  • Extracting the pitch frequency of emotional elements such as speech and acoustic power finds the frequency characteristics and pitch.
  • the ability to change on the time axis can be easily obtained for Sarako, formant information and power information. Furthermore, it is possible to visualize this information.
  • the change pattern information in the time change of the information obtained by the pitch analysis in this embodiment can be used for video, action (expression and motion), music, video, syntax, etc. Application is also possible.
  • rhythm information Information having a rhythm such as video, action (expression and motion), music, video, syntax, etc.
  • rhythm information can also be regarded as an audio signal for pitch analysis.
  • rhythm information can be used to analyze change patterns on the time axis. Based on these analysis results, the rhythm information can be visualized or voiced to be converted into information in another form of expression.
  • change patterns obtained by emotion, sensitivity, rhythm information, timbre analysis means, etc. can be applied to emotional sensitivity psychological analysis. Using the results, it is also possible to obtain shared or linked sensitivity change patterns, parameters, thresholds, etc.
  • the pitch frequency can be detected stably and reliably from an unclear singing voice, nose song, musical instrument sound, or the like. By applying this, it is possible to realize a karaoke system that accurately evaluates and determines the accuracy of singing even for unclear singing voices that were difficult to evaluate in the past.
  • the speech analysis of the present invention can be applied to a language education system. That is, by using the speech analysis of the present invention, the pitch frequency can be detected stably and reliably from the utterances of unfamiliar foreign languages, standard words and dialects. Based on this pitch frequency, it becomes possible to construct a language education system that induces correctness, rhythm and pronunciation of foreign languages, standard languages and dialects.
  • the speech analysis of the present invention can also be applied to a voice training system.
  • a voice training system that teaches the correct utterance method by detecting instability of the pitch or an error in the utterance method and outputting advice from the pitch frequency of the voice.
  • mental state estimation results can be used for all products that change treatment in response to mental state. For example, building a virtual personality (agent, character, etc.) on the computer that changes the response (such as personality, conversational characteristics, psychological characteristics, sensibility, emotional pattern, or conversational branching pattern) according to the mental state of the other party Is possible. Also, for example, depending on the customer's mental condition, product search, product complaint handling, call center operations, reception system, customer sentiment analysis, customer management, games, pachinko, pachislot, content distribution, content creation, network It can also be applied to systems that implement search, mobile phone services, product descriptions, presentations, or educational support.
  • the mental state estimation result can also be used for all products that improve the processing accuracy by using the mental state as calibration information about the user.
  • the speech recognition system it is possible to improve the accuracy of speech recognition by selecting a vocabulary having high affinity for the mental state of the speaker from the recognized vocabulary candidates.
  • the estimation result of the mental state can be used for all products that increase security by inferring the user's unauthorized intention from the mental state.
  • a user-one authentication system it is possible to increase security by rejecting authentication or requesting additional authentication for users who show mental state such as anxiety or performance. It is also possible to build a ubiquitous system based on such high-security authentication technology.
  • the mental state estimation result can also be used for all products that handle the mental state as an operation input.
  • a system that executes processing (control, voice processing, image processing, text processing, etc.) using the mental state as an operation input can be realized.
  • a story creation support system that develops a story by controlling character movement using mental states as operation inputs.
  • a music creation support system that creates music and arranges music according to the mental state by changing the temperament, keys, or the musical instrument composition using the mental state as the operation input.
  • an effect device that controls the surrounding environment such as lighting and BGM using the mental state as an operation input.
  • the estimation result of the mental state can be used for all apparatuses for the purpose of psychoanalysis, emotion analysis, sensitivity analysis, personality analysis, or psychological analysis.
  • the estimation result of the mental state is an apparatus for outputting the mental state externally using expression means such as sound, voice, music, fragrance, color, video, text, vibration, or light. It can also be used in general. By using such a device, it is possible to support communication of emotions in humans.
  • the mental state estimation result can be used for all communication systems that communicate information on the mental state. For example, it can be applied to Kansei communication or Kansei emotion resonance communication.
  • the mental state estimation result can also be used for all devices that determine (evaluate) the psychological effects of content such as video and music on humans. Furthermore, by classifying content using this psychological effect as an item, it is possible to construct a database system that enables content search from the aspect of psychological effect.
  • the result of mental state estimation can be used for all devices that objectively determine the degree of user satisfaction at the time of using a product based on the mental state.
  • Nursing care support system counseling system, car navigation, vehicle control, driver condition monitoring, user interface, operation system, robot, avatar, online shopping mall, correspondence education system, e-learning, learning system, manner training, Know-how learning system, ability judgment, semantic information judgment, artificial intelligence field, application to neural networks (including neurons), simulation that requires a stochastic model Criteria, branching criteria, psychological elements input to economic simulation, etc., questionnaire collection, analysis of artists' emotions and sensibilities, financial credit survey, credit management system, content such as fortune telling, wearable Computers, ubiquitous network products, support for human perception judgment, advertising work, management of buildings and halls, filtering, support for user judgment, control of kitchens, baths, toilets, human devices, softness, Clothing linked with fibers that change breathability, virtual pets and robots for healing and communication, planning systems, coordinator systems, traffic support control systems, cooking support systems, performance support, DJ video effects, karaoke equipment, video Control system, personal authentication, design, design system System, HR management system, audition, virtual customer group market research, jury's judge simulation system,
  • the present inventor has constructed a measurement environment using a soundproof mask as described below in order to satisfactorily detect the pitch frequency of speech even in a noisy environment.
  • a gas mask (SAYOTY N0I88O-1 manufactured by TOYO) is procured as a base material for the sound mask.
  • This gas mask is made of rubber at the portion covering the mouth. Since this rubber vibrates due to ambient noise, the ambient noise enters the mask. Therefore, silicon (Nissin Resin Co., Ltd., Quick Silicone, light gray liquid, specific gravity 1.3) is injected into this rubber part to make it heavy.
  • the gas mask ventilation filter has a multi-layer stack of 5 or more kitchen papers and sponges to improve sealing performance. A small microphone is fitted in the center of the mask chamber in this state.
  • the soundproof mask prepared in this way can effectively attenuate the vibration of the surrounding noise due to the laminated structure of the silicon's own weight and the foreign material.
  • the result As a result, a small soundproof room in the form of a mask was successfully established around the subject's mouth, and the subject's voice could be collected well while suppressing the influence of ambient noise.
  • the above-described soundproof mask is effective for detecting the pitch frequency.
  • the sealed space of the soundproof mask is narrow, there is a tendency that the sound tends to be trapped. Therefore, it is not suitable for frequency analysis other than pitch frequency and timbre analysis.
  • the present invention is a technique that can be used for a speech analysis apparatus or the like.

Abstract

 本発明の音声解析装置は、音声取得部、周波数変換部、自己相関部、ピッチ検出部を備える。周波数変換部は、音声取得部で取り込んだ音声信号を周波数スペクトルに変換する。自己相関部は、周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める。ピッチ検出部は、自己相関波形のローカルな山と山または谷と谷の間隔からピッチ周波数を求める。

Description

ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析 プログラム
技術分野
[0001] 本発明は、音声のピッチ周波数を検出する音声解析の技術に関する。
また、本発明は、音声のピッチ周波数から感情を推定する感情検出の技術に関す る。
背景技術
[0002] 従来、被験者の音声信号を分析して、被験者の感情を推定する技術が開示されて いる。
例えば、特許文献 1には、歌唱音声の基本周波数を求め、歌い終わりにおける基 本周波数の上下変化から、歌唱者の感情を推定する技術が提案されて 、る。
特許文献 1:特開平 10-187178公報
発明の開示
発明が解決しょうとする課題
[0003] ところで、楽器音では、基本周波数が明瞭に現れるため、基本周波数を検出するこ とが容易である。
し力しながら、一般的な音声では、しわがれ声や震えた声などを含むため、基本周 波数が揺らぐ。また、倍音の構成成分が不規則になる。そのため、この種の音声から 、基本周波数を確実に検出する有効な方法が確立して 、な 、。
そこで、本発明の目的は、音声の周波数を正確かつ確実に検出する技術を提供す ることである。
また、本発明の別の目的は、音声処理に基づく新しい感情推定の技術を提供する ことである。
課題を解決するための手段
[0004] 《1》 本発明の音声解析装置は、音声取得部、周波数変換部、自己相関部、および ピッチ検出部を備える。 音声取得部は、被験者の音声信号を取り込む。
周波数変換部は、音声信号を周波数スペクトルに変換する。
自己相関部は、周波数スペクトルを周波数軸上でずらしながら自己相関波形を求 める。
ピッチ検出部は、自己相関波形のローカルな山と山 (crests)または谷と谷 (troughs) の間隔に基づいてピッチ周波数を求める。
《2》 なお好ましくは、自己相関部は、周波数スペクトルを周波数軸上で離散的にず らしながら、自己相関波形の離散データを求める。ピッチ検出部は、この自己相関波 形の離散データを補間し、その補間ライン力もローカルな山または谷の出現周波数 を求める。ピッチ検出部は、このように求めた出現周波数の間隔に基づいてピッチ周 波数を求める。
《3》 また好ましくは、ピッチ検出部は、自己相関波形の山または谷の少なくとも一方 について、(出現順番,出現周波数)を複数求める。ピッチ検出部は、これらの出現 順番と出現周波数とを回帰分析し、得られた回帰直線の傾きに基づいてピッチ周波 数を求める。
《4》 なお好ましくは、ピッチ検出部は、複数求めた(出現順番,出現周波数)の母集 団から、自己相関波形のレベル変動の小さな標本を除く。ピッチ検出部は、このよう にして残った母集団にっ 、て回帰分析を行 、、得られた回帰直線の傾きに基づ!/、て ピッチ周波数を求める。
《5》 また好ましくは、ピッチ検出部は、抽出部および減算部を備える。
抽出部は、自己相関波形を曲線近似することによって、自己相関波形に含まれる『 フォルマントに依存する成分』を抽出する。
減算部は、自己相関波形力 この成分を除去することにより、フォルマントの影響を 軽減した自己相関波形を求める。
この構成により、ピッチ検出部は、フォルマントの影響を軽減した自己相関波形に 基づいて、ピッチ周波数を求めることが可能になる。
《6》 なお好ましくは、上述した音声解析装置に、対応記憶部、感情推定部を備える 対応記憶部は、少なくとも『ピッチ周波数』と『感情状態』との対応関係を記憶する。 感情推定部は、ピッチ検出部で検出されたピッチ周波数を対応関係に照会して、 被験者の感情状態を推定する。
《7》 なお好ましくは、上記《3》の音声解析装置において、ピッチ検出部は、『回帰直 線に対する(出現順番,出現周波数)の分散度合い』および『回帰直線と原点とのず れ』の少なくとも一方を、ピッチ周波数の不規則性として求める。この音声解析装置に 、対応記憶部、感情推定部を備える。
対応記憶部は、少なくとも『ピッチ周波数』および『ピッチ周波数の不規則性』と、『 感情状態』との対応関係を記憶する。
感情推定部は、ピッチ検出部で求めた『ピッチ周波数』および『ピッチ周波数の不規 則性』を対応関係に照会して、被験者の感情状態を推定する。
《8》 本発明の音声解析方法は、次のステップを有する。
(ステップ 1)被験者の音声信号を取り込むステップ
(ステップ 2)音声信号を周波数スペクトルに変換するステップ
(ステップ 3)周波数スペクトルを周波数軸上でずらしながら自己相関波形を求めるス テツプ
(ステップ 4)自己相関波形のローカルな山と山または谷と谷の間隔に基づいてピッチ 周波数を求めるステップ
《9》 本発明の音声解析プログラムは、コンピュータを、上記《1》〜《7》のいずれか 1 項に記載の音声解析装置として機能させるためのプログラムである。
発明の効果
[1] 本発明では、音声信号を周波数スペクトルにー且変換する。この周波数スぺク トルには、基本周波数の揺らぎや倍音成分の不規則性がノイズ分として含まれる。そ のため、この周波数スペクトル力も基本周波数を読み取ることは困難である。
そこで、本発明は、この周波数スペクトルを周波数軸上でずらしながら自己相関波 形を求める。この自己相関波形では、周期性の低いスペクトルノイズが抑制される。 その結果、自己相関波形には、周期性の強い倍音成分が山となって周期的に現れ る。 本発明では、この低ノイズ化された自己相関波形から、周期的に現れるローカルな 山と山(または谷と谷)の間隔を求めることで、ピッチ周波数を正確に求める。
このように得られたピッチ周波数は、基本周波数に類似する場合もあるが、自己相 関波形の最大ピークや 1番目のピークから求めるわけではないため、必ずしも基本周 波数とは一致しない。むしろ、山と山(または谷と谷)の間隔力も求めることにより、基 本周波数の不明瞭な音声力 も安定かつ正確にピッチ周波数を求めることが可能と なる。
[2] また、本発明においては、周波数スペクトルを周波数軸上で離散的にずらしな がら、自己相関波形の離散データを求めることが好ましい。このような離散的な処理 により、演算回数を軽減し、処理時間の短縮を図ることができる。しかし、離散的にず らす周波数を大きくすると、自己相関波形の分解能が低くなり、ピッチ周波数の検出 精度が低下する。そこで、自己相関波形の離散データを補間して、ローカルな山(ま たは谷)の出現周波数を精密に求めることにより、離散データの分解能よりも細かい 精度でピッチ周波数を求めることが可能になる。
[3] また、音声によっては、自己相関波形に周期的に現れるローカルな山と山(また は谷と谷)の間隔が不等間隔になる場合もある。このとき、どこ力 1箇所の間隔だけを 参照してピッチ周波数を決定しては、正確なピッチ周波数を求めることができな 、。 そこで、自己相関波形の山または谷の少なくとも一方について、(出現順番,出現周 波数)を複数求めることが好ましい。これら(出現順番,出現周波数)を回帰直線で近 似することによって、不等間隔の変動を均したピッチ周波数を求めることが可能にな る。
このようなピッチ周波数の求め方により、極めて微弱な発話音声力 でもピッチ周波 数を正確に求めることが可能になる。その結果、ピッチ周波数の分析が困難な音声 についても、感情推定の成功率を高めることが可能になる。
[4] なお、自己相関波形のレベル変動が小さい箇所は、なだらかな山(または谷)と なるため、山や谷の出現周波数を正確に求めることが困難となる。そこで、上記のよう に求めた(出現順番,出現周波数)の母集団から、自己相関波形のレベル変動の小 さな標本を除くことが好まし 、。このようにして限定した母集団にっ 、て回帰分析を行 うことにより、ピッチ周波数を一段と安定かつ正確に求めることが可能になる。
[5] 音声の周波数成分には、時間的に移動する特定のピークが現れる。このピーク をフォルマントと言う。自己相関波形にも、波形の山谷とは別に、このフォルマントを 反映した成分が現れる。そこで、自己相関波形の揺らぎにフィッティングする程度の 曲線で近似する。この曲線は、自己相関波形に含まれる『フォルマントに依存する成 分』であると推定できる。この成分を、自己相関波形から除くことによって、フォルマン トの影響を軽減した自己相関波形を求めることができる。このような処理を施した自己 相関波形は、フォルマントによる乱れが少なくなる。そのため、ピッチ周波数をより正 確かつ確実に求めることが可能になる。
[6] このように得られるピッチ周波数は、声の高さや声質などの特徴を表すパラメ一 タであり、発話時の感情によっても敏感に変化する。そのため、このピッチ周波数を 感情推定の材料とすることにより、基本周波数の検出困難な音声においても確実に 感情推定を行うことが可能になる。
[7] さらに、周期的な山と山(または谷と谷)の間隔の不規則性を新たな音声特徴と して検出することが好ましい。例えば、回帰直線に対する(出現順番,出現周波数) の分散度合いを統計的に求める。また例えば、回帰直線と原点とのずれを求める。 このように求めた不規則性は、音声の集音環境の善し悪しを示すと共に、声の微妙 な変化を表すものである。そこで、このピッチ周波数の不規則性を感情推定の材料 に加えることにより、推定可能な感情の種類を増やしたり、微妙な感情の推定成功率 を高めることが可能になる。
なお、本発明における上述した目的およびそれ以外の目的は、以下の説明と添付 図面とにおいて具体的に示される。
図面の簡単な説明
[図 1]感情検出装置 (音声解析装置を含む) 11のブロック図である。
[図 2]感情検出装置 11の動作を説明する流れ図である。
[図 3]音声信号の処理過程を説明する図である。
[図 4]自己相関波形の補間処理を説明する図である。
[図 5]回帰直線とピッチ周波数との関係を説明する図である。 発明を実施するための最良の形態
[0007] [実施形態の構成]
図 1は、感情検出装置 (音声解析装置を含む) 11のブロック図である。
図 1において、感情検出装置 11は、下記の構成を備える。
[0008] (1)マイク 12· '被験者の音声を音声信号に変換する。
(2)音声取得部 13 · ·音声信号を取り込む。
(3)周波数変換部 14· ·取り込まれた音声信号を周波数変換し、音声信号の周波数 スぺクトノレを求める。
(4)自己相関部 15 · ·周波数スペクトルについて周波数軸上で自己相関を求め、周 波数軸上に周期的に現れる周波数成分を自己相関波形として求める。
(5)ピッチ検出部 16 · ·自己相関波形の山と山(または谷と谷)の周波数間隔を、ピッ チ周波数として求める。
(6)対応記憶部 17· 'ピッチ周波数や分散などの判断材料と、被験者の感情状態と の対応関係を記憶する。この対応関係は、ピッチ周波数や分散などの実験データと
、被験者の申告する感情状態 (怒り、喜び、緊張、または悲しみなど)とを対応付ける ことによって作成できる。この対応関係の記述方式としては、対応テーブルや判断口 ジックやニューラルネットなどが好まし 、。
(7)感情推定部 18 · ·ピッチ検出部 16で求めたピッチ周波数を、対応記憶部 17の対 応関係に照会して、対応する感情状態を決定する。決定された感情状態は、推定感 情として出力される。
[0009] なお、上述した構成 13〜18については、その一部または全部をノヽードウエア的に 構成してもよい。また、コンピュータにおいて感情検出プログラム (音声解析プロダラ ムを含む)を実行することにより、構成 13〜18の一部または全部をソフトウェア的に 実現してちょい。
[0010] [感情検出装置 11の動作説明]
図 2は、感情検出装置 11の動作を説明する流れ図である。
以下、図 2に示すステップ番号に沿って、具体的な動作を説明する。
[0011] ステップ S1: 周波数変換部 14は、音声取得部 13から FFT (Fast Fourier Transform )演算に必要な区間の音声信号を切り出す (図 3 [A]参照)。このとき、切り出し区間 の両端の影響を軽減するよう、切り出し区間に対してコサイン窓などの窓関数を施す
[0012] ステップ S2 : 周波数変換部 14は、窓関数で加工した音声信号に対して FFT演算を 施し、周波数スペクトルを求める(図 3 [B]参照)。
なお、周波数スペクトルについては、一般的な対数演算によるレベル抑圧処理を施 すと、負値が発生するため、後述する自己相関演算が複雑かつ困難になる。そこで、 周波数スペクトルについては、対数演算のレベル抑圧処理ではなぐルート演算など の正の値が得られるレベル抑圧処理を施しておくことが好ましい。
また、周波数スペクトルのレベル変化を強調する場合には、周波数スペクトルの値 を 4乗演算するなどの強調処理を施してもょ ヽ。
[0013] ステップ S3 : 周波数スペクトルには、楽器音で言えば倍音に相当するスペクトルが 周期的に現れる。しかし、発話音声の周波数スペクトルは、図 3 [B]に示すように複雑 な成分を含むため、このままでは周期的なスペクトルを明確に区別することが難しい 。そこで、自己相関部 15は、この周波数スペクトルを周波数軸方向に所定幅ずつず らしながら自己相関値を順次求める。この演算により得られる自己相関値の離散デ ータを、ずらし周波数ごとにプロットすることによって自己相関波形が得られる(図 3 [ C]参照)。
[0014] なお、周波数スペクトルには、音声帯域以外の不要な成分 (直流成分や極端に低 域の成分)が含まれる。これらの不要な成分は、自己相関の演算を狂わせる。そこで 、自己相関の演算に先立って、周波数変換部 14は、周波数スペクトル力 これらの 不要な成分を抑制または除去しておくことが好ましい。
例えば、周波数スペクトルから、直流成分 (例えば 60ヘルツ以下など)をカットして おくことが好ましい。
また例えば、所定の下限レベル (例えば周波数スペクトルの平均レベル)を設定し て周波数スペクトルの足切り(下限リミット)を行い、微小な周波数成分をノイズとして カットしておくことが好まし!/、。
このような処理により、自己相関演算において生じる波形乱れを未然に防ぐことが できる。
[0015] ステップ S4 : 自己相関波形は、図 4に示すように離散データである。そこで、ピッチ 検出部 16は、離散データを補間することにより、複数の山および Zまたは谷につい て出現周波数を求める。例えば、ここでの補間方法としては、山や谷の付近の離散 データについて、直線補間や曲線関数で補間する方法が簡便で好ましい。なお、離 散データの間隔が十分に狭い場合は、離散データの補間処理を省略することも可能 である。このようにして、(出現順番,出現周波数)の標本データを複数求める。
[0016] なお、自己相関波形のレベル変動が小さい箇所は、なだらかな山(または谷)となる ため、この山や谷の出現周波数を正確に求めることが難しい。そのため、不正確な出 現周波数をそのまま標本として含めると、後から検出するピッチ周波数の精度が下が る。そこで、上記のように求めた(出現順番,出現周波数)の母集団から、自己相関波 形のレベル変動の小さな標本データを判定する。このように判定された標本データを 母集団から取り除くことにより、ピッチ周波数の分析に適した母集団を得る。
[0017] ステップ S5 : ピッチ検出部 16は、ステップ S4で求めた母集団力も標本データをそ れぞれ取り出して、出現周波数を出現順番ごとに並べる。このとき、自己相関波形の レベル変動が小さ 、ために取り除かれた出現順番にっ 、ては欠番となる。
ピッチ検出部 16は、このように標本データを並べた座標空間において回帰分析を 実施し、回帰直線の傾きを求める。この傾きに基づいて、出現周波数の揺らぎを排除 したピッチ周波数を求めることができる。
[0018] なお、回帰分析を実施する際に、ピッチ検出部 16は、回帰直線に対する出現周波 数の分散を統計的に求め、ピッチ周波数の分散とする。
また、回帰直線と原点とのずれ (例えば、回帰直線の切片)を求め、このずれ力 予 め定められた許容限界よりも大きい場合、ピッチ周波数の検出に適さない音声区間( 騒音など)であると判定してもよい。この場合、その音声区間を除いて、残りの音声区 間につ 、てピッチ周波数を検出することが好ま 、。
[0019] ステップ S6 : 感情推定部 18は、ステップ S5で求めた(ピッチ周波数,分散)のデー タを、対応記憶部 17の対応関係に照会して、対応する感情状態 (怒り、喜び、緊張、 または悲しみなど)を決定する。 [0020] [本実施形態の効果など]
まず、図 5 [A] [B]を用いて、本実施形態と、従来技術との違いについて説明する。 本実施形態のピッチ周波数は、自己相関波形の山と山(または谷と谷)の間隔に相 当し、図 5 [A] [B]では、回帰直線の傾きに対応する。一方、従来の基本周波数は、 図 5 [A] [B]に示す一番目の山の出現周波数に相当する。
[0021] 図 5 [A]では、回帰直線が原点近傍を通過し、その分散が小さい。この場合、自己 相関波形には、山がほぼ等間隔に規則正しく現れる。したがって、従来技術でも、基 本周波数を明瞭に検出できるケースである。
[0022] 一方、図 5 [B]は、回帰直線が原点力 大きく外れ、分散が大きい。この場合、自己 相関波形の山は不等間隔に現れる。したがって、基本周波数が不明瞭な音声であり
、基本周波数を特定することが困難となる。従来技術では、一番目の山の出現周波 数から求めるため、このようなケースにおいては、間違った基本周波数を求めてしまう
[0023] 本発明では、このようなケースでは、山の出現周波数から求めた回帰直線が原点 近傍を通るか否か、ピッチ周波数の分散が小さいか否かなどによって、ピッチ周波数 の信頼性を判断することができる。したがって、本実施形態では、図 5 [B]の音声信 号につ!、ては、ピッチ周波数の信頼性が低!、と判断して感情推定の材料力 除くこ とが可能になる。そのことにより、信頼性の高いピッチ周波数のみを使用することが可 能になり、感情推定の成功率を一段と高めることが可能になる。
[0024] なお、図 5 [B]のようなケースにおいては、傾きの程度を広義のピッチ周波数として 求めることが可能である。この広義のピッチ周波数を感情推定の材料とすることも好ま しい。さらに、『分散度合い』および Zまたは『回帰直線と原点とのずれ』をピッチ周波 数の不規則性として求めることも可能である。このように求めた不規則性を、感情推 定の材料とすることも好ましい。もちろん、このように求めた広義のピッチ周波数およ びその不規則性を、感情推定の材料とすることも好ましい。これらの処理では、狭義 のピッチ周波数に限らず、音声周波数の特徴や変化を総合的に反映した感情推定 が可能になる。
[0025] また、本実施形態では、自己相関波形の離散データを補間して、ローカルな山と山 (または谷と谷)の間隔を求める。したがって、一段と高い分解能でピッチ周波数を求 めることが可能になる。その結果、ピッチ周波数の変化をより細力べ検出することが可 能になり、より精細な感情推定が可能になる。
[0026] さらに、本実施形態では、ピッチ周波数の分散度合い (分散や標準偏差など)も、 感情推定の判断材料に加える。このピッチ周波数の分散度合いは、音声信号の不 安定さや不協和音の度合いなどの独特な情報を示すものであり、発話者の自信の無 さや緊張度合いなどの感情を検出するのに適している。また、この緊張度合いなどか らうそ特有の感情を検出するうそ発見器を実現することなどが可能になる。
[0027] [実施形態の補足事項]
なお、上述した実施形態では、自己相関波形力 そのまま山や谷の出現周波数を 求めている。し力しながら、本発明はこれに限定されるものではない。
[0028] 例えば、音声信号の周波数成分には、時間的に移動する特定のピーク (フォルマン ト)が現れる。自己相関波形にも、ピッチ周波数とは別に、このフォルマントを反映した 成分が現れる。そこで、自己相関波形を、山谷の細かな変動にフィッティングしない 程度の曲線関数で近似することで、自己相関波形に含まれる『フォルマントに依存す る成分』を推定することが好ましい。このように推定した成分 (近似曲線)を、自己相関 波形力 減算することによって、フォルマントの影響を軽減した自己相関波形を求め ることができる。このような処理を施すことにより、自己相関波形力もフォルマントによ る乱れ波形を除くことが可能になり、ピッチ周波数をより正確かつ確実に求めることが 可會 になる。
[0029] また例えば、特殊な音声信号では、自己相関波形の山と山の間に小さな山が出現 する。この小さな山を、自己相関波形の山と誤認識すると、ハーフピッチの周波数を 求めてしまうことになる。この場合、自己相関波形の山の高さを比較して、小さな山に ついては波形の谷と見なすことが好ましい。この処理により、正確なピッチ周波数を 求めることが可能になる。
[0030] また例えば、自己相関波形に対して回帰分析を行って回帰直線を求め、その回帰 直線より上側の自己相関波形のピーク点を、自己相関波形の山として検出してもよい [0031] 上述した実施形態では、(ピッチ周波数,分散)を判断材料として感情推定を実施 する。し力しながら、実施形態はこれに限定されるものではない。例えば、少なくとも ピッチ周波数を判断材料として感情推定を実施してもよい。また例えば、このような判 断材料を時系列に収集した時系列データを判断材料として感情推定を実施してもよ い。また例えば、過去に推定した感情を判断材料に加えることで、感情の変化傾向を 加味した感情推定を実現してもよい。また例えば、音声認識した意味情報を判断材 料に加えることにより、会話内容を加味した感情推定を実現してもよい。
[0032] また、上述した実施形態では、回帰分析によりピッチ周波数を求めて 、る。しかしな がら、実施形態はこれに限定されるものではない。例えば、自己相関波形の山(また は谷)の間隔を求めて、ピッチ周波数としてもよい。また例えば、山(または谷)の間隔 ごとにピッチ周波数を求め、これら複数のピッチ周波数を母集団として統計処理を実 施し、ピッチ周波数およびその分散度合 、を決定してもよ 、。
[0033] なお、上述した実施形態では、話し声にっ 、てピッチ周波数を求め、そのピッチ周 波数の時間変化 (抑揚的な変化量)に基づいて、感情推定用の対応関係を作成する ことが好ましい。
[0034] 本発明者は、この話し声から実験的に作成された対応関係を使用して、歌声や楽 器演奏などの楽曲(音声信号の一種)についても感情推定を試みた。
[0035] 具体的には、音符よりも短い時間間隔でピッチ周波数の時間変化をサンプリングす ることにより、単純な音程変化とは異なる抑揚的な情報を得ることが可能になる。(な お、一つのピッチ周波数を求めるための音声区間は、音符よりも短くても長くしてもよ い)
また別の手法として、節単位などの複数の音符を含む長い音声区間でサンプリング してピッチ周波数を求めることで、複数の音符を反映した抑揚的な情報を得ることが 可會 になる。
この楽曲による感情推定では、楽曲を聴いたときに人間が感じる感情 (或いは楽曲 作成者が楽曲に込めたであろう感情)とほぼ同じ傾向の感情出力が得られることが分 かった。
例えば、長調 Z短調といった調子の違いに応じて、喜び Z悲しみという感情を検出 することが可能になる。また、浮き浮きするようなテンポの良いサビ部分では、強い喜 びを検出することが可能になる。また、激しいドラム音力もは、怒りを検出することが可 會 になる。
[0036] なお、ここでは話し声力 作成した対応関係をそのまま兼用している力 楽曲専用 の感情検出装置であれば、楽曲に特化した対応関係を実験的に作成することももち ろん可能である。
このように、本実施形態の感情検出装置を用いることで、楽曲に表れる感情を推定 することも可能になる。これを応用することによって、人間の音楽鑑賞状態をシミュレ ーシヨンする装置や、楽曲の示す喜怒哀楽に応じて反応するロボットなどを作成する ことができる。
[0037] また、上述した実施形態では、ピッチ周波数を基準にして、対応する感情状態を推 定する。し力しながら、本発明はこれに限定されるものではない。例えば、下記のパラ メータの少なくとも 1つを加味して、感情状態を推定してもよい。
(1)時間単位における周波数スペクトラムの変化量
(2)ピッチ周波数の揺らぎ周期、立上がり時間、維持時間、または立下がり時間
(3)低域側の山(谷)から求めたピッチ周波数と平均ピッチ周波数との差
(4)高域側の山(谷)から求めたピッチ周波数と平均ピッチ周波数との差
(5)低域側の山(谷)から求めたピッチ周波数と、高域側の山(谷)から求めたピッチ周 波数との差異、または増減傾向
(6)山(谷)の間隔の最大値、または最小値
(7)山(谷)の連続する数
(8)発話スピード
(9)音声信号のパワー値、またはその時間変動
(10)音声信号における人間の可聴域を外れた周波数域の状態
ピッチ周波数と上記のパラメータの実験データと、被験者の申告する感情状態 (怒 り、喜び、緊張、または悲しみなど)とを対応付けることによって、感情推定用の対応 関係を予め作成することができる。対応記憶部 17は、この対応関係を記憶する。一 方、感情推定部 18は、音声信号力も求めたピッチ周波数と上記パラメータとを、対応 記憶部 17の対応関係に照会することにより、感情状態を推定する。
[0038] [ピッチ周波数の応用例]
(1)音声や音響力もの感情要素のピッチ周波数の抽出 (本実施形態)により、周波数 特性やピッチが求められる。さら〖こ、フォルマント情報やパワー情報についても、時間 軸での変化力も容易に求めることができる。さらに、これら情報を可視化することも可 會 になる。
また、ピッチ周波数の抽出により、時間変化による音声や音響、音楽などの揺らぎ の状態が明確になるため、スムーズな音声や音楽の感情感性リズム解析や音色分析 も可能になる。
[0039] (2)本実施形態でのピッチ解析で得られた情報の時間変化における変化パターン情 報などを感性会話以外にも、映像、アクション (表情や動作)、音楽、映像、構文などに 応用することも可能である。
[0040] (3)また、映像、アクション (表情や動作)、音楽、映像、構文などのリズムを有する情 報 (リズム情報という)を音声信号と見なしてピッチ解析することも可能である。さらに、 リズム情報にっ 、て時間軸での変化パターン分析も可能である。これらの解析結果 に基づいてリズム情報を可視化したり、音声化することにより、別の表現形態の情報 に変換することも可能になる。
[0041] (4)また、感情や感性、リズム情報、音色分析手段などで得られた、変化パターンな どを感情感性心理特性解析などに応用することもできる。その結果を用いて、共有も しくは連動する感性の変化パターンやパラメータ、閾値などを求めることも可能になる
[0042] (5)二次利用として、感情要素のばらつき度合いや多感情の同時検出状態などから 、真意といった心理情報を推測して、心理や精神の状態を推測することも可能になる 。その結果、顧客やユーザーや相手の心理状態による、金融やコールセンタなどで の商品顧客分析管理システム、真偽分析などへの応用が可能になる。
[0043] (6)また、ピッチ周波数による感情要素の判断では、人間が持つ心理特性 (感情、指 向性、嗜好性、思考 (心理意思))を分析して、シミュレーション構築する要素を得ること が可能になる。この人間の心理特性を、既存のシステム、商品、サービス、ビジネスモ デルに応用することも可能である。
[0044] (7)上述したように、本発明の音声解析では、不明瞭な歌声、鼻歌、楽器音などから もピッチ周波数を安定かつ確実に検出できる。これを応用することによって、従来は 評価が困難であった不明瞭な歌声などについても、歌唱の正確さを的確に評価判定 するカラオケシステムを実現することができる。
また、ピッチ周波数やその変化を画面に表示することにより、歌声の音程や抑揚や ピッチ変化を可視化することが可能になる。このように可視化された音程や抑揚ゃピ ツチ変化を参考にすることにより、正確な音程や抑揚やピッチ変化をより短時間に感 覚的に習得することが可能になる。さらに、上級者の音程や抑揚やピッチ変化を可視 化してお手本とすることにより、上級者の音程や抑揚やピッチ変化をより短時間に感 覚的に習得することも可能になる。
[0045] (8)また、本発明の音声解析を実施することにより、従来は困難であった不明瞭な鼻 歌やアカペラ力 もピッチ周波数を検出できるため、安定かつ確実に譜面を自動作 成することが可能になる。
[0046] (9)本発明の音声解析を、言語教育システムに応用することも可能である。すなわち 、本発明の音声解析を用いることにより、不馴れな外国語や標準語や方言の発話音 声からもピッチ周波数を安定かつ確実に検出することがでる。このピッチ周波数に基 づ 、て、外国語や標準語や方言の正 、リズムや発音を誘導する言語教育システム を構築することが可能になる。
[0047] (10)さらに、本発明の音声解析を、台詞指導システムに応用することも可能である。
すなわち、本発明の音声解析を用いることにより、不馴れな台詞のピッチ周波数を安 定かつ確実に検出することがでる。このピッチ周波数を、上級者のピッチ周波数と比 較することにより、台詞の指導や更には演出を行う台詞指導システムを構築すること が可能になる。
[0048] (11)また、本発明の音声解析を、ボイストレーニングシステムに応用することも可能 である。すなわち、音声のピッチ周波数から、音程の不安定さや、発声方法の間違い を検出してアドバイスなどを出力することにより、正しい発声方法を指導するボイストレ 一-ングシステムを構築することが可能になる。 [0049] [感情推定で得られる心的状態の応用例]
( 1) 一般に、心的状態の推定結果は、心的状態に反応して処理を変化させる製品 全般に使用が可能である。例えば、相手の心的状態に応じて応答 (性格、会話特性、 心理特性、感性、感情パターン、または会話分岐パターンなど)を変化させる仮想人 格 (エージェント、キャラクターなど)をコンピュータ上で構築することが可能である。ま た例えば、お客様の心的状態に柔軟に応じて、商品検索、商品クレーム対応、コー ルセンタ業務、受付システム、顧客感性分析、顧客管理、ゲーム、パチンコ、パチス 口、コンテンツ配信、コンテンツ作成、ネット検索、携帯電話サービス、商品説明、プレ ゼンテーシヨン、または教育支援などを実現するシステムにも応用が可能となる。
[0050] (2) また、心的状態の推定結果は、心的状態をユーザーに関する校正情報とする ことで処理の正確性を高める製品全般にも使用が可能である。例えば、音声認識シ ステムにおいて、認識された語彙の候補の中から、発話者の心的状態に対して親和 度の高い語彙を選択することにより、音声認識の精度を高めることが可能になる。
[0051] (3) さらに、心的状態の推定結果は、心的状態からユーザーの不正意図を推測す ることにより、セキュリティを高める製品全般にも使用が可能である。例えば、ユーザ 一認証システムでは、不安または演技などの心的状態を示すユーザーに対して、認 証拒否をしたり、追加の認証を要求することによってセキュリティを高めることが可能 になる。さらには、このような高セキュリティーな認証技術を基礎として、ュビキタスシ ステムを構築することも可能である。
[0052] (4) また、心的状態の推定結果は、心的状態を操作入力として扱う製品全般にも使 用が可能である。例えば、心的状態を操作入力として処理 (制御、音声処理、画像処 理、またはテキスト処理など)を実行するシステムを実現することができる。また例えば 、心的状態を操作入力としてキャラクター動作をコントロールすることによって、スト一 リーを展開させるストーリー創作支援システムを実現することが可能になる。また例え ば、心的状態を操作入力として、音律、キー、または楽器構成などを変更することに より、心的状態に沿った音楽創作や編曲を行う音楽創作支援システムを実現すること も可能になる。また例えば、心的状態を操作入力として、照明、 BGMなどの周辺環 境をコントロールする演出装置を実現することも可能である。 [0053] (5) さらに、心的状態の推定結果は、精神分析、感情分析、感性分析、性格分析、 または心理分析を目的とする装置全般にも使用が可能である。
[0054] (6) また、心的状態の推定結果は、音、音声、音楽、香り、色、映像、文字、振動、 または光などの表現手段を用いて、心的状態を外部出力する装置全般にも使用が 可能である。このような装置を使用することで、対人間における心情のコミュニケーシ ヨンを支援することが可能になる。
[0055] (7) さらに、心的状態の推定結果は、心的状態を情報通信する通信システム全般 にも使用が可能である。例えば、感性通信、または感性感情共鳴通信などに応用す ることがでさる。
[0056] (8) また、心的状態の推定結果は、映像や音楽などのコンテンツが人間に与える心 理的な効果を判定 (評価)する装置全般にも使用が可能である。さらに、この心理効 果を項目としてコンテンツを分類することで、心理効果の面からコンテンツ検索が可 能になるデータベースシステムを構築することも可能になる。
なお、映像や音楽などのコンテンツそのものを、音声信号と同様に分析することによ り、コンテンツ出演者や楽器演奏者の音声興奮度や感情傾向などを検出することも 可能である。また、コンテンツの音声を音声認識または音素片認識することでコンテ ンッの特徴を検出することも可能である。このような検出結果に従ってコンテンツを分 類することで、コンテンツの特徴を切り口にしたコンテンツ検索が可能になる。
[0057] (9) さらに、心的状態の推定結果は、商品使用時におけるユーザー満足度などを 心的状態によって客観的に判定する装置全般にも使用が可能である。このような装 置を使用することにより、ユーザーにとって親しみやすい製品開発や仕様作成が容 易になる。
[0058] (10) さらに、心的状態の推定結果は、下記の分野などにも応用が可能である。
介護支援システム、カウンセリングシステム、カーナビゲーシヨン、自動車制御、運 転者の状態監視、ユーザーインターフェース、オペレーションシステム、ロボット、アバ ター、ネットショッピングモール、通信教育システム、 Eラーニング、学習システム、マ ナー研修、ノウハウ学習システム、能力判定、意味情報判断、人工知能分野、ニュー ラルネットワーク (ニューロンも含む)への応用、確率モデルが必要なシミュレーション やシステムなどの判断基準や分岐基準、経済'金融などの巿場シミュレーションへの 心理要素入力、アンケート収集、芸術家の感情や感性の解析、金融信用調査、与信 管理システム、占いなどのコンテンツ、ウェアラブルコンピュータ、ュビキタスネットヮ ーク商品、人間の知覚判断の支援、広告業務、ビルやホールなどの管理、フィルタリ ング、ユーザーの判断支援、キッチンやバスやトイレなどの制御、ヒューマンデバイス 、柔らかさ、通気性が変化する繊維との連動による被服、癒しやコミュニケーションを 目的とした仮想ペットやロボット、プランニングシステム、コーディネーターシステム、 交通支援制御システム、料理支援システム、演奏支援、 DJ映像効果、カラオケ装置、 映像制御システム、個人認証、デザイン、設計シミュレーター、購買意欲を刺激する システム、人事管理システム、オーディション、仮想の顧客集団市場調査、陪審員' 裁判員シミュレーションシステム、スポーツや芸術や営業や戦略などのイメージトレー ユング、故人や先祖のメモリアルコンテンツ作成支援、生前の感情や感性のパターン を保存するシステムやサービス、ナビゲーシヨン'コンシェルジェサービス、ブログ作 成支援、メッセンジャーサービス、 目覚まし時計、健康器具、マッサージ器具、歯ブラ シ、医療器具、生体デバイス、スイッチング技術、制御技術、ハブ、分岐システム、コ ンデンサシステム、分子コンピュータ、量子コンピュータ、ノイマン型コンピュータ、生 体素子コンピュータ、ボルツマンシステム、 AI制御、ファジー制御。
[0059] [備考:騒音環境下での音声信号の取得につ!、て]
本発明者は、騒音環境下においても、音声のピッチ周波数を良好に検出するため 、次のような防音マスクを用いた計測環境を構築した。
[0060] まず、防音マスクの基材として防毒マスク(TOYO製 SAFETY N0I88O- 1)を調達す る。この防毒マスクは、口に接して覆う部分がゴム製である。このゴムは周辺騒音によ つて振動するため、周辺騒音がマスク内に侵入する。そこで、このゴム部分にシリコン (日新レジン株式会社製、クイックシリコーン、ライトグレー液状、比重 1. 3)を注入し て重くする。 さらに、防毒マスクの通気フィルタには、キッチンペーパー 5枚以上とス ポンジを多層に重ねて密閉性を高める。この状態のマスク室の中央部分に小型マイ クをフィットさせて設ける。このように準備された防音マスクは、シリコンの自重と異質 物の積層構造によって周辺騒音の振動を効果的に減衰させることができる。その結 果、被験者の口周辺にマスク形態の小型防音室を設けることに成功し、周辺騒音の 影響を抑えつつ、被験者の音声を良好に集音できるようになる。
[0061] さらに、同様の防音対策を施したヘッドホンを被験者の耳に装着することにより、周 辺騒音の影響をさほど受けずに、被験者と会話を行うことが可能になる。
なお、ピッチ周波数の検出には、上記の防音マスクが有効である。ただし、防音マ スクの密閉空間が狭いために、音声がこもりやすい傾向となる。そのため、ピッチ周波 数以外の周波数解析や音色の分析には適さない。そのような用途には、マスク同様 の防音処理を施したパイプラインを防音マスクに通し、防音環境の外界 (空気室)と 通気させることが好ましい。この場合、呼吸に支障がないため、口だけでなく鼻も含め てマスクすることができる。この通気設備の追カ卩によって、防音マスクにおける音声の こもりを低減することができる。さらに、被験者にとって息苦しさなどの不快感が少ない ため、より自然な状態の音声を集音できるようになる。
[0062] なお、本発明は、その精神または主要な特徴力 逸脱することなぐ他のいろいろ な形で実施することができる。そのため、前述の実施例はあらゆる点で単なる例示に 過ぎず、限定的に解釈してはならない。本発明の範囲は、特許請求の範囲によって 示すものであって、明細書本文には、なんら拘束されない。さらに、特許請求の範囲 の均等範囲に属する変形や変更は、すべて本発明の範囲内のものである。
産業上の利用可能性
[0063] 以上説明したように、本発明は、音声解析装置などに利用可能な技術である。

Claims

請求の範囲
[1] 被験者の音声信号を取り込む音声取得部と、
前記音声信号を周波数スペクトルに変換する周波数変換部と、
前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求める自己相 関部と、
前記自己相関波形のローカルな山と山 (crests)または谷と谷 (troughs)の間隔に基 づいてピッチ周波数を求めるピッチ検出部と、
を備えたことを特徴とする音声解析装置。
[2] 請求項 1に記載の音声解析装置にお!、て、
前記自己相関部は、前記周波数スペクトルを前記周波数軸上で離散的にずらしな がら、前記自己相関波形の離散データを求め、
前記ピッチ検出部は、前記自己相関波形の前記離散データを補間して、ローカル な山または谷の出現周波数を求め、前記出現周波数の間隔に基づ!/、てピッチ周波 数を求める
ことを特徴とする音声解析装置。
[3] 請求項 1または請求項 2に記載の音声解析装置において、
前記ピッチ検出部は、前記自己相関波形の山または谷の少なくとも一方について、 (出現順番,出現周波数)を複数求め、前記出現順番と前記出現周波数とを回帰分 祈し、回帰直線の傾きに基づ 、て前記ピッチ周波数を求める
ことを特徴とする音声解析装置。
[4] 請求項 3の 、ずれか 1項に記載の音声解析装置にぉ 、て、
前記ピッチ検出部は、(前記出現順番,前記出現周波数)の母集団から、前記自己 相関波形のレベル変動の小さな標本を除き、残った母集団について前記回帰分析 を行 、、前記回帰直線の傾きに基づ 、て前記ピッチ周波数を求める
ことを特徴とする音声解析装置。
[5] 請求項 1な 、し請求項 4の 、ずれか 1項に記載の音声解析装置にぉ 、て、
前記ピッチ検出部は
前記自己相関波形を曲線近似することにより、前記自己相関波形に含まれる『フォ ルマントに依存する成分』を抽出する抽出部と、
前記自己相関波形から前記成分を除去することにより、フォルマントの影響を軽減 した自己相関波形を求める減算部とを備え、
フォルマントの影響を軽減した前記自己相関波形に基づいて、ピッチ周波数を求 める
ことを特徴とする音声解析装置。
[6] 請求項 1な 、し請求項 5の 、ずれか 1項に記載の音声解析装置にぉ 、て、
少なくとも『ピッチ周波数』と『感情状態』との対応関係を記憶する対応記憶部と、 前記ピッチ検出部で検出された前記ピッチ周波数を前記対応関係に照会して、前 記被験者の感情状態を推定する感情推定部とを備えた
ことを特徴とする感情検出用の音声解析装置。
[7] 請求項 3に記載の音声解析装置において、
前記ピッチ検出部は、『前記回帰直線に対する(前記出現順番,前記出現周波数) の分散度合い』および『前記回帰直線と原点とのずれ』の少なくとも一方を、前記ピッ チ周波数の不規則性として求め、
少なくとも『ピッチ周波数』および『ピッチ周波数の不規則性』と、『感情状態』との対 応関係を記憶する対応記憶部と、
前記ピッチ検出部で求めた『ピッチ周波数』および『ピッチ周波数の不規則性』を前 記対応関係に照会して、前記被験者の感情状態を推定する感情推定部とを備えた ことを特徴とする感情検出用の音声解析装置。
[8] 被験者の音声信号を取り込むステップと、
前記音声信号を周波数スペクトルに変換するステップと、
前記周波数スペクトルを周波数軸上でずらしながら自己相関波形を求めるステップ と、
前記自己相関波形のローカルな山と山または谷と谷の間隔に基づいてピッチ周波 数を求めるステップと、
を備えたことを特徴とする音声解析方法。
[9] コンピュータを、請求項 1ないし請求項 7のいずれ力 1項に記載の音声解析装置と して機能させるための音声解析プログラム。
PCT/JP2006/311123 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム WO2006132159A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
JP2007520082A JP4851447B2 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
CA2611259A CA2611259C (en) 2005-06-09 2006-06-02 Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
EP06756944A EP1901281B1 (en) 2005-06-09 2006-06-02 Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program
KR1020087000497A KR101248353B1 (ko) 2005-06-09 2006-06-02 피치 주파수를 검출하는 음성 해석 장치, 음성 해석 방법,및 음성 해석 프로그램
CN2006800201678A CN101199002B (zh) 2005-06-09 2006-06-02 检测音调频率的语音分析器和语音分析方法
US11/921,697 US8738370B2 (en) 2005-06-09 2006-06-02 Speech analyzer detecting pitch frequency, speech analyzing method, and speech analyzing program

Applications Claiming Priority (4)

Application Number Priority Date Filing Date Title
JP2005-169414 2005-06-09
JP2005169414 2005-06-09
JP2005181581 2005-06-22
JP2005-181581 2005-06-22

Publications (1)

Publication Number Publication Date
WO2006132159A1 true WO2006132159A1 (ja) 2006-12-14

Family

ID=37498359

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2006/311123 WO2006132159A1 (ja) 2005-06-09 2006-06-02 ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム

Country Status (9)

Country Link
US (1) US8738370B2 (ja)
EP (1) EP1901281B1 (ja)
JP (1) JP4851447B2 (ja)
KR (1) KR101248353B1 (ja)
CN (1) CN101199002B (ja)
CA (1) CA2611259C (ja)
RU (1) RU2403626C2 (ja)
TW (1) TW200707409A (ja)
WO (1) WO2006132159A1 (ja)

Cited By (13)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100970446B1 (ko) 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
JP2011145326A (ja) * 2010-01-12 2011-07-28 Yamaha Corp 信号処理装置
WO2015083357A1 (ja) * 2013-12-05 2015-06-11 Pst株式会社 推定装置、プログラム、推定方法および推定システム
JP2017045018A (ja) * 2015-08-28 2017-03-02 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
JP2017140170A (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
WO2020013302A1 (ja) 2018-07-13 2020-01-16 株式会社生命科学インスティテュート 精神・神経系疾患の推定システム、推定プログラムおよび推定方法
US11004463B2 (en) 2017-09-25 2021-05-11 Fujitsu Limited Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
WO2021141085A1 (ja) 2020-01-09 2021-07-15 株式会社生命科学インスティテュート 音声を用いて、精神・神経系疾患を推定する装置
US11069373B2 (en) 2017-09-25 2021-07-20 Fujitsu Limited Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program
CN113707180A (zh) * 2021-08-10 2021-11-26 漳州立达信光电子科技有限公司 一种哭叫声音侦测方法和装置
JP7402396B2 (ja) 2020-01-07 2023-12-21 株式会社鉄人化計画 感情解析装置、感情解析方法、及び感情解析プログラム

Families Citing this family (54)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CN1998045A (zh) * 2004-07-13 2007-07-11 松下电器产业株式会社 音调频率估计装置以及音调频率估计方法
US8204747B2 (en) * 2006-06-23 2012-06-19 Panasonic Corporation Emotion recognition apparatus
JP2009047831A (ja) * 2007-08-17 2009-03-05 Toshiba Corp 特徴量抽出装置、プログラムおよび特徴量抽出方法
US8148621B2 (en) * 2009-02-05 2012-04-03 Brian Bright Scoring of free-form vocals for video game
US8666734B2 (en) * 2009-09-23 2014-03-04 University Of Maryland, College Park Systems and methods for multiple pitch tracking using a multidimensional function and strength values
TWI401061B (zh) * 2009-12-16 2013-07-11 Ind Tech Res Inst 活動力監測方法與系統
JP5834449B2 (ja) * 2010-04-22 2015-12-24 富士通株式会社 発話状態検出装置、発話状態検出プログラムおよび発話状態検出方法
WO2012042611A1 (ja) * 2010-09-29 2012-04-05 富士通株式会社 呼吸検出装置および呼吸検出方法
RU2454735C1 (ru) * 2010-12-09 2012-06-27 Учреждение Российской академии наук Институт проблем управления им. В.А. Трапезникова РАН Способ обработки речевого сигнала в частотной области
JP5803125B2 (ja) * 2011-02-10 2015-11-04 富士通株式会社 音声による抑圧状態検出装置およびプログラム
US8756061B2 (en) 2011-04-01 2014-06-17 Sony Computer Entertainment Inc. Speech syllable/vowel/phone boundary detection using auditory attention cues
JP5664480B2 (ja) * 2011-06-30 2015-02-04 富士通株式会社 異常状態検出装置、電話機、異常状態検出方法、及びプログラム
US20130166042A1 (en) * 2011-12-26 2013-06-27 Hewlett-Packard Development Company, L.P. Media content-based control of ambient environment
KR101471741B1 (ko) * 2012-01-27 2014-12-11 이승우 보컬프랙틱 시스템
RU2510955C2 (ru) * 2012-03-12 2014-04-10 Государственное казенное образовательное учреждение высшего профессионального образования Академия Федеральной службы охраны Российской Федерации (Академия ФСО России) Способ обнаружения эмоций по голосу
US20130297297A1 (en) * 2012-05-07 2013-11-07 Erhan Guven System and method for classification of emotion in human speech
CN103390409A (zh) * 2012-05-11 2013-11-13 鸿富锦精密工业(深圳)有限公司 电子装置及其侦测色情音频的方法
RU2553413C2 (ru) * 2012-08-29 2015-06-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ выявления эмоционального состояния человека по голосу
RU2546311C2 (ru) * 2012-09-06 2015-04-10 Федеральное государственное бюджетное образовательное учреждение высшего профессионального образования "Воронежский государственный университет" (ФГБУ ВПО "ВГУ") Способ оценки частоты основного тона речевого сигнала
US9020822B2 (en) * 2012-10-19 2015-04-28 Sony Computer Entertainment Inc. Emotion recognition using auditory attention cues extracted from users voice
US9031293B2 (en) 2012-10-19 2015-05-12 Sony Computer Entertainment Inc. Multi-modal sensor based emotion recognition and emotional interface
US9672811B2 (en) 2012-11-29 2017-06-06 Sony Interactive Entertainment Inc. Combining auditory attention cues with phoneme posterior scores for phone/vowel/syllable boundary detection
KR101499606B1 (ko) * 2013-05-10 2015-03-09 서강대학교산학협력단 음성신호의 특징정보를 이용한 흥미점수 산출 시스템 및 방법, 그를 기록한 기록매체
JP6085538B2 (ja) * 2013-09-02 2017-02-22 本田技研工業株式会社 音響認識装置、音響認識方法、及び音響認識プログラム
US10431209B2 (en) * 2016-12-30 2019-10-01 Google Llc Feedback controller for data transmissions
US9363378B1 (en) 2014-03-19 2016-06-07 Noble Systems Corporation Processing stored voice messages to identify non-semantic message characteristics
JP6262613B2 (ja) * 2014-07-18 2018-01-17 ヤフー株式会社 提示装置、提示方法及び提示プログラム
JP6122816B2 (ja) 2014-08-07 2017-04-26 シャープ株式会社 音声出力装置、ネットワークシステム、音声出力方法、および音声出力プログラム
CN105590629B (zh) * 2014-11-18 2018-09-21 华为终端(东莞)有限公司 一种语音处理的方法及装置
US9773426B2 (en) * 2015-02-01 2017-09-26 Board Of Regents, The University Of Texas System Apparatus and method to facilitate singing intended notes
US11120816B2 (en) 2015-02-01 2021-09-14 Board Of Regents, The University Of Texas System Natural ear
US10726863B2 (en) 2015-04-27 2020-07-28 Otocon Inc. System and method for locating mobile noise source
TWI660160B (zh) * 2015-04-27 2019-05-21 維呈顧問股份有限公司 移動噪音源的檢測系統與方法
US9830921B2 (en) * 2015-08-17 2017-11-28 Qualcomm Incorporated High-band target signal control
US9865281B2 (en) 2015-09-02 2018-01-09 International Business Machines Corporation Conversational analytics
EP3309785A1 (en) * 2015-11-19 2018-04-18 Telefonaktiebolaget LM Ericsson (publ) Method and apparatus for voiced speech detection
KR101777302B1 (ko) 2016-04-18 2017-09-12 충남대학교산학협력단 음성 주파수 분석 시스템 및 음성 주파수 분석 방법과 이를 이용한 음성 인식 시스템 및 음성 인식 방법
CN105725996A (zh) * 2016-04-20 2016-07-06 吕忠华 一种智能控制人体器官情绪变化医疗器械装置及方法
CN105852823A (zh) * 2016-04-20 2016-08-17 吕忠华 一种医学用智能化息怒提示设备
JP6345729B2 (ja) * 2016-04-22 2018-06-20 Cocoro Sb株式会社 応対データ収集システム、顧客応対システム及びプログラム
JP6219448B1 (ja) * 2016-05-16 2017-10-25 Cocoro Sb株式会社 顧客応対制御システム、顧客応対システム及びプログラム
CN106024015A (zh) * 2016-06-14 2016-10-12 上海航动科技有限公司 一种呼叫中心坐席人员监控方法及系统
CN106132040B (zh) * 2016-06-20 2019-03-19 科大讯飞股份有限公司 歌唱环境的灯光控制方法和装置
US11351680B1 (en) * 2017-03-01 2022-06-07 Knowledge Initiatives LLC Systems and methods for enhancing robot/human cooperation and shared responsibility
JP2018183474A (ja) * 2017-04-27 2018-11-22 ファミリーイナダ株式会社 マッサージ装置及びマッサージシステム
CN107368724A (zh) * 2017-06-14 2017-11-21 广东数相智能科技有限公司 基于声纹识别的防作弊网络调研方法、电子设备及存储介质
JP7103769B2 (ja) * 2017-09-05 2022-07-20 京セラ株式会社 電子機器、携帯端末、コミュニケーションシステム、見守り方法、およびプログラム
EP3752964B1 (en) * 2018-02-16 2023-06-28 Dolby Laboratories Licensing Corporation Speech style transfer
US11538455B2 (en) 2018-02-16 2022-12-27 Dolby Laboratories Licensing Corporation Speech style transfer
EP3811245A4 (en) 2018-06-19 2022-03-09 Ellipsis Health, Inc. MENTAL HEALTH ASSESSMENT SYSTEMS AND METHODS
US20190385711A1 (en) 2018-06-19 2019-12-19 Ellipsis Health, Inc. Systems and methods for mental health assessment
KR20200064539A (ko) 2018-11-29 2020-06-08 주식회사 위드마인드 음정과 음량 정보의 특징으로 분류된 감정 맵 기반의 감정 분석 방법
TWI752551B (zh) * 2020-07-13 2022-01-11 國立屏東大學 迅吃偵測方法、迅吃偵測裝置與電腦程式產品
US20220189444A1 (en) * 2020-12-14 2022-06-16 Slate Digital France Note stabilization and transition boost in automatic pitch correction system

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519793A (ja) * 1991-07-11 1993-01-29 Hitachi Ltd ピツチ抽出方法
JP2000181472A (ja) * 1998-12-10 2000-06-30 Japan Science & Technology Corp 信号分析装置
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
JP2003173195A (ja) * 2001-09-28 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法

Family Cites Families (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR0155798B1 (ko) * 1995-01-27 1998-12-15 김광호 음성신호 부호화 및 복호화 방법
JP3840684B2 (ja) * 1996-02-01 2006-11-01 ソニー株式会社 ピッチ抽出装置及びピッチ抽出方法
JPH10187178A (ja) 1996-10-28 1998-07-14 Omron Corp 歌唱の感情分析装置並びに採点装置
US5973252A (en) * 1997-10-27 1999-10-26 Auburn Audio Technologies, Inc. Pitch detection and intonation correction apparatus and method
KR100269216B1 (ko) * 1998-04-16 2000-10-16 윤종용 스펙트로-템포럴 자기상관을 사용한 피치결정시스템 및 방법
US6151571A (en) 1999-08-31 2000-11-21 Andersen Consulting System, method and article of manufacture for detecting emotion in voice signals through analysis of a plurality of voice signal parameters
US6463415B2 (en) * 1999-08-31 2002-10-08 Accenture Llp 69voice authentication system and method for regulating border crossing
US7043430B1 (en) * 1999-11-23 2006-05-09 Infotalk Corporation Limitied System and method for speech recognition using tonal modeling
JP2001154681A (ja) * 1999-11-30 2001-06-08 Sony Corp 音声処理装置および音声処理方法、並びに記録媒体
US7139699B2 (en) * 2000-10-06 2006-11-21 Silverman Stephen E Method for analysis of vocal jitter for near-term suicidal risk assessment
EP1256937B1 (en) * 2001-05-11 2006-11-02 Sony France S.A. Emotion recognition method and device
EP1262844A1 (en) * 2001-06-01 2002-12-04 Sony International (Europe) GmbH Method for controlling a man-machine-interface unit
US7260541B2 (en) * 2001-07-13 2007-08-21 Matsushita Electric Industrial Co., Ltd. Audio signal decoding device and audio signal encoding device
KR100393899B1 (ko) * 2001-07-27 2003-08-09 어뮤즈텍(주) 2-단계 피치 판단 방법 및 장치
IL144818A (en) * 2001-08-09 2006-08-20 Voicesense Ltd Method and apparatus for speech analysis
US7124075B2 (en) * 2001-10-26 2006-10-17 Dmitry Edward Terez Methods and apparatus for pitch determination
JP2004240214A (ja) * 2003-02-06 2004-08-26 Nippon Telegr & Teleph Corp <Ntt> 音響信号判別方法、音響信号判別装置、音響信号判別プログラム
SG120121A1 (en) * 2003-09-26 2006-03-28 St Microelectronics Asia Pitch detection of speech signals
US20050144002A1 (en) * 2003-12-09 2005-06-30 Hewlett-Packard Development Company, L.P. Text-to-speech conversion with associated mood tag
WO2005076445A1 (en) 2004-01-09 2005-08-18 Philips Intellectual Property & Standards Gmbh Decentralized power generation system
WO2006112009A1 (ja) 2005-04-13 2006-10-26 Hitachi, Ltd. 雰囲気制御装置

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH0519793A (ja) * 1991-07-11 1993-01-29 Hitachi Ltd ピツチ抽出方法
JP2000181472A (ja) * 1998-12-10 2000-06-30 Japan Science & Technology Corp 信号分析装置
JP2003108197A (ja) * 2001-07-13 2003-04-11 Matsushita Electric Ind Co Ltd オーディオ信号復号化装置およびオーディオ信号符号化装置
JP2003173195A (ja) * 2001-09-28 2003-06-20 Nippon Telegr & Teleph Corp <Ntt> 占有度抽出装置および基本周波数抽出装置、それらの方法、それらのプログラム並びにそれらのプログラムを記録した記録媒体
JP2003202885A (ja) * 2001-12-28 2003-07-18 Canon Electronics Inc 情報処理装置及び方法
JP2003280696A (ja) * 2002-03-19 2003-10-02 Matsushita Electric Ind Co Ltd 音声強調装置及び音声強調方法

Non-Patent Citations (2)

* Cited by examiner, † Cited by third party
Title
OSHIKIRI M. ET AL.: "Pitch Filtering ni yoru Taiiki Kakucho Gijutsu o Mochiita 7/10/15kHz Taiiki Scalable Onsei Fugoka Hoshiki", THE ACOUSTICAL SOCIETY OF JAPAN (ASJ) 2004 NEN SHUNKI KENKYU HAPPYOKAI KOEN RONBUNSHI -I-, vol. 3-11-4, 17 March 2004 (2004-03-17), pages 327 - 328, XP003006443 *
See also references of EP1901281A4 *

Cited By (21)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
KR100970446B1 (ko) 2007-11-21 2010-07-16 한국전자통신연구원 주파수 확장을 위한 가변 잡음레벨 결정 장치 및 그 방법
US8296157B2 (en) 2007-11-21 2012-10-23 Electronics And Telecommunications Research Institute Apparatus and method for deciding adaptive noise level for bandwidth extension
JP2010210730A (ja) * 2009-03-09 2010-09-24 Univ Of Fukui 乳幼児の感情診断装置及び方法
JP2011145326A (ja) * 2010-01-12 2011-07-28 Yamaha Corp 信号処理装置
KR101867198B1 (ko) * 2013-12-05 2018-06-12 피에스티 가부시키가이샤 추정장치, 프로그램, 추정방법 및 추정시스템
KR20160092011A (ko) 2013-12-05 2016-08-03 피에스티 가부시키가이샤 추정장치, 프로그램, 추정방법 및 추정시스템
WO2015083357A1 (ja) * 2013-12-05 2015-06-11 Pst株式会社 推定装置、プログラム、推定方法および推定システム
US10485467B2 (en) 2013-12-05 2019-11-26 Pst Corporation, Inc. Estimation device, program, estimation method, and estimation system
JP2017045018A (ja) * 2015-08-28 2017-03-02 ブラザー工業株式会社 カラオケ装置及びカラオケ用プログラム
JP2017140170A (ja) * 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
WO2017138376A1 (ja) 2016-02-09 2017-08-17 Pst株式会社 推定方法、推定プログラム、推定装置および推定システム
KR20180105716A (ko) 2016-02-09 2018-09-28 피에스티 가부시키가이샤 추정 방법, 추정 프로그램, 추정 장치 및 추정 시스템
US11147487B2 (en) 2016-02-09 2021-10-19 Pst Corporation, Inc. Estimation method, estimation program, estimation device, and estimation system
US11069373B2 (en) 2017-09-25 2021-07-20 Fujitsu Limited Speech processing method, speech processing apparatus, and non-transitory computer-readable storage medium for storing speech processing computer program
US11004463B2 (en) 2017-09-25 2021-05-11 Fujitsu Limited Speech processing method, apparatus, and non-transitory computer-readable storage medium for storing a computer program for pitch frequency detection based upon a learned value
CN108447470A (zh) * 2017-12-28 2018-08-24 中南大学 一种基于声道和韵律特征的情感语音转换方法
WO2020013302A1 (ja) 2018-07-13 2020-01-16 株式会社生命科学インスティテュート 精神・神経系疾患の推定システム、推定プログラムおよび推定方法
JP7402396B2 (ja) 2020-01-07 2023-12-21 株式会社鉄人化計画 感情解析装置、感情解析方法、及び感情解析プログラム
WO2021141085A1 (ja) 2020-01-09 2021-07-15 株式会社生命科学インスティテュート 音声を用いて、精神・神経系疾患を推定する装置
EP4088666A4 (en) * 2020-01-09 2024-01-24 Pst Inc APPARATUS FOR ESTIMATING MENTAL/NERVOUS SYSTEM DISEASES USING VOICE
CN113707180A (zh) * 2021-08-10 2021-11-26 漳州立达信光电子科技有限公司 一种哭叫声音侦测方法和装置

Also Published As

Publication number Publication date
TW200707409A (en) 2007-02-16
KR101248353B1 (ko) 2013-04-02
EP1901281B1 (en) 2013-03-20
US8738370B2 (en) 2014-05-27
CN101199002A (zh) 2008-06-11
JP4851447B2 (ja) 2012-01-11
CA2611259A1 (en) 2006-12-14
US20090210220A1 (en) 2009-08-20
EP1901281A1 (en) 2008-03-19
KR20080019278A (ko) 2008-03-03
TWI307493B (ja) 2009-03-11
RU2007149237A (ru) 2009-07-20
CN101199002B (zh) 2011-09-07
JPWO2006132159A1 (ja) 2009-01-08
EP1901281A4 (en) 2011-04-13
RU2403626C2 (ru) 2010-11-10
CA2611259C (en) 2016-03-22

Similar Documents

Publication Publication Date Title
JP4851447B2 (ja) ピッチ周波数を検出する音声解析装置、音声解析方法、および音声解析プログラム
US11373641B2 (en) Intelligent interactive method and apparatus, computer device and computer readable storage medium
EP1423846B1 (en) Method and apparatus for speech analysis
JP4644403B2 (ja) 複数の音声信号パラメータの分析を通して音声信号の感情を検出する装置、方法、及び、製造物品
US20120089396A1 (en) Apparatus and method for speech analysis
JP2006267465A (ja) 発話状態評価装置、発話状態評価プログラム、プログラム格納媒体
Yang et al. BaNa: A noise resilient fundamental frequency detection algorithm for speech and music
Deb et al. Fourier model based features for analysis and classification of out-of-breath speech
JP5382780B2 (ja) 発話意図情報検出装置及びコンピュータプログラム
WO2003098597A1 (fr) Dispositif d&#39;extraction de noyau syllabique et progiciel associe
Lech et al. Stress and emotion recognition using acoustic speech analysis
JP4677548B2 (ja) パラ言語情報検出装置及びコンピュータプログラム
He et al. Emotion recognition in spontaneous speech within work and family environments
Deb et al. Analysis of out-of-breath speech for assessment of person’s physical fitness
Chang Speech Analysis Methodologies towards Unobtrusive Mental Health Monitoring
WO2016039465A1 (ja) 音響解析装置
CN113436649B (zh) 一种语音情感标定辅助方法及系统
Qiu et al. Machine Learning in Human Emotion Detection from the Speech
Bharadwaj et al. A Critical Study of the relation of Emotion and Stress from the Suprasegmental Features of an Assamese Emotional Spontaneous Speech
Półrolniczak et al. Analysis of the dependencies between parameters of the voice at the context of the succession of sung vowels
CN116129938A (zh) 歌声合成方法、装置、设备及存储介质
Kumar Detection of Emotions using Speech Analysis and Support Vector Machine
Pohjalainen Tools for voice source analysis: Updated Aalto Aparat and a database of continuous speech with simultaneous electroglottography
Kirti et al. Voice Emotion Recognition
Martínez-Arroyo Emotional Corpus, Feature Extraction and Emotion Classification

Legal Events

Date Code Title Description
WWE Wipo information: entry into national phase

Ref document number: 200680020167.8

Country of ref document: CN

121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2007520082

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 2006756944

Country of ref document: EP

ENP Entry into the national phase

Ref document number: 2611259

Country of ref document: CA

WWE Wipo information: entry into national phase

Ref document number: 11921697

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

WWE Wipo information: entry into national phase

Ref document number: 1020087000497

Country of ref document: KR

WWE Wipo information: entry into national phase

Ref document number: 2007149237

Country of ref document: RU