WO2021019643A1 - 印象推定装置、学習装置、それらの方法、およびプログラム - Google Patents

印象推定装置、学習装置、それらの方法、およびプログラム Download PDF

Info

Publication number
WO2021019643A1
WO2021019643A1 PCT/JP2019/029666 JP2019029666W WO2021019643A1 WO 2021019643 A1 WO2021019643 A1 WO 2021019643A1 JP 2019029666 W JP2019029666 W JP 2019029666W WO 2021019643 A1 WO2021019643 A1 WO 2021019643A1
Authority
WO
WIPO (PCT)
Prior art keywords
impression
learning
feature
unit
estimation
Prior art date
Application number
PCT/JP2019/029666
Other languages
English (en)
French (fr)
Inventor
歩相名 神山
厚志 安藤
哲 小橋川
Original Assignee
日本電信電話株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日本電信電話株式会社 filed Critical 日本電信電話株式会社
Priority to PCT/JP2019/029666 priority Critical patent/WO2021019643A1/ja
Priority to US17/630,855 priority patent/US20220277761A1/en
Priority to JP2021536485A priority patent/JPWO2021019643A1/ja
Publication of WO2021019643A1 publication Critical patent/WO2021019643A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/75Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 for modelling vocal tract parameters
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/90Pitch determination of speech signals
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/03Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters
    • G10L25/24Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 characterised by the type of extracted parameters the extracted parameters being the cepstrum
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to an impression estimation technique for estimating the impression that a voice signal gives to a listener.
  • an impression estimation technology that can estimate the impression of the urgency of the person who made the call using an answering machine or the like. For example, if the impression of urgency can be estimated by using the impression estimation technology, the user can select the answering machine with high urgency without actually listening to the answering machine.
  • Non-Patent Document 1 is known as an impression estimation technique.
  • the impression is estimated from the vocal tract features such as MFCC (Mel-Frequency Cepstrum Coefficients) and PNCC (Power Normalized Cepstrum Coefficients), and the prosodic features related to the pitch and strength of the voice. Further, in Non-Patent Document 2, the impression is estimated by using the average speaking speed as a feature amount.
  • MFCC Mel-Frequency Cepstrum Coefficients
  • PNCC Power Normalized Cepstrum Coefficients
  • the impression is estimated using the utterance content, but if the estimation result depends on the utterance content and the utterance language, voice recognition is required.
  • the rhythm of the utterance may differ due to the different impressions.
  • the estimation target is an impression of urgency
  • the rhythm of utterance when the urgency is high and the rhythm of utterance when the urgency is low are different. Therefore, a method of estimating the impression using the rhythm of the utterance can be considered, but in that case, the speaking speed of the voice is required.
  • voice recognition is required to obtain the speaking speed.
  • An object of the present invention is to provide an impression estimation technique that does not require voice recognition.
  • the impression estimator has p 1 ⁇ p 2, and is obtained based on the first analysis time length p 1 for the audio signal s. It has an estimation unit that estimates the impression of the voice signal s by using one feature amount and the second feature amount obtained based on the second analysis time length p 2 for the voice signal s.
  • the learning device has p 1 ⁇ p 2 and is based on the first analysis time length p 1 for the learning voice signal s L. a first characteristic quantity for learning obtained, a second feature quantity learning obtained based on second analysis time length p 2 with respect to the training speech signal s L, given to the training speech signal s L It has a learning unit that learns an estimation model for estimating the impression of a voice signal by using the impression label.
  • the functional block diagram of the impression estimation apparatus which concerns on 1st Embodiment The figure which shows the example of the processing flow of the impression estimation apparatus which concerns on 1st Embodiment.
  • the functional block diagram of the learning apparatus which concerns on 1st Embodiment The figure which shows the example of the processing flow of the learning apparatus which concerns on 1st Embodiment.
  • the functional block diagram of the impression estimation apparatus which concerns on 2nd Embodiment The figure which shows the example of the processing flow of the impression estimation apparatus which concerns on 2nd Embodiment.
  • the global fluctuation of the voice is captured by using the analysis window having a long analysis time.
  • the rhythm of the voice is extracted and the impression is estimated without using the voice recognition.
  • FIG. 1 shows a functional block diagram of the impression estimation device according to the first embodiment
  • FIG. 2 shows a processing flow thereof.
  • the impression estimation device 100 includes a first section cutout unit 111, a first feature amount extraction unit 112, a first feature amount vector conversion unit 113, a second section cutout unit 121, a second feature amount extraction unit 122, and a second feature. It includes a quantity vector conversion unit 123, a coupling unit 130, and an impression estimation unit 140.
  • the impression of the estimation target is set as the urgency
  • Use the urgency label as the estimate c.
  • T is the total number of samples of the audio signal s to be estimated
  • the impression estimation device and the learning device are configured by loading a special program into a known or dedicated computer having, for example, a central processing unit (CPU: Central Processing Unit), a main storage device (RAM: Random Access Memory), and the like. It is a special device.
  • the impression estimation device and the learning device execute each process under the control of the central processing unit, for example.
  • the data input to the impression estimation device and the learning device and the data obtained by each process are stored in the main storage device, for example, and the data stored in the main storage device is read out to the central processing unit as needed. It is used for other processing.
  • At least a part of each processing unit of the impression estimation device and the learning device may be configured by hardware such as an integrated circuit.
  • Each storage unit included in the impression estimation device and the learning device can be configured by, for example, a main storage device such as RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • a main storage device such as RAM (Random Access Memory) or middleware such as a relational database or a key-value store.
  • middleware such as a relational database or a key-value store.
  • each storage unit does not necessarily have to be provided inside the impression estimation device and the learning device, and is composed of an auxiliary storage device composed of semiconductor memory elements such as a hard disk, an optical disk, or a flash memory. It may be configured to be provided outside the impression estimation device and the learning device.
  • the analysis section w 1 (i, j) is cut out (S111) from the audio signal s and output, where the length (analysis window width) is p 1 and the shift width is s 1 .
  • the analysis interval w 1 (i, j) can be expressed as follows, for example.
  • I 1 is the total number of analysis sections when the audio signal to be estimated is cut out with the analysis time length p 1 and the shift width s 1 .
  • the analysis interval w 1 (i, j) may be multiplied by a window function such as a Hamming window.
  • the analysis section w 2 (i', j') is cut out from the audio signal s by the same formula as that of the first section cutting section 111, where the length (analysis window width) is p 2 and the shift width is s 2 (S121). ),Output.
  • the length (analysis window width) is p 2
  • S121 shift width
  • Is. i' is the frame number and j'is the sample number in the frame number i'.
  • I 2 is the total number of analysis sections when the audio signal to be estimated is cut out with the analysis time length p 2 and the shift width s 2 .
  • a value such that p 1 ⁇ p 2 is set as the analysis window width p 2 .
  • the larger analysis window width p 2 has a longer analysis time, which makes it easier to analyze rhythmic changes in sound.
  • the audio sampling frequency is 16000Hz
  • the first feature amount extraction unit 112 takes the analysis section w 1 (i, j) as an input, extracts the feature amount f 1 (i, k) from the analysis section w 1 (i, j) (S112), and outputs it. To do.
  • An example of the feature quantity F 1 (i) [f 1 (i, 1), f 1 (i, 2),..., f 1 (i, k),..., f 1 (i, K 1 )] Shown in 3.
  • Possible features include MFCC, which expresses the vocal tract characteristics of voice, F0 extraction, which expresses the pitch of voice, and power, which expresses the loudness of voice. These feature quantities may be extracted using a known method.
  • the first feature amount extraction unit 112 extracts the feature amount relating to at least one of the vocal tract and the pitch of the voice.
  • the second feature extraction unit 122 takes the analysis interval w 2 (i', j') as an input, and extracts the feature f 2 (i', k') from the analysis interval w 2 (i', j'). (S122), and output.
  • k ' 1,2, ..., a K 2.
  • EMS envelope Modulation Spectra
  • the second feature amount extraction unit 122 extracts the feature amount related to the rhythm of the voice signal.
  • p 2 of the second section cutout unit 121 is set so that the second feature amount extraction unit 122 can extract the feature amount related to the rhythm of the voice signal, and the first feature amount extraction unit 112 sets the vocal tract and the voice.
  • the p 1 of the first section cutout 111 is set so that the feature amount relating to at least one of the heights can be extracted.
  • the first feature vector conversion unit 113 takes the feature f 1 (i, k) as an input, and converts the feature f 1 (i, k) into a feature vector V 1 that contributes to the determination of the urgency (S113). ),Output.
  • known methods such as taking statistics such as average and variance of feature series and converting time series data to vector by neural network (LSTM (Long short-term memory) etc.) It is done by the technology of.
  • vectorization when taking the mean and variance, vectorization is possible as follows.
  • the same method as that of the first feature amount vector conversion unit 113 may be used, or a different method may be used.
  • the coupling unit 130 can also be coupled by adding if the dimensions K 1 and K 2 are the same.
  • the impression estimation unit 140 takes the coupling vector V as an input, estimates whether the voice signal s is urgent or non-urgent from the coupling vector V (S140), and outputs an estimated value c (emergency label).
  • SVM Small Vector Machine
  • Random Forest Random Forest
  • neural networks are used.
  • the estimation model is a model that takes the coupling vector V as an input and outputs an estimated value of the impression of the audio signal.
  • the impression of the presumed object is urgent or non-urgent. That is, the impression estimation unit 140 uses the coupling vector V as the input of the estimation model and obtains the estimated value which is the output of the estimation model.
  • the accuracy of impression estimation is improved by capturing the characteristics related to rhythm.
  • FIG. 4 shows the transition of the second feature (EMS) with a longer analysis window.
  • FIG. 4 shows the first principal component when EMS is subjected to principal component analysis.
  • the emergency voice changes irregularly, while the non-emergency voice has a stable vibration. It can be seen that the difference in rhythm appears in the second feature by using the analysis window for a long time in this way.
  • the rhythm of the utterance is used as a feature quantity in the long analysis section of the present embodiment. By obtaining it, it is possible to estimate the impression without obtaining the speaking speed and the voice recognition result.
  • FIG. 5 shows a functional block diagram of the learning device according to the first embodiment
  • FIG. 6 shows a processing flow thereof.
  • the learning device 200 includes a first section cutout unit 211, a first feature amount extraction unit 212, a first feature amount vector conversion unit 213, a second section cutout unit 221 and a second feature amount extraction unit 222, and a second feature amount. It includes a vector conversion unit 223, a coupling unit 230, and a learning unit 240.
  • the learning device 200 receives the learning audio signal s L and the learning impression label c L as inputs, learns an estimation model for estimating the impression of the audio signal, and outputs the learned estimation model.
  • the impression label c L may be manually given in advance before learning, or may be obtained and given in advance from the learning audio signal s L- by some means.
  • the connecting portion 230 includes a first section cutting section 111, a first feature amount extracting section 112, a first feature amount vector conversion section 113, a second section cutting section 121, a second feature amount extracting section 122, and a second.
  • the same processing S211, S212, S213, S221, S222, S223, S230 as the processing S111, S112, S113, S121, S122, S123, and S130 of the feature amount vector conversion unit 123 and the coupling unit 130 is performed.
  • the audio signal s and the information derived from the audio signal s the information derived from the learning audio signal s L and the learning audio signal s L is processed.
  • the learning unit 240 receives the coupling vector V L and the impression label c L as inputs, learns an estimation model for estimating the impression of the audio signal (S240), and outputs the learned estimation model.
  • the estimation model may be learned by a general machine learning method such as SVM (Support Vector Machine), Random Forest, or neural network.
  • the first feature quantity vector conversion unit 113, the second feature quantity vector conversion unit 123, the coupling unit 130, and the impression estimation unit 140 of the present embodiment may be represented by one neural network.
  • the entire neural network may be called an estimation unit.
  • the first feature amount vector conversion unit 113, the second feature amount vector conversion unit 123, the coupling unit 130, and the impression estimation unit 140 of the present embodiment may be collectively referred to as an estimation unit.
  • the estimation unit sets the first feature amount f 1 (i, k) obtained for the audio signal s based on the analysis time length p 1 and the analysis time length p 2 for the audio signal s.
  • the impression of the audio signal s is estimated using the second feature amount f 2 (i', k') obtained based on the above.
  • the first feature quantity vector conversion unit 213, the second feature quantity vector conversion unit 223, the coupling unit 230, and the learning unit 240 may be represented and learned by one neural network.
  • the entire neural network may be called a learning unit.
  • the first feature quantity vector conversion unit 213, the second feature quantity vector conversion unit 223, the coupling unit 230, and the learning unit 240 of the present embodiment may be collectively referred to as a learning unit.
  • the learning unit has the first learning feature quantities f 1, L (i, k) obtained based on the first analysis time length p 1 for the learning audio signal s L , and the learning voice signal s L.
  • the impression of urgency is estimated, but if the impression is that the rhythm changes due to the difference in impression, the impression other than urgency can be estimated. ..
  • the degree of urgency is estimated using long-term feature statistics.
  • FIG. 7 shows a functional block diagram of the impression estimation device according to the second embodiment
  • FIG. 8 shows a processing flow thereof.
  • the impression estimation device 300 includes a first section cutting unit 111, a first feature amount extraction unit 112, a first feature amount vector conversion unit 113, a statistic calculation unit 311, a third feature amount vector conversion unit 323, and a coupling unit 130.
  • the impression estimation unit 140 is included.
  • the second section cutting unit 121, the second feature amount extraction unit 122, and the second feature amount vector conversion unit 123 are removed from the impression estimation device 100, and the statistic calculation unit 311 and the third feature amount vector are removed.
  • a conversion unit 323 has been added.
  • Other configurations are the same as in the first embodiment.
  • p 3 is the statistic from the feature f 1 (i, k).
  • s 3 is the shift width when calculating the statistic from the feature f 1 (i, k). I 3 is the total number of calculations of the statistic.
  • P 3 > 2. Set the value.
  • the analysis time is s 1 ⁇ (p 3 -1) + p 1 using p 3 features f 1 (i, k), which is larger than p 1. Therefore, it becomes easier to analyze the rhythmic change of the sound.
  • the analysis time length s 1 ⁇ (p 3 -1) + p 1 corresponds to the analysis time p 2 of the first embodiment.
  • Statistic calculation unit 311 calculates a statistic for the window width s 1 ⁇ (p 3 -1) + p 1 in a certain section based on the feature amount f 1 (i, k) obtained by the analysis of the window width in a short time. By doing so, the long-time window width analysis similar to that of the first embodiment is converted into the feature quantity related to the rhythm.
  • the statistics are, for example, mean mean, standard deviation std, maximum value max, sharpness kurtosis, and so on.
  • the strain degree skewness and the average absolute deviation mad can be obtained, and the following formulas are used for each.
  • f 3 (i ", k) [mean (i", F 1 (k)), std (i “, F 1 (k)), max (i", F 1 (k)), kurtosis (i “ , F 1 (k)), skewness (i “, F 1 (k)), mad (i", F 1 (k))]
  • this statistic is a feature amount that indicates the degree of change in sound in each section, and the degree of change is a feature amount related to rhythm.
  • ⁇ Third feature vector conversion unit 323> Third feature amount vector converter 323, the feature amount f 3 (i ", k) as input, the feature quantity f 3 (i", k) the urgency of contributing to determination feature vector V 3 [V 3 (1), V 3 (2), ..., V 3 (K 1 )] is converted (S323) and output.
  • Vectorization is possible by the same method as in the first embodiment. For example, when taking the mean and variance, vectorization is possible as follows.
  • the coupling portion 130 instead of the feature vector V 2, performs processing S130 by using the feature vector V 3.
  • FIG. 9 shows a functional block diagram of the learning device according to the second embodiment, and FIG. 10 shows a processing flow thereof.
  • the learning device 400 includes a first section cutting unit 211, a first feature amount extraction unit 212, a first feature amount vector conversion unit 213, a statistic calculation unit 411, a third feature amount vector conversion unit 423, a coupling unit 230, and learning. Including part 240.
  • the learning device 400 receives the learning audio signal s L (t) and the learning impression label c L as inputs, learns an estimation model for estimating the impression of the audio signal, and outputs the learned estimation model.
  • the statistic calculation unit 411 and the third feature amount vector conversion unit 423 perform the same processes S411 and S423 as the processes S311 and S323 of the statistic calculation unit 311 and the third feature amount vector conversion unit 323, respectively.
  • the coupling portion 230 performs the process S230 using the feature quantity vectors V 3 and L instead of the feature quantity vectors V 2 and L.
  • the impression estimation device 300 includes the second section cutting unit 121, the second feature amount extraction unit 122, and the second feature amount vector conversion unit 123 in addition to the configuration of the second embodiment. ..
  • the impression estimation device 300 performs S121, S122, and S123 in addition to the processing of the second embodiment.
  • the learning device 400 includes a second section cutting unit 221, a second feature amount extraction unit 222, and a second feature amount vector conversion unit 223, in addition to the configuration of the second embodiment. ..
  • the learning device 400 performs S221, S222, and S223 in addition to the processing of the second embodiment.
  • the coupling portion 230 receives the feature quantities vectors V 1, L , V 2, L , and V 3, L as inputs, and combines the feature quantities vectors V 1, L , V 2, L , and V 3, L to determine the degree of urgency.
  • the coupling vector V L [V 1, L , V 2, L , V 3, L ] used for the determination is obtained (S230) and output.
  • FIG. 11 shows the results in the case of the first embodiment, the case of the second embodiment, and the case of the modified example 1 of the second embodiment when there is no second feature amount extraction unit.
  • the effect of the long-term feature amount by the first embodiment and the second embodiment is greater than the case of only the first feature amount.
  • the impression estimation device inputs linguistic information indicating the type of language, and performs impression estimation in the first embodiment for a certain language A and impression estimation in the second embodiment for another language B.
  • advance to determine the estimation accuracy of the pre either embodiment for each language is high, the time estimated in accordance with the language information may be selected accurate embodiment.
  • the language information may be estimated from the voice signal s (t), or may be input by the user.
  • the program that describes this processing content can be recorded on a computer-readable recording medium.
  • the computer-readable recording medium may be, for example, a magnetic recording device, an optical disk, a photomagnetic recording medium, a semiconductor memory, or the like.
  • this program is carried out, for example, by selling, transferring, renting, etc., a portable recording medium such as a DVD or CD-ROM on which the program is recorded.
  • the program may be stored in the storage device of the server computer, and the program may be distributed by transferring the program from the server computer to another computer via a network.
  • a computer that executes such a program first stores, for example, a program recorded on a portable recording medium or a program transferred from a server computer in its own storage device. Then, when the process is executed, the computer reads the program stored in its own recording medium and executes the process according to the read program. Further, as another execution form of this program, a computer may read the program directly from a portable recording medium and execute processing according to the program, and further, the program is transferred from the server computer to this computer. It is also possible to execute the process according to the received program one by one each time. In addition, the above processing is executed by a so-called ASP (Application Service Provider) type service that realizes the processing function only by the execution instruction and result acquisition without transferring the program from the server computer to this computer. May be. It should be noted that the program in this embodiment includes information to be used for processing by a computer and equivalent to the program (data that is not a direct command to the computer but has a property of defining the processing of the computer, etc.).
  • the present device is configured by executing a predetermined program on the computer, but at least a part of these processing contents may be realized by hardware.

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Signal Processing (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Machine Translation (AREA)
  • Management, Administration, Business Operations System, And Electronic Commerce (AREA)

Abstract

音声認識を必要としない印象推定技術を提供する。印象推定装置は、p1<p2とし、音声信号sに対して第一の分析時間長p1に基づいて求めた第一特徴量と、音声信号sに対して第二の分析時間長p2に基づいて求めた第二特徴量とを用いて、音声信号sの印象を推定する推定部を有する。学習装置は、p1<p2とし、学習用音声信号sLに対して第一の分析時間長p1に基づいて求めた学習用第一特徴量と、学習用音声信号sLに対して第二の分析時間長p2に基づいて求めた学習用第二特徴量と、学習用音声信号sLに対して付与された印象ラベルとを用いて、音声信号の印象を推定する推定モデルを学習する学習部を有する。

Description

印象推定装置、学習装置、それらの方法、およびプログラム
 本発明は、音声信号が聴取者に与える印象を推定する印象推定技術に関する。
 留守番電話等で、通話をかけてきた人物の緊急度等の印象を推定できる印象推定技術が必要とされている。例えば、印象推定技術を用いて緊急度の印象を推定できるようになると、利用者は実際に留守番電話を聞かずに緊急度の高い留守番電話を選別することができるようになる。
 印象推定技術として非特許文献1が知られている。非特許文献1では、MFCC(Mel-Frequency Cepstrum Coefficients)、PNCC(Power Normalized Cepstral Coefficients)といった声道特徴量や、声の高さ、強さに関する韻律特徴から印象を推定している。また、非特許文献2では、平均的な話速を特徴量として用いて、印象を推定している。
E. Principi et al., "Acoustic template-matching for automatic emergency state detection: An ELM based algorithm", Neurocomputing,vol.52, No.3, p.1185-1194, 2011. Z. Inanogliu et al., "Emotive Alert: HMM-Based Emotion Detection In Voicemail Message", IUI 05, 2005.
 従来技術では発話内容などを用いて印象を推定するが、推定結果が発話内容や発話言語に依存する場合、音声認識が必要となる。
 推定対象の印象によっては、印象が異なることで、発話のリズムが異なる場合がある。例えば、推定対象が緊急度の印象のとき、緊急度が高い場合の発話のリズムと、緊急度が低い場合の発話のリズムとは異なる。そこで、発話のリズムを用いて、印象を推定する方法も考えられるが、その際には音声の話速が必要となる。ここで、話速を求めるためには音声認識が必要である。
 しかしながら、音声認識は認識誤りが含まれることが多々あるため、音声認識を必要としない印象推定技術が求められている。
 本発明は、音声認識を必要としない印象推定技術を提供することを目的とする。
 上記の課題を解決するために、本発明の一態様によれば、印象推定装置は、p1<p2とし、音声信号sに対して第一の分析時間長p1に基づいて求めた第一特徴量と、音声信号sに対して第二の分析時間長p2に基づいて求めた第二特徴量とを用いて、音声信号sの印象を推定する推定部を有する。
 上記の課題を解決するために、本発明の他の態様によれば、学習装置は、p1<p2とし、学習用音声信号sLに対して第一の分析時間長p1に基づいて求めた学習用第一特徴量と、学習用音声信号sLに対して第二の分析時間長p2に基づいて求めた学習用第二特徴量と、学習用音声信号sLに対して付与された印象ラベルとを用いて、音声信号の印象を推定する推定モデルを学習する学習部を有する。
 本発明によれば、音声認識を必要とせずに発話の印象を推定することができるという効果を奏する。
第一実施形態に係る印象推定装置の機能ブロック図。 第一実施形態に係る印象推定装置の処理フローの例を示す図。 特徴量F1(i)の例を示す図。 分析窓を長くした第二特徴量の遷移例を示す図。 第一実施形態に係る学習装置の機能ブロック図。 第一実施形態に係る学習装置の処理フローの例を示す図。 第二実施形態に係る印象推定装置の機能ブロック図。 第二実施形態に係る印象推定装置の処理フローの例を示す図。 第二実施形態に係る学習装置の機能ブロック図。 第二実施形態に係る学習装置の処理フローの例を示す図。 実験結果を示す図。 印象推定装置または学習装置として機能するコンピュータの構成例を示す図。
 以下、本発明の実施形態について、説明する。なお、以下の説明に用いる図面では、同じ機能を持つ構成部や同じ処理を行うステップには同一の符号を記し、重複説明を省略する。以下の説明において、ベクトルや行列の各要素単位で行われる処理は、特に断りが無い限り、そのベクトルやその行列の全ての要素に対して適用されるものとする。
<第一実施形態のポイント>
 本実施形態では、分析時間長の長い分析窓を用いることで、音声の大局的な変動を捉える。これにより、音声認識を用いずに、音声のリズムを抽出し、印象を推定する。
<第一実施形態>
 図1は第一実施形態に係る印象推定装置の機能ブロック図を、図2はその処理フローを示す。
 印象推定装置100は、第一区間切出部111、第一特徴量抽出部112、第一特徴量ベクトル変換部113、第二区間切出部121、第二特徴量抽出部122、第二特徴量ベクトル変換部123、結合部130および印象推定部140を含む。
 印象推定装置100は、音声信号s=[s(1),s(2),…,s(t),…,s(T)]を入力とし、音声信号sの印象を推定して、推定値cを出力する。本実施形態では、推定対象の印象を緊急度とし、音声信号sの印象が緊急であると推定したときc=1、音声信号sの印象が非緊急であると推定したときc=2をとる緊急度ラベルを推定値cとして用いる。なお、Tは推定対象の音声信号sの総サンプル数であり、s(t)(t=1,2,…,T)は推定対象の音声信号sに含まれるt番目のサンプルである。
 印象推定装置および学習装置は、例えば、中央演算処理装置(CPU: Central Processing Unit)、主記憶装置(RAM: Random Access Memory)などを有する公知又は専用のコンピュータに特別なプログラムが読み込まれて構成された特別な装置である。印象推定装置および学習装置は、例えば、中央演算処理装置の制御のもとで各処理を実行する。印象推定装置および学習装置に入力されたデータや各処理で得られたデータは、例えば、主記憶装置に格納され、主記憶装置に格納されたデータは必要に応じて中央演算処理装置へ読み出されて他の処理に利用される。印象推定装置および学習装置の各処理部は、少なくとも一部が集積回路等のハードウェアによって構成されていてもよい。印象推定装置および学習装置が備える各記憶部は、例えば、RAM(Random Access Memory)などの主記憶装置、またはリレーショナルデータベースやキーバリューストアなどのミドルウェアにより構成することができる。ただし、各記憶部は、必ずしも印象推定装置および学習装置がその内部に備える必要はなく、ハードディスクや光ディスクもしくはフラッシュメモリ(Flash Memory)のような半導体メモリ素子により構成される補助記憶装置により構成し、印象推定装置および学習装置の外部に備える構成としてもよい。
 以下、各部について説明する。
<第一区間切出部111および第二区間切出部121>
 第一区間切出部111は、音声信号s=[s(1),s(2),…,s(T)]を入力とし、分析時間長パラメータp1、s1を用いて、分析時間長(分析窓幅)をp1、シフト幅をs1として、音声信号sから分析区間w1(i,j)を切り出し(S111)、出力する。分析区間w1(i,j)は例えば次のように表すことができる。
Figure JPOXMLDOC01-appb-M000001
Figure JPOXMLDOC01-appb-I000002
ただし、iはフレーム番号、jはフレーム番号i内のサンプル番号である。I1は推定対象の音声信号を分析時間長p1、シフト幅s1で切り出したときの分析区間の総数である。分析区間w1(i,j)には、Hamming窓等の窓関数を掛けても良い。
 第二区間切出部121は、音声信号s=[s(1),s(2),…,s(T)]を入力とし、分析時間長パラメータp2、s2を用いて、分析時間長(分析窓幅)をp2とし、シフト幅をs2として、第一区間切出部111と同様の式により、音声信号sから分析区間w2(i',j')を切り出し(S121)、出力する。ただし、
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-I000004
である。i'はフレーム番号、j'はフレーム番号i'内のサンプル番号である。I2は推定対象の音声信号を分析時間長p2、シフト幅s2で切り出したときの分析区間の総数である。
 ここで、分析窓幅p2として、p1≠p2となる値を設定する。p1<p2のとき、大きいほうの分析窓幅p2は分析時間が長いため音のリズム的な変化を分析しやすくなる。例えば、音声のサンプリング周波数が16000Hzの場合、パラメータはp1=400(0.025秒)、s1=160(0.010秒)、p2=16000(1秒)、s2=1600(0.100秒)と設定することができる。
<第一特徴量抽出部112および第二特徴量抽出部122>
 第一特徴量抽出部112は、分析区間w1(i,j)を入力とし、分析区間w1(i,j)から、特徴量f1(i,k)を抽出し(S112)、出力する。ただし、kは特徴量の次元番号であり、k=1,2,…,K1である。特徴量F1(i)=[f1(i,1),f1(i,2),…,f1(i,k),…,f1(i,K1)]の例を図3に示す。特徴量として、音声の声道特性を表現するMFCC、音声の高さを表現するF0抽出、音声の大きさを表現するパワー等が考えられる。これらの特徴量を公知の方法を用いて抽出すればよい。この例では、第一特徴量抽出部112は、声道および声の高さの少なくとも何れかに関する特徴量を抽出する。
 第二特徴量抽出部122は、分析区間w2(i',j')を入力とし、分析区間w2(i',j')から、特徴量f2(i',k')を抽出し(S122)、出力する。ただし、k'=1,2,…,K2である。p1<p2のとき、特徴量として、EMS(Envelope Modulation Spectra)(参考文献1)等大局的な変化を捉えるものが考えられる。
(参考文献1)J. M. Liss et al., "Discriminating Dysarthria Type From Envelope Modulation Spectra", J Speech Lang Hear Res. A,2010.
この例では、第二特徴量抽出部122は、音声信号のリズムに関する特徴量を抽出する。   
 言い換えると、第二特徴量抽出部122において音声信号のリズムに関する特徴量を抽出できるように第二区間切出部121のp2を設定し、第一特徴量抽出部112において声道および声の高さの少なくとも何れかに関する特徴量を抽出できるように第一区間切出部111のp1を設定する。
<第一特徴量ベクトル変換部113および第二特徴量ベクトル変換部123>
 第一特徴量ベクトル変換部113は、特徴量f1(i,k)を入力とし、特徴量f1(i,k)を緊急度の判定に寄与する特徴量ベクトルV1に変換し(S113)、出力する。特徴量ベクトルへの変換は、特徴量系列の平均、分散等の統計量を取ることや、ニューラルネットワークにより時系列データをベクトルに変換する手法(LSTM(Long short-term memory)等)等の公知の技術によって行う。
 例えば、平均、分散を取る場合は、次のようにベクトル化が可能となる。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-I000006
Figure JPOXMLDOC01-appb-I000007
Figure JPOXMLDOC01-appb-I000008
Figure JPOXMLDOC01-appb-I000009
 第二特徴量ベクトル変換部123は、同様に特徴量f2(i',k')を入力とし、特徴量f2(i',k')を緊急度の判定に寄与する特徴量ベクトルV2=[v2(1),v2(2),…,v2(K2)]に変換し(S123)、出力する。変換する手法は第一特徴量ベクトル変換部113と、同様の手法を用いてもよいし、異なる手法を用いてもよい。
<結合部130>
 結合部130は、特徴量ベクトルV1、V2を入力とし、特徴量ベクトルV1、V2を結合して、緊急度判定に用いる結合ベクトルV=[V1,V2]を得(S130)、出力する。
 結合部130は、単純なベクトルの結合以外にも、次元数K1,K2が同じであれば加算すること等によって、結合することも可能である。
<印象推定部140>
 印象推定部140は、結合ベクトルVを入力とし、結合ベクトルVから、音声信号sが緊急か非緊急かを推定し(S140)、推定値c(緊急ラベル)を出力する。緊急、非緊急のクラスの推定には、SVM(Support Vector Machine)、Random Forest、ニューラルネットワーク等の一般的な機械学習の方法で推定する。推定に際しては、予め推定モデルを学習する必要があるが、一般的な方法で学習データを用意して学習する。推定モデルを学習する学習装置については後述する。推定モデルは、結合ベクトルVを入力とし、音声信号の印象の推定値を出力するモデルである。例えば、推定対象の印象は、緊急か非緊急かである。つまり、印象推定部140は、結合ベクトルVを推定モデルの入力とし、推定モデルの出力である推定値を得る。
 従来技術と比べ、リズムに関する特徴を捉えることで、印象の推定精度が向上する。
 従来技術は、通話の平均話速を音声認識で求めている(非特許文献2参照)。しかし、緊急度の高い音声は、考えながら早急に内容を伝えようとする発話スタイルになるため、発話速度の緩急が大きくなり、不規則なリズムが発生する。分析窓を長くした第二特徴量(EMS)の遷移を図4に示す。図4は、EMSを主成分分析を行ったときの第一主成分である。緊急の音声は、不規則に変化しているのに対し、非緊急の音声は安定した振動をしている。このように長時間分析窓を用いたことで、リズムの違いが第二特徴量に現れることがわかる。
 従来技術で利用していた、緊急の音声の場合に、声が高くなるという特徴、強さが大きくなるという特徴に加えて、発話のリズムを本実施形態の長時間の分析区間で特徴量として求めることで、話速、音声認識結果を求めなくても印象推定が可能となる。
<学習装置200>
 図5は第一実施形態に係る学習装置の機能ブロック図を、図6はその処理フローを示す。
 学習装置200は、第一区間切出部211、第一特徴量抽出部212、第一特徴量ベクトル変換部213、第二区間切出部221、第二特徴量抽出部222、第二特徴量ベクトル変換部223、結合部230および学習部240を含む。
 学習装置200は、学習用の音声信号sLと学習用の印象ラベルcLとを入力とし、音声信号の印象を推定する推定モデルを学習し、学習済みの推定モデルを出力する。印象ラベルcLは、学習前に予め人手により付与してもよいし、何らかの手段により学習用の音声信号sL-から予め求めておき付与してもよい。
 第一区間切出部211、第一特徴量抽出部212、第一特徴量ベクトル変換部213、第二区間切出部221、第二特徴量抽出部222、第二特徴量ベクトル変換部223、結合部230は、それぞれ、第一区間切出部111、第一特徴量抽出部112、第一特徴量ベクトル変換部113、第二区間切出部121、第二特徴量抽出部122、第二特徴量ベクトル変換部123、結合部130の処理S111、S112、S113、S121、S122、S123、S130と同様の処理S211、S212、S213、S221、S222、S223、S230を行う。ただし、音声信号sおよび音声信号sに由来する情報に代えて、学習用の音声信号sLおよび学習用の音声信号sLに由来する情報に対して処理を行う。
<学習部240>
 学習部240は、結合ベクトルVLと印象ラベルcLとを入力とし、音声信号の印象を推定する推定モデルを学習し(S240)、学習済みの推定モデルを出力する。なお、推定モデルは、SVM(Support Vector Machine)、Random Forest、ニューラルネットワーク等の一般的な機械学習の方法で学習すればよい。
<効果>
 以上の構成により、音声認識を必要とせずに自由な発話内容で印象が推定可能となる。
<変形例>
 本実施形態の第一特徴量ベクトル変換部113、第二特徴量ベクトル変換部123、結合部130、印象推定部140を1つのニューラルネットワークで表現してもよい。このニューラルネットワーク全体を推定部と呼んでもよい。また、本実施形態の第一特徴量ベクトル変換部113、第二特徴量ベクトル変換部123、結合部130、印象推定部140を合わせて推定部と呼んでもよい。何れの場合も、推定部は、音声信号sに対して分析時間長p1に基づいて求めた第一特徴量f1(i,k)と、音声信号sに対して分析時間長p2に基づいて求めた第二特徴量f2(i',k')とを用いて、音声信号sの印象を推定する。
 同様に、第一特徴量ベクトル変換部213、第二特徴量ベクトル変換部223、結合部230および学習部240を1つのニューラルネットワークで表現し、学習してもよい。このニューラルネットワーク全体を学習部と呼んでもよい。また、本実施形態の第一特徴量ベクトル変換部213、第二特徴量ベクトル変換部223、結合部230、学習部240を合わせて学習部と呼んでもよい。何れの場合も、学習部は、学習用音声信号sLに対して第一の分析時間長p1に基づいて求めた学習用第一特徴量f1,L(i,k)と、学習用音声信号sLに対して第二の分析時間長p2に基づいて求めた学習用第二特徴量f2,L(i',k')と、学習用音声信号sLに対して付与された印象ラベルcLとを用いて、音声信号の印象を推定する推定モデルを学習する。
 また、本実施形態では、緊急度の印象を推定しているが、印象の違いによりリズムに変化が生じるような印象であれば緊急度以外の印象であっても推定の対象とすることができる。
<第二実施形態>
 第一実施形態と異なる部分を中心に説明する。
 本実施形態では、長時間の特徴量統計量を用いて、緊急度を推定する。
 図7は第二実施形態に係る印象推定装置の機能ブロック図を、図8はその処理フローを示す。
 印象推定装置300は、第一区間切出部111、第一特徴量抽出部112、第一特徴量ベクトル変換部113、統計量算出部311、第三特徴量ベクトル変換部323、結合部130および印象推定部140を含む。
 本実施形態は、印象推定装置100から、第二区間切出部121、第二特徴量抽出部122、第二特徴量ベクトル変換部123が除去され、統計量算出部311、第三特徴量ベクトル変換部323が加えられている。他の構成は、第一実施形態と同様である。
<統計量算出部311>
 統計量算出部311は、特徴量f1(i,k)を入力とし、分析時間長パラメータp3、s3を用いて統計量を算出し(S311)、算出した統計量を含む特徴量f3(i",k)=[f3(i",k,1),f3(i",k,2),…,f3(i",k,k"),…,f3(i",k,K3)]を得、出力する。ただし、k"=1,2,…,K3であり、0≦i"≦I3であり、i"は統計量のインデックス、p3は特徴量f1(i,k)から統計量を算出する際の標本数、s3は特徴量f1(i,k)から統計量を算出する際のシフト幅である。I3は統計量の総算出回数である。p3>2となる値を設定する。p3>2のとき、p3個の特徴量f1(i,k)を用いて分析時間はs1×(p3-1)+p1となり、p1よりも大きくなり、音のリズム的な変化を分析しやすくなる。ここで、分析時間長s1×(p3-1)+p1は第一実施形態の分析時間p2に相当する。統計量算出部311は、短時間の窓幅の分析で得られた特徴量f1(i,k)に基づいて一定区間の窓幅s1×(p3-1)+p1に対して統計量を算出することで、第一実施形態と同様の長時間の窓幅の分析と同様のリズムに関する特徴量に変換をする。統計量は例えば、平均mean、標準偏差std、最大値max、尖度kurtosis、歪度skewness、平均絶対偏差madを求めることができ、それぞれ次のような計算式となる。
f3(i",k)=[mean(i",F1(k)),std(i",F1(k)),max(i",F1(k)),kurtosis(i",F1(k)),skewness(i",F1(k)),mad(i",F1(k))]
なおこの統計量は、例えばMFCCを用いたときは、各区間の音の変化の度合いをあわらす特徴量となり、その変化度合いがリズムに関連する特徴量となる。
Figure JPOXMLDOC01-appb-M000010
Figure JPOXMLDOC01-appb-I000011
Figure JPOXMLDOC01-appb-I000012
Figure JPOXMLDOC01-appb-I000013
Figure JPOXMLDOC01-appb-I000014
Figure JPOXMLDOC01-appb-I000015
<第三特徴量ベクトル変換部323>
 第三特徴量ベクトル変換部323は、特徴量f3(i",k)を入力とし、特徴量f3(i",k)を緊急度の判定に寄与する特徴量ベクトルV3=[V3(1),V3(2),…,V3(K1)]に変換し(S323)、出力する。第一実施形態と同様の方法により、ベクトル化が可能となる。例えば、平均、分散を取る場合は、次のようにベクトル化が可能となる。
Figure JPOXMLDOC01-appb-M000016
Figure JPOXMLDOC01-appb-I000017
Figure JPOXMLDOC01-appb-I000018
Figure JPOXMLDOC01-appb-I000019
Figure JPOXMLDOC01-appb-I000020
Figure JPOXMLDOC01-appb-I000021
Figure JPOXMLDOC01-appb-I000022
Figure JPOXMLDOC01-appb-I000023
 なお、結合部130は、特徴量ベクトルV2に代えて、特徴量ベクトルV3を用いて処理S130を行う。
<学習装置400>
 図9は第二実施形態に係る学習装置の機能ブロック図を、図10はその処理フローを示す。
 学習装置400は、第一区間切出部211、第一特徴量抽出部212、第一特徴量ベクトル変換部213、統計量算出部411、第三特徴量ベクトル変換部423、結合部230および学習部240を含む。
 学習装置400は、学習用の音声信号sL(t)と学習用の印象ラベルcLとを入力とし、音声信号の印象を推定する推定モデルを学習し、学習済みの推定モデルを出力する。
 統計量算出部411、第三特徴量ベクトル変換部423は、それぞれ、統計量算出部311、第三特徴量ベクトル変換部323の処理S311、S323と同様の処理S411、S423を行う。ただし、音声信号s(t)および音声信号s(t)に由来する情報に代えて、学習用の音声信号sL(t)および学習用の音声信号sL(t)に由来する情報に対して処理を行う。他の構成については、第一実施形態で説明した通りである。なお、結合部230は、特徴量ベクトルV2,Lに代えて、特徴量ベクトルV3,Lを用いて処理S230を行う。
<効果>
 このような構成とすることで、第一実施形態と同様の効果を得ることができる。
<変形例1>
 第一実施形態と第二実施形態とを組合せてもよい。
 図7に破線で示すように、印象推定装置300は、第二実施形態の構成に加え、第二区間切出部121、第二特徴量抽出部122、第二特徴量ベクトル変換部123を含む。
 図8に破線で示すように、印象推定装置300は、第二実施形態の処理に加え、S121、S122、S123を行う。
 結合部130は、特徴量ベクトルV1、V2、V3を入力とし、特徴量ベクトルV1、V2、V3を結合して、緊急度判定に用いる結合ベクトルV=[V1,V2,V3]を得(S130)、出力する。
 同様に、図9に示すように、学習装置400は、第二実施形態の構成に加え、第二区間切出部221、第二特徴量抽出部222、第二特徴量ベクトル変換部223を含む。
 また、図10に示すように、学習装置400は、第二実施形態の処理に加え、S221、S222、S223を行う。
 結合部230は、特徴量ベクトルV1,L、V2,L、V3,Lを入力とし、特徴量ベクトルV1,L、V2,L、V3,Lを結合して、緊急度判定に用いる結合ベクトルVL=[V1,L,V2,L,V3,L]を得(S230)、出力する。
<効果>
 このような構成とすることで、第二実施形態より精度の高い推定結果を得ることができる。
<実験結果>
 第二特徴量抽出部がない場合、第一実施形態の場合、第二実施形態の場合、および第二実施形態の変形例1の場合の結果を図11に示す。
 このように第一特徴量のみの場合より、第一実施形態、第二実施形態による長時間特徴量の効果が大きいことがわかる。
<変形例2>
 また、第一実施形態と第二実施形態とを言語によっても使い分けても良い。
 例えば、印象推定装置は、言語の種類を示す言語情報を入力とし、ある言語Aのときには第一実施形態で印象推定を行い、他の言語Bのときには第二実施形態で印象推定を行う。なお、言語ごとに予めどちらの実施形態の推定精度が高くなるかを判定しておき、推定時には、言語情報に応じて、精度の高い実施形態を選択すればよい。言語情報は、音声信号s(t)から推定してもよいし、利用者によって入力される構成としてもよい。
<その他の変形例>
 本発明は上記の実施形態及び変形例に限定されるものではない。例えば、上述の各種の処理は、記載に従って時系列に実行されるのみならず、処理を実行する装置の処理能力あるいは必要に応じて並列的にあるいは個別に実行されてもよい。その他、本発明の趣旨を逸脱しない範囲で適宜変更が可能である。
<プログラム及び記録媒体>
 上述の各種の処理は、図12に示すコンピュータの記録部2020に、上記方法の各ステップを実行させるプログラムを読み込ませ、制御部2010、入力部2030、出力部2040などに動作させることで実施できる。
 この処理内容を記述したプログラムは、コンピュータで読み取り可能な記録媒体に記録しておくことができる。コンピュータで読み取り可能な記録媒体としては、例えば、磁気記録装置、光ディスク、光磁気記録媒体、半導体メモリ等どのようなものでもよい。
 また、このプログラムの流通は、例えば、そのプログラムを記録したDVD、CD-ROM等の可搬型記録媒体を販売、譲渡、貸与等することによって行う。さらに、このプログラムをサーバコンピュータの記憶装置に格納しておき、ネットワークを介して、サーバコンピュータから他のコンピュータにそのプログラムを転送することにより、このプログラムを流通させる構成としてもよい。
 このようなプログラムを実行するコンピュータは、例えば、まず、可搬型記録媒体に記録されたプログラムもしくはサーバコンピュータから転送されたプログラムを、一旦、自己の記憶装置に格納する。そして、処理の実行時、このコンピュータは、自己の記録媒体に格納されたプログラムを読み取り、読み取ったプログラムに従った処理を実行する。また、このプログラムの別の実行形態として、コンピュータが可搬型記録媒体から直接プログラムを読み取り、そのプログラムに従った処理を実行することとしてもよく、さらに、このコンピュータにサーバコンピュータからプログラムが転送されるたびに、逐次、受け取ったプログラムに従った処理を実行することとしてもよい。また、サーバコンピュータから、このコンピュータへのプログラムの転送は行わず、その実行指示と結果取得のみによって処理機能を実現する、いわゆるASP(Application Service Provider)型のサービスによって、上述の処理を実行する構成としてもよい。なお、本形態におけるプログラムには、電子計算機による処理の用に供する情報であってプログラムに準ずるもの(コンピュータに対する直接の指令ではないがコンピュータの処理を規定する性質を有するデータ等)を含むものとする。
 また、この形態では、コンピュータ上で所定のプログラムを実行させることにより、本装置を構成することとしたが、これらの処理内容の少なくとも一部をハードウェア的に実現することとしてもよい。

Claims (7)

  1.  p1<p2とし、音声信号sに対して第一の分析時間長p1に基づいて求めた第一特徴量と、前記音声信号sに対して第二の分析時間長p2に基づいて求めた第二特徴量とを用いて、前記音声信号sの印象を推定する推定部を有する、
     印象推定装置。
  2.  請求項1の印象推定装置であって、
     前記第一特徴量は声道および声の高さの少なくとも何れかに関する特徴量であり、前記第二特徴量は音声のリズムに関する特徴量である、
     印象推定装置。
  3.  請求項1の印象推定装置であって、
     前記第二特徴量は、前記第一特徴量に基づいて前記第二の分析時間長に対して算出した統計量である、
     印象推定装置。
  4.  p1<p2とし、学習用音声信号sLに対して第一の分析時間長p1に基づいて求めた学習用第一特徴量と、前記学習用音声信号sLに対して第二の分析時間長p2に基づいて求めた学習用第二特徴量と、前記学習用音声信号sLに対して付与された印象ラベルとを用いて、音声信号の印象を推定する推定モデルを学習する学習部を有する、
     学習装置。
  5.  p1<p2とし、音声信号sに対して第一の分析時間長p1に基づいて求めた第一特徴量と、前記音声信号sに対して第二の分析時間長p2に基づいて求めた第二特徴量とを用いて、前記音声信号sの印象を推定する推定ステップを有する、
     印象推定方法。
  6.  p1<p2とし、学習用音声信号sLに対して第一の分析時間長p1に基づいて求めた学習用第一特徴量と、前記学習用音声信号sLに対して第二の分析時間長p2に基づいて求めた学習用第二特徴量と、前記学習用音声信号sLに対して付与された印象ラベルとを用いて、音声信号の印象を推定する推定モデルを学習する学習ステップを有する、
     学習方法。
  7.  請求項1から請求項3の何れかの印象推定装置、または、請求項4の学習装置としてコンピュータを機能させるためのプログラム。
PCT/JP2019/029666 2019-07-29 2019-07-29 印象推定装置、学習装置、それらの方法、およびプログラム WO2021019643A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
PCT/JP2019/029666 WO2021019643A1 (ja) 2019-07-29 2019-07-29 印象推定装置、学習装置、それらの方法、およびプログラム
US17/630,855 US20220277761A1 (en) 2019-07-29 2019-07-29 Impression estimation apparatus, learning apparatus, methods and programs for the same
JP2021536485A JPWO2021019643A1 (ja) 2019-07-29 2019-07-29

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2019/029666 WO2021019643A1 (ja) 2019-07-29 2019-07-29 印象推定装置、学習装置、それらの方法、およびプログラム

Publications (1)

Publication Number Publication Date
WO2021019643A1 true WO2021019643A1 (ja) 2021-02-04

Family

ID=74228380

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2019/029666 WO2021019643A1 (ja) 2019-07-29 2019-07-29 印象推定装置、学習装置、それらの方法、およびプログラム

Country Status (3)

Country Link
US (1) US20220277761A1 (ja)
JP (1) JPWO2021019643A1 (ja)
WO (1) WO2021019643A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023119675A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180334A (ja) * 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
JP2019061129A (ja) * 2017-09-27 2019-04-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム
JP2019095968A (ja) * 2017-11-21 2019-06-20 日本電信電話株式会社 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム

Family Cites Families (16)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
CA2536976A1 (en) * 2006-02-20 2007-08-20 Diaphonics, Inc. Method and apparatus for detecting speaker change in a voice transaction
WO2009158581A2 (en) * 2008-06-27 2009-12-30 Adpassage, Inc. System and method for spoken topic or criterion recognition in digital media and contextual advertising
EP2151822B8 (en) * 2008-08-05 2018-10-24 Fraunhofer-Gesellschaft zur Förderung der angewandten Forschung e.V. Apparatus and method for processing an audio signal for speech enhancement using a feature extraction
US8788270B2 (en) * 2009-06-16 2014-07-22 University Of Florida Research Foundation, Inc. Apparatus and method for determining an emotion state of a speaker
DE102014212437A1 (de) * 2014-06-27 2016-01-14 Siemens Aktiengesellschaft System zur verbesserten Parallelisierung eines Programmcodes
US9642586B2 (en) * 2014-08-18 2017-05-09 Siemens Aktiengesellschaft Computer-aided analysis of medical images
US9825875B2 (en) * 2015-03-31 2017-11-21 Alcatel Lucent Method and apparatus for provisioning resources using clustering
US10134389B2 (en) * 2015-09-04 2018-11-20 Microsoft Technology Licensing, Llc Clustering user utterance intents with semantic parsing
US9967293B2 (en) * 2016-02-10 2018-05-08 Samsung Electronics Co., Ltd. Framework for comprehensive monitoring and learning context of VoLTE call
CN109478231A (zh) * 2016-04-01 2019-03-15 20/20基因系统股份有限公司 帮助区别良性和恶性放射线照相明显肺结节的方法和组合物
US10141009B2 (en) * 2016-06-28 2018-11-27 Pindrop Security, Inc. System and method for cluster-based audio event detection
CA3051013A1 (en) * 2017-02-18 2018-08-23 Mmodal Ip Llc Computer-automated scribe tools
US10410406B2 (en) * 2017-02-27 2019-09-10 Trimble Ab Enhanced three-dimensional point cloud rendering
JP6982792B2 (ja) * 2017-09-22 2021-12-17 株式会社村田製作所 音声解析システム、音声解析方法、及び音声解析プログラム
WO2019113477A1 (en) * 2017-12-07 2019-06-13 Lena Foundation Systems and methods for automatic determination of infant cry and discrimination of cry from fussiness
US10832671B2 (en) * 2018-06-25 2020-11-10 Intel Corporation Method and system of audio false keyphrase rejection using speaker recognition

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2018180334A (ja) * 2017-04-14 2018-11-15 岩崎通信機株式会社 感情認識装置、方法およびプログラム
JP2019061129A (ja) * 2017-09-27 2019-04-18 富士通株式会社 音声処理プログラム、音声処理方法および音声処理装置
JP2019095968A (ja) * 2017-11-21 2019-06-20 日本電信電話株式会社 印象推定モデル学習装置、印象推定装置、印象推定モデル学習方法、印象推定方法、およびプログラム
WO2019107170A1 (ja) * 2017-11-29 2019-06-06 日本電信電話株式会社 緊急度推定装置、緊急度推定方法、プログラム

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023119675A1 (ja) * 2021-12-24 2023-06-29 日本電信電話株式会社 推定方法、推定装置及び推定プログラム

Also Published As

Publication number Publication date
US20220277761A1 (en) 2022-09-01
JPWO2021019643A1 (ja) 2021-02-04

Similar Documents

Publication Publication Date Title
JP6671020B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
US10878823B2 (en) Voiceprint recognition method, device, terminal apparatus and storage medium
KR100636317B1 (ko) 분산 음성 인식 시스템 및 그 방법
CN109964270B (zh) 用于关键短语识别的系统和方法
EP2363852B1 (en) Computer-based method and system of assessing intelligibility of speech represented by a speech signal
TW201935464A (zh) 基於記憶性瓶頸特徵的聲紋識別的方法及裝置
JP6731326B2 (ja) 音声対話装置及び音声対話方法
US20160071520A1 (en) Speaker indexing device and speaker indexing method
CN111583906B (zh) 一种语音会话的角色识别方法、装置及终端
JPH05216490A (ja) 音声コード化装置及び方法並びに音声認識装置及び方法
JP2009251134A (ja) 音声/非音声を判定する装置、方法およびプログラム
WO2008001486A1 (fr) Dispositif et programme de traitement vocal, et procédé de traitement vocal
WO2019017462A1 (ja) 満足度推定モデル学習装置、満足度推定装置、満足度推定モデル学習方法、満足度推定方法、およびプログラム
JP2007279444A (ja) 特徴量補正装置、特徴量補正方法および特徴量補正プログラム
JP6553015B2 (ja) 話者属性推定システム、学習装置、推定装置、話者属性推定方法、およびプログラム
US11900949B2 (en) Signal extraction system, signal extraction learning method, and signal extraction learning program
KR20040088368A (ko) 스위칭 상태 공간 모델들을 갖는 변분 추론을 사용하는음성 인식 방법
US10699224B2 (en) Conversation member optimization apparatus, conversation member optimization method, and program
JP5803125B2 (ja) 音声による抑圧状態検出装置およびプログラム
WO2019107170A1 (ja) 緊急度推定装置、緊急度推定方法、プログラム
WO2021019643A1 (ja) 印象推定装置、学習装置、それらの方法、およびプログラム
JP6910002B2 (ja) 対話行為推定方法、対話行為推定装置及びプログラム
JP6526602B2 (ja) 音声認識装置、その方法、及びプログラム
WO2020195924A1 (ja) 信号処理装置および方法、並びにプログラム
JPH11212588A (ja) 音声処理装置、音声処理方法、及び音声処理プログラムを記録したコンピュータ読み取り可能な記録媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 19939828

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2021536485

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 19939828

Country of ref document: EP

Kind code of ref document: A1