WO2020065771A1 - 音声感情認識装置および音声感情認識方法 - Google Patents

音声感情認識装置および音声感情認識方法 Download PDF

Info

Publication number
WO2020065771A1
WO2020065771A1 PCT/JP2018/035701 JP2018035701W WO2020065771A1 WO 2020065771 A1 WO2020065771 A1 WO 2020065771A1 JP 2018035701 W JP2018035701 W JP 2018035701W WO 2020065771 A1 WO2020065771 A1 WO 2020065771A1
Authority
WO
WIPO (PCT)
Prior art keywords
emotion
noise level
model
vehicle
unit
Prior art date
Application number
PCT/JP2018/035701
Other languages
English (en)
French (fr)
Inventor
真 宗平
Original Assignee
三菱電機株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 三菱電機株式会社 filed Critical 三菱電機株式会社
Priority to PCT/JP2018/035701 priority Critical patent/WO2020065771A1/ja
Publication of WO2020065771A1 publication Critical patent/WO2020065771A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L25/00Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00
    • G10L25/48Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use
    • G10L25/51Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination
    • G10L25/63Speech or voice analysis techniques not restricted to a single one of groups G10L15/00 - G10L21/00 specially adapted for particular use for comparison or discrimination for estimating an emotional state

Definitions

  • the present invention relates to a voice emotion recognition device and a voice emotion recognition method for recognizing a speaker's emotion from voice.
  • Patent Document 1 Conventionally, as a method of recognizing a speaker's emotion from voice, for example, there is a method described in Patent Document 1.
  • a prosodic feature such as a fundamental frequency indicating a voice pitch, a power of a speech signal indicating a loudness of a voice, and a speech speed is extracted from a speaker's voice. Judgments such as “loud voice” and “loud voice” are made, and the emotion of the speaker is recognized.
  • a voice emotion recognition device includes a noise level acquisition unit that acquires a noise level in a vehicle, and an emotion feature that extracts an emotion feature amount used for recognizing an occupant's emotion from a voice of an occupant in the vehicle.
  • An emotion model acquisition unit for acquiring a second emotion model used for recognizing an emotion corresponding to the emotion feature amount, and a first emotion model or a second emotion model acquired by the emotion model acquisition unit.
  • An emotion recognition unit that recognizes an occupant's emotion using the emotion feature amount extracted by the emotion feature amount extraction unit.
  • the emotion recognition unit determines which of the first emotion model and the second emotion model Even if used If the emotion cannot be recognized, one or both of the first emotion model and the second emotion model is used to correspond to the emotion feature amount obtained at the noise level in the vehicle acquired by the noise level acquisition unit.
  • a third emotion model used for recognizing the emotion is estimated, and the occupant's emotion is recognized using the third emotion model and the emotion feature amount extracted by the emotion feature amount extraction unit.
  • FIG. 2 is a block diagram illustrating a configuration of a voice emotion recognition device according to Embodiment 1.
  • 4 is a flowchart illustrating a voice emotion recognition method according to Embodiment 1.
  • 3 is a flowchart showing a detailed process of step ST4 in FIG. 3 is a flowchart showing a detailed process of step ST5 in FIG.
  • FIG. 5A is a block diagram showing a hardware configuration for realizing the function of the voice emotion recognition device according to the first embodiment.
  • FIG. 5B is a block diagram showing a hardware configuration for executing software for realizing the function of the voice emotion recognition device according to Embodiment 1.
  • FIG. 9 is a block diagram showing a configuration of a voice emotion recognition device according to Embodiment 2.
  • FIG. 9 is a flowchart illustrating a noise level acquisition method according to Embodiment 2.
  • FIG. 13 is a block diagram illustrating a configuration of a voice emotion recognition device according to Embodiment 3.
  • 13 is a flowchart illustrating a noise level acquisition method according to Embodiment 3.
  • the voice in the vehicle includes various voices such as noise generated in the vehicle in addition to the voice of the occupant.
  • the microphone may be built in, for example, an in-vehicle device provided on a center console in the vehicle, or may be provided near a map light.
  • the in-vehicle device is, for example, a navigation device.
  • the voice input device 2 converts the collected voice in the vehicle into a voice signal, and outputs the voice signal to the utterance section detection unit 3 and the voice emotion recognition device 1.
  • the utterance section detection unit 3 detects a section including a component of the utterance voice of the occupant based on the voice signal output from the voice input device 2.
  • the utterance section detection unit 3 may set, for example, a section in which the power of the audio signal exceeds the threshold value, or a section in which the audio signal includes the frequency component of the utterance voice of the occupant.
  • the utterance section detection unit 3 may be a component included in a voice recognition device that recognizes a character string or the like indicated by the uttered voice based on the voice signal output from the voice input device 2.
  • the utterance section detection unit 3 outputs utterance section information indicating the detected utterance section to the voice emotion recognition device 1.
  • the voice emotion recognition device 1 recognizes the occupant's emotion using the occupant's voice.
  • Emotion information indicating the emotion recognized by the voice emotion recognition device 1 is displayed on the display unit 4.
  • the emotion information is information including an emotion label and an emotion intensity.
  • the emotion label is information indicating an emotional state such as anger, sadness, or joy.
  • the emotion intensity indicates the degree of the emotional state indicated by the label. For example, if the emotion label is sad, the occupant is recognized as sad at a degree corresponding to the intensity of the emotion.
  • FIG. 1 shows a case where emotion information is displayed on the display unit 4, the emotion information may be output to a device that uses the occupant's emotion.
  • a device that uses the occupant's emotion is a voice interaction device that outputs a voice corresponding to the recognized emotion. For example, when it is recognized that the occupant is angry, a voice that soothes the occupant is output from the voice interaction device, and when it is recognized that the occupant is sad, a voice that encourages the occupant is output from the voice interaction device.
  • the voice emotion recognition device 1 includes a noise level acquisition unit 10, an emotion feature amount extraction unit 11, an emotion model acquisition unit 12, and an emotion recognition unit 13, as shown in FIG.
  • the voice emotion recognition device 1 may be a vehicle-mounted device mounted on a vehicle, or may be a component included in a server on a communication network.
  • the server includes the voice emotion recognition device 1, for example, the in-vehicle device and the server are communicatively connected via a communication network.
  • the voice signal output from the voice input device 2 and the utterance section information output from the utterance section detection section 3 are received by the noise level acquisition section 10 and the emotion feature amount extraction section 11 provided in the server. Thereafter, the emotion information indicating the emotion recognized by the emotion recognition unit 13 provided in the server is transmitted to the display unit 4 on the vehicle side via the communication network and displayed.
  • the noise level acquisition unit 10 acquires the noise level in the vehicle.
  • the noise level acquisition unit 10 analyzes the speech signal in the speech section using the speech signal output from the speech input device 2 such as a microphone and the speech section information detected by the speech section detection unit 3.
  • the noise level in the vehicle is obtained by determining the noise level.
  • the noise level acquisition unit 10 may acquire the noise level in the vehicle from an external device provided separately from the voice emotion recognition device 1.
  • the noise level acquisition unit 10 may measure the noise level in the vehicle using a noise model in which the relationship between the vehicle state and the noise level is modeled.
  • the noise level acquisition unit 10 may estimate the noise level in the vehicle using a noise model in which a noise level corresponding to the vehicle state and the environmental state around the vehicle is set. The measurement of the noise level will be described in detail in Embodiment 2, and the estimation of the noise level will be described in Embodiment 3 in detail.
  • the emotion feature amount extraction unit 11 extracts an emotion feature amount used for recognizing the occupant's emotion from the utterance voice of the occupant.
  • the emotion feature is a plurality of types of features that are known to change in accordance with the occupant's emotional state, out of the plurality of types of features of the audio signal, and includes the fundamental frequency and power of the audio signal. It is.
  • the emotion feature amount extraction unit 11 determines the occupant's emotion from the feature amount of the speech signal in the speech section indicated by the speech section information output from the speech section detection unit 3 among the voice signals output from the voice input device 2.
  • a feature similar to the reference value of the feature corresponding to the state is extracted as an emotion feature corresponding to the occupant's emotional state.
  • the reference value of the emotion feature amount may be an emotion feature amount determined based on the voice of the occupant, or an average of the emotion feature amounts determined based on each of the voices emitted by a large number of persons other than the occupant. It may be a value.
  • the emotion model acquisition unit 12 acquires the first emotion model and the second emotion model.
  • the emotion model acquisition unit 12 acquires the first emotion model and the second emotion model corresponding to the occupant whose emotion is to be recognized from the database in which the first emotion model and the second emotion model are registered.
  • the database is stored in, for example, a storage device provided separately from the voice emotion recognition device 1, a storage device built in the voice emotion recognition device 1, or a server on a communication network.
  • the first emotion model is an emotion model used for recognizing an emotion corresponding to the emotion feature obtained at the first noise level, and a plurality of types of emotion features are associated with emotion information.
  • the first noise level is, for example, a high noise level.
  • An upper threshold and a lower threshold are provided for the noise level, and the noise level when the noise level exceeds the upper threshold is the high noise level.
  • the emotion information includes the aforementioned emotion label and emotion intensity corresponding to the emotion feature amount.
  • the second emotion model is an emotion model used for recognizing an emotion corresponding to an emotion feature obtained at a second noise level different from the first noise level, and includes a plurality of types of emotion features and emotions.
  • the information is associated with the information.
  • the second noise level is a noise level lower than the first noise level, for example, a low noise level.
  • the low noise level is a noise level lower than the lower threshold or a silent level.
  • the emotion recognition unit 13 extracts the emotion feature from the emotion feature set in the second emotion model by the emotion feature extraction unit 11. An emotion feature value having a degree of matching with the determined emotion feature value is higher than a threshold value. Then, the emotion recognizing unit 13 outputs the emotion information associated with the determined emotion feature amount in the second emotion model as the passenger's emotion recognition result. In addition, the emotion recognition unit 13 determines the degree of matching with the emotion feature amount extracted by the emotion feature amount extraction unit 11 from the emotion feature amounts set in each of the first emotion model and the second emotion model. May be determined.
  • FIG. 2 is a flowchart showing the voice emotion recognition method according to the first embodiment.
  • the noise level acquisition unit 10 acquires a noise level in the vehicle (step ST1).
  • the emotion feature amount extraction unit 11 extracts an emotion feature amount used for recognizing the occupant's emotion from the voice of the occupant of the vehicle (step ST2).
  • the emotion model acquisition unit 12 acquires a first emotion model and a second emotion model corresponding to the occupant whose emotion is to be recognized (step ST3).
  • the emotion model acquisition unit 12 acquires a first emotion model and a second emotion model corresponding to the occupant whose emotion is to be recognized from a database in which the first emotion model and the second emotion model are registered. .
  • FIG. 3 is a flowchart showing a detailed process of step ST4 in FIG.
  • the emotion recognition unit 13 performs a process of recognizing an occupant's emotion using the first emotion model and the emotion feature amount extracted by the emotion feature amount extraction unit 11. At this time, the emotion recognition unit 13 determines whether or not the occupant's emotion has been recognized using the first emotion model (step ST1a).
  • the emotion recognition unit 13 uses the first emotion model. Then, it is determined that the emotion of the occupant could not be recognized (step ST1a; NO). Thereafter, the emotion recognizing unit 13 executes the occupant's emotion recognition process using the second emotion model and the emotion feature amount extracted by the emotion feature amount extracting unit 11. At this time, the emotion recognizing unit 13 determines whether or not the occupant's emotion has been recognized using the second emotion model (step ST2a).
  • FIG. 4 is a flowchart showing a detailed process of step ST5 in FIG.
  • the emotion recognition unit 13 determines whether the noise level in the vehicle is more similar to the first noise level than the second noise level (step ST1b). For example, the emotion recognition unit 13 compares the matching level between the noise level in the vehicle and the first noise level with the matching level between the noise level in the vehicle and the second noise level. If it is higher, it is determined that the noise level in the vehicle is more similar to the first noise level than to the second noise level.
  • the emotion recognition unit 13 sets the noise level in the vehicle. It is determined whether or not the difference between the level and the second noise level is equal to or smaller than a threshold (step ST4b).
  • the emotion recognition unit 13 calculates a difference in the emotion feature amount corresponding to the difference between the noise level in the vehicle and the first noise level for the emotion feature amount set in the first emotion model. Further, the emotion recognizing unit 13 calculates a difference in the emotion feature amount corresponding to the difference between the noise level in the vehicle and the second noise level for the emotion feature amount set in the second emotion model. The emotion recognition unit 13 changes the emotion feature of the first emotion model so that the difference between the emotion features is interpolated, and changes the emotion of the second emotion model so that the difference between the emotion features is interpolated. By changing the feature amount, a third emotion model in which the changed emotion feature amount is set is estimated.
  • FIG. 5A is a block diagram showing a hardware configuration for realizing the function of the voice emotion recognition device 1.
  • FIG. 5B is a block diagram illustrating a hardware configuration that executes software for realizing the function of the voice emotion recognition device 1.
  • the microphone 100 is the voice input device 2 shown in FIG.
  • the interface 101 is an interface that relays data input / output between the voice emotion recognition device 1 and an external device.
  • the external device is a device provided separately from the voice emotion recognition device 1, and examples thereof include a voice recognition device and a server.
  • the processing circuit 103 may be, for example, a single circuit, a composite circuit, a programmed processor, a parallel programmed processor, or an ASIC (Application / Specific / Integrated / Circuit). ), FPGA (Field-Programmable Gate Array), or a combination thereof.
  • the functions of the noise level acquisition unit 10, the emotion feature amount extraction unit 11, the emotion model acquisition unit 12, and the emotion recognition unit 13 in the voice emotion recognition device 1 may be realized by separate processing circuits, and these functions are put together. It may be realized by one processing circuit.
  • the functions of the noise level acquisition unit 10, the emotion feature amount extraction unit 11, the emotion model acquisition unit 12, and the emotion recognition unit 13 in the voice emotion recognition device 1 are software, firmware Alternatively, it is realized by a combination of software and firmware.
  • the software or firmware is described as a program and stored in the memory 105.
  • the processor 104 reads out and executes the program stored in the memory 105 to thereby execute functions of the noise level acquisition unit 10, the emotion feature amount extraction unit 11, the emotion model acquisition unit 12, and the emotion recognition unit 13 in the voice emotion recognition device 1.
  • the voice emotion recognition apparatus 1 includes a memory 105 for storing a program that, when executed by the processor 104, results in the processing of steps ST1 to ST5 in the flowchart shown in FIG. .
  • These programs cause a computer to execute the procedure or method of the noise level acquisition unit 10, the emotion feature amount extraction unit 11, the emotion model acquisition unit 12, and the emotion recognition unit 13 in the voice emotion recognition device 1.
  • the memory 105 is a computer-readable storage storing a program for causing a computer to function as the noise level acquisition unit 10, the emotion feature amount extraction unit 11, the emotion model acquisition unit 12, and the emotion recognition unit 13 in the voice emotion recognition device 1. It may be a medium.
  • any one of the first emotion model corresponding to the first noise level and the second emotion model corresponding to the second noise level is used. If the emotion of the occupant cannot be recognized even if the third emotion model is used, the third emotion model corresponding to the noise level in the vehicle is estimated using one or both of the first emotion model and the second emotion model. Even if the noise level in the room changes, the occupants' emotions can be recognized.
  • FIG. 6 is a block diagram showing a configuration of a voice emotion recognition device 1A according to the second embodiment.
  • the voice emotion recognition device 1A includes a noise level acquisition unit 10A, an emotion feature amount extraction unit 11, an emotion model acquisition unit 12, an emotion recognition unit 13, and a vehicle state acquisition unit 14.
  • the noise level acquisition unit 10A includes a noise level measurement unit 15 and a noise model 16.
  • the noise level acquisition unit 10A measures and acquires the noise level in the vehicle.
  • the vehicle state acquisition unit 14 acquires the vehicle state from the vehicle via an in-vehicle network such as CAN (Controller Area Network).
  • the vehicle state is a vehicle state that affects the noise level in the vehicle, and includes, for example, a running state of the vehicle, an opening and closing amount of a vehicle window, and an air flow rate of an air controller (hereinafter, referred to as an air conditioner) mounted on the vehicle. And the direction of the outlet.
  • the vehicle state acquisition unit 14 acquires the vehicle state from the control ECU (Electronic Control Unit) 106, the air conditioner control unit 107, and the vehicle window opening / closing control unit 108, and outputs the vehicle state information indicating the vehicle state to the noise level measurement unit. 15 is output.
  • ECU Electronic Control Unit
  • the control ECU 106 controls the running state of the vehicle.
  • the vehicle state acquisition unit 14 acquires vehicle state information indicating the traveling state of the vehicle from the control ECU 106.
  • the air conditioner control unit 107 controls the air conditioner of the vehicle.
  • the vehicle state acquisition unit 14 acquires vehicle state information indicating the setting of the air conditioner from the air conditioner control unit 107.
  • the setting of the air conditioner includes ON / OFF of the air conditioner, air volume, direction of the outlet, and the like.
  • the vehicle window opening / closing control unit 108 controls opening / closing of the vehicle window.
  • the vehicle state acquisition unit 14 acquires vehicle state information indicating the amount of opening / closing of the vehicle window from the vehicle window opening / closing control unit 108.
  • the noise level measuring unit 15 converts the noise in the vehicle from the voice signal in the non-voice section in which the voice of the occupant of the emotion recognition target is not detected by the voice section detection unit 3 among the voice signals input to the voice input device 2. Measure the level. The noise level measurement unit 15 corrects the measured noise level based on the noise model 16.
  • the noise model 16 is a correction noise model in which the amount of change in the noise level according to the difference in position between the voice input device 2 and the occupant whose emotion is to be recognized is set for each vehicle state. For example, in the noise model 16, a change amount between the noise level at the position of the voice input device 2 and the noise level at the occupant's ear in a certain vehicle state is set.
  • the noise level measurement unit 15 selects a noise model 16 corresponding to the vehicle state based on the vehicle state information, and uses the measured noise level as a change amount of the noise level set in the selected noise model 16, The noise level is corrected so as to be close to the noise level at the occupant's ear.
  • FIG. 7 is a flowchart illustrating a noise level acquisition method according to the second embodiment.
  • the noise level measuring unit 15 measures and acquires the noise level in the vehicle (step ST1c).
  • the noise level measuring unit 15 regards, as a noise signal, a voice signal in a section in which the utterance of the occupant of the emotion recognition target is not detected by the utterance section detection unit 3 among the voice signals input to the voice input device 2, Measure the signal level (noise level) of the noise signal.
  • the vehicle state acquisition unit 14 acquires the vehicle state (step ST2c). For example, the vehicle state acquisition unit 14 acquires, from the vehicle side, vehicle traveling state, the amount of opening and closing of the vehicle window, and the vehicle state information indicating the air flow rate of the air conditioner and the direction of the outlet. The vehicle state information acquired by the vehicle state acquisition unit 14 is output to the noise level measurement unit 15.
  • the noise level measuring unit 15 selects a noise model 16 corresponding to the vehicle state acquired by the vehicle state acquiring unit 14 from a plurality of noise models 16 provided corresponding to various vehicle states. Then, the noise level measuring unit 15 corrects the noise level measured in step ST1c based on the noise model 16 (step ST3c). The noise level corrected by the noise level measurement unit 15 is notified to the emotion recognition unit 13.
  • the emotion recognition unit 13 fails to recognize the occupant's emotion using either the first emotion model or the second emotion model, the third emotion level corresponding to the noise level corrected by the noise level measurement unit 15 is obtained.
  • the emotion model is estimated, and the emotion of the occupant is recognized using the third emotion model.
  • the noise level measuring unit 15 measures a noise level from a voice signal in a non-speech section input to the voice input device 2. Normally, the distance between the voice input device 2 and the occupant's ear is different from the noise source. Therefore, the noise level in the voice input device 2 and the noise level at the occupant's ear are different from each other.
  • the voice input device 2 is a microphone built in an in-vehicle device provided on a dashboard in the vehicle, an air conditioner outlet is installed on the dashboard, and the occupant whose emotion is to be recognized is a driver.
  • the distance between the air outlet of the air conditioner and the microphone is shorter than the distance between the air outlet of the air conditioner and the ear of the driver.
  • the air conditioner when the air conditioner is turned on, the amount of increase in the noise level at the input of the microphone is larger than the amount of increase in the noise level at the driver's ear.
  • the voice input device 2 is a microphone provided near a map light in the vehicle
  • an air conditioner outlet is installed on a dashboard in the vehicle, and when the occupant whose emotion is to be recognized is a driver, the air conditioner blows out.
  • the distance between the mouth and the microphone is farther than the distance between the outlet of the air conditioner and the ear of the driver.
  • the air conditioner is turned on, the amount of increase in the noise level at the ear of the driver is larger than the amount of increase in the noise level at the input of the microphone.
  • a variation between a noise level in the voice input device 2 according to the distance to the noise source and a noise level at the ear of the occupant whose emotion is to be recognized according to the distance to the noise source is set.
  • the noise source is formed according to the vehicle condition. For example, when the air conditioner is turned on, the vicinity of the outlet of the air conditioner becomes a noise source, and when the vehicle window is fully opened, the vicinity of the vehicle window becomes a noise source. Therefore, in the noise model 16, the amount of change in the noise level is set for each vehicle state.
  • the noise level measuring unit 15 selects a noise model 16 corresponding to the vehicle state acquired by the vehicle state acquiring unit 14 and, based on the selected noise model 16, determines the measured noise level at the ear of the occupant whose emotion is to be recognized. Is corrected so as to be a value close to the noise level at.
  • the emotion recognition unit 13 can estimate the third emotion model corresponding to the noise level at the occupant's ear, and the emotion recognition accuracy is improved.
  • the noise level acquisition unit 10A includes the noise level measurement unit 15 and the noise model 16.
  • the noise level measuring unit 15 corrects the measured noise level based on a noise model 16 corresponding to the vehicle state. By estimating the third emotion model using the corrected noise level, it is possible to improve the recognition accuracy of the occupant's emotion.
  • FIG. 8 is a block diagram showing a configuration of a voice emotion recognition device 1B according to the third embodiment. 8, the same components as those in FIGS. 1 and 6 are denoted by the same reference numerals, and description thereof will be omitted.
  • the voice emotion recognition device 1B includes a noise level acquisition unit 10B, an emotion feature amount extraction unit 11, an emotion model acquisition unit 12, an emotion recognition unit 13, a vehicle state acquisition unit 14, and an environment state acquisition unit 17.
  • the noise level acquisition unit 10B includes a noise level estimation unit 18 and a noise model 19.
  • the noise level acquisition unit 10B estimates and acquires the noise level in the vehicle.
  • Road type data is registered in the road type DB 111.
  • the environmental state acquisition unit 17 acquires the type of the road on which the vehicle is traveling by searching the road type DB 111 based on the vehicle position information acquired from the position acquisition unit 110.
  • the environmental condition acquisition unit 17 may acquire weather information indicating a rainfall situation around the vehicle as the environmental condition around the vehicle.
  • the noise level estimating unit 18 selects a noise model 19 based on the vehicle state information and the vehicle environmental state information, and estimates the noise level in the vehicle based on the selected noise model 19. For example, the noise level estimating unit 18 obtains a vehicle state and an environment acquired by the vehicle state acquiring unit 14 from a plurality of noise models 19 provided corresponding to various vehicle states and various environmental states around the vehicle. The noise model 19 corresponding to the environment state around the vehicle acquired by the state acquisition unit 17 is selected. The noise level estimating unit 18 estimates the noise level set in the selected noise model 19 as the noise level in the vehicle.
  • the noise model 19 is a noise level estimation noise model in which the noise level in the vehicle corresponding to the vehicle state and the environmental state around the vehicle is set. For example, when the running state of the vehicle, the opening / closing amount of the vehicle window, the air flow rate of the air conditioner, the direction of the air outlet, and the road type of the road on which the vehicle runs are parameters of the noise model 19, the noise model 19 has the values of the above parameters.
  • the noise level in the vehicle, which changes according to, is set.
  • the above parameters may include the operating state of the wiper.
  • the emotion recognition unit 13 fails to recognize the occupant's emotion using either the first emotion model or the second emotion model, the third emotion level corresponding to the noise level corrected by the noise level estimation unit 18 is determined.
  • the emotion model is estimated, and the emotion of the occupant is recognized using the third emotion model.
  • the noise level estimating unit 18 estimates the noise level in the vehicle using a noise model 19 in which the noise level in the vehicle increases when the road type of the road on which the vehicle travels is a tunnel. Accordingly, the noise level estimating unit 18 can estimate the noise level increased by the vehicle traveling in the tunnel, so that the emotion recognizing unit 13 can estimate the third emotion model corresponding to the vehicle traveling in the tunnel. In addition, the recognition accuracy of the occupants' emotions is improved.

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Human Computer Interaction (AREA)
  • Computational Linguistics (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Hospice & Palliative Care (AREA)
  • Psychiatry (AREA)
  • General Health & Medical Sciences (AREA)
  • Signal Processing (AREA)
  • Child & Adolescent Psychology (AREA)
  • Traffic Control Systems (AREA)

Abstract

音声感情認識装置(1)は、第1の騒音レベルに対応した第1の感情モデルおよび第2の騒音レベルに対応した第2の感情モデルのいずれを用いても乗員の感情を認識できない場合、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて、車両内の騒音レベルに対応する第3の感情モデルを推定する。

Description

音声感情認識装置および音声感情認識方法
 本発明は、音声から発話者の感情を認識する音声感情認識装置および音声感情認識方法に関する。
 従来、音声から発話者の感情を認識する方法として、例えば、特許文献1に記載された方法がある。この方法では、発話者の音声から、声の高さを示す基本周波数、声の大きさを示す音声信号のパワーおよび発話速度といった韻律的特徴が抽出され、韻律的特徴から入力音声全体に対して“声が高い”および“声が大きい”といった判断が行われて発話者の感情が認識される。
特開平9-22296号公報
 騒音レベルが高い環境下で発話する場合、発話音声の高さおよび大きさが無意識に増加するというロンバード(Lombard)効果が知られており、騒音レベルが高い環境下と騒音レベルが低い環境下では、発話音声の特徴が異なる。しかしながら、特許文献1に記載された方法では、発話者が存在する環境の騒音レベルが考慮されていないため、車両の走行に応じて騒音レベルが変化する車室内において発話者の感情を正しく認識できないという課題があった。
 本発明は上記課題を解決するものであり、車室内の騒音レベルが変化しても、乗員の感情を認識することができる音声感情認識装置および音声感情認識方法を得ることを目的とする。
 本発明に係る音声感情認識装置は、車両内の騒音レベルを取得する騒音レベル取得部と、車両内の乗員の音声から、乗員の感情を認識するために用いられる感情特徴量を抽出する感情特徴量抽出部と、第1の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第1の感情モデルと、第1の騒音レベルと異なる第2の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第2の感情モデルとを取得する感情モデル取得部と、感情モデル取得部によって取得された第1の感情モデルまたは第2の感情モデルと、感情特徴量抽出部によって抽出された感情特徴量とを用いて、乗員の感情を認識する感情認識部とを備え、感情認識部は、第1の感情モデルと第2の感情モデルのいずれを用いても乗員の感情を認識できない場合、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて、騒音レベル取得部によって取得された車両内の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第3の感情モデルを推定し、第3の感情モデルと、感情特徴量抽出部によって抽出された感情特徴量とを用いて、乗員の感情を認識する。
 本発明に係る音声感情認識装置によれば、互いに異なる騒音レベルに対応した第1の感情モデルおよび第2の感情モデルのいずれを用いても乗員の感情を認識できない場合に、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて、車両内の騒音レベルに対応する第3の感情モデルを推定する。これにより、車室内の騒音レベルが変化しても、乗員の感情を認識することができる。
実施の形態1に係る音声感情認識装置の構成を示すブロック図である。 実施の形態1に係る音声感情認識方法を示すフローチャートである。 図2のステップST4の詳細な処理を示すフローチャートである。 図2のステップST5の詳細な処理を示すフローチャートである。 図5Aは、実施の形態1に係る音声感情認識装置の機能を実現するハードウェア構成を示すブロック図である。図5Bは、実施の形態1に係る音声感情認識装置の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。 実施の形態2に係る音声感情認識装置の構成を示すブロック図である。 実施の形態2における騒音レベル取得方法を示すフローチャートである。 実施の形態3に係る音声感情認識装置の構成を示すブロック図である。 実施の形態3における騒音レベル取得方法を示すフローチャートである。
 以下、本発明をより詳細に説明するため、本発明を実施するための形態について、添付の図面に従って説明する。
実施の形態1.
 図1は、実施の形態1に係る音声感情認識装置1の構成を示すブロック図である。図1において、音声感情認識装置1は、音声入力装置2、発話区間検知部3および表示部4に接続されている。音声感情認識装置1は、車両内の乗員(以下、単に、乗員と記載する)が発話した音声(以下、発話音声と記載する)が入力されると、入力された発話音声に基づいて、乗員の感情を認識する。音声入力装置2は、車両内の音声を集音するマイクロフォンである。車両内の音声には、乗員の発話音声以外に、車両内で発生する雑音などの様々な音声が含まれている。マイクロフォンは、例えば、車両内のセンターコンソールに設けられた車載機器に内蔵されてもよいし、マップライト付近に設けられてもよい。車載機器は、例えば、ナビゲーション装置である。音声入力装置2は、集音した車両内の音声を音声信号に変換して、その音声信号を発話区間検知部3および音声感情認識装置1に出力する。
 発話区間検知部3は、音声入力装置2から出力された音声信号に基づき、乗員の発話音声の成分が含まれる区間を検知する。発話区間検知部3は、例えば、音声信号のパワーが閾値を超えた区間を発話区間としてもよいし、音声信号に乗員の発話音声の周波数成分が含まれる区間を発話区間としてもよい。なお、発話区間検知部3は、音声入力装置2から出力された音声信号に基づいて発話音声が示す文字列などを認識する音声認識装置が備える構成要素であってもよい。発話区間検知部3は、検知した発話区間を示す発話区間情報を、音声感情認識装置1に出力する。
 音声感情認識装置1は、乗員の音声を用いて、乗員の感情を認識する。音声感情認識装置1によって認識された感情を示す感情情報は、表示部4に表示される。感情情報は、感情のラベルおよび感情の強度を含む情報である。感情のラベルは、怒り、悲しみまたは喜びといった感情の状態を示す情報である。感情の強度は、ラベルで示される感情の状態の度合いを示す。例えば、感情のラベルが悲しみである場合、乗員は、感情の強度に応じた度合いで悲しんでいると認識される。
 図1では、感情情報が表示部4に表示される場合を示したが、感情情報は、乗員の感情を利用する装置に出力されてもよい。乗員の感情を利用する装置としては、認識された感情に応じた音声を出力する音声対話装置が挙げられる。例えば、乗員が怒っていると認識された場合、音声対話装置から乗員をなだめる音声が出力され、乗員が悲しんでいると認識された場合は、音声対話装置から乗員を励ます音声が出力される。
 音声感情認識装置1は、図1に示すように、騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12、および感情認識部13を備える。音声感情認識装置1は、車両に搭載された車載装置であってもよいが、通信ネットワーク上のサーバが備える構成要素であってもよい。サーバが音声感情認識装置1を備える場合、例えば、通信ネットワークを介して車載装置とサーバとが通信接続される。音声入力装置2から出力された音声信号および発話区間検知部3から出力された発話区間情報は、サーバが備える騒音レベル取得部10および感情特徴量抽出部11によって受信される。その後、サーバが備える感情認識部13によって認識された感情を示す感情情報は、通信ネットワークを介して車両側の表示部4に送信されて表示される。
 騒音レベル取得部10は、車両内の騒音レベルを取得する。例えば、騒音レベル取得部10は、マイクロフォンなどの音声入力装置2から出力された音声信号と、発話区間検知部3によって検知された発話区間情報とを用いて、発話区間における音声信号を分析して騒音レベルを判定することで、車両内の騒音レベルを取得する。また、騒音レベル取得部10は、音声感情認識装置1とは別に設けられた外部装置から車両内の騒音レベルを取得してもよい。さらに、騒音レベル取得部10は、車両状態と騒音レベルとの関係がモデル化された騒音モデルを用いて、車両内の騒音レベルを測定してもよい。さらに、騒音レベル取得部10は、車両状態と車両周辺の環境状態とに対応する騒音レベルが設定された騒音モデルを用いて、車両内の騒音レベルを推定してもよい。なお、騒音レベルの測定については、実施の形態2において詳細を説明し、騒音レベルの推定については、実施の形態3において詳細を説明する。
 感情特徴量抽出部11は、乗員の発話音声から、乗員の感情を認識するために用いられる感情特徴量を抽出する。感情特徴量は、音声信号が有する複数種類の特徴量のうち、乗員の感情状態に対応して変化することが知られている複数種類の特徴量であり、音声信号の基本周波数およびパワーが含まれる。例えば、感情特徴量抽出部11は、音声入力装置2から出力された音声信号のうち、発話区間検知部3から出力された発話区間情報が示す発話区間における音声信号の特徴量から、乗員の感情状態に対応する特徴量の基準値に類似するものを、乗員の感情状態に対応した感情特徴量として抽出する。感情特徴量の基準値は、乗員の音声に基づいて決定された感情特徴量であってもよいし、乗員以外の多数の人が発した音声のそれぞれに基づいて決定された感情特徴量の平均値であってもよい。
 感情モデル取得部12は、第1の感情モデルおよび第2の感情モデルを取得する。例えば、感情モデル取得部12は、第1の感情モデルと第2の感情モデルが登録されたデータベースから、感情認識対象の乗員に対応する第1の感情モデルおよび第2の感情モデルを取得する。上記データベースは、例えば、音声感情認識装置1とは別に設けられた記憶装置、音声感情認識装置1に内蔵された記憶装置、または通信ネットワーク上のサーバに記憶される。
 第1の感情モデルは、第1の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる感情モデルであり、複数種類の感情特徴量と感情情報とが対応付けられている。第1の騒音レベルは、例えば、高騒音レベルである。騒音の大きさに上限閾値と下限閾値とを設け、騒音の大きさが上限閾値を超えたときの騒音レベルが高騒音レベルである。感情情報には、感情特徴量に対応する、前述した感情のラベルと感情の強度とが含まれる。
 第2の感情モデルは、第1の騒音レベルと異なる第2の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる感情モデルであり、複数種類の感情特徴量と感情情報とが対応付けられている。第2の騒音レベルは、第1の騒音レベルよりも低い騒音レベルであり、例えば、低騒音レベルである。低騒音レベルは、上記下限閾値を下回る騒音レベルであるか、もしくは無音レベルである。
 感情認識部13は、感情モデル取得部12によって取得された第1の感情モデルまたは第2の感情モデルと、感情特徴量抽出部11によって抽出された感情特徴量とを用いて、乗員の感情を認識する。例えば、感情認識部13は、第1の感情モデルに設定されている感情特徴量の中から、感情特徴量抽出部11によって抽出された感情特徴量との合致度が閾値よりも高い感情特徴量を判別する。そして、感情認識部13は、第1の感情モデルにおいて、判別した感情特徴量に対応付けられた感情情報を、乗員の感情認識結果として出力する。
 また、第1の感情モデルを用いて乗員の感情を認識できなかった場合、感情認識部13は、第2の感情モデルに設定された感情特徴量の中から、感情特徴量抽出部11によって抽出された感情特徴量との合致度が閾値よりも高い感情特徴量を判別する。そして、感情認識部13は、第2の感情モデルにおいて、判別した感情特徴量に対応付けられた感情情報を、乗員の感情認識結果として出力する。
 なお、感情認識部13は、第1の感情モデルおよび第2の感情モデルのそれぞれに設定されている感情特徴量の中から、感情特徴量抽出部11によって抽出された感情特徴量との合致度が閾値よりも高い感情特徴量を判別してもよい。
 感情認識部13は、第1の感情モデルおよび第2の感情モデルのいずれを用いても乗員の感情を認識できなかった場合に、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて第3の感情モデルを推定し、第3の感情モデルを用いて乗員の感情を認識する。第3の感情モデルは、騒音レベル取得部10によって取得された車両内の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる感情モデルであって、感情特徴量と感情情報とが対応付けられている。第3の感情モデルは、現在の車両内の騒音レベルに対応した感情モデルであるので、現在の車両内の騒音レベルが、第1の騒音レベルおよび第2の騒音レベルとは異なる騒音レベルに変化しても乗員の感情を認識することができる。
 次に動作について説明する。
 図2は、実施の形態1に係る音声感情認識方法を示すフローチャートである。
 まず、騒音レベル取得部10が、車両内の騒音レベルを取得する(ステップST1)。
 次に、感情特徴量抽出部11が、車両の乗員の音声から、乗員の感情を認識するために用いられる感情特徴量を抽出する(ステップST2)。
 感情モデル取得部12が、感情認識対象の乗員に対応する第1の感情モデルおよび第2の感情モデルを取得する(ステップST3)。例えば、感情モデル取得部12は、第1の感情モデルと第2の感情モデルとが登録されたデータベースから、感情認識対象の乗員に対応する第1の感情モデルおよび第2の感情モデルを取得する。
 感情認識部13が、感情モデル取得部12によって取得された第1の感情モデルまたは第2の感情モデルと、感情特徴量抽出部11によって抽出された感情特徴量とを用いて、乗員の感情の認識処理を実行する。このとき、感情認識部13は、第1の感情モデルまたは第2の感情モデルを用いて、乗員の感情を認識できたか否かを判定する(ステップST4)。
 感情認識部13によって第1の感情モデルおよび第2の感情モデルのいずれかを用いて乗員の感情が認識されると(ステップST4;YES)、図2の処理が終了される。感情認識部13は、乗員の感情情報を表示部4に出力する。表示部4は、感情認識部13から入力した感情情報を表示する。
 第1の感情モデルおよび第2の感情モデルのいずれを用いても乗員の感情を認識できなかった場合(ステップST4;NO)、感情認識部13は、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて、第3の感情モデルを推定し、第3の感情モデルと、感情特徴量抽出部11によって抽出された感情特徴量とを用いて、乗員の感情を認識する(ステップST5)。
 図3は、図2のステップST4の詳細な処理を示すフローチャートである。感情認識部13は、第1の感情モデルと、感情特徴量抽出部11によって抽出された感情特徴量とを用いて、乗員の感情の認識処理を実行する。このとき、感情認識部13は、第1の感情モデルを用いて、乗員の感情を認識できたか否かを判定する(ステップST1a)。
 例えば、感情認識部13は、第1の感情モデルに設定されている複数種類の感情特徴量と、感情特徴量抽出部11によって抽出された感情特徴量とを順次比較して、両者の合致度が閾値よりも高い感情特徴量を判別する。複数の種類の感情特徴量との合致度が閾値よりも高かった場合、これらの感情特徴量のうち、合致度が最も高い感情特徴量が判別される。感情特徴量同士の合致度は、例えば、上記閾値と感情特徴量との差の値であってもよい。感情認識部13は、このように判別された感情特徴量に対応する感情情報を、乗員の感情認識結果として表示部4に出力し、第1の感情モデルを用いて乗員の感情を認識できたと判定する(ステップST1a;YES)。この後、図3の処理が終了される。
 感情特徴量抽出部11によって抽出された感情特徴量との合致度が上記閾値よりも高い感情特徴量が第1の感情モデルになかった場合、感情認識部13は、第1の感情モデルを用いて乗員の感情を認識できなかったと判定する(ステップST1a;NO)。この後、感情認識部13は、第2の感情モデルと、感情特徴量抽出部11によって抽出された感情特徴量とを用いて、乗員の感情の認識処理を実行する。このとき、感情認識部13は、第2の感情モデルを用いて、乗員の感情を認識できたか否かを判定する(ステップST2a)。
 例えば、感情認識部13は、第2の感情モデルに設定されている複数種類の感情特徴量と、感情特徴量抽出部11によって抽出された感情特徴量とを順次比較して、両者の合致度が閾値よりも高い感情特徴量を判別する。複数の種類の感情特徴量との合致度が閾値よりも高かった場合、これらの感情特徴量のうち、合致度が最も高い感情特徴量が判別される。感情認識部13は、このように判別された感情特徴量に対応する感情情報を、表示部4に出力し、第2の感情モデルを用いて乗員の感情を認識できたと判定する(ステップST2a;YES)。この後、図3の処理が終了される。
 感情特徴量抽出部11によって抽出された感情特徴量との合致度が上記閾値よりも高い感情特徴量が第2の感情モデルにない場合、感情認識部13は、第1の感情モデルおよび第2の感情モデルのいずれを用いても、乗員の感情を認識することができないと判定する(ステップST2a;NO)。このとき、感情認識部13は、図2に示したステップST5の処理に移行する。なお、図3では、第1の感情モデルを用いた感情認識処理が、第2の感情モデルを用いた感情認識処理よりも先に実行さる場合を示したが、実施の形態1に係る音声感情認識方法では、第2の感情モデルを用いた感情認識処理が先に実行されてもよく、両方の感情モデルを用いた感情認識処理が並行して実行されてもよい。
 図4は、図2のステップST5の詳細な処理を示すフローチャートである。感情認識部13は、車両内の騒音レベルが第2の騒音レベルよりも第1の騒音レベルに類似するか否かを判定する(ステップST1b)。例えば、感情認識部13は、車両内の騒音レベルと第1の騒音レベルとの合致度と、車両内の騒音レベルと第2の騒音レベルとの合致度とを比較し、前者よりも後者が高ければ、車両内の騒音レベルが、第2の騒音レベルよりも第1の騒音レベルに類似していると判定する。
 騒音レベル取得部10によって取得された車両内の騒音レベルが第2の騒音レベルよりも第1の騒音レベルに類似している場合(ステップST1b;YES)、感情認識部13は、車両内の騒音レベルと、第1の感情モデルで想定された第1の騒音レベルとの差分が閾値以下であるか否かを判定する(ステップST2b)。
 車両内の騒音レベルと第1の騒音レベルとの差分が閾値以下である場合(ステップST2b;YES)、感情認識部13は、第1の感情モデルを変換して、第3の感情モデルを推定する(ステップST3b)。例えば、感情認識部13は、騒音レベルに応じたロンバード効果による感情特徴量の変化量を推定し、推定した感情特徴量の変化量に基づいて、車両内の騒音レベルに対応する感情特徴量となるように第1の感情モデルの感情特徴量を変換して、第3の感情モデルを算出する。この後、ステップST7bの処理に移行する。
 騒音レベル取得部10によって取得された車両内の騒音レベルが第1の騒音レベルよりも第2の騒音レベルに類似している場合(ステップST1b;NO)、感情認識部13は、車両内の騒音レベルと第2の騒音レベルとの差が閾値以下であるか否かを判定する(ステップST4b)。
 車両内の騒音レベルと第2の騒音レベルとの差分が閾値以下である場合(ステップST4b;YES)、感情認識部13は、第2の感情モデルを変換して、第3の感情モデルを推定する(ステップST5b)。例えば、感情認識部13は、騒音レベルに応じたロンバード効果による感情特徴量の変化量を推定し、推定した感情特徴量の変化量に基づいて、車両内の騒音レベルに対応する感情特徴量に合うように第2の感情モデルの感情特徴量を変換して、第3の感情モデルを算出する。この後、ステップST7bの処理に移行する。
 一方、車両内の騒音レベルと第1の騒音レベルとの差分が上記閾値よりも大きい場合(ステップST2b;NO)、または、車両内の騒音レベルと第2の騒音レベルとの差分が上記閾値よりも大きい場合(ステップST4b;NO)、感情認識部13は、騒音レベル取得部10によって取得された車両内の騒音レベルに基づいて、第1の感情モデルおよび第2の感情モデルを補間して第3の感情モデルを推定する(ステップST6b)。
 例えば、感情認識部13は、第1の感情モデルに設定されている感情特徴量について、車両内の騒音レベルと第1の騒音レベルとの差に対応する感情特徴量の差を算出する。さらに、感情認識部13は、第2の感情モデルに設定されている感情特徴量について、車両内の騒音レベルと第2の騒音レベルとの差に対応した感情特徴量の差を算出する。感情認識部13は、感情特徴量の差が補間されるように、第1の感情モデルの感情特徴量を変更し、感情特徴量の差が補間されるように、第2の感情モデルの感情特徴量を変更することにより、変更後の感情特徴量が設定された第3の感情モデルを推定する。
 感情認識部13は、第3の感情モデルを用いて、乗員の感情を認識する(ステップST7b)。例えば、感情認識部13は、第3の感情モデルに設定された複数種類の感情特徴量と感情特徴量抽出部11によって抽出された感情特徴量とを順次比較し、両者の合致度が閾値よりも高い感情特徴量を判別する。複数種類の感情特徴量との合致度が閾値よりも高かった場合、これらの感情特徴量のうち、合致度が最も高い感情特徴量が判別される。感情認識部13は、このように判別された感情特徴量に対応する感情情報を、乗員の感情認識結果として表示部4に出力する。
 次に、音声感情認識装置1の機能を実現するハードウェア構成について説明する。音声感情認識装置1における騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の機能は、処理回路によって実現される。すなわち、音声感情認識装置1は、図2に示したフローチャートのステップST1からステップST5の処理を実行するための処理回路を備える。処理回路は、専用のハードウェアであってもよいが、メモリに記憶されたプログラムを実行するCPU(Central Processing Unit)であってもよい。
 図5Aは、音声感情認識装置1の機能を実現するハードウェア構成を示すブロック図である。図5Bは、音声感情認識装置1の機能を実現するソフトウェアを実行するハードウェア構成を示すブロック図である。図5Aおよび図5Bにおいて、マイクロフォン100は、図1に示した音声入力装置2である。インタフェース101は、音声感情認識装置1と外部装置との間におけるデータ入出力を中継するインタフェースである。外部装置は、音声感情認識装置1とは別に設けられた装置であり、例えば、音声認識装置およびサーバが挙げられる。
 騒音レベル取得部10は、インタフェース101を経由して外部装置から騒音レベルを取得する。感情特徴量抽出部11は、インタフェース101を経由して音声認識装置から発話区間が通知される。感情モデル取得部12は、インタフェース101を経由して外部装置から第1の感情モデルおよび第2の感情モデルを取得する。表示装置102は、図1に示した表示部4である。
 処理回路が図5Aに示す専用のハードウェアの処理回路103である場合、処理回路103は、例えば、単一回路、複合回路、プログラム化したプロセッサ、並列プログラム化したプロセッサ、ASIC(Application Specific Integrated Circuit)、FPGA(Field-Programmable Gate Array)、またはこれらを組み合わせたものが該当する。音声感情認識装置1における、騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の機能を別々の処理回路で実現してもよく、これらの機能をまとめて1つの処理回路で実現してもよい。
 処理回路が図5Bに示すプロセッサ104である場合、音声感情認識装置1における、騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の機能は、ソフトウェア、ファームウェアまたはソフトウェアとファームウェアとの組み合わせによって実現される。なお、ソフトウェアまたはファームウェアは、プログラムとして記述されてメモリ105に記憶される。
 プロセッサ104は、メモリ105に記憶されたプログラムを読み出して実行することによって、音声感情認識装置1における騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の機能を実現する。すなわち、音声感情認識装置1は、プロセッサ104によって実行されるときに、図2に示したフローチャートにおけるステップST1からステップST5までの処理が結果的に実行されるプログラムを記憶するためのメモリ105を備える。これらのプログラムは、音声感情認識装置1における騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の手順または方法をコンピュータに実行させる。メモリ105は、コンピュータを、音声感情認識装置1における、騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13として機能させるためのプログラムが記憶されたコンピュータ可読記憶媒体であってもよい。
 メモリ105は、例えば、RAM(Random Access Memory)、ROM(Read Only Memory)、フラッシュメモリ、EPROM(Erasable Programmable Read Only Memory)、EEPROM(Electrically-EPROM)などの不揮発性または揮発性の半導体メモリ、磁気ディスク、フレキシブルディスク、光ディスク、コンパクトディスク、ミニディスク、DVDなどが該当する。
 音声感情認識装置1における騒音レベル取得部10、感情特徴量抽出部11、感情モデル取得部12および感情認識部13の機能について一部を専用のハードウェアで実現し、一部をソフトウェアまたはファームウェアで実現してもよい。例えば、騒音レベル取得部10および感情特徴量抽出部11は、専用のハードウェアである処理回路103で機能を実現し、感情モデル取得部12および感情認識部13は、プロセッサ104がメモリ105に記憶されたプログラムを読み出して実行することによって機能を実現する。
 このように、処理回路は、ハードウェア、ソフトウェア、ファームウェアまたはこれらの組み合わせによって上記機能を実現することができる。
 以上のように、実施の形態1に係る音声感情認識装置1によれば、第1の騒音レベルに対応した第1の感情モデルおよび第2の騒音レベルに対応した第2の感情モデルのいずれを用いても乗員の感情を認識できない場合、第1の感情モデルおよび第2の感情モデルのいずれかまたは両方を用いて、車両内の騒音レベルに対応する第3の感情モデルを推定するので、車室内の騒音レベルが変化しても乗員の感情を認識することができる。
実施の形態2.
 図6は、実施の形態2に係る音声感情認識装置1Aの構成を示すブロック図である。図6において、図1と同一の構成要素には同一符号を付して説明を省略する。音声感情認識装置1Aは、騒音レベル取得部10A、感情特徴量抽出部11、感情モデル取得部12、感情認識部13、および車両状態取得部14を備える。騒音レベル取得部10Aは、騒音レベル測定部15および騒音モデル16を備える。騒音レベル取得部10Aは、車両内の騒音レベルを測定して取得する。
 車両状態取得部14は、CAN(Controller Area Network)などの車載ネットワークを経由して、車両側から車両状態を取得する。車両状態は、車両内の騒音レベルに影響を与える車両状態であり、例えば、車両の走行状態、車両窓の開閉量、並びに、車両に搭載されたエアコントローラ(以下、エアコンと記載する)の風量および吹き出し口の向きが含まれる。例えば、車両状態取得部14は、車両状態を、制御ECU(Electronic Control Unit)106、エアコン制御部107および車両窓開閉制御部108から取得し、車両状態を示す車両状態情報を、騒音レベル測定部15に出力する。
 制御ECU106は、車両の走行状態を制御する。車両状態取得部14は、車両の走行状態を示す車両状態情報を、制御ECU106から取得する。エアコン制御部107は、車両のエアコンを制御する。車両状態取得部14は、エアコンの設定を示す車両状態情報を、エアコン制御部107から取得する。エアコンの設定には、エアコンのオンオフ、風量および吹き出し口の向きなどがある。車両窓開閉制御部108は、車両窓の開閉を制御する。車両状態取得部14は、車両窓の開閉量を示す車両状態情報を、車両窓開閉制御部108から取得する。
 騒音レベル測定部15は、音声入力装置2に入力された音声信号のうち、発話区間検知部3によって感情認識対象の乗員の発話が検知されなかった非発話区間の音声信号から、車両内の騒音レベルを測定する。騒音レベル測定部15は、測定した騒音レベルを、騒音モデル16に基づいて補正する。
 騒音モデル16は、音声入力装置2と感情認識対象の乗員との間の位置の違いに応じた騒音レベルの変化量が車両状態ごとに設定されている補正用騒音モデルである。例えば、騒音モデル16には、ある車両状態における、音声入力装置2の位置での騒音レベルと、乗員の耳元での騒音レベルとの間の変化量が設定されている。騒音レベル測定部15は、車両状態情報に基づいて、車両状態に対応した騒音モデル16を選択し、測定した騒音レベルを、選択した騒音モデル16に設定された騒音レベルの変化量を用いて、乗員の耳元での騒音レベルに近い値となるように補正する。
 次に動作について説明する。
 図7は、実施の形態2における騒音レベル取得方法を示すフローチャートである。騒音レベル測定部15が、車両内の騒音レベルを測定して取得する(ステップST1c)。例えば、騒音レベル測定部15は、音声入力装置2に入力された音声信号のうち、発話区間検知部3によって感情認識対象の乗員の発話が検知されなかった区間の音声信号を騒音信号とみなし、騒音信号の信号レベル(騒音レベル)を測定する。
 車両状態取得部14が、車両状態を取得する(ステップST2c)。例えば、車両状態取得部14は、車両の走行状態、車両窓の開閉量、並びに、エアコンの風量および吹き出し口の向きを示す車両状態情報を、車両側から取得する。車両状態取得部14によって取得された車両状態情報は、騒音レベル測定部15に出力される。
 騒音レベル測定部15は、様々な車両状態のそれぞれに対応して設けられた複数の騒音モデル16から、車両状態取得部14によって取得された車両状態に対応する騒音モデル16を選択する。そして、騒音レベル測定部15は、ステップST1cにて測定した騒音レベルを、騒音モデル16に基づいて補正する(ステップST3c)。騒音レベル測定部15によって補正された騒音レベルは、感情認識部13に通知される。
 感情認識部13は、第1の感情モデルおよび第2の感情モデルのいずれを用いても乗員の感情を認識できなかった場合、騒音レベル測定部15によって補正された騒音レベルに対応した第3の感情モデルを推定し、第3の感情モデルを用いて乗員の感情を認識する。
 ロンバード効果は、周囲の騒音を聞いた人間の発話特性であるので、ロンバード効果による発話音声の特徴の変化は、発話者の耳元の騒音レベルに依存する。騒音レベル測定部15は、音声入力装置2に入力された非発話区間の音声信号から騒音レベルを測定する。通常、音声入力装置2と乗員の耳元では、騒音源との距離がそれぞれ異なるので、音声入力装置2における騒音レベルと乗員の耳元における騒音レベルは、互いに異なる。
 例えば、音声入力装置2が車両内のダッシュボードに設けられた車載機器に内蔵されたマイクロフォンであり、このダッシュボードにエアコンの吹き出し口が設置されており、感情認識対象の乗員が運転者である場合、エアコンの吹き出し口とマイクロフォンとの間は、エアコンの吹き出し口と運転者の耳元との間よりも距離が近い。この場合、エアコンがオンされると、運転者の耳元での騒音レベルの増加量よりも、マイクロフォンの入力における騒音レベルの増加量の方が多くなる。
 音声入力装置2が車両内のマップライト付近に設けられたマイクロフォンであり、車両内のダッシュボードにエアコンの吹き出し口が設置されており、感情認識対象の乗員が運転者である場合、エアコンの吹き出し口とマイクロフォンとの間は、エアコンの吹き出し口と運転者の耳元との間よりも距離が遠い。この場合、エアコンがオンされると、マイクロフォンの入力における騒音レベルの増加量よりも、運転者の耳元での騒音レベルの増加量の方が多くなる。
 騒音モデル16には、騒音源との距離に応じた音声入力装置2における騒音レベルと、騒音源との距離に応じた感情認識対象の乗員の耳元における騒音レベルとの間の変化量が設定されている。騒音源は、車両状態に応じて形成される。例えば、エアコンがオンされると、エアコンの吹き出し口付近が騒音源となり、車両窓が全開にされると、その車両窓付近が騒音源となる。そこで、騒音モデル16には、騒音レベルの変化量が車両状態ごとに設定されている。
 騒音レベル測定部15は、車両状態取得部14によって取得された車両状態に対応する騒音モデル16を選択し、測定した騒音レベルを、選択した騒音モデル16に基づいて、感情認識対象の乗員の耳元での騒音レベルに近い値となるように補正する。これにより、感情認識部13は、乗員の耳元での騒音レベルに対応した第3の感情モデルを推定することができ、感情の認識精度が向上する。
 以上のように、実施の形態2における騒音レベル取得部10Aは、騒音レベル測定部15および騒音モデル16を備える。騒音レベル測定部15は、測定した騒音レベルを、車両状態に対応する騒音モデル16に基づいて補正する。補正後の騒音レベルを用いて第3の感情モデルを推定することで、乗員の感情の認識精度を向上させることができる。
実施の形態3.
 図8は、実施の形態3に係る音声感情認識装置1Bの構成を示すブロック図である。図8において、図1および図6と同一の構成要素には、同一符号を付して説明を省略する。音声感情認識装置1Bは、騒音レベル取得部10B、感情特徴量抽出部11、感情モデル取得部12、感情認識部13、車両状態取得部14および環境状態取得部17を備える。騒音レベル取得部10Bは、騒音レベル推定部18および騒音モデル19を備える。騒音レベル取得部10Bは、車両内の騒音レベルを推定して取得する。
 環境状態取得部17は、車両周辺の環境状態を取得する。車両周辺の環境状態は、車両内の騒音レベルに影響を与える車両周辺の環境状態であり、例えば、車両の位置と、車両の走行道路の道路種別が含まれる。環境状態取得部17は、車両周辺の環境状態を、車載機器109が備える、位置取得部110と、道路種別データベース(以下、DBと略して記載する)111から取得し、取得した車両周辺の環境状態を示す車両環境状態情報を、騒音レベル推定部18に出力する。
 車載機器109は、例えば、車両の位置および道路種別を用いて車両の経路案内を行うナビゲーション装置である。位置取得部110は、車両の位置情報を取得する。例えば、位置取得部110は、図8において図示しないGPS(Global Positioning System)から、車両の位置情報を取得する。環境状態取得部17は、車両の位置情報を、位置取得部110から取得する。
 道路種別DB111には、道路種別データが登録されている。環境状態取得部17は、位置取得部110から取得された車両の位置情報に基づいて、道路種別DB111を検索することにより、車両が走行している道路の種別を取得する。なお、環境状態取得部17は、車両周辺の降雨状況を示す天気情報を、車両周辺の環境状態として取得してもよい。
 騒音レベル推定部18は、車両状態情報と車両環境状態情報に基づいて騒音モデル19を選択し、選択した騒音モデル19に基づいて車両内の騒音レベルを推定する。例えば、騒音レベル推定部18は、様々な車両状態および様々な車両周辺の環境状態のそれぞれに対応して設けられた複数の騒音モデル19から、車両状態取得部14によって取得された車両状態と環境状態取得部17によって取得された車両周辺の環境状態とに対応する騒音モデル19を選択する。騒音レベル推定部18は、選択した騒音モデル19に設定されている騒音レベルを、車両内の騒音レベルであると推定する。
 騒音モデル19は、車両状態および車両周辺の環境状態に対応する車両内の騒音レベルが設定された、騒音レベルの推定用騒音モデルである。例えば、車両の走行状態、車両窓の開閉量、エアコンの風量、吹き出し口の向きおよび車両の走行道路の道路種別を、騒音モデル19のパラメータとした場合、騒音モデル19には、上記パラメータの値に応じて変化する車両内の騒音レベルが設定される。なお、上記パラメータには、ワイパーの動作状態を含めてもよい。
 次に動作について説明する。
 図9は、実施の形態3における騒音レベル取得方法を示すフローチャートである。車両状態取得部14が、車両状態を取得する(ステップST1d)。例えば、車両状態取得部14は、車両の走行状態、車両窓の開閉量、エアコンの風量および吹き出し口の向きを示す車両状態情報を、車両側から取得する。車両状態取得部14によって取得された車両状態情報は、騒音レベル推定部18に出力される。
 環境状態取得部17が車両周辺の環境状態を取得する(ステップST2d)。例えば、環境状態取得部17は、車両の位置と車両の走行位置の道路種別を示す車両環境状態情報を、車両側から取得する。環境状態取得部17によって取得された車両環境状態情報は、騒音レベル推定部18に出力される。
 騒音レベル推定部18は、様々な車両状態と様々な車両周辺の環境状態とのそれぞれに対応して設けられた複数の騒音モデル19から、車両状態取得部14によって取得された車両状態と環境状態取得部17によって取得された車両周辺の環境状態とに対応する騒音モデル19を選択する。騒音レベル推定部18は、選択した騒音モデル19に設定された騒音レベルを、車両内の騒音レベルであると推定する(ステップST3d)。騒音レベル推定部18によって補正された騒音レベルは、感情認識部13に通知される。
 感情認識部13は、第1の感情モデルおよび第2の感情モデルのいずれを用いても乗員の感情を認識できなかった場合、騒音レベル推定部18によって補正された騒音レベルに対応した第3の感情モデルを推定し、第3の感情モデルを用いて乗員の感情を認識する。
 一般に、車両がトンネル内を走行すると、トンネル外の走行に比べて騒音が増加して、車両内の騒音レベルも増加することが知られている。そこで、騒音レベル推定部18は、車両の走行道路の道路種別がトンネルであると車両内の騒音レベルが増加する騒音モデル19を用いて、車両内の騒音レベルを推定する。これにより、騒音レベル推定部18は、車両のトンネルの走行により増加した騒音レベルを推定できるので、感情認識部13は、車両のトンネルの走行に対応した第3の感情モデルを推定することができ、乗員の感情の認識精度が向上する。
 以上のように、実施の形態3における騒音レベル取得部10Bは、騒音レベル推定部18と騒音モデル19とを備える。騒音レベル推定部18は、車両状態情報と車両環境状態情報に基づいて騒音モデル19を選択し、選択した騒音モデル19に基づいて車両内の騒音レベルを推定する。車両状態情報と車両環境状態情報とに対応する騒音レベルを用いて第3の感情モデルを推定することができ、乗員の感情の認識精度を向上させることが可能である。
 なお、本発明は上記実施の形態に限定されるものではなく、本発明の範囲内において、実施の形態のそれぞれの自由な組み合わせまたは実施の形態のそれぞれの任意の構成要素の変形もしくは実施の形態のそれぞれにおいて任意の構成要素の省略が可能である。
 本発明に係る音声感情認識装置は、車室内の騒音レベルが変化しても、乗員の感情を認識することができるので、車載用の音声対話装置に利用可能である。
 1,1A,1B 音声感情認識装置、2 音声入力装置、3 発話区間検知部、4 表示部、10,10A,10B 騒音レベル取得部、11 感情特徴量抽出部、12 感情モデル取得部、13 感情認識部、14 車両状態取得部、15 騒音レベル測定部、16,19 騒音モデル、17 環境状態取得部、18 騒音レベル推定部、100 マイクロフォン、101 インタフェース、102 表示装置、103 処理回路、104 プロセッサ、105 メモリ、106 制御ECU、107 エアコン制御部、108 車両窓開閉制御部、109 車載機器、110 位置取得部、111 道路種別DB。

Claims (7)

  1.  車両内の騒音レベルを取得する騒音レベル取得部と、
     前記車両内の乗員の音声から、前記乗員の感情を認識するために用いられる感情特徴量を抽出する感情特徴量抽出部と、
     第1の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第1の感情モデルと、前記第1の騒音レベルと異なる第2の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第2の感情モデルとを取得する感情モデル取得部と、
     前記感情モデル取得部によって取得された前記第1の感情モデルまたは前記第2の感情モデルと、前記感情特徴量抽出部によって抽出された感情特徴量とを用いて、前記乗員の感情を認識する感情認識部とを備え、
     前記感情認識部は、前記第1の感情モデルと前記第2の感情モデルのいずれを用いても前記乗員の感情を認識できない場合、前記第1の感情モデルおよび前記第2の感情モデルのいずれかまたは両方を用いて、前記騒音レベル取得部によって取得された前記車両内の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第3の感情モデルを推定し、前記第3の感情モデルと、前記感情特徴量抽出部によって抽出された感情特徴量とを用いて、前記乗員の感情を認識すること
     を特徴とする音声感情認識装置。
  2.  前記感情認識部は、前記騒音レベル取得部によって取得された騒音レベルに基づいて、前記第1の感情モデルおよび前記第2の感情モデルを補間して、前記第3の感情モデルを推定すること
     を特徴とする請求項1記載の音声感情認識装置。
  3.  前記感情認識部は、前記騒音レベル取得部によって取得された前記車両内の騒音レベルが前記第1の騒音レベルに類似する場合、当該車両内の騒音レベルに合うように前記第1の感情モデルを変換して前記第3の感情モデルを推定し、前記騒音レベル取得部によって取得された前記車両内の騒音レベルが前記第2の騒音レベルに類似する場合、当該車両内の騒音レベルに合うように前記第2の感情モデルを変換して前記第3の感情モデルを推定すること
     を特徴とする請求項1記載の音声感情認識装置。
  4.  前記第2の騒音レベルは、前記第1の騒音レベルよりも低いレベルであること
     を特徴とする請求項1記載の音声感情認識装置。
  5.  前記騒音レベル取得部は、
     前記車両内に設けられた音声入力装置に入力された音声から前記車両内の騒音レベルを測定する騒音レベル測定部と、
     前記音声入力装置における騒音レベルと、前記乗員の耳元における騒音レベルとの間の変化量が車両状態ごとに設定された補正用騒音モデルと、を備え、
     前記騒音レベル測定部は、
     車両状態を示す車両状態情報に基づいて前記補正用騒音モデルを選択し、
     測定した騒音レベルを、選択した前記補正用騒音モデルに基づいて補正すること
     を特徴とする請求項1記載の音声感情認識装置。
  6.  前記騒音レベル取得部は、
     前記車両内の騒音レベルを推定する騒音レベル推定部と、
     車両状態と車両周辺の環境状態とに対応する前記車両内の騒音レベルが設定された推定用騒音モデルと、を備え、
     前記騒音レベル推定部は、
     車両状態を示す車両状態情報と車両周辺の環境状態を示す車両環境状態情報に基づいて前記推定用騒音モデルを選択し、選択した前記推定用騒音モデルに基づいて前記車両内の騒音レベルを推定すること
     を特徴とする請求項1記載の音声感情認識装置。
  7.  騒音レベル取得部が、車両内の騒音レベルを取得するステップと、
     感情特徴量抽出部が、前記車両内の乗員の音声から、前記乗員の感情を認識するために用いられる感情特徴量を抽出するステップと、
     感情モデル取得部が、第1の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第1の感情モデルと、前記第1の騒音レベルと異なる第2の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第2の感情モデルとを取得するステップと、
     感情認識部が、前記感情モデル取得部によって取得された前記第1の感情モデルまたは前記第2の感情モデルと、前記感情特徴量抽出部によって抽出された感情特徴量とを用いて、前記乗員の感情を認識するステップとを備え、
     前記感情認識部は、前記第1の感情モデルと前記第2の感情モデルのいずれを用いても前記乗員の感情を認識できない場合、前記第1の感情モデルおよび前記第2の感情モデルのいずれかまたは両方を用いて、前記騒音レベル取得部によって取得された前記車両内の騒音レベルで得られた感情特徴量に対応する感情を認識するために用いられる第3の感情モデルを推定し、前記第3の感情モデルと、前記感情特徴量抽出部によって抽出された感情特徴量とを用いて、前記乗員の感情を認識すること
     を特徴とする音声感情認識方法。
PCT/JP2018/035701 2018-09-26 2018-09-26 音声感情認識装置および音声感情認識方法 WO2020065771A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/035701 WO2020065771A1 (ja) 2018-09-26 2018-09-26 音声感情認識装置および音声感情認識方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2018/035701 WO2020065771A1 (ja) 2018-09-26 2018-09-26 音声感情認識装置および音声感情認識方法

Publications (1)

Publication Number Publication Date
WO2020065771A1 true WO2020065771A1 (ja) 2020-04-02

Family

ID=69949760

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/035701 WO2020065771A1 (ja) 2018-09-26 2018-09-26 音声感情認識装置および音声感情認識方法

Country Status (1)

Country Link
WO (1) WO2020065771A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2010286627A (ja) * 2009-06-11 2010-12-24 Nissan Motor Co Ltd 感情推定装置及び感情推定方法
WO2014002128A1 (ja) * 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US20160027452A1 (en) * 2014-07-28 2016-01-28 Sone Computer Entertainment Inc. Emotional speech processing
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2018063486A (ja) * 2016-10-11 2018-04-19 本田技研工業株式会社 サービス提供装置、サービス提供方法およびサービス提供プログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH11119791A (ja) * 1997-10-20 1999-04-30 Hitachi Ltd 音声感情認識システムおよび方法
JP2010286627A (ja) * 2009-06-11 2010-12-24 Nissan Motor Co Ltd 感情推定装置及び感情推定方法
WO2014002128A1 (ja) * 2012-06-25 2014-01-03 三菱電機株式会社 車載情報装置
US20160027452A1 (en) * 2014-07-28 2016-01-28 Sone Computer Entertainment Inc. Emotional speech processing
JP2016090681A (ja) * 2014-10-31 2016-05-23 マツダ株式会社 車両用音声対話装置
JP2018063486A (ja) * 2016-10-11 2018-04-19 本田技研工業株式会社 サービス提供装置、サービス提供方法およびサービス提供プログラム

Similar Documents

Publication Publication Date Title
JP6977004B2 (ja) 車載装置、発声を処理する方法およびプログラム
KR20180130672A (ko) 상황 기반 대화 개시 장치, 시스템, 차량 및 방법
US20150215716A1 (en) Audio based system and method for in-vehicle context classification
US11176948B2 (en) Agent device, agent presentation method, and storage medium
JP2017090611A (ja) 音声認識制御システム
US10861459B2 (en) Apparatus and method for determining reliability of recommendation based on environment of vehicle
US9786295B2 (en) Voice processing apparatus and voice processing method
JP4357867B2 (ja) 音声認識装置、音声認識方法、並びに、音声認識プログラムおよびそれを記録した記録媒体
US20100030558A1 (en) Method for Determining the Presence of a Wanted Signal Component
JP2002314637A (ja) 雑音低減装置
JP2010156825A (ja) 音声出力装置
US20210183362A1 (en) Information processing device, information processing method, and computer-readable storage medium
WO2020065771A1 (ja) 音声感情認識装置および音声感情認識方法
JP3900691B2 (ja) 雑音抑圧装置及び当該装置を用いた音声認識システム
JP4016529B2 (ja) 雑音抑圧装置,音声認識装置及び車両用ナビゲーション装置
CN109243457B (zh) 基于语音的控制方法、装置、设备及存储介质
WO2018029071A1 (en) Audio signature for speech command spotting
JP4026198B2 (ja) 音声認識装置
WO2022176038A1 (ja) 音声認識装置および音声認識方法
US11542744B2 (en) Agent device, agent device control method, and storage medium
KR101710695B1 (ko) 차량용 음성 인식을 위한 마이크로폰 제어 시스템 및 그 제어 방법
KR101086602B1 (ko) 차량용 음성인식 시스템 및 그 방법
JP6833147B2 (ja) 情報処理装置、プログラム及び情報処理方法
JP2019191477A (ja) 音声認識装置及び音声認識方法
JP7407665B2 (ja) 音声出力制御装置および音声出力制御プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18935381

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18935381

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP