WO2006011310A1 - 音声識別装置、音声識別方法、及びプログラム - Google Patents

音声識別装置、音声識別方法、及びプログラム Download PDF

Info

Publication number
WO2006011310A1
WO2006011310A1 PCT/JP2005/010800 JP2005010800W WO2006011310A1 WO 2006011310 A1 WO2006011310 A1 WO 2006011310A1 JP 2005010800 W JP2005010800 W JP 2005010800W WO 2006011310 A1 WO2006011310 A1 WO 2006011310A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice
output
user
identification result
importance
Prior art date
Application number
PCT/JP2005/010800
Other languages
English (en)
French (fr)
Inventor
Yoshio Ohno
Shinichi Yoshizawa
Tetsu Suzuki
Original Assignee
Matsushita Electric Industrial Co., Ltd.
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by Matsushita Electric Industrial Co., Ltd. filed Critical Matsushita Electric Industrial Co., Ltd.
Priority to US11/632,716 priority Critical patent/US7616128B2/en
Priority to JP2006528468A priority patent/JP3913771B2/ja
Publication of WO2006011310A1 publication Critical patent/WO2006011310A1/ja

Links

Classifications

    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R3/00Circuits for transducers, loudspeakers or microphones
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification
    • G10L17/26Recognition of special voice characteristics, e.g. for use in lie detectors; Recognition of animal voices
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0965Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages responding to signals from another vehicle, e.g. emergency vehicle
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2225/00Details of deaf aids covered by H04R25/00, not provided for in any of its subgroups
    • H04R2225/41Detection or adaptation of hearing aid parameters or programs to listening situation, e.g. pub, forest
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R2499/00Aspects covered by H04R or H04S not otherwise provided for in their subgroups
    • H04R2499/10General applications
    • H04R2499/13Acoustic transducers and sound field adaptation in vehicles
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R25/00Deaf-aid sets, i.e. electro-acoustic or electro-mechanical hearing aids; Electric tinnitus maskers providing an auditory perception
    • HELECTRICITY
    • H04ELECTRIC COMMUNICATION TECHNIQUE
    • H04RLOUDSPEAKERS, MICROPHONES, GRAMOPHONE PICK-UPS OR LIKE ACOUSTIC ELECTROMECHANICAL TRANSDUCERS; DEAF-AID SETS; PUBLIC ADDRESS SYSTEMS
    • H04R5/00Stereophonic arrangements
    • H04R5/033Headphones for stereophonic communication

Definitions

  • the present invention relates to a voice identification device that identifies a type of voice and presents the identification result to a user.
  • FIG. 10 is a diagram showing a configuration of the first conventional technique described in Patent Document 1.
  • the conventional speech recognition apparatus reproduces the sound by collecting the sound collecting means 1 for converting the sound in the external space into the electric signal s, and converting the electric signal s in the closed space. And a sound control means 2 that transmits and reproduces sound information generated in the external space to the closed space.
  • the signal control means 3 that cuts off the electrical signal s and a characteristic characteristic from the electrical signal s.
  • the characteristic extraction means 4 for extracting the signal, the condition storage means 5 for storing the characteristic condition of the signal, the signal converted by the sound collecting means 1 and the characteristic condition stored by the condition storage means 5 are compared.
  • characteristic judging means 6 for judging whether or not the force satisfies the condition.
  • the signal control unit 3 blocks the signal, and when the characteristic determining unit 6 determines that the condition is satisfied, the signal control unit 3 By letting the signal pass, it is possible to hear only the necessary sound that satisfies the predetermined conditions.
  • the current position is detected by the own vehicle position detection means, and the detected current position is detected. Accordingly, by using the acoustic characteristic information stored in the volume 'frequency characteristic storage means and controlling the reproduced voice that also outputs the output device force by the volume' frequency automatic change means, the reproduced voice output in the mobile body is changed. For example, when the vehicle location detection means detects that the current location is near a railroad crossing, the car audio volume is lowered to listen to a railroad crossing warning sound. It can be made easier.
  • Patent Document 2 Japanese Patent Laid-Open No. 2002-344268
  • Patent Document 3 Japanese Patent Laid-Open No. 7-327295
  • the voice identification result is output based only on the determination of whether or not there is a voice input that satisfies the specified acoustic feature condition, the same output is always obtained.
  • the input voice information is transmitted to the user depending on the form. Therefore, there is a problem that the user cannot understand the importance of the voice identification result that changes depending on the situation where the user is placed!
  • the acoustic characteristics are determined based only on the vehicle position information, for example, when the railroad crossing warning sound is not sounded if the vehicle stays in the vicinity of the railroad crossing due to traffic jams.
  • the acoustic characteristics are set so as to lower the reproduction volume, and the user cannot listen to the car audio at a desired volume.
  • the present invention has been made in view of these problems, and is a voice identification device that identifies a surrounding voice signal and informs the user of the identification result.
  • An object of the present invention is to provide a voice identification device capable of obtaining voice identification result information in a form.
  • a speech identification device includes a speech type determination unit that determines a type of the input speech using characteristics of a speech signal representing the input speech, A user action acquisition means for detecting a user action for changing the situation, and an output form for presenting the identification result relating to the input voice to the user based on the detection result in the user action detection means; And an identification result output means for outputting the identification result in the determined output form.
  • the voice identification device further includes a sound source state acquisition unit that detects a sound source state indicating a direction in which the input voice arrives, and the identification result output unit further includes a sound source state acquisition unit in the sound source state acquisition unit.
  • the output form may be determined in consideration of the detection result.
  • the output form is determined in consideration of the direction in which the voice arrives. Therefore, the important identification result regarding the input voice that has arrived from the direction that should be paid attention to by the user and the direction from which the voice is not.
  • a voice identification device capable of efficiently presenting the voice identification result to the user is realized.
  • the identification result relating to the input speech is stored in the user in an appropriate output form that reflects the importance assumed in accordance with the situation that changes depending on the user's operation. Since it can be presented, it is possible to provide a voice identification device that allows the user to understand the voice identification result reliably and efficiently.
  • FIG. 1 is a block diagram showing a configuration of a speech identification device according to Embodiment 1 of the present invention.
  • FIG. 2A is a diagram showing an example of output processing method definition information
  • FIG. 2B is a diagram showing an example of user operation
  • FIG. 2C is an output format definition. It is a figure which shows an example of information
  • (d) is a figure which shows an example of the present output form.
  • FIG. 3 is a flowchart showing the processing operation of the voice identification apparatus according to the first embodiment.
  • FIGS. 4 (a) and 4 (b) are diagrams for explaining an operation example of the speech recognition apparatus according to the first embodiment.
  • FIG. 5 is a diagram showing another example of output processing method definition information
  • (b) is a diagram showing another example of output form definition information
  • (c) Is a diagram showing an example of a user's situation
  • (d) is a diagram showing an example of a sound source state.
  • FIGS. 6 (a) and 6 (b) are diagrams for explaining an operation example of the speech recognition apparatus when the direction of speech arrival is taken into account.
  • FIG. 7 is a block diagram showing a configuration of a speech identification apparatus according to Embodiment 2 of the present invention.
  • Fig. 8 relates to the speech identification apparatus according to Embodiment 2 of the present invention.
  • (A) is a diagram showing an example of output processing method definition information
  • (b) is a diagram showing importance definition information. It is a figure which shows an example
  • (c) is a figure which shows an example of a user's condition.
  • FIGS. 9A and 9B are diagrams for explaining an operation example of the speech recognition apparatus according to the second embodiment.
  • FIG. 10 is a diagram showing a configuration of a conventional voice identification device. Explanation of symbols
  • the voice identification device is provided in an automobile, identifies voice information outside the passenger compartment, and outputs an identification result regarding the voice information based on a user operation!
  • This is a device that presents the identification result to the user in the determined output form.
  • the user is driving a car equipped with the apparatus, and the user's action is specifically a driving action.
  • the present apparatus presents the identification result to the user in a suitable output form reflecting the assumed importance, based on the current situation of the user that changes according to the user's driving action.
  • the specific contents of the identification result are not limited.
  • the notification information that determines the type of the audio information and is presented to the user through hearing, vision, touch, etc. according to the determination result is widely an example of the identification result.
  • the voice itself outside the passenger compartment obtained by reproducing the voice information is an example of the identification result.
  • FIG. 1 is a block diagram showing a functional configuration of the voice identification device according to the first embodiment.
  • a speech identification device 100 includes a speech input unit 101, a feature amount extraction unit 102, a speech storage unit 103, a collation unit 104, an acoustic model storage unit 105, an output A form determining unit 106, an output form definition information storage unit 107, a user action acquisition unit 108, a sound source state information acquisition unit 109, a voice identification result output processing unit 110, and an output processing method definition information storage unit 111 are provided.
  • the feature quantity extraction unit 102 and the collation unit 104 are examples of voice type determination means
  • the output form determination unit 106 and the voice identification result output processing unit 110 are examples of identification result output means
  • the voice The storage unit 103 is an example of a voice storage unit
  • the user action acquisition unit 108 is an example of a user action detection unit.
  • the audio input unit 101 can be realized by a microphone that collects an audio signal existing in an environment outside the vehicle and an AZD conversion that converts this into a digital signal with a sampling frequency of 12 kHz and an AZD conversion accuracy of 16 bits. .
  • the digital signal of the input voice acquired by the voice input unit 101 is sent to the feature amount extraction unit 102 and the voice storage unit 103.
  • the feature quantity extraction unit 102 uses a spectrum representing an audio feature from an input audio signal.
  • An acoustic feature quantity such as a psram is extracted, and the extracted feature quantity is sent to the matching unit 104.
  • an acoustic feature quantity can be constituted by a 16th-order MFCC coefficient, a 16th-order ⁇ MFCC coefficient, and a first-order ⁇ power extracted by the MFCC analysis method.
  • the voice storage unit 103 is a RAM having a storage area for temporarily holding an input voice.
  • the acoustic model storage unit 105 is a storage device such as a hard disk in which one or a plurality of acoustic models learned for each voice type are stored.
  • the HMM (Hidden Markov Model) model that is generally used in speech recognition can be used as the configuration of the acoustic model. For example, three-state left-to-right type four-mix continuous distribution HMM model for each voice type And stored in the acoustic model storage unit 105.
  • five kinds of sounds such as “level crossing alarm sound”, “fire truck siren”, “horn”, “motorcycle engine sound”, and “car engine sound” are used as ambient sound outside the vehicle. It is assumed that the acoustic model storage unit 105 stores the acoustic model having the above configuration corresponding to these voice types in the acoustic model storage unit 105.
  • the collation unit 104 collates the acoustic model stored in the acoustic model storage unit 105 with the acoustic feature quantity corresponding to the input voice sent from the feature quantity extraction unit 102.
  • the degree of similarity to the acoustic model is determined, and the determination result is sent to the output form determination unit 106.
  • the collation unit 104 may send a determination result indicating that the voice type corresponding to the acoustic model having the highest similarity is determined as the voice type of the input voice to the output format determination unit 106.
  • the output processing method definition information storage unit 111 stores definition information of an output processing method that is determined in advance for each output form of audio information.
  • FIG. 2 (a) shows the output processing method stored in the output processing method definition information storage unit 111. It is a figure which shows an example of the definition information regarding. As shown in Fig. 2 (a), this output processing method definition information defines that the input sound is played back at a volume corresponding to each of the five types of output forms and output as an identification result. Yes.
  • the output form illustrated here is expressed by a numerical value from 1 to 5, and the magnitude of this numerical value reflects the degree of importance that the identification result should be presented to the user.
  • the user action acquisition unit 108 is realized by a sensor that detects a user action, acquires information about the user action, and outputs the information to the output form determination unit 106.
  • FIG. 2B is a diagram showing an example of a user action acquired by the user action acquisition unit 108.
  • the user's driving actions such as “Turn the direction indicator Z return” and “Turn the hand brake Z return”, illustrated in Fig. 2 (b), are detected by installing sensors on the handbrake and winker respectively. Is possible.
  • the output form definition information storage unit 107 stores definition information of importance determined for each type of speech.
  • FIG. 2 (c) is a diagram showing an example of the output form definition information stored in the output form definition information storage unit 107.
  • the types of input speech to be identified are ⁇ railway crossing alarm sound '', ⁇ fire truck siren '', ⁇ horn '', ⁇ motorcycle engine sound '', ⁇ automobile engine sound ''.
  • the amount of change used to update the output format when the user's driving action is detected is defined.
  • the output form determination unit 106 includes the determination result acquired from the collation unit 104, information about the user action obtained from the user action acquisition unit 108, and output form definition information stored in the output form definition information storage unit 107. Based on the above, it is a processing unit that determines the output form of the identification result related to the input voice. For this processing, the output form determination unit 106 stores the current output form for each audio type using, for example, a register or a RAM (not shown).
  • FIG. 2 (d) is a diagram showing an example of the current output mode for each audio type stored in the output mode determining unit 106.
  • the output form determining unit 106 Upon obtaining information related to the user action from the user action obtaining unit 108, the output form determining unit 106 outputs the change amount of the output form corresponding to the user action to the output form definition information storage unit.
  • the current output form is updated to a new output form represented by the number after the addition by adding the obtained change amount for each audio type to the current output form.
  • the output form determination unit 106 displays the current output form of the voice type indicated in the determination result as the voice identification result. Output to the output processing unit 110.
  • the speech identification result output processing unit 110 stores the output form acquired from the output form determination unit 106 and the output processing method defined for each output form stored in the output processing method definition information storage unit 111. Based on the definition information, this is a processing unit that determines what acoustic processing is to be performed on the speech signal stored in the speech storage unit 103 and applies the determined acoustic processing to the speech signal.
  • the adjustment of the sound reproduction volume is taken as an example of the acoustic processing
  • the sound identification result output processing unit 110 determines the sound volume at which the input sound is reproduced, and then outputs the sound identification result.
  • the processing unit 110 reproduces and outputs the audio signal subjected to the determined acoustic processing (volume adjustment in this example) as an audio identification result output.
  • FIG. 3 is a flowchart showing the processing operation of the voice identification device 100.
  • the voice input unit 101 acquires the voice around the outside of the vehicle as the input voice (S100).
  • the obtained sound around the outside of the vehicle is converted into a digital signal and then stored in the voice storage unit 103 and sent to the feature amount extraction unit 102.
  • the feature amount extraction unit 102 extracts the acoustic feature amount. (S102).
  • the extracted feature quantity is sent from the feature quantity extraction unit 102 to the collation unit 104, and then stored in the acoustic model storage unit 105 in the collation unit 104 and collated with the acoustic model for each voice type. Then, the voice type is determined (S106). Then, the collation unit 104 sends the audio type determination result to the output form determination unit 106.
  • the output form determination unit 106 acquires information about the user action obtained by the user action acquisition unit 108 (S108), and output form definition information corresponding to the user action indicated by this information.
  • the current output form is updated using the change amount of the output form stored in the storage unit 107. Then, among the updated current output forms, the output form corresponding to the voice type determined by the matching unit 104 is determined as the output form for presenting the identification result related to the input voice to the user (S110). .
  • the output form determination unit 106 determines that the "direction indicator is selected from the output form definition information shown in FIG.
  • the current output form is updated to the value shown in Fig. 2 (d) by referring to the amount of change corresponding to the “output” operation and adding the amount of change. Then, the output form is determined to be “5” corresponding to the current “railroad crossing warning sound” after the update.
  • the output form determined in this way is sent from the output form determination unit 106 to the speech identification result output processing unit 110.
  • the speech identification result output processing unit 110 refers to the output processing method definition information shown in FIG. 2A, and determines the speech processing method as a method corresponding to the received output result ( S112).
  • the speech processing method since the output form is “5”, the voice recognition result output is stored in the voice storage unit 103, and when the voice signal is reproduced and output with “70dBA”! /, The voice processing method! Will be determined.
  • the voice identification result output processing unit 110 reads the input voice stored in the voice storage unit 103, outputs the identification result by the determined method (S114), and ends the processing operation.
  • the car 200 equipped with 00 is in the state where the handbrake is pulled before this level crossing You will be shown how to stop!
  • crossing warning sound is input to the sound identification device 100 as sound around the vehicle, and “hand brake is applied” is sounded as the user's driving action. It is considered that the identification device 100 has already acquired the identification device 100.
  • the voice identification device 100 determines the output form of the input voice "railroad crossing alarm sound" in this situation, the hand brake is applied from the output form definition information shown in Fig. 2 (b).
  • the output form is determined by two steps lower than before the bow I (change amount “1 2”), and the voice identification device 100 obtains the voice identification result from the output processing method definition information shown in FIG. It will be output at a volume reduced by “10dBA”. Note that when the user subsequently performs a “returning the brake” operation, the volume is returned to the same level as before the hand brake was pulled by determining the output mode that is two steps higher (change amount “+2”). .
  • the audio identification device 100 can maintain the audio volume while maintaining the audio volume in the interior of the automobile 200. However, it is also possible to play and output the voice identification result at a low volume.
  • FIG. 4 (b) a road crossing breaker goes down and a crossing warning sound is sounded, and the automobile 200 equipped with the voice identification device 100 cannot see this crossing. From there, it is shown how to turn right at the railroad crossing.
  • the voice identification device 100 determines the output form of the input voice “railroad crossing alarm sound” in this situation, the direction indicator is obtained from the output form definition information shown in FIG. 2 (b). The output form is determined two steps higher than before the output (change amount “+2”), and the speech recognition apparatus 100 obtains the speech recognition result from the output processing method definition information shown in FIG.
  • the voice identification device 100 By the operation of the voice identification device 100 as described above, it is possible to prevent an accident in which the user visually enters the railroad crossing until the user returns the power after returning the direction indicator. For the purpose, it is thought that the importance of presenting the “railroad crossing warning sound” to the user is high, so that the voice identification result is reproduced and output at a high volume using a high numerical output form that reflects the importance. Can do.
  • the collation unit 104 determines that the input sound is most similar to the “motorcycle engine sound”, the following processing is performed.
  • the output form determination unit 106 determines the output form of the input voice higher by two levels. So Then, according to the determination, the voice identification result output processing unit 110 performs a setting process to increase the volume for reproduction output of the identification result related to the input voice by “10 dBA”, and the input stored in the voice storage unit 103 The audio is played and output at the set volume as the audio identification result output.
  • the output form determination unit 106 determines the output form of the input voice one step lower. Then, according to the determination, the voice identification result output processing unit 110 performs a setting process for lowering the volume for reproduction output of the identification result related to the input voice by “5 dBA”, and the input voice stored in the voice storage unit 103. Is played and output at the set volume as a voice identification result output.
  • the voice identification device 100 it is possible to output a voice identification result in an output form that reflects the degree of importance assumed in accordance with a situation that changes according to the user's action.
  • the speech identification device 100 As a modification of the speech identification device 100 according to the first embodiment, the speech that presents the speech identification result to the user in an output form that is further determined in consideration of the direction of arrival of the input speech.
  • the identification device will be described.
  • the voice identification device according to this modification can notify the driver who is the user of the identification result related to the input voice in an output form determined in accordance with the arrival direction of the input voice and the driving operation of the user.
  • the sound source state information acquisition unit 109 shown in FIG. 1 detects the sound source state of the sound input from the sound input unit 101, that is, the direction of arrival of the sound, and outputs it to the output form determination unit 106.
  • the sound source state of the sound input from the sound input unit 101 that is, the direction of arrival of the sound
  • the output form determination unit 106 For example, it is realized by a microphone array composed of a plurality of microphone elements.
  • the sound source state information acquisition unit 109 having a function of detecting the voice arrival direction is an example of a sound source direction detection unit.
  • Fig. 5 (a) is a diagram showing an example of output processing method definition information stored in the output processing method definition information storage unit 111. Similar to Fig. 2 (a), output processing method definition information is shown. In the information, it is defined that the input sound is played back at a volume corresponding to each of the five types of output forms and output as an identification result. The output form illustrated here is represented by a numerical value from 1 to 5, and the magnitude of this numerical value reflects the importance of the identification result to be presented to the user.
  • FIG. 5 (b) is a diagram showing an example of output form definition information stored in the output form definition information storage unit 107.
  • the output form definition information illustrated in FIG. 2 (b) defines the amount of change in the output form according to the user's action, whereas the output form definition information illustrated here is the type of input voice.
  • the user situation broadly refers to a situation that changes according to the user's action, and for example, “driving situation” is an example.
  • This “driving condition” becomes “stopped” by the above-mentioned “pushing the brake” and “runs” by the “returning the handbrake” operation.
  • Such a user situation is stored, for example, in the output form determination unit 106 using a register RAM or the like (not shown), and is updated according to information on the user operation obtained from the user operation acquisition unit 108. It is good. Further, the user action acquisition unit 108 itself manages such a user situation and outputs the latest user situation to the output form determination unit 106.
  • FIG. 5C is a diagram showing an example of the user situation stored in the output form determination unit 106. Here, an example in which the above-mentioned “driving condition” is “running” is shown.
  • the output form determination unit 106 sends this “driving condition” from the user action acquisition unit 108 to the “hand When the information about the “pull rake” operation is obtained, it is changed to “stopping”, and when the information about the “return hand brake” operation is obtained, it is changed to “running”.
  • FIG. 5 (d) is a diagram showing an example of a sound source state acquired by the sound source state information acquisition unit 109.
  • the voice arrival directions such as “front” and “rear” exemplified in FIG. 5 (d) can be specified by a microphone array including a plurality of microphone element forces provided at the front and rear of the automobile.
  • a microphone array including a plurality of microphone element forces provided at the front and rear of the automobile.
  • front and “back” are illustrated, but for example, “right”, “left”, or a combination of these, voice arrival such as “right front” or “left rear” Even if you specify the direction.
  • the output form determination unit 106 in this modification is obtained from the identification result acquired from the collation unit 104, the user situation stored in the output form determination unit 106, and the sound source state information acquisition unit 109. Based on the information regarding the voice arrival direction and the output form definition information stored in the output form definition information storage unit 107, the output form of the identification result is determined.
  • step S110 in determining the output form, the output form determination unit 106 first updates the driving situation according to the information regarding the user action acquired in step S108, and Refer to the output form stored in the output form definition information storage unit 107 corresponding to the obtained voice arrival direction, the updated driving situation, and the voice type determination result obtained from the matching unit 104, The difference is that the referenced output form is determined as an output form for presenting the identification result to the user.
  • the output form determination unit 106 determines the output form of the identification result as “5” by referring to the output form definition information shown in FIG.
  • the speech identification result output processing unit 110 refers to the output processing method definition information shown in FIG. 5A, and determines an output processing method corresponding to the determined output form.
  • the voice identification result output is stored in the voice storage unit 103, and when the voice signal is reproduced and output at “70 dBA”, the output is! / It will be determined by the processing method.
  • the output form determination unit 106 determines the output form of the identification result as “1” by referring to the output form definition information shown in FIG.
  • the speech identification result output processing unit 110 refers to the output processing method definition information shown in FIG. 5 (a) and determines an output processing method corresponding to the determined output form. In this case, since the determined output form is “1”, the voice identification result output is stored in the voice storage unit 103, and if the voice signal is reproduced and output with “50dBA”! /, Output processing It will be determined by the method.
  • FIG. 6 (a) shows a state in which the car 200 equipped with the voice identification device 100 is sounded with a crossing crossing breaker and a crossing alarm sound after passing the crossing. .
  • the voice identification device 100 corresponds to the output form of the input voice “railroad crossing alarm sound” with reference to the output form definition information shown in FIG.
  • the voice identification device 100 determines “1” and outputs the voice identification result at “50 dBA” from the output processing method definition information shown in FIG.
  • the voice identification device 100 may reproduce and output the voice identification result at a volume lower than the audio volume while maintaining the audio volume in the passenger compartment.
  • FIG. 6 (b) a railroad crossing breaker goes down and a railroad crossing alarm sounds, and the automobile 200 equipped with the voice identification device 100 cannot see this railroad crossing. Then, you can see how you are going straight on the road with the help of the railroad crossing.
  • the voice identification device 100 corresponds to the output possible state of the input voice “railroad crossing alarm sound” with reference to the output form definition information shown in FIG. 5 (b).
  • the voice identification device 100 determines “5”, and outputs the voice identification result as “70 dBA” from the output processing method definition information shown in FIG.
  • the voice identification device 100 By the operation of the voice identification device 100 as described above, if the user hears a "crossing warning sound" in the "running enabled” state and a front crossing warning sound is heard in the "running enabled” state, the importance is high. If the level crossing warning sound is heard from behind in the “running ready” state, it can be played back at a relatively low volume and output at a low volume, and changes depending on the driving conditions and the sound source state. It is possible to output the voice identification result in a form corresponding to the importance level.
  • the matching unit 104 if the input voice is most similar to "fire truck siren" If the determination is V, the following processing is performed.
  • the voice identification result output processing unit 110 is a voice signal stored in the voice storage unit 103 as an output processing method corresponding to the output form “5”.
  • the volume is set so that is reproduced and output at “70dBA”, and this is reproduced and output as the sound identification result output.
  • the output form determination unit 106 determines the output form as “2”, and the speech identification result output processing unit 110 uses the voice storage unit 103 as an output processing method corresponding to the output form “2”. Volume setting processing is performed so that the audio signal stored in is reproduced and output at “55dBA”, and this is reproduced and output as the audio identification result.
  • the fire engine siren is played and output at a high volume with a high level of importance if the fire siren sound is heard in the forward direction and the fire siren sound is heard. If the fire siren sound can be heard from the rear in the “in-vehicle” state, it can be reproduced and output at a low volume with a relatively low level of importance. The identification result can be output.
  • the collation unit 104, the output configuration determination unit 106, the output configuration definition information storage unit 107, the user action acquisition unit 108, the speech identification result With the configuration including the output processing unit 110 and the output processing method definition information storage unit 111, the output mode determination unit 106 determines the output mode according to the voice type determined by the matching unit 104 depending on the user's operation. Then, after the voice identification result output processing unit 110 performs processing according to the determined output form on the input voice, it can be output as a voice identification result, and voice information important for the user is output to the user. It can be reliably transmitted according to the importance of the input voice information that changes depending on the operation of.
  • the configuration including the sound source state information acquisition unit 109 enables the output form determination unit 106 to determine the output form of the identification result in consideration of the voice arrival direction, which is important for the user. It is also possible to reliably transmit correct voice information according to the importance of the input voice information that changes depending on the user's operation status and voice arrival direction.
  • the acoustic model stored in the acoustic model storage unit 105 should be prepared for each voice type with respect to artificially output voice such as a crossing warning sound and a fire truck siren.
  • voice type such as a crossing warning sound and a fire truck siren.
  • the sound source state information acquisition unit 109 acquires information about the voice arrival direction by using a microphone array, and uses this for the importance determination in the output form determination unit 106.
  • the input sound is expanded or reduced to a sound volume corresponding to the importance level.
  • the playback output is output.
  • the playback output may be repeatedly output as many times as the importance level.
  • the reproduction of the input voice has been described as an example of the method.
  • the voice type corresponding to the acoustic model is described. It is also possible to output the name as a sound identification result by text display. In the case of such character display, it is possible to output the voice identification result by performing processing for changing the size, brightness, color, etc. of the displayed character according to the importance of the voice information. .
  • the output of the voice identification result may be selectively used for the voice output and the character display output.
  • the voice identification result output processing is performed so that the voice identification result is output by voice when the importance of the input voice is high, and is output by text display when the importance of the input voice is low. It is also possible to adopt a configuration that can be controlled by the unit 110.
  • the voice identification device is integrated with the portable headphone stereo, identifies voice information of the surrounding environment of the user wearing the device, and is being used by the user. It is a device that presents the identification result to the user by means of audio playback output through a cellular phone, a headphone stereo speaker, or headphones.
  • a cellular phone a headphone stereo speaker
  • headphones a headphone stereo speaker
  • the user wears acoustic equipment with high acoustic closure properties, such as portable headphone stereos and mobile phone earphones, it is difficult to hear the sound of the surrounding environment. It is possible to notify the user of the identification result by processing the output form of the identification result according to the user's operation status, specifically, the degree of importance depending on the user's walking status. Assuming
  • the configuration and operation of the voice identification device according to the second embodiment are substantially the same as the configuration and operation of the voice identification device 100 according to the first embodiment, but the voice identification result should be transmitted to the user.
  • the difference is that the importance level, which means the importance level, is explicitly used. In the following, we will focus on the differences.
  • FIG. 7 is a block diagram showing a functional configuration of voice identification device 100a according to the second embodiment.
  • the voice identification device 100a includes an output form definition information storage unit 107 and an output form determination unit 106 in the voice identification device 100 (see FIG. 1), an importance level definition information storage unit 207, and a voice information importance level judgment unit 206, respectively. It is constituted by replacing with.
  • the voice information importance level determination unit 206 is an example of importance level determination means.
  • Three types of sound are assumed: “warning sound” and “announcement sound in the vehicle that informs the arrival of the station”, and an acoustic model with the same configuration as in the first embodiment corresponds to these sound types. Stored in the model store.
  • the importance level definition information storage unit 207 stores the definition information of the importance level determined for each voice type.
  • FIG. 8 (b) is a diagram showing an example of importance level definition information stored in the importance level definition information storage unit 207 of the speech identification apparatus according to the second embodiment.
  • the types of input voices that are identification targets are ⁇ car horn, '' ⁇ station home warning sound to notify vehicle entry, '' and ⁇ car announcement sound to notify station arrival. ”Is shown, and the importance corresponding to the user's walking motion is defined for each voice type.
  • the user action acquisition unit 108 is configured by a sensor that senses a user action, acquires information related to the user action, and outputs the information to the voice information importance level determination unit 206.
  • the user operation acquisition unit 108 detects the operation that is completed in a relatively short time, such as “Take out the direction indicator and Z return” in the first embodiment. In the second embodiment, for example, Detects actions with a longer time span (ie, user action status) such as “Z stop”.
  • FIG. 8 (c) is a diagram showing an example of the user's walking situation acquired by the user action acquisition unit of the voice identification device according to the second embodiment.
  • the user's walking situation such as “Walking” and “Stopping” illustrated in Fig. 8 (c) can be detected by configuring the user motion acquisition unit with a pedometer equipped with an acceleration sensor. is there.
  • the output processing method definition information storage unit 111 stores output processing method definition information determined in advance for each importance level of audio information. As shown in FIG. 8 (a), It is defined that the input sound is played and the identification result is output at a volume corresponding to the importance level.
  • the voice information importance level determination unit 206 stores the determination result acquired from the collation unit 104, information about the user action obtained from the user action acquisition unit 108, and the importance level definition information storage unit 207. Based on the importance level definition information, the importance level of the input voice is determined, and the determination result is output to the voice identification result output processing unit 110. Further, the voice identification result output processing unit 110 is determined for each importance level stored in the output processing method definition information storage unit 111 and the importance level of the voice information acquired from the voice information importance level determination unit 206. Based on the definition information of the output processing method, it is determined what kind of acoustic processing is performed on the voice signal stored in the voice storage unit 103, and the voice signal subjected to the determined processing is converted into a voice identification result.
  • Playback output as output As a specific example, in the collating unit 104 of the voice identification device according to the second exemplary embodiment, the input voice around the user is most similar to “car horn”. The case will be described assuming that such a determination is made.
  • the audio information importance level determination unit 206 determines the importance information shown in Fig. 8 (b). By referring to the degree definition information, the importance of the input voice is determined as “2”.
  • the speech identification result output processing unit 110 refers to the output processing method definition information shown in Fig. 8 (a) and determines an output processing method corresponding to the received importance determination result.
  • the voice identification result output is stored in the voice storage unit 103, and the voice signal is reproduced and output with “55dBA”. It will be a bit different.
  • the voice information importance level determination unit 206 displays the importance level definition information shown in FIG. 8 (b). By referring to, the importance of the input voice is determined as “5”.
  • the speech identification result output processing unit 110 refers to the output processing method definition information shown in FIG. 8A, and determines an output processing method corresponding to the received importance determination result.
  • the voice identification result output is stored in the voice storage unit, and the voice signal is reproduced and output at “70 dBA”. It will be.
  • FIG. 9 (a) a user wearing the voice identification device 100a according to the second embodiment stops at an intersection where there is a crosswalk, and the car 300 enters the intersection while sounding a horn. Then, the state of being shown is shown.
  • the voice identification device 100a receives the input voice "car crash in this situation.
  • the importance level of the input speech is low (importance level “2”) based on the importance level definition information shown in FIG. 8 (b).
  • the speech identification result is output as "55dBA”.
  • the voice identification device 100a keeps the audio playback volume of the integrated portable headphone stereo and keeps the voice identification result at a volume lower than the audio volume! You can make playback output.
  • “car horn” is input to the voice identification device 100a as the voice around the user
  • “walking” is input to the voice identification device 100a as the user's walking situation. It is considered to be acquired.
  • the voice identification device 100a determines the importance of the input voice “car horn” in this situation, the importance of the input voice is determined from the importance definition information shown in FIG. 8 (b). Is determined to be high (importance “5”), and the speech identification device 100a outputs the speech identification result at “70dBA” from the output processing method definition information shown in FIG. 8 (a).
  • the voice identification device 100a lowers the audio playback volume of the integrated portable headphone stereo so that it is louder than the audio volume! Even if you do it ⁇ .
  • the voice identification device 100a By the operation of the voice identification device 100a as described above, a user who is moving on foot can be Car horn is important for the purpose of preventing the user from coming into contact with the car by continuing to walk without being aware of the approach of the car if the walking situation is “walking”.
  • the voice recognition result can be reproduced and output at a high volume, and if the walking situation is “stopped”, the possibility of such an accident is low, so the degree of importance is low. Therefore, it is possible to reproduce and output the voice identification result at a low volume.
  • collation unit 104 of the voice identification device determines that the input voice is most similar to the "announcement voice in the vehicle notifying the arrival at the station" The following processing is performed.
  • the information importance level judgment unit 206 judges that the importance level of the input voice is high, that is, “5”, and the voice identification result output processing unit uses a sound as an output processing method corresponding to the importance level “5”. Volume setting processing is performed so that the audio signal stored in the voice storage unit is reproduced and output at “70 dBA”, and this is reproduced and output as an audio identification result output.
  • the speech information importance level determination unit determines that the importance level of the input speech is relatively low, that is, “2”, and the voice identification result output processing unit determines the importance level.
  • the sound signal stored in the sound storage unit is set to ⁇ 55 dB Aj so that it can be played back and output, and this is played back as a voice identification result output. .
  • the above-mentioned operation of the voice identification device prevents over-traveling when the user is walking on the road when the "announcement in the vehicle notifying the arrival of the station" is "walking ability ⁇ stopped". It is thought that the importance is high for the purpose of doing so, so it can be played back and output at a high volume. It can be played back at a low volume, and the voice identification result can be output in an identification result output format according to the degree of importance that changes depending on the user's walking situation. It is possible to
  • the collation unit 104 determines the importance level of the input speech for the similarity determination result determined by the matching unit 104, Based on the determination result, the voice identification result output processing unit 110 can add a process corresponding to the output form to the input voice and output it as a voice identification result. Can be reliably transmitted according to the importance of the input voice information that changes depending on the operation status of the.
  • the user motion acquisition unit realized by a pedometer or the like acquires the user's walking situation, and based on the walking situation, the voice information importance determination unit
  • the example of determining the information importance level has been described, it is also possible to specify the user's operation status from the information related to the key operation of the mobile phone and the button operation of the headphone stereo.
  • the configuration of the voice identification device integrated with the headphone stereo or the mobile phone in use by the user has been described as an example.
  • the configuration is integrated with these devices! / It can also be realized by an independent configuration.
  • the output reflecting the importance level depending on the voice arrival direction by using the importance level definition information that takes into account the voice arrival direction, the output reflecting the importance level depending on the voice arrival direction. It is easily possible to determine the form.
  • the voice identification device has been described on the assumption that it is used in a highly closed space such as the interior of a car or a portable headphone stereo.
  • the user's breathing movement is detected, and the detected breathing movement is suspicious when the input sound breaks the glass window when the user is determined to be sleeping.
  • the detected breathing movement is suspicious when the input sound breaks the glass window when the user is determined to be sleeping.
  • the voice identification device can reliably transmit voice information important to the user according to the degree of importance that changes depending on the user's operation status, and is intended to assist the user in driving safely.
  • Safety assistance devices for mobile phones, information terminal devices such as mobile phones that are intended to provide information on the surroundings to users who are walking or traveling by train, or headphone stereos equipped with this device Can be applied.
  • it is also useful as a security device installed in homes and offices for the purpose of crime prevention and accident prevention.

Abstract

 ユーザにとって重要な音声情報を、ユーザの動作に依存して変化する入力音声情報の重要度に応じて確実に伝達することができる音声識別装置は、入力された音声の種別を判定する照合部104と、ユーザの動作を検出するユーザ動作取得部108と、照合部104の判定結果およびユーザ動作取得部108の検出結果を出力形態定義情報格納部107に格納されている出力形態定義情報と対比することによって、入力音声に関する識別結果の出力形態を決定する出力形態決定部106と、出力形態決定部106の判定結果と出力処理方法定義情報格納部111に格納されている出力処理方法定義情報とを対比することによって、音声識別結果に決定された出力形態に応じた処理を施した後に出力する音声識別結果出力処理部110とを備える。

Description

明 細 書
音声識別装置、音声識別方法、及びプログラム
技術分野
[0001] 本発明は、音声の種別を識別して、識別結果をユーザに提示する音声識別装置に 関するものである。
背景技術
[0002] 近年、車両内の防音性能は向上しており、防音性能の向上により、他の車両のクラ クシヨンや緊急車両のサイレン音が聞こえに《なってきている。また、携帯型ヘッドフ オンステレオや携帯電話機のイヤホンなど、音響的な閉鎖性の高 、音響機器を装着 する頻度も増しており、自動車のクラクションや、列車の車内放送、駅ホームを通過 する車両の音が聞こえに《なってきている。このように、車両の防音性能の向上ゃ閉 鎖性の高い音響機器の装着によって、ユーザにとって重要な周囲の音声信号が聞こ えに《なるという課題が、近年増加している。
[0003] このような課題を解決するものとして、従来より、種々の技術が提案されている(例え ば、特許文献 1〜3参照。)。
[0004] 図 10は、上記特許文献 1に記載の、第一の従来技術の構成を示す図である。
[0005] 図 10に示すように、従来の音声識別装置は、外部空間の音を電気信号 sに変換す る集音手段 1と、閉空間にあり電気信号 sを変換して音を再生する音再生手段 2とを 有し、外部空間で発生する音情報を閉空間に伝達'再生する装置において、電気信 号 sを遮断'通過する信号制御手段 3と、電気信号 sから特徴的な特性を抽出する特 性抽出手段 4と、信号の特性条件を記憶する条件記憶手段 5と、集音手段 1によって 変換された信号と、条件記憶手段 5によって記憶されている特性条件とを比較して、 条件を満たす力否かを判断する特性判断手段 6とを設けている。
[0006] そして、特性判断手段 6が条件を満たさな 、と判定したときは、信号制御手段 3が信 号を遮断し、特性判断手段 6が条件を満たすと判定したときには、信号制御手段 3が 信号を通過させることによって、あら力じめ定められた条件を満たす必要な音だけを 聞くことを可能としている。 [0007] また、上記特許文献 2記載の第二の従来技術では、車などの移動体に搭載された 音声再生装置において、自車位置検出手段で現在位置を検出し、検出された現在 地に応じて音量 '周波数特性記憶手段に記憶されている音響特性情報を用いて、出 力装置力も出力する再生音声を音量'周波数自動変更手段で制御することによって 、移動体内で出力される再生音声が現在位置に応じた最適な音響特性となるように 構成されており、例えば、自車位置検出手段で現在地が踏切付近と検出された場合 に、カーオーディオの音量を下げて踏切の警報音を聞きやすくすることができるとし ている。
[0008] さらに、上記特許文献 3記載の第三の従来技術では、緊急自動車や警報機等が発 する信号を感知する信号識別回路と、対象音源との距離やその変化を音質力 判断 する音質回路とを設け、音源の距離や緊急度を判断して、カーステレオやヘッドフォ ンステレオなど閉鎖性の高 ヽ音響機器の音量を自動調節する装置が提案されて!、る 特許文献 1 :特開平 7— 95681号公報
特許文献 2:特開 2002— 344268号公報
特許文献 3:特開平 7- 327295号公報
発明の開示
発明が解決しょうとする課題
[0009] しかしながら、前記第一の従来技術の構成では、規定の音響特徴条件を満たす音 声入力が存在した力否かの判定にのみ基づいて音声識別結果の出力を行なうので 、常に同様の出力形態によって入力音声情報がユーザに伝えられる。そのため、ュ 一ザが置かれて!/、る状況により変化する音声の識別結果の重要度を、ユーザは理解 することができな 、と!/、う問題がある。
[0010] また、前記第二の従来技術の構成では、自車位置情報にのみ基づき音響特性を 決定するため、例えば、渋滞により踏切付近に長時間留まった場合、踏切警報音が 鳴っていない時にも、再生音量を下げるよう音響特性が設定されてしまい、ユーザが 所望の音量でカーオーディオを聞くことができな 、と 、う問題を有して 、る。
[0011] さらに、前記第三の従来技術の構成では、自動車を運転中のユーザが進路前方で 踏切警報機が鳴っていることを確認し、自車を停止させて、既にカーラジオの音量を 下げておく必要がない場合でも、信号識別回路が踏切警報音を感知している間は、 カーラジオの電源が切られた状態が続いてしまうという問題がある。
[0012] 本発明は、これらの問題点に鑑みてなされたものであり、周囲の音声信号を識別し て、その識別結果をユーザに知らせる音声識別装置であって、ユーザがより適切な 情報提示形態で音声識別結果情報を得ることのできる音声識別装置を提供すること を目的とする。
課題を解決するための手段
[0013] 上記目的を達成するために、本発明に係る音声識別装置は、入力音声を表す音 声信号の特性を用いて、前記入力音声の種別を判定する音声種別判定手段と、現 在の状況を変化させるためのユーザの動作を検出するユーザ動作取得手段と、前記 ユーザ動作検出手段における検出結果に基づいて、前記入力音声に関する識別結 果をユーザに提示するための出力形態を決定し、前記識別結果を、決定した出力形 態で出力する識別結果出力手段とを備えることを特徴とする。
[0014] 本構成によって、ユーザの動作に基づいて決定される出力形態 (例えば、出力音 量や、出力回数)で、入力音声に関する識別結果を出力することができる。これにより 、前記ユーザの動作によって変化するその時々の状況において想定される識別結果 の重要度を反映した好適な出力形態で、前記識別結果をそのユーザに提示すること が可能となる。
[0015] ここで、前記音声識別装置は、さらに、前記入力音声が到来する方向を示す音源 状態を検出する音源状態取得手段を備え、前記識別結果出力手段は、さらに、前記 音源状態取得手段における検出結果を加味して、前記出力形態を決定するとしても よい。
[0016] これによつて、音声の到来する方向も加味して前記出力形態を決定するので、ユー ザにとって注意を払うべき方向から到来した入力音声に関する重要な識別結果と、そ うでない方向から到来した入力音声に関するそう重要でない識別結果との出力形態 を異ならせることによって、音声識別結果を効率よくユーザに提示することができる音 声識別装置が実現される。 発明の効果
[0017] 本発明の音声識別装置によれば、入力音声に関する識別結果を、ユーザの動作 に依存して変化する状況に応じて想定される重要度を反映した適切な出力形態でュ 一ザに提示することができるので、ユーザが確実かつ効率的に音声識別結果を理解 可能な音声識別装置を提供することができる。
図面の簡単な説明
[0018] [図 1]図 1は、本発明の実施の形態 1に係る音声識別装置の構成を示すブロック図で ある。
[図 2]図 2は、(a)は、出力処理方法定義情報の一例を示す図であり、(b)は、ユーザ の動作の一例を示す図であり、(c)は、出力形態定義情報の一例を示す図であり、 ( d)は、現在の出力形態の一例を示す図である。
[図 3]図 3は、本実施の形態 1に係る音声識別装置の処理動作を示すフローチャート である。
[図 4]図 4は、(a)および (b)は、本実施の形態 1に係る音声識別装置の動作例を説 明するための図である。
[図 5]図 5は、(a)は、出力処理方法定義情報の別の一例を示す図であり、(b)は、出 力形態定義情報の別の一例を示す図であり、(c)は、ユーザの状況の一例を示す図 であり、(d)は、音源状態の一例を示す図である。
[図 6]図 6は、(a)および (b)は、音声到来方向を加味する場合の音声識別装置の動 作例を説明するための図である。
[図 7]図 7は、本発明の実施の形態 2に係る音声識別装置の構成を示すブロック図で ある。
[図 8]図 8は、本発明の実施の形態 2に係る音声識別装置に関し、(a)は、出力処理 方法定義情報の一例を示す図であり、(b)は、重要度定義情報の一例を示す図であ り、(c)は、ユーザの状況の一例を示す図である。
[図 9]図 9は、(a)および (b)は、本実施の形態 2に係る音声識別装置の動作例を説 明するための図である。
[図 10]図 10は、従来の音声識別装置の構成を示す図である。 符号の説明
100、 100a 音声識別装置
101 音声入力部
102 特徴量抽出部
103 音声記憶部
104 照合部
105 音響モデル格納部
106 出力形態決定部
107 出力形態定義情報格納部
108 ユーザ動作取得部
109 音源状態情報取得部
110 音声識別結果出力処理部
111 出力処理方法定義情報格納部
200、 300 自動車
201 ウィンカー
206 音声情報重要度判定部
207 重要度定義情報格納部
1 集音手段
S ^ス "¾
2 音再生手段
3 信号制御手段
4 特徴抽出手段
5 条件記憶手段
6 特徴判定手段
発明を実施するための最良の形態
[0020] 以下、本発明の実施の形態について、図面を参照しながら説明する。
[0021] (実施の形態 1)
まず、本発明の実施の形態 1に係る音声識別装置について、図 1〜6を用いて説明 する。
[0022] 本実施の形態 1に係る音声識別装置は、自動車に備え付けられており、車室外の 音声情報を識別すると共に、その音声情報に関する識別結果の出力形態をユーザ の動作に基づ!、て決定し、決定された出力形態でその識別結果をユーザに提示す る装置である。ここでは、ユーザは、本装置が備え付けられている自動車を運転中で あり、前記ユーザの動作は具体的には運転動作であることを想定している。本装置は 、ユーザの運転動作によって変化するそのユーザの現在の状況にぉ 、て想定される 重要度を反映した好適な出力形態で前記識別結果をユーザに提示する。
[0023] なお、本発明では、前記識別結果の具体的な内容を限定しない。例えば、前記音 声情報の種別を判定し、その判定結果に応じて聴覚、視覚、触覚等を通してユーザ に提示される通知情報は、広く前記識別結果の一例である。また、前記音声情報を 再生して得られる車室外の音声そのものも前記識別結果の一例である。
[0024] 図 1は、本実施の形態 1に係る音声識別装置の機能的な構成を示すブロック図で ある。
[0025] 図 1に示すように、本実施の形態 1に係る音声識別装置 100は、音声入力部 101、 特徴量抽出部 102、音声記憶部 103、照合部 104、音響モデル格納部 105、出力 形態決定部 106、出力形態定義情報格納部 107、ユーザ動作取得部 108、音源状 態情報取得部 109、音声識別結果出力処理部 110、および、出力処理方法定義情 報格納部 111を備える。
[0026] ここで、特徴量抽出部 102及び照合部 104が音声種別判定手段の一例であり、出 力形態決定部 106及び音声識別結果出力処理部 110が識別結果出力手段の一例 であり、音声記憶部 103が音声記憶手段の一例であり、ユーザ動作取得部 108がュ 一ザ動作検出手段の一例である。
[0027] 音声入力部 101は、車外周囲環境に存在する音声信号を集音するマイクロフォン と、これをサンプリング周波数 12kHz、 AZD変換精度 16Bitの精度でデジタル信号 に変換する AZD変 により実現することができる。この音声入力部 101が取得し た入力音声のデジタル信号は、特徴量抽出部 102と音声記憶部 103に送られる。
[0028] 特徴量抽出部 102は、入力音声信号から、音声の特徴を表現するスペクトルゃケ プストラムなどの音響的特徴量を抽出し、抽出した特徴量を照合部 104に送る。例え ば、特徴量抽出部 102では、 MFCC分析手法によって抽出される 16次の MFCC係 数と 16次の Δ MFCC係数と 1次の Δパワーによって、音響的特徴量を構成すること ができる。
[0029] 音声記憶部 103は、入力音声を一時的に保持するための記憶領域を有する RAM
(Random Access Memory)等によって実現される。
[0030] 音響モデル格納部 105は、音声種毎に学習された、 1つあるいは複数の音響モデ ルが格納されて 、るハードディスク等の記憶装置である。音響モデルの構成としては 、一般に音声認識で用いられている HMM (Hidden Markov Model)モデルを利用 することができ、例えば、音声種ごとに 3状態 Left— to— right型 4混合連続分布 H MMモデルを学習し、音響モデル格納部 105に格納しておく。本実施の形態 1にお いては、車外周囲音声として、「踏切警報機音」、「消防車サイレン」、「クラクション」、 「バイクのエンジン音」、「自動車エンジン音」の 5種類の音声を想定しており、音響モ デル格納部 105には、これらの音声種に対応した前記構成の音響モデルが、音響モ デル格納部 105に格納されて 、る。
[0031] 照合部 104は、音響モデル格納部 105に格納されている音響モデルと、特徴量抽 出部 102から送られる入力音声に対応した音響的特徴量とを照合し、入力音声が 5 つの音響モデルに、どの程度類似するかを判定して、その判定結果を出力形態決定 部 106に送る。照合部 104は、例えば、最も高い類似が見られた音響モデルに対応 する音声種別が入力音声の音声種別として判定されたことを示す判定結果を出力形 態決定部 106に送ってもよい。
[0032] なお、ここで説明した、音声特徴量の抽出方法、音響モデルの構成方法、ならびに 照合の方法としては、公知の音声識別方法を用いることができる(例えば、三木一浩 、西浦敬信、中村哲、鹿野清宏 「HMMを用いた環境音識別の検討」電子情報通 信学会技術報告、 SP99— 106、 pp. 79— 84 (1999)参照。 )0
[0033] 出力処理方法定義情報格納部 111には、あらかじめ音声情報の出力形態ごとに定 められた出力処理方法の定義情報が格納されている。
[0034] 図 2 (a)は、出力処理方法定義情報格納部 111に格納されている出力処理方法に 関する定義情報の一例を示す図である。図 2 (a)に示すように、この出力処理方法定 義情報には、 5種類の出力形態それぞれに応じた音量で入力音声を再生して、それ を識別結果として出力することが定義されている。ここに例示する出力形態は、 1から 5までの数値で表され、この数値の大きさは識別結果をユーザに提示すべき重要度 の高さを反映している。
[0035] ユーザ動作取得部 108は、ユーザの動作を感知するセンサによって実現され、ュ 一ザの動作に関する情報を取得して、出力形態決定部 106に出力する。
[0036] 図 2 (b)は、ユーザ動作取得部 108で取得されるユーザの動作の一例を示す図で ある。図 2 (b)に例示する、「方向指示器を出す Z戻す」、「ハンドブレーキを引く Z戻 す」などのユーザの運転動作は、ハンドブレーキおよびウィンカーに、それぞれセン サを備え付けることにより検出することが可能である。
[0037] 出力形態定義情報格納部 107には、あら力じめ音声種ごとに定められた重要度の 定義情報が格納されている。
[0038] 図 2 (c)は、出力形態定義情報格納部 107に格納されている出力形態定義情報の 一例を示す図である。図 2 (c)に示すように、識別対象である入力音声の種別として、 「踏切警報機音」、「消防車サイレン」、「クラクション」、「バイクのエンジン音」、「自動 車エンジン音」が示されており、それぞれの音声種別ごとに、ユーザの運転動作が検 出された場合に出力形態の更新に用いられる変化量が定義されている。
[0039] 出力形態決定部 106は、照合部 104から取得した判定結果と、ユーザ動作取得部 108から得られるユーザ動作に関する情報と、出力形態定義情報格納部 107に格納 されている出力形態定義情報とに基づいて、入力音声に関する識別結果の出力形 態を決定する処理部である。この処理のために、出力形態決定部 106は、音声種別 ごとの現在の出力形態を、例えば図示しないレジスタや RAM等を用いて、格納して いる。
[0040] 図 2 (d)は、出力形態決定部 106に格納されている音声種別ごとの現在の出力形 態の一例を示す図である。
[0041] 出力形態決定部 106は、ユーザ動作取得部 108からユーザ動作に関する情報を 得ると、そのユーザ動作に対応する出力形態の変化量を出力形態定義情報格納部 107から取得し、取得された変化量を現在の出力形態に音声種別ごとに加算するこ とによって、現在の出力形態を加算後の数値で表される新たな出力形態に更新する
[0042] そして、この更新動作と並行して、出力形態決定部 106は、照合部 104から判定結 果が取得されると、その判定結果に示される音声種別の現在の出力形態を音声識別 結果出力処理部 110へ出力する。
[0043] 音声識別結果出力処理部 110は、出力形態決定部 106から取得した出力形態と、 出力処理方法定義情報格納部 111に格納されて 、る、出力形態ごとに定められた 出力処理方法の定義情報とに基づいて、音声記憶部 103に記憶されている音声信 号に、いかなる音響的処理を施すかを決定し、決定された音響的処理をその音声信 号に施す処理部である。なお、ここでは、音声の再生音量の調整を前記音響的処理 の一例としており、音声識別結果出力処理部 110は、いかなる音量で入力音声を再 生するかを決定し、その後、音声識別結果出力処理部 110は、決定された音響的処 理 (この例では音量調整)を施した音声信号を音声識別結果出力として再生出力す る。
[0044] 以上のように構成される音声識別装置 100の動作について、図 3を用いて説明する
[0045] 図 3は、音声識別装置 100の処理動作を示すフローチャートである。
[0046] まず、音声識別装置 100は、音声入力部 101において、車外周囲の音声を入力音 声として取得する(S100)。取得された車外周囲の音声はデジタル信号に変換され た後、音声記憶部 103に格納されるとともに、特徴量抽出部 102に送られ、特徴量抽 出部 102において、音響的特徴量が抽出される(S102)。
[0047] 抽出された特徴量は、特徴量抽出部 102から照合部 104に送られ、照合部 104に ぉ 、て、音響モデル格納部 105に格納されて 、る音声種別ごとの音響モデルと照合 され (S104)、音声種別の判定が行なわれる(S106)。そして、照合部 104は、音声 種別の判定結果を出力形態決定部 106に送る。ここでは、具体的な例として、入力さ れた車外周囲の音声が、「踏切警報機音」に最も類似しているという判定がなされた 場合を想定して説明する。 [0048] 次に、出力形態決定部 106は、ユーザ動作取得部 108で得られるユーザ動作に関 する情報を取得し (S108)、この情報で示されるユーザ動作に対応して出力形態定 義情報格納部 107に格納されている出力形態の変化量を用いて、現在の出力形態 を更新する。そして、更新後の現在の出力形態のうち、照合部 104において判定さ れた音声種別に対応する出力形態を、入力音声に関する識別結果をユーザに提示 するための出力形態として決定する(S 110)。
[0049] 以下、具体的な例として、現在の出力形態が全ての音声種別について「3」と決定さ れているときに、ユーザの「方向指示器を出す」動作が検出された場合を想定して説 明する。
[0050] この場合、出力形態決定部 106は、検出されたユーザ動作が「方向指示器を出す」 動作であることから、図 2 (c)に示した出力形態定義情報から「方向指示器を出す」動 作に対応する変化量を参照し、その変化量を加算することによって、現在の出力形 態を図 2 (d)に示す数値に更新する。そして、出力形態を、更新後の現在の「踏切警 報機音」に対応する「5」と決定する。
[0051] このようにして決定された出力形態は、出力形態決定部 106から音声識別結果出 力処理部 110に送られる。
[0052] そして、音声識別結果出力処理部 110は、図 2 (a)に示した出力処理方法定義情 報を参照して、音声処理方法を、受け取った出力結果に対応する方法に決定する( S112)。上記の例では、出力形態が「5」であるため、音声識別結果出力は、音声記 憶部 103に格納されて 、る音声信号を「70dBA」で再生出力すると!/、う音声処理方 法に決定されることになる。
[0053] その後、音声識別結果出力処理部 110は、音声記憶部 103に格納されている入力 音声を読み出して、決定された方法で識別結果を出力し (S114)、処理動作を終了 する。
[0054] ユーザの動作によって変化する状況に応じて、音声識別結果が異なる出力形態で 出力される別の具体例を、図 4を用いて説明する。
[0055] 図 4 (a)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別装置 1
00が備え付けられた自動車 200が、この踏切手前でハンドブレーキが引かれた状態 で停止して!/、る様子が示されて 、る。
[0056] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が音 声識別装置 100に入力されるとともに、ユーザの運転動作として「ハンドブレーキを引 く」が音声識別装置 100に既に取得されていると考えられる。
[0057] ここで、音声識別装置 100が、この状況下における入力音声「踏切警報機音」の出 力形態を決定する場合、図 2 (b)に示した出力形態定義情報から、ハンドブレーキを 弓 Iく前に比べて 2段階低 、 (変化量「一 2」)出力形態が決定され、音声識別装置 100 は、図 2 (a)に示した出力処理方法定義情報から、音声識別結果を「10dBA」下げた 音量で出力することになる。なお、ユーザがその後「ノヽンドブレーキを戻す」動作を行 うと、 2段階高い (変化量「 + 2」)出力形態が決定されることによって、音量はハンドブ レーキを引く前と同じ大きさに戻る。
[0058] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場 合には、車室内のオーディオ音量を維持させたままで、音声識別装置 100は、ォー ディォ音量よりも小さ ヽ音量で音声識別結果を再生出力するようにしてもょ ヽ。
[0059] このように、ユーザの動作によって変化する状況に応じて、入力音声に関する識別 結果をユーザに伝達する重要度が低 、と判定される場合 (この具体例にっ 、て言え ば、ハンドブレーキを引いて力 戻すまでの、確実に停車していると考えられる期間) には、音声識別結果出力の音量を低減することで、ユーザは、音声識別結果の再生 出力によって阻害されることなぐカーオーディオの視聴を継続することができるよう になる。
[0060] 一方、図 4 (b)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別 装置 100が備え付けられた自動車 200が、この踏切を視認することができない道路 から、踏切に向力つて右折しょうとして 、る様子が示されて 、る。
[0061] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が音 声識別装置 100に入力される。また、右折を示す方向指示器 (ウィンカー) 201が作 動していることから、方向指示器 201に取り付けられたセンサにより、ユーザの運転動 作として「方向指示器を出す」が音声識別装置 100に既に取得されていると考えられ る。 [0062] ここで、音声識別装置 100が、この状況下における入力音声「踏切警報機音」の出 力形態を決定する場合、図 2 (b)に示した出力形態定義情報から、方向指示器を出 す前に比べて 2段階高い (変化量「 + 2」)出力形態が決定され、音声識別装置 100 は、図 2 (a)に示した出力処理方法定義情報から、音声識別結果を「10dBA」上げた 音量で出力することになる。なお、ユーザがその後「方向指示器を戻す」動作を行うと 、 2段階低い (変化量「- 2」)出力形態が決定されることによって、音量は方向指示器 を出す前と同じ大きさに戻る。
[0063] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場 合には、車室内のオーディオ音量を下げて、音声識別装置 100は、オーディオ音量 よりも大き! ヽ音量で音声識別結果を再生出力するようにしてもょ ヽ。
[0064] このように、ユーザの動作状況によって変化する状況に応じて入力音声に関する識 別結果をユーザに伝達する重要度が高 、と判定される場合 (この具体例にっ 、て言 えば、方向指示器を出して力 戻すまでの、ユーザによる踏切の視認が困難であるこ とが予想される期間)には、音声識別結果出力の音量を大きくすることで、ユーザに、 重要な情報を知らせることができるようになる。
[0065] 以上のような音声識別装置 100の動作により、ユーザが方向指示器を出して力も戻 すまでの間、 ユーザによる踏切の視認が遅れて踏切へ進入してしまう事故を防止す るという目的から、「踏切警報機音」をユーザに提示する重要度が高いと考えられるの で、高 、重要度を反映した大きな数値の出力形態を用いて大きな音量で音声識別 結果を再生出力することができる。
[0066] また、ユーザがハンドブレーキを引いてから戻すまでの間、このような事故の可能性 が低 、ことから重要度が低 、と考えられるので、低 、重要度を反映した小さな数値の 出力形態を用いて小さな音量で音声識別結果を再生出力することができる。
[0067] また、例えば、照合部 104で、入力音声が、「バイクのエンジン音」に最も類似して いるという判定がなされた場合は、以下のような処理を行なうこととなる。
[0068] ユーザ動作取得部 108で、「方向指示器を出す」動作が検出されてから「方向指示 器を戻す」動作が検出されるまでの期間 (つまり、運転状況が「右左折中」と考えられ る場合)、出力形態決定部 106は、該入力音声の出力形態を 2段階高く決定する。そ して、音声識別結果出力処理部 110は、その決定に応じて、入力音声に関する識別 結果の再生出力のための音量を「10dBA」上げる設定処理を行ない、音声記憶部 1 03に記憶された入力音声を音声識別結果出力として、その設定された音量で再生 出力する。
[0069] 一方、照合部 104で同じ「バイクのエンジン音」と判定されても、「ハンドブレーキを 引く」動作が検出されて力も「ハンドブレーキを戻す」動作が検出されるまでの期間( つまり、運転状況が「停車中」と考えられる場合)、出力形態決定部 106は、該入力音 声の出力形態を 1段階低く決定する。そして、音声識別結果出力処理部 110は、そ の決定に応じて、入力音声に関する識別結果の再生出力のための音量を「5dBA」 下げる設定処理を行ない、音声記憶部 103に記憶された入力音声を音声識別結果 出力として、その設定された音量で再生出力する。
[0070] 以上のような音声識別装置 100の動作により、運転中のユーザに対し、「バイクのェ ンジン音」を、運転状況が「右左折中」時であれば、左折時の巻込み事故や右折時 の出会い頭の事故を防止するという目的から重要度が高いと考えられるので、大きな 音量で再生出力し、「停車中」時であれば、このような事故の可能性は低く重要度が 低いと考えられるので、小さな音量で再生出力する。
[0071] このように、音声識別装置 100によれば、ユーザの動作によって変化する状況に応 じて想定される重要度を反映した出力形態で、音声識別結果を出力することが可能 となる。
[0072] (実施の形態 1に係る変形例)
次に、本実施の形態 1に係る音声識別装置 100の一つの変形例として、さらに、入 力音声の到来方向を加味して決定される出力形態で、音声の識別結果をユーザに 提示する音声識別装置について説明する。この変形例に係る音声識別装置は、入 力音声の到来方向とユーザの運転動作に応じて決定される出力形態で、ユーザで ある運転者に入力音声に関する識別結果を知らせることができる。
[0073] このように、音声の到来方向も加味する場合について、以下に詳しく説明する。 図 1に示す音源状態情報取得部 109は、音声入力部 101から入力される音声の音源 状態、すなわち、その音声の到来方向を検知して出力形態決定部 106に出力するも のであり、例えば、複数のマイクロフォン素子から構成されるマイクロフォンアレーによ つて実現される。
[0074] 音声の到来方向の検知機能を有する音源状態情報取得部 109が、音源方向検出 手段の一例である。
[0075] 図 5 (a)は、出力処理方法定義情報格納部 111に格納されている出力処理方法定 義情報の一例を示す図であり、図 2 (a)と同様に、出力処理方法定義情報では、 5種 類の出力形態それぞれに応じた音量で入力音声を再生して、それを識別結果として 出力することが定義されている。ここに例示する出力形態は、 1から 5までの数値で表 され、この数値の大きさはユーザに提示すべき識別結果の重要度の高さを反映して いる。
[0076] 図 5 (b)は、出力形態定義情報格納部 107に格納されている出力形態定義情報の 一例を示す図である。図 2 (b)で例示した出力形態定義情報が、ユーザの動作に応 じた出力形態の変化量を定義するのに対して、ここで例示する出力形態定義情報は 、入力音声の種別である「踏切警報機音」、「消防車サイレン」、「クラクション」、「バイ クのエンジン音」、「自動車エンジン音」のそれぞれについて、ユーザ状況および音声 到来方向に対応した出力形態そのものを定義するように変更されて 、る。
[0077] ここで、ユーザ状況とは、ユーザの動作によって変化する状況を広く指しており、例 えば「運転状況」はその一例である。この「運転状況」は、前述した「ノ、ンドブレーキを 引く」動作によって「停車中」となり、「ハンドブレーキを戻す」動作によって「走行可」と なる。
[0078] このようなユーザ状況は、例えば、出力形態決定部 106において、図示しないレジ スタゃ RAM等を用いて格納され、ユーザ動作取得部 108から得られるユーザ動作 に関する情報に応じて更新されるとしてもよい。また、ユーザ動作取得部 108自身が 、このようなユーザ状況を管理し、最新のユーザ状況を出力形態決定部 106へ出力 することち考免られる。
[0079] 図 5 (c)は、出力形態決定部 106に格納されているユーザ状況の一例を示す図で ある。ここでは、前述した「運転状況」が「走行可」となっている例を示している。
[0080] 出力形態決定部 106は、この「運転状況」を、ユーザ動作取得部 108から「ハンドブ レーキを引く」動作に関する情報が得られると「停車中」に変更し、「ハンドブレーキを 戻す」動作に関する情報が得られると「走行可」に変更する。
[0081] 図 5 (d)は、音源状態情報取得部 109で取得される音源状態の一例を示す図であ る。図 5 (d)に例示する、「前方」および「後方」などの音声到来方向は、自動車の前 後に備え付けられた複数のマイクロフォン素子力 構成されるマイクロフォンアレーに より特定することが可能である。ここでは、「前方」と「後方」のみを例示しているが、例 えば、「右方」、「左方」や、これらを組み合せて、「右前方」や「左後方」等の音声到来 方向を特定するとしてもよ 、。
[0082] そして、この変形例における出力形態決定部 106は、照合部 104から取得した識 別結果と、出力形態決定部 106に格納されているユーザ状況と、音源状態情報取得 部 109から得られる音声到来方向に関する情報と、出力形態定義情報格納部 107 に格納されている出力形態定義情報とに基づいて、識別結果の出力形態を決定す る。
[0083] このように構成される、音声到来方向を加味する場合の音声識別装置 100の動作 は、上記図 3に示したフローチャートとほぼ同様のものとなる力 以下の点で異なる。
[0084] 第 1〖こ、図 3〖こおけるステップ S108とステップ S110の間〖こ、出力形態決定部 106 力 音源状態情報取得部 109で得られる音声到来方向に関する情報を取得するス テツプ (不図示)が追加される点で異なる。
[0085] 第 2に、ステップ S110において、出力形態決定部 106は、出力形態を決定するに あたって、まず、ステップ S108で取得されたユーザ動作に関する情報に応じて運転 状況を更新し、そして、取得された音声到来方向、更新された運転状況、および、照 合部 104から取得した音声種別の判定結果に対応して出力形態定義情報格納部 1 07に格納されている出力形態を参照し、参照された出力形態を、識別結果をユーザ に提示するための出力形態として決定する点で異なる。
[0086] ここでは、具体的な例として、入力された車外周囲の音声が、「踏切警報機音」であ ると識別された場合を想定して説明する。
[0087] この場合において、出力形態決定部 106に格納されている運転状況が「走行可」で あり、かつ、音源状態情報取得部 109で、音声到来方向が「前方」であると特定され ると、出力形態決定部 106は、図 5 (b)に示した出力形態定義情報を参照することで 、識別結果の出力形態を「5」と決定する。
[0088] その後、音声識別結果出力処理部 110は、図 5 (a)に示した出力処理方法定義情 報を参照して、決定された出力形態に対応する出力処理方法を決定する。上記の例 では、決定された出力形態が「5」であるため、音声識別結果出力は、音声記憶部 10 3に格納されて 、る音声信号を「70dBA」で再生出力すると!/、う出力処理方法に決 定されること〖こなる。
[0089] 一方、ユーザ動作取得部 108で、出力形態決定部 106に格納されている運転状況 力 S「走行可」であり、かつ、音源状態情報取得部 109で、音声到来方向が「後方」であ ると特定されると、出力形態決定部 106は、図 5 (b)に示した出力形態定義情報を参 照することで、識別結果の出力形態を「1」と決定する。
[0090] その後、音声識別結果出力処理部 110は、図 5 (a)に示した出力処理方法定義情 報を参照して、決定された出力形態に対応する出力処理方法を決定する。この場合 では、決定された出力形態が「1」であるため、音声識別結果出力は、音声記憶部 10 3に格納されて 、る音声信号を「50dBA」で再生出力すると!/、う出力処理方法に決 定されること〖こなる。
[0091] このように、音声識別結果が、運転状況および音声の到来方向に依存して異なる 出力形態で出力される他の例を、図 6を用いて説明する。
[0092] 図 6 (a)には、音声識別装置 100が備え付けられた自動車 200が、踏切通過後に、 踏切の遮断機が下りて踏切警報機音が鳴って 、る様子が示されて 、る。
[0093] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が「後 方」から音声識別装置 100に入力されるとともに、運転状況が「走行可」であると考え られる。
[0094] 音声識別装置 100は、この状況下において入力音声「踏切警報機音」の出力形態 を、図 5 (b)に示した出力形態定義情報を参照して、走行可'後方に対応する「1」と 決定し、音声識別装置 100は、図 5 (a)に示した出力処理方法定義情報から、音声 識別結果を「50dBA」で出力することになる。
[0095] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場 合には、車室内のオーディオ音量を維持させたままで、音声識別装置 100は、ォー ディォ音量よりも小さ ヽ音量で音声識別結果を再生出力するようにしてもょ ヽ。
[0096] このように、ユーザの動作状況だけでなぐ音声の到来方向も加味し、入力音声を ユーザに伝達する重要度が低いと判定される場合には、音声識別結果出力の音量 を低減することで、ユーザは、音声識別結果の再生出力によって阻害されることなぐ カーオーディオの視聴を継続することができるようになる。
[0097] 一方、図 6 (b)には、踏切の遮断機が下りて踏切警報機音が鳴っており、音声識別 装置 100が備え付けられた自動車 200が、この踏切を視認することができない状態 で、踏切に向力つて道路を直進して 、る様子が示されて 、る。
[0098] すなわち、ここに示す条件下では、車外周囲の音声として、「踏切警報機音」が「前 方」から音声識別装置 100に入力されるとともに、運転状況が「走行可」であると考え られる。
[0099] 音声識別装置 100は、この状況下において入力音声「踏切警報機音」の出力形態 を、図 5 (b)に示した出力形態定義情報を参照して、走行可'前方に対応する「5」と 決定し、音声識別装置 100は、図 5 (a)に示した出力処理方法定義情報から、音声 識別結果を「70dBA」で出力することになる。
[0100] また、このとき、自動車 200の車室内でカーオーディオの再生が行なわれている場 合には、車室内のオーディオ音量を下げて、音声識別装置 100は、オーディオ音量 よりも大き!ヽ音量で音声識別結果を再生出力するようにしてもょ ヽ。
[0101] このように、ユーザの動作状況だけでなぐ音声の到来方向も加味し、入力音声を ユーザに伝達する重要度が高いと判定される場合には、音声識別結果出力の音量 を大きくすることで、ユーザに、重要な情報を知らせることができるようになる。
[0102] 以上のような音声識別装置 100の動作により、運転中のユーザに対し、「踏切警報 機音」を、「走行可」状態で踏切警報機音が前方力 聞こえれば重要度が高く大きな 音量で再生出力し、「走行可」状態で踏切警報機音が後方から聞こえれば比較的重 要度が低く小さな音量で再生出力することができ、運転状況および音源状態によつ て変化する重要度に応じた形態で、音声識別結果を出力することが可能となる。
[0103] また、例えば、照合部 104で、入力音声が「消防車サイレン」に最も類似していると V、う判定がなされた場合は、以下のような処理が行なわれる。
[0104] すなわち、ユーザ動作取得部 108で運転状況が「走行可」であると特定され、かつ 、音源状態情報取得部 109で、音声到来方向が「前方」であると特定された場合、出 力形態決定部 106は、出力形態を「5」と決定し、音声識別結果出力処理部 110は、 出力形態「5」に対応した出力処理方法として、音声記憶部 103に記憶された音声信 号が「70dBA」で再生出力されるように音量の設定処理を行ない、これを音識別結 果出力として、再生出力する。
[0105] 一方、照合部 104で、同じく「消防車サイレン」に最も類似していると判定されても、 運転状況が「停車中」であると特定され、音声到来方向が「後方」と特定された場合に は、出力形態決定部 106は、出力形態を「2」と決定し、音声識別結果出力処理部 1 10は、出力形態「2」に対応した出力処理方法として、音声記憶部 103に記憶された 音声信号が「55dBA」で再生出力されるように音量の設定処理を行ない、これを音 声識別結果として、再生出力する。
[0106] 以上のような音声識別装置 100の動作により、「消防車サイレン」を、「走行可」状態 で消防サイレン音が前方力 聞こえれば重要度が高く大きな音量で再生出力し、「停 車中」状態で消防サイレン音が後方力も聞こえれば比較的重要度が低く小さな音量 で再生出力することができ、ユーザの状況および音声到来方向によって変化する重 要度に応じた形態で、音声識別結果を出力することが可能となる。
[0107] このように、本実施の形態 1に係る音声識別装置 100によれば、照合部 104、出力 形態決定部 106、出力形態定義情報格納部 107、ユーザ動作取得部 108、音声識 別結果出力処理部 110および出力処理方法定義情報格納部 111を備える構成によ り、照合部 104で判定された音声種別に応じた出力形態を、出力形態決定部 106が ユーザの動作に依存して決定し、音声識別結果出力処理部 110が、決定された出 力形態に応じた処理を入力音声に施した後、音声識別結果として出力することが可 能となり、ユーザにとって重要な音声情報を、ユーザの動作に依存して変化する入力 音声情報の重要度に応じて確実に伝達することができる。
[0108] また、音源状態情報取得部 109を備える構成により、出力形態決定部 106は、音 声到来方向も加味して識別結果の出力形態を決定できるので、ユーザにとって重要 な音声情報を、ユーザの動作状況および音声到来方向に依存して変化する入力音 声情報の重要度に応じて確実に伝達することも可能となる。
[0109] なお、本実施の形態 1においては、音響モデル格納部 105に格納されている音響 モデルは、踏切警報音や消防車サイレンなど人工的に出力される音声に関して音声 種ごとに用意することを想定して説明したが、人の話し声や、動物や鳥の鳴き声等の ように、自然に発生する音声種ごとに用意することも可能である。
[0110] また、本実施の形態 1においては、音源状態情報取得部 109においてマイクロフォ ンアレーの利用により音声到来方向に関する情報を取得し、これを出力形態決定部 106における重要度判定に利用することを例に説明したが、入力音声信号の大きさ や継続時間、入力音声信号の発生頻度などを音源状態情報取得部 109にて取得し 、これらを出力形態決定部 106における判定に利用することも可能である。
[0111] また、本実施の形態 1においては、音声識別結果出力処理部 110における音声識 別結果の出力処理方法として、入力音声を重要度に応じた音の大きさに拡大または 縮小して音量を設定し、これを再生出力する例を説明したが、再生出力を重要度に 応じた回数だけ繰返し出力するとしてもよい。また、ユーザの着座する椅子などユー ザに接触する部位を、音声再生時に重要度に応じた強度で振動させる方法などを出 力方法として採用することも可能である。
[0112] さらに、本実施の形態 1においては、音声識別結果出力処理部 110における音声 識別結果の出力処理方法として、入力音声の再生をその方法例として説明したが、 音響モデルに対応した音声種別名を文字表示によって音識別結果として出力するこ とも可能である。このような文字表示とする場合、音声情報の重要度に応じて、表示 する文字の大きさ、明るさ、色などを変化させる処理を施して、音声識別結果を出力 することも可會である。
[0113] また、さらに、入力音声の重要度に応じて、音声識別結果の出力を、音声による出 力と、文字表示による出力とで使い分けるようにしてもよい。例えば、入力音声の重要 度が高い場合には、音声識別結果の出力を、音声による出力とし、入力音声の重要 度が低い場合には、文字表示による出力とするように、音声識別結果出力処理部 11 0で制御可能な構成とすることも可能である。 [0114] (実施の形態 2)
次に、本発明の実施の形態 2に係る音声識別装置について、図 8および図 9を用い て説明する。
[0115] 本実施の形態 2に係る音声識別装置は、携帯型ヘッドフォンステレオと一体化され ており、本装置を装着しているユーザの周囲環境の音声情報を識別し、ユーザが使 用中の携帯電話機やヘッドフォンステレオのスピーカ、あるいは、ヘッドフォンを通じ た音声再生出力によって、その識別結果をユーザに提示する装置である。ここでは、 ユーザが、携帯型ヘッドフォンステレオや携帯電話のイヤホンなど音響的な閉鎖性の 高い音響機器を装着しているため、周囲環境の音声を聞き取り難い状況で、路上、 駅構内、電車車輛内などを徒歩により移動中であり、ユーザの動作状況、具体的に は、ユーザの歩行状況に依存した重要度に応じて、識別結果の出力形態に処理を 施し、識別結果をユーザに知らせることを想定して 、る。
[0116] 本実施の形態 2に係る音声識別装置の構成および動作は、上記実施の形態 1に係 る音声識別装置 100の構成及び動作と略共通するが、音声識別結果をユーザに伝 達すべき重要性の度合いを意味する重要度を明示的に用いる点で異なる。以下で は、異なる点を中心に説明することとする。
[0117] 図 7は、本実施の形態 2に係る音声識別装置 100aの機能的な構成を示すブロック 図である。音声識別装置 100aは、音声識別装置 100 (図 1を参照)における出力形 態定義情報格納部 107及び出力形態決定部 106を、それぞれ重要度定義情報格 納部 207及び音声情報重要度判定部 206に置き換えて構成される。
[0118] ここで、音声情報重要度判定部 206は、重要度判定手段の一例である。
[0119] 本実施の形態 2に係る音声識別装置においては、路上、駅構内、電車車輛内など を移動中のユーザの周囲音声に関して、「自動車のクラクション」、「車輛進入を知ら せる駅ホームの警告音」、「駅到着を知らせる車輛内アナウンス音声」の 3種類の音声 種を想定しており、これらの音声種に対応して、実施の形態 1と同様の構成の音響モ デルが、音響モデル格納部に格納されている。
[0120] また、重要度定義情報格納部 207には、あら力じめ上記の音声種ごとに定められた 重要度の定義情報が格納されて 、る。 [0121] 図 8 (b)は、本実施の形態 2に係る音声識別装置の、重要度定義情報格納部 207 に格納される重要度定義情報の一例を示す図である。図 8 (b)に示すように、識別対 象である入力音声の種別として、「自動車のクラクション」、「車輛進入を知らせる駅ホ ームの警告音」、「駅到着を知らせる車輛内アナウンス音声」が示されており、それぞ れの音声種別ごとに、ユーザの歩行動作に対応した重要度が定義されている。
[0122] また、ユーザ動作取得部 108は、ユーザの動作を感知するセンサから構成され、ュ 一ザの動作に関する情報を取得して、音声情報重要度判定部 206に出力する。ュ 一ザ動作取得部 108は、実施の形態 1では「方向指示器を出す Z戻す」といった比 較的短時間で完了する動作を検出した力 本実施の形態 2においては、例えば「歩 行中 Z停止中」といった、より長い時間の幅を持った動作 (言うなればユーザの動作 状況)を検出する。
[0123] 図 8 (c)は、本実施の形態 2に係る音声識別装置の、ユーザ動作取得部で取得され るユーザの歩行状況の一例を示す図である。図 8 (c)に例示する、「歩行中」、「停止 中」などのユーザの歩行状況は、加速度センサを搭載した歩数計でユーザ動作取得 部を構成することにより、検出することが可能である。
[0124] さらに、出力処理方法定義情報格納部 111には、あらかじめ音声情報の重要度ご とに定められた出力処理方法の定義情報が格納されており、図 8 (a)に示すように、 重要度に応じた音量で、入力音声を再生して識別結果の出力を行なうことが定義さ れている。
[0125] そして、音声情報重要度判定部 206は、照合部 104から取得した判定結果と、ュ 一ザ動作取得部 108から得られるユーザ動作に関する情報と、重要度定義情報格 納部 207に格納されている重要度定義情報とに基づいて、入力音声の重要度を判 定し、その判定結果を音声識別結果出力処理部 110へ出力する。また、音声識別結 果出力処理部 110は、音声情報重要度判定部 206から取得した音声情報の重要度 と、出力処理方法定義情報格納部 111に格納されている、重要度ごとに定められた 出力処理方法の定義情報とに基づいて、音声記憶部 103に記憶されている音声信 号に、いかなる音響的処理を施すかを決定し、決定された処理を施した音声信号を 、音声識別結果出力として再生出力する。 [0126] ここでは、具体的な例として、本実施の形態 2に係る音声識別装置の照合部 104に おいて、入力されたユーザ周囲の音声が、「自動車のクラクション」に最も類似してい るという判定がなされた場合を想定して説明する。
[0127] この場合において、ユーザ動作取得部 108で、ユーザの歩行状況が「停止中」であ ると特定されると、音声情報重要度判定部 206は、図 8 (b)に示した重要度定義情報 を参照することで、入力音声の重要度を、「2」と判定する。
[0128] その後、音声識別結果出力処理部 110は、図 8 (a)に示した出力処理方法定義情 報を参照して、受け取った重要度の判定結果に対応する出力処理方法を決定する。 上記の例では、重要度が「2」であるため、音声識別結果出力は、音声記憶部 103に 格納されて 、る音声信号を「55dBA」で再生出力すると!/、う出力処理方法に決定さ れること〖こなる。
[0129] 一方、ユーザ動作取得部 108で、ユーザの歩行状況力 ^歩行中」であると特定され た場合、音声情報重要度判定部 206は、図 8 (b)に示した重要度定義情報を参照す ることで、入力音声の重要度を、「5」と判定する。
[0130] その後、音声識別結果出力処理部 110は、図 8 (a)に示した出力処理方法定義情 報を参照して、受け取った重要度の判定結果に対応する出力処理方法を決定する。 この場合では、重要度が「5」であるため、音声識別結果出力は、音声記憶部に格納 されて 、る音声信号を「70dBA」で再生出力すると!/、う出力処理方法に決定されるこ とになる。
[0131] このように、ユーザの歩行状況に依存して変化する重要度に応じて、音声識別結果 の出力が変わることを、図 9を用いて説明する。
[0132] 図 9 (a)には、本実施の形態 2に係る音声識別装置 100aを装着したユーザが、横 断歩道のある交差点で立ち止まっており、その交差点に自動車 300がクラクションを 鳴らしながら進入して 、る様子が示されて 、る。
[0133] すなわち、ここに示す条件下では、ユーザ周囲の音声として、「自動車のクラクショ ン」が音声識別装置 1 OOaに入力されるとともに、ユーザの歩行状況として「停止中」 が音声識別装置 100aに取得されると考えられる。
[0134] ここで、音声識別装置 100aが、この状況下における入力音声「自動車のクラクショ ン」の重要度を判定すると、図 8 (b)に示した重要度定義情報から、入力音声の重要 度は低い(重要度「2」)という判定結果が得られ、音声識別装置 100aは、図 8 (a)に 示した出力処理方法定義情報から、音声識別結果を「55dBA」で出力することにな る。
[0135] また、このとき、音声識別装置 100aは、一体ィ匕されている携帯型ヘッドフォンステレ ォのオーディオの再生音量を維持させたままで、オーディオ音量よりも小さ!/、音量で 音声識別結果を再生出力するようにしてもょ ヽ。
[0136] このように、ユーザの歩行状況を考慮して、入力音声の重要度が低 、と判定される 場合には、音声識別結果出力の音量を抑えることにより、ユーザは、不要な周囲音 声情報に妨げられずに、オーディオを聞くことが可能となる。
[0137] 一方、図 9 (b)には、本実施の形態 2に係る音声識別装置 100aを装着したユーザ 力 横断歩道を渡っているところに、交差点に自動車 300がクラクションを鳴らしなが ら左折しょうとして 、る様子が示されて 、る。
[0138] すなわち、ここに示す条件下では、ユーザ周囲の音声として、「自動車のクラクショ ン」が音声識別装置 100aに入力されるとともに、ユーザの歩行状況として「歩行中」 が音声識別装置 100aに取得されると考えられる。
[0139] ここで、音声識別装置 100aが、この状況下における入力音声「自動車のクラクショ ン」の重要度を判定すると、図 8 (b)に示した重要度定義情報から、入力音声の重要 度は高い(重要度「5」)という判定結果が得られ、音声識別装置 100aは、図 8 (a)に 示した出力処理方法定義情報から、音声識別結果を「70dBA」で出力することにな る。
[0140] また、このとき、音声識別装置 100aは、一体ィ匕されている携帯型ヘッドフォンステレ ォのオーディオの再生音量を下げて、オーディオ音量よりも大き!/、音量で音声識別 結果を再生出力するようにしてもょ ヽ。
[0141] このように、ユーザの歩行状況を考慮して、入力音声の重要度が高 、と判定される 場合には、音声識別結果出力の音量を大きくすることで、ユーザに、重要な情報を知 らせることがでさるよう〖こなる。
[0142] 以上のような音声識別装置 100aの動作により、徒歩で移動中のユーザに対し、「 自動車のクラクション」を、歩行状況が「歩行中」時であれば、ユーザが自動車の接近 に気づかな 、で歩行を続けてしまうことで、自動車と接触してしまうことを防止すると いう目的から重要度が高いと考えられるので、大きな音量で音声識別結果を再生出 力することができ、歩行状況が「停止中」時であれば、このような事故の可能性が低い ことから重要度が低いと考えられるので、小さな音量で音声識別結果を再生出力す ることがでさる。
[0143] また、例えば、本実施の形態 2に係る音声識別装置の照合部 104において、入力 音声が「駅到着を知らせる車輛内アナウンス音声」に最も類似しているという判定がな された場合は、以下のような処理を行なうこととなる。
[0144] すなわち、ユーザ動作取得部で、歩行状況が「停止中」と特定された場合、ユーザ は電車に乗車中で、車両が駅へ到着したことに気づいていないと考えられるので、音 声情報重要度判定部 206は、入力音声の重要度は高い、すなわち、「5」であると判 定し、音声識別結果出力処理部は、重要度「5」に対応した出力処理方法として、音 声記憶部に記憶された音声信号が「70dBA」で再生出力されるように音量の設定処 理を行ない、これを音声識別結果出力として、再生出力する。
[0145] 一方、照合部 104で同じ「駅到着を知らせる車輛内アナウンス音声」と判定されても 、歩行状況が「歩行中」であれば、ユーザは既に駅への到着に気づいて降車のため に歩行していると考えられるので、音声情報重要度判定部は、該入力音声の重要度 は比較的低い、すなわち、「2」であると判定し、音声識別結果出力処理部は、重要 度「2」に対応した出力処理方法として、音声記憶部に記憶された音声信号を「55dB Ajに再生出力されるように音量の設定処理を行ない、これを音声識別結果出力とし て、再生出力する。
[0146] 以上のような音声識別装置の動作により、徒歩で移動中のユーザに対し、「駅到着 を知らせる車輛内アナウンス音声」を、歩行状況力 ^停止中」時であれば、乗り過ごし を防止するという目的から重要度が高いと考えられるので、大きな音量で再生出力す ることができ、歩行状況が「歩行中」であれば、乗り過ごす可能性が低いことから重要 度が低いと考えられるので、小さな音量で再生出力することができ、ユーザの歩行状 況によって変化する重要度に応じた識別結果出力形態で、音声識別結果を出力す ることが可能となる。
[0147] このように、本実施の形態 2に係る音声識別装置によっても、照合部 104、音声情 報重要度判定部 206、重要度定義情報格納部 207、ユーザ動作取得部 108、音声 識別結果出力処理部 110および出力処理方法定義情報格納部 111を備える構成 により、照合部 104で判定された類似判定結果に対して、音声情報重要度判定部 2 06で入力音声の重要度を判定し、その判定結果に基づいて、音声識別結果出力処 理部 110が、出力形態に応じた処理を入力音声に加えて、音声識別結果として出力 することが可能となり、ユーザにとって重要な音声情報を、ユーザの動作状況に依存 して変化する入力音声情報の重要度に応じて確実に伝達することができる。
[0148] なお、本実施の形態 2においては、歩数計等によって実現されるユーザ動作取得 部で、ユーザの歩行状況を取得し、その歩行状況に基づいて、音声情報重要度判 定部が音声情報重要度を判定する例を説明したが、携帯電話機のキー操作やへッ ドフォンステレオのボタン操作に関する情報から、ユーザの動作状況を特定すること も可能である。
[0149] また、本実施の形態 2においては、ユーザが使用中のヘッドフォンステレオや携帯 電話機と一体化された音声識別装置の構成を例に説明したが、これらの機器と一体 化されて!/、な 、、独立した構成によって実現することも可能である。
[0150] また、本実施の形態 2においても、実施の形態 1と同様に、音声到来方向を加味し た重要度定義情報を用いることによって、音声の到来方向に依存する重要度を反映 した出力形態を決定することは容易に可能である。
[0151] 以上、本発明に係る音声識別装置について各実施の形態に基づいて説明したが、 本発明は、これらの実施の形態に限定されるものではなぐその範囲を逸脱すること なく本発明の趣旨に沿って様々の変形または修正が可能であることはいうまでもない
[0152] 例えば、上記各実施の形態では、音声識別装置について、自動車の車内や携帯 型ヘッドフォンステレオなどの閉鎖性の高い空間における使用を想定して説明したが
、例えば、屋内のユーザを想定し、ユーザの呼吸動作を検知して、検知した呼吸動 作力 ユーザが就寝中と判断される時に、入力音声がガラス窓を破損するような不審 な物音であると判定された場合に、この音量を大きくして音声識別結果を再生出力 するという応用も可能である。
産業上の利用可能性
本発明に係る音声識別装置は、ユーザにとって重要な音声情報を、ユーザの動作 状況に依存して変化する重要度に応じて確実に伝達することができ、ユーザの安全 運転補助を目的とした車載用の安全補助装置、歩行中や電車などにより移動中のュ 一ザに周辺状況の情報を提供することを目的とした携帯電話機等の情報端末機器、 あるいは、本装置を備えたヘッドフォンステレオ等に適用することができる。さらには、 防犯、事故防止などを目的として、家庭やオフィスなどに備え付けられるセキュリティ 機器等としても有用である。

Claims

請求の範囲
[1] 入力音声を識別して識別結果をユーザに提示する音声識別装置であって、
前記入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する 音声種別判定手段と、
現在の状況を変化させるユーザの動作を検出するユーザ動作検出手段と、 前記音声種別判定手段によって判定された種別と、前記ユーザ動作検出手段によ つて検出された動作とに基づいて、前記識別結果をユーザに提示するための出力形 態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出力手段とを 備える
ことを特徴とする音声識別装置。
[2] 前記音声識別装置は、さらに、
前記音声信号を記憶する音声記憶手段を備え、
前記識別結果出力手段は、前記識別結果として、前記音声記憶手段に記憶されて いる音声信号を出力する
ことを特徴とする請求項 1記載の音声識別装置。
[3] 前記識別結果出力手段は、前記決定された出力形態に基づいた音響処理を前記 音声信号に施して、音響処理後の音声信号を出力する
ことを特徴とする請求項 2記載の音声識別装置。
[4] 前記音声識別装置は、さらに、
前記入力音声が到来する方向を検出する音源方向検出手段を備え、 前記識別結果出力手段は、さらに、前記音源方向検出手段によって検出された方 向を加味して、前記出力形態を決定する
ことを特徴とする請求項 1記載の音声識別装置。
[5] 前記音声識別装置は、さらに、
前記音声種別判定手段によって判定された種別と、前記ユーザ動作検出手段によ つて検出された動作とに基づいて、前記識別結果をユーザに伝達すべき重要性の 度合!、を意味する重要度を判定する重要度判定手段を備え、
前記識別結果出力手段は、前記重要度判定手段によって判定された重要度に応 じて前記出力形態を決定し、決定された出力形態で前記識別結果を出力する ことを特徴とする請求項 1記載の音声認識装置。
[6] 前記音声識別装置は、さらに、
前記入力音声の種別ごとの重要度を、前記ユーザの動作ごとに定義した重要度定 義情報を格納する重要度定義情報格納手段を備え、
前記重要度判定手段は、前記音声種別判定手段によって判定された種別と前記 ユーザ動作検出手段によって検出された動作とを、前記重要度定義情報と照合して 、前記重要度を判定する
ことを特徴とする請求項 5記載の音声識別装置。
[7] 前記音声識別装置は、さらに、
前記入力音声が到来する方向を検出する音源方向検出手段と、
前記入力音声の種別ごとの重要度を、前記ユーザの動作および前記入力音声が 到来する方向ごとに定義した重要度定義情報を格納する重要度定義情報格納手段 を備え、
前記重要度判定手段は、前記音声種別判定手段によって判定された種別、前記 ユーザ動作検出手段によって検出された動作、および、前記音源方向検出手段によ つて検出された方向を、前記重要度定義情報と照合して、前記重要度を判定する ことを特徴とする請求項 5記載の音声識別装置。
[8] 前記音声識別装置は、さらに、
前記識別結果の出力形態を、前記重要度ごとに定義した出力処理方法定義情報 を格納する出力処理方法定義情報格納手段を備え、
前記識別結果出力手段は、前記重要度判定手段によって判定された重要度を、前 記出力処理方法定義情報と照合して、前記出力形態を決定する
ことを特徴とする請求項 5記載の音声識別装置。
[9] 前記出力処理方法定義情報には、前記出力形態として、前記識別結果を音声出 力する場合における出力音量が定義されて ヽる
ことを特徴とする請求項 8記載の音声識別装置。
[10] 前記出力処理方法定義情報には、前記出力形態として、前記識別結果の出力回 数が定義されている
ことを特徴とする請求項 8記載の音声識別装置。
[11] 前記ユーザ動作検出手段は、自動車を運転するユーザの運転動作を検出する ことを特徴とする請求項 1記載の音声識別装置。
[12] 前記ユーザ動作検出手段は、歩行しているユーザの歩行動作を検出する
ことを特徴とする請求項 1記載の音声識別装置。
[13] 入力音声を識別して識別結果をユーザに提示する音声識別方法であって、
前記入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する 音声種別判定ステップと、
現在の状況を変化させるユーザの動作を検出するユーザ動作取得ステップと、 前記音声種別判定ステップにお!ヽて判定された種別と、前記ユーザ動作取得ステ ップにおいて検出された動作とに基づいて、前記識別結果をユーザに提示するため の出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出 力ステップとを含む
ことを特徴とする音声識別方法。
[14] 入力音声を識別して識別結果をユーザに提示する音声識別装置に用いられる、コ ンピュータ実行可能なプログラムであって、
前記入力音声を表す音声信号の特性を用いて、前記入力音声の種別を判定する 音声種別判定ステップと、
現在の状況を変化させるユーザの動作を検出するユーザ動作取得ステップと、 前記音声種別判定ステップにお!ヽて判定された種別と、前記ユーザ動作取得ステ ップにおいて検出された動作とに基づいて、前記識別結果をユーザに提示するため の出力形態を決定し、前記識別結果を、決定した出力形態で出力する識別結果出 力ステップとをコンピュータに実行させる
ことを特徴とするプログラム。
PCT/JP2005/010800 2004-07-23 2005-06-13 音声識別装置、音声識別方法、及びプログラム WO2006011310A1 (ja)

Priority Applications (2)

Application Number Priority Date Filing Date Title
US11/632,716 US7616128B2 (en) 2004-07-23 2005-06-13 Audio identifying device, audio identifying method, and program
JP2006528468A JP3913771B2 (ja) 2004-07-23 2005-06-13 音声識別装置、音声識別方法、及びプログラム

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2004215139 2004-07-23
JP2004-215139 2004-07-23

Publications (1)

Publication Number Publication Date
WO2006011310A1 true WO2006011310A1 (ja) 2006-02-02

Family

ID=35786064

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2005/010800 WO2006011310A1 (ja) 2004-07-23 2005-06-13 音声識別装置、音声識別方法、及びプログラム

Country Status (3)

Country Link
US (1) US7616128B2 (ja)
JP (1) JP3913771B2 (ja)
WO (1) WO2006011310A1 (ja)

Cited By (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007243493A (ja) * 2006-03-07 2007-09-20 Sanyo Electric Co Ltd 携帯機器
JP2008039856A (ja) * 2006-08-01 2008-02-21 Yamaha Corp 電子楽器システム
JP2009232104A (ja) * 2008-03-21 2009-10-08 Fujitsu Ltd 音量抑制システムおよび携帯端末装置
JP2010510690A (ja) * 2006-11-20 2010-04-02 パナソニック株式会社 音を検出するための装置および方法
JP2011170282A (ja) * 2010-02-22 2011-09-01 Toshiba Corp 再生装置および再生方法
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
JP2014066537A (ja) * 2012-09-25 2014-04-17 Zenrin Datacom Co Ltd 端末装置、経路案内方法およびコンピュータプログラム
CN107709079A (zh) * 2015-06-02 2018-02-16 凯莱汽车公司 在车辆中使用的用于检测外部事件的系统和方法
JP2018527857A (ja) * 2015-08-07 2018-09-20 シーラス ロジック インターナショナル セミコンダクター リミテッド 音響装置における再生管理のためのイベント検出
JP2018528485A (ja) * 2015-07-24 2018-09-27 オロサウンド 能動型雑音制御装置
CN110176231A (zh) * 2018-02-19 2019-08-27 株式会社东芝 音响输出系统、音响输出方法及存储介质
JP2020047128A (ja) * 2018-09-21 2020-03-26 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体
JP2020047130A (ja) * 2018-09-21 2020-03-26 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体
WO2022149360A1 (ja) * 2021-01-05 2022-07-14 菱洋エレクトロ株式会社 触覚刺激を与える身体装着具

Families Citing this family (32)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US20080140240A1 (en) * 2006-12-12 2008-06-12 White Robert Mccall Vehicular system for playing audio files
KR101138396B1 (ko) 2007-09-11 2012-04-26 삼성전자주식회사 Iptv 단말기에서 컨텐츠 재생 방법 및 장치
KR100930060B1 (ko) * 2008-01-09 2009-12-08 성균관대학교산학협력단 신호 검출 방법, 장치 및 그 방법을 실행하는 프로그램이기록된 기록매체
GB2466242B (en) 2008-12-15 2013-01-02 Audio Analytic Ltd Sound identification systems
US9286911B2 (en) * 2008-12-15 2016-03-15 Audio Analytic Ltd Sound identification systems
US9473859B2 (en) 2008-12-31 2016-10-18 Starkey Laboratories, Inc. Systems and methods of telecommunication for bilateral hearing instruments
US8879763B2 (en) * 2008-12-31 2014-11-04 Starkey Laboratories, Inc. Method and apparatus for detecting user activities from within a hearing assistance device using a vibration sensor
US8706276B2 (en) 2009-10-09 2014-04-22 The Trustees Of Columbia University In The City Of New York Systems, methods, and media for identifying matching audio
JP5499633B2 (ja) * 2009-10-28 2014-05-21 ソニー株式会社 再生装置、ヘッドホン及び再生方法
JP2012075039A (ja) * 2010-09-29 2012-04-12 Sony Corp 制御装置、および制御方法
US9384272B2 (en) * 2011-10-05 2016-07-05 The Trustees Of Columbia University In The City Of New York Methods, systems, and media for identifying similar songs using jumpcodes
DE102012016820A1 (de) * 2012-08-24 2014-04-10 GM Global Technology Operations, LLC (n.d. Ges. d. Staates Delaware) Fahrerassistenzsystem und Betriebsverfahren dafür
US9275136B1 (en) * 2013-12-03 2016-03-01 Google Inc. Method for siren detection based on audio samples
US9716939B2 (en) * 2014-01-06 2017-07-25 Harman International Industries, Inc. System and method for user controllable auditory environment customization
US9749762B2 (en) 2014-02-06 2017-08-29 OtoSense, Inc. Facilitating inferential sound recognition based on patterns of sound primitives
US9466316B2 (en) * 2014-02-06 2016-10-11 Otosense Inc. Device, method and system for instant real time neuro-compatible imaging of a signal
US10198697B2 (en) 2014-02-06 2019-02-05 Otosense Inc. Employing user input to facilitate inferential sound recognition based on patterns of sound primitives
US8874448B1 (en) * 2014-04-01 2014-10-28 Google Inc. Attention-based dynamic audio level adjustment
US10099636B2 (en) 2015-11-27 2018-10-16 Bragi GmbH System and method for determining a user role and user settings associated with a vehicle
US20170156000A1 (en) * 2015-11-27 2017-06-01 Bragi GmbH Vehicle with ear piece to provide audio safety
US10104460B2 (en) 2015-11-27 2018-10-16 Bragi GmbH Vehicle with interaction between entertainment systems and wearable devices
US9944295B2 (en) 2015-11-27 2018-04-17 Bragi GmbH Vehicle with wearable for identifying role of one or more users and adjustment of user settings
US10565834B2 (en) * 2016-03-09 2020-02-18 Hyundai Motor Company Apparatus and method for emergency rescue service
US10339933B2 (en) 2016-05-11 2019-07-02 International Business Machines Corporation Visualization of audio announcements using augmented reality
US10319228B2 (en) 2017-06-27 2019-06-11 Waymo Llc Detecting and responding to sirens
US11158310B2 (en) * 2018-05-01 2021-10-26 Dell Products, L.P. Intelligent assistance for handling usage modes
US10800409B2 (en) * 2018-09-04 2020-10-13 Caterpillar Paving Products Inc. Systems and methods for operating a mobile machine using detected sounds
US10789819B1 (en) * 2019-03-06 2020-09-29 Motorola Solutions, Inc. System and method for voice announcement over communication path in siren system
US20230347952A1 (en) * 2020-02-26 2023-11-02 Rowan University Mobile sensor-based railway crossing safety device
US11958505B2 (en) 2020-07-21 2024-04-16 Waymo Llc Identifying the position of a horn honk or other acoustical information using multiple autonomous vehicles
US11282382B1 (en) * 2020-12-22 2022-03-22 Waymo Llc Phase lock loop siren detection
US20230377459A1 (en) * 2022-05-19 2023-11-23 Alert The Mechanism LLC System and method for emergency vehicle detection and alerting

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182587A (ja) * 1993-12-21 1995-07-21 Honda Motor Co Ltd 電気車両用擬似音発生装置
JPH1090406A (ja) * 1996-09-13 1998-04-10 Omron Corp 警報装置
JPH10258688A (ja) * 1997-03-19 1998-09-29 Furukawa Electric Co Ltd:The 車載用音声出力システム
JP2002213985A (ja) * 2001-01-15 2002-07-31 Matsushita Electric Ind Co Ltd オーディオ装置とナビゲーション装置

Family Cites Families (14)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US4952931A (en) * 1987-01-27 1990-08-28 Serageldin Ahmedelhadi Y Signal adaptive processor
JP3163868B2 (ja) 1993-09-20 2001-05-08 富士通株式会社 音選択再生装置
JPH07327295A (ja) 1994-05-31 1995-12-12 Junji Baba サイレンや警報音が聞き取りやすくするための、音響機器用強制音量調節機
JP3779774B2 (ja) 1996-08-22 2006-05-31 富士通テン株式会社 ナビゲーション装置
JP3805923B2 (ja) * 1999-04-28 2006-08-09 本田技研工業株式会社 車両通信装置
JP4337130B2 (ja) 1999-06-10 2009-09-30 マツダ株式会社 運転装置の制御装置
US6404351B1 (en) * 2000-10-20 2002-06-11 Dennis Beinke Emergency vehicle warning system
JP2002344268A (ja) 2001-05-14 2002-11-29 Matsushita Electric Ind Co Ltd 音声再生装置
US6362749B1 (en) * 2001-06-18 2002-03-26 William E. Brill Emergency vehicle detection system
JP2003004521A (ja) 2001-06-27 2003-01-08 Kenwood Corp 車外音の識別装置
US6812854B1 (en) * 2001-11-05 2004-11-02 Luke Edwin Mirror mounted emergency vehicle alert system
US6859147B2 (en) * 2002-04-24 2005-02-22 Salvatore Buscemi System to warn of an approaching emergency vehicle
JP3855840B2 (ja) 2002-05-13 2006-12-13 株式会社デンソー 車載ナビゲーション装置
JP2004020817A (ja) 2002-06-14 2004-01-22 Nisca Corp 報知音変換装置

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JPH07182587A (ja) * 1993-12-21 1995-07-21 Honda Motor Co Ltd 電気車両用擬似音発生装置
JPH1090406A (ja) * 1996-09-13 1998-04-10 Omron Corp 警報装置
JPH10258688A (ja) * 1997-03-19 1998-09-29 Furukawa Electric Co Ltd:The 車載用音声出力システム
JP2002213985A (ja) * 2001-01-15 2002-07-31 Matsushita Electric Ind Co Ltd オーディオ装置とナビゲーション装置

Cited By (17)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2007243493A (ja) * 2006-03-07 2007-09-20 Sanyo Electric Co Ltd 携帯機器
JP2008039856A (ja) * 2006-08-01 2008-02-21 Yamaha Corp 電子楽器システム
JP2010510690A (ja) * 2006-11-20 2010-04-02 パナソニック株式会社 音を検出するための装置および方法
JP2009232104A (ja) * 2008-03-21 2009-10-08 Fujitsu Ltd 音量抑制システムおよび携帯端末装置
JP2011170282A (ja) * 2010-02-22 2011-09-01 Toshiba Corp 再生装置および再生方法
JP2012042465A (ja) * 2010-08-17 2012-03-01 Honda Motor Co Ltd 音源方向推定装置及び音源方向推定方法
JP2014066537A (ja) * 2012-09-25 2014-04-17 Zenrin Datacom Co Ltd 端末装置、経路案内方法およびコンピュータプログラム
CN107709079A (zh) * 2015-06-02 2018-02-16 凯莱汽车公司 在车辆中使用的用于检测外部事件的系统和方法
JP2018528485A (ja) * 2015-07-24 2018-09-27 オロサウンド 能動型雑音制御装置
JP2018527857A (ja) * 2015-08-07 2018-09-20 シーラス ロジック インターナショナル セミコンダクター リミテッド 音響装置における再生管理のためのイベント検出
US11621017B2 (en) 2015-08-07 2023-04-04 Cirrus Logic, Inc. Event detection for playback management in an audio device
CN110176231A (zh) * 2018-02-19 2019-08-27 株式会社东芝 音响输出系统、音响输出方法及存储介质
JP2019145944A (ja) * 2018-02-19 2019-08-29 株式会社東芝 音響出力システム、音響出力方法及びプログラム
JP7163035B2 (ja) 2018-02-19 2022-10-31 株式会社東芝 音響出力システム、音響出力方法及びプログラム
JP2020047128A (ja) * 2018-09-21 2020-03-26 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体
JP2020047130A (ja) * 2018-09-21 2020-03-26 パイオニア株式会社 情報処理装置、情報処理方法、情報処理プログラム、及び記憶媒体
WO2022149360A1 (ja) * 2021-01-05 2022-07-14 菱洋エレクトロ株式会社 触覚刺激を与える身体装着具

Also Published As

Publication number Publication date
JPWO2006011310A1 (ja) 2008-05-01
US20080001780A1 (en) 2008-01-03
JP3913771B2 (ja) 2007-05-09
US7616128B2 (en) 2009-11-10

Similar Documents

Publication Publication Date Title
JP3913771B2 (ja) 音声識別装置、音声識別方法、及びプログラム
JP6525175B2 (ja) 通信システムおよび通信装置
CN104658548B (zh) 用外部声音向车辆驾乘人员警告外部事件并掩蔽车内谈话
US7443284B2 (en) Method and system for sending events between vehicles
WO2012097150A1 (en) Automotive sound recognition system for enhanced situation awareness
CN110310618B (zh) 车辆行驶环境声音的处理方法、处理装置和车辆
CN104290653B (zh) 一种基于车载音响系统的声音提示及报警系统
JP2009290789A (ja) 緊急通報システム、緊急通報方法
WO2018163545A1 (ja) 情報処理装置、情報処理方法及び記録媒体
CN112995844A (zh) 声音播放方法和声音播放装置
JP3897946B2 (ja) 緊急情報送信システム
JP4883039B2 (ja) 緊急通報システム端末装置
JP4632974B2 (ja) 車載オーディオシステム
JP4080986B2 (ja) 音声通知装置
CN116783636A (zh) 舱内音频滤波
KR20220054504A (ko) 차량 및 그 제어방법
JP2005333599A (ja) 携帯端末の事故防止付加機能動作システム及び方法
JP2006144432A (ja) 報知装置及び報知方法
KR100341915B1 (ko) 긴급차량 인식용 오디오장치
JP6799615B2 (ja) 情報処理装置、外部音再生方法、およびプログラム
JPH07327295A (ja) サイレンや警報音が聞き取りやすくするための、音響機器用強制音量調節機
JP2002271863A (ja) 車載用電話装置
CN114734914A (zh) 车辆的警示提醒方法、装置、车辆及计算机可读存储介质
KR100815884B1 (ko) 이동 통신 장치의 사용자에게 경고하기 위한 방법 및시스템
CN114162042A (zh) 一种基于bp神经网络开发的自适应车用喇叭

Legal Events

Date Code Title Description
AK Designated states

Kind code of ref document: A1

Designated state(s): AE AG AL AM AT AU AZ BA BB BG BR BW BY BZ CA CH CN CO CR CU CZ DE DK DM DZ EC EE EG ES FI GB GD GE GH GM HR HU ID IL IN IS JP KE KG KM KP KR KZ LC LK LR LS LT LU LV MA MD MG MK MN MW MX MZ NA NG NI NO NZ OM PG PH PL PT RO RU SC SD SE SG SK SL SM SY TJ TM TN TR TT TZ UA UG US UZ VC VN YU ZA ZM ZW

AL Designated countries for regional patents

Kind code of ref document: A1

Designated state(s): GM KE LS MW MZ NA SD SL SZ TZ UG ZM ZW AM AZ BY KG KZ MD RU TJ TM AT BE BG CH CY CZ DE DK EE ES FI FR GB GR HU IE IS IT LT LU MC NL PL PT RO SE SI SK TR BF BJ CF CG CI CM GA GN GQ GW ML MR NE SN TD TG

DPEN Request for preliminary examination filed prior to expiration of 19th month from priority date (pct application filed from 20040101)
121 Ep: the epo has been informed by wipo that ep was designated in this application
WWE Wipo information: entry into national phase

Ref document number: 2006528468

Country of ref document: JP

WWE Wipo information: entry into national phase

Ref document number: 11632716

Country of ref document: US

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase
WWP Wipo information: published in national office

Ref document number: 11632716

Country of ref document: US