WO2023062817A1 - 音声認識装置、制御方法、プログラム及び記憶媒体 - Google Patents

音声認識装置、制御方法、プログラム及び記憶媒体 Download PDF

Info

Publication number
WO2023062817A1
WO2023062817A1 PCT/JP2021/038224 JP2021038224W WO2023062817A1 WO 2023062817 A1 WO2023062817 A1 WO 2023062817A1 JP 2021038224 W JP2021038224 W JP 2021038224W WO 2023062817 A1 WO2023062817 A1 WO 2023062817A1
Authority
WO
WIPO (PCT)
Prior art keywords
vehicle
control unit
driving situation
speech recognition
voice recognition
Prior art date
Application number
PCT/JP2021/038224
Other languages
English (en)
French (fr)
Inventor
敦博 山中
高志 飯澤
敬太 倉持
一聡 田中
洋子 阿久津
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Priority to PCT/JP2021/038224 priority Critical patent/WO2023062817A1/ja
Publication of WO2023062817A1 publication Critical patent/WO2023062817A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/28Constructional details of speech recognition systems

Definitions

  • the present invention relates to technology that can be used in speech recognition.
  • Patent Document 1 Conventionally known is a technique related to speech recognition that performs various processes according to the recognition result of the content of an utterance by a user.
  • technology related to voice recognition is used in a smart speaker as disclosed in Patent Document 1, for example.
  • the smart speaker disclosed in Patent Document 1 is in one of a standby state in which words other than the wake word are not recognized, and an operating state in which the user's request is recognized from the voice acquired by the microphone. set.
  • the smart speaker disclosed in Patent Literature 1 performs various processes according to a user's request, and then transitions from an operating state to a standby state.
  • Patent Document 1 the user needs to utter a wake word every time the smart speaker is switched from the standby state to the activated state.
  • Patent Document 1 the flow of conversation between the user and the smart speaker becomes unnatural, and the amount of speech by the user increases according to the number of wake word utterances. There is a problem that such a situation arises.
  • Patent Document 1 there is a problem corresponding to the above-mentioned problem that it may impose an unnecessary mental burden on the user who uses speech recognition.
  • the present invention has been made to solve the above problems, and its main purpose is to provide a speech recognition device that can reduce the mental burden on users who use speech recognition.
  • a claimed invention is a voice recognition device comprising: an information acquisition unit for acquiring driving situation information, which is information related to the driving situation of a vehicle; A voice recognition unit having an engine; and a control unit that activates the voice recognition engine when it is detected that the driving condition of the vehicle corresponds to a predetermined condition based on the driving condition information.
  • a control method that acquires driving situation information, which is information related to the driving situation of a vehicle, and determines that the driving situation of the vehicle corresponds to a predetermined situation based on the driving situation information.
  • driving situation information which is information related to the driving situation of a vehicle
  • the voice recognition engine for recognizing the utterance content of the passenger of the vehicle is activated.
  • the invention described in the claims is a program executed by a speech recognition device provided with a computer, an information acquisition unit for acquiring driving situation information that is information related to the driving situation of a vehicle, A voice recognition unit having a voice recognition engine for recognizing utterance content, and activating the voice recognition engine when it is detected that the driving situation of the vehicle corresponds to a predetermined situation based on the driving situation information.
  • the computer functions as a control unit for setting the state.
  • FIG. 1 is a diagram showing a configuration example of an audio output system according to an embodiment
  • FIG. 1 is a block diagram showing a schematic configuration of an audio output device
  • FIG. The figure which shows an example of schematic structure of a server apparatus. 4 is a flowchart for explaining processing performed in the server device;
  • a speech recognition device includes an information acquisition unit that acquires driving situation information that is information related to the driving situation of a vehicle, a voice recognition unit having a recognition engine; and a control unit that activates the voice recognition engine when it is detected that the driving situation of the vehicle corresponds to a predetermined situation based on the driving situation information.
  • the speech recognition device described above includes an information acquisition unit, a speech recognition unit, and a control unit.
  • the information acquisition unit acquires driving situation information, which is information related to the driving situation of the vehicle.
  • the speech recognition unit has a speech recognition engine for recognizing the contents of speech made by passengers of the vehicle.
  • the control unit activates the voice recognition engine when detecting that the driving condition of the vehicle corresponds to a predetermined condition based on the driving condition information. This makes it possible to reduce the mental burden on the user who uses speech recognition.
  • control unit when detecting that the driving situation of the vehicle corresponds to a prescribed situation, outputs a predetermined message set to activate the speech recognition engine. Even if a recognition result indicating recognition is not obtained, the speech recognition engine is activated.
  • control unit activates the speech recognition engine when detecting that the passenger is alone based on the driving situation information.
  • control unit recognizes, based on the driving situation information, that the line of sight or the face of the passenger is directed to a sound collector for acquiring the content of the speech of the passenger. If detected, the speech recognition engine is activated.
  • control unit detects that the power of the vehicle is turned on based on the driving situation information until a predetermined time elapses from when the power of the vehicle is turned on. , the speech recognition engine is activated.
  • control unit activates the speech recognition engine when detecting that the speech volume of the passenger exceeds a predetermined threshold based on the driving situation information. do.
  • the speech recognition engine when the control unit detects that a push-type speech is made by a speech output device provided in the vehicle based on the driving situation information, the speech is The speech recognition engine is activated during a period from immediately after the termination until a predetermined time elapses.
  • control unit further performs control to inform the passenger that the speech recognition engine is in an activated state.
  • the control method acquires driving situation information that is information related to the driving situation of the vehicle, and determines that the driving situation of the vehicle corresponds to a predetermined situation based on the driving situation information.
  • driving situation information that is information related to the driving situation of the vehicle
  • a voice recognition engine for recognizing the content of speech by the passenger of the vehicle is activated. This makes it possible to reduce the mental burden on the user who uses speech recognition.
  • a program executed by a speech recognition device provided with a computer includes an information acquisition unit that acquires driving situation information that is information related to the driving situation of a vehicle; and a voice recognition unit having a voice recognition engine for recognizing the voice recognition engine, and the voice recognition engine is activated when it is detected that the driving situation of the vehicle corresponds to a predetermined situation based on the driving situation information.
  • the computer functions as a control unit for By executing this program on a computer, the above speech recognition apparatus can be realized.
  • This program can be stored in a storage medium and used.
  • FIG. 1 is a diagram illustrating a configuration example of an audio output system according to an embodiment.
  • a voice output system 1 according to this embodiment includes a voice output device 100 and a server device 200 .
  • the audio output device 100 is mounted on the vehicle Ve.
  • the server device 200 communicates with a plurality of audio output devices 100 mounted on a plurality of vehicles Ve.
  • the voice output device 100 basically performs route search processing, route guidance processing, etc. for the user who is a passenger of the vehicle Ve. For example, when a destination or the like is input by the user, the voice output device 100 transmits an upload signal S1 including position information of the vehicle Ve and information on the designated destination to the server device 200 . Server device 200 calculates the route to the destination by referring to the map data, and transmits control signal S2 indicating the route to the destination to audio output device 100 . The voice output device 100 provides route guidance to the user by voice output based on the received control signal S2.
  • the voice output device 100 provides various types of information to the user through interaction with the user.
  • the audio output device 100 supplies the server device 200 with an upload signal S1 including information indicating the content or type of the information request and information about the running state of the vehicle Ve.
  • the server device 200 acquires and generates information requested by the user, and transmits it to the audio output device 100 as a control signal S2.
  • the audio output device 100 provides the received information to the user by audio output.
  • the voice output device 100 moves together with the vehicle Ve and performs route guidance mainly by voice so that the vehicle Ve travels along the guidance route.
  • route guidance based mainly on voice refers to route guidance in which the user can grasp information necessary for driving the vehicle Ve along the guidance route at least from only voice, and the voice output device 100 indicates the current position. It does not exclude the auxiliary display of a surrounding map or the like.
  • the voice output device 100 outputs at least various information related to driving, such as points on the route that require guidance (also referred to as “guidance points”), by voice.
  • the guidance point corresponds to, for example, an intersection at which the vehicle Ve turns right or left, or other passing points important for the vehicle Ve to travel along the guidance route.
  • the voice output device 100 provides voice guidance regarding guidance points such as, for example, the distance from the vehicle Ve to the next guidance point and the traveling direction at the guidance point.
  • the voice regarding the guidance for the guidance route is also referred to as "route voice guidance”.
  • the audio output device 100 is installed, for example, on the upper part of the windshield of the vehicle Ve or on the dashboard. Note that the audio output device 100 may be incorporated in the vehicle Ve.
  • FIG. 2 is a block diagram showing a schematic configuration of the audio output device 100.
  • the audio output device 100 mainly includes a communication unit 111, a storage unit 112, an input unit 113, a control unit 114, a sensor group 115, a display unit 116, a microphone 117, a speaker 118, and an exterior camera 119. , an in-vehicle camera 120 , and a light emitting unit 130 .
  • Each element in the audio output device 100 is interconnected via a bus line 110 .
  • the communication unit 111 performs data communication with the server device 200 under the control of the control unit 114 .
  • the communication unit 111 may receive, for example, map data for updating a map DB (DataBase) 4 to be described later from the server device 200 .
  • Map DB DataBase
  • the storage unit 112 is composed of various memories such as RAM (Random Access Memory), ROM (Read Only Memory), and non-volatile memory (including hard disk drive, flash memory, etc.).
  • the storage unit 112 stores a program for the audio output device 100 to execute predetermined processing.
  • the above programs may include an application program for providing route guidance by voice, an application program for playing back music, an application program for outputting content other than music (such as television), and the like.
  • Storage unit 112 is also used as a working memory for control unit 114 . Note that the program executed by the audio output device 100 may be stored in a storage medium other than the storage unit 12 .
  • the storage unit 112 also stores a map database (hereinafter, the database is referred to as "DB") 4. Various data required for route guidance are recorded in the map DB 4 .
  • the map DB 4 stores, for example, road data representing a road network by a combination of nodes and links, and facility data indicating facilities that are candidates for destinations, stop-off points, or landmarks.
  • the map DB 4 may be updated based on the map information received by the communication section 111 from the map management server under the control of the control section 114 .
  • the input unit 113 is a button, touch panel, remote controller, etc. for user operation.
  • the display unit 116 is a display or the like that displays based on the control of the control unit 114 .
  • the microphone 117 collects sounds inside the vehicle Ve, particularly the driver's utterances. In other words, the microphone 117 acquires the utterance content of the passenger of the vehicle Ve.
  • a speaker 118 outputs audio for route guidance to the driver or the like.
  • the sensor group 115 includes an external sensor 121 and an internal sensor 122 .
  • the external sensor 121 is, for example, one or more sensors for recognizing the surrounding environment of the vehicle Ve, such as a lidar, radar, ultrasonic sensor, infrared sensor, and sonar.
  • the internal sensor 122 is a sensor that performs positioning of the vehicle Ve, and is, for example, a GNSS (Global Navigation Satellite System) receiver, a gyro sensor, an IMU (Inertial Measurement Unit), a vehicle speed sensor, or a combination thereof.
  • GNSS Global Navigation Satellite System
  • IMU Inertial Measurement Unit
  • vehicle speed sensor or a combination thereof.
  • the sensor group 115 may have a sensor that allows the control unit 114 to directly or indirectly derive the position of the vehicle Ve from the output of the sensor group 115 (that is, by performing estimation processing).
  • the vehicle exterior camera 119 is a camera that captures the exterior of the vehicle Ve.
  • the exterior camera 119 may be only a front camera that captures the front of the vehicle, or may include a rear camera that captures the rear of the vehicle in addition to the front camera. good too.
  • the in-vehicle camera 120 is a camera for photographing the interior of the vehicle Ve, and is provided at a position capable of photographing at least the vicinity of the driver's seat.
  • the light emitting unit 130 has, for example, a light emitting element or a lighting device.
  • the light emitting unit 130 changes the light emitting state according to the control of the control unit 114, thereby notifying the passenger of the vehicle Ve whether the voice recognition engine 214a, which will be described later, is in a standby state or an activated state. configured to be able to
  • the control unit 114 includes a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), etc., and controls the audio output device 100 as a whole. For example, the control unit 114 estimates the position (including the traveling direction) of the vehicle Ve based on the outputs of one or more sensors in the sensor group 115 . Further, when a destination is specified by the input unit 113 or the microphone 117, the control unit 114 generates route information indicating a guidance route to the destination, Based on the positional information and the map DB 4, route guidance is provided. In this case, the control unit 114 causes the speaker 118 to output route voice guidance. Further, the control unit 114 controls the display unit 116 to display information about the music being played, video content, a map of the vicinity of the current position, or the like.
  • a CPU Central Processing Unit
  • GPU Graphics Processing Unit
  • control unit 114 is not limited to being implemented by program-based software, and may be implemented by any combination of hardware, firmware, and software. Also, the processing executed by the control unit 114 may be implemented using a user-programmable integrated circuit such as an FPGA (field-programmable gate array) or a microcomputer. In this case, this integrated circuit may be used to implement the program executed by the control unit 114 in this embodiment. Thus, the control unit 114 may be realized by hardware other than the processor.
  • FPGA field-programmable gate array
  • the configuration of the audio output device 100 shown in FIG. 2 is an example, and various changes may be made to the configuration shown in FIG.
  • the control unit 114 may receive information necessary for route guidance from the server device 200 via the communication unit 111 .
  • the audio output device 100 is electrically connected to an audio output unit configured separately from the audio output device 100, or by a known communication means, so as to output the audio. Audio may be output from the output unit.
  • the audio output unit may be a speaker provided in the vehicle Ve.
  • the audio output device 100 does not have to include the display section 116 .
  • the audio output device 100 does not need to perform display-related control at all. may be executed.
  • the audio output device 100 may acquire information output by sensors installed in the vehicle Ve based on a communication protocol such as CAN (Controller Area Network) from the vehicle Ve. .
  • CAN Controller Area Network
  • the voice output device 100 acquires driving situation information indicating the driving situation of the vehicle Ve based on the output of the sensor group 115 and transmits it to the server device 200 .
  • the driving situation information may include either an image captured by the in-vehicle camera 120 or information indicating the power state of the vehicle Ve.
  • the driving situation information includes, for example, an image captured by the camera outside the vehicle 119, the position of the vehicle Ve, the direction of the vehicle, traffic information around the position of the vehicle Ve (including speed regulation and traffic information, etc.), Information that can be obtained based on the function of each unit of the audio output device 100, such as the current time and destination, may be included.
  • the driving status information may also include information received from the server device 200 through the communication unit 111 .
  • the server device 200 generates route information indicating a guidance route that the vehicle Ve should travel based on the upload signal S1 including the destination and the like received from the voice output device 100 .
  • the server device 200 then generates a control signal S2 relating to information output in response to the user's information request based on the user's information request indicated by the upload signal S1 transmitted by the audio output device 100 and the running state of the vehicle Ve.
  • the server device 200 then transmits the generated control signal S ⁇ b>2 to the audio output device 100 .
  • the server device 200 generates content for providing information to the user of the vehicle Ve and for interacting with the user, and transmits the content to the audio output device 100 .
  • Dialogue with the user is basically a pull-type dialogue that starts with a question or inquiry from the user. However, interaction with the user may start with push-type content provision.
  • FIG. 3 is a diagram showing an example of a schematic configuration of the server device 200.
  • the server device 200 mainly has a communication section 211 , a storage section 212 and a control section 214 .
  • Each element in the server device 200 is interconnected via a bus line 210 .
  • the communication unit 211 performs data communication with an external device such as the audio output device 100 under the control of the control unit 214 .
  • the storage unit 212 is composed of various types of memory such as RAM, ROM, nonvolatile memory (including hard disk drive, flash memory, etc.). Storage unit 212 stores a program for server device 200 to execute a predetermined process. Moreover, the memory
  • the control unit 214 includes a CPU, GPU, etc., and controls the server device 200 as a whole. Further, the control unit 214 operates together with the audio output device 100 by executing a program stored in the storage unit 212, and executes route guidance processing, information provision processing, and the like for the user. For example, based on the upload signal S1 received from the audio output device 100 via the communication unit 211, the control unit 214 generates route information indicating a guidance route or a control signal S2 relating to information output in response to a user's information request. Then, the control unit 214 transmits the generated control signal S2 to the audio output device 100 through the communication unit 211 .
  • the control unit 214 has a voice recognition engine 214a for recognizing the utterance content of the passenger of the vehicle Ve based on the voice included in the driving situation information received from the voice output device 100 through the communication unit 211. Further, when the voice recognition engine 214a obtains a recognition result indicating that a wake word corresponding to a predetermined wording set for activating the voice recognition engine 214a is obtained, the control unit 214 activates the voice recognition engine 214a. from the standby state to the active state. Further, when the control unit 214 detects that the driving condition of the vehicle Ve corresponds to a predetermined condition based on the driving condition information received from the audio output device 100, the control unit 214 obtains a recognition result that the wake word has been recognized.
  • the speech recognition engine 214a is shifted from the standby state to the activated state.
  • the control unit 214 outputs a control signal for informing passengers of the vehicle Ve that the voice recognition engine 214a is in the activated state.
  • the control unit 214 responds to the recognition result of the utterance content of the passenger of the vehicle Ve based on the voice included in the driving situation information received from the voice output device 100. Perform various processing. Further, the control unit 214 performs processing according to the recognition result of the content of the utterance by the passenger of the vehicle Ve, and then shifts the voice recognition engine 214a from the activated state to the standby state.
  • the control unit 214 for example, based on the image captured by the in-vehicle camera 120 included in the driving situation information received from the audio output device 100, when it detects that there is only one passenger in the vehicle Ve, The recognition engine 214a is moved from the standby state to the activated state. In other words, the control unit 214 shifts the voice recognition engine 214a from the standby state to the activated state when it is estimated that communication will be performed only between the passenger and the voice output device 100 inside the vehicle Ve.
  • control unit 214 detects that the line of sight or face of the passenger of the vehicle Ve is directed to the microphone 117 based on the image captured by the in-vehicle camera 120 included in the driving situation information received from the audio output device 100.
  • the voice recognition engine 214a is shifted from the standby state to the active state.
  • the control unit 214 shifts the voice recognition engine 214a from the standby state to the active state when it is estimated that the passenger of the vehicle Ve is aware of the voice output device 100 .
  • the control unit 214 detects that the vehicle Ve is powered on.
  • the voice recognition engine 214a is activated during the period from when Ve is turned on until the predetermined time TA elapses.
  • the control unit 214 activates the voice recognition engine 214a during a period from immediately after the passenger of the vehicle Ve boarded the vehicle Ve to the elapse of a predetermined period of time.
  • the above-mentioned predetermined time TA may be set as one minute, for example.
  • control unit 214 detects that the speech volume of the passenger of the vehicle Ve exceeds a predetermined threshold based on the voice obtained by the microphone 117 included in the driving situation information received from the voice output device 100. In this case, the speech recognition engine 214a is shifted from the standby state to the activated state. In other words, the control unit 214 shifts the speech recognition engine 214a from the standby state to the active state when it is estimated that an utterance different from the utterance to a person is made.
  • the speech recognition engine 214a is activated during a period from immediately after the end of the speech until a predetermined time TB elapses.
  • the control unit 214 activates the voice recognition engine 214a during a period in which the passenger of the vehicle Ve is expected to hear back the content of the push-type utterance by the voice output device 100 .
  • the above-mentioned predetermined time TB may be set to 5 seconds, for example.
  • control unit 214 controls the voice output device 100 to perform a push-type utterance until the predetermined time TB elapses. 214a may be activated.
  • the control unit 214 When the voice recognition engine 214a is shifted from the standby state to the activation state, the control unit 214 notifies the passenger of the vehicle Ve by the light emission state of the light emitting unit 130 that the voice recognition engine 214a is in the activation state.
  • a control signal is transmitted to the audio output device 100 .
  • the control unit 114 of the audio output device 100 controls, for example, lighting or blinking the light emitting unit 130 based on the control signal received from the server device 200 .
  • the control unit 214 informs the passenger of the vehicle Ve by outputting voice from the speaker 118 that the voice recognition engine 214a is activated. to the audio output device 100.
  • the control unit 114 of the voice output device 100 Based on the control signal received from the server device 200, the control unit 114 of the voice output device 100 performs control for outputting a script such as "Voice recognition is available" from the speaker 118, for example.
  • FIG. 4 is a flow chart for explaining the processing performed in the server device.
  • control unit 114 of the voice output device 100 acquires driving situation information related to the current driving situation of the vehicle Ve and transmits it to the server device 200 .
  • the server device 200 acquires the driving situation information from the voice output device 100 (step S11).
  • control unit 214 determines whether the driving situation of the vehicle Ve corresponds to a predetermined situation based on the driving situation information obtained in step S11 (step S12).
  • control unit 214 determines that the driving condition of the vehicle Ve corresponds to the predetermined condition (step S12: YES), it shifts the voice recognition engine 214a from the standby state to the activated state (step S14).
  • control unit 214 determines whether or not the voice recognition engine 214a has recognized the wake word (step S13). ).
  • step S13: YES When the voice recognition engine 214a recognizes the wake word (step S13: YES), the control unit 214 shifts the voice recognition engine 214a from the standby state to the activated state (step S14). If the voice recognition engine 214a does not recognize the wake word (step S13: NO), the control unit 214 ends the series of processes in FIG. 4 while keeping the voice recognition engine 214a in the standby state. .
  • control unit 214 When the voice recognition engine 214a is shifted from the standby state to the activated state in step S14, the control unit 214 outputs a control signal for informing passengers of the vehicle Ve that the voice recognition engine 214a is activated. It is transmitted to the output device 100 (step S15).
  • control unit 214 performs processing according to the result of recognizing the content of the speech made by the passenger of the vehicle Ve, based on the voice included in the driving situation information obtained while the voice recognition engine 214a is in the activated state. (step S16). After that, the control unit 214 shifts the voice recognition engine 214a from the active state to the standby state, and ends the series of processes in FIG.
  • the server device 200 functions as a speech recognition device
  • the control unit 214 functions as an information acquisition unit and a speech recognition unit.
  • the speech recognition engine when the driving situation of the vehicle Ve corresponds to a predetermined situation, the speech recognition engine is set to the activated state without uttering the wake word. can do. Therefore, according to the speech recognition apparatus according to the present embodiment, it is possible to reduce the mental burden on the user who uses speech recognition.
  • Non-transitory computer readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic storage media (e.g., floppy disks, magnetic tapes, hard disk drives), magneto-optical storage media (e.g., magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • audio output device 200 server device 111, 211 communication unit 112, 212 storage unit 113 input unit 114, 214 control unit 115 sensor group 116 display unit 117 microphone 118 speaker 119 exterior camera 120 interior camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Navigation (AREA)

Abstract

音声認識装置は、情報取得部と、音声認識部と、制御部と、を備える。情報取得部は、車両の運転状況に係る情報である運転状況情報を取得する。音声認識部は、車両の搭乗者による発話内容を認識するための音声認識エンジンを有する。制御部は、運転状況情報に基づき、車両の運転状況が所定の状況に該当することを検知した場合に、音声認識エンジンを起動状態とする。

Description

音声認識装置、制御方法、プログラム及び記憶媒体
 本発明は、音声認識において利用可能な技術に関する。
 ユーザによる発話内容の認識結果に応じた様々な処理を行う音声認識に係る技術が従来知られている。また、音声認識に係る技術は、例えば、特許文献1に開示されているようなスマートスピーカにおいて利用されている。
 特許文献1に開示されているスマートスピーカは、ウェイクワード以外の文言を認識しない待機状態と、マイクにより取得された音声からユーザの要求内容を認識する動作状態と、のうちのいずれかの状態に設定される。また、特許文献1に開示されているスマートスピーカは、ユーザの要求に応じて種々の処理を行った後、動作状態から待機状態へ遷移する。
特開2020-112672号公報
 ここで、特許文献1に開示されている技術によれば、スマートスピーカを待機状態から起動状態に移行させる毎に、ユーザによるウェイクワードの発声が必要となる。
 そのため、特許文献1に開示されている技術によれば、ユーザとスマートスピーカとの間における会話の流れが不自然になるとともに、当該ユーザの発話量がウェイクワードの発声回数に応じて増加するような状況が生じてしまう、という問題点がある。
 すなわち、特許文献1に開示されている技術によれば、音声認識を利用するユーザに対して無用な精神的負担を課してしまう場合がある、という上記の問題点に応じた課題が生じている。
 本発明は、上記の課題を解決するためになされたものであり、音声認識を利用するユーザの精神的負担を軽減することが可能な音声認識装置を提供することを主な目的とする。
 請求項に記載の発明は、音声認識装置であって、車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、を備える。
 また、請求項に記載の発明は、制御方法であって、車両の運転状況に係る情報である運転状況情報を取得し、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする。
 また、請求項に記載の発明は、コンピュータを備える音声認識装置により実行されるプログラムであって、車両の運転状況に係る情報である運転状況情報を取得する情報取得部、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させる。
実施例に係る音声出力システムの構成例を示す図。 音声出力装置の概略構成を示すブロック図。 サーバ装置の概略構成の一例を示す図。 サーバ装置において行われる処理を説明するためのフローチャート。
 本発明の1つの好適な実施形態では、音声認識装置は、車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、を備える。
 上記の音声認識装置は、情報取得部と、音声認識部と、制御部と、を備える。情報取得部は、車両の運転状況に係る情報である運転状況情報を取得する。音声認識部は、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する。制御部は、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする。これにより、音声認識を利用するユーザの精神的負担を軽減することができる。
 上記の音声認識装置の一態様では、前記制御部は、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動させるために設定された所定の文言を認識したとの認識結果が得られずとも、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者が1人であることを検知した場合に、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者の視線または顔が前記搭乗者の発話内容を取得するための集音装置に向けられたことを検知した場合に、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記車両の電源が投入されたことを検知した場合に、前記車両の電源投入時から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、前記運転状況情報に基づき、前記車両に設けられた音声出力装置によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする。
 上記の音声認識装置の一態様では、前記制御部は、さらに、前記音声認識エンジンが起動状態になっていることを前記搭乗者に対して知らせるための制御を行う。
 本発明の他の実施形態では、制御方法は、車両の運転状況に係る情報である運転状況情報を取得し、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする。これにより、音声認識を利用するユーザの精神的負担を軽減することができる。
 本発明のさらに他の実施形態では、コンピュータを備える音声認識装置により実行されるプログラムは、車両の運転状況に係る情報である運転状況情報を取得する情報取得部、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させる。このプログラムをコンピュータで実行することにより、上記の音声認識装置を実現することができる。このプログラムは記憶媒体に記憶して使用することができる。
 以下、図面を参照して本発明の好適な実施例について説明する。
 [システム構成]
 (全体構成)
 図1は、実施例に係る音声出力システムの構成例を示す図である。本実施例に係る音声出力システム1は、音声出力装置100と、サーバ装置200とを有する。音声出力装置100は、車両Veに搭載される。サーバ装置200は、複数の車両Veに搭載された複数の音声出力装置100と通信する。
 音声出力装置100は、基本的に車両Veの搭乗者であるユーザに対して、経路探索処理や経路案内処理などを行う。例えば、音声出力装置100は、ユーザにより目的地等が入力されると、車両Veの位置情報や指定された目的地に関する情報などを含むアップロード信号S1をサーバ装置200に送信する。サーバ装置200は、地図データを参照して目的地までの経路を算出し、目的地までの経路を示す制御信号S2を音声出力装置100へ送信する。音声出力装置100は、受信した制御信号S2に基づいて、音声出力によりユーザに対する経路案内を行う。
 また、音声出力装置100は、ユーザとの対話により各種の情報をユーザに提供する。例えば、音声出力装置100は、ユーザが情報要求を行うと、その情報要求の内容又は種類を示す情報、及び、車両Veの走行状態に関する情報などを含むアップロード信号S1をサーバ装置200に供給する。サーバ装置200は、ユーザが要求する情報を取得、生成し、制御信号S2として音声出力装置100へ送信する。音声出力装置100は、受信した情報を、音声出力によりユーザに提供する。
 (音声出力装置)
 音声出力装置100は、車両Veと共に移動し、案内経路に沿って車両Veが走行するように、音声を主とした経路案内を行う。なお、「音声を主とした経路案内」は、案内経路に沿って車両Veを運転するために必要な情報をユーザが少なくとも音声のみから把握可能な経路案内を指し、音声出力装置100が現在位置周辺の地図などを補助的に表示することを除外するものではない。本実施例では、音声出力装置100は、少なくとも、案内が必要な経路上の地点(「案内地点」とも呼ぶ。)など、運転に係る様々な情報を音声により出力する。ここで、案内地点は、例えば車両Veの右左折を伴う交差点、その他、案内経路に沿って車両Veが走行するために重要な通過地点が該当する。音声出力装置100は、例えば、車両Veから次の案内地点までの距離、当該案内地点での進行方向などの案内地点に関する音声案内を行う。以後では、案内経路に対する案内に関する音声を「経路音声案内」とも呼ぶ。
 音声出力装置100は、例えば車両Veのフロントガラスの上部、又は、ダッシュボード上などに取り付けられる。なお、音声出力装置100は、車両Veに組み込まれてもよい。
 図2は、音声出力装置100の概略構成を示すブロック図である。音声出力装置100は、主に、通信部111と、記憶部112と、入力部113と、制御部114と、センサ群115と、表示部116と、マイク117と、スピーカ118と、車外カメラ119と、車内カメラ120と、発光部130と、を有する。音声出力装置100内の各要素は、バスライン110を介して相互に接続されている。
 通信部111は、制御部114の制御に基づき、サーバ装置200とのデータ通信を行う。通信部111は、例えば、後述する地図DB(DataBase)4を更新するための地図データをサーバ装置200から受信してもよい。
 記憶部112は、RAM(Random Access Memory)、ROM(Read Only Memory)、不揮発性メモリ(ハードディスクドライブ、フラッシュメモリなどを含む)などの各種のメモリにより構成される。記憶部112には、音声出力装置100が所定の処理を実行するためのプログラムが記憶される。上述のプログラムは、経路案内を音声により行うためのアプリケーションプログラム、音楽を再生するためのアプリケーションプログラム、音楽以外のコンテンツ(テレビ等)を出力するためのアプリケーションプログラムなどを含んでもよい。また、記憶部112は、制御部114の作業メモリとしても使用される。なお、音声出力装置100が実行するプログラムは、記憶部12以外の記憶媒体に記憶されてもよい。
 また、記憶部112は、地図データベース(以下、データベースを「DB」と記す。)4を記憶する。地図DB4には、経路案内に必要な種々のデータが記録されている。地図DB4は、例えば、道路網をノードとリンクの組合せにより表した道路データ、及び、目的地、立寄地、又はランドマークの候補となる施設を示す施設データなどを記憶している。地図DB4は、制御部114の制御に基づき、通信部111が地図管理サーバから受信する地図情報に基づき更新されてもよい。
 入力部113は、ユーザが操作するためのボタン、タッチパネル、リモートコントローラ等である。表示部116は、制御部114の制御に基づき表示を行うディスプレイ等である。マイク117は、車両Veの車内の音声、特に運転手の発話などを集音する。換言すると、マイク117は、車両Veの搭乗者の発話内容を取得する。スピーカ118は、運転手などに対して、経路案内のための音声を出力する。
 センサ群115は、外界センサ121と、内界センサ122とを含む。外界センサ121は、例えば、ライダ、レーダ、超音波センサ、赤外線センサ、ソナーなどの車両Veの周辺環境を認識するための1又は複数のセンサである。内界センサ122は、車両Veの測位を行うセンサであり、例えば、GNSS(Global Navigation Satellite System)受信機、ジャイロセンサ、IMU(Inertial Measurement Unit)、車速センサ、又はこれらの組合せである。なお、センサ群115は、制御部114がセンサ群115の出力から車両Veの位置を直接的に又は間接的に(即ち推定処理を行うことによって)導出可能なセンサを有していればよい。
 車外カメラ119は、車両Veの外部を撮影するカメラである。車外カメラ119は、車両の前方を撮影するフロントカメラのみでもよく、フロントカメラに加えて車両の後方を撮影するリアカメラを含んでもよく、車両Veの全周囲を撮影可能な全方位カメラであってもよい。一方、車内カメラ120は、車両Veの車内の様子を撮影するカメラであり、少なくとも運転席周辺を撮影可能な位置に設けられる。
 発光部130は、例えば、発光素子または照明装置を有している。また、発光部130は、制御部114の制御に応じて発光状態を変化させることにより、後述の音声認識エンジン214aが待機状態または起動状態のいずれであるかを車両Veの搭乗者に対して知らせることができるように構成されている。
 制御部114は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などを含み、音声出力装置100の全体を制御する。例えば、制御部114は、センサ群115の1又は複数のセンサの出力に基づき、車両Veの位置(進行方向の向きも含む)を推定する。また、制御部114は、入力部113又はマイク117により目的地が指定された場合に、当該目的地までの経路である案内経路を示す経路情報を生成し、当該経路情報と推定した車両Veの位置情報と地図DB4とに基づき、経路案内を行う。この場合、制御部114は、経路音声案内をスピーカ118から出力させる。また、制御部114は、表示部116を制御することで、再生中の音楽の情報、映像コンテンツ、又は現在位置周辺の地図などの表示を行う。
 なお、制御部114が実行する処理は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、制御部114が実行する処理は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、制御部114が本実施例において実行するプログラムを実現してもよい。このように、制御部114は、プロセッサ以外のハードウェアにより実現されてもよい。
 図2に示す音声出力装置100の構成は一例であり、図2に示す構成に対して種々の変更がなされてもよい。例えば、地図DB4を記憶部12が記憶する代わりに、制御部114が通信部111を介して経路案内に必要な情報をサーバ装置200から受信してもよい。他の例では、音声出力装置100は、スピーカ118を備える代わりに、音声出力装置100とは別体に構成された音声出力部と電気的に又は公知の通信手段によって接続することで、当該音声出力部から音声を出力させてもよい。この場合、音声出力部は、車両Veに備えられたスピーカであってもよい。さらに別の例では、音声出力装置100は、表示部116を備えなくともよい。この場合、音声出力装置100は、表示に関する制御を全く行わなくともよく、有線又は無線により、車両Ve等に備えられた表示部と電気的に接続することで、当該表示部に所定の表示を実行させてもよい。同様に、音声出力装置100は、センサ群115を備える代わりに、車両Veに備え付けられたセンサが出力する情報を、車両VeからCAN(Controller Area Network)などの通信プロトコルに基づき取得してもよい。
 音声出力装置100は、センサ群115の出力に基づいて車両Veの運転状況を示す運転状況情報を取得し、サーバ装置200へ送信する。
 運転状況情報には、マイク117により得られた音声が少なくとも含まれている。なお、運転状況情報には、車内カメラ120により撮影された画像、または、車両Veの電源状態を示す情報のいずれかが含まれていてもよい。また、運転状況情報には、例えば、車外カメラ119により撮影された画像、車両Veの位置、当該車両の方位、当該車両Veの位置の周辺の交通情報(速度規制及び渋滞情報等を含む)、現在時刻、目的地等のような、音声出力装置100の各部の機能に基づいて取得可能な情報が含まれていてもよい。また、運転状況情報には、通信部111を通じてサーバ装置200から受信した情報が含まれていてもよい。
 (サーバ装置)
 サーバ装置200は、音声出力装置100から受信する目的地等を含むアップロード信号S1に基づき、車両Veが走行すべき案内経路を示す経路情報を生成する。そして、サーバ装置200は、その後に音声出力装置100が送信するアップロード信号S1が示すユーザの情報要求及び車両Veの走行状態に基づき、ユーザの情報要求に対する情報出力に関する制御信号S2を生成する。そして、サーバ装置200は、生成した制御信号S2を、音声出力装置100に送信する。
 さらに、サーバ装置200は、車両Veのユーザに対する情報提供やユーザとの対話を行うためのコンテンツを生成し、音声出力装置100に送信する。ユーザとの対話は、基本的にユーザからの質問や問いかけから開始するプル型の対話である。但し、ユーザとの対話は、プッシュ型のコンテンツ提供から開始する場合もある。
 図3は、サーバ装置200の概略構成の一例を示す図である。サーバ装置200は、主に、通信部211と、記憶部212と、制御部214とを有する。サーバ装置200内の各要素は、バスライン210を介して相互に接続されている。
 通信部211は、制御部214の制御に基づき、音声出力装置100などの外部装置とのデータ通信を行う。記憶部212は、RAM、ROM、不揮発性メモリ(ハードディスクドライブ、フラッシュメモリなどを含む)などの各種のメモリにより構成される。記憶部212は、サーバ装置200が所定の処理を実行するためのプログラムが記憶される。また、記憶部212は、地図DB4を含んでいる。
 制御部214は、CPU、GPUなどを含み、サーバ装置200の全体を制御する。また、制御部214は、記憶部212に記憶されたプログラムを実行することで、音声出力装置100とともに動作し、ユーザに対する経路案内処理や情報提供処理などを実行する。例えば、制御部214は、音声出力装置100から通信部211を介して受信するアップロード信号S1に基づき、案内経路を示す経路情報、又は、ユーザの情報要求に対する情報出力に関する制御信号S2を生成する。そして、制御部214は、生成した制御信号S2を、通信部211により音声出力装置100に送信する。
 制御部214は、通信部211を通じて音声出力装置100から受信した運転状況情報に含まれる音声に基づき、車両Veの搭乗者による発話内容を認識するための音声認識エンジン214aを有している。また、制御部214は、音声認識エンジン214aを起動させるために設定された所定の文言に相当するウェイクワードを認識したとの認識結果が音声認識エンジン214aにより得られた場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。また、制御部214は、音声出力装置100から受信した運転状況情報に基づき、車両Veの運転状況が所定の状況に該当することを検知した場合に、ウェイクワードを認識したとの認識結果が得られずとも、音声認識エンジン214aを待機状態から起動状態に移行させる。また、制御部214は、音声認識エンジン214aが待機状態から起動状態に移行した際に、音声認識エンジン214aが起動状態であることを車両Veの搭乗者に知らせるための制御信号を音声出力装置100へ送信する。また、制御部214は、音声認識エンジン214aが起動状態である場合に、音声出力装置100から受信した運転状況情報に含まれる音声に基づき、車両Veの搭乗者による発話内容の認識結果に応じた様々な処理を行う。また、制御部214は、車両Veの搭乗者による発話内容の認識結果に応じた処理を行った後、音声認識エンジン214aを起動状態から待機状態に移行させる。
 [音声認識エンジンの起動に係る具体例]
 ここで、ウェイクワードの発声以外の方法で音声認識エンジン214aを待機状態から起動状態に移行させる場合の具体例について説明する。
 制御部214は、例えば、音声出力装置100から受信した運転状況情報に含まれる、車内カメラ120により撮影された画像に基づき、車両Veの搭乗者が1人であることを検知した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。換言すると、制御部214は、車両Veの車内において、搭乗者と音声出力装置100との間のみでコミュニケーションが行われると推定した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。
 制御部214は、例えば、音声出力装置100から受信した運転状況情報に含まれる、車内カメラ120により撮影された画像に基づき、車両Veの搭乗者の視線または顔がマイク117に向けられたことを検知した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。換言すると、制御部214は、車両Veの搭乗者が音声出力装置100を意識していると推定した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。
 制御部214は、例えば、音声出力装置100から受信した運転状況情報に含まれる、車両Veの電源状態を示す情報に基づき、当該車両Veの電源が投入されたことを検知した場合に、当該車両Veの電源投入時から所定時間TAが経過するまでの間において、音声認識エンジン214aを起動状態とする。換言すると、制御部214は、車両Veの搭乗者が当該車両Veに乗車した直後から所定時間が経過するまでの間において、音声認識エンジン214aを起動状態とする。なお、前述の所定時間TAは、例えば、1分間として設定されればよい。
 制御部214は、例えば、音声出力装置100から受信した運転状況情報に含まれる、マイク117により得られた音声に基づき、車両Veの搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。換言すると、制御部214は、人に対する発話とは異なる発話が行われたと推定した場合に、音声認識エンジン214aを待機状態から起動状態に移行させる。
 制御部214は、例えば、音声出力装置100から受信した運転状況情報に含まれる、マイク117により得られた音声に基づき、音声出力装置100によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間TBが経過するまでの間において、音声認識エンジン214aを起動状態とする。換言すると、制御部214は、車両Veの搭乗者が音声出力装置100によるプッシュ型の発話の内容を聞き返すと推定される期間において、音声認識エンジン214aを起動状態とする。なお、前述の所定時間TBは、例えば、5秒間として設定されればよい。
 本実施例によれば、制御部214は、例えば、プッシュ型の発話を行わせるための制御を音声出力装置100に対して行った直後から所定時間TBが経過するまでの間において、音声認識エンジン214aを起動状態とするようにしてもよい。
 制御部214は、音声認識エンジン214aを待機状態から起動状態に移行させた際に、音声認識エンジン214aが起動状態であることを、発光部130の発光状態により車両Veの搭乗者に知らせるための制御信号を音声出力装置100へ送信する。音声出力装置100の制御部114は、サーバ装置200から受信した制御信号に基づき、例えば、発光部130を点灯または点滅させるための制御を行う。
 または、制御部214は、音声認識エンジン214aを待機状態から起動状態に移行させた際に、音声認識エンジン214aが起動状態であることを、スピーカ118からの音声出力により車両Veの搭乗者に知らせるための制御信号を音声出力装置100へ送信する。音声出力装置100の制御部114は、サーバ装置200から受信した制御信号に基づき、例えば、「音声認識が使用可能です。」等のようなスクリプトをスピーカ118から音声出力させるための制御を行う。
 [処理フロー]
 図4は、サーバ装置において行われる処理を説明するためのフローチャートである。
 まず、音声出力装置100の制御部114は、車両Veの現在の運転状況に係る運転状況情報を取得し、サーバ装置200へ送信する。サーバ装置200は、音声出力装置100から、運転状況情報を取得する(ステップS11)。
 次に、制御部214は、ステップS11により得られた運転状況情報に基づき、車両Veの運転状況が所定の状況に該当するか否かを判定する(ステップS12)。
 制御部214は、車両Veの運転状況が所定の状況に該当すると判定した場合(ステップS12:YES)に、音声認識エンジン214aを待機状態から起動状態に移行させる(ステップS14)。
 一方、制御部214は、車両Veの運転状況が所定の状況に該当しないと判定した場合(ステップS12:NO)に、音声認識エンジン214aがウェイクワードを認識したか否かを判定する(ステップS13)。
 制御部214は、音声認識エンジン214aがウェイクワードを認識した場合(ステップS13:YES)に、音声認識エンジン214aを待機状態から起動状態に移行させる(ステップS14)。また、制御部214は、音声認識エンジン214aがウェイクワードを認識しなかった場合(ステップS13:NO)には、音声認識エンジン214aを待機状態に維持したまま、図4の一連の処理を終了する。
 制御部214は、ステップS14により音声認識エンジン214aを待機状態から起動状態に移行させた際に、音声認識エンジン214aが起動状態であることを車両Veの搭乗者に報知するための制御信号を音声出力装置100へ送信する(ステップS15)。
 そして、制御部214は、音声認識エンジン214aが起動状態になっている期間中に得られた運転状況情報に含まれる音声に基づき、車両Veの搭乗者による発話内容の認識結果に応じた処理を行う(ステップS16)。その後、制御部214は、音声認識エンジン214aを起動状態から待機状態へ移行させ、図4の一連の処理を終了する。
 本実施例によれば、サーバ装置200が音声認識装置としての機能を有し、制御部214が情報取得部及び音声認識部としての機能を有する。
 以上に述べたように、本実施例に係る音声認識装置によれば、車両Veの運転状況が所定の状況に該当する場合に、ウェイクワードを発声せずとも、音声認識エンジンを起動状態に設定することができる。そのため、本実施例に係る音声認識装置によれば、音声認識を利用するユーザの精神的負担を軽減することができる。
 なお、上述した実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータである制御部等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 100 音声出力装置
 200 サーバ装置
 111、211 通信部
 112、212 記憶部
 113 入力部
 114、214 制御部
 115 センサ群
 116 表示部
 117 マイク
 118 スピーカ
 119 車外カメラ
 120 車内カメラ

Claims (11)

  1.  車両の運転状況に係る情報である運転状況情報を取得する情報取得部と、
     前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部と、
     前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部と、
     を備える音声認識装置。
  2.  前記制御部は、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動させるために設定された所定の文言を認識したとの認識結果が得られずとも、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  3.  前記制御部は、前記運転状況情報に基づき、前記搭乗者が1人であることを検知した場合に、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  4.  前記制御部は、前記運転状況情報に基づき、前記搭乗者の視線または顔が前記搭乗者の発話内容を取得するための集音装置に向けられたことを検知した場合に、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  5.  前記制御部は、前記運転状況情報に基づき、前記車両の電源が投入されたことを検知した場合に、前記車両の電源投入時から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  6.  前記制御部は、前記運転状況情報に基づき、前記搭乗者の発話音量が所定の閾値を超えたことを検知した場合に、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  7.  前記制御部は、前記運転状況情報に基づき、前記車両に設けられた音声出力装置によりプッシュ型の発話が行われたことを検知した場合に、当該発話が終了した直後から所定時間が経過するまでの間において、前記音声認識エンジンを起動状態とする請求項1に記載の音声認識装置。
  8.  前記制御部は、さらに、前記音声認識エンジンが起動状態になっていることを前記搭乗者に対して知らせるための制御を行う請求項1乃至7のいずれか一項に記載の音声認識装置。
  9.  車両の運転状況に係る情報である運転状況情報を取得し、
     前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記車両の搭乗者による発話内容を認識するための音声認識エンジンを起動状態とする制御方法。
  10.  コンピュータを備える音声認識装置により実行されるプログラムであって、
     車両の運転状況に係る情報である運転状況情報を取得する情報取得部、
     前記車両の搭乗者による発話内容を認識するための音声認識エンジンを有する音声認識部、及び、
     前記運転状況情報に基づき、前記車両の運転状況が所定の状況に該当することを検知した場合に、前記音声認識エンジンを起動状態とする制御部として前記コンピュータを機能させるプログラム。
  11.  請求項10に記載のプログラムを記憶した記憶媒体。
PCT/JP2021/038224 2021-10-15 2021-10-15 音声認識装置、制御方法、プログラム及び記憶媒体 WO2023062817A1 (ja)

Priority Applications (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/038224 WO2023062817A1 (ja) 2021-10-15 2021-10-15 音声認識装置、制御方法、プログラム及び記憶媒体

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2021/038224 WO2023062817A1 (ja) 2021-10-15 2021-10-15 音声認識装置、制御方法、プログラム及び記憶媒体

Publications (1)

Publication Number Publication Date
WO2023062817A1 true WO2023062817A1 (ja) 2023-04-20

Family

ID=85988219

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/038224 WO2023062817A1 (ja) 2021-10-15 2021-10-15 音声認識装置、制御方法、プログラム及び記憶媒体

Country Status (1)

Country Link
WO (1) WO2023062817A1 (ja)

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131691A (ja) * 2001-10-23 2003-05-09 Fujitsu Ten Ltd 音声対話システム
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
WO2017081960A1 (ja) * 2015-11-09 2017-05-18 三菱自動車工業株式会社 音声認識制御システム
JP2020148805A (ja) * 2019-03-11 2020-09-17 オンキヨー株式会社 音声認識システム、及び、音声認識方法
JP2020190726A (ja) * 2020-06-23 2020-11-26 株式会社ユピテル システム及びプログラム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2003131691A (ja) * 2001-10-23 2003-05-09 Fujitsu Ten Ltd 音声対話システム
JP2009122598A (ja) * 2007-11-19 2009-06-04 Pioneer Electronic Corp 電子機器、電子機器の制御方法、音声認識装置、音声認識方法及び音声認識プログラム
WO2017081960A1 (ja) * 2015-11-09 2017-05-18 三菱自動車工業株式会社 音声認識制御システム
JP2020148805A (ja) * 2019-03-11 2020-09-17 オンキヨー株式会社 音声認識システム、及び、音声認識方法
JP2020190726A (ja) * 2020-06-23 2020-11-26 株式会社ユピテル システム及びプログラム

Similar Documents

Publication Publication Date Title
JP6515764B2 (ja) 対話装置及び対話方法
US11577742B2 (en) Methods and systems for increasing autonomous vehicle safety and flexibility using voice interaction
WO2017199610A1 (ja) 自動運転システム及び自動運転切替判定プログラム
JP4973722B2 (ja) 音声認識装置、音声認識方法、及びナビゲーション装置
US11190155B2 (en) Learning auxiliary feature preferences and controlling the auxiliary devices based thereon
JP6604151B2 (ja) 音声認識制御システム
JP2007200274A (ja) 合流支援装置及び合流支援システム
JP2008309966A (ja) 音声入力処理装置および音声入力処理方法
JP6627810B2 (ja) 運転モード切替制御装置、方法およびプログラム
US20230054224A1 (en) Information processing device, information processing method, and non-transitory computer readable storage medium
JP2020050204A (ja) 車両の走行制御方法及び走行制御装置
JP4900197B2 (ja) 経路導出装置、車両制御装置、及びナビゲーション装置
WO2023062817A1 (ja) 音声認識装置、制御方法、プログラム及び記憶媒体
JP2023105143A (ja) 情報処理装置、情報出力方法、プログラム及び記憶媒体
JP2023072001A (ja) 情報処理装置、制御方法、プログラム及び記憶媒体
JP2001202579A (ja) 緊急情報送信システム
WO2021192511A1 (ja) 情報処理装置、情報出力方法、プログラム及び記憶媒体
JP2009098217A (ja) 音声認識装置、音声認識装置を備えたナビゲーション装置、音声認識方法、音声認識プログラム、および記録媒体
WO2023163196A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023073856A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
WO2023162189A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023062816A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023112148A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
WO2023286826A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023112147A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21960673

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE