WO2022003822A1 - 情報処理装置及び情報処理方法 - Google Patents

情報処理装置及び情報処理方法 Download PDF

Info

Publication number
WO2022003822A1
WO2022003822A1 PCT/JP2020/025659 JP2020025659W WO2022003822A1 WO 2022003822 A1 WO2022003822 A1 WO 2022003822A1 JP 2020025659 W JP2020025659 W JP 2020025659W WO 2022003822 A1 WO2022003822 A1 WO 2022003822A1
Authority
WO
WIPO (PCT)
Prior art keywords
voice data
user
information processing
control
predetermined device
Prior art date
Application number
PCT/JP2020/025659
Other languages
English (en)
French (fr)
Inventor
親生 高杉
Original Assignee
日産自動車株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by 日産自動車株式会社 filed Critical 日産自動車株式会社
Priority to EP20942468.8A priority Critical patent/EP4174636A4/en
Priority to CN202080102506.7A priority patent/CN115720654A/zh
Priority to US18/003,765 priority patent/US20230290334A1/en
Priority to PCT/JP2020/025659 priority patent/WO2022003822A1/ja
Priority to JP2022532885A priority patent/JP7396490B2/ja
Publication of WO2022003822A1 publication Critical patent/WO2022003822A1/ja
Priority to JP2023201655A priority patent/JP2024026216A/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS TECHNIQUES OR SPEECH SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING TECHNIQUES; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F3/00Input arrangements for transferring data to be processed into a form capable of being handled by the computer; Output arrangements for transferring data from processing unit to output unit, e.g. interface arrangements
    • G06F3/16Sound input; Sound output
    • G06F3/167Audio in a user interface, e.g. using voice commands for navigating, audio feedback

Definitions

  • the present invention relates to an information processing apparatus and an information processing method.
  • Patent Document 1 an invention of controlling a device such as a remote controller by a user's voice has been known (Patent Document 1).
  • the invention described in Patent Document 1 recognizes a user's voice and displays a control content corresponding to a user's command on a remote controller. The user confirms the control content displayed on the remote controller, and the control is executed when the user approves the control content.
  • Patent Document 1 since the invention described in Patent Document 1 causes the user to confirm the control content and further request approval, there is a problem that it takes time until the control is actually executed.
  • the present invention has been made in view of the above problems, and an object thereof is an information processing apparatus and information processing in which control is stopped only when necessary and control is promptly and automatically executed unless a stop instruction is given. To provide a method.
  • the information processing apparatus recognizes the first voice data input to the voice data input device, and controls a predetermined device based on the result of recognizing the first voice data. After the data is output and the second voice data is notified, the predetermined device is controlled based on the recognized result, while the user data indicating that the control of the predetermined device is stopped while the second voice data is notified is generated. If it is input, the control of the specified device is stopped.
  • the control is stopped only when necessary, and the control is promptly and automatically executed unless the stop instruction is given.
  • FIG. 1 is a block diagram of an information processing apparatus 1 according to an embodiment of the present invention.
  • FIG. 2 is a sequence diagram illustrating an operation example of the information processing apparatus 1 according to the embodiment of the present invention.
  • FIG. 3 is a diagram illustrating a display example of the display 12.
  • FIG. 4 is a diagram showing that the voice recognition function has been activated.
  • FIG. 5 is a display example while the voice data for feedback is transmitted from the speaker 31.
  • FIG. 6 is a diagram illustrating an example of an operation performed by the user to stop the control by the controller 20.
  • FIG. 7 is a diagram illustrating another example of an operation performed by the user to stop the control by the controller 20.
  • FIG. 8 is a diagram illustrating another example of an operation performed by the user to stop the control by the controller 20.
  • FIG. 1 is a block diagram of an information processing apparatus 1 according to an embodiment of the present invention.
  • FIG. 2 is a sequence diagram illustrating an operation example of the information processing apparatus 1 according to the embodiment of the
  • FIG. 9 is a diagram illustrating another example of an operation performed by the user to stop the control by the controller 20.
  • FIG. 10 is a block diagram of the information processing apparatus 2 according to the modified example of the present invention.
  • FIG. 11 is a sequence diagram illustrating an operation example of the information processing apparatus 2 according to the modified example of the present invention.
  • FIG. 12 is a sequence diagram illustrating an operation example of the information processing apparatus 2 according to the modified example of the present invention.
  • the information processing device 1 is mounted on a vehicle as an example. As shown in FIG. 1, the information processing device 1 includes an input device 10, a controller 20, a database 30, and a speaker 31.
  • the input device 10 is a general term for devices that receive data from users in a vehicle. As shown in FIG. 1, the input device 10 includes a microphone 11, a touch panel 12, a switch 13, and a camera 14. The user's voice data is input to the microphone 11. The location of the microphone 11 is, for example, near the driver's seat.
  • the touch panel 12 accepts input by the user's touch operation.
  • the touch panel 12 is mainly used as a display of a navigation device.
  • the switch 13 is provided on the steering wheel and receives a user input (switch on).
  • the camera 14 is installed near the driver's seat, for example, and captures the posture, gesture, and the like of the user.
  • the data input to the input device 10 is transmitted to the controller 20.
  • the controller 20 is a general-purpose computer including a CPU (Central Processing Unit), a memory, a storage device, an input / output unit, and the like.
  • the controller 20 processes the data acquired from the input device 10. Specifically, the CPU reads various programs stored in the storage device into the memory and executes various instructions included in the programs. As a result, the controller 20 functions as a plurality of information processing circuits included in the information processing device 1.
  • the controller 20 includes a voice recognition unit 21, a voice output unit 22, a notification end determination unit 23, and a control signal transmission unit 24 as a plurality of information processing circuits.
  • the voice recognition unit 21 recognizes the user's voice data input to the microphone 11. Well-known techniques such as frequency analysis are used for speech recognition. The voice recognition unit 21 outputs the recognized result to the voice output unit 22.
  • the voice output unit 22 refers to the database 30 and acquires feedback voice data corresponding to the recognition result of the voice recognition unit 21.
  • the voice data for feedback prompts the user to confirm the control of the predetermined device to be performed from now on. For example, when the user's voice data is recognized as "open the driver's seat window", the corresponding feedback voice data is "open the driver's seat window”.
  • a plurality of voice data for feedback are prepared in advance and stored in the database 30.
  • the database 30 will be described as being stored in a storage device different from the storage device of the controller 20, but the database 30 is not limited to this.
  • the database 30 may be stored in the storage device of the controller 20.
  • the voice output unit 22 notifies the user of the voice data for feedback through the speaker 31.
  • the voice output unit 22 may generate feedback voice data each time based on the recognition result of the voice recognition unit 21. As a generation method, it may be programmed to generate voice data that returns a parrot to the voice data of the user.
  • the voice output unit 22 When the voice output unit 22 starts outputting the voice data for feedback, the voice output unit 22 transmits a signal indicating the start to the notification end determination unit 23. Further, when the output of the voice data for feedback is completed, the voice output unit 22 transmits a signal indicating the end to the notification end determination unit 23.
  • the signal indicating that the signal has started may be simply referred to as a start signal. Similarly, a signal indicating the end may be simply called an end signal.
  • the notification end determination unit 23 determines whether or not the notification by the voice output unit 22 has been completed. Specifically, when the notification end determination unit 23 receives the end signal after receiving the start signal from the voice output unit 22, it determines that the notification by the voice output unit 22 has ended. On the other hand, if the notification end determination unit 23 receives the start signal from the voice output unit 22 but does not receive the end signal thereafter, it determines that the notification by the voice output unit 22 has not ended. When the notification end determination unit 23 determines that the notification by the voice output unit 22 has ended, the notification end determination unit 23 transmits a signal indicating that the notification has ended to the control signal transmission unit 24.
  • the control signal transmission unit 24 When the control signal transmission unit 24 receives a signal from the notification end determination unit 23 indicating that the notification has ended, the control signal transmission unit 24 sets the predetermined device based on the user's instruction (voice data) obtained from the recognition result of the voice recognition unit 21. Control.
  • the predetermined device is a device mounted on a vehicle, and as shown in FIG. 1, a power window 32, an air conditioner 33, a sunroof 34, a sunshade 35, a power back door 36, a power trunk 37, a navigation device 38, an audio device 39, and the like. Is included.
  • the control signal transmission unit 24 transmits a signal for opening the window to the power window 32 of the driver's seat.
  • the power window 32 automatically opens the window based on the received signal.
  • the predetermined device may include a device that performs traveling control such as automatic driving.
  • step S101 shown in FIG. 2 the user in the vehicle activates the voice recognition function.
  • the voice recognition function is not always activated.
  • the voice recognition function is activated according to the user's instruction. An example of how to activate the voice recognition function will be described with reference to FIG.
  • the touch panel 12 displays the route guidance by the navigation device 38 during traveling.
  • An icon 50 indicating an utterance is displayed on the touch panel 12.
  • the switch 13 provided on the steering wheel may be provided with an activation trigger function, or the voice recognition function may be activated by recognizing a user's utterance regarding a predetermined keyword.
  • the display on the touch panel 12 switches to the content shown in FIG.
  • the icon 51, the icon 52, and the device capable of giving instructions by voice are displayed on the touch panel 12 after the voice recognition function is activated.
  • an air conditioner, a power window, a navigation device, and an audio device are displayed as devices that can be instructed by voice, but this is an example.
  • the icon 52 shown in FIG. 4 is an icon indicating that voice recognition is possible. After confirming that the icon 52 is displayed on the touch panel 12, the user inputs an instruction for operating the predetermined device by voice. That is, as shown in step S103 of FIG. 2, the user inputs voice data into the microphone 11. In FIG. 2, the user's instruction is "open the driver's seat window.”
  • step S105 the voice recognition unit 21 that has acquired the user's voice data recognizes the voice data.
  • step S107 the voice output unit 22 refers to the database 30 and acquires feedback voice data corresponding to the recognition result of the voice recognition unit 21. Since the user's instruction is recognized as "open the driver's seat window", "open the driver's seat window” is selected as the voice data for feedback.
  • the voice output unit 22 notifies the user of the voice data for feedback through the speaker 31.
  • the notification of the voice data for feedback is started, that is, when the output of the voice data for feedback is started from the speaker 31, the display of the touch panel 12 is switched to the content shown in FIG.
  • step S109 the notification end determination unit 23 determines whether or not the notification by the voice output unit 22 has been completed.
  • the notification end determination unit 23 receives the end signal after receiving the start signal from the voice output unit 22, it determines that the notification by the voice output unit 22 has ended.
  • the end of the notification by the voice output unit 22 means that the output of the voice data "Open the window of the driver's seat" is finished.
  • the notification end determination unit 23 determines that the notification by the voice output unit 22 has not ended. In other words, if the notification end determination unit 23 has received the start signal from the voice output unit 22 but has not received the end signal thereafter, it determines that the voice data for feedback has been notified from the speaker 31.
  • step S111 the notification end determination unit 23 transmits a signal indicating that the notification has ended to the control signal transmission unit 24.
  • the control signal transmission unit 24 transmits a control signal for opening the window to the power window 32 of the driver's seat.
  • step S113 the power window 32 that has received the control signal automatically opens the window (step S115).
  • step S109 if it is determined that the notification by the voice output unit 22 has not been completed (YES in step S109), the process proceeds to step S119.
  • step S119 when the controller 20 receives a signal indicating control cancellation from the user while the feedback voice data is being notified from the speaker 31 (YES in step S119), the controller 20 cancels the control of the predetermined device.
  • a signal indicating that control is stopped hereinafter, may be simply referred to as a stop signal
  • the stop signal is a signal transmitted to the controller 20 when the user performs a predetermined operation.
  • the user voicely instructs "Open the driver's seat window” the user receives feedback "Open the driver's seat window” through the speaker 31.
  • the user's voice instruction is accurately recognized, but the user's voice instruction may not be accurately recognized, for example, "Open the passenger seat window”. In such a case, control cancellation is assumed as a user's request.
  • the user can transmit the stop signal to the controller 20 by a plurality of methods while the feedback voice data is being notified from the speaker 31, and the control by the controller 20 can be stopped. ..
  • the controller 20 does not accept the stop signal. Therefore, in order to stop the control by the controller 20, the user needs to perform a predetermined operation while the feedback voice data is being notified from the speaker 31.
  • the period during which the voice data for feedback is notified from the speaker 31 is defined as the period from when the notification end determination unit 23 receives the start signal from the voice output unit 22 to when the end signal is received.
  • the user can stop the control by the controller 20 by touching the icon 51 displayed on the touch panel 12. Specifically, if the user touches the icon 51 while the feedback voice data is being notified from the speaker 31, a stop signal is transmitted to the controller 20. Upon receiving the stop signal, the controller 20 does not transmit a control signal for opening the window to the power window 32. As a result, the control by the controller 20 is stopped.
  • the icon 51 is a so-called return icon.
  • the user can stop the control by the controller 20 by touching the icon 54 displayed on the touch panel 12. Specifically, when the user touches the icon 54 while the feedback voice data is being notified from the speaker 31, a stop signal is transmitted to the controller 20. The character “Cancel” is displayed on the icon 54.
  • the user can stop the control by the controller 20 by swiping the touch panel 12.
  • Swipe is an operation of sliding a finger while touching the touch panel 12.
  • a stop signal is transmitted to the controller 20.
  • swiping from left to right is not limited to this.
  • the user may swipe from top to bottom or from right to left. Regardless of the direction of the swipe, if the swipe is performed while the feedback voice data is being notified from the speaker 31, a stop signal is transmitted to the controller 20.
  • the user can stop the control by the controller 20 by pressing a specific switch (switch 61 in FIG. 9) among the switches 13 provided on the steering wheel 60. Specifically, when the user presses the switch 61 while the feedback voice data is being notified from the speaker 31, a stop signal is transmitted to the controller 20.
  • the switch 61 is a switch indicating a so-called return.
  • the user can stop the control by the controller 20 by using voice. Specifically, if the user gives a voice instruction to the microphone 11 to "stop" while the feedback voice data is being notified from the speaker 31, the control by the controller 20 is stopped. If the voice data is input while the voice data for feedback is being notified from the speaker 31, the voice recognition unit 21 recognizes the input voice data. When the recognized voice data indicates the discontinuation of control, the controller 20 discontinues control. In this case, the voice data input while the feedback voice data is being notified from the speaker 31 becomes the stop signal.
  • the user can stop the control by the controller 20 by using the gesture.
  • the stop signal is transmitted to the controller 20.
  • the gesture indicating cancellation is, for example, a gesture of holding a hand in front of the camera 14. If the image data is input from the camera 14 while the feedback voice data is being notified from the speaker 31, the controller 20 analyzes the image data. When the gesture indicating the stop is detected from the image data, the controller 20 stops the control. In this case, the image data input while the feedback voice data is being notified from the speaker 31 becomes the stop signal.
  • the factor of discontinuing control is not limited to erroneous recognition of voice data.
  • the user may want to cancel the instruction. That is, the user has voicely instructed to "open the driver's seat window", but there are cases where he simply wants to cancel the instruction. In such a case as well, as described above, the user may perform a predetermined operation while the feedback voice data is being notified from the speaker 31.
  • step S117 when the user performs an operation for transmitting a stop signal while the feedback voice data is being notified from the speaker 31, the stop signal is transmitted to the controller 20.
  • Steps S119 and 121 have already been described.
  • the example shown in FIG. 2 is a case where a stop signal is transmitted, but of course there is a case where the stop signal is not transmitted. If the user does nothing while the feedback voice data is being notified from the speaker 31, the stop signal is not transmitted, as a matter of course. In this case, the window is opened immediately after the notification is completed.
  • step S109 of FIG. 2 the end of the notification by the voice output unit 22 means that the notification is completed without the stop signal being transmitted from the user while the feedback voice data is being notified from the speaker 31. do.
  • the information processing device 1 includes a voice data input device (mic 11) into which voice data of a user in a vehicle is input, and a user data input device (mic 11, touch panel 12, switch) in which user data is input by the user. 13.
  • the camera 14) and the controller 20 are provided.
  • the controller 20 recognizes the first voice data input to the voice data input device.
  • the first voice data is voice data indicating an instruction for operating a predetermined device, and one example is the above-mentioned "open the window of the driver's seat”.
  • the controller 20 outputs the second voice data indicating that the predetermined device is controlled based on the recognition result of the first voice data from the speaker 31.
  • An example of the second voice data is the above-mentioned "open the window of the driver's seat".
  • the controller 20 controls the predetermined device based on the recognition result, while the user data indicating that the control of the predetermined device is stopped is input while the second voice data is notified. In that case, the control of the specified device is stopped.
  • the user data indicating control stop is the above-mentioned stop signal. According to the information processing apparatus 1 having such a configuration, after the feedback to the user, the control is promptly and automatically executed unless the user gives an instruction to stop. In addition, the user can stop the control as needed.
  • the predetermined device is a device mounted on the vehicle.
  • the predetermined device includes at least one of a power window 32, an air conditioner 33, a sunroof 34, a sunshade 35, a power back door 36, a power trunk 37, a navigation device 38, and an audio device 39.
  • the notification by the second voice data is a notification indicating that a predetermined device is controlled.
  • the notification by the second voice data is a notification indicating that the window of the power window 32 is opened.
  • the controller 20 executes control of the predetermined device when the notification by the second voice data is completed without inputting the user data indicating that the control of the predetermined device is stopped. As a result, after the feedback to the user, the control is promptly and automatically executed unless the user gives an instruction to stop. Further, when the notification by the second voice data is completed without inputting the user data indicating that the control of the predetermined device is stopped, the controller 20 executes the control of the predetermined device without accepting the input of other user data.
  • the user data is input to data indicating that the user has operated the touch panel 12, image data that captures the posture of the user, data indicating that the user has operated the switch 61 provided on the steering wheel, or voice data input device. It is the voice data to be performed.
  • the second voice data After the second voice data is notified, it is defined as after the output of the second voice data is completed, and while the second voice data is notified, after the output of the second voice data is started. It is defined as the period until the end.
  • the information processing device 2 further includes a specific unit 25 and a standby time setting unit 26 as compared with the information processing device 1.
  • a specific unit 25 and a standby time setting unit 26 as compared with the information processing device 1.
  • a standby time setting unit 26 as compared with the information processing device 1.
  • the specifying unit 25 specifies a device that can be used by the user from the input device 10.
  • the usable device here means a device that can be used to stop the control by the controller 20. That is, the usable device means a device that can be used while the voice data for feedback is transmitted from the speaker 31.
  • a microphone 11, a touch panel 12, a switch 13, and a camera 14 are shown as input devices 10, but not all of them are always available. It may not be available due to a malfunction. Alternatively, it may not be available due to some restrictions. As a method of specifying whether or not it can be used, it can be specified by the presence or absence of a signal indicating that it is operating normally.
  • the specific unit 25 When the specific unit 25 receives a signal indicating that it is operating normally from the microphone 11, the touch panel 12, the switch 13, and the camera 14, the device is used while the voice data for feedback is transmitted from the speaker 31. Identify as possible.
  • the specific unit 25 transmits a signal indicating a specific result to the standby time setting unit 26.
  • the standby time setting unit 26 sets the standby time based on the signal received from the specific unit 25.
  • the standby time is a time for receiving a stop signal from the user after the notification by the voice output unit 22 is completed.
  • the controller 20 does not accept the stop signal when the notification by the voice output unit 22 is completed, but in the modified example, the standby is set even after the notification by the voice output unit 22 is completed.
  • the stop signal is accepted for the time. For example, when the notification by the voice output unit 22 is 2 seconds and the standby time set by the standby time setting unit 26 is 3 seconds, the time during which the user can transmit the stop signal in the modified example is 5 seconds (2 seconds + 3 seconds). It becomes.
  • the standby time is set according to the available device specified by the specific unit 25. For example, assume that the only device identified as available is the camera 14. In this case, the waiting time is set to be the longest as compared with the case where another device is specified. The reason is that the user needs to hold his / her hand in front of the camera 14 in order to transmit the stop signal, and the time required for this operation is secured. This waiting time is called the first waiting time.
  • the waiting time is set shorter than when the camera 14 is specified. This is because the time required for utterance is shorter than the action of holding a hand in front of the camera 14. This waiting time is called a second waiting time.
  • the touch panel 12 is the only device identified as available.
  • the waiting time is set shorter than when the camera 14 is specified. This is because the time required to operate the touch panel 12 is shorter than the operation of holding a hand in front of the camera 14. This waiting time is called a third waiting time.
  • the waiting time is set shorter than when the camera 14 is specified. This is because the time required to operate the switch 61 is shorter than the operation of holding a hand in front of the camera 14. This waiting time is called a fourth waiting time.
  • the relationship between the 1st to 4th waiting times is 1st waiting time> 2nd waiting time> 3rd waiting time> 4th waiting time.
  • steps S201 to 205, 211, 215 to 225 are the same as the processes shown in steps S101 to 105, 107, 111 to 121 shown in FIG. 2, the description thereof will be omitted.
  • step S207 the specific unit 25 receives a signal indicating that it is operating normally from the microphone 11, the touch panel 12, the switch 13, and the camera 14. Upon receiving the signal, the identification unit 25 identifies that the device is available. The specific unit 25 transmits a signal indicating a specific result to the standby time setting unit 26.
  • step S209 the standby time setting unit 26 sets the standby time based on the signal received from the specific unit 25.
  • step S213 the notification end determination unit 23 determines whether or not the waiting time has ended.
  • the notification end determination unit 23 receives a signal indicating that the standby time has ended from the standby time setting unit 26 after receiving the start signal from the voice output unit 22, the notification end determination unit 23 determines that the standby time has ended.
  • the notification by the voice output unit 22 is 2 seconds and the standby time set by the standby time setting unit 26 is 3 seconds, 5 seconds have passed after the notification by the voice output unit 22 started. It is determined that the waiting time has expired. Note that the end of the waiting time in step S213 means that the waiting time has ended without transmitting a stop signal from the user.
  • User data includes multiple types.
  • the device capable of transmitting the stop signal includes a plurality of types (microphone 11, touch panel 12, switch 13, camera 14).
  • the controller 20 changes the time (standby time) for receiving the user data indicating that the control of the predetermined device is stopped according to the type of the user data.
  • the control is promptly and automatically executed after waiting for the elapse of the waiting time unless the user gives an instruction to stop.
  • the type of user data is used to set the waiting time, it is possible to make a setting suitable for the user interface.
  • the standby time is set according to the available device specified by the specific unit 25, but the standby time is not limited to this.
  • the standby time may be set according to the device corresponding to the user's instruction. As described above, when the user's instruction is "open the driver's seat window", the device corresponding to the user's instruction is the power window 32. In another example, when the user's instruction is "playing the radio", the device corresponding to the user's instruction is the audio device 39.
  • the standby time is longer than that of a device that does not cause pinching. It may be set. As a result, the user can secure the time used for determining whether or not to cancel the instruction.
  • the standby time may be set longer than that of a device that does not perform driving control. This is because the driving environment changes from moment to moment, and it may take time to determine whether or not to cancel the instruction regarding driving control.
  • the waiting time may be set according to whether the vehicle is running or stopped. Specifically, when the vehicle is running, the waiting time may be set longer than when the vehicle is stopped. This is because when the vehicle is running, it is expected that the user's response will be slower than when the vehicle is stopped.
  • the processing circuit includes a programmed processing device such as a processing device including an electric circuit.
  • Processing circuits also include devices such as application specific integrated circuits (ASICs) and circuit components arranged to perform the described functions.
  • ASICs application specific integrated circuits
  • a signal different from the stop signal may be input from the user while the feedback voice data is being notified from the speaker 31.
  • the controller 20 may have a function of determining whether or not the signal input while the feedback voice data is being broadcast from the speaker 31 is a stop signal.
  • the controller 20 may accept user data indicating that the control of the predetermined device is stopped only when the predetermined device is a device that operates mechanically or a device that controls the in-vehicle environment.
  • the mechanically operating devices are a power window 32, a sunroof 34, a power back door 36, and a power trunk 37.
  • the device that controls the vehicle interior environment is the air conditioner 33.
  • Recent navigation devices have many functions other than route guidance. For example, its functions include the provision of weather information and the provision of news. Therefore, the user's instruction input to the microphone 11 includes those requesting weather information, news, and the like.
  • controller 20 does not have to accept the stop signal for instructions requesting weather information and news. This is because the provision of weather information and news does not include mechanical movements or movements that affect driving.
  • the microphone 11 is not limited to the one installed in the vehicle.
  • a microphone of a mobile terminal for example, a smartphone
  • the mobile terminal is connected so as to be able to communicate with the controller 20.

Landscapes

  • Engineering & Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Multimedia (AREA)
  • Theoretical Computer Science (AREA)
  • Computational Linguistics (AREA)
  • Acoustics & Sound (AREA)
  • General Health & Medical Sciences (AREA)
  • General Engineering & Computer Science (AREA)
  • General Physics & Mathematics (AREA)
  • User Interface Of Digital Computer (AREA)
  • Fittings On The Vehicle Exterior For Carrying Loads, And Devices For Holding Or Mounting Articles (AREA)

Abstract

情報処理装置(1)は、音声データが入力される音声データ入力装置(マイク11)と、ユーザからユーザデータが入力されるユーザデータ入力装置(入力装置10)と、コントローラ(20)と、を備える。コントローラ(20)は、音声データ入力装置(マイク11)に入力された第1音声データを認識し、第1音声データを認識した結果に基づいて所定機器を制御することを示す第2音声データを出力し、第2音声データが報知された後、認識した結果に基づいて所定機器を制御する一方で、第2音声データが報知されている間に所定機器の制御中止を示すユーザデータが入力された場合は所定機器の制御を中止する。

Description

情報処理装置及び情報処理方法
 本発明は、情報処理装置及び情報処理方法に関する。
 従来よりユーザの音声によってリモコンなどの機器を制御する発明が知られている(特許文献1)。特許文献1に記載された発明はユーザの音声を認識し、ユーザのコマンドに対応する制御内容をリモコンに表示する。ユーザはリモコンに表示された制御内容を確認し、制御内容をユーザが承認することにより制御が実行される。
特開2007-286174号公報
 しかしながら、特許文献1に記載された発明はユーザに制御内容を確認させ、さらに承認を要求するため、実際に制御が実行されるまで時間がかかるという課題がある。
 本発明は、上記問題に鑑みて成されたものであり、その目的は、必要な場合のみ制御が中止され、中止指示がない限り速やかに自動的に制御が実行される情報処理装置及び情報処理方法を提供することである。
 本発明の一態様に係る情報処理装置は、音声データ入力装置に入力された第1音声データを認識し、第1音声データを認識した結果に基づいて所定機器を制御することを示す第2音声データを出力し、第2音声データが報知された後、認識した結果に基づいて所定機器を制御する一方で、第2音声データが報知されている間に所定機器の制御中止を示すユーザデータが入力された場合は所定機器の制御を中止する。
 本発明によれば、必要な場合のみ制御が中止され、中止指示がない限り速やかに自動的に制御が実行される。
図1は、本発明の実施形態に係る情報処理装置1の構成図である。 図2は、本発明の実施形態に係る情報処理装置1の一動作例を説明するシーケンス図である。 図3は、ディスプレイ12の表示例を説明する図である。 図4は、音声認識機能が起動したことを示図である。 図5は、フィードバック用の音声データがスピーカ31から報知されている間の表示例である。 図6は、コントローラ20による制御を中止するためにユーザが行う操作の一例を説明する図である。 図7は、コントローラ20による制御を中止するためにユーザが行う操作の他の例を説明する図である。 図8は、コントローラ20による制御を中止するためにユーザが行う操作の他の例を説明する図である。 図9は、コントローラ20による制御を中止するためにユーザが行う操作の他の例を説明する図である。 図10は、本発明の変形例に係る情報処理装置2の構成図である。 図11は、本発明の変形例に係る情報処理装置2の一動作例を説明するシーケンス図である。 図12は、本発明の変形例に係る情報処理装置2の一動作例を説明するシーケンス図である。
 以下、本発明の実施形態について、図面を参照して説明する。図面の記載において同一部分には同一符号を付して説明を省略する。
 図1を参照して本実施形態に係る情報処理装置1の構成例を説明する。情報処理装置1は一例として車両に搭載される。図1に示すように情報処理装置1は、入力装置10と、コントローラ20と、データベース30と、スピーカ31とを備える。
 入力装置10は、車両に乗車しているユーザからのデータを受け付ける機器の総称である。図1に示すように入力装置10はマイク11と、タッチパネル12と、スイッチ13と、カメラ14を含む。マイク11にはユーザの音声データが入力される。マイク11の設置場所は例えば運転席の近くである。タッチパネル12はユーザのタッチ操作による入力を受け付ける。タッチパネル12は主にナビゲーション装置のディスプレイとして用いられる。スイッチ13はステアリングホイールに設けられ、ユーザの入力(スイッチオン)を受け付ける。カメラ14は例えば運転席の近くに設置されユーザの姿勢、ジェスチャなどを撮像する。入力装置10に入力されたデータはコントローラ20に送信される。
 コントローラ20はCPU(Central Processing Unit)、メモリ、記憶装置、入出力部などを備える汎用のコンピュータである。コントローラ20は入力装置10から取得したデータを処理する。具体的にはCPUは記憶装置に記憶されている様々なプログラムをメモリに読み込んで、プログラムに含まれる各種の命令を実行する。これによりコントローラ20は情報処理装置1が備える複数の情報処理回路として機能する。コントローラ20は複数の情報処理回路として、音声認識部21と、音声出力部22と、報知終了判定部23と、制御信号送信部24とを備える。
 音声認識部21はマイク11に入力されたユーザの音声データを認識する。音声認識には周波数分析などの周知の技術が用いられる。音声認識部21は認識した結果を音声出力部22に出力する。
 音声出力部22はデータベース30を参照して音声認識部21の認識結果に対応するフィードバック用の音声データを取得する。フィードバック用の音声データとはこれから実施する所定機器の制御に関し、ユーザに確認を促すものである。例えばユーザの音声データが「運転席の窓を開けて」と認識された場合、これに対応するフィードバック用の音声データは「運転席の窓を開けます」となる。フィードバック用の音声データは予め複数個用意されており、データベース30に格納されている。なお本実施形態ではデータベース30はコントローラ20の記憶装置とは異なる記憶装置に記憶されているものとして説明するがこれに限定されない。データベース30はコントローラ20の記憶装置に記憶されていてもよい。
 音声出力部22はスピーカ31を通じてフィードバック用の音声データをユーザに報知する。なお音声出力部22は音声認識部21の認識結果に基づいてフィードバック用の音声データをその都度生成してもよい。生成方法としてユーザの音声データに対しオウム返しするような音声データを生成するようにプログラムされればよい。
 音声出力部22はフィードバック用の音声データの出力を開始した場合、開始したことを示す信号を報知終了判定部23に送信する。また音声出力部22はフィードバック用の音声データの出力が終了した場合、終了したことを示す信号を報知終了判定部23に送信する。以下では開始したことを示す信号を単に開始信号と呼ぶ場合がある。同様に終了したことを示す信号を単に終了信号と呼ぶ場合がある。
 報知終了判定部23は音声出力部22による報知が終了したか否かを判定する。具体的には報知終了判定部23は音声出力部22から開始信号を受信した後に終了信号を受信した場合、音声出力部22による報知が終了したと判定する。一方で報知終了判定部23は音声出力部22から開始信号を受信したがその後終了信号を受信していない場合、音声出力部22による報知は終了していないと判定する。報知終了判定部23は音声出力部22による報知が終了したと判定した場合、報知が終了したことを示す信号を制御信号送信部24に送信する。
 制御信号送信部24は、報知終了判定部23から報知が終了したことを示す信号を受信した場合、音声認識部21の認識結果によって得られたユーザの指示(音声データ)に基づいて所定機器を制御する。所定機器は車両に搭載される機器であって、図1に示すようにパワーウィンドウ32、空調装置33、サンルーフ34、サンシェード35、パワーバックドア36、パワートランク37、ナビゲーション装置38、オーディオ装置39などが含まれる。一例としてユーザの指示が「運転席の窓を開けて」であった場合、制御信号送信部24は運転席のパワーウィンドウ32に対し窓を開けるための信号を送信する。パワーウィンドウ32は受信した信号に基づいて自動で窓を開ける。なお所定機器には自動運転などの走行制御を行う機器が含まれてもよい。
 次に図2~9を参照して情報処理装置1の一動作例を説明する。
 図2に示すステップS101において、車両に乗車しているユーザは音声認識機能を起動させる。本実施形態において音声認識機能は常に起動しているものではない。音声認識機能はユーザの指示によって起動する。音声認識機能の起動方法の一例について図3を参照して説明する。図3に示すように走行中はタッチパネル12にナビゲーション装置38による経路案内が表示される。タッチパネル12には発話を示すアイコン50が表示されている。ユーザがこのアイコン50をタッチ操作することにより音声認識機能が起動する。他の起動方法としてステアリングホイールに設けられたスイッチ13に起動のトリガ機能を持たせてもよいし、所定のキーワードに関するユーザの発話を認識したことをトリガとして音声認識機能を起動させてもよい。
 音声認識機能が起動するとタッチパネル12の表示は図4に示す内容に切り替わる。図4に示すように音声認識機能が起動した後のタッチパネル12にはアイコン51と、アイコン52と、音声によって指示が可能な機器が表示される。なお図4において音声によって指示が可能な機器として、空調装置、パワーウィンドウ、ナビゲーション装置、オーディオ装置が表示されているがこれは一例である。
 図4に示すアイコン52は、音声認識が可能であることを示すアイコンである。ユーザはアイコン52がタッチパネル12に表示されていることを確認した後、所定機器を作動させるための指示を音声で入力する。すなわち図2のステップS103に示すように、ユーザはマイク11に向かって音声データを入力する。図2ではユーザの指示は「運転席の窓を開けて」である。
 処理はステップS105に進み、ユーザの音声データを取得した音声認識部21は音声データを認識する。処理はステップS107に進み、音声出力部22はデータベース30を参照して音声認識部21の認識結果に対応するフィードバック用の音声データを取得する。ユーザの指示は「運転席の窓を開けて」と認識されているため、フィードバック用の音声データとして「運転席の窓を開けます」が選択される。音声出力部22はスピーカ31を通じてフィードバック用の音声データをユーザに報知する。フィードバック用の音声データの報知が開始されたとき、すなわちスピーカ31からフィードバック用の音声データの出力が開始されたとき、タッチパネル12の表示は図5に示す内容に切り替わる。
 処理はステップS109に進み、報知終了判定部23は音声出力部22による報知が終了したか否かを判定する。報知終了判定部23は音声出力部22から開始信号を受信した後に終了信号を受信した場合、音声出力部22による報知が終了したと判定する。図2において音声出力部22による報知が終了したとは、「運転席の窓を開けます」という音声データの出力が終了したことを意味する。
 報知終了判定部23は音声出力部22から開始信号を受信したがその後終了信号を受信していない場合、音声出力部22による報知は終了していないと判定する。換言すれば報知終了判定部23は音声出力部22から開始信号を受信したがその後終了信号を受信していない場合、フィードバック用の音声データがスピーカ31から報知されていると判定する。
 音声出力部22による報知が終了したと判定された場合(ステップS109でNO)、処理はステップS111に進む。ステップS111において報知終了判定部23は報知が終了したことを示す信号を制御信号送信部24に送信する。この信号を受信した制御信号送信部24は運転席のパワーウィンドウ32に対し窓を開けるための制御信号を送信する。処理はステップS113に進み制御信号を受信したパワーウィンドウ32は自動で窓を開ける(ステップS115)。
 一方、音声出力部22による報知が終了していないと判定された場合(ステップS109でYES)、処理はステップS119に進む。
 ステップS119において、コントローラ20はフィードバック用の音声データがスピーカ31から報知されている間に制御中止を示す信号をユーザから受信した場合(ステップS119でYES)、コントローラ20は所定機器の制御を中止する(ステップS121)。ここで制御中止を示す信号(以下単に中止信号と呼ぶ場合がある)について説明する。中止信号とはユーザが所定の操作を行った場合にコントローラ20に送信される信号である。ユーザが音声で「運転席の窓を開けて」と指示した場合、ユーザはスピーカ31を通じて「運転席の窓を開けます」というフィードバックを受ける。このとき仮に音声認識に誤りがあった場合、ユーザの要望として制御中止が想定される。図2に示す例ではユーザの音声指示は正確に認識されているが、例えば「助手席の窓を開けます」といったようにユーザの音声指示が正確に認識されない場合もありうる。このようなケースにおいてユーザの要望として制御中止が想定される。
 本実施形態においてユーザは、フィードバック用の音声データがスピーカ31から報知されている間であれば複数の方法でコントローラ20に中止信号を送信することができ、コントローラ20による制御を中止することができる。一方で音声出力部22による報知が終了した場合、ユーザはコントローラ20に中止信号を送信することができなくなる、もしくは送信できたとしてもコントローラ20は中止信号を受け付けない。したがってユーザはコントローラ20による制御を中止するためには、フィードバック用の音声データがスピーカ31から報知されている間に所定の操作を行う必要がある。なおフィードバック用の音声データがスピーカ31から報知されている間とは、報知終了判定部23が音声出力部22から開始信号を受信してから終了信号を受信するまでの間と定義される。
 コントローラ20による制御を中止するためにユーザが行う所定の操作について図6~図9を参照して説明する。
 図6に示すように、ユーザはタッチパネル12に表示されたアイコン51をタッチすることによりコントローラ20による制御を中止することができる。具体的にはフィードバック用の音声データがスピーカ31から報知されている間にユーザがアイコン51をタッチすると中止信号がコントローラ20に送信される。中止信号を受信したコントローラ20はパワーウィンドウ32に対し窓を開けるための制御信号を送信しない。これによりコントローラ20による制御が中止される。なおアイコン51はいわゆるリターンを示すアイコンである。
 また図7に示すように、ユーザはタッチパネル12に表示されたアイコン54をタッチすることによりコントローラ20による制御を中止することができる。具体的にはフィードバック用の音声データがスピーカ31から報知されている間にユーザがアイコン54をタッチすると中止信号がコントローラ20に送信される。なおアイコン54には「中止」という文字が表示される。
 あるいは図8に示すように、ユーザはタッチパネル12をスワイプすることによりコントローラ20による制御を中止することができる。スワイプとはタッチパネル12に触れた状態で指を滑らせる操作のことである。フィードバック用の音声データがスピーカ31から報知されている間にユーザがタッチパネル12をスワイプすると中止信号がコントローラ20に送信される。図8に示す例では左から右にスワイプしているがこれに限定されない。ユーザは上から下にスワイプしてもよく、右から左にスワイプしてもよい。スワイプの方向に関わらず、フィードバック用の音声データがスピーカ31から報知されている間にスワイプが行われれば中止信号がコントローラ20に送信される。
 あるいは図9に示すように、ユーザはステアリングホイール60に設けられたスイッチ13のうち、特定のスイッチ(図9のスイッチ61)を押すことによりコントローラ20による制御を中止することができる。具体的にはフィードバック用の音声データがスピーカ31から報知されている間にユーザがスイッチ61を押すと中止信号がコントローラ20に送信される。なおスイッチ61はいわゆるリターンを示すスイッチである。
 あるいはユーザは音声を用いてコントローラ20による制御を中止することができる。具体的にはフィードバック用の音声データがスピーカ31から報知されている間にユーザがマイク11に向かって「中止」と音声で指示した場合、コントローラ20による制御は中止される。フィードバック用の音声データがスピーカ31から報知されている間に音声データが入力された場合、音声認識部21は入力された音声データを認識する。認識された音声データが制御の中止を示すものであるとき、コントローラ20は制御を中止する。このケースにおいてフィードバック用の音声データがスピーカ31から報知されている間に入力された音声データが中止信号となる。
 また別の例として、ユーザはジェスチャを用いてコントローラ20による制御を中止することができる。具体的にはフィードバック用の音声データがスピーカ31から報知されている間にユーザがカメラ14の前で中止を示すジェスチャを行った場合、中止信号がコントローラ20に送信される。中止を示すジェスチャとは一例としてカメラ14の前に手をかざすジェスチャである。フィードバック用の音声データがスピーカ31から報知されている間にカメラ14から画像データが入力された場合、コントローラ20は画像データを解析する。画像データから中止を示すジェスチャが検出された場合、コントローラ20は制御を中止する。このケースにおいてフィードバック用の音声データがスピーカ31から報知されている間に入力された画像データが中止信号となる。
 なお制御中止の要因は音声データの誤認識に限定されない。例えばユーザは指示を取り消したい場合もありうる。すなわちユーザは音声で「運転席の窓を開けて」と指示したが、単にその指示を取り消したい場合もある。このような場合も上述と同様に、フィードバック用の音声データがスピーカ31から報知されている間にユーザは所定の操作を行えばよい。
 図2に戻る。ステップS117において、フィードバック用の音声データがスピーカ31から報知されている間にユーザが中止信号を送信するための操作を行った場合、中止信号がコントローラ20に送信される。ステップS119、121についてはすでに説明した。図2に示す例は中止信号が送信されるケースであるが、もちろん中止信号が送信されないケースもある。フィードバック用の音声データがスピーカ31から報知されている間にユーザが何もしない場合、当然ながら中止信号は送信されない。この場合は報知が終了した後、速やかに窓が開かれる。
 図2のステップS109において音声出力部22による報知が終了したとは、フィードバック用の音声データがスピーカ31から報知されている間にユーザから中止信号が送信されることなく報知が終了したことを意味する。
 なお音声出力部22による報知が終了した場合、ユーザはコントローラ20に中止信号を送信することができなくなると説明したが、補足する。音声出力部22による報知が終了した場合、タッチパネル12の表示は図5に示す内容から図3に示す内容に切り替わる。このため音声出力部22による報知が終了した場合、ユーザはタッチパネル12を用いての中止信号の送信はできなくなる。
(作用効果)
 以上説明したように、本実施形態に係る情報処理装置1によれば、以下の作用効果が得られる。
 情報処理装置1は、車両に乗車しているユーザの音声データが入力される音声データ入力装置(マイク11)と、ユーザからユーザデータが入力されるユーザデータ入力装置(マイク11、タッチパネル12、スイッチ13、カメラ14)と、コントローラ20とを備える。コントローラ20は音声データ入力装置に入力された第1音声データを認識する。第1音声データとは所定機器を作動させるための指示を示す音声データであり、一例は上述した「運転席の窓を開けて」である。コントローラ20は第1音声データの認識結果に基づいて所定機器を制御することを示す第2音声データをスピーカ31から出力する。第2音声データの一例は上述した「運転席の窓を開けます」である。
 コントローラ20は第2音声データが報知された後、認識結果に基づいて所定機器を制御する一方で、第2音声データが報知されている間に所定機器の制御中止を示すユーザデータが入力された場合は所定機器の制御を中止する。制御中止を示すユーザデータとは上述した中止信号である。このような構成を備える情報処理装置1によればユーザへのフィードバック後、ユーザの中止指示がない限り速やかに自動的に制御が実行される。またユーザは必要に応じて制御を中止することができる。
 所定機器は車両に搭載された機器である。所定機器は少なくともパワーウィンドウ32、空調装置33、サンルーフ34、サンシェード35、パワーバックドア36、パワートランク37、ナビゲーション装置38、オーディオ装置39のうちいずれか1つを含む。
 第2音声データによる報知は、所定機器を制御することを示す報知である。一例として第2音声データによる報知はパワーウィンドウ32の窓を開けることを示す報知である。
 コントローラ20は、所定機器の制御中止を示すユーザデータが入力されることなく第2音声データによる報知が終了した場合、所定機器の制御を実行する。これによりユーザへのフィードバック後、ユーザの中止指示がない限り速やかに自動的に制御が実行される。またコントローラ20は、所定機器の制御中止を示すユーザデータが入力されることなく第2音声データによる報知が終了した場合、他のユーザデータの入力を受け付けることなく、所定機器の制御を実行する。
 ユーザデータは、ユーザがタッチパネル12を操作したことを示すデータ、ユーザの姿勢を撮像した画像データ、ユーザがステアリングホイールに設けられたスイッチ61を操作したことを示すデータ、または音声データ入力装置に入力される音声データである。
 第2音声データが報知された後とは、第2音声データの出力が終了した後と定義され、第2音声データが報知されている間とは、第2音声データの出力が開始されてから終了するまでの間と定義される。
(変形例)
 次に図10を参照して本実施形態の変形例を説明する。
 変形例に係る情報処理装置2は、情報処理装置1と比較して特定部25及び待機時間設定部26をさらに備える。情報処理装置1と重複する構成については符号を引用してその説明は省略する。以下、相違点を中心に説明する。
 特定部25は入力装置10の中からユーザが利用可能な装置を特定する。ここでいう利用可能な装置とはコントローラ20による制御を中止するために利用可能な装置を意味する。すなわち利用可能な装置とはフィードバック用の音声データがスピーカ31から報知されている間に利用可能な装置を意味する。
 図10では入力装置10としてマイク11、タッチパネル12、スイッチ13、カメラ14が示されているがこれらのすべてがいつでも利用可能とは限らない。故障などの原因で利用できない場合もありうる。あるいは何らかの制約によって利用できない場合もありうる。利用可能か否かの特定方法として、正常に動作していることを示す信号の有無で特定が可能である。
 特定部25はマイク11、タッチパネル12、スイッチ13、カメラ14から正常に動作していることを示す信号を受信した場合、その装置はフィードバック用の音声データがスピーカ31から報知されている間において利用可能であると特定する。特定部25は特定結果を示す信号を待機時間設定部26に送信する。
 待機時間設定部26は特定部25から受信した信号に基づいて待機時間を設定する。待機時間とは音声出力部22による報知が終了した後にユーザからの中止信号を受け付ける時間である。上述の実施形態では、音声出力部22による報知が終了した場合コントローラ20は中止信号を受け付けないと説明したが、変形例では音声出力部22による報知が終了した後であっても設定された待機時間の分だけ中止信号を受け付ける。例えば音声出力部22による報知が2秒、待機時間設定部26によって設定された待機時間が3秒である場合、変形例においてユーザが中止信号を送信可能な時間は5秒(2秒+3秒)となる。
 次に待機時間の設定方法について説明する。待機時間は特定部25によって特定された利用可能な装置に応じて設定される。例えば利用可能と特定された装置がカメラ14のみだったと仮定する。この場合待機時間は他の装置が特定された場合と比較してもっとも長く設定される。理由はユーザが中止信号を送信するためにはカメラ14の前に手をかざす必要があり、この動作に要する時間を確保するためである。この待機時間を第1待機時間と呼ぶ。
 続いて利用可能と特定された装置がマイク11のみだったと仮定する。この場合待機時間はカメラ14が特定された場合と比較して短く設定される。カメラ14の前に手をかざす動作と比較して発話に要する時間は短いからである。この待機時間を第2待機時間と呼ぶ。
 続いて利用可能と特定された装置がタッチパネル12のみだったと仮定する。この場合待機時間はカメラ14が特定された場合と比較して短く設定される。カメラ14の前に手をかざす動作と比較してタッチパネル12の操作に要する時間は短いからである。この待機時間を第3待機時間と呼ぶ。
 続いて利用可能と特定された装置がスイッチ13(スイッチ61)のみだったと仮定する。この場合待機時間はカメラ14が特定された場合と比較して短く設定される。カメラ14の前に手をかざす動作と比較してスイッチ61の操作に要する時間は短いからである。この待機時間を第4待機時間と呼ぶ。
 第1~4待機時間の関係は、第1待機時間>第2待機時間>第3待機時間>第4待機時間である。
 次に図11~12を参照して情報処理装置2の一動作例を説明する。ただしステップS201~205、211、215~225の処理は、図2に示すステップS101~105、107、111~121に示す処理と同様であるため、説明を省略する。
 ステップS207において特定部25はマイク11、タッチパネル12、スイッチ13、カメラ14から正常に動作していることを示す信号を受信する。信号を受信した場合、特定部25はその装置は利用可能であると特定する。特定部25は特定結果を示す信号を待機時間設定部26に送信する。
 ステップS209において待機時間設定部26は、特定部25から受信した信号に基づいて待機時間を設定する。
 ステップS213において報知終了判定部23は、待機時間が終了したか否かを判定する。報知終了判定部23は、音声出力部22から開始信号を受信した後に待機時間設定部26から待機時間が終了したことを示す信号を受信した場合、待機時間が終了したと判定する。一例を挙げると、音声出力部22による報知が2秒、待機時間設定部26によって設定された待機時間が3秒である場合、音声出力部22による報知が開始した後、5秒経過した時点で待機時間が終了したと判定される。なおステップS213において待機時間が終了したとは、ユーザから中止信号が送信されることなく待機時間が終了したことを意味する。
(作用効果)
 ユーザデータは複数の種別を含む。具体的には中止信号を送信可能な機器は複数の種別を含む(マイク11、タッチパネル12、スイッチ13、カメラ14)。コントローラ20は、ユーザデータの種別に応じて所定機器の制御中止を示すユーザデータを受け付ける時間(待機時間)を変更する。このような構成を備える情報処理装置2によればユーザへのフィードバック後、ユーザの中止指示がない限り待機時間の経過を待って速やかに自動的に制御が実行される。また待機時間の設定にユーザデータの種別が用いられるため、ユーザインターフェースに適した設定が可能となる。
 待機時間は特定部25によって特定された利用可能な装置に応じて設定されると説明したがこれに限定されない。待機時間はユーザの指示に対応する機器に応じて設定されてもよい。上述したようにユーザの指示が「運転席の窓を開けて」であった場合、ユーザの指示に対応する機器はパワーウィンドウ32となる。他の例ではユーザの指示が「ラジオを流して」であった場合、ユーザの指示に対応する機器はオーディオ装置39となる。ユーザの指示に対応する機器がパワーウィンドウ32、サンルーフ34、パワーバックドア36、パワートランク37などのように挟み込みが発生しうる機器である場合、挟み込みが発生しない機器と比較して待機時間は長く設定されてもよい。これによりユーザは指示を中止するか否かの判断に使う時間を確保できる。
 またユーザの指示に対応する機器が自動運転などの走行制御を行う機器である場合、走行制御を行う機器でない場合と比較して待機時間は長く設定されてもよい。走行環境は時々刻々と変化するため、走行制御に関する指示を中止するか否かの判断には時間がかかる場合があるからである。
 また待機時間は車両が走行中か停止中かに応じて設定されてもよい。具体的には車両が走行中である場合、停止中の場合と比較して待機時間は長く設定されてもよい。車両が走行中である場合、停止中の場合と比較してユーザのレスポンスが遅くなることが想定されるからである。
 上述の実施形態に記載される各機能は、1または複数の処理回路により実装され得る。処理回路は、電気回路を含む処理装置等のプログラムされた処理装置を含む。処理回路は、また、記載された機能を実行するようにアレンジされた特定用途向け集積回路(ASIC)や回路部品等の装置を含む。
 上記のように、本発明の実施形態を記載したが、この開示の一部をなす論述及び図面はこの発明を限定するものであると理解すべきではない。この開示から当業者には様々な代替実施の形態、実施例及び運用技術が明らかとなろう。
 例えばフィードバック用の音声データがスピーカ31から報知されている間にユーザから中止信号とは異なる信号が入力される場合がある。コントローラ20は、フィードバック用の音声データがスピーカ31から報知されている間に入力された信号が中止信号か否か判定する機能を有してもよい。
 コントローラ20は、所定機器が機械的に動作する装置または車内環境を制御する装置である場合のみ、所定機器の制御中止を示すユーザデータを受け付けてもよい。機械的に動作する装置とはパワーウィンドウ32、サンルーフ34、パワーバックドア36、パワートランク37である。車内環境を制御する装置とは空調装置33である。これによりユーザは作動によって挟み込みが発生しうる機器、運転に影響を及ぼす機器の制御を中止することができる。
 近年のナビゲーション装置は経路案内の他に多くの機能を有する。例えばその機能には天気情報の提供、ニュースの提供などが含まれる。したがってマイク11に入力されるユーザの指示には天気情報、ニュースなどを要求するものが含まれる。
 なお天気情報及びニュースを要求する指示についてコントローラ20は中止信号を受け付けなくてもよい。天気情報及びニュースの提供は機械的な動作、運転に影響を及ぼす動作を含まないからである。
 マイク11は車両に設置されるものに限定されない。携帯端末(例えばスマートフォン)のマイクが代用されてもよい。この場合、携帯端末はコントローラ20と通信が可能となるように接続される。
1、2 情報処理装置
10 入力装置
11 マイク
12 タッチパネル
13 スイッチ
14 カメラ
20 コントローラ
21 音声認識部
22 音声出力部
23 報知終了判定部
24 制御信号送信部
25 特定部
26 待機時間設定部
30 データベース
31 スピーカ

Claims (11)

  1.  音声データが入力される音声データ入力装置と、
     ユーザからユーザデータが入力されるユーザデータ入力装置と、
     コントローラと、を備え、
     前記コントローラは、
     前記音声データ入力装置に入力された第1音声データを認識し、
     前記第1音声データを認識した結果に基づいて所定機器を制御することを示す第2音声データを出力し、
     前記第2音声データが報知された後、前記認識した結果に基づいて前記所定機器を制御する一方で、前記第2音声データが報知されている間に前記所定機器の制御中止を示すユーザデータが入力された場合は前記所定機器の制御を中止する
    ことを特徴とする情報処理装置。
  2.  前記所定機器は車両に搭載された機器である
    ことを特徴とする請求項1に記載の情報処理装置。
  3.  前記所定機器は、少なくともパワーウィンドウ、空調装置、サンルーフ、サンシェード、パワーバックドア、パワートランク、ナビゲーション装置、オーディオ装置のうちいずれか1つを含む
    ことを特徴とする請求項2に記載の情報処理装置。
  4.  前記第2音声データによる報知は、前記所定機器を制御することを示す報知である
    ことを特徴とする請求項1~3のいずれか1項に記載の情報処理装置。
  5.  前記コントローラは、前記所定機器の制御中止を示すユーザデータが入力されることなく前記第2音声データによる報知が終了した場合、前記所定機器の制御を実行する
    ことを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  6.  前記コントローラは、前記所定機器の制御中止を示すユーザデータが入力されることなく前記第2音声データによる報知が終了した場合、他の前記ユーザデータの入力を受け付けることなく、前記所定機器の制御を実行する
    ことを特徴とする請求項1~4のいずれか1項に記載の情報処理装置。
  7.  前記ユーザデータは、前記ユーザがタッチパネルを操作したことを示すデータ、前記ユーザの姿勢を撮像した画像データ、前記ユーザがステアリングホイールに設けられたスイッチを操作したことを示すデータ、または前記音声データ入力装置に入力される音声データである
    ことを特徴とする請求項1~6のいずれか1項に記載の情報処理装置。
  8.  前記第2音声データが報知された後とは、前記第2音声データの出力が終了した後と定義され、
     前記第2音声データが報知されている間とは、前記第2音声データの出力が開始されてから終了するまでの間と定義される
    ことを特徴とする請求項1~7のいずれか1項に記載の情報処理装置。
  9.  前記ユーザデータは複数の種別を含み、
     前記コントローラは、前記ユーザデータの種別に応じて前記所定機器の制御中止を示すユーザデータを受け付ける時間を変更する
    ことを特徴とする請求項7に記載の情報処理装置。
  10.  前記所定機器が機械的に動作する装置または車内環境を制御する装置である場合のみ、前記コントローラは前記所定機器の制御中止を示すユーザデータを受け付ける
    ことを特徴とする請求項1~9のいずれか1項に記載の情報処理装置。
  11.  音声データ入力装置に入力された第1音声データを認識し、
     前記第1音声データを認識した結果に基づいて所定機器を制御することを示す第2音声データを出力し、
     前記第2音声データが報知された後、前記認識した結果に基づいて前記所定機器を制御する一方で、前記第2音声データが報知されている間に前記所定機器の制御中止を示すユーザデータが入力された場合は前記所定機器の制御を中止する
    ことを特徴とする情報処理方法。
PCT/JP2020/025659 2020-06-30 2020-06-30 情報処理装置及び情報処理方法 WO2022003822A1 (ja)

Priority Applications (6)

Application Number Priority Date Filing Date Title
EP20942468.8A EP4174636A4 (en) 2020-06-30 2020-06-30 INFORMATION PROCESSING DEVICE AND METHOD
CN202080102506.7A CN115720654A (zh) 2020-06-30 2020-06-30 信息处理装置和信息处理方法
US18/003,765 US20230290334A1 (en) 2020-06-30 2020-06-30 Information processing apparatus and information processing method
PCT/JP2020/025659 WO2022003822A1 (ja) 2020-06-30 2020-06-30 情報処理装置及び情報処理方法
JP2022532885A JP7396490B2 (ja) 2020-06-30 2020-06-30 情報処理装置及び情報処理方法
JP2023201655A JP2024026216A (ja) 2020-06-30 2023-11-29 情報処理装置及び情報処理方法

Applications Claiming Priority (1)

Application Number Priority Date Filing Date Title
PCT/JP2020/025659 WO2022003822A1 (ja) 2020-06-30 2020-06-30 情報処理装置及び情報処理方法

Publications (1)

Publication Number Publication Date
WO2022003822A1 true WO2022003822A1 (ja) 2022-01-06

Family

ID=79315778

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2020/025659 WO2022003822A1 (ja) 2020-06-30 2020-06-30 情報処理装置及び情報処理方法

Country Status (5)

Country Link
US (1) US20230290334A1 (ja)
EP (1) EP4174636A4 (ja)
JP (2) JP7396490B2 (ja)
CN (1) CN115720654A (ja)
WO (1) WO2022003822A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216130A (ja) * 2000-02-03 2001-08-10 Denso Corp 音声入力装置
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
JP2007286174A (ja) 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2009069202A (ja) * 2007-09-10 2009-04-02 Teac Corp 音声処理装置
JP2013007917A (ja) * 2011-06-24 2013-01-10 Aisin Aw Co Ltd 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム
JP2020069920A (ja) * 2018-10-31 2020-05-07 トヨタ自動車株式会社 運転支援装置、車両、運転支援方法およびプログラム

Family Cites Families (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP4470803B2 (ja) 2005-04-20 2010-06-02 トヨタ自動車株式会社 車載装置
KR20180084392A (ko) * 2017-01-17 2018-07-25 삼성전자주식회사 전자 장치 및 그의 동작 방법

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2001216130A (ja) * 2000-02-03 2001-08-10 Denso Corp 音声入力装置
JP2003208196A (ja) * 2002-01-11 2003-07-25 Matsushita Electric Ind Co Ltd 音声対話方法および装置
JP2007286174A (ja) 2006-04-13 2007-11-01 Funai Electric Co Ltd 電子機器
JP2009069202A (ja) * 2007-09-10 2009-04-02 Teac Corp 音声処理装置
JP2013007917A (ja) * 2011-06-24 2013-01-10 Aisin Aw Co Ltd 音声認識制御システム、音声認識制御方法、及び音声認識制御プログラム
JP2020069920A (ja) * 2018-10-31 2020-05-07 トヨタ自動車株式会社 運転支援装置、車両、運転支援方法およびプログラム

Also Published As

Publication number Publication date
CN115720654A (zh) 2023-02-28
EP4174636A1 (en) 2023-05-03
EP4174636A4 (en) 2023-07-26
JP2024026216A (ja) 2024-02-28
JPWO2022003822A1 (ja) 2022-01-06
US20230290334A1 (en) 2023-09-14
JP7396490B2 (ja) 2023-12-12

Similar Documents

Publication Publication Date Title
EP1082671B1 (en) Handwritten and voice control of vehicle appliance
US7158871B1 (en) Handwritten and voice control of vehicle components
JP6584731B2 (ja) ジェスチャ操作装置及びジェスチャ操作方法
US20050171664A1 (en) Multi-modal data input
WO2004070703A1 (ja) 車載制御装置
WO2016006385A1 (ja) 音声認識装置及び音声認識システム
CN109804429B (zh) 机动车中的多模式对话
JP2003114698A (ja) コマンド受付装置及びプログラム
WO2022003822A1 (ja) 情報処理装置及び情報処理方法
JP3731499B2 (ja) 音声認識制御装置、及び車載用情報処理装置
JP4487299B2 (ja) 音声認識装置
JP2005208798A (ja) 情報提供端末、および情報提供方法
JP2004301875A (ja) 音声認識装置
KR20190074344A (ko) 대화 시스템 및 대화 처리 방법
JP6211427B2 (ja) 車載機器制御装置
JP2001216130A (ja) 音声入力装置
JP4487298B2 (ja) 音声認識装置
WO2022254669A1 (ja) 対話サービス装置及び対話システム制御方法
JP2020060730A (ja) 音声認識装置
KR20150061807A (ko) 수동 조작에 기반한 음성인식 명령어 안내 장치 및 방법
JP2008233009A (ja) カーナビゲーション装置及びカーナビゲーション装置用プログラム
JPWO2022003822A5 (ja)
CN118205506A (zh) 一种汽车座舱手势控制系统
JPH05207549A (ja) 車両用操作スイッチ装置
JPWO2022254669A5 (ja)

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 20942468

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022532885

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

ENP Entry into the national phase

Ref document number: 2020942468

Country of ref document: EP

Effective date: 20230130