WO2023090057A1 - 情報処理装置、情報処理方法および情報処理プログラム - Google Patents

情報処理装置、情報処理方法および情報処理プログラム Download PDF

Info

Publication number
WO2023090057A1
WO2023090057A1 PCT/JP2022/039440 JP2022039440W WO2023090057A1 WO 2023090057 A1 WO2023090057 A1 WO 2023090057A1 JP 2022039440 W JP2022039440 W JP 2022039440W WO 2023090057 A1 WO2023090057 A1 WO 2023090057A1
Authority
WO
WIPO (PCT)
Prior art keywords
speakers
vehicle
unit
information processing
information
Prior art date
Application number
PCT/JP2022/039440
Other languages
English (en)
French (fr)
Inventor
真人 西尾
雄平 矢部
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Publication of WO2023090057A1 publication Critical patent/WO2023090057A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/08Speech classification or search
    • G10L15/10Speech classification or search using distance or distortion measures between unknown speech and reference templates
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/22Procedures used during a speech recognition process, e.g. man-machine dialogue
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L15/00Speech recognition
    • G10L15/24Speech recognition using non-acoustical features
    • G10L15/25Speech recognition using non-acoustical features using position of the lips, movement of the lips or face analysis
    • GPHYSICS
    • G10MUSICAL INSTRUMENTS; ACOUSTICS
    • G10LSPEECH ANALYSIS OR SYNTHESIS; SPEECH RECOGNITION; SPEECH OR VOICE PROCESSING; SPEECH OR AUDIO CODING OR DECODING
    • G10L17/00Speaker identification or verification

Definitions

  • the present disclosure relates to an information processing device, an information processing method, and an information processing program that perform voice recognition and reaction processing to the recognized voice.
  • Patent Document 1 there is a known technology that stores a dialogue scenario as data in advance and flexibly changes the content of the utterance according to the dialogue situation with the user (for example, Patent Document 1).
  • Patent Document 2 and Patent Reference 3 there is a known technique of reading the movement of the speaker's lips to detect the state of the speaker and to start speech recognition (for example, Patent Document 2 and Patent Reference 3).
  • the present disclosure proposes an information processing device, an information processing method, and an information processing program capable of improving the accuracy of voice recognition and returning an optimal response to the recognized voice.
  • an information processing apparatus includes an acquisition unit that acquires voices uttered by a plurality of speakers and images of the speakers speaking. , an identification unit that identifies each of the plurality of speakers based on the acquired audio and video, an utterance uttered by each of the identified speakers, and attributes of each of the speakers or the above A recognition unit for recognizing a property of an utterance, and a generation unit for generating a reaction to the recognized utterance based on the recognized attribute of each speaker or the property of the utterance.
  • FIG. 1 is a cross-sectional view of a vehicle according to an embodiment;
  • FIG. It is a figure which shows the outline
  • It is a block diagram which shows the flow of information processing which concerns on embodiment.
  • It is a figure which shows the structural example of the vehicle which concerns on embodiment.
  • It is a figure which shows an example of the user information storage part which concerns on embodiment.
  • It is a figure which shows an example of the external status memory
  • 4 is a flowchart showing the flow of information processing according to the embodiment;
  • It is a figure which shows the structural example of the imaging device which concerns on a modification.
  • FIG. 1 is a block diagram showing a schematic functional configuration example of a vehicle control system to which the present technology can be applied;
  • FIG. FIG. 4 is a diagram illustrating an example of a sensing area by a vehicle control system to which the present technology can be applied;
  • 1 is a hardware configuration diagram showing an example of a computer that implements functions of an information processing apparatus according to the present disclosure;
  • Embodiment 1-1 Outline of information processing according to present disclosure 1-2.
  • Configuration example of vehicle according to embodiment 1-3 Information processing procedure according to the embodiment 1-4.
  • a voice agent for example, a car navigation system installed in the car
  • the voice recognition accuracy of the voice agent may deteriorate.
  • the information processing apparatus solves the above problems by executing the processing described below. That is, the information processing device acquires the voices uttered by a plurality of speakers and the video of the state in which the speakers are speaking, and based on the acquired voices and videos, each of the plurality of speakers identify. Furthermore, the information processing device recognizes the utterances uttered by each of the specified speakers and the attributes of each speaker or the nature of the utterances, and based on the recognized attributes of the speakers or the nature of the utterances to generate responses to recognized utterances.
  • an information processing device uses lip-reading technology to read lip movements included in a video of a speaker and recognize the content of the speech, thereby complementing the content of the speech. To improve the accuracy of voice recognition even when voice recognition is difficult only with voice under low-light conditions.
  • the information processing device determines the priority of the response to the utterance by recognizing the attribute of the speaker (for example, the order among multiple people) from the voice and video of the speaker, and responds according to the priority. return it.
  • the information processing apparatus can improve the accuracy of speech recognition and can respond optimally to the recognized speech.
  • FIG. 1 An overview of information processing according to an embodiment of the present disclosure will be described with reference to FIGS. 1 and 2.
  • FIG. 1 An overview of information processing according to an embodiment of the present disclosure will be described with reference to FIGS. 1 and 2.
  • FIG. 1 An overview of information processing according to an embodiment of the present disclosure will be described with reference to FIGS. 1 and 2.
  • FIG. 1 is a cross-sectional view of vehicle 100 according to the embodiment.
  • a user 10 and a user 12 ride in a vehicle 100 together.
  • other users 11 and 13 also ride in the vehicle 100 (see FIG. 2).
  • users 10, 11, 12 and 13 are assumed to be family members.
  • user 10 is the father in the family
  • user 11 is the mother
  • user 12 is the older child
  • user 13 is the younger child.
  • users when there is no need to distinguish between them, they are collectively simply referred to as “users”.
  • vehicle 100 has a function as an information processing device according to the present disclosure, and executes information processing according to the embodiment by operating various functional units described later. As shown in FIG. 1 , vehicle 100 includes camera 201 and camera 202 .
  • the camera 201 and the camera 202 are, for example, a stereo camera capable of recognizing the distance to an object to be imaged or a camera with a depth sensor equipped with a ToF (Time of Flight) sensor.
  • the cameras 201 and 202 are provided in front of the vehicle 100, on the ceiling, in the rear seats, etc., so that a person inside the vehicle 100 can be detected without blind spots.
  • the cameras 201 and 202 are infrared cameras and may have a thermosensor (temperature detection) function. That is, the cameras 201 and 202 can recognize that the object captured inside the vehicle 100 is not the person shown on the screen, but the living body that actually exists.
  • vehicle 100 may include an infrared sensor or the like in addition to camera 201 and camera 202 to detect a person or the like.
  • the vehicle 100 is equipped with a microphone capable of acquiring voice.
  • Vehicle 100 recognizes the voice uttered by user 10 or the like, and generates various reactions to the recognized voice. For example, when the user 10 generates the name of the destination, the vehicle 100 displays a navigation display showing the destination to the destination on the front panel or other display unit (liquid crystal display or the like). That is, vehicle 100 functions as a voice agent (hereinafter simply referred to as "agent") having a voice dialogue function.
  • agent a voice agent having a voice dialogue function.
  • the vehicle 100 may include sensors that detect the temperature and humidity inside and outside the vehicle, noise, future weather trends, predicted increases in the temperature inside the vehicle, and the like. That is, the vehicle 100 can acquire various internal and external environment information. Such environment information is used for information processing, which will be described later.
  • the vehicle 100 continuously acquires the voice and video of the user 10, etc. inside the vehicle while it is running, and exhibits the agent function based on the voice and video. That is, when the user 10 or the like asks for the position of the destination and the arrival time, the vehicle 100 generates a response to the question, and outputs audio and video relating to the response. For example, the vehicle 100 audibly informs the user 10 of the time to reach the destination, or displays a map to the destination.
  • FIG. 2 is a diagram illustrating an overview of information processing according to the embodiment.
  • the vehicle 100 acquires the utterance 20 "I want to go to an amusement park!” After acquiring the utterance 20, the vehicle 100 acquires the utterance 21 "Let's go to a restaurant” uttered by the user 10. FIG. After acquiring the utterance 21, the vehicle 100 acquires the utterance 22 "I want to go to an amusement park” uttered by the user 11.
  • FIG. 1 After acquiring the utterance 20, the vehicle 100 acquires the utterance 22 "I want to go to an amusement park" uttered by the user 11.
  • the vehicle 100 acquires the video imaged by the camera 201 along with the sounds of the utterances 20, 21, and 22. Then, vehicle 100 identifies the person who made each utterance based on the video of each utterer when each utterance was made.
  • the vehicle 100 identifies that the subject of the utterance 20 is the user 12 by recognizing that the lips of the user 12 were moving when the voice of the utterance 20 was recognized.
  • the vehicle 100 identifies that the subject of the utterance 20 is the user 12 based on a match between the speech recognition content of the utterance 20 and the result of lip reading based on the movement of the lips of the user 12 .
  • the vehicle 100 uses a pre-learned image recognition model to determine the person whose lips were moving when the voice of the utterance 20 was recognized, thereby determining that the subject of the voice of the utterance 20 is the user 12. may be specified.
  • the vehicle 100 determines that the user 12 is the subject of the voice of the utterance 20 based on the learning result that the person located on the right side of the rear seat is the user 12 based on the image constantly captured by the camera 201. may be specified. That is, vehicle 100 identifies which person is the subject of the utterance by any method.
  • the vehicle 100 specifies that the subject of the utterance 20 is the user 12 , the subject of the utterance 21 is the user 10 , and the subject of the utterance 22 is the user 11 . Also, the vehicle 100 recognizes that the voice uttered by the user 13 could not be acquired (the user 13 did not speak).
  • the vehicle 100 After identifying the speaker, the vehicle 100 recognizes the attributes of each speaker. For example, vehicle 100 recognizes the order among speakers based on a rule in which the order is set for the specified speaker. In the example of FIG. 2 , the vehicle 100 is arranged in advance among a plurality of people in the vehicle, in order of user 11 (mother), user 10 (father), user 12 (older child), and user 13 (younger child). It is assumed that the rule setting is accepted. Note that the rule does not necessarily include the above four users. A rule that defines only ten orders may also be used. In the latter case, the vehicle 100 places a person who is presumed to be older as a result of image recognition higher in the order of users 12 and 13 that are not specified, or generates a reaction based on past learning results. The order may be defined by various methods, such as arranging the one with the larger number of entries higher.
  • the vehicle 100 recognizes the voice uttered by each utterer and semantically recognizes the content of the utterance. For example, vehicle 100 recognizes utterance 20 as meaning that user 12 wants to go to an amusement park. In this case, the vehicle 100 responds to the utterance 20 by starting navigation showing directions to the amusement park or providing information on nearby amusement parks. Also, the vehicle 100 recognizes that the utterance 21 means that the user 10 wants to go to a restaurant. In this case, the vehicle 100 responds to the utterance 21 by starting navigation showing directions to the restaurant or providing information on nearby restaurants. Also, the vehicle 100 recognizes the utterance 22 as meaning that the user 11 wants to go to the amusement park. In this case, the vehicle 100 responds to the utterance 22 by starting navigation showing directions to the amusement park or providing information on nearby amusement parks.
  • the vehicle 100 does not immediately generate a reaction based on each voice recognition, but determines the priority of outputting the reaction based on the order. For example, vehicle 100 preferentially outputs the response to the speaker of the highest order among the speakers.
  • the vehicle 100 preferentially generates and outputs a reaction to the utterance 22 of the user 11 who is the highest rank. Specifically, the vehicle 100 outputs a response 25 such as navigation display of directions to the "amusement park" and information on nearby amusement parks.
  • the vehicle 100 may generate a reaction for each recognized utterance instead of waiting for all utterances to end before generating a reaction.
  • vehicle 100 recognizes speech 20 and generates a reaction to speech 20 .
  • the vehicle 100 performs navigation display for an amusement park. After that, when the user 10 utters the utterance 21 "Let's go to a restaurant," the vehicle 100 cancels the reaction to the utterance 20 based on the order. That is, the vehicle 100 suspends the response to the utterance 20 and displays the navigation display showing directions to restaurants and the like. Furthermore, after this, when the user 11 makes the utterance 22 "I want to go to an amusement park," the vehicle 100 cancels the reaction to the utterance 21 based on the order.
  • vehicle 100 suspends the response to the utterance 21 and displays the navigation display indicating directions to the amusement park. In this manner, vehicle 100 may determine the priority of the reaction before outputting the reaction, or may output the reaction in order by canceling the reaction after outputting the reaction.
  • the vehicle 100 even when the three users 10, 11, and 12 speak substantially at the same time, the content of each speech can be identified by identifying each speaker. recognize accurately. For example, by using lip reading together, the vehicle 100 recognizes the utterance content of each speaker even in a situation where a plurality of voices are mixed. Furthermore, the vehicle 100 can generate a reaction more suited to the situation of the place by using the attribute of the speaker (the order in the example of FIG. 2). That is, the vehicle 100 can improve the accuracy of speech recognition and can respond optimally to the recognized speech.
  • the vehicle 100 may generate a reaction or determine the priority of the reaction according to not only the attributes of the speaker, but also the nature of the speech, the external environment, and the like.
  • the utterance properties are, for example, composition information of the uttered voice (sound pressure, pitch, degree of difference from the normal utterance of the speaker), and the speaker's emotion analyzed from the composition information of the voice. .
  • the vehicle 100 recognizes that the utterance has a sense of urgency or tightness due to the sound pressure of the utterance or the difference from the normal voice uttered by the person. If so, the priority of the reaction to that utterance is determined to be high. Specifically, when the user 10 shouts, "Be careful!" Instead, it generates a response to the user's 10 utterance, such as stopping the music playing in the vehicle 100 or issuing a predetermined warning.
  • the vehicle 100 may determine whether or not the utterance is directed at the agent as the nature of the utterance, and determine the priority of generation according to the determination result. For example, when the user 10 speaks toward the back seat, it is assumed that the speech is directed toward the user 12 or the user 13 instead of the agent. The vehicle 100 can determine from the image of the user 10 that the utterance is not directed to the agent, and may not generate a reaction to the utterance or lower the priority of the utterance. Note that the vehicle 100 may determine whether or not the utterance is directed toward the agent based on the direction of the user's line of sight, the direction of the face, the directivity of the voice, the content of the utterance, and the like.
  • the vehicle 100 may generate a reaction according to the external environment. For example, assume that the vehicle 100 has detected the approach of an emergency vehicle as an example of the external environment. In this case, even if there is an utterance in the vehicle, the vehicle 100 issues a predetermined warning such as "Please stop the vehicle” or stops the music in the vehicle, prior to responding to the utterance. to generate reactions such as Alternatively, if there is an utterance to turn up the volume of the music in the vehicle even in the middle of the night, the vehicle 100 gives priority to the response to the utterance and says, "This will be annoying any more.” You may generate
  • the vehicle 100 gives priority to the response to the utterance, saying, "I will go there.” It may generate a response that issues a predetermined warning, such as "It's dangerous.”
  • the vehicle 100 optimizes the reaction by generating various reactions based on the speech uttered by each speaker, the attributes of each speaker, the nature of the speech, the external environment, and the like. do.
  • FIG. 3 is a block diagram showing the flow of information processing according to the embodiment.
  • FIG. 3 shows an example of a configuration related to information processing and the flow of information processing in that configuration as a conceptual block diagram. It should be noted that each block shown in FIG. 3 conceptually shows each mechanism and each function for the purpose of explanation only, and may be accompanied by various modifications.
  • the vehicle 100 includes an imaging device 30.
  • the imaging device 30 includes an RGB stereo camera 31 , an infrared camera 32 and a thermosensor 33 .
  • the thermosensor 33 may be incorporated in the RGB stereo camera 31 or the like.
  • the vehicle 100 detects the illuminance with the RGB stereo camera 31, and when the illuminance is a predetermined value or more, the RGB stereo camera 31 captures an image of a person, and when the illuminance is the predetermined value or less (at night, etc.), the infrared camera 32 detects the illuminance. You may image a person. Further, the vehicle 100 determines with the thermosensor 33 or the like whether or not a person is actually present.
  • the data captured by the imaging device 30 is sent to the sensor fusion module 34 and processed.
  • the sensor fusion module 34 determines the location of a person or recognizes the person based on the images captured by the RGB stereo camera 31 or the infrared camera 32 .
  • the sensor fusion module 34 complements information on whether or not a person is present with information detected by the thermosensor 33 .
  • the sensor switching module 35 is a functional unit that switches the imaging device 30 for imaging a person according to environmental information such as illuminance and selects the imaging device 30 according to the situation.
  • the vehicle 100 may perform icon setting 36 regarding agents.
  • the icon setting 36 is processing for displaying an icon representing an agent on a liquid crystal display or the like. For example, in the personalization engine 43, which will be described later, whether or not the speaker is speaking to an icon representing an agent is used as a determination factor.
  • the vehicle 100 uses the recognizer 40 to perform personalized recognition of the speaker's voice and who the speaker is.
  • the recognizer 40 comprises a speech recognition module 41 , a lip reading module 42 and a personalization engine 43 .
  • the voice recognition module 41 acquires voice, recognizes the acquired voice, and analyzes the intent of the utterance.
  • the lip-reading module 42 uses lip-reading technology to recognize the voice uttered by the speaker and analyze the intention of the utterance.
  • the lip reading module 42 complements the processing of the speech recognition module 41, for example, in situations where acquisition by the speech recognition module 41 is difficult (such as in noisy environments).
  • the personalization engine 43 recognizes who the speaker is based on the voice acquired by the voice recognition module 41 and the video acquired by the sensor fusion module 34. Note that, as shown in FIG. 3, the speech recognition module 41, the lip reading module 42, and the personalization engine 43 are parallelized, and can recognize multiple people at the same time.
  • the information that has passed through the recognizer 40 is input to the priority engine 44.
  • a priority engine 44 prioritizes the generation of responses (eg, answers to utterances).
  • the priority engine 44 uses emotion 45, authority specification 46, and external status 47 as determination factors.
  • the emotion 45 is information indicating the user's sense of urgency or the like, which is analyzed from the nature of the utterance, the composition information of the voice, or the like.
  • the authority specification 46 is, for example, a ranking among users defined on a rule basis.
  • the external status 47 is the external environment such as the time of day and weather, external conditions such as the approach of an emergency vehicle, and the like.
  • the information that has passed through the priority engine 44 is input to the answer review engine 48.
  • the answer review engine 48 determines answer policy judgments 49 according to the priority.
  • the answer policy decision 49 is such that the priority and the generated answer are arranged in a format like a matrix 50 .
  • the answer consideration engine 48 passes the queue 50 formed in the answer policy judgment 49 to the execution engine 52 as an answer queue 51 .
  • the execution engine 52 acquires the queue 51 with the information acquisition module 53 .
  • the operation module 54 performs the actual operation according to the order of the queue 51 .
  • the operation module 54 executes specific operations related to the answers set in the queue 51, such as navigation display according to speech.
  • FIG. 4 is a diagram showing a configuration example of the vehicle 100 according to the embodiment of the present disclosure.
  • vehicle 100 has communication section 110 , storage section 120 , control section 130 , detection section 140 and output section 145 .
  • the configuration shown in FIG. 4 is a functional configuration, and the hardware configuration may differ from this.
  • the functions of vehicle 100 may be distributed and implemented in a plurality of physically separated devices.
  • the communication unit 110 is implemented by, for example, a network interface controller or NIC (Network Interface Card).
  • the communication unit 110 may be a USB interface configured by a USB (Universal Serial Bus) host controller, a USB port, or the like.
  • the communication unit 110 may be a wired interface or a wireless interface.
  • the communication unit 110 may be a wireless communication interface of a wireless LAN system or a cellular communication system.
  • Communication unit 110 functions as communication means or transmission means of vehicle 100 .
  • the communication unit 110 is connected to the network N by wire or wirelessly, and transmits/receives information to/from an external device such as a cloud server or another information processing terminal via the network N.
  • the network N is a generic term for networks to which the vehicle 100 is connected, such as the Internet and mobile phone communication networks.
  • the storage unit 120 is implemented by, for example, a semiconductor memory device such as RAM (Random Access Memory) or flash memory, or a storage device such as a hard disk or optical disk.
  • the storage unit 120 stores various data.
  • the storage unit 120 stores a learning device (determination model) that has learned a detection target, data related to a detected person, and the like.
  • the storage unit 120 may store map data or the like for executing navigation.
  • the storage unit 120 includes a user information storage unit 121, an external status storage unit 122, and a judgment model storage unit 123.
  • FIG. 5 is a diagram showing an example of the user information storage unit 121 according to the embodiment. As shown in FIG. 5, the user information storage unit 121 has items such as "user ID”, “attribute”, and "priority”.
  • User ID is identification information for identifying the user of the vehicle 100.
  • attribute indicates attributes of each user. In the example of FIG. 5, attributes within the family of the user 10 who is a family member are taken as an example. “Priority” indicates the priority (order) associated with the user.
  • FIG. 6 is a diagram showing an example of the external status storage unit 122 according to the embodiment.
  • the external status storage unit 122 has items such as "external status ID”, “content”, “priority”, and "correspondence list”.
  • “External status ID” is identification information that identifies an external status including the external environment, external situation, etc., which is used by the vehicle 100 to generate a reaction.
  • “Content” indicates the content of the external status.
  • “Priority” indicates the priority at which reactions regarding external status are generated.
  • the “response list” indicates specific contents of reactions that the vehicle 100 executes when the state of the external status is confirmed. For example, a correspondence list having a configuration of (vehicle speed, vehicle interior sound) and setting contents of (stop, mute) causes the vehicle 100 to stop as a reaction of the vehicle 100 when the content of the external status occurs. 100 indicates that the music or the like that is playing is stopped.
  • FIG. 7 is a diagram showing an example of the judgment model storage unit 123 according to the embodiment.
  • the determination model storage unit 123 has items such as "model ID”, "input”, and "determination content”.
  • Model ID indicates identification information that identifies the judgment model used for information processing.
  • Input indicates the type of information input to the decision model.
  • determination content indicates the determination content output from the determination model.
  • the determination model identified by the model ID “M01” is a model that outputs "person” as the determination result when "voice” is input. That is, the judgment model identified by the model ID “M01” is a trained model that has learned the voice of the user who uses the vehicle 100, and information for specifying the user when the voice of a certain user is input. (For example, a score indicating the possibility that the owner of the voice is the user 10). It does not matter what kind of learning method the judgment model was created by.
  • the vehicle 100 does not necessarily have to hold the determination model in its own device, and appropriately acquires a model capable of performing determination processing necessary for information processing from an external device or the like (for example, a cloud server that performs learning processing). You may
  • the detection unit 140 detects various types of information regarding the vehicle 100 . Specifically, the detection unit 140 detects the environment around the vehicle 100, the location information of the vehicle 100, the information related to the equipment connected to the vehicle 100, and the like. The detection unit 140 may be read as a sensor that detects various types of information.
  • an example of the detection unit 140 is a sensor having a function of capturing an image of the surroundings of the vehicle 100, a so-called camera.
  • the detection unit 140 corresponds to the cameras 201 and 202 shown in FIG. 1, the imaging device 30 shown in FIG. 3, and the like.
  • the detection unit 140 may also include a sensor for measuring the distance to objects inside the vehicle 100 and around the vehicle 100 .
  • the detection unit 140 may be a LiDAR (Light Detection and Ranging) that reads the three-dimensional structure of the surrounding environment of the vehicle 100 . LiDAR detects the distance and relative speed to an object by irradiating a surrounding object with a laser beam such as an infrared laser and measuring the time it takes for the beam to reflect and return.
  • the detection unit 140 may be a ranging system using a millimeter wave radar.
  • the detection unit 140 may include a depth sensor for acquiring depth data.
  • the detection unit 140 may include a sensor for measuring travel information of the vehicle 100, environment information, and the like.
  • the detection unit 140 detects behavior of the vehicle 100 .
  • the detection unit 140 is an acceleration sensor that detects vehicle acceleration, a gyro sensor that detects behavior, an IMU (Inertial Measurement Unit), or the like.
  • the detection unit 140 includes a microphone that collects sounds inside and outside the vehicle 100, an illuminance sensor that detects the illuminance around the vehicle 100, a humidity sensor that detects the humidity around the vehicle 100, and a sensor that detects the humidity around the vehicle 100.
  • a geomagnetic sensor or the like that detects the magnetic field at the location may be included.
  • the output unit 145 is a mechanism for outputting various information.
  • the output unit 145 includes a display unit 146 that displays video and an audio output unit 147 that outputs audio.
  • the display unit 146 is, for example, a liquid crystal display.
  • the display unit 146 displays an image captured by the detection unit 140, or displays a reaction generated in response to the user's speech, such as a navigation display.
  • the display unit 146 may also serve as a processing unit for receiving various operations from the user or the like who uses the vehicle 100 .
  • the display unit 146 may receive input of various types of information via key operations, a touch panel, or the like.
  • the audio output unit 147 is a so-called speaker unit and outputs various sounds.
  • the voice output unit 147 outputs voices of a voice agent mounted on the vehicle 100 and various reactions generated by the generation unit 134, which will be described later, as voices.
  • the output unit 145 is not limited to the display unit 146 and the audio output unit 147, and may include a light output unit that notifies various information by blinking light such as an LED, a projector that projects an image, and the like.
  • the control unit 130 stores a program (for example, an information processing program according to the present disclosure) stored inside the vehicle 100 by a CPU (Central Processing Unit), MPU (Micro Processing Unit), etc. is executed as a work area. Also, the control unit 130 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • a program for example, an information processing program according to the present disclosure
  • a CPU Central Processing Unit
  • MPU Micro Processing Unit
  • the control unit 130 is a controller, and may be realized by an integrated circuit such as an ASIC (Application Specific Integrated Circuit) or an FPGA (Field Programmable Gate Array).
  • ASIC Application Specific Integrated Circuit
  • FPGA Field Programmable Gate Array
  • control unit 130 has an acquisition unit 131, an identification unit 132, a recognition unit 133, and a generation unit 134, and implements or executes the information processing functions and actions described below.
  • the internal configuration of the control unit 130 is not limited to the configuration shown in FIG. 4, and may be another configuration as long as it performs information processing described later.
  • the acquisition unit 131 acquires various types of information. For example, the acquisition unit 131 acquires, via the detection unit 140, the voices uttered by a plurality of speakers and the images of the speakers speaking. Specifically, the acquisition unit 131 acquires the video imaged by the imaging device 30 installed in the vehicle 100 in which a plurality of speakers ride together.
  • the acquisition unit 131 acquires an image of the lips of the speaker as an image.
  • the subsequent processing unit can recognize the voice or identify the speaker by lip reading.
  • the acquisition unit 131 may detect the speaker through the temperature detection by the detection unit 140, and then acquire an image of the speaker speaking. Thereby, the acquiring unit 131 can acquire an image of a person who actually exists in the space, instead of a person who has moved to the television image.
  • the acquisition unit 131 may acquire the number of people inside the vehicle 100, their positions, the situation of the people inside the vehicle 100, and the like, based on the video. Specifically, the acquisition unit 131 acquires information about the positions of the plurality of speakers in the space where the plurality of speakers are located. As a result, even when the person cannot be clearly recognized from the video or the like, the processing unit at the later stage can usually guess that the person sitting in the backseat is the user 12 or 13 .
  • the acquisition unit 131 may acquire composition information of each voice uttered by a plurality of speakers. That is, the acquisition unit 131 acquires the sound pressure and pitch of the voice, the degree of difference from the normal utterance voice, and the like. For example, the acquisition unit 131 may determine the degree of difference between the normal uttered voice and the voice to be processed using a determination model obtained by learning the user's voice.
  • the acquisition unit 131 may acquire information about the environment of the space where a plurality of speakers are located. For example, the acquisition unit 131 acquires environment information inside the vehicle such as the temperature and humidity inside the vehicle 100 . In addition, the acquisition unit 131 acquires environment information outside the vehicle, such as the outside air temperature outside the vehicle 100 and predicted temperature rise. In addition, the acquisition unit 131 may acquire information such as the weather outside the vehicle, the time of day, and future weather from an external service server (such as a server that provides a weather service).
  • an external service server such as a server that provides a weather service.
  • the acquisition unit 131 may acquire information indicating whether or not a predetermined situation has occurred as information about the external environment. For example, the acquisition unit 131 may acquire information regarding a situation that an emergency vehicle is approaching or that an emergency situation (disaster, etc.) is occurring, as the detection result of the external environment.
  • the identifying unit 132 identifies each of the multiple speakers based on the audio and video acquired by the acquiring unit 131 .
  • the identifying unit 132 identifies each of a plurality of speakers based on images of the lips of the speakers. For example, the identifying unit 132 identifies a user whose lips are moving when the voice is uttered as the speaker of the voice. Alternatively, the identifying unit 132 identifies each of a plurality of speakers based on collating results of voice recognition and lip reading.
  • the recognition unit 133 recognizes the speech uttered by each speaker identified by the identification unit 132 and the attribute of each speaker or the nature of the speech.
  • the recognition unit 133 recognizes the speech uttered by each speaker based on the voice uttered by each speaker or the movement of the lips of each speaker. That is, the recognition unit 133 recognizes the content and intention of each speaker's utterance using either or both of voice recognition and lip reading recognition.
  • the recognition unit 133 may recognize attributes of a plurality of speakers based on information regarding the positions of the plurality of speakers in the vehicle 100 . That is, the recognition unit 133 recognizes in advance a user sitting in a front seat or a user sitting in a rear seat based on an image of the inside of the vehicle 100 at all times. Recognize user attributes based on location.
  • the recognition unit 133 may recognize the attributes of a plurality of speakers based on the composition information of each voice uttered by a plurality of speakers. That is, the recognizing unit 133 always acquires voices emitted inside the vehicle 100, learns the characteristics of the voices, and generates a determination model. Then, when a voice is input, the recognition unit 133 recognizes the speaker who uttered the voice and the attribute of the speaker based on the feature quantity such as the sound pressure and waveform of the voice. In this case, the recognizing unit 133 refers to the information in the user information storage unit 121 that holds rules defining attributes in advance together with the judgment model, thereby recognizing the attributes of the speaker more accurately. can be done.
  • the recognition unit 133 may recognize whether or not a plurality of speakers are requesting reaction generation based on the acquired audio and video. That is, the recognizing unit 133 recognizes whether the utterance is made to an agent or whether it is just a conversation between users based on the video and voice.
  • the recognition unit 133 recognizes whether or not a plurality of speakers are requesting reaction generation based on the direction of the line of sight or lips of the speaker in the acquired video. As an example, the recognizing unit 133 uses whether the voice is directed toward the icon of the agent (display of a microphone, etc.), or whether the user's line of sight is directed toward the icon, etc., as determination factors. You may recognize whether or not you are requesting reaction generation based on the direction of the line of sight or lips of the speaker in the acquired video. As an example, the recognizing unit 133 uses whether the voice is directed toward the icon of the agent (display of a microphone, etc.), or whether the user's line of sight is directed toward the icon, etc., as determination factors. You may recognize whether or not you are requesting
  • the recognition unit 133 determines whether or not a plurality of speakers are requesting reaction generation based on at least one of the content of the voice uttered by the speaker, the directivity of the voice, and the composition information of the voice. may be recognized. For example, the recognition unit 133 determines whether the speaker has uttered a voice while facing the agent side (for example, the output unit 145 of the vehicle 100, the camera 201, etc.) (whether the voice is oriented toward the installation target). As a factor, it recognizes whether or not the speaker wants to generate a response.
  • the agent side for example, the output unit 145 of the vehicle 100, the camera 201, etc.
  • the recognition unit 133 uses the determination model to determine the difference between composition information (pitch, etc.) when a speaker converses with other people and when the speaker utters a voice to a machine such as an agent. , based on the determined result, it may be recognized whether or not the speaker has spoken to the agent, that is, whether or not the speaker wishes to generate a reaction.
  • the recognition unit 133 may recognize the speaker's emotion in the speech uttered by each speaker as the nature of the speech. For example, the recognition unit 133 uses a determination model to determine that the utterance has a feature amount different from that of normal times, and based on this information, determines whether the utterer has a sense of urgency. etc.
  • the recognition unit 133 may recognize the speaker's emotion based on at least one of the speaker's expression, lip movement, and composition information of the voice in the utterance, as well as the voice. good.
  • the recognition unit 133 may use an image recognition model for determining facial expressions of the speaker to estimate the sense of urgency from the captured facial expression of the speaker.
  • the generation unit 134 generates a reaction to the recognized utterance based on the attributes of each speaker or the nature of the utterance recognized by the recognition unit 133 .
  • the generation unit 134 determines the priority of the reaction to the recognized utterance based on the attribute of each recognized utterer or the nature of the utterance.
  • the generation unit 134 may generate different reactions depending on whether or not multiple speakers request the generation of reactions. As an example, when the generation unit 134 recognizes that the speaker is not speaking to the agent, the generation unit 134 may not generate a response to the utterance, or may lower the priority of response generation.
  • the generation unit 134 may generate a reaction to the recognized utterance based on the priority linked to the attributes of each speaker. In other words, the generation unit 134 may determine the order of priority for generating reactions, or may preferentially output reactions to higher-ranked speakers according to the order of speakers.
  • the generating unit 134 may generate reactions to recognized utterances based on priorities determined according to the emotions of each speaker. That is, the generation unit 134 may preferentially generate a reaction to an utterance recognized as having a sense of urgency or urgency.
  • the generation unit 134 may generate a reaction to the recognized utterance based on the information about the external environment acquired by the acquisition unit 131 .
  • the generation unit 134 gives priority to the response to the speaker, You may generate a reaction corresponding to the event. Specifically, when the generation unit 134 detects the approach of an emergency vehicle or the like, it generates a response (stop of the vehicle 100, stop of music, etc.) corresponding to such a situation.
  • the generation unit 134 may generate a reaction corresponding to the time period or the weather. For example, when reactions to be generated in the late-night hours are specified, the generating unit 134 generates reactions according to such rules.
  • the generation unit 134 may also generate a reaction regarding the behavior of the vehicle 100 as a reaction to the recognized utterance.
  • the reaction related to the behavior of the vehicle includes control to stop the vehicle 100 as described above, automatic driving of the vehicle 100 according to the setting of the destination, and the like.
  • the output control unit 135 controls to output the reaction generated by the generation unit 134 to the output unit 145 .
  • the output control unit 135 outputs a reaction to the recognized utterance according to the priority determined by the generation unit 134 .
  • the output control unit 135 may control what kind of information is output from what kind of output unit 145 according to the priority.
  • the output control unit 135 preferably transmits information to the user quickly, outputs high-priority information as audio from the audio output unit 147, and displays other information on the display unit 146, and the like. may be controlled.
  • the output control unit 135 displays a video comment on the display unit 146 so as not to disturb the news sound.
  • the output destination may be controlled according to the priority of each user.
  • FIG. 8 is a flowchart showing the flow of information processing according to the embodiment.
  • the vehicle 100 determines whether or not the voice of the user located inside the vehicle 100 has been recognized (step S101). When the voice is not recognized (step S101; No), the vehicle 100 continues the process of waiting to recognize the voice.
  • step S101 determines whether the voice requests a reaction from the agent (step S102). If it is determined that the voice does not require a response from the agent (step S102; No), vehicle 100 does not generate a response and continues the process of waiting to recognize the voice.
  • the vehicle 100 identifies the speaker who uttered the voice among the plurality of speakers (step S103). Further, vehicle 100 determines priority based on the content of the speech and the speaker (step S104). For example, the vehicle 100 determines the priority based on the nature of speech and attributes of the speaker.
  • the vehicle 100 determines whether there is an external factor such as an approaching emergency vehicle (step S105). If there is an external element (step S105; Yes), the vehicle 100 compares the external element and execution priority (step S106). For example, if the external element is an element set to have a very high priority, such as "approaching emergency vehicle", the vehicle 100 increases the priority of reaction generation for the external element.
  • step S107 the vehicle 100 generates reactions in order of priority.
  • vehicle 100 outputs the generated reactions according to the order of priority (queue) (step S108). Accordingly, the vehicle 100 determines that one event of the reaction generation process has ended (step S109), and waits until the next sound is acquired.
  • vehicle 100 may perform voice recognition using predetermined dictionary data in addition to lip reading.
  • the vehicle 100 holds, as dictionary data, facilities frequently used by the user and terms frequently uttered by the user. As a result, even when the user utters a proper noun such as a facility, vehicle 100 can refer to the dictionary data to identify the term, thereby improving the accuracy of voice recognition.
  • the vehicle 100 may improve speech recognition accuracy using context information. For example, when a proper noun (restaurant name) is uttered to an agent while a conversation between users is about restaurants and meals, the vehicle 100 detects the proper noun of a nearby restaurant from the contextual information. Guessing that the possibility is high, complement the voice recognition by using the names of nearby restaurants. As a result, the vehicle 100 can reduce the probability of returning an error related to speech recognition and improve usability.
  • context information For example, when a proper noun (restaurant name) is uttered to an agent while a conversation between users is about restaurants and meals, the vehicle 100 detects the proper noun of a nearby restaurant from the contextual information. Guessing that the possibility is high, complement the voice recognition by using the names of nearby restaurants. As a result, the vehicle 100 can reduce the probability of returning an error related to speech recognition and improve usability.
  • the interior of the vehicle 100 is exemplified as a space where a plurality of speakers are located, but the information processing according to the embodiment can be applied to other than automobiles.
  • the information processing according to the embodiment may be executed in a conference room in which multiple people participate, or may be used in a web conference or the like.
  • the vehicle 100 reads the lips of the speaker.
  • the vehicle 100 may read not only the movement of the lips but also any information that forms the speaker's facial expression, such as facial muscles of the speaker. That is, the vehicle 100 may read the utterance content not only from the movement of the lips, but also from arbitrary information that can be acquired by a sensor such as a camera that captures an image of the utterer.
  • the imaging device 30 shown in FIG. 3 is an example of the camera 201 or the camera 202, that is, an example realized by the RGB stereo camera 31 or the like is shown.
  • the imaging device 30 according to the present disclosure has an automatic recognition model built into the image sensor, and by performing inference processing using the model, it is possible to detect and capture an object, a so-called AI image. It may be configured as a sensor. In this case, the imaging device 30 can recognize an object such as a person or lips and automatically capture an image of the recognized object without being controlled by the vehicle 100 .
  • FIG. 9 is a diagram showing a configuration example of an imaging device according to a modification.
  • FIG. 9 shows a detection device 300 as an example of an imaging device according to a modification.
  • the detection device 300 includes an image sensor 310. Although not shown in FIG. 9, the detection device 300 has an optical system for realizing functions as a digital camera, a communication system for communicating with the vehicle 100, a cloud server, and the like.
  • the image sensor 310 is, for example, a CMOS (Complementary Metal Oxide Semiconductor) image sensor composed of a chip, receives incident light from the optical system, performs photoelectric conversion, and outputs image data corresponding to the incident light. .
  • CMOS Complementary Metal Oxide Semiconductor
  • the image sensor 310 has a configuration in which a pixel chip 311 and a logic chip 312 are integrated via a connection portion 313 .
  • the image sensor 310 also has an image processing block 320 and a signal processing block 330 .
  • the pixel chip 311 has an imaging section 321 .
  • the imaging unit 321 is configured by arranging a plurality of pixels two-dimensionally.
  • the imaging unit 321 is driven by the imaging processing unit 322 to capture an image.
  • the imaging processing unit 322 Under the control of the imaging control unit 325, the imaging processing unit 322 performs driving of the imaging unit 321, AD (Analog to Digital) conversion of analog image signals output by the imaging unit 321, imaging signal processing, and the like. imaging processing related to imaging of the image of .
  • AD Analog to Digital
  • the captured image output by the imaging processing unit 322 is supplied to the output control unit 323 and also supplied to the image compression unit 335 . Also, the imaging processing unit 322 passes the captured image to the output I/F 324 .
  • the output control unit 323 selectively outputs the captured image from the imaging processing unit 322 and the signal processing result from the signal processing block 330 to the outside (in the embodiment, the vehicle 100 etc.) from the output I / F 324 control. That is, the output control unit 323 controls to selectively output at least one of the behavior data indicating the behavior of the detected object and the image to the outside.
  • the output control unit 323 selects the captured image from the imaging processing unit 322 or the signal processing result from the signal processing block 330 and supplies it to the output I/F 324 .
  • the output I/F 324 can output both data.
  • output I/F 324 can output only behavior data when vehicle 100 requests only behavior data. That is, the output I/F 324 can output only the signal processing result (behavior data) when the captured image itself is not required in the secondary analysis, so the amount of data to be output to the outside can be reduced. .
  • the signal processing block 330 has a CPU 331, a DSP 332, a memory 333, a communication I/F 334, an image compression section 335, and an input I/F.
  • the CPU 331 and DSP 332 recognize objects from images included in the image compression unit 335 using a pre-learning model incorporated in the memory 333 via the communication I/F 334 or input I/F 336 .
  • the CPU 331 and DSP 332 also acquire behavior data indicating the behavior of the recognized object.
  • the signal processing block 330 detects the behavior of the object contained in the image using the pre-learning model for recognizing the object in cooperation with each functional unit.
  • the detection device 300 can selectively output the image data obtained by the image processing block 320 and the behavior data obtained by the signal processing block 330 to the outside.
  • the detection device 300 may include various sensors in addition to the configuration shown in FIG.
  • the detection device 300 may include a ToF sensor, which is a depth sensor that measures the distance to an object located in space.
  • the detection device 300 can acquire not only two-dimensional point cloud data shown on the image but also three-dimensional point cloud data including height information as behavior data.
  • the configuration shown in FIG. 9 corresponds to, for example, the configuration of part of the vehicle 100 shown in FIG.
  • the detection device 300 can execute part of the processing of the acquisition unit 131 , the identification unit 132 , and the recognition unit 133 .
  • the information processing according to the present disclosure may be performed in cooperation with the vehicle 100 and the detection device 300 .
  • the vehicle 100 may be realized by an autonomous moving body that automatically drives.
  • vehicle 100 may have the configuration shown in FIGS. 10 and 11 in addition to the configuration shown in FIG.
  • each part shown below may be included in each part shown in FIG. 4, for example.
  • FIG. 10 is a block diagram showing a schematic functional configuration example of a vehicle control system 411 to which the present technology can be applied.
  • the vehicle control system 411 is provided in the vehicle 100 and performs processing related to driving support and automatic driving of the vehicle 100 .
  • the vehicle control system 411 includes a vehicle control ECU (Electronic Control Unit) 421, a communication unit 422, a map information accumulation unit 423, a GNSS (Global Navigation Satellite System) reception unit 424, an external recognition sensor 425, an in-vehicle sensor 426, a vehicle sensor 427, It has a recording unit 428 , a driving support/automatic driving control unit 429 , a DMS (Driver Monitoring System) 430 , an HMI (Human Machine Interface) 431 , and a vehicle control unit 432 .
  • vehicle control ECU Electronic Control Unit
  • communication unit 422 includes a communication unit 422, a map information accumulation unit 423, a GNSS (Global Navigation Satellite System) reception unit 424, an external recognition sensor 425, an in-vehicle sensor 426, a vehicle sensor 427, It has a recording unit 428 , a driving support/automatic driving control unit 429 , a DMS (Driver Monitoring System) 430 , an HMI (Hu
  • the vehicle control ECU 421, communication unit 422, map information accumulation unit 423, GNSS reception unit 424, external recognition sensor 425, in-vehicle sensor 426, vehicle sensor 427, recording unit 428, driving support/automatic driving control unit 429, DMS 430, HMI 431, and , and the vehicle control unit 432 are communicatively connected to each other via a communication network 441 .
  • the communication network 441 is, for example, a CAN (Controller Area Network), LIN (Local Interconnect Network), LAN (Local Area Network), FlexRay (registered trademark), Ethernet (registered trademark), and other digital two-way communication standards. It is composed of a communication network, a bus, and the like.
  • the communication network 441 may be used properly depending on the type of data to be communicated. For example, CAN is applied to data related to vehicle control, and Ethernet is applied to large-capacity data. Each part of the vehicle control system 411 performs wireless communication assuming relatively short-range communication such as near field communication (NFC (Near Field Communication)) or Bluetooth (registered trademark) without going through the communication network 441. may be connected directly using NFC (Near Field Communication) or Bluetooth (registered trademark) without going through the communication network 441.
  • NFC Near Field Communication
  • Bluetooth registered trademark
  • the vehicle control ECU 421 is composed of various processors such as a CPU (Central Processing Unit) and an MPU (Micro Processing Unit).
  • the vehicle control ECU 421 controls all or part of the functions of the vehicle control system 411 .
  • the communication unit 422 communicates with various devices inside and outside the vehicle, other vehicles, servers, base stations, etc., and transmits and receives various data. At this time, the communication unit 422 can perform communication using a plurality of communication methods.
  • the communication with the outside of the vehicle that can be performed by the communication unit 422 will be described schematically.
  • the communication unit 422 is, for example, 5G (5th generation mobile communication system), LTE (Long Term Evolution), DSRC (Dedicated Short Range Communications), etc., via a base station or access point, on the external network communicates with a server (hereinafter referred to as an external server) located in the external network.
  • the external network with which the communication unit 422 communicates is, for example, the Internet, a cloud network, or a provider's own network.
  • the communication method for communicating with the external network by the communication unit 422 is not particularly limited as long as it is a wireless communication method capable of digital two-way communication at a predetermined communication speed or higher and at a predetermined distance or longer.
  • the communication unit 422 can communicate with a terminal existing in the vicinity of the own vehicle using P2P (Peer To Peer) technology.
  • Terminals in the vicinity of one's own vehicle include, for example, terminals worn by pedestrians, bicycles, and other moving bodies that move at relatively low speeds, terminals installed at fixed locations such as stores, or MTC (Machine Type Communication).
  • MTC Machine Type Communication
  • the communication unit 422 can also perform V2X communication.
  • V2X communication includes, for example, vehicle-to-vehicle communication with other vehicles, vehicle-to-infrastructure communication with roadside equipment, etc., and vehicle-to-home communication , and communication between the vehicle and others, such as vehicle-to-pedestrian communication with a terminal or the like possessed by a pedestrian.
  • the communication unit 422 can receive from the outside a program for updating the software that controls the operation of the vehicle control system 411 (Over The Air).
  • the communication unit 422 can also receive map information, traffic information, information around the vehicle 100, and the like from the outside.
  • the communication unit 422 can transmit information about the vehicle 100, information about the surroundings of the vehicle 100, and the like to the outside.
  • the information about the vehicle 100 that the communication unit 422 transmits to the outside includes, for example, data indicating the state of the vehicle 100, recognition results by the recognition unit 473, and the like.
  • the communication unit 422 performs communication corresponding to a vehicle emergency notification system such as e-call.
  • the communication with the inside of the vehicle that can be performed by the communication unit 422 will be described schematically.
  • the communication unit 422 can communicate with each device in the vehicle using, for example, wireless communication.
  • the communication unit 422 performs wireless communication with devices in the vehicle using a communication method such as wireless LAN, Bluetooth, NFC, and WUSB (Wireless USB) that enables digital two-way communication at a communication speed higher than a predetermined value. can be done.
  • the communication unit 422 can also communicate with each device in the vehicle using wired communication.
  • the communication unit 422 can communicate with each device in the vehicle by wired communication via a cable connected to a connection terminal (not shown).
  • the communication unit 422 performs digital two-way communication at a predetermined communication speed or higher through wired communication, such as USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface) (registered trademark), and MHL (Mobile High-Definition Link). can communicate with each device in the vehicle.
  • wired communication such as USB (Universal Serial Bus), HDMI (High-Definition Multimedia Interface) (registered trademark), and MHL (Mobile High-Definition Link).
  • equipment in the vehicle refers to equipment not connected to the communication network 441 in the vehicle, for example.
  • in-vehicle devices include mobile devices and wearable devices possessed by passengers such as drivers, information devices that are brought into the vehicle and temporarily installed, and the like.
  • the communication unit 422 receives electromagnetic waves transmitted by a vehicle information and communication system (VICS (registered trademark)) such as radio beacons, optical beacons, and FM multiplex broadcasting.
  • VICS vehicle information and communication system
  • the map information accumulation unit 423 accumulates one or both of the map obtained from the outside and the map created by the vehicle 100 .
  • the map information accumulating unit 423 accumulates a three-dimensional high-precision map, a global map covering a wide area, and the like, which is lower in precision than the high-precision map.
  • High-precision maps are, for example, dynamic maps, point cloud maps, and vector maps.
  • the dynamic map is, for example, a map consisting of four layers of dynamic information, semi-dynamic information, semi-static information, and static information, and is provided to the vehicle 100 from an external server or the like.
  • a point cloud map is a map composed of a point cloud (point cloud data).
  • the vector map refers to a map adapted to ADAS (Advanced Driver Assistance System) in which traffic information such as lane and signal positions are associated with a point cloud map.
  • ADAS Advanced Driver Assistance System
  • the point cloud map and the vector map may be provided from an external server or the like, and based on the sensing results of the radar 452, LiDAR 453, etc., the vehicle 100 as a map for matching with a local map described later. It may be created and stored in the map information storage unit 423 . Further, when a high-precision map is provided from an external server or the like, in order to reduce the communication capacity, map data of, for example, several hundred meters square, regarding the planned route on which the vehicle 100 will travel from now on, is acquired from the external server or the like. .
  • the GNSS reception unit 424 receives GNSS signals from GNSS satellites and acquires position information of the vehicle 100 .
  • the received GNSS signal is supplied to the driving support/automatic driving control unit 429 .
  • the GNSS receiver 424 is not limited to a method using GNSS signals, and may acquire position information using beacons, for example.
  • the external recognition sensor 425 includes various sensors used for recognizing situations outside the vehicle 100 and supplies sensor data from each sensor to each part of the vehicle control system 411 .
  • the type and number of sensors included in the external recognition sensor 425 are arbitrary.
  • the external recognition sensor 425 includes a camera 451, a radar 452, a LiDAR (Light Detection and Ranging, Laser Imaging Detection and Ranging) 453, and an ultrasonic sensor 454.
  • the external recognition sensor 425 may be configured to include one or more types of sensors among the camera 451 , radar 452 , LiDAR 453 and ultrasonic sensor 454 .
  • the number of cameras 451 , radars 452 , LiDARs 453 , and ultrasonic sensors 454 is not particularly limited as long as it is a number that can be realistically installed in the vehicle 100 .
  • the type of sensor provided in the external recognition sensor 425 is not limited to this example, and the external recognition sensor 425 may be provided with other types of sensors. An example of the sensing area of each sensor included in the external recognition sensor 425 will be described later.
  • the shooting method of the camera 451 is not particularly limited as long as it is a shooting method that enables distance measurement.
  • the camera 451 may be a ToF (Time Of Flight) camera, a stereo camera, a monocular camera, an infrared camera, or any other type of camera as required.
  • the camera 451 is not limited to this, and may simply acquire a captured image regardless of distance measurement.
  • the external recognition sensor 425 can include an environment sensor for detecting the environment with respect to the vehicle 100.
  • the environment sensor is a sensor for detecting the environment such as weather, weather, brightness, etc., and can include various sensors such as raindrop sensors, fog sensors, sunshine sensors, snow sensors, and illuminance sensors.
  • the external recognition sensor 425 includes a microphone used for detecting sounds around the vehicle 100 and the position of the sound source.
  • the in-vehicle sensor 426 includes various sensors for detecting information inside the vehicle, and supplies sensor data from each sensor to each part of the vehicle control system 411 .
  • the types and number of various sensors included in in-vehicle sensor 426 are not particularly limited as long as they are the number that can be realistically installed in vehicle 100 .
  • the in-vehicle sensor 426 may comprise one or more sensors among cameras, radar, seating sensors, steering wheel sensors, microphones, and biosensors.
  • the camera provided in the in-vehicle sensor 426 for example, cameras of various shooting methods capable of distance measurement, such as a ToF camera, a stereo camera, a monocular camera, and an infrared camera, can be used. Not limited to this, the camera provided in the vehicle interior sensor 426 may simply acquire a captured image regardless of distance measurement.
  • the biosensors included in the in-vehicle sensor 426 are provided, for example, in seats, steering wheels, etc., and detect various biometric information of passengers such as the driver.
  • the vehicle sensor 427 includes various sensors for detecting the state of the vehicle 100, and supplies sensor data from each sensor to each section of the vehicle control system 411.
  • the types and number of various sensors included in vehicle sensor 427 are not particularly limited as long as they are the number that can be realistically installed in vehicle 100 .
  • the vehicle sensor 427 includes a velocity sensor, an acceleration sensor, an angular velocity sensor (gyro sensor), and an inertial measurement unit (IMU (Inertial Measurement Unit)) integrating them.
  • the vehicle sensor 427 includes a steering angle sensor that detects the steering angle of the steering wheel, a yaw rate sensor, an accelerator sensor that detects the amount of operation of the accelerator pedal, and a brake sensor that detects the amount of operation of the brake pedal.
  • the vehicle sensor 427 includes a rotation sensor that detects the number of revolutions of an engine or a motor, an air pressure sensor that detects tire air pressure, a slip rate sensor that detects a tire slip rate, and a wheel speed sensor that detects the rotational speed of a wheel.
  • a sensor is provided.
  • the vehicle sensor 427 includes a battery sensor that detects the remaining battery level and temperature, and an impact sensor that detects external impact.
  • the recording unit 428 includes at least one of a nonvolatile storage medium and a volatile storage medium, and stores data and programs.
  • the recording unit 428 is used, for example, as EEPROM (Electrically Erasable Programmable Read Only Memory) and RAM (Random Access Memory), and as a storage medium, magnetic storage devices such as HDD (Hard Disc Drive), semiconductor storage devices, optical storage devices, And a magneto-optical storage device can be applied.
  • the recording unit 428 records various programs and data used by each unit of the vehicle control system 411 .
  • the recording unit 428 includes an EDR (Event Data Recorder) and a DSSAD (Data Storage System for Automated Driving), and records information on the vehicle 100 before and after an event such as an accident and biometric information acquired by the in-vehicle sensor 426. .
  • EDR Event Data Recorder
  • DSSAD Data Storage System for Automated Driving
  • the driving support/automatic driving control unit 429 controls driving support and automatic driving of the vehicle 100 .
  • the driving support/automatic driving control unit 429 includes an analysis unit 461 , an action planning unit 462 and an operation control unit 463 .
  • the analysis unit 461 performs analysis processing of the vehicle 100 and its surroundings.
  • the analysis unit 461 includes a self-position estimation unit 471 , a sensor fusion unit 472 and a recognition unit 473 .
  • the self-position estimation unit 471 estimates the self-position of the vehicle 100 based on the sensor data from the external recognition sensor 425 and the high-precision map accumulated in the map information accumulation unit 423. For example, the self-position estimation unit 471 generates a local map based on sensor data from the external recognition sensor 425, and estimates the self-position of the vehicle 100 by matching the local map and the high-precision map. The position of the vehicle 100 is based on, for example, the center of the rear wheels versus the axle.
  • a local map is, for example, a three-dimensional high-precision map created using techniques such as SLAM (Simultaneous Localization and Mapping), an occupancy grid map, or the like.
  • the three-dimensional high-precision map is, for example, the point cloud map described above.
  • the occupancy grid map is a map that divides the three-dimensional or two-dimensional space around the vehicle 100 into grids (lattice) of a predetermined size and shows the occupancy state of objects in grid units.
  • the occupancy state of an object is indicated, for example, by the presence or absence of the object and the existence probability.
  • the local map is also used, for example, by the recognizing unit 473 to detect and recognize the situation outside the vehicle 100 .
  • the self-position estimation unit 471 may estimate the self-position of the vehicle 100 based on the GNSS signal and sensor data from the vehicle sensor 427.
  • the sensor fusion unit 472 combines a plurality of different types of sensor data (for example, image data supplied from the camera 451 and sensor data supplied from the radar 452) to perform sensor fusion processing to obtain new information.
  • Methods for combining different types of sensor data include integration, fusion, federation, and the like.
  • the recognition unit 473 executes a detection process for detecting the situation outside the vehicle 100 and a recognition process for recognizing the situation outside the vehicle 100 .
  • the recognition unit 473 performs detection processing and recognition processing of the situation outside the vehicle 100 based on information from the external recognition sensor 425, information from the self-position estimation unit 471, information from the sensor fusion unit 472, and the like. .
  • the recognition unit 473 performs detection processing and recognition processing of objects around the vehicle 100 .
  • Object detection processing is, for example, processing for detecting the presence or absence, size, shape, position, movement, and the like of an object.
  • Object recognition processing is, for example, processing for recognizing an attribute such as the type of an object or identifying a specific object.
  • detection processing and recognition processing are not always clearly separated, and may overlap.
  • the recognition unit 473 detects objects around the vehicle 100 by clustering the point cloud based on sensor data from the LiDAR 453, the radar 452, or the like for each point group cluster. Thereby, the presence/absence, size, shape, and position of an object around the vehicle 100 are detected.
  • the recognition unit 473 detects the movement of objects around the vehicle 100 by performing tracking that follows the movement of the masses of point groups classified by clustering. As a result, the speed and traveling direction (movement vector) of objects around the vehicle 100 are detected.
  • the recognition unit 473 detects or recognizes vehicles, people, bicycles, obstacles, structures, roads, traffic lights, traffic signs, road markings, etc. from the image data supplied from the camera 451 .
  • the types of objects around the vehicle 100 may be recognized by performing recognition processing such as semantic segmentation.
  • the recognition unit 473 based on the map accumulated in the map information accumulation unit 423, the estimation result of the self-position by the self-position estimation unit 471, and the recognition result of the object around the vehicle 100 by the recognition unit 473, Recognition processing of traffic rules around the vehicle 100 can be performed. Through this processing, the recognition unit 473 can recognize the position and state of traffic signals, the content of traffic signs and road markings, the content of traffic restrictions, and the lanes in which the vehicle can travel.
  • the recognition unit 473 can perform recognition processing of the environment around the vehicle 100 .
  • the surrounding environment to be recognized by the recognition unit 473 includes the weather, temperature, humidity, brightness, road surface conditions, and the like.
  • the action plan unit 462 creates an action plan for the vehicle 100.
  • the action planning unit 462 creates an action plan by performing route planning and route following processing.
  • path planning is the process of planning a rough route from the start to the goal. This route planning is referred to as a trajectory planning, and in the route planned in the route planning, trajectory generation (local path planning) processing is also included. Path planning may be distinguished from long-term path planning and activation generation from short-term path planning, or from local path planning.
  • a safety priority path represents a concept similar to launch generation, short-term path planning, or local path planning.
  • Route following is the process of planning actions to safely and accurately travel the route planned by route planning within the planned time.
  • the action planning unit 462 can, for example, calculate the target velocity and the target angular velocity of the vehicle 100 based on the result of this route following processing.
  • the motion control unit 463 controls the motion of the vehicle 100 in order to implement the action plan created by the action planning unit 462.
  • the operation control unit 463 controls a steering control unit 481, a brake control unit 482, and a drive control unit 483 included in the vehicle control unit 432, which will be described later, so that the trajectory calculated by the trajectory plan is controlled by the vehicle 100. Acceleration/deceleration control and direction control are performed so as to advance.
  • the operation control unit 463 performs cooperative control aimed at realizing ADAS functions such as collision avoidance or shock mitigation, follow-up running, vehicle speed maintenance running, collision warning of own vehicle, and lane deviation warning of own vehicle.
  • the operation control unit 463 performs cooperative control aimed at automatic driving in which the vehicle autonomously travels without depending on the operation of the driver.
  • the DMS 430 performs driver authentication processing, driver state recognition processing, etc., based on sensor data from the in-vehicle sensor 426 and input data input to the HMI 431, which will be described later.
  • the driver's condition to be recognized by the DMS 430 includes, for example, physical condition, wakefulness, concentration, fatigue, gaze direction, drunkenness, driving operation, posture, and the like.
  • the DMS 430 may perform authentication processing for passengers other than the driver and processing for recognizing the state of the passenger. Also, for example, the DMS 430 may perform a process of recognizing the situation inside the vehicle based on sensor data from the sensor 426 inside the vehicle. Conditions inside the vehicle to be recognized include temperature, humidity, brightness, smell, and the like, for example.
  • the HMI 431 inputs various data, instructions, etc., and presents various data to the driver.
  • the HMI 431 includes input devices for human input of data.
  • the HMI 431 generates an input signal based on data, instructions, etc. input from an input device, and supplies the input signal to each part of the vehicle control system 411 .
  • the HMI 431 includes operators such as touch panels, buttons, switches, and levers as input devices.
  • the HMI 431 is not limited to this, and may further include an input device capable of inputting information by a method other than manual operation using voice, gestures, or the like. Further, the HMI 431 may use, as an input device, a remote control device using infrared rays or radio waves, or an externally connected device such as a mobile device or wearable device corresponding to the operation of the vehicle control system 411 .
  • the presentation of data by the HMI 431 will be briefly explained.
  • the HMI 431 generates visual information, auditory information, and tactile information for the passenger or outside the vehicle.
  • the HMI 431 also performs output control for controlling the output, output content, output timing, output method, and the like of each of the generated information.
  • the HMI 431 generates and outputs visual information such as an operation screen, a status display of the vehicle 100, a warning display, an image such as a monitor image showing the situation around the vehicle 100, and information indicated by light.
  • the HMI 431 also generates and outputs information indicated by sounds such as voice guidance, warning sounds, and warning messages as auditory information.
  • the HMI 431 generates and outputs, as tactile information, information given to the passenger's tactile sense by force, vibration, movement, or the like.
  • a display device that presents visual information by displaying an image by itself or a projector device that presents visual information by projecting an image can be applied.
  • the display device displays visual information within the passenger's field of view, such as a head-up display, a transmissive display, or a wearable device with an AR (Augmented Reality) function. It may be a device.
  • the HMI 431 can also use a display device provided in the vehicle 100, such as a navigation device, an instrument panel, a CMS (Camera Monitoring System), an electronic mirror, a lamp, etc., as an output device for outputting visual information.
  • Audio speakers, headphones, and earphones can be applied as output devices for the HMI 431 to output auditory information.
  • a haptic element using haptic technology can be applied as an output device for the HMI 431 to output tactile information.
  • a haptic element is provided at a portion of the vehicle 100 that is in contact with a passenger, such as a steering wheel or a seat.
  • the vehicle control unit 432 controls each unit of the vehicle 100 .
  • the vehicle control section 432 includes a steering control section 481 , a brake control section 482 , a drive control section 483 , a body system control section 484 , a light control section 485 and a horn control section 486 .
  • the steering control unit 481 detects and controls the state of the steering system of the vehicle 100 .
  • the steering system includes, for example, a steering mechanism including a steering wheel, an electric power steering, and the like.
  • the steering control unit 481 includes, for example, a control unit such as an ECU that controls the steering system, an actuator that drives the steering system, and the like.
  • the brake control unit 482 detects and controls the state of the brake system of the vehicle 100 .
  • the brake system includes, for example, a brake mechanism including a brake pedal, an ABS (Antilock Brake System), a regenerative brake mechanism, and the like.
  • the brake control unit 482 includes, for example, a control unit such as an ECU that controls the brake system.
  • the drive control unit 483 detects and controls the state of the drive system of the vehicle 100 .
  • the drive system includes, for example, an accelerator pedal, a driving force generator for generating driving force such as an internal combustion engine or a driving motor, and a driving force transmission mechanism for transmitting the driving force to the wheels.
  • the drive control unit 483 includes, for example, a control unit such as an ECU that controls the drive system.
  • the body system control unit 484 detects and controls the state of the body system of the vehicle 100 .
  • the body system includes, for example, a keyless entry system, smart key system, power window device, power seat, air conditioner, air bag, seat belt, shift lever, and the like.
  • the body system control unit 484 includes, for example, a control unit such as an ECU that controls the body system.
  • the light control unit 485 detects and controls the states of various lights of the vehicle 100 .
  • Lights to be controlled include, for example, headlights, backlights, fog lights, turn signals, brake lights, projections, bumper displays, and the like.
  • the light control unit 485 includes a control unit such as an ECU that controls lights.
  • the horn control unit 486 detects and controls the state of the car horn of the vehicle 100 .
  • the horn control unit 486 includes, for example, a control unit such as an ECU that controls the car horn.
  • FIG. 11 is a diagram showing an example of sensing areas by the camera 451, radar 452, LiDAR 453, ultrasonic sensor 454, etc. of the external recognition sensor 425 in FIG. 11 schematically shows the vehicle 100 viewed from above, the left end side being the front end (front) side of the vehicle 100, and the right end side being the rear end (rear) side of the vehicle 100.
  • sensing region 101F and a sensing region 101B are examples of sensing regions of the ultrasonic sensor 454.
  • Sensing area 101F covers the front end periphery of vehicle 100 with a plurality of ultrasonic sensors 454 .
  • the sensing area 101B covers the periphery of the rear end of the vehicle 100 with a plurality of ultrasonic sensors 454 .
  • the sensing results in the sensing area 101F and the sensing area 101B are used, for example, for parking assistance of the vehicle 100 and the like.
  • Sensing areas 102F to 102B show examples of sensing areas of the radar 452 for short or medium range. Sensing area 102F covers the front of vehicle 100 to a position farther than sensing area 101F. Sensing area 102B covers the rear of vehicle 100 to a position farther than sensing area 101B. Sensing area 102L covers the rear periphery of the left side surface of vehicle 100 . The sensing area 102R covers the rear periphery of the right side surface of the vehicle 100 .
  • the sensing result in the sensing area 102F is used, for example, to detect vehicles, pedestrians, etc. existing in front of the vehicle 100, and the like.
  • the sensing result in the sensing area 102B is used, for example, for the rear collision prevention function of the vehicle 100 or the like.
  • the sensing results in sensing area 102L and sensing area 102R are used, for example, to detect an object in a blind spot on the side of vehicle 100, or the like.
  • Sensing areas 103F to 103B show examples of sensing areas by the camera 451. Sensing area 103F covers the front of vehicle 100 to a position farther than sensing area 102F. Sensing area 103B covers the rear of vehicle 100 to a position farther than sensing area 102B. Sensing area 103L covers the periphery of the left side surface of vehicle 100 . Sensing area 103R covers the periphery of the right side surface of vehicle 100 .
  • the sensing results in the sensing area 103F can be used, for example, for recognition of traffic lights and traffic signs, lane departure prevention support systems, and automatic headlight control systems.
  • a sensing result in the sensing area 103B can be used for parking assistance and a surround view system, for example.
  • Sensing results in the sensing area 103L and the sensing area 103R can be used, for example, in a surround view system.
  • the sensing area 104 shows an example of the sensing area of the LiDAR453. Sensing area 104 covers the front of vehicle 100 to a position farther than sensing area 103F. On the other hand, the sensing area 104 has a narrower lateral range than the sensing area 103F.
  • the sensing results in the sensing area 104 are used, for example, to detect objects such as surrounding vehicles.
  • a sensing area 105 shows an example of a sensing area of the long-range radar 452 .
  • Sensing area 105 covers the front of vehicle 100 to a position farther than sensing area 104 .
  • the sensing area 105 has a narrower lateral range than the sensing area 104 .
  • the sensing results in the sensing area 105 are used, for example, for ACC (Adaptive Cruise Control), emergency braking, and collision avoidance.
  • ACC Adaptive Cruise Control
  • emergency braking emergency braking
  • collision avoidance collision avoidance
  • the sensing regions of the camera 451, radar 452, LiDAR 453, and ultrasonic sensor 454 included in the external recognition sensor 425 may have various configurations other than those shown in FIG. Specifically, the ultrasonic sensor 454 may sense the sides of the vehicle 100 , and the LiDAR 453 may sense the rear of the vehicle 100 . Moreover, the installation position of each sensor is not limited to each example mentioned above. Also, the number of each sensor may be one or plural.
  • each component of each device illustrated is functionally conceptual and does not necessarily need to be physically configured as illustrated.
  • the specific form of distribution and integration of each device is not limited to the one shown in the figure, and all or part of them can be functionally or physically distributed and integrated in arbitrary units according to various loads and usage conditions. Can be integrated and configured.
  • the above-described embodiments and modifications can be appropriately combined within a range that does not contradict the processing content.
  • an automobile is taken as an example of a mobile object, but the information processing of the present disclosure can also be applied to mobile objects other than automobiles.
  • the mobile body may be a small vehicle such as a motorcycle or a tricycle, a large vehicle such as a bus or truck, a large aircraft such as a ship or an aircraft, or an autonomous mobile body such as a robot or drone.
  • the vehicle 100 is not necessarily integrated with the mobile body, and may be a cloud server or the like that acquires information from the mobile body via the network N and determines the removal range based on the acquired information.
  • the information processing apparatus (the vehicle 100 in the embodiment) according to the present disclosure includes an acquisition unit (the acquisition unit 131 in the embodiment), an identification unit (the identification unit 132 in the embodiment), a recognition unit (the In this example, the recognition unit 133) and the generation unit (the generation unit 134 in the embodiment) are provided.
  • the acquisition unit acquires voices uttered by a plurality of speakers and video images of the speakers speaking.
  • the identifying unit identifies each of the plurality of speakers based on the acquired audio and video.
  • the recognition unit recognizes an utterance uttered by each specified speaker, and the attribute of each speaker or the nature of the utterance.
  • the generator generates a reaction to the recognized utterance based on attributes of each recognized speaker or nature of the utterance.
  • the information processing apparatus acquires not only the voices of a plurality of speakers but also the images, and uses the acquired images to identify the speakers, thereby accurately recognizing the content of each utterance. . Further, the information processing apparatus can generate a reaction based on the attributes of each speaker and the nature of the speech, thereby making it possible to return an optimal reaction to the recognized voice.
  • the generator determines the priority of reaction to the recognized utterance based on the attribute of each recognized speaker or the nature of the utterance.
  • the information processing apparatus further includes an output control unit (output control unit 135 in the embodiment) that outputs a reaction to the recognized utterance according to the priority determined by the generation unit.
  • the information processing apparatus determines the priority based on the attributes of each speaker and the nature of the speech, so that even if speeches from a plurality of speakers are received at the same time, the information processing device can Optimal reaction can be generated.
  • the acquisition unit acquires an image of the speaker's lips as an image.
  • the identifying unit identifies each of the plurality of speakers based on the video of the lips of the speaker.
  • the information processing device can improve the accuracy of identification by identifying the speaker using not only the voice but also the video including the movement of the lips of the speaker.
  • the recognition unit recognizes the speech uttered by each speaker based on the voice uttered by each speaker or the movement of the lips of each speaker.
  • the information processing device can reliably perform speech recognition in line with the speaker's intention by recognizing not only speech but also video using lip reading technology.
  • the acquisition unit acquires a video of the speaker speaking.
  • the information processing apparatus recognizes the person who actually exists and then performs speech recognition, so that, for example, the information processing apparatus does not mistakenly recognize as the speaker the voice of a television image being reproduced by the person. , it is possible to accurately recognize only the utterances of the person at the location.
  • the acquisition unit acquires information about the positions of the plurality of speakers in the space where the plurality of speakers are located.
  • the recognition unit recognizes the attributes of a plurality of speakers based on the information regarding the positions of the plurality of speakers.
  • the information processing device can improve the accuracy of identifying the person even when recognition is difficult due to voice or lip movements.
  • the acquisition unit acquires composition information of each voice uttered by a plurality of speakers.
  • the recognition unit recognizes attributes of a plurality of speakers based on composition information of respective voices uttered by a plurality of speakers.
  • the information processing device can improve the accuracy of person recognition by recognizing the speaker's attributes (for example, whether the speaker is a father or a child) based on the voice feature amount.
  • the recognition unit recognizes whether or not multiple speakers request the generation of reactions based on the acquired voice and video.
  • the generation unit generates different reactions depending on whether or not multiple speakers request the generation of reactions.
  • the information processing device selectively generates a reaction to an utterance directed at the agent, thereby preventing the generation of a reaction to irrelevant utterances.
  • the recognition unit recognizes whether or not multiple speakers request the generation of reactions based on the direction of the line of sight or lips of the speaker in the acquired video.
  • the information processing device can improve the recognition accuracy by recognizing whether the utterance is directed at the agent based on not only the voice but also the line of sight of the speaker.
  • the recognition unit determines whether or not a plurality of speakers desire to generate a response based on at least one of the content of the voice uttered by the speaker, the directivity of the voice, and the composition information of the voice. recognize.
  • the information processing device recognizes the utterance based on the feature quantity, such as whether it is a conversation between people or a voice uttered when directed to an agent, so that the target of the utterance can be more accurately identified as the agent. It can be determined whether or not
  • the generation unit generates reactions to recognized utterances based on the priorities linked to the attributes of each speaker.
  • the information processing apparatus generates reactions in accordance with the order of priority, so that, among the speakers present at the location, the information processing device preferentially outputs the reaction to the user who has the decision-making authority.
  • Optimal interactive processing can be performed.
  • the recognition unit recognizes the speaker's emotion in the speech uttered by each speaker as the nature of the speech.
  • the generating unit generates reactions to recognized utterances based on priorities determined according to each speaker's emotion.
  • the information processing device can respond to emergencies by generating reactions according to emotions such as a sense of urgency and urgency.
  • the recognition unit recognizes the speaker's emotion based on at least one of the speaker's expression in the video, lip movement, and composition information of the voice in the speech.
  • the information processing device can respond in line with the speaker's emotions by performing generation processing after recognizing the speaker's emotions based on the video or the like.
  • the acquisition unit acquires information about the external environment of the space where the multiple speakers are located.
  • the generator generates a reaction to the recognized utterance based on the information about the external environment acquired by the acquirer.
  • the information processing device can generate a natural reaction that is more suited to the situation by performing the reaction generation process including the external environment.
  • the acquisition unit acquires information indicating whether or not a predetermined situation has occurred as information about the external environment.
  • the generation unit generates a reaction corresponding to the predetermined situation, prior to the response to the speaker, when it is determined that the predetermined situation has occurred.
  • the information processing device reacts in anticipation of various situations, such as the approach of an emergency vehicle, so that even in the event of an unusual situation, it is possible to respond appropriately to the situation.
  • the acquisition unit acquires information on the time zone or weather as information on the external environment.
  • the generator generates a reaction corresponding to the time of day or weather.
  • the information processing device can generate a reaction that is appropriate for the situation by generating a reaction that takes into account the time of day and the weather.
  • the acquisition unit acquires images captured by an imaging device installed in a vehicle in which a plurality of speakers ride together.
  • the generation unit generates a reaction regarding the behavior of the vehicle as a reaction to the recognized speech.
  • the information processing device generates responses to multiple speakers in the vehicle.
  • the information processing apparatus can generate a response suitable for the situation even in a situation where hearing is difficult due to noise or recognition is difficult due to multiple people speaking.
  • FIG. 12 is a hardware configuration diagram showing an example of a computer 1000 that implements the functions of the information processing apparatus according to the present disclosure.
  • a vehicle 100 according to an embodiment will be described below as an example of an information processing apparatus according to the present disclosure.
  • the computer 1000 has a CPU 1100 , a RAM 1200 , a ROM (Read Only Memory) 1300 , a HDD (Hard Disk Drive) 1400 , a communication interface 1500 and an input/output interface 1600 .
  • Each part of computer 1000 is connected by bus 1050 .
  • the CPU 1100 operates based on programs stored in the ROM 1300 or HDD 1400 and controls each section. For example, the CPU 1100 loads programs stored in the ROM 1300 or HDD 1400 into the RAM 1200 and executes processes corresponding to various programs.
  • the ROM 1300 stores a boot program such as BIOS (Basic Input Output System) executed by the CPU 1100 when the computer 1000 is started, and programs dependent on the hardware of the computer 1000.
  • BIOS Basic Input Output System
  • the HDD 1400 is a computer-readable recording medium that non-temporarily records programs executed by the CPU 1100 and data used by such programs.
  • HDD 1400 is a recording medium that records an information processing program according to the present disclosure, which is an example of program data 1450 .
  • a communication interface 1500 is an interface for connecting the computer 1000 to an external network 1550 (for example, the Internet).
  • CPU 1100 receives data from another device via communication interface 1500, and transmits data generated by CPU 1100 to another device.
  • the input/output interface 1600 is an interface for connecting the input/output device 1650 and the computer 1000 .
  • the CPU 1100 receives data from input devices such as a keyboard and mouse via the input/output interface 1600 .
  • the CPU 1100 also transmits data to an output device such as a display, speaker, or printer via the input/output interface 1600 .
  • the input/output interface 1600 may function as a media interface for reading a program or the like recorded on a predetermined recording medium.
  • Media include, for example, optical recording media such as DVD (Digital Versatile Disc) and PD (Phase change rewritable disk), magneto-optical recording media such as MO (Magneto-Optical disk), tape media, magnetic recording media, semiconductor memories, etc. is.
  • the CPU 1100 of the computer 1000 implements the functions of the control unit 130 and the like by executing an information processing program loaded on the RAM 1200.
  • the HDD 1400 also stores an information processing program according to the present disclosure and data in the storage unit 120 .
  • CPU 1100 reads and executes program data 1450 from HDD 1400 , as another example, these programs may be obtained from another device via external network 1550 .
  • the present technology can also take the following configuration.
  • an acquisition unit that acquires voices uttered by a plurality of speakers and images of the state in which the speakers are speaking; an identifying unit that identifies each of the plurality of speakers based on the acquired audio and video; a recognition unit that recognizes an utterance uttered by each of the specified speakers and attributes of each of the speakers or the nature of the utterance; a generation unit that generates a reaction to the recognized utterance based on the attribute of each recognized utterance or the nature of the utterance; Information processing device.
  • the generating unit determining the priority of reaction to the recognized utterance based on the attribute of each recognized utterer or the nature of the utterance; Further comprising an output control unit that outputs a reaction to the recognized utterance according to the priority determined by the generation unit, The information processing device according to (1) above.
  • the acquisition unit Obtaining, as the video, a video of the lips of the speaker, The identification unit Identifying each of the plurality of speakers based on a video of the lips of the speaker; The information processing apparatus according to (1) or (2).
  • the recognition unit Recognizing the speech uttered by each speaker based on the voice uttered by each speaker or the movement of the lips of each speaker; The information processing device according to (3) above.
  • the acquisition unit After detecting the speaker by temperature detection, acquiring a video of the speaker speaking.
  • the information processing apparatus according to any one of (1) to (4).
  • the acquisition unit Acquiring information about the positions of the plurality of speakers in the space where the plurality of speakers are located;
  • the recognition unit recognizing the attributes of the plurality of speakers based on the information about the locations of the plurality of speakers;
  • the information processing apparatus according to any one of (1) to (5).
  • the acquisition unit Acquiring composition information of each voice uttered by the plurality of speakers;
  • the recognition unit Recognizing the attributes of the plurality of speakers based on the composition information of each voice uttered by the plurality of speakers;
  • the information processing apparatus according to any one of (1) to (6).
  • the recognition unit recognizing whether the plurality of speakers desire to generate a response based on the obtained audio and video; The generating unit generating different responses depending on whether the plurality of speakers desires to generate a response; The information processing apparatus according to any one of (1) to (7).
  • the recognition unit Recognizing whether or not the plurality of speakers desire to generate a reaction based on the direction of the line of sight or lips of the speaker in the acquired video; The information processing device according to (8) above.
  • the recognition unit recognizing whether or not the plurality of speakers desire to generate a response based on at least one of the content of the voice uttered by the speaker, the directivity of the voice, and the composition information of the voice; The information processing apparatus according to (8) or (9).
  • the generating unit generating a reaction to the recognized utterance based on the priority associated with each speaker's attributes; The information processing apparatus according to any one of (1) to (10).
  • the recognition unit recognizing the speaker's emotion in the speech uttered by each of the speakers as the nature of the speech; The generating unit generating a reaction to the recognized utterance based on a priority determined according to each speaker's emotion; The information processing apparatus according to any one of (1) to (11).
  • the recognition unit Recognizing the speaker's emotion based on at least one of the facial expression of the speaker in the video, the movement of the lips, and the composition information of the voice in the utterance; The information processing device according to (12) above.
  • the acquisition unit Acquiring information about the external environment of the space where the plurality of speakers are located; The generating unit generating a reaction to the recognized utterance based on the information about the external environment acquired by the acquisition unit; The information processing apparatus according to any one of (1) to (13).
  • the acquisition unit Acquiring information indicating whether or not a predetermined situation has occurred as information about the external environment, The generating unit When it is determined that the predetermined situation has occurred, generating a reaction corresponding to the predetermined situation in preference to a response to the speaker; The information processing device according to (14) above.
  • the acquisition unit Acquiring information about the time zone or weather as the information about the external environment, The generating unit generating a response corresponding to said time of day or weather; The information processing apparatus according to (14) or (15).
  • the acquisition unit Acquiring the video imaged by an imaging device installed in a vehicle in which the plurality of speakers ride together, The generating unit generating a reaction related to the behavior of the vehicle as a reaction to the recognized utterance; The information processing apparatus according to any one of (1) to (16).

Landscapes

  • Engineering & Computer Science (AREA)
  • Health & Medical Sciences (AREA)
  • Audiology, Speech & Language Pathology (AREA)
  • Human Computer Interaction (AREA)
  • Physics & Mathematics (AREA)
  • Acoustics & Sound (AREA)
  • Multimedia (AREA)
  • Computational Linguistics (AREA)
  • User Interface Of Digital Computer (AREA)

Abstract

本開示に係る情報処理装置(100)は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部(131)と、前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部(132)と、前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部(133)と、前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部(134)と、を備える。

Description

情報処理装置、情報処理方法および情報処理プログラム
 本開示は、音声認識および認識した音声に対する反応処理を実行する情報処理装置、情報処理方法および情報処理プログラムに関する。
 近年、AIによる音声認識や、音声認識した発話に対して応答を行う発話応答処理が盛んに利用されている。かかる処理では、ユーザが発話した内容に対して自然な応答をすること、および、正確な音声認識を行うことが求められる。
 例えば、予め対話のシナリオをデータとして保持することで、ユーザとの対話状況に応じて発話内容を臨機応変に変える技術が知られている(例えば、特許文献1)。また、音声認識の精度を上げる手法として、発話者の唇の動きを読み取って発話者の状態を検出したり、音声認識を開始したりする技術が知られている(例えば、特許文献2や特許文献3)。
特開2004-109323号公報 特開2019-125241号公報 特開2019-128938号公報
 しかしながら、音声認識を行ったうえで内容に沿った反応を返す処理を実行する場合、認識性を向上させるのみでは適切な反応を返すことができない可能性がある。例えば、自動車内で、同乗する複数の人間の発話に基づいてAIが目的地を検索したり、行先を決定したりする場合、音声が混同してしまったり、発話の意図を汲みとれなかったりするおそれがある。
 そこで、本開示では、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる情報処理装置、情報処理方法および情報処理プログラムを提案する。
 上記の課題を解決するために、本開示に係る一形態の情報処理装置は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、を備える。
実施形態に係る車両の断面図である。 実施形態に係る情報処理の概要を示す図である。 実施形態に係る情報処理の流れを示すブロック図である。 実施形態に係る車両の構成例を示す図である。 実施形態に係るユーザ情報記憶部の一例を示す図である。 実施形態に係る外部ステータス記憶部の一例を示す図である。 実施形態に係る判定モデル記憶部の一例を示す図である。 実施形態に係る情報処理の流れを示すフローチャートである。 変形例に係る撮像器の構成例を示す図である。 本技術が適用され得る車両制御システムの概略的な機能の構成例を示すブロック図である。 本技術が適用され得る車両制御システムによるセンシング領域の例を示す図である。 本開示に係る情報処理装置の機能を実現するコンピュータの一例を示すハードウェア構成図である。
 以下に、本開示の実施形態について図面に基づいて詳細に説明する。なお、以下の各実施形態において、同一の部位には同一の符号を付することにより重複する説明を省略する。
 以下に示す項目順序に従って本開示を説明する。
  1.実施形態
   1-1.本開示に係る情報処理の概要
   1-2.実施形態に係る車両の構成例
   1-3.実施形態に係る情報処理の手順
   1-4.実施形態に係る変形例
  2.その他の実施形態
   2-1.変形例に係る撮像器の構成
   2-2.移動体の構成
   2-3.その他
  3.本開示に係る情報処理装置の効果
  4.ハードウェア構成
(1.実施形態)
(1-1.本開示に係る情報処理の概要)
 本開示に係る情報処理は、例えば自動車内等の空間において複数の人物が発話した場合に、各々の発話者を特定したうえで各々の発話を認識し、認識した発話に対する反応を生成するものである。
 例えば、自動車内など比較的騒音の大きい空間では、音声認識を正確に行うことが難しい傾向にある。また、自動車内などの閉鎖空間では、複数の人物が同じ音声エージェント(例えば、車内に搭載されたカーナビゲーションシステム)を同時に利用することが多い。この場合、同時に複数人の発話を認識することになるため、音声エージェントの音声認識精度が低下するおそれがある。
 さらに、発話者ごとの音声認識が可能であった場合も、音声エージェントは、それに対してどのような反応をすればよいのか判定が難しい。例えば、音声エージェントは、車内に所在する複数の人物から同時に異なる質問を受けた場合に、どの質問に反応すべきかを判定することが難しく、結果としてエラー(「音声を認識できませんでした」などの反応)を返すことになる。このように、特に自動車内などの閉鎖空間で複数人が所在する状況において、正確な音声認識を行うことが難しいという課題がある。
 本開示に係る情報処理装置は、以下に説明する処理を実行することにより、上記課題を解決する。すなわち、情報処理装置は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とをそれぞれ取得し、取得した音声および映像に基づいて、複数の発話者の各々を特定する。さらに、情報処理装置は、特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質をそれぞれ認識し、認識した各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。
 例えば、情報処理装置は、発話者の映像に含まれる口唇の動きを読み取って発話内容を認識するリップリーディング(lip-reading)技術を用いて発話内容を補完することで、自動車内などの騒音環境下において音声のみでの音声認識が困難な場合にも、音声認識の精度を向上させる。また、情報処理装置は、発話者の音声および映像から、発話者の属性(例えば、複数人間での序列)を認識することで、発話に対する反応の優先度を決定し、優先度に応じて反応を返す。これにより、情報処理装置は、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる。
 以下、本開示に係る情報処理について詳細に説明する。まず、図1および図2を用いて、本開示の実施形態に係る情報処理の概要を説明する。
 実施形態では、本開示に係る情報処理装置として、自動車である車両100を例に挙げる。図1は、実施形態に係る車両100の断面図である。図1に示すように、車両100には、ユーザ10、ユーザ12が同乗する。なお、図1での図示は省略するが、車両100には、他のユーザ11およびユーザ13も同乗する(図2参照)。
 実施形態において、ユーザ10、ユーザ11、ユーザ12およびユーザ13は、家族であるものとする。例えば、ユーザ10は家族における父親であり、ユーザ11は母親であり、ユーザ12は年長の子供であり、ユーザ13は年少の子供である。以下では、各々を区別する必要のない場合、単に「ユーザ」と総称する。
 車両100は、本開示に係る情報処理装置としての機能を有し、後述する各種機能部を動作することにより、実施形態に係る情報処理を実行する。図1に示すように、車両100は、カメラ201およびカメラ202を備える。
 カメラ201およびカメラ202は、例えば、撮像対象とする物体までの距離を認識可能なステレオカメラやToF(Time of Flight)センサを備える深度センサ付きカメラである。カメラ201やカメラ202は、車両100の前方や、天井、後部座席等に備えられることで、車両100の内部に所在する人物を死角なく検出可能である。なお、カメラ201およびカメラ202は、赤外線カメラであり、サーモセンサ(温度検知)の機能を備えてもよい。すなわち、カメラ201およびカメラ202は、車両100の内部で撮像した対象が、画面に映った人間ではなく、実際に所在する生体であることを認識可能である。なお、カメラ201およびカメラ202は、赤外線に限らず、ミリ波による生体信号検出等の各種機能を備えてもよい。また、車両100は、カメラ201およびカメラ202とは別に赤外線センサ等を備えることで、人物の検出等を行ってもよい。
 また、車両100は、音声を取得可能なマイクロホンを備える。車両100は、ユーザ10等が発した音声を認識し、認識した音声に対して種々の反応を生成する。例えば、車両100は、ユーザ10が目的地の名称を発生すると、その目的地までの行先を示すナビゲーション表示をフロントパネル等の表示部(液晶ディスプレイ等)に表示する。すなわち、車両100は、音声対話機能を有する音声エージェント(以下、単に「エージェント」と称する)としての機能を有する。
 また、車両100は、車内および外部の温度や湿度、騒音、今後の天気の動向、車内温度の上昇予測等を検知するセンサを備えてもよい。すなわち、車両100は、各種の内部および外部環境情報を取得可能である。かかる環境情報は、後述する情報処理に利用される。
 車両100は、走行中、継続的に車内のユーザ10等の音声および映像を取得し、音声および映像に基づいて、エージェント機能を発揮する。すなわち、車両100は、ユーザ10等から目的地の位置や到達時間を求められた場合に、かかる質問への反応を生成し、反応に係る音声や映像を出力する。例えば、車両100は、目的地までの時間を音声でユーザ10に伝えたり、目的地までの地図を表示したりする。
 次に、図2を用いて、車両100が複数の人物に対する反応を生成する処理について説明する。図2は、実施形態に係る情報処理の概要を示す図である。
 図2に示す例では、車両100は、ユーザ12が発話した「遊園地に行きたい!」という発話20を取得する。車両100は、発話20を取得したのち、ユーザ10が発話した「レストランに行こう」という発話21を取得する。車両100は、発話21を取得したのち、ユーザ11が発話した「遊園地に行きたいね」という発話22を取得する。
 車両100は、このとき、発話20、発話21、発話22の音声とともに、カメラ201によって撮像された映像を取得する。そして、車両100は、それぞれの発話が行われた際の各発話者の映像に基づいて、各々の発話を行った人物を特定する。
 例えば、車両100は、発話20の音声が認識された際に、ユーザ12の口唇が動いていたことを認識することで、発話20の主体がユーザ12であることを特定する。あるいは、車両100は、発話20の音声認識の内容と、ユーザ12の口唇が動きに基づくリップリーディングの結果との一致に基づいて、発話20の主体がユーザ12であることを特定する。
 あるいは、車両100は、発話20の音声が認識された際に口唇が動いていた人物を、事前学習した画像認識モデルを用いて判別することにより、発話20の音声の主体がユーザ12であると特定してもよい。また、車両100は、カメラ201によって常時撮像される映像に基づいて、後部座席右側に所在する人物はユーザ12であるとする学習結果に基づいて、発話20の音声の主体がユーザ12であると特定してもよい。すなわち、車両100は、任意の手法により、発話の主体がいずれの人物であるかを特定する。具体的には、車両100は、発話20の主体がユーザ12であり、発話21の主体がユーザ10であり、発話22の主体がユーザ11であることを特定する。また、車両100は、ユーザ13からは発せられた音声が取得できなかった(発話が行われなかった)ことを認識する。
 発話者を特定すると、車両100は、各々の発話者の属性を認識する。例えば、車両100は、特定した発話者において序列が設定されたルールに基づいて、発話者間の序列を認識する。図2の例では、車両100は、予め、車内に所在する複数人において、ユーザ11(母親)、ユーザ10(父親)、ユーザ12(年長の子供)、ユーザ13(年少の子供)という序列であるというルール設定を受け付けているものとする。なお、ルールは、必ずしも上記4人のユーザが含まれるというものではなく、例えば、ユーザ13の下の序列に「不特定人物」といったユーザが含まれていてもよいし、例えば、ユーザ11およびユーザ10の序列のみを規定したルールであってもよい。後者の場合、車両100は、規定されていないユーザ12とユーザ13の序列について、画像認識の結果、年長と推定される人物を上位に配したり、過去の学習結果に基づいて反応を生成した数の多かった方を上位に配したり、様々な手法で序列を規定してもよい。
 また、車両100は、各々の発話者が発した音声を認識し、その発話の内容を意味認識する。例えば、車両100は、発話20はユーザ12が遊園地に行きたがっていることを意味認識する。この場合、車両100は、発話20への反応として、遊園地までの行き方を示すナビゲーションを開始したり、近隣の遊園地に関する情報を提供したりといった反応を生成する。また、車両100は、発話21はユーザ10がレストランに行きたがっていることを意味認識する。この場合、車両100は、発話21への反応として、レストランまでの行き方を示すナビゲーションを開始したり、近隣のレストランに関する情報を提供したりといった反応を生成する。また、車両100は、発話22はユーザ11が遊園地に行きたがっていることを意味認識する。この場合、車両100は、発話22への反応として、遊園地までの行き方を示すナビゲーションを開始したり、近隣の遊園地に関する情報を提供したりといった反応を生成する。
 このとき、車両100は、それぞれの音声認識に基づく反応をすぐに生成するのではなく、序列に基づいて、反応を出力する優先度を決定する。例えば、車両100は、各々の発話者のうち、最も上位の発話者に対する反応を優先的に出力する。
 すなわち、図2の例では、車両100は、最も上位であるユーザ11の発話22に対する反応を優先的に生成し、出力する。具体的には、車両100は、「遊園地」への行き方をナビ表示したり、近隣の遊園地の情報を提供したりするといった、反応25を出力する。
 なお、車両100は、すべての発話が終了するのを待ってから反応を生成するのではなく、認識した発話ごとに反応を生成してもよい。例えば、車両100は、発話20を認識し、発話20に対する反応を生成する。具体的には、車両100は、遊園地へのナビ表示などを行う。このあと、ユーザ10が「レストランに行こう」という発話21をしたことにより、車両100は、序列に基づき、発話20への反応をキャンセルする。すなわち、車両100は、発話20に対する反応を中断し、レストランへの行き方などを示すナビ表示をする。さらに、このあと、ユーザ11が「遊園地に行きたいね」という発話22をしたことにより、車両100は、序列に基づき、発話21への反応をキャンセルする。すなわち、車両100は、発話21に対する反応を中断し、遊園地への行き方などを示すナビ表示をする。このように、車両100は、反応の優先度を決定してから反応を出力してもよいし、出力したのちに反応をキャンセルするなどして、序列に沿った反応を出力してもよい。
 このように、実施形態に係る車両100によれば、3人のユーザ10、ユーザ11、ユーザ12がほぼ同時に発話を行った場合でも、それぞれの発話者を特定することで、それぞれの発話内容を正確に認識する。例えば、車両100は、リップリーディングを併用することで、複数の音声が混在している状況下でも、発話者ごとの発話内容を認識する。さらに、車両100は、発話者の属性(図2の例では序列)を利用することで、より場の状況に応じた反応を生成することができる。すなわち、車両100は、音声認識の精度を向上させるとともに、認識した音声に対して最適な反応を返すことができる。
 なお、車両100は、発話者の属性のみならず、発話の性質や、外部環境等に応じて、反応を生成したり、反応の優先度を決定てもよい。発話の性質とは、例えば、発話された音声の組成情報(音圧、音程、通常の発話者の発話との相違度)や、音声の組成情報等から解析される発話者の感情等である。
 例えば、車両100は、序列が低いユーザが発した発話であったとしても、その発話の音圧や、通常のその人物が発する音声との相違から、発話に緊迫感や逼迫感があると認識した場合、その発話への反応の優先度を高く判定する。具体的には、車両100は、ユーザ10が「気を付けて!」と車内の人物に大声で注意を促した場合、他の人物が発話中であったとしても、その発話への反応を生成せず、代わりに車両100に流れている音楽を止めたり、所定の警告を発したりといった、ユーザ10の発話への反応を生成する。
 また、車両100は、発話の性質として、発話がエージェントに向けられたものか否かを判定し、判定結果に応じて生成の優先度を決定してもよい。例えば、ユーザ10が後部座席に向かった発話した場合、その発話は、エージェントではなくユーザ12やユーザ13に向けて発話したと想定される。車両100は、ユーザ10を撮像した映像から、その発話がエージェントに向けられていないと判定し、その発話への反応を生成しなかったり、優先度を下げたりすることができる。なお、車両100は、ユーザの視線の向きや顔の向き、音声の指向性、発話の内容等に基づいて、発話がエージェントに向けられているか否かを判定してもよい。
 また、車両100は、外部環境に応じて反応を生成してもよい。例えば、車両100は、外部環境の一例として、緊急車両の接近を検知したとする。この場合、車両100は、車内で発話があったとしても、その発話への反応よりも優先して、「車両を停止してください」など所定の警告を発したり、車内の音楽を停止させたりするなどの反応を生成する。あるいは、車両100は、深夜時間帯にもかかわらず、車内の音楽の音量を上げようとする発話があった場合、その発話への反応よりも優先して、「これ以上は迷惑になります」など所定の警告を発するような反応を生成してもよい。また、車両100は、天候が悪化しているにもかかわらず、運転の困難な地域に向かおうとする発話があった場合、その発話への反応よりも優先して、「そこに行くのは危険です」など所定の警告を発するような反応を生成してもよい。
 以上のように、車両100は、各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質や外部環境等に基づいて各種の反応を生成することで、反応を最適化する。
 かかる情報処理について、図3を用いて、処理の流れを示しながら、より詳細に説明する。図3は、実施形態に係る情報処理の流れを示すブロック図である。図3では、情報処理に関する構成の一例と、その構成における情報処理の流れを概念的なブロック図として示している。なお、図3に示す各ブロックは、あくまで説明のために各機構や各機能を概念的に示したものであり、各種変形を伴ってもよい。
 図3に示すように、車両100は、撮像器30を備える。撮像器30は、RGBステレオカメラ31や、赤外線カメラ32や、サーモセンサ33を含む。なお、サーモセンサ33は、RGBステレオカメラ31等に組み込まれてもよい。例えば、車両100は、RGBステレオカメラ31によって照度を検出し、照度が所定値以上であればRGBステレオカメラ31で人物を撮像し、照度が所定値以下(夜間など)であれば赤外線カメラ32で人物を撮像してもよい。また、車両100は、実際に人物が所在しているか否かをサーモセンサ33等で判定する。
 撮像器30において撮像されたデータは、センサーフュージョンモジュール34に送られ、データが処理される。例えば、センサーフュージョンモジュール34は、RGBステレオカメラ31や赤外線カメラ32で撮像された映像に基づいて、人物の所在を判定したり、人物認識を行ったりする。また、センサーフュージョンモジュール34は、サーモセンサ33によって検出された情報で、人物が所在するか否かといった情報を補完する。なお、センサー切替モジュール35は、照度などの環境情報に応じて、人物を撮像する撮像器30を切り替えたり、状況に応じた撮像器30を選択したりする機能部である。
 また、車両100は、エージェントに関するアイコン設定36を実行してもよい。アイコン設定36とは、エージェントを示すアイコンを液晶ディスプレイ等に表示する処理である。例えば、後述するパーソナライズエンジン43では、発話者がエージェントを示すアイコンに向かって話しかけている否か等を判定要素として用いる。
 車両100は、認識器40において、発話者の音声や、発話者が誰であるかといったパーソナライズ認識を行う。認識器40は、音声認識モジュール41と、リップリーディングモジュール42と、パーソナライズエンジン43を備える。
 音声認識モジュール41は、音声を取得し、取得した音声を認識して、発話の意図解析等を行う。リップリーディングモジュール42は、リップリーディング技術を用いて、発話者が発した音声を認識して、発話の意図解析等を行う。リップリーディングモジュール42は、例えば、音声認識モジュール41で取得が難しい状況(騒音下など)において、音声認識モジュール41の処理を補完する。
 パーソナライズエンジン43は、音声認識モジュール41で取得された音声や、センサーフュージョンモジュール34で取得された映像に基づいて、発話者が誰であるかを認識する。なお、図3に示すように、音声認識モジュール41、リップリーディングモジュール42およびパーソナライズエンジン43は並列化されており、同時に複数人を認識することが可能である。
 認識器40を経た情報は、優先順位エンジン44に入力される。優先順位エンジン44は、反応(例えば発話への回答)生成の優先順位を決定する。例えば、優先順位エンジン44は、判定要素として、感情45や、権限特定46や、外部ステータス47を用いる。感情45は、発話の性質や音声の組成情報等から解析される、ユーザの緊迫感等を示す情報である。権限特定46は、例えば、ルールベースで定められたユーザ間の序列等である。外部ステータス47は、時間帯や天候等の外部環境や、緊急車両の接近等の外部状況等である。
 優先順位エンジン44を経た情報は、回答検討エンジン48に入力される。回答検討エンジン48は、優先度に応じて、回答方針の判断49を決定する。例えば、回答方針の判断49は、優先度と、生成した回答とが行列50のような形式で並ぶものである。
 回答検討エンジン48は、回答方針の判断49において形成された行列50を回答の待ち行列51として、実行エンジン52に渡す。実行エンジン52は、情報取得モジュール53で待ち行列51を取得する。待ち行列51の順序に従い、操作モジュール54が実際の操作を行う。例えば、操作モジュール54は、発話に応じたナビゲーション表示など、待ち行列51において設定された回答に関する具体的な操作を実行する。
(1-2.実施形態に係る車両の構成例)
 次に、図4を用いて、車両100の構成について説明する。図4は、本開示の実施形態に係る車両100の構成例を示す図である。図4に示すように、車両100は、通信部110と、記憶部120と、制御部130と、検知部140と、出力部145とを有する。なお、図4に示した構成は機能的な構成であり、ハードウェア構成はこれとは異なっていてもよい。また、車両100の機能は、複数の物理的に分離された装置に分散して実装されてもよい。
 通信部110は、例えば、ネットワークインタフェースコントローラ(Network Interface Controller)やNIC(Network Interface Card)等によって実現される。通信部110は、USB(Universal Serial Bus)ホストコントローラ、USBポート等により構成されるUSBインターフェイスであってもよい。また、通信部110は、有線インターフェイスであってもよいし、無線インターフェイスであってもよい。例えば、通信部110は、無線LAN方式やセルラー通信方式の無線通信インターフェイスであってもよい。通信部110は、車両100の通信手段あるいは送信手段として機能する。例えば、通信部110は、ネットワークNと有線又は無線で接続され、ネットワークNを介して、クラウドサーバ等の外部装置や、他の情報処理端末等との間で情報の送受信を行う。ネットワークNは、車両100が接続するネットワークの総称であり、例えば、インターネットや携帯電話通信網等である。
 記憶部120は、例えば、RAM(Random Access Memory)、フラッシュメモリ(Flash Memory)等の半導体メモリ素子、または、ハードディスク、光ディスク等の記憶装置によって実現される。記憶部120は、各種データを記憶する。例えば、記憶部120は、検出対象を学習した学習器(判定モデル)や、検出した人物に関するデータ等を記憶する。なお、記憶部120は、ナビゲーションを実行するための地図データ等を記憶してもよい。図4の例では、記憶部120は、ユーザ情報記憶部121と、外部ステータス記憶部122と、判定モデル記憶部123とを備える。
 図5は、実施形態に係るユーザ情報記憶部121の一例を示す図である。図5に示すように、ユーザ情報記憶部121は、「ユーザID」、「属性」、「優先順位」といった項目を有する。
 「ユーザID」は、車両100のユーザを識別するための識別情報である。「属性」は、各ユーザの属性を示す。図5の例では、家族であるユーザ10等における家族内の属性を例として挙げる。「優先順位」は、ユーザに紐づけられた優先順位(序列)を示す。
 次に、図6を用いて、外部ステータス記憶部122について説明する。図6は、実施形態に係る外部ステータス記憶部122の一例を示す図である。図6に示すように、外部ステータス記憶部122は、「外部ステータスID」、「内容」、「優先順位」、「対応リスト」といった項目を有する。
 「外部ステータスID」は、車両100が反応を生成するために利用される、外部環境や外部状況等を含む外部ステータスを識別する識別情報である。「内容」は、外部ステータスの内容を示す。「優先順位」は、外部ステータスに関する反応が生成される優先順位を示す。「対応リスト」は、外部ステータスの状況が確認された場合に、車両100が実行する反応の具体的な内容を示す。例えば、(車速、車内音)という構成で、(停止、消音)という内容が設定されている対応リストは、外部ステータスの内容が発生した場合、車両100の反応として、車両100を停止させ、車両100で流れている音楽等を停止させることを示している。
 次に、図7を用いて、判定モデル記憶部123について説明する。図7は、実施形態に係る判定モデル記憶部123の一例を示す図である。図7に示すように、判定モデル記憶部123は、「モデルID」、「入力」、「判定内容」といった項目を有する。
 「モデルID」は、情報処理に用いる判定モデルを識別する識別情報を示す。「入力」は、判定モデルに入力される情報の種類を示す。「判定内容」は、判定モデルから出力される判定内容を示す。
 例えば、図7の例では、モデルID「M01」で識別される判定モデルは、「音声」が入力された場合に、判定結果として「人物」を出力するモデルであることを示す。すなわち、モデルID「M01」で識別される判定モデルとは、車両100を利用するユーザの音声を学習した学習済みモデルであり、あるユーザの音声を入力した場合に、ユーザを特定するための情報(例えば、その音声の主がユーザ10である可能性を示すスコアなど)を出力するモデルである。なお、判定モデルは、どのような学習手法で作成されたものかを問わない。また、車両100は、必ずしも判定モデルを自装置に保持する必要はなく、適宜、情報処理に必要な判定処理を行うことができるモデルを外部装置等(例えば学習処理を行うクラウドサーバ等)から取得してもよい。
 図4に戻り説明を続ける。検知部140は、車両100に関する各種情報を検知する。具体的には、検知部140は、車両100の周囲の環境や、車両100の所在する位置情報や、車両100と接続されている機器に関する情報等を検知する。検知部140は、各種の情報を検知するセンサと読み替えてもよい。
 例えば、検知部140の一例は、車両100の周囲を撮像する機能を有するセンサであり、いわゆるカメラである。この場合、検知部140は、図1で示したカメラ201およびカメラ202や、図3で示した撮像器30等に対応する。
 また、検知部140は、車両100内部や、車両100の周囲にある物体との距離を測定するためのセンサを含んでもよい。例えば、検知部140は、車両100の周辺環境の三次元的な構造を読み取るLiDAR(Light Detection and Ranging)であってもよい。LiDARは、赤外線レーザ等のレーザ光線を周囲の物体に照射し、反射して戻るまでの時間を計測することにより、物体までの距離や相対速度を検知する。また、検知部140は、ミリ波レーダを使った測距システムであってもよい。また、検知部140は、深度データを取得するためのデプスセンサを含んでもよい。
 また、検知部140は、車両100の走行情報や環境情報等を測定するためのセンサを含んでもよい。例えば、検知部140は、車両100の挙動を検知する。例えば、検知部140は、車両の加速度を検知する加速度センサや、挙動を検知するジャイロセンサ、IMU(Inertial Measurement Unit)等である。
 また、検知部140は、車両100の内部や外部の音を収集するマイクロフォンや、車両100の周囲の照度を検知する照度センサや、車両100の周囲の湿度を検知する湿度センサや、車両100の所在位置における磁場を検知する地磁気センサ等を含んでもよい。
 出力部145は、各種情報を出力するための機構である。例えば、出力部145は、映像を表示する表示部146と、音声を出力する音声出力部147とを含む。表示部146は、例えば液晶ディスプレイ等である。例えば、表示部146は、検知部140によって撮像された画像を表示したり、ナビゲーション表示などユーザの発話に対して生成された反応を表示したりする。また、表示部146は、車両100を利用するユーザ等から各種操作を受け付けるための処理部を兼ねてもよい。例えば、表示部146は、キー操作やタッチパネル等を介して、各種情報の入力を受け付けてもよい。また、音声出力部147は、いわゆるスピーカー部であり、各種音声を出力する。例えば音声出力部147は、車両100に搭載された音声エージェントの音声や、後述する生成部134によって生成された各種反応を音声として出力する。なお、出力部145は、表示部146や音声出力部147に限らず、各種情報をLED等の光の明滅で通知する光出力部や、映像を投影するプロジェクター等を含んでもよい。
 制御部130は、例えば、CPU(Central Processing Unit)やMPU(Micro Processing Unit)等によって、車両100内部に記憶されたプログラム(例えば、本開示に係る情報処理プログラム)がRAM(Random Access Memory)等を作業領域として実行されることにより実現される。また、制御部130は、コントローラ(controller)であり、例えば、ASIC(Application Specific Integrated Circuit)やFPGA(Field Programmable Gate Array)等の集積回路により実現されてもよい。
 図4に示すように、制御部130は、取得部131と、特定部132と、認識部133と、生成部134とを有し、以下に説明する情報処理の機能や作用を実現または実行する。なお、制御部130の内部構成は、図4に示した構成に限られず、後述する情報処理を行う構成であれば他の構成であってもよい。
 取得部131は、各種情報を取得する。例えば、取得部131は、検知部140を介して、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とをそれぞれ取得する。具体的には、取得部131は、複数の発話者が同乗する車両100内に設置された撮像器30によって撮像される映像を取得する。
 取得部131は、映像として、発話者の口唇を撮影した映像を取得する。これにより、後段の処理部は、リップリーディングによって音声を認識したり、発話者を特定したりすることができる。
 なお、取得部131は、検知部140による温度検知を経て、発話者を検知したうえで、発話者が発話している状態を撮影した映像を取得してもよい。これにより、取得部131は、テレビ映像に移った人物等ではなく、実際に空間に所在する人物の映像を取得することができる。
 また、取得部131は、映像に基づいて、車両100内部に所在する人数や位置、車両100内の人物の状況等を取得してもよい。具体的には、取得部131は、複数の発話者が所在する空間における、複数の発話者が所在する位置に関する情報を取得する。これにより、後段の処理部は、映像等で明確に人物を認識できない場合でも、通常、後部座席に座っている人物はユーザ12やユーザ13である、といった推測を行うことができる。
 また、取得部131は、複数の発話者が発したそれぞれの音声の組成情報を取得してもよい。すなわち、取得部131は、音声の音圧や音程や、通常時の発話音声との相違度等を取得する。例えば、取得部131は、ユーザの音声を学習した判定モデルを用いて、通常時の発話音声と、処理対象とする音声の相違度を判定してもよい。
 また、取得部131は、複数の発話者が所在する空間の環境に関する情報を取得してもよい。例えば、取得部131は、車両100内部の温度や湿度等、車両内部の環境情報を取得する。また、取得部131は、車両100外部の外気温や温度上昇予測等の車両外部の環境情報を取得する。また、取得部131は、車両外部の天候や時間帯、今後の天候等の情報を外部のサービスサーバ(天気サービスを提供するサーバ等)から取得してもよい。
 また、取得部131は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得してもよい。例えば、取得部131は、外部環境の検知結果として、緊急車両が接近しているという事態や、緊急事態(災害等)が発生しているといった事態に関する情報を取得してもよい。
 特定部132は、取得部131によって取得された音声および映像に基づいて、複数の発話者の各々を特定する。
 例えば、特定部132は、発話者の口唇を撮影した映像に基づいて、複数の発話者の各々を特定する。例えば、特定部132は、音声を発した際に口唇が動いているユーザを、その音声における発話者であると特定する。あるいは、特定部132は、音声認識とリップリーディングとの結果の照合に基づいて、複数の発話者の各々を特定する。
 認識部133は、特定部132によって特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質をそれぞれ認識する。
 例えば、認識部133は、各々の発話者が発した音声、もしくは、各々の発話者の口唇の動きに基づいて、各々の発話者が発した発話をそれぞれ認識する。すなわち、認識部133は、音声による認識と、リップリーディングによる認識とのいずれか、あるいは、双方を用いて、各々の発話者が発した発話の内容や意図をそれぞれ認識する。
 また、認識部133は、車両100において、複数の発話者が所在する位置に関する情報に基づいて、複数の発話者の属性を認識してもよい。すなわち、認識部133は、常時車両100内部を撮像した映像に基づき、前方座席に座るユーザや後部座席に座るユーザを予め認識しておき、音声が発せられた場合、その座席に座ったユーザの位置に基づいて、ユーザの属性を認識する。
 また、認識部133は、複数の発話者が発したそれぞれの音声の組成情報に基づいて、複数の発話者の属性を認識してもよい。すなわち、認識部133は、常時車両100内部において発せられる音声を取得し、その特徴を学習して判定モデルを生成する。そして、認識部133は、音声が入力された場合に、その音声の音圧や波形等の特徴量に基づいて、その音声を発した発話者および発話者の属性を認識する。この場合、認識部133は、判定モデルと合わせて、予め属性が規定されたルールが保持されたユーザ情報記憶部121の情報等を参照することで、より正確に発話者の属性を認識することができる。
 また、認識部133は、取得された音声および映像に基づいて、複数の発話者が反応の生成を要望しているか否かを認識してもよい。すなわち、認識部133は、発話がエージェントに対して行われたのか、あるいは、ユーザ同士の会話に過ぎないのか、を映像や音声に基づいて認識する。
 例えば、認識部133は、取得された映像における発話者の視線もしくは口唇の向きに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。一例として、認識部133は、エージェントのアイコン(マイクの表示等)に向かって音声が発せられたのか、あるいは、ユーザの視線がアイコンに向けられているか等を判定要素として、ユーザが反応の生成を要望しているか否かを認識してもよい。
 また、認識部133は、発話者が発した音声の内容、音声の指向性および音声の組成情報の少なくともいずれか一つに基づいて、複数の発話者が反応の生成を要望しているか否かを認識してもよい。例えば、認識部133は、発話者がエージェント側(例えば、車両100の出力部145やカメラ201等)を向いて音声を発したか(音声がその設置対象の向きを指向しているか)を判定要素として、発話者が反応の生成を要望しているか否かを認識する。あるいは、認識部133は、判定モデルを用いて、発話者が人間同士で会話する際の組成情報(音程等)と、発話者がエージェント等の機械に向けて音声を発する場合の相違を判定し、判定した結果に基づいて、発話者がエージェントに対して発話したか、すなわち、反応の生成を要望しているか否かを認識してもよい。
 また、認識部133は、発話の性質として、各々の発話者が発した発話における発話者の感情を認識してもよい。例えば、認識部133は、判定モデルを用いて、当該発話が通常時と異なる特徴量を有していることを判定し、かかる情報に基づいて、発話者が緊迫感を有しているか否か等を認識する。
 なお、認識部133は、音声のみならず、映像における発話者の表情や、口唇の動きや、発話における音声の組成情報の少なくともいずれか一つに基づいて、発話者の感情を認識してもよい。例えば、認識部133は、発話者の表情を判定するための画像認識モデルを用いて、撮像された発話者の表情からどのくらいの緊迫感を有しているかを推定してもよい。
 生成部134は、認識部133によって認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。
 なお、生成部134は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応の優先度を決定する。後述する出力制御部135は、生成部134が決定した優先度に応じて、認識した発話に対する反応を出力する。すなわち、実施形態において、反応の生成とは、発話に対する回答などの具体的な内容のみならず、発話に対してそもそも反応を返すのか(出力するのか)、あるいは、どのような順番で複数の発話に対して反応するのか、といった優先順位を決定する処理も含む概念である。
 例えば、生成部134は、複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成してもよい。一例として、生成部134は、発話者がエージェントに向かって話しかけていないと認識した場合には、当該発話に対して反応を生成しなかったり、反応の生成の優先順位を低くしてもよい。
 また、生成部134は、各々の発話者の属性に紐づけられた優先順位に基づいて、認識した発話に対する反応を生成してもよい。すなわち、生成部134は、発話者の序列にしたがい、反応を生成する優先順位を決定したり、上位の発話者に対する反応を優先的に出力したりしてもよい。
 また、生成部134は、各々の発話者の感情に応じて決定される優先順位に基づいて、認識した発話に対する反応を生成してもよい。すなわち、生成部134は、より緊迫感や逼迫感があると認識された発話に対して、優先的に反応を生成してもよい。
 また、生成部134は、取得部131によって取得された外部環境に関する情報に基づいて、認識した発話に対する反応を生成してもよい。
 例えば、生成部134は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報が取得された場合、発話者への応答よりも優先して、かかる所定の事態に対応した反応を生成してもよい。具体的には、生成部134は、緊急車両の接近等を検知した場合、かかる事態に対応した反応(車両100の停止や音楽の停止など)を生成する。
 また、生成部134は、外部環境に関する情報として、時間帯もしくは天候に関する情報が取得された場合、時間帯もしくは天候に対応した反応を生成してもよい。例えば、生成部134は、深夜時間帯において生成する反応が規定されている場合、かかる規定にしたがって反応を生成する。
 また、生成部134は、認識した発話に対する反応として、車両100の挙動に関する反応を生成してもよい。車両の挙動に関する反応とは、上記のように車両100を停止する制御であったり、あるいは、目的地の設定にしたがい車両100を自動運転したりすること等である。
 出力制御部135は、生成部134によって生成された反応を出力部145に出力するよう制御する。例えば、出力制御部135は、生成部134が決定した優先度に応じて、認識した発話に対する反応を出力する。また、出力制御部135は、優先度に応じて、どのような情報をどのような出力部145から出力するのかを制御してもよい。例えば、出力制御部135は、ユーザに迅速に情報を伝達する方が望ましい、優先度の高い情報については音声出力部147から音声として出力し、それ以外の情報は表示部146に表示する、などの制御を行ってもよい。また、出力制御部135は、複数のユーザ間でより優先度の高いユーザ10によるリクエストに基づき交通情報のニュースが流れている間は、そのニュース音声を邪魔しないよう、表示部146にコメントを映像で出力するなど、ユーザごとの優先度に応じて出力先を制御してもよい。
(1-3.実施形態に係る情報処理の手順)
 次に、図8を用いて、実施形態に係る情報処理の流れの一例について説明する。図8は、実施形態に係る情報処理の流れを示すフローチャートである。
 図8に示すように、車両100は、車両100内部に所在するユーザの音声を認識したか否かを判定する(ステップS101)。音声を認識しない場合(ステップS101;No)、車両100は、音声を認識するために待機する処理を継続する。
 一方、音声を認識した場合(ステップS101;Yes)、車両100は、当該音声がエージェントによる反応を要求しているか否かを判定する(ステップS102)。当該音声がエージェントによる反応を要求していないと判定した場合(ステップS102;No)、車両100は、反応を生成せず、音声を認識するために待機する処理を継続する。
 一方、エージェントによる反応を要求していると判定した場合(ステップS102;Yes)、車両100は、複数の発話者のうち、当該音声を発話した発話者を特定する(ステップS103)。さらに、車両100は、発話内容と発話者に基づいて優先度を決定する(ステップS104)。例えば、車両100は、発話の性質や発話者の属性に基づいて優先度を決定する。
 さらに、車両100は、緊急車両が接近していることなど、外部要素が存在しているか否かを判定する(ステップS105)。外部要素が存在する場合(ステップS105;Yes)、車両100は、外部要素と実行優先度を比較する(ステップS106)。例えば、車両100は、外部要素が「緊急車両の接近」など、極めて優先度が高いと設定されている要素であれば、外部要素に対する反応生成の優先度を高める。
 そして、車両100は、優先度順に反応を生成する(ステップS107)。続けて、車両100は、優先度順(待ち行列)に応じて、生成した反応を出力する(ステップS108)。これにより、車両100は、反応生成処理の一つのイベントが終了したと判定し(ステップS109)、次の音声を取得するまで待機する。
(1-4.実施形態に係る変形例)
 上述した実施形態は、様々に異なる変形を伴ってもよい。例えば、車両100は、音声認識において、リップリーディングだけでなく、所定の辞書データを利用して音声認識を行ってもよい。
 例えば、車両100は、ユーザが頻繁に利用する施設や、ユーザが頻繁に発する用語を辞書データとして保持する。これにより、車両100は、ユーザが施設等の固有名詞を発した場合でも、辞書データを参照して用語を特定することができるので、音声認識の精度を向上させることができる。
 また、車両100は、文脈情報(コンテキスト)を用いて音声認識精度を向上させてもよい。例えば、ユーザ同士の会話でレストランや食事の話が交わされている際に、エージェントに対して固有名詞(レストラン名)が発せられた場合、車両100は、文脈情報から固有名詞が周辺のレストランの可能性が高いと推測し、周辺のレストランの名称等を用いて、音声認識を補完する。これにより、車両100は、音声認識に関するエラーを返す確率を低下させ、ユーザビリティの向上を図ることができる。
 また、実施形態では、車両100内部を複数の発話者が所在する空間として例示したが、実施形態に係る情報処理は、自動車以外にも適用可能である。例えば、実施形態に係る情報処理は、複数人が参加する会議の会議室で実行されてもよいし、ウェブ会議等に利用されてもよい。
 また、実施形態では、車両100が、発話者の口唇を読み取る例を示した。しかし、車両100は、口唇の動きに限らず、発話者の表情筋など、発話者の表情を形成するあらゆる情報を読み取ってもよい。すなわち、車両100は、口唇の動きで発話内容を読み取るのみならず、発話者を撮像するカメラ等のセンサで取得可能な任意の情報で発話内容を読み取ってもよい。
(2.その他の実施形態)
 上述した各実施形態で示した情報処理装置等の構成は、上記各実施形態以外にも種々の異なる形態で実現されてよい。
(2-1.変形例に係る撮像器の構成)
 上記実施形態では、図3に示した撮像器30は、カメラ201やカメラ202の一例であり、すなわちRGBステレオカメラ31等で実現される例を示した。ここで、本開示に係る撮像器30は、イメージセンサに自動認識モデルが組み込まれ、モデルを用いて推論処理を行うことで、物体の検出と撮像とをともに行うことが可能な、いわゆるAIイメージセンサとして構成されてもよい。この場合、撮像器30は、車両100による制御がなくても、人物や口唇といったオブジェクトを認識し、認識したものを自動的に撮像することが可能である。
 この点について、図9を用いて説明する。図9は、変形例に係る撮像器の構成例を示す図である。図9では、変形例に係る撮像器の一例として、検出装置300を示す。
 図9に示すように、検出装置300は、イメージセンサ310を含む。なお、図9での図示は省略するが、検出装置300は、デジタルカメラとしての機能を実現するための光学系や、車両100やクラウドサーバ等と通信するための通信系等を有する。
 イメージセンサ310は、例えば、チップで構成されるCMOS(Complementary Metal Oxide Semiconductor)イメージセンサであり、光学系からの入射光を受光し、光電変換を行って、入射光に対応する画像データを出力する。
 イメージセンサ310は、画素チップ311と、ロジックチップ312とが接続部313を介して一体となる構成を有する。また、イメージセンサ310は、画像処理ブロック320と、信号処理ブロック330とを有する。
 画素チップ311は、撮像部321を有する。撮像部321は、複数の画素が2次元に並んで構成される。撮像部321は、撮像処理部322によって駆動され、画像を撮像する。
 撮像処理部322は、撮像制御部325の制御に従い、撮像部321の駆動や、撮像部321が出力するアナログの画像信号のAD(Analog to Digital)変換や、撮像信号処理等の撮像部321での画像の撮像に関連する撮像処理を行う。
 撮像処理部322が出力する撮像画像は、出力制御部323に供給されるとともに、画像圧縮部335に供給される。また、撮像処理部322は、出力I/F324に撮影画像を渡す。
 出力制御部323は、撮像処理部322からの撮像画像、および、信号処理ブロック330からの信号処理結果を、出力I/F324から外部(実施形態では、車両100等)に選択的に出力させる出力制御を行う。すなわち、出力制御部323は、検出されたオブジェクトの挙動を示す挙動データと、画像のうち少なくとも一方を選択的に外部に出力するよう制御する。
 具体的には、出力制御部323は、撮像処理部322からの撮像画像、または、信号処理ブロック330からの信号処理結果を選択し、出力I/F324に供給する。
 例えば、出力I/F324は、車両100が画像データと挙動データとの双方を要求する場合、双方のデータを出力可能である。あるいは、出力I/F324は、車両100が挙動データのみを要求する場合、挙動データのみを出力することが可能である。すなわち、出力I/F324は、二次分析において撮像画像そのものが必要でない場合には、信号処理結果(挙動データ)だけを出力することができるので、外部に出力するデータ量を削減することができる。
 図9に示すように、信号処理ブロック330は、CPU331、DSP332、メモリ333、通信I/F334、画像圧縮部335、入力I/Fを有する。
 例えば、CPU331およびDSP332は、通信I/F334もしくは入力I/F336を介してメモリ333に組み込まれた事前学習モデルを用いて、画像圧縮部335に含まれる画像から、オブジェクトを認識する。また、CPU331およびDSP332は、認識したオブジェクトの挙動を示す挙動データを取得する。言い換えれば、信号処理ブロック330は、各機能部が協働して、オブジェクトを認識するための事前学習モデルを用いて、画像に含まれるオブジェクトの挙動を検出する。
 上記の構成により、実施形態に係る検出装置300は、画像処理ブロック320により得られた画像データと、信号処理ブロック330により得られた挙動データとを、選択的に外部に出力することができる。
 なお、検出装置300は、図9で示した構成に加えて、各種センサを備えてもよい。例えば、検出装置300は、空間に所在するオブジェクトまでの距離を測定する深度センサであるToFセンサを備えてもよい。これにより、検出装置300は、挙動データとして、画像上で示される2次元の点群データのみならず、高さ情報を加えた3次元の点群データを取得することができる。
 図9で示した構成は、例えば、図4で示した車両100の一部の構成に対応する。例えば、検出装置300は、取得部131や、特定部132や、認識部133の一部の処理を実行することができる。この場合、本開示に係る情報処理は、車両100と検出装置300とが協働して実行してもよい。
(2-2.移動体の構成)
 例えば、車両100は、自動運転を行う自律型移動体によって実現されてもよい。この場合、車両100は、図4に示した構成の他に、図10および図11に示す示す構成を有してもよい。なお、以下に示す各部は、例えば、図4に示した各部に含まれてもよい。
 すなわち、本技術の車両100は、以下に示す車両制御システム411として構成することも可能である。図10は、本技術が適用され得る車両制御システム411の概略的な機能の構成例を示すブロック図である。
 車両制御システム411は、車両100に設けられ、車両100の走行支援及び自動運転に関わる処理を行う。
 車両制御システム411は、車両制御ECU(Electronic Control Unit )421、通信部422、地図情報蓄積部423、GNSS(Global Navigation Satellite System)受信部424、外部認識センサ425、車内センサ426、車両センサ427、記録部428、走行支援・自動運転制御部429、DMS(Driver Monitoring System)430、HMI(Human Machine Interface)431、及び、車両制御部432を備える。
 車両制御ECU421、通信部422、地図情報蓄積部423、GNSS受信部424、外部認識センサ425、車内センサ426、車両センサ427、記録部428、走行支援・自動運転制御部429、DMS430、HMI431、及び、車両制御部432は、通信ネットワーク441を介して相互に通信可能に接続されている。通信ネットワーク441は、例えば、CAN(Controller Area Network)、LIN(Local Interconnect Network)、LAN(Local Area Network)、FlexRay(登録商標)、イーサネット(登録商標)といったディジタル双方向通信の規格に準拠した車載通信ネットワークやバス等により構成される。通信ネットワーク441は、通信されるデータの種類によって使い分けられても良く、例えば、車両制御に関するデータであればCANが適用され、大容量データであればイーサネットが適用される。なお、車両制御システム411の各部は、通信ネットワーク441を介さずに、例えば近距離無線通信(NFC(Near Field Communication))やBluetooth(登録商標)といった比較的近距離での通信を想定した無線通信を用いて直接的に接続される場合もある。
 なお、以下、車両制御システム411の各部が、通信ネットワーク441を介して通信を行う場合、通信ネットワーク441の記載を省略するものとする。例えば、車両制御ECU421と通信部422が通信ネットワーク441を介して通信を行う場合、単に車両制御ECU421と通信部422とが通信を行うと記載する。
 車両制御ECU421は、例えば、CPU(Central Processing Unit)、MPU(Micro Processing Unit)といった各種プロセッサにより構成される。車両制御ECU421は、車両制御システム411全体もしくは一部の機能の制御を行う。
 通信部422は、車内及び車外の様々な機器、他の車両、サーバ、基地局等と通信を行い、各種のデータの送受信を行う。このとき、通信部422は、複数の通信方式を用いて通信を行うことができる。
 通信部422が実行可能な車外との通信について、概略的に説明する。通信部422は、例えば、5G(第5世代移動通信システム)、LTE(Long Term Evolution)、DSRC(Dedicated Short Range Communications)等の無線通信方式により、基地局又はアクセスポイントを介して、外部ネットワーク上に存在するサーバ(以下、外部のサーバと呼ぶ)等と通信を行う。通信部422が通信を行う外部ネットワークは、例えば、インターネット、クラウドネットワーク、又は、事業者固有のネットワーク等である。通信部422による外部ネットワークに対して通信を行う通信方式は、所定以上の通信速度、且つ、所定以上の距離間でディジタル双方向通信が可能な無線通信方式であれば、特に限定されない。
 また例えば、通信部422は、P2P(Peer To Peer)技術を用いて、自車の近傍に存在する端末と通信を行うことができる。自車の近傍に存在する端末は、例えば、歩行者や自転車など比較的低速で移動する移動体が装着する端末、店舗などに位置が固定されて設置される端末、あるいは、MTC(Machine Type Communication)端末である。さらに、通信部422は、V2X通信を行うこともできる。V2X通信とは、例えば、他の車両との間の車車間(Vehicle to Vehicle)通信、路側器等との間の路車間(Vehicle to Infrastructure)通信、家との間(Vehicle to Home)の通信、及び、歩行者が所持する端末等との間の歩車間(Vehicle to Pedestrian)通信等の、自車と他との通信をいう。
 通信部422は、例えば、車両制御システム411の動作を制御するソフトウエアを更新するためのプログラムを外部から受信することができる(Over The Air)。通信部422は、さらに、地図情報、交通情報、車両100の周囲の情報等を外部から受信することができる。また例えば、通信部422は、車両100に関する情報や、車両100の周囲の情報等を外部に送信することができる。通信部422が外部に送信する車両100に関する情報としては、例えば、車両100の状態を示すデータ、認識部473による認識結果等がある。さらに例えば、通信部422は、eコール等の車両緊急通報システムに対応した通信を行う。
 通信部422が実行可能な車内との通信について、概略的に説明する。通信部422は、例えば無線通信を用いて、車内の各機器と通信を行うことができる。通信部422は、例えば、無線LAN、Bluetooth、NFC、WUSB(Wireless USB)といった、無線通信により所定以上の通信速度でディジタル双方向通信が可能な通信方式により、車内の機器と無線通信を行うことができる。これに限らず、通信部422は、有線通信を用いて車内の各機器と通信を行うこともできる。例えば、通信部422は、図示しない接続端子に接続されるケーブルを介した有線通信により、車内の各機器と通信を行うことができる。通信部422は、例えば、USB(Universal Serial Bus)、HDMI(High-Definition Multimedia Interface)(登録商標)、MHL(Mobile High-definition Link)といった、有線通信により所定以上の通信速度でディジタル双方向通信が可能な通信方式により、車内の各機器と通信を行うことができる。
 ここで、車内の機器とは、例えば、車内において通信ネットワーク441に接続されていない機器を指す。車内の機器としては、例えば、運転者等の搭乗者が所持するモバイル機器やウェアラブル機器、車内に持ち込まれ一時的に設置される情報機器等が想定される。
 例えば、通信部422は、電波ビーコン、光ビーコン、FM多重放送等の道路交通情報通信システム(VICS(Vehicle Information and Communication System)(登録商標))により送信される電磁波を受信する。
 地図情報蓄積部423は、外部から取得した地図及び車両100で作成した地図の一方または両方を蓄積する。例えば、地図情報蓄積部423は、3次元の高精度地図、高精度地図より精度が低く、広いエリアをカバーするグローバルマップ等を蓄積する。
 高精度地図は、例えば、ダイナミックマップ、ポイントクラウドマップ、ベクターマップなどである。ダイナミックマップは、例えば、動的情報、準動的情報、準静的情報、静的情報の4層からなる地図であり、外部のサーバ等から車両100に提供される。ポイントクラウドマップは、ポイントクラウド(点群データ)により構成される地図である。ここで、ベクターマップは、車線や信号の位置といった交通情報などをポイントクラウドマップに対応付けた、ADAS(Advanced Driver Assistance System)に適合させた地図を指すものとする。
 ポイントクラウドマップ及びベクターマップは、例えば、外部のサーバ等から提供されてもよいし、レーダ452、LiDAR453等によるセンシング結果に基づいて、後述するローカルマップとのマッチングを行うための地図として車両100で作成され、地図情報蓄積部423に蓄積されてもよい。また、外部のサーバ等から高精度地図が提供される場合、通信容量を削減するため、車両100がこれから走行する計画経路に関する、例えば数百メートル四方の地図データが外部のサーバ等から取得される。
 GNSS受信部424は、GNSS衛星からGNSS信号を受信し、車両100の位置情報を取得する。受信したGNSS信号は、走行支援・自動運転制御部429に供給される。尚、GNSS受信部424は、GNSS信号を用いた方式に限定されず、例えば、ビーコンを用いて位置情報を取得しても良い。
 外部認識センサ425は、車両100の外部の状況の認識に用いられる各種のセンサを備え、各センサからのセンサデータを車両制御システム411の各部に供給する。外部認識センサ425が備えるセンサの種類や数は任意である。
 例えば、外部認識センサ425は、カメラ451、レーダ452、LiDAR(Light Detection and Ranging、Laser Imaging Detection and Ranging)453、及び、超音波センサ454を備える。これに限らず、外部認識センサ425は、カメラ451、レーダ452、LiDAR453、及び、超音波センサ454のうち1種類以上のセンサを備える構成でもよい。カメラ451、レーダ452、LiDAR453、及び、超音波センサ454の数は、現実的に車両100に設置可能な数であれば特に限定されない。また、外部認識センサ425が備えるセンサの種類は、この例に限定されず、外部認識センサ425は、他の種類のセンサを備えてもよい。外部認識センサ425が備える各センサのセンシング領域の例は、後述する。
 なお、カメラ451の撮影方式は、測距が可能な撮影方式であれば特に限定されない。例えば、カメラ451は、ToF(Time Of Flight)カメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった各種の撮影方式のカメラを、必要に応じて適用することができる。これに限らず、カメラ451は、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。
 また、例えば、外部認識センサ425は、車両100に対する環境を検出するための環境センサを備えることができる。環境センサは、天候、気象、明るさ等の環境を検出するためのセンサであって、例えば、雨滴センサ、霧センサ、日照センサ、雪センサ、照度センサ等の各種センサを含むことができる。
 さらに、例えば、外部認識センサ425は、車両100の周囲の音や音源の位置の検出等に用いられるマイクロフォンを備える。
 車内センサ426は、車内の情報を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム411の各部に供給する。車内センサ426が備える各種センサの種類や数は、現実的に車両100に設置可能な数であれば特に限定されない。
 例えば、車内センサ426は、カメラ、レーダ、着座センサ、ステアリングホイールセンサ、マイクロフォン、生体センサのうち1種類以上のセンサを備えることができる。車内センサ426が備えるカメラとしては、例えば、ToFカメラ、ステレオカメラ、単眼カメラ、赤外線カメラといった、測距可能な各種の撮影方式のカメラを用いることができる。これに限らず、車内センサ426が備えるカメラは、測距に関わらずに、単に撮影画像を取得するためのものであってもよい。車内センサ426が備える生体センサは、例えば、シートやステリングホイール等に設けられ、運転者等の搭乗者の各種の生体情報を検出する。
 車両センサ427は、車両100の状態を検出するための各種のセンサを備え、各センサからのセンサデータを車両制御システム411の各部に供給する。車両センサ427が備える各種センサの種類や数は、現実的に車両100に設置可能な数であれば特に限定されない。
 例えば、車両センサ427は、速度センサ、加速度センサ、角速度センサ(ジャイロセンサ)、及び、それらを統合した慣性計測装置(IMU(Inertial Measurement Unit))を備える。例えば、車両センサ427は、ステアリングホイールの操舵角を検出する操舵角センサ、ヨーレートセンサ、アクセルペダルの操作量を検出するアクセルセンサ、及び、ブレーキペダルの操作量を検出するブレーキセンサを備える。例えば、車両センサ427は、エンジンやモータの回転数を検出する回転センサ、タイヤの空気圧を検出する空気圧センサ、タイヤのスリップ率を検出するスリップ率センサ、及び、車輪の回転速度を検出する車輪速センサを備える。例えば、車両センサ427は、バッテリの残量及び温度を検出するバッテリセンサ、及び、外部からの衝撃を検出する衝撃センサを備える。
 記録部428は、不揮発性の記憶媒体および揮発性の記憶媒体のうち少なくとも一方を含み、データやプログラムを記憶する。記録部428は、例えばEEPROM(Electrically Erasable Programmable Read Only Memory)およびRAM(Random Access Memory)として用いられ、記憶媒体としては、HDD(Hard Disc Drive)といった磁気記憶デバイス、半導体記憶デバイス、光記憶デバイス、及び、光磁気記憶デバイスを適用することができる。記録部428は、車両制御システム411の各部が用いる各種プログラムやデータを記録する。例えば、記録部428は、EDR(Event Data Recorder)やDSSAD(Data Storage System for Automated Driving)を備え、事故等のイベントの前後の車両100の情報や車内センサ426によって取得された生体情報を記録する。
 走行支援・自動運転制御部429は、車両100の走行支援及び自動運転の制御を行う。例えば、走行支援・自動運転制御部429は、分析部461、行動計画部462、及び、動作制御部463を備える。
 分析部461は、車両100及び周囲の状況の分析処理を行う。分析部461は、自己位置推定部471、センサフュージョン部472、及び、認識部473を備える。
 自己位置推定部471は、外部認識センサ425からのセンサデータ、及び、地図情報蓄積部423に蓄積されている高精度地図に基づいて、車両100の自己位置を推定する。例えば、自己位置推定部471は、外部認識センサ425からのセンサデータに基づいてローカルマップを生成し、ローカルマップと高精度地図とのマッチングを行うことにより、車両100の自己位置を推定する。車両100の位置は、例えば、後輪対車軸の中心が基準とされる。
 ローカルマップは、例えば、SLAM(Simultaneous Localization and Mapping)等の技術を用いて作成される3次元の高精度地図、占有格子地図(Occupancy Grid Map)等である。3次元の高精度地図は、例えば、上述したポイントクラウドマップ等である。占有格子地図は、車両100の周囲の3次元又は2次元の空間を所定の大きさのグリッド(格子)に分割し、グリッド単位で物体の占有状態を示す地図である。物体の占有状態は、例えば、物体の有無や存在確率により示される。ローカルマップは、例えば、認識部473による車両100の外部の状況の検出処理及び認識処理にも用いられる。
 なお、自己位置推定部471は、GNSS信号、及び、車両センサ427からのセンサデータに基づいて、車両100の自己位置を推定してもよい。
 センサフュージョン部472は、複数の異なる種類のセンサデータ(例えば、カメラ451から供給される画像データ、及び、レーダ452から供給されるセンサデータ)を組み合わせて、新たな情報を得るセンサフュージョン処理を行う。異なる種類のセンサデータを組合せる方法としては、統合、融合、連合等がある。
 認識部473は、車両100の外部の状況の検出を行う検出処理と、車両100の外部の状況の認識を行う認識処理と、を実行する。
 例えば、認識部473は、外部認識センサ425からの情報、自己位置推定部471からの情報、センサフュージョン部472からの情報等に基づいて、車両100の外部の状況の検出処理及び認識処理を行う。
 具体的には、例えば、認識部473は、車両100の周囲の物体の検出処理及び認識処理等を行う。物体の検出処理とは、例えば、物体の有無、大きさ、形、位置、動き等を検出する処理である。物体の認識処理とは、例えば、物体の種類等の属性を認識したり、特定の物体を識別したりする処理である。ただし、検出処理と認識処理とは、必ずしも明確に分かれるものではなく、重複する場合がある。
 例えば、認識部473は、LiDAR453又はレーダ452等によるセンサデータに基づくポイントクラウドを点群の塊毎に分類するクラスタリングを行うことにより、車両100の周囲の物体を検出する。これにより、車両100の周囲の物体の有無、大きさ、形状、位置が検出される。
 例えば、認識部473は、クラスタリングにより分類された点群の塊の動きを追従するトラッキングを行うことにより、車両100の周囲の物体の動きを検出する。これにより、車両100の周囲の物体の速度及び進行方向(移動ベクトル)が検出される。
 例えば、認識部473は、カメラ451から供給される画像データに対して、車両、人、自転車、障害物、構造物、道路、信号機、交通標識、道路標示などを検出または認識する。また、セマンティックセグメンテーション等の認識処理を行うことにより、車両100の周囲の物体の種類を認識してもいい。
 例えば、認識部473は、地図情報蓄積部423に蓄積されている地図、自己位置推定部471による自己位置の推定結果、及び、認識部473による車両100の周囲の物体の認識結果に基づいて、車両100の周囲の交通ルールの認識処理を行うことができる。認識部473は、この処理により、信号の位置及び状態、交通標識及び道路標示の内容、交通規制の内容、並びに、走行可能な車線などを認識することができる。
 例えば、認識部473は、車両100の周囲の環境の認識処理を行うことができる。認識部473が認識対象とする周囲の環境としては、天候、気温、湿度、明るさ、及び、路面の状態等が想定される。
 行動計画部462は、車両100の行動計画を作成する。例えば、行動計画部462は、経路計画、経路追従の処理を行うことにより、行動計画を作成する。
 なお、経路計画(Global path planning)とは、スタートからゴールまでの大まかな経路を計画する処理である。この経路計画には、軌道計画と言われ、経路計画で計画された経路において、車両100の運動特性を考慮して、車両100の近傍で安全かつ滑らかに進行することが可能な軌道生成(Local path planning)の処理も含まれる。経路計画を長期経路計画、および起動生成を短期経路計画、または局所経路計画と区別してもよい。安全優先経路は、起動生成、短期経路計画、または局所経路計画と同様の概念を表す。
 経路追従とは、経路計画により計画した経路を計画された時間内で安全かつ正確に走行するための動作を計画する処理である。行動計画部462は、例えば、この経路追従の処理の結果に基づき、車両100の目標速度と目標角速度を計算することができる。
 動作制御部463は、行動計画部462により作成された行動計画を実現するために、車両100の動作を制御する。
 例えば、動作制御部463は、後述する車両制御部432に含まれる、ステアリング制御部481、ブレーキ制御部482、及び、駆動制御部483を制御して、軌道計画により計算された軌道を車両100が進行するように、加減速制御及び方向制御を行う。例えば、動作制御部463は、衝突回避あるいは衝撃緩和、追従走行、車速維持走行、自車の衝突警告、自車のレーン逸脱警告等のADASの機能実現を目的とした協調制御を行う。例えば、動作制御部463は、運転者の操作によらずに自律的に走行する自動運転等を目的とした協調制御を行う。
 DMS430は、車内センサ426からのセンサデータ、及び、後述するHMI431に入力される入力データ等に基づいて、運転者の認証処理、及び、運転者の状態の認識処理等を行う。この場合にDMS430の認識対象となる運転者の状態としては、例えば、体調、覚醒度、集中度、疲労度、視線方向、酩酊度、運転操作、姿勢等が想定される。
 なお、DMS430が、運転者以外の搭乗者の認証処理、及び、当該搭乗者の状態の認識処理を行うようにしてもよい。また、例えば、DMS430が、車内センサ426からのセンサデータに基づいて、車内の状況の認識処理を行うようにしてもよい。認識対象となる車内の状況としては、例えば、気温、湿度、明るさ、臭い等が想定される。
 HMI431は、各種のデータや指示等の入力と、各種のデータの運転者などへの提示を行う。
 HMI431によるデータの入力について、概略的に説明する。HMI431は、人がデータを入力するための入力デバイスを備える。HMI431は、入力デバイスにより入力されたデータや指示等に基づいて入力信号を生成し、車両制御システム411の各部に供給する。HMI431は、入力デバイスとして、例えばタッチパネル、ボタン、スイッチ、及び、レバーといった操作子を備える。これに限らず、HMI431は、音声やジェスチャ等により手動操作以外の方法で情報を入力可能な入力デバイスをさらに備えてもよい。さらに、HMI431は、例えば、赤外線あるいは電波を利用したリモートコントロール装置や、車両制御システム411の操作に対応したモバイル機器若しくはウェアラブル機器等の外部接続機器を入力デバイスとして用いてもよい。
 HMI431によるデータの提示について、概略的に説明する。HMI431は、搭乗者又は車外に対する視覚情報、聴覚情報、及び、触覚情報の生成を行う。また、HMI431は、生成されたこれら各情報の出力、出力内容、出力タイミングおよび出力方法等を制御する出力制御を行う。HMI431は、視覚情報として、例えば、操作画面、車両100の状態表示、警告表示、車両100の周囲の状況を示すモニタ画像等の画像や光により示される情報を生成および出力する。また、HMI431は、聴覚情報として、例えば、音声ガイダンス、警告音、警告メッセージ等の音により示される情報を生成および出力する。さらに、HMI431は、触覚情報として、例えば、力、振動、動き等により搭乗者の触覚に与えられる情報を生成および出力する。
 HMI431が視覚情報を出力する出力デバイスとしては、例えば、自身が画像を表示することで視覚情報を提示する表示装置や、画像を投影することで視覚情報を提示するプロジェクタ装置を適用することができる。なお、表示装置は、通常のディスプレイを有する表示装置以外にも、例えば、ヘッドアップディスプレイ、透過型ディスプレイ、AR(Augmented Reality)機能を備えるウエアラブルデバイスといった、搭乗者の視界内に視覚情報を表示する装置であってもよい。また、HMI431は、車両100に設けられるナビゲーション装置、インストルメントパネル、CMS(Camera Monitoring System)、電子ミラー、ランプなどが有する表示デバイスを、視覚情報を出力する出力デバイスとして用いることも可能である。
 HMI431が聴覚情報を出力する出力デバイスとしては、例えば、オーディオスピーカ、ヘッドホン、イヤホンを適用することができる。
 HMI431が触覚情報を出力する出力デバイスとしては、例えば、ハプティクス技術を用いたハプティクス素子を適用することができる。ハプティクス素子は、例えば、ステアリングホイール、シートといった、車両100の搭乗者が接触する部分に設けられる。
 車両制御部432は、車両100の各部の制御を行う。車両制御部432は、ステアリング制御部481、ブレーキ制御部482、駆動制御部483、ボディ系制御部484、ライト制御部485、及び、ホーン制御部486を備える。
 ステアリング制御部481は、車両100のステアリングシステムの状態の検出及び制御等を行う。ステアリングシステムは、例えば、ステアリングホイール等を備えるステアリング機構、電動パワーステアリング等を備える。ステアリング制御部481は、例えば、ステアリングシステムの制御を行うECU等の制御ユニット、ステアリングシステムの駆動を行うアクチュエータ等を備える。
 ブレーキ制御部482は、車両100のブレーキシステムの状態の検出及び制御等を行う。ブレーキシステムは、例えば、ブレーキペダル等を含むブレーキ機構、ABS(Antilock Brake System)、回生ブレーキ機構等を備える。ブレーキ制御部482は、例えば、ブレーキシステムの制御を行うECU等の制御ユニット等を備える。
 駆動制御部483は、車両100の駆動システムの状態の検出及び制御等を行う。駆動システムは、例えば、アクセルペダル、内燃機関又は駆動用モータ等の駆動力を発生させるための駆動力発生装置、駆動力を車輪に伝達するための駆動力伝達機構等を備える。駆動制御部483は、例えば、駆動システムの制御を行うECU等の制御ユニット等を備える。
 ボディ系制御部484は、車両100のボディ系システムの状態の検出及び制御等を行う。ボディ系システムは、例えば、キーレスエントリシステム、スマートキーシステム、パワーウインドウ装置、パワーシート、空調装置、エアバッグ、シートベルト、シフトレバー等を備える。ボディ系制御部484は、例えば、ボディ系システムの制御を行うECU等の制御ユニット等を備える。
 ライト制御部485は、車両100の各種のライトの状態の検出及び制御等を行う。制御対象となるライトとしては、例えば、ヘッドライト、バックライト、フォグライト、ターンシグナル、ブレーキライト、プロジェクション、バンパーの表示等が想定される。ライト制御部485は、ライトの制御を行うECU等の制御ユニット等を備える。
 ホーン制御部486は、車両100のカーホーンの状態の検出及び制御等を行う。ホーン制御部486は、例えば、カーホーンの制御を行うECU等の制御ユニット等を備える。
 図11は、図10の外部認識センサ425のカメラ451、レーダ452、LiDAR453、及び、超音波センサ454等によるセンシング領域の例を示す図である。なお、図11において、車両100を上面から見た様子が模式的に示され、左端側が車両100の前端(フロント)側であり、右端側が車両100の後端(リア)側となっている。
 センシング領域101F及びセンシング領域101Bは、超音波センサ454のセンシング領域の例を示している。センシング領域101Fは、複数の超音波センサ454によって車両100の前端周辺をカバーしている。センシング領域101Bは、複数の超音波センサ454によって車両100の後端周辺をカバーしている。
 センシング領域101F及びセンシング領域101Bにおけるセンシング結果は、例えば、車両100の駐車支援等に用いられる。
 センシング領域102F乃至センシング領域102Bは、短距離又は中距離用のレーダ452のセンシング領域の例を示している。センシング領域102Fは、車両100の前方において、センシング領域101Fより遠い位置までカバーしている。センシング領域102Bは、車両100の後方において、センシング領域101Bより遠い位置までカバーしている。センシング領域102Lは、車両100の左側面の後方の周辺をカバーしている。センシング領域102Rは、車両100の右側面の後方の周辺をカバーしている。
 センシング領域102Fにおけるセンシング結果は、例えば、車両100の前方に存在する車両や歩行者等の検出等に用いられる。センシング領域102Bにおけるセンシング結果は、例えば、車両100の後方の衝突防止機能等に用いられる。センシング領域102L及びセンシング領域102Rにおけるセンシング結果は、例えば、車両100の側方の死角における物体の検出等に用いられる。
 センシング領域103F乃至センシング領域103Bは、カメラ451によるセンシング領域の例を示している。センシング領域103Fは、車両100の前方において、センシング領域102Fより遠い位置までカバーしている。センシング領域103Bは、車両100の後方において、センシング領域102Bより遠い位置までカバーしている。センシング領域103Lは、車両100の左側面の周辺をカバーしている。センシング領域103Rは、車両100の右側面の周辺をカバーしている。
 センシング領域103Fにおけるセンシング結果は、例えば、信号機や交通標識の認識、車線逸脱防止支援システム、自動ヘッドライト制御システムに用いることができる。センシング領域103Bにおけるセンシング結果は、例えば、駐車支援、及び、サラウンドビューシステムに用いることができる。センシング領域103L及びセンシング領域103Rにおけるセンシング結果は、例えば、サラウンドビューシステムに用いることができる。
 センシング領域104は、LiDAR453のセンシング領域の例を示している。センシング領域104は、車両100の前方において、センシング領域103Fより遠い位置までカバーしている。一方、センシング領域104は、センシング領域103Fより左右方向の範囲が狭くなっている。
 センシング領域104におけるセンシング結果は、例えば、周辺車両等の物体検出に用いられる。
 センシング領域105は、長距離用のレーダ452のセンシング領域の例を示している。センシング領域105は、車両100の前方において、センシング領域104より遠い位置までカバーしている。一方、センシング領域105は、センシング領域104より左右方向の範囲が狭くなっている。
 センシング領域105におけるセンシング結果は、例えば、ACC(Adaptive Cruise Control)、緊急ブレーキ、衝突回避等に用いられる。
 なお、外部認識センサ425が含むカメラ451、レーダ452、LiDAR453、及び、超音波センサ454の各センサのセンシング領域は、図11以外に各種の構成をとってもよい。具体的には、超音波センサ454が車両100の側方もセンシングするようにしてもよいし、LiDAR453が車両100の後方をセンシングするようにしてもよい。また、各センサの設置位置は、上述した各例に限定されない。また、各センサの数は、1つでも良いし、複数であっても良い。
(2-3.その他)
 上記各実施形態において説明した各処理のうち、自動的に行われるものとして説明した処理の全部または一部を手動的に行うこともでき、あるいは、手動的に行われるものとして説明した処理の全部または一部を公知の方法で自動的に行うこともできる。この他、上記文書中や図面中で示した処理手順、具体的名称、各種のデータやパラメータを含む情報については、特記する場合を除いて任意に変更することができる。例えば、各図に示した各種情報は、図示した情報に限られない。
 また、図示した各装置の各構成要素は機能概念的なものであり、必ずしも物理的に図示の如く構成されていることを要しない。すなわち、各装置の分散・統合の具体的形態は図示のものに限られず、その全部または一部を、各種の負荷や使用状況などに応じて、任意の単位で機能的または物理的に分散・統合して構成することができる。
 また、上述してきた各実施形態及び変形例は、処理内容を矛盾させない範囲で適宜組み合わせることが可能である。また、上記実施形態では、移動体として自動車を例に挙げたが、本開示の情報処理は、自動車以外の移動体にも適用可能である。例えば、移動体は、自動二輪車や自動三輪車等の小型車両や、バスやトラック等の大型車両、船舶や航空機等の大型機体、あるいは、ロボットやドローン等の自律型移動体であってもよい。また、車両100は、必ずしも移動体と一体ではなく、移動体からネットワークNを介して情報を取得し、取得した情報に基づいて除去範囲を決定するクラウドサーバ等であってもよい。
 また、本明細書に記載された効果はあくまで例示であって限定されるものでは無く、他の効果があってもよい。
(3.本開示に係る情報処理装置の効果)
 上述のように、本開示に係る情報処理装置(実施形態では車両100)は、取得部(実施形態では取得部131)と、特定部(実施形態では特定部132)と、認識部(実施形態では認識部133)と、生成部(実施形態では生成部134)とを備える。取得部は、複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する。特定部は、取得された音声および映像に基づいて、複数の発話者の各々を特定する。認識部は、特定された各々の発話者が発した発話、および、各々の発話者の属性もしくは発話の性質を認識する。生成部は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応を生成する。
 このように、本開示に係る情報処理装置は、複数の発話者の音声だけでなく映像を取得し、取得した映像も用いて発話者を特定することで、それぞれの発話内容を正確に認識する。また、情報処理装置は、各々の発話者の属性や発話の性質に基づいて反応を生成することにより、認識した音声に対して最適な反応を返すことができる。
 また、生成部は、認識された各々の発話者の属性もしくは発話の性質に基づいて、認識した発話に対する反応の優先度を決定する。また、情報処理装置は、生成部によって決定された優先度に応じて、認識した発話に対する反応を出力する出力制御部(実施形態では出力制御部135)をさらに備える。
 このように、情報処理装置は、各々の発話者の属性や発話の性質に基づいて優先度を決定することで、複数の発話者による発話を同時に受け取ったとしても、反応すべき対象に対して最適な反応を生成することができる。
 また、取得部は、映像として、発話者の口唇を撮影した映像を取得する。特定部は、発話者の口唇を撮影した映像に基づいて、複数の発話者の各々を特定する。
 このように、情報処理装置は、音声のみならず、発話者の口唇の動きを含む映像を利用して発話者を特定することで、特定の精度を向上させることができる。
 また、認識部は、各々の発話者が発した音声、もしくは、各々の発話者の口唇の動きに基づいて、各々の発話者が発した発話をそれぞれ認識する。
 このように、情報処理装置は、音声だけでなく、リップリーディングの技術を利用して映像からも発話の認識を行うことにより、発話者の意図に沿った音声認識を確実に行うことができる。
 また、取得部は、温度検知によって発話者を検知したうえで、発話者が発話している状態を撮影した映像を取得する。
 このように、情報処理装置は、実際に所在する人物を認識してから音声認識を行うことで、例えば、人物が再生していたテレビの映像による音声などを発話者と誤って認識することなく、所在する人物の発話のみを正確に認識することができる。
 また、取得部は、複数の発話者が所在する空間における、複数の発話者が所在する位置に関する情報を取得する。認識部は、複数の発話者が所在する位置に関する情報に基づいて、複数の発話者の属性を認識する。
 このように、情報処理装置は、人物の所在位置に基づいて人物を特定することで、音声や口唇の動きで認識が難しい場合であっても、人物の特定の精度を向上させることができる。
 また、取得部は、複数の発話者が発したそれぞれの音声の組成情報を取得する。認識部は、複数の発話者が発したそれぞれの音声の組成情報に基づいて、複数の発話者の属性を認識する。
 このように、情報処理装置は、音声の特徴量に基づいて発話者の属性(例えば、父親か子供か等)を認識することで、人物の認識精度を向上させることができる。
 また、認識部は、取得された音声および映像に基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。生成部は、複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する。
 このように、情報処理装置は、エージェントに向けられている発話に対して選択的に反応を生成することで、関係のない発話に対して反応を生成すること等を抑止することができる。
 また、認識部は、取得された映像における発話者の視線もしくは口唇の向きに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。
 このように、情報処理装置は、音声だけでなく、発話者の視線等に基づいて発話がエージェントに向けられているかを認識することで、認識精度を高めることができる。
 また、認識部は、発話者が発した音声の内容、音声の指向性および音声の組成情報の少なくともいずれか一つに基づいて、複数の発話者が反応の生成を要望しているか否かを認識する。
 このように、情報処理装置は、人間同士の会話であるか、エージェントに向けられたときに発する音声であるかといった特徴量に基づいて発話を認識することで、より正確に発話の対象がエージェントであるか否かを判定することができる。
 また、生成部は、各々の発話者の属性に紐づけられた優先順位に基づいて、認識した発話に対する反応を生成する。
 このように、情報処理装置は、優先順位に応じて反応を生成することで、その場に所在する発話者のうち決定権を持つユーザに対する反応を優先的に出力するなど、場の状況に合わせた最適な対話処理を行うことができる。
 また、認識部は、発話の性質として、各々の発話者が発した発話における発話者の感情を認識する。生成部は、各々の発話者の感情に応じて決定される優先順位に基づいて、認識した発話に対する反応を生成する。
 このように、情報処理装置は、逼迫感や緊迫感などの感情に応じた反応を生成することで、緊急事態などにも対応した反応を返すことができる。
 また、認識部は、映像における発話者の表情、口唇の動き、発話における音声の組成情報の少なくともいずれか一つに基づいて、発話者の感情を認識する。
 このように、情報処理装置は、発話者の映像等に基づいて感情を認識したうえで生成処理を行うことで、発話者の感情に沿った反応を返すことができる。
 また、取得部は、複数の発話者が所在する空間の外部環境に関する情報を取得する。生成部は、取得部によって取得された外部環境に関する情報に基づいて、認識した発話に対する反応を生成する。
 このように、情報処理装置は、外部環境を含めて反応生成処理を行うことで、よりその場に適合した、自然な反応を生成することができる。
 また、取得部は、外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得する。生成部は、所定の事態が発生していると判定した場合に、発話者への応答よりも優先して、所定の事態に対応した反応を生成する。
 このように、情報処理装置は、緊急車両の接近など、様々な事態を想定した反応を行うことで、通常とは異なる事態に陥った場合でも、その場に適した反応を返すことができる。
 また、取得部は、外部環境に関する情報として、時間帯もしくは天候に関する情報を取得する。生成部は、時間帯もしくは天候に対応した反応を生成する。
 このように、情報処理装置は、時間帯や天候を考慮した反応を生成することで、状況に適した反応を生成することができる。
 また、取得部は、複数の発話者が同乗する車両内に設置された撮像装置によって撮像される映像を取得する。生成部は、認識した発話に対する反応として、車両の挙動に関する反応を生成する。
 このように、情報処理装置は、車両における複数の発話者に対して反応を生成する。すなわち、情報処理装置は、騒音によって聞き取りにくかったり、複数人が発話することで認識が難しい状況下であっても、状況に適した反応を生成することができる。
(4.ハードウェア構成)
 上述してきた本開示に係る情報処理装置等の情報機器は、例えば図12に示すような構成のコンピュータ1000によって実現される。図12は、本開示に係る情報処理装置の機能を実現するコンピュータ1000の一例を示すハードウェア構成図である。以下では、本開示に係る情報処理装置として、実施形態に係る車両100を例に挙げて説明する。コンピュータ1000は、CPU1100、RAM1200、ROM(Read Only Memory)1300、HDD(Hard Disk Drive)1400、通信インターフェイス1500、及び入出力インターフェイス1600を有する。コンピュータ1000の各部は、バス1050によって接続される。
 CPU1100は、ROM1300又はHDD1400に格納されたプログラムに基づいて動作し、各部の制御を行う。例えば、CPU1100は、ROM1300又はHDD1400に格納されたプログラムをRAM1200に展開し、各種プログラムに対応した処理を実行する。
 ROM1300は、コンピュータ1000の起動時にCPU1100によって実行されるBIOS(Basic Input Output System)等のブートプログラムや、コンピュータ1000のハードウェアに依存するプログラム等を格納する。
 HDD1400は、CPU1100によって実行されるプログラム、及び、かかるプログラムによって使用されるデータ等を非一時的に記録する、コンピュータが読み取り可能な記録媒体である。具体的には、HDD1400は、プログラムデータ1450の一例である本開示に係る情報処理プログラムを記録する記録媒体である。
 通信インターフェイス1500は、コンピュータ1000が外部ネットワーク1550(例えばインターネット)と接続するためのインターフェイスである。例えば、CPU1100は、通信インターフェイス1500を介して、他の機器からデータを受信したり、CPU1100が生成したデータを他の機器へ送信したりする。
 入出力インターフェイス1600は、入出力デバイス1650とコンピュータ1000とを接続するためのインターフェイスである。例えば、CPU1100は、入出力インターフェイス1600を介して、キーボードやマウス等の入力デバイスからデータを受信する。また、CPU1100は、入出力インターフェイス1600を介して、ディスプレイやスピーカーやプリンタ等の出力デバイスにデータを送信する。また、入出力インターフェイス1600は、所定の記録媒体(メディア)に記録されたプログラム等を読み取るメディアインターフェイスとして機能してもよい。メディアとは、例えばDVD(Digital Versatile Disc)、PD(Phase change rewritable Disk)等の光学記録媒体、MO(Magneto-Optical disk)等の光磁気記録媒体、テープ媒体、磁気記録媒体、または半導体メモリ等である。
 例えば、コンピュータ1000が実施形態に係る車両100として機能する場合、コンピュータ1000のCPU1100は、RAM1200上にロードされた情報処理プログラムを実行することにより、制御部130等の機能を実現する。また、HDD1400には、本開示に係る情報処理プログラムや、記憶部120内のデータが格納される。なお、CPU1100は、プログラムデータ1450をHDD1400から読み取って実行するが、他の例として、外部ネットワーク1550を介して、他の装置からこれらのプログラムを取得してもよい。
 なお、本技術は以下のような構成も取ることができる。
(1)
 複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
 前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
 前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
 前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
 を備える情報処理装置。
(2)
 前記生成部は、
 前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応の優先度を決定し、
 前記生成部によって決定された優先度に応じて、当該認識した発話に対する反応を出力する出力制御部をさらに備える、
 前記(1)に記載の情報処理装置。
(3)
 前記取得部は、
 前記映像として、前記発話者の口唇を撮影した映像を取得し、
 前記特定部は、
 前記発話者の口唇を撮影した映像に基づいて、前記複数の発話者の各々を特定する、
 前記(1)または(2)に記載の情報処理装置。
(4)
 前記認識部は、
 前記各々の発話者が発した音声、もしくは、当該各々の発話者の口唇の動きに基づいて、当該各々の発話者が発した発話をそれぞれ認識する、
 前記(3)に記載の情報処理装置。
(5)
 前記取得部は、
 温度検知によって前記発話者を検知したうえで、前記発話者が発話している状態を撮影した映像を取得する、
 前記(1)から(4)のいずれかに記載の情報処理装置。
(6)
 前記取得部は、
 前記複数の発話者が所在する空間における、当該複数の発話者が所在する位置に関する情報を取得し、
 前記認識部は、
 前記複数の発話者が所在する位置に関する情報に基づいて、当該複数の発話者の属性を認識する、
 前記(1)から(5)のいずれかに記載の情報処理装置。
(7)
 前記取得部は、
 前記複数の発話者が発したそれぞれの音声の組成情報を取得し、
 前記認識部は、
 前記複数の発話者が発したそれぞれの音声の組成情報に基づいて、当該複数の発話者の属性を認識する、
 前記(1)から(6)のいずれかに記載の情報処理装置。
(8)
 前記認識部は、
 前記取得された音声および映像に基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識し、
 前記生成部は、
 前記複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する、
 前記(1)から(7)のいずれかに記載の情報処理装置。
(9)
 前記認識部は、
 前記取得された映像における発話者の視線もしくは口唇の向きに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
 前記(8)に記載の情報処理装置。
(10)
 前記認識部は、
 前記発話者が発した音声の内容、音声の指向性および前記音声の組成情報の少なくともいずれか一つに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
 前記(8)または(9)に記載の情報処理装置。
(11)
 前記生成部は、
 前記各々の発話者の属性に紐づけられた優先順位に基づいて、前記認識した発話に対する反応を生成する、
 前記(1)から(10)のいずれかに記載の情報処理装置。
(12)
 前記認識部は、
 前記発話の性質として、前記各々の発話者が発した発話における当該発話者の感情を認識し、
 前記生成部は、
 前記各々の発話者の感情に応じて決定される優先順位に基づいて、前記認識した発話に対する反応を生成する、
 前記(1)から(11)のいずれかに記載の情報処理装置。
(13)
 前記認識部は、
 前記映像における発話者の表情、口唇の動き、前記発話における音声の組成情報の少なくともいずれか一つに基づいて、前記発話者の感情を認識する、
 前記(12)に記載の情報処理装置。
(14)
 前記取得部は、
 前記複数の発話者が所在する空間の外部環境に関する情報を取得し、
 前記生成部は、
 前記取得部によって取得された外部環境に関する情報に基づいて、前記認識した発話に対する反応を生成する、
 前記(1)から(13)のいずれかに記載の情報処理装置。
(15)
 前記取得部は、
 前記外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得し、
 前記生成部は、
 前記所定の事態が発生していると判定した場合に、前記発話者への応答よりも優先して、当該所定の事態に対応した反応を生成する、
 前記(14)に記載の情報処理装置。
(16)
 前記取得部は、
 前記外部環境に関する情報として、時間帯もしくは天候に関する情報を取得し、
 前記生成部は、
 前記時間帯もしくは天候に対応した反応を生成する、
 前記(14)または(15)に記載の情報処理装置。
(17)
 前記取得部は、
 前記複数の発話者が同乗する車両内に設置された撮像装置によって撮像される前記映像を取得し、
 前記生成部は、
 前記認識した発話に対する反応として、前記車両の挙動に関する反応を生成する、
 前記(1)から(16)のいずれかに記載の情報処理装置。
(18)
 コンピュータが、
 複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得し、
 前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定し、
 前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識し、
 前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する、
 ことを含む情報処理方法。
(19)
 コンピュータを、
 複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
 前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
 前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
 前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
 として機能させるための情報処理プログラム。
 100 車両
 110 通信部
 120 記憶部
 121 ユーザ情報記憶部
 122 外部ステータス記憶部
 123 判定モデル記憶部
 130 制御部
 131 取得部
 132 特定部
 133 認識部
 134 生成部
 135 出力制御部
 140 検知部
 145 出力部
 146 表示部
 147 音声出力部

Claims (19)

  1.  複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
     前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
     前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
     前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
     を備える情報処理装置。
  2.  前記生成部は、
     前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応の優先度を決定し、
     前記生成部によって決定された優先度に応じて、当該認識した発話に対する反応を出力する出力制御部をさらに備える、
     請求項1に記載の情報処理装置。
  3.  前記取得部は、
     前記映像として、前記発話者の口唇を撮影した映像を取得し、
     前記特定部は、
     前記発話者の口唇を撮影した映像に基づいて、前記複数の発話者の各々を特定する、
     請求項1に記載の情報処理装置。
  4.  前記認識部は、
     前記各々の発話者が発した音声、もしくは、当該各々の発話者の口唇の動きに基づいて、当該各々の発話者が発した発話をそれぞれ認識する、
     請求項3に記載の情報処理装置。
  5.  前記取得部は、
     温度検知によって前記発話者を検知したうえで、前記発話者が発話している状態を撮影した映像を取得する、
     請求項1に記載の情報処理装置。
  6.  前記取得部は、
     前記複数の発話者が所在する空間における、当該複数の発話者が所在する位置に関する情報を取得し、
     前記認識部は、
     前記複数の発話者が所在する位置に関する情報に基づいて、当該複数の発話者の属性を認識する、
     請求項1に記載の情報処理装置。
  7.  前記取得部は、
     前記複数の発話者が発したそれぞれの音声の組成情報を取得し、
     前記認識部は、
     前記複数の発話者が発したそれぞれの音声の組成情報に基づいて、当該複数の発話者の属性を認識する、
     請求項1に記載の情報処理装置。
  8.  前記認識部は、
     前記取得された音声および映像に基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識し、
     前記生成部は、
     前記複数の発話者が反応の生成を要望しているか否かに応じて、異なる反応を生成する、
     請求項1に記載の情報処理装置。
  9.  前記認識部は、
     前記取得された映像における発話者の視線もしくは口唇の向きに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
     請求項8に記載の情報処理装置。
  10.  前記認識部は、
     前記発話者が発した音声の内容、音声の指向性および前記音声の組成情報の少なくともいずれか一つに基づいて、前記複数の発話者が反応の生成を要望しているか否かを認識する、
     請求項8に記載の情報処理装置。
  11.  前記生成部は、
     前記各々の発話者の属性に紐づけられた優先順位に基づいて、前記認識した発話に対する反応を生成する、
     請求項1に記載の情報処理装置。
  12.  前記認識部は、
     前記発話の性質として、前記各々の発話者が発した発話における当該発話者の感情を認識し、
     前記生成部は、
     前記各々の発話者の感情に応じて決定される優先順位に基づいて、前記認識した発話に対する反応を生成する、
     請求項1に記載の情報処理装置。
  13.  前記認識部は、
     前記映像における発話者の表情、口唇の動き、前記発話における音声の組成情報の少なくともいずれか一つに基づいて、前記発話者の感情を認識する、
     請求項12に記載の情報処理装置。
  14.  前記取得部は、
     前記複数の発話者が所在する空間の外部環境に関する情報を取得し、
     前記生成部は、
     前記取得部によって取得された外部環境に関する情報に基づいて、前記認識した発話に対する反応を生成する、
     請求項1に記載の情報処理装置。
  15.  前記取得部は、
     前記外部環境に関する情報として、予め規定された所定の事態が発生しているか否かを示す情報を取得し、
     前記生成部は、
     前記所定の事態が発生していると判定した場合に、前記発話者への応答よりも優先して、当該所定の事態に対応した反応を生成する、
     請求項14に記載の情報処理装置。
  16.  前記取得部は、
     前記外部環境に関する情報として、時間帯もしくは天候に関する情報を取得し、
     前記生成部は、
     前記時間帯もしくは天候に対応した反応を生成する、
     請求項14に記載の情報処理装置。
  17.  前記取得部は、
     前記複数の発話者が同乗する車両内に設置された撮像装置によって撮像される前記映像を取得し、
     前記生成部は、
     前記認識した発話に対する反応として、前記車両の挙動に関する反応を生成する、
     請求項1に記載の情報処理装置。
  18.  コンピュータが、
     複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得し、
     前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定し、
     前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識し、
     前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する、
     ことを含む情報処理方法。
  19.  コンピュータを、
     複数の発話者が発した音声と、発話者が発話している状態を撮影した映像とを取得する取得部と、
     前記取得された音声および映像に基づいて、前記複数の発話者の各々を特定する特定部と、
     前記特定された各々の発話者が発した発話、および、当該各々の発話者の属性もしくは前記発話の性質を認識する認識部と、
     前記認識された各々の発話者の属性もしくは前記発話の性質に基づいて、前記認識した発話に対する反応を生成する生成部と、
     として機能させるための情報処理プログラム。
PCT/JP2022/039440 2021-11-17 2022-10-24 情報処理装置、情報処理方法および情報処理プログラム WO2023090057A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2021186795 2021-11-17
JP2021-186795 2021-11-17

Publications (1)

Publication Number Publication Date
WO2023090057A1 true WO2023090057A1 (ja) 2023-05-25

Family

ID=86396630

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2022/039440 WO2023090057A1 (ja) 2021-11-17 2022-10-24 情報処理装置、情報処理方法および情報処理プログラム

Country Status (1)

Country Link
WO (1) WO2023090057A1 (ja)

Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167975A (ja) * 2003-11-14 2005-06-23 Denso Corp 音場制御装置、音場制御システム、車載機器および車載システム
JP2014098844A (ja) * 2012-11-15 2014-05-29 Ntt Docomo Inc 対話支援装置、対話システム、対話支援方法及びプログラム
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2019069731A1 (ja) * 2017-10-06 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および移動体
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
JP2021135363A (ja) * 2020-02-26 2021-09-13 株式会社サイバーエージェント 制御システム、制御装置、制御方法及びコンピュータプログラム

Patent Citations (6)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2005167975A (ja) * 2003-11-14 2005-06-23 Denso Corp 音場制御装置、音場制御システム、車載機器および車載システム
JP2014098844A (ja) * 2012-11-15 2014-05-29 Ntt Docomo Inc 対話支援装置、対話システム、対話支援方法及びプログラム
WO2016157662A1 (ja) * 2015-03-31 2016-10-06 ソニー株式会社 情報処理装置、制御方法、およびプログラム
WO2019069731A1 (ja) * 2017-10-06 2019-04-11 ソニー株式会社 情報処理装置、情報処理方法、プログラム、および移動体
CN111091824A (zh) * 2019-11-30 2020-05-01 华为技术有限公司 一种语音匹配方法及相关设备
JP2021135363A (ja) * 2020-02-26 2021-09-13 株式会社サイバーエージェント 制御システム、制御装置、制御方法及びコンピュータプログラム

Similar Documents

Publication Publication Date Title
WO2017130482A1 (ja) 報知制御装置及び報知制御方法
US11815887B2 (en) Vehicle control device, vehicle control method, vehicle, information processing device, information processing method, and program
JP7382327B2 (ja) 情報処理装置、移動体、情報処理方法及びプログラム
JPWO2020100585A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2021241189A1 (ja) 情報処理装置、情報処理方法、およびプログラム
US20240054793A1 (en) Information processing device, information processing method, and program
US20220383749A1 (en) Signal processing device, signal processing method, program, and mobile device
WO2019078010A1 (ja) 情報処理装置、情報処理方法、移動体、及び、車両
WO2022158185A1 (ja) 情報処理装置、情報処理方法、プログラムおよび移動装置
CN115720229A (zh) 用于与视觉和听觉受损的车辆乘员通信的系统和方法
JP7192771B2 (ja) 情報処理装置、情報処理方法、プログラム、及び、車両
WO2021241260A1 (ja) 情報処理装置、および情報処理方法、情報処理システム、並びにプログラム
US20220277556A1 (en) Information processing device, information processing method, and program
KR102350306B1 (ko) 차량 내 음성 제어 방법
WO2021033591A1 (ja) 情報処理装置、および情報処理方法、並びにプログラム
WO2023090057A1 (ja) 情報処理装置、情報処理方法および情報処理プログラム
WO2022004423A1 (ja) 情報処理装置、情報処理方法、及び、プログラム
WO2023054090A1 (ja) 認識処理装置、認識処理方法、および認識処理システム
WO2023149089A1 (ja) 学習装置、学習方法及び学習プログラム
WO2023204076A1 (ja) 音響制御方法及び音響制御装置
WO2024024471A1 (ja) 情報処理装置、情報処理方法、及び、情報処理システム
WO2024048180A1 (ja) 情報処理装置、情報処理方法および車両制御システム
WO2023162497A1 (ja) 画像処理装置、画像処理方法及び画像処理プログラム
WO2023032276A1 (ja) 情報処理装置、情報処理方法、及び、移動装置
WO2022019117A1 (ja) 情報処理装置、情報処理方法、及び、プログラム

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 22895341

Country of ref document: EP

Kind code of ref document: A1