WO2018139650A1 - 音声制御装置、音声制御方法、及びプログラム - Google Patents

音声制御装置、音声制御方法、及びプログラム Download PDF

Info

Publication number
WO2018139650A1
WO2018139650A1 PCT/JP2018/002770 JP2018002770W WO2018139650A1 WO 2018139650 A1 WO2018139650 A1 WO 2018139650A1 JP 2018002770 W JP2018002770 W JP 2018002770W WO 2018139650 A1 WO2018139650 A1 WO 2018139650A1
Authority
WO
WIPO (PCT)
Prior art keywords
vehicle
intersection
control device
voice control
sound
Prior art date
Application number
PCT/JP2018/002770
Other languages
English (en)
French (fr)
Inventor
洋一 奥山
洋人 河内
昭光 藤吉
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Publication of WO2018139650A1 publication Critical patent/WO2018139650A1/ja

Links

Images

Classifications

    • BPERFORMING OPERATIONS; TRANSPORTING
    • B60VEHICLES IN GENERAL
    • B60RVEHICLES, VEHICLE FITTINGS, OR VEHICLE PARTS, NOT OTHERWISE PROVIDED FOR
    • B60R21/00Arrangements or fittings on vehicles for protecting or preventing injuries to occupants or pedestrians in case of accidents or other traffic risks
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/16Anti-collision systems

Definitions

  • the present invention relates to a voice control device, a voice control method, and a program.
  • Patent Document 1 discloses a technique for switching a sound source of sound output from a speaker from an in-vehicle sound source (such as an audio device) to an external sound source when approaching a pre-registered area. That is, when approaching a pre-registered area, the outside sound is reproduced in the passenger compartment.
  • an in-vehicle sound source such as an audio device
  • Patent Document 1 it is necessary to register in advance a place to reproduce the sound outside the vehicle. Therefore, the user of the vehicle needs to know in advance the place where the outside sound is desired to be reproduced. Moreover, when there are many places where it is desired to reproduce the sound outside the vehicle, the load of registration work is heavy. Therefore, even if it is a place where it is desired to reproduce the outside sound in the passenger compartment for safe driving of the vehicle, there is a possibility that the reproduction cannot be sufficiently performed due to forgetting to register. Furthermore, it is unlikely that a user of an autonomous driving vehicle that can perform autonomous driving knows in advance the location where the outside sound is to be reproduced in the passenger compartment for safe driving of the autonomous driving vehicle. It is considered that a similar problem exists.
  • the present invention has been made in view of the above-described problems, and an object thereof is to provide a technique for easily improving the safety of traveling of a vehicle including an autonomous driving vehicle.
  • the voice control device wherein (1) an image in which the traveling direction of the vehicle is captured is captured, and an object in the vicinity of the intersection is on board the vehicle at an intersection in the traveling direction of the vehicle.
  • Determining means for determining whether or not it is easy for a person to visually recognize, and (2) processing for executing a process using an audio signal representing a sound outside the vehicle generated outside the vehicle according to a determination result of the determining means Means.
  • the voice control method according to claim 10 is a voice control method executed by a computer.
  • the voice control method uses (1) a captured image in which the traveling direction of the vehicle is captured, and for an intersection in the traveling direction of the vehicle, an object around the intersection is easily visible to the passenger of the vehicle.
  • the program according to claim 11 uses, in a computer, (1) a captured image in which the traveling direction of the vehicle is captured, and for an intersection in the traveling direction of the vehicle, an object around the intersection is the vehicle.
  • FIG. It is a figure which illustrates the use environment of the audio
  • FIG. It is a figure which illustrates an intersection with a good view, and an intersection with a bad view, respectively. It is a figure which illustrates the function structure of an audio
  • 3 is a flowchart illustrating a flow of processing executed by the voice control device according to the first embodiment. It is a figure which illustrates the mirror installed in the intersection. It is a figure which illustrates a mode that a part of mirror is hidden by the tree. It is a figure which illustrates the field showing other roads connected to an intersection.
  • FIG. 6 is a flowchart illustrating the flow of processing executed by the voice control device according to the second embodiment.
  • 10 is a flowchart illustrating the flow of processing executed by the voice control device according to the third embodiment.
  • 10 is a flowchart illustrating the flow of processing executed by the voice control device according to the fourth embodiment.
  • each block in the block diagram represents a functional unit configuration, not a hardware unit configuration.
  • FIG. 1 is a diagram illustrating a usage environment of the voice control device 200 according to the first embodiment.
  • FIG. 1 is a diagram for facilitating understanding of the voice control device 200, and does not limit the operation of the voice control device 200.
  • the vehicle 240 is an arbitrary vehicle such as an automobile.
  • the vehicle 240 is provided with a microphone 10.
  • the microphone 10 takes in outside sound generated outside the vehicle 240 and generates a sound signal (sound signal 12) representing the outside sound.
  • the vehicle 240 is provided with a camera 30.
  • the camera 30 captures an image and generates an image (captured image 32) representing the captured result.
  • the camera 30 is installed such that the angle of view includes the traveling direction of the vehicle 240. Therefore, when the vehicle 240 is traveling toward the intersection, the captured image 32 includes an intersection (intersection 40) in the traveling direction of the vehicle 240 (see FIG. 1).
  • Intersection 40 is a place that becomes a connection point of a plurality of roads.
  • four roads are connected so as to intersect in a cross shape.
  • the aspect in which a plurality of roads are connected at the intersection 40 is not limited to a cross shape.
  • Other aspects include, for example, a Y-shape (connection point at a three-way intersection), a T-shape (connection point at a T-shape passage), and the like.
  • the voice control device 200 uses the captured image 32 to determine whether or not an object existing around the intersection 40 in the traveling direction of the vehicle 240 is easily visible to the passenger of the vehicle 240. In other words, the voice control device 200 determines whether or not the intersection 40 is a high-visibility intersection. When an object existing around the intersection 40 is easily visible to a passenger of the vehicle 240, the intersection 40 is an intersection with good visibility. On the other hand, when an object existing in the vicinity of the intersection 40 is difficult for a passenger of the vehicle 240 to visually recognize, the intersection 40 is an intersection with a poor visibility.
  • FIG. 2 is a diagram illustrating an intersection 40 with good visibility and an intersection 40 with poor visibility.
  • FIG. 2A illustrates an intersection 40 with good visibility.
  • the passenger of the vehicle 240 can easily visually recognize the wide ranges of the road 44, the road 46, and the road 48 connected to the intersection 40. Therefore, the passenger of the vehicle 240 can easily visually recognize other vehicles traveling on these roads and heading to the intersection 40, and pedestrians walking on the sidewalks beside these roads and heading to the intersection 40.
  • “road” includes a sidewalk beside it.
  • FIG. 2B illustrates an intersection 40 with a poor view.
  • the range of the road 44 that can be visually recognized by the passenger of the vehicle 240 is narrow.
  • the road 46 and the road 48 are hidden by the building, the range of the road 46 and the road 48 that can be visually recognized by the passenger of the vehicle 240 is also narrow. Therefore, it is difficult for the passenger of the vehicle 240 to visually recognize other vehicles traveling on the road 44, the road 46, or the road 48 toward the intersection 40 and pedestrians walking on these roads toward the intersection 40.
  • the visual information is information that is visible to the passenger of the vehicle 240, information that is captured by the camera 30, and the like.
  • the auditory information is information that can be heard by a passenger of the vehicle 240 and information that is captured by the microphone 10.
  • Auditory information useful for traveling at intersections includes, for example, sounds (engine sounds and road noises) emitted by vehicles heading for intersections, and sounds (speaking voices, etc.) emitted by pedestrians heading for intersections.
  • the voice control device 200 of the present embodiment performs processing using the voice signal 12 representing the outside sound of the vehicle 240 according to the visibility at the intersection 40. In this way, when the vehicle 240 travels toward the intersection 40, even if visual information useful for controlling the travel of the vehicle 240 cannot be obtained, the travel of the vehicle 240 is appropriately performed using auditory information. To be able to control.
  • the voice control device 200 reproduces the voice signal 12 in the room of the vehicle 240 when the view at the intersection 40 is bad.
  • the passenger of the vehicle 240 can recognize the presence of other vehicles and pedestrians that are heading for the intersection 40 and can take appropriate measures.
  • the driver can take measures such as decelerating or stopping the vehicle 240 before the intersection 40.
  • a passenger other than the driver can take measures such as giving advice to the driver or preparing for an accident.
  • the poor visibility at the intersection 40 is determined using the captured image 32, and the process using the voice signal 12 is performed according to the determination result. Therefore, unlike the technique of Patent Document 1, there is no need to register in advance the place where the sound outside the vehicle should be reproduced. Therefore, the user of the voice control device 200 (passenger of the vehicle 240) does not need to know in advance where to reproduce the outside sound. In addition, the user of the voice control device 200 is not forced to perform a work load of registering a place where the outside sound should be reproduced. Furthermore, the voice control device 200 can perform processing using the voice signal 12 based on the state of the intersection 40 when the vehicle 240 is approaching.
  • the process using the audio signal 12 can be appropriately performed. Therefore, according to the voice control device 200 of the present embodiment, it is possible to easily improve the safety of traveling of the vehicle.
  • the process of the audio signal 12 performed by the audio control apparatus 200 is not limited to the process of reproducing the audio signal 12 in the vehicle 240. Other processing will be described later.
  • FIG. 3 is a diagram illustrating a functional configuration of the voice control device 200.
  • the voice control device 200 includes a determination unit 202 and a processing unit 204.
  • the determination unit 202 uses the captured image 32 generated by the camera 30 to determine whether or not an object existing around the intersection 40 in the traveling direction of the vehicle 240 is easily visible to the passenger of the vehicle 240.
  • the processing unit 204 executes processing using the audio signal 12 representing the outside sound of the vehicle 240 according to the determination result of the determination unit 202.
  • Each functional component of the voice control device 200 may be realized by hardware (such as a hard-wired electronic circuit) that implements each functional component, or a combination of hardware and software (electronic circuit and it). Or a combination of programs for controlling the above.
  • hardware such as a hard-wired electronic circuit
  • software electronic circuit and it
  • a combination of programs for controlling the above or a combination of programs for controlling the above.
  • a case where each functional component of the voice control device 200 is realized by a combination of hardware and software will be further described.
  • FIG. 4 is a diagram illustrating a hardware configuration of the voice control device 200.
  • the computer 100 is a computer that implements the voice control device 200.
  • the computer 100 is a ECU (Electronic Control Unit) that controls various hardware provided in the vehicle 240.
  • the computer 100 is a car navigation device provided in the vehicle 240.
  • the computer 100 may be a computer designed exclusively for realizing the voice control apparatus 200, or may be a general-purpose computer.
  • the computer 100 includes a bus 102, a processor 104, a memory 106, a storage device 108, an input / output interface 110, and a network interface 112.
  • the bus 102 is a data transmission path through which the processor 104, the memory 106, the storage device 108, the input / output interface 110, and the network interface 112 transmit / receive data to / from each other.
  • the processor 104 is an arithmetic processing unit realized using a microprocessor, a CPU (Central Processing Unit), or a GPU (Graphics Processing Unit).
  • the memory 106 is a main storage device realized using a RAM (Random Access Memory) or the like.
  • the storage device 108 is an auxiliary storage device realized using a ROM (Read Only Memory), a flash memory, or the like.
  • the storage device 108 may be configured by hardware similar to the hardware configuring the main storage device such as a RAM.
  • the input / output interface 110 is an interface for connecting the computer 100 to peripheral devices.
  • a microphone 10, a speaker 20, and a camera 30 are connected to the input / output interface 110.
  • Various analog signals and digital signals used for controlling the vehicle 240 are input or output to the computer 100 via the input / output interface 110.
  • the audio signal 12 is input from the microphone 10 to the computer 100 via the input / output interface 110.
  • the captured image 32 is input from the camera 30 to the computer 100 via the input / output interface 110.
  • the method by which the computer 100 acquires the audio signal 12 is not limited to the method of acquiring directly from the microphone 10.
  • the computer 100 may acquire the audio signal 12 from the storage device.
  • the microphone 10 may not be connected to the input / output interface 110.
  • the method by which the computer 100 acquires the captured image 32 is not limited to the method of acquiring directly from the camera 30.
  • the computer 100 may acquire the captured image 32 from this storage device.
  • the camera 30 may not be connected to the input / output interface 110.
  • the input / output interface 110 appropriately includes an A / D converter that converts an analog input signal into a digital signal, a D / A converter that converts a digital output signal into an analog signal, and the like.
  • an A / D converter that converts an analog input signal into a digital signal
  • a D / A converter that converts a digital output signal into an analog signal
  • the network interface 112 is an interface for connecting the computer 100 to a communication network.
  • This communication network is, for example, a CAN (Controller Area Network) communication network or a WAN (Wide Area Network).
  • the method of connecting the network interface 112 to the communication network may be a wireless connection or a wired connection.
  • the storage device 108 stores a program module for realizing each functional component of the voice control device 200.
  • the processor 104 reads out the program module to the memory 106 and executes it, thereby realizing the function of the voice control device 200.
  • the microphone 10 is an arbitrary device that can capture an external sound generated outside the vehicle 240 and generate an electrical signal (audio signal 12) representing the external sound.
  • the installation position of the microphone 10 provided in the vehicle 240 is arbitrary. Further, the number of microphones 10 provided in the vehicle 240 is arbitrary.
  • the speaker 20 is an arbitrary device that can output sound represented by an audio signal.
  • the speaker 20 can output the vehicle exterior sound represented by the audio signal 12 into the room of the vehicle 240.
  • the installation position of the speaker 20 provided in the vehicle 240 is arbitrary. Further, the number of speakers 20 provided in the vehicle 240 is arbitrary.
  • the camera 30 is an arbitrary imaging device that can capture an image at an arbitrary timing and generate a captured image 32 as a result of the imaging.
  • the camera 30 may be a video camera that generates moving image data or a still camera that generates still image data.
  • the captured image 32 is a single frame constituting the moving image data.
  • FIG. 5 is a flowchart illustrating the flow of processing executed by the voice control device 200 according to the first embodiment.
  • the determination unit 202 acquires the captured image 32 (S102).
  • the determination unit 202 uses the captured image 32 to determine whether an object existing around the intersection 40 is easily visible to the passenger of the vehicle 240 for the intersection 40 in the traveling direction of the vehicle 240 (S104). ).
  • the vehicle 240 performs processing using the audio signal 12 according to the determination result in S104 (S106).
  • the determination unit 202 acquires the captured image 32 (S102).
  • the method by which the determination unit 202 acquires the captured image 32 is arbitrary.
  • the determination unit 202 receives the captured image 32 transmitted from the camera 30.
  • the determination unit 202 accesses the camera 30 and acquires the captured image 32 stored in the camera 30.
  • the camera 30 may store the captured image 32 in a storage device provided outside the camera 30.
  • the determination unit 202 acquires the captured image 32 by accessing the storage device.
  • the timing at which the determination unit 202 acquires the captured image 32 varies. For example, the determination unit 202 acquires the captured image 32 every time a new captured image 32 is generated by the camera 30. In addition, for example, the determination unit 202 may periodically acquire an unacquired captured image 32. For example, when the determination unit 202 acquires the captured image 32 once per second, the determination unit 202 determines that a plurality of captured images 32 (for example, 30 fps (frames / second) generated in one second is used. A single captured image 32) is acquired collectively.
  • a plurality of captured images 32 for example, 30 fps (frames / second) generated in one second is used. A single captured image 32
  • the determination unit 202 detects the intersection 40 as a premise for determining good visibility at the intersection 40. That is, the determination unit 202 detects that there is an intersection in the traveling direction of the vehicle 240. There are various methods for the determination unit 202 to detect the intersection 40. For example, the determination unit 202 detects the intersection 40 by analyzing the captured image 32. Specifically, the determination unit 202 detects a place where a plurality of roads are connected from the captured image 32 and treats the place as the intersection 40.
  • the determination unit 202 detects that there is an intersection in the traveling direction of the vehicle 240 using the map information, and treats the intersection as the intersection 40.
  • An existing technique can be used as a technique for acquiring map information.
  • the determination part 202 may acquire only the captured image 32 produced
  • the determination unit 202 uses the captured image 32 to determine “whether an object present in the vicinity of the intersection 40 is easily visible to the passenger of the vehicle 240” for the intersection 40 in the traveling direction of the vehicle 240 ( S104). For this purpose, the determination unit 202 extracts an element (hereinafter referred to as a visibility element) related to ease of visual recognition of an object existing around the intersection 40 from the captured image 32.
  • the visibility element is a mirror installed at the intersection 40. Specific description regarding the visibility element will be described later.
  • the determination unit 202 determines whether or not an object existing around the intersection 40 is easily visible to the passenger of the vehicle 240 based on the extracted one or more visibility elements.
  • the determination unit 202 calculates an index value (hereinafter referred to as a visibility index value) that represents the ease of visual recognition of an object existing around the intersection 40 based on the extraction result of the visibility element. Then, when the visibility index value is equal to or greater than the reference value, the determination unit 202 determines that an object existing around the intersection 40 is easily visible to the passenger of the vehicle 240 (the line of sight at the intersection 40 is good). On the other hand, when the visibility index value is less than the reference value, the determination unit 202 determines that an object existing around the intersection 40 is difficult for the passenger of the vehicle 240 to visually recognize (the visibility at the intersection 40 is poor).
  • This reference value may be set in advance in the determination unit 202 or may be stored in a storage device accessible from the determination unit 202.
  • the determination unit 202 calculates a visibility index value based on the extraction result of each visibility element, and a statistical value (total value, average value) of the calculated plurality of visibility index values. Value, maximum value, or minimum value). Then, when the statistical value is equal to or greater than the reference value, the determination unit 202 determines that an object existing around the intersection 40 is easily visible to the passenger of the vehicle 240 (the line of sight at the intersection 40 is good). On the other hand, when the statistical value is less than the reference value, the determination unit 202 determines that an object present around the intersection 40 is difficult for the passenger of the vehicle 240 to visually recognize (the visibility at the intersection 40 is poor).
  • the visibility element is an element related to ease of visual recognition of an object existing around the intersection 40. Hereinafter, some specific examples of the visibility element will be described.
  • the visibility element is a mirror installed at the intersection 40.
  • a mirror may be installed at an intersection to make it easier to grasp a vehicle or a pedestrian that exists near the intersection.
  • FIG. 6 is a diagram illustrating a mirror installed at an intersection. The mirror is denoted by reference numeral 50.
  • the mirror 50 is installed at the intersection 40, the passenger of the vehicle 240 can visually recognize the vehicle and the pedestrian that cannot be directly viewed via the mirror 50. Therefore, the mirror 50 installed in the vicinity of the intersection 40 is an element that improves the ease of visually recognizing an object present around the intersection 40.
  • the determination unit 202 tries to detect the mirror 50 installed in the vicinity of the intersection 40 from the captured image 32. Then, the determination unit 202 calculates a visibility index value related to the mirror 50 based on the detection result.
  • the visibility index value for the mirror 50 when the mirror 50 is detected is also a high value for the visibility index value for the mirror 50 when the mirror 50 is not detected.
  • the process which detects a mirror from the captured image 32 can utilize the technique which recognizes a specific object from an image.
  • the degree to which the object around the intersection 40 can be easily seen by the mirror 50 depends on the size of the mirror 50 that can be seen by the vehicle 240. For example, a part of the mirror 50 may not be visible due to the presence of trees or the like around the mirror 50.
  • FIG. 7 is a diagram illustrating a state in which a part of the mirror 50 is hidden by the tree. Thus, if a part of the mirror 50 cannot be seen, it becomes difficult to visually recognize objects around the intersection 40. Further, when the mirror 50 is small as a whole, it is difficult to visually recognize objects around the intersection 40 even if the entire mirror 50 can be visually recognized.
  • the determination unit 202 may set the visibility index value related to the mirror 50 to a larger value as the area of the mirror 50 detected from the captured image 32 is larger. Therefore, when the captured image 32 includes the mirror 50 but a part of the mirror 50 is not included in the captured image 32, the determination unit 202 visually recognizes an object existing around the intersection 40 to the passenger of the vehicle 240. It can be determined that it is difficult.
  • the “area of the mirror 50” may be the entire area of the mirror 50 including the support pillars, or may be the area of only a portion (reference numeral 52 in FIG. 6) that reflects a surrounding object.
  • the visibility element is the size of an area representing another road connected to the intersection 40 in the captured image 32.
  • “another road connected to the intersection 40” means a road other than the road on which the vehicle 240 is currently traveling among the roads connected to the intersection 40 (the road 44 in FIG. 2B). , Road 46, and road 48).
  • FIG. 8 is a diagram illustrating an area representing another road connected to the intersection 40.
  • the area representing the road 44, the area representing the road 46, and the area representing the road 48 are each painted with a dot pattern.
  • the determination unit 202 calculates a visibility index value related to the road.
  • the visibility index value relating to the road is set to a larger value as the area of the region representing the road in the captured image 32 is larger.
  • the determination unit 202 calculates the statistical value of the visual index value calculated for each road as the visibility index value related to the road connected to the intersection 40.
  • the area of the road (road 44) in the traveling direction of the vehicle 240 is a direction different from the traveling direction of the vehicle 240 (for example, a direction orthogonal to the traveling direction of the vehicle 240). It tends to be larger than the area of roads (road 46 and road 48).
  • the determination unit 202 preferably calculates the visibility index value in consideration of this point.
  • the determination unit 202 divides the area of the road actually included in the captured image 32 by the area of the road when the visibility index value regarding the road is assumed that there is no obstacle that hides the road. And Assuming that no obstacle exists, the area of the road is calculated by, for example, extending the contour line of the road included in the captured image 32 to the end of the captured image 32 and enclosing the area surrounded by the extended contour line. By doing so, it can be calculated.
  • FIG. 9 is a diagram illustrating a state in which the outline of the road 48 is extended.
  • a dotted line 49 is a line obtained by extending the outline of the road 48 included in the captured image 32 to the end of the captured image 32.
  • the illustration of the building in front of the road 48 is omitted in order to make the drawing easier to see.
  • Example 3 of the visibility element visually recognizes other roads (the road 44, the road 46, and the road 48 in FIG. 2B) that are connected via the intersection 40 to the road on which the vehicle 240 at the intersection 40 is traveling. It is an obstacle that is difficult to do.
  • the obstacle is a building, a side wall, or a tree.
  • the determination unit 202 tries to detect an obstacle present around the intersection 40 from the captured image 32. And the determination part 202 calculates the visibility index value regarding an obstruction based on the result of this detection.
  • the visibility index value related to the obstacle increases as the number of obstacles detected from the captured image 32 increases.
  • the determination unit 202 detects an area representing an obstacle from the captured image 32, and sets the total value of the areas of the detected areas as the visibility index value regarding the obstacle.
  • the vehicle 240 performs processing using the sound signal 12 of the outside sound of the vehicle 240 according to the determination result by the determination unit 202 (S106).
  • Various processes are performed by the processing unit 204.
  • the processing unit 204 determines whether or not to reproduce the vehicle exterior sound in the room of the vehicle 240 according to the determination result by the determination unit 202.
  • the processing performed by the processing unit 204 other than the reproduction of the outside sound will be described in other embodiments described later.
  • the processing unit 204 causes the speaker 20 to reproduce the audio signal 12 when it is determined that an object present in the vicinity of the intersection is difficult for the passenger of the vehicle 240 to visually recognize (the visibility of the intersection is poor). Therefore, a sound outside the vehicle is output to the interior of the vehicle 240.
  • the processing unit 204 does not cause the speaker 20 to reproduce outside sound when it is determined that an object present in the vicinity of the intersection is easy to visually recognize for the passenger of the vehicle 240 (the line of sight of the intersection is good). For this reason, no outside sound is output to the interior of the vehicle 240.
  • the passenger of the vehicle 240 can predict the danger that may occur at the intersection 40 by the outside sound when the prospect of the intersection 40 is bad. For example, even if the passenger of the vehicle 240 cannot visually recognize other vehicles and pedestrians approaching the intersection 40, a vehicle outside sound including sounds (engine sound, road noise, etc.) generated by other vehicles, and pedestrians are included. It is possible to predict that other vehicles or pedestrians are approaching the intersection by listening to the sound outside the vehicle including the voice of Therefore, accidents at intersections with poor visibility can be reduced.
  • the passenger of the vehicle 240 can visually grasp other vehicles and pedestrians approaching the intersection 40. Therefore, in this case, the comfort in the room of the vehicle 240 can be enhanced by preventing the sound outside the vehicle from being output in the room of the vehicle 240.
  • FIG. 10 is a flowchart illustrating the flow of processing in which the external sound is reproduced according to the determination result by the determination unit 202.
  • the flowchart in FIG. 10 is an example of a specific flow of processing executed in S106 in FIG.
  • the processing unit 204 causes the speaker 20 to reproduce the audio signal 12 (S204).
  • the processing in FIG. 10 ends (the audio signal 12 is not reproduced from the speaker 20).
  • regeneration of a sound outside a vehicle is not limited to the above-mentioned example.
  • the processing unit 204 may change the gain of outside sound in the speaker 20 according to the determination result of the determination unit 202. Specifically, the processing unit 204 determines the gain of outside sound when it is determined that an object existing around the intersection is difficult for the passenger of the vehicle 240 to visually recognize, and the object present around the intersection is the vehicle 240 It is set larger than the gain of the outside sound when it is determined that it is easy for the passenger to visually recognize.
  • the processing unit 204 may change the ratio between the vehicle exterior sound and the music gain according to the determination result by the determination unit 202. Specifically, when it is determined that an object present in the vicinity of the intersection is difficult for the passenger of the vehicle 240 to visually recognize, the processing unit 204 increases the gain of the outside sound more than the gain of the music. On the other hand, when it is determined that an object present in the vicinity of the intersection is easy for the passenger of the vehicle 240 to visually recognize, the processing unit 204 increases the gain of music more than the gain of outside sound.
  • ⁇ Modification> a modification of the voice control device 200 according to the first embodiment will be described.
  • the voice control device 200 described below is referred to as a voice control device 200 according to the first modification. Except as described below, the voice control device 200 of the first modification has the same function as the voice control device 200 described above.
  • the determination unit 202 determines whether or not an object existing around the intersection 40 is easily visible to the passenger of the vehicle 240 based on the visibility element extracted from the captured image 32. Examples have been described.
  • the determination unit 202 of the modification 1 determines whether or not the environmental condition around the intersection 40 in the traveling direction of the vehicle 240 satisfies the conditions for enabling automatic driving using the sensor. The ease of visual recognition of an object existing around the intersection 40 is determined according to the result.
  • the vehicle 240 is an automatic driving vehicle.
  • the autonomous driving vehicle here means a vehicle that travels autonomously by recognizing the surrounding environment.
  • the computer 100 illustrated in FIG. 4 also performs automatic operation control. Therefore, the computer 100 is further connected to various mechanisms required for realizing autonomous running (not shown).
  • a mechanism includes a positioning unit that can detect the current position of the vehicle 240 by satellite navigation or autonomous navigation, an external sensor for recognizing the surrounding environment, and the like.
  • the positioning unit is, for example, a GPS (Global Positioning System) sensor.
  • the external sensor is, for example, a radar or a “LiDAR (Light Detection and Ranging)” sensor.
  • the computer 100 receives a high-precision three-dimensional map around the current position detected by the positioning unit from a map data server device (not shown) via the network interface 112. Data may be acquired and temporarily stored in the storage device 108.
  • the computer 100 estimates the position of the host vehicle by scan matching between the high-precision 3D map around the current position and the measurement data of the external sensor. That is, the current position of the vehicle 240 is estimated based on the position of the feature on the high-precision three-dimensional map and the measurement data of the feature from the external sensor.
  • automatic driving is executed when the conditions for execution of automatic driving are satisfied. Therefore, when the automatic driving vehicle is to be switched from manual driving to automatic driving, it is determined whether or not the conditions for enabling automatic driving are satisfied. If the conditions for enabling automatic driving are not satisfied, switching to automatic driving is not performed. Further, even during the automatic operation, it is determined whether or not the conditions for executing the automatic operation are satisfied. If the feasible conditions for automatic driving are not satisfied, the vehicle passenger is informed that the driving authority is to be transferred (that is, switching from automatic driving to manual driving), and then switching to manual driving is performed. Is called.
  • Executable conditions for automatic driving require that (A) the accuracy of the estimated current position is higher than a predetermined reference, and (B) that the surrounding environment is sufficiently recognized by the external sensor.
  • the computer 100 calculates the current position estimated by satellite navigation and autonomous navigation, the position of the feature on the high-precision three-dimensional map, and the actual position measured by the external sensor.
  • the accuracy of the current position is determined according to the degree of coincidence with the current position estimated based on the position of the feature. For example, the computer 100 determines that the accuracy of the estimated current position is higher than a predetermined reference when the difference between the estimated current positions is equal to or less than a predetermined distance (for example, 50 cm).
  • the computer 100 determines that a lane line painted on the road surface ahead of a predetermined distance (for example, 20 m) of the vehicle 240 based on an image captured by the camera 30 or a LiDAR bag is used. To determine whether it can be identified.
  • a predetermined distance for example, 20 m
  • the feature or lane marking to be detected at the time of the above determination cannot be detected, and the conditions (A) and (B) may not be satisfied.
  • the causes include, for example, the presence of obstacles such as other moving objects and trees between the features and lane markings and the vehicle, and poor visibility due to weather conditions such as rain and fog. .
  • the computer 100 does not switch the vehicle 240 to automatic driving. Further, when these events occur during automatic driving, the passenger is notified by the speaker 20 or the like that driving authority is transferred to the passenger of the vehicle 240 (that is, switching from automatic driving to manual driving). .
  • the determination unit 202 determines whether or not the environmental condition in the traveling direction of the vehicle satisfies the conditions for automatic driving based on the image captured by the camera 30 or the “LiDAR”. And when the conditions for automatic driving are not satisfied, the determination unit 202 determines that an object existing around an intersection in the traveling direction of the vehicle is in a state that is difficult for a passenger of the vehicle to visually recognize.
  • FIG. 3 The functional configuration of the voice control device 200 according to the second embodiment is represented in FIG. 3 similarly to the functional configuration of the voice control device 200 according to the first embodiment. Except for the matters described below, the voice control device 200 of the second embodiment has the same functions as the voice control device 200 of the first embodiment.
  • the processing unit 204 of the second embodiment determines whether or not the intersection 40 in the traveling direction of the vehicle 240 is dangerous using the determination result by the determination unit 202 and the sound signal of the vehicle exterior sound.
  • this determination is referred to as “intersection risk determination”.
  • the processing unit 204 determines, based on the determination result by the determination unit 202, whether or not to perform the danger determination of the intersection 40 using the audio signal 12 of the outside sound. Specifically, the processing unit 204 determines the risk of the intersection 40 using the audio signal 12 when it is determined that an object around the intersection 40 is not easily visible to the passenger of the vehicle 240. On the other hand, when it is determined that an object in the vicinity of the intersection 40 is easily visible to the passenger of the vehicle 240, the processing unit 204 does not perform the risk determination.
  • the computer resources consumed by the voice control device 200 can be reduced by not performing the risk determination by the voice control device 200.
  • the processing unit 204 determines that the intersection is dangerous when the sound signal 12 includes a sound emitted by another vehicle or a sound emitted by a person. On the other hand, when these sounds are not included in the audio signal 12, the processing unit 204 determines that the intersection is not dangerous.
  • the sound emitted by other vehicles is, for example, engine sound, road noise, or brake sound emitted by an automobile or motorcycle.
  • sounds generated by other vehicles are road noises and brake sounds generated by bicycles.
  • the sound emitted by a person is, for example, a voice or a footstep.
  • an existing technique can be used as a technique for detecting these various sounds from the audio signal.
  • the processing unit 204 calculates an index value (hereinafter referred to as a risk index value) representing the degree of danger of the intersection 40 using the audio signal 12 of the outside sound, and based on the risk index value, the intersection 40 is calculated. It may be determined whether or not is dangerous. The processing unit 204 determines that the intersection is dangerous when the risk index value is greater than or equal to the reference value. On the other hand, when the risk index value is less than the reference value, the processing unit 204 determines that the intersection is not dangerous. This reference value may be set in advance in the processing unit 204 or may be stored in a storage device accessible from the processing unit 204.
  • the processing unit 204 In order to calculate the risk index value, the processing unit 204 detects from the audio signal 12 a sound that can be used as an index for measuring the degree of danger at the intersection 40. Then, the processing unit 204 calculates a risk index value based on the detection result.
  • the sound that can be used as an index for measuring the degree of danger at the intersection 40 is, for example, the sound emitted by another vehicle or the sound emitted by a person described above.
  • the processing unit 204 increases the value of the risk index value as the engine sound of the vehicle included in the audio signal 12 increases. This is because, when the engine sound of the vehicle is loud, it is considered that the vehicle is approaching the intersection 40 while accelerating.
  • the processing unit 204 increases the value of the risk index value as the road noise of other vehicles included in the audio signal 12 increases. This is because it is considered that the larger the road noise emitted from the vehicle, the higher the speed of the vehicle or the larger the size of the vehicle.
  • the processing unit 204 increases the risk index value as the human voice included in the audio signal 12 increases. This is because when a person's voice is loud, the person is walking while talking with another person (for example, talking using a mobile phone), and there is a high probability that his attention is distracted.
  • the processing unit 204 calculates the estimated age of the person using the voice of the person included in the audio signal 12, and when the estimated age is a child or an elderly person, Increase the risk index value.
  • An existing technique can be used as a technique for calculating the estimated age of the person from the voice of the person's voice.
  • the processing unit 204 uses various methods for using the result of the risk determination by the processing unit 204. For example, when it is determined that the intersection 40 is dangerous, the processing unit 204 notifies the passenger of the vehicle 240 to that effect. This notification is performed using, for example, a display device (display device of a car navigation system) provided in the vehicle 240 or the speaker 20.
  • a display device display device of a car navigation system
  • the processing unit 204 may output the result of the risk determination to a device that controls the traveling of the vehicle 240 (hereinafter referred to as a traveling control device).
  • the travel control device is a device that controls automatic driving of the vehicle 240, for example.
  • the traveling control device decelerates or temporarily stops the vehicle 240 before the intersection 40.
  • FIG. 11 is a flowchart illustrating the flow of processing executed by the voice control device 200 according to the second embodiment.
  • the flowchart of FIG. 11 is an example of a specific flow of processing executed in S106 of FIG.
  • the hardware configuration of the voice control device 200 according to the second embodiment is represented in FIG. 4, for example, similarly to the hardware configuration of the voice control device 200 according to the first embodiment.
  • the program module stored in the storage device 108 further includes a program that implements the functions described in the present embodiment.
  • FIG. 3 The functional configuration of the voice control device 200 according to the third embodiment is represented in FIG. 3 similarly to the functional configuration of the voice control device 200 according to the first embodiment. Except for the matters described below, the voice control device 200 of the third embodiment has the same functions as the voice control device 200 of the first embodiment.
  • the processing unit 204 of the third embodiment performs the risk determination of the intersection 40 in the same manner as the processing unit 204 of the second embodiment. However, it differs from the processing unit 204 of the second embodiment in the following points.
  • the processing unit 204 of the second embodiment performs the risk determination of the intersection 40 regardless of the determination result by the determination unit 202. However, the processing unit 204 of the third embodiment determines a criterion for determining whether or not the intersection 40 is dangerous according to the determination result by the determination unit 202.
  • the processing unit 204 of the third embodiment uses a value according to the determination result of the determination unit 202 as a reference value to be compared with the above-described risk index value. Therefore, the first reference value used when it is determined that an object around the intersection 40 is easily visible to the passenger of the vehicle 240, and an object around the intersection 40 is visible to the passenger of the vehicle 240.
  • a second reference value to be used when it is determined that it is not easy to do is prepared. The first reference value is larger than the second reference value.
  • the processing unit 204 of the third embodiment determines whether or not the risk index value is equal to or higher than the first reference value when it is determined that an object around the intersection 40 is easily visible to the passenger of the vehicle 240. judge. Then, the processing unit 204 determines that the intersection 40 is dangerous when the risk index value is greater than or equal to the first reference value. On the other hand, when the risk index value is less than the first reference value, the processing unit 204 determines that the intersection 40 is not dangerous.
  • the processing unit 204 determines whether or not the risk index value is equal to or greater than the second reference value. Then, the processing unit 204 determines that the intersection 40 is dangerous when the risk index value is greater than or equal to the second reference value. On the other hand, when the risk index value is less than the second reference value, the processing unit 204 determines that the intersection 40 is not dangerous.
  • the voice control device 200 of the present embodiment when the line of sight at the intersection 40 is bad, it is easier to determine that the intersection 40 is dangerous than when the line of sight at the intersection 40 is good. Thus, the accuracy of the determination of whether or not the intersection 40 is dangerous can be increased by performing the risk determination in consideration of the good visibility at the intersection 40.
  • the method of using the risk determination result by the processing unit 204 of the third embodiment is the same as the method of using the risk determination result by the processing unit 204 of the second embodiment.
  • FIG. 12 is a flowchart illustrating the flow of processing executed by the voice control device 200 according to the third embodiment.
  • the flowchart in FIG. 12 is an example of a specific flow of processing executed in S106 in FIG.
  • the processing unit 204 calculates the risk index value of the intersection 40 (S402).
  • S104 when it is determined that an object around the intersection 40 is easily visible to the passenger of the vehicle 240 (S404: YES), the processing unit 204 determines whether or not the risk index value is greater than or equal to the first reference value. Is determined (S406). When the risk index value is greater than or equal to the first reference value (S406: YES), the processing unit 204 determines that the intersection 40 is dangerous (S408). When the risk index value is not greater than or equal to the first reference value (S406: NO), the processing unit 204 determines that the intersection 40 is not dangerous (S410).
  • the processing unit 204 determines whether or not the risk index value is equal to or greater than the second reference value. Is determined (S412). When the risk index value is greater than or equal to the second reference value (S412: YES), the processing unit 204 determines that the intersection 40 is dangerous (S408). When the risk index value is not greater than or equal to the second reference value (S412: NO), the processing unit 204 determines that the intersection 40 is not dangerous (S410).
  • the hardware configuration of the voice control device 200 according to the second embodiment is represented in FIG. 4, for example, similarly to the hardware configuration of the voice control device 200 according to the first embodiment.
  • the program module stored in the storage device 108 further includes a program that implements the functions described in the present embodiment.
  • FIG. 4 The functional configuration of the voice control device 200 according to the fourth embodiment is represented in FIG. 3, similarly to the functional configuration of the voice control device 200 according to the first embodiment. Except for the matters described below, the voice control device 200 of the fourth embodiment has the same function as the voice control device 200 of the first embodiment or the voice control device 200 of the second embodiment.
  • the processing unit 204 of the fourth embodiment determines whether or not the emergency vehicle is approaching the vehicle 240. Determine. Specifically, the processing unit 204 determines whether or not an emergency vehicle siren is included in the audio signal using the audio signal of the sound outside the vehicle. Furthermore, when the siren of the emergency vehicle is included in the audio signal of the outside sound, the processing unit 204 determines whether or not the emergency vehicle is approaching the vehicle 240 using the audio signal.
  • an existing technique for determining whether or not a specific sound (siren) is included in the audio signal may be used. it can.
  • a technology for determining whether or not an emergency vehicle is approaching the vehicle 240 an existing technology for determining whether or not a sound source (emergency vehicle) is approaching the observation site (the vehicle 240) can be used. .
  • the processing unit 204 notifies the passenger of the vehicle 240 to that effect. This notification can be performed in the same manner as the result of the risk determination.
  • the processing unit 204 may output the result of the danger determination to the travel control device that controls the travel of the vehicle 240.
  • the traveling control device decelerates or temporarily stops the vehicle 240 before the intersection 40.
  • FIG. 13 is a flowchart illustrating the flow of processing executed by the voice control device 200 according to the fourth embodiment.
  • the flowchart of FIG. 13 is an example of a specific flow of processing executed in S106 of FIG.
  • the hardware configuration of the voice control device 200 according to the fourth embodiment is represented in FIG. 4, for example, similarly to the hardware configuration of the voice control device 200 according to the first embodiment.
  • the program module stored in the storage device 108 further includes a program that implements the functions described in the present embodiment.

Landscapes

  • Engineering & Computer Science (AREA)
  • Mechanical Engineering (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Traffic Control Systems (AREA)

Abstract

車両(240)は、自動車などの任意の車両である。車両(240)には、マイク(10)が設けられている。マイク(10)は、車両(240)の外部で発生する車外音を取り込み、車外音を表す音声信号(音声信号(12))を生成する。また、車両(240)には、カメラ(30)が設けられている。カメラ(30)は、撮像を行い、その撮像結果を表す画像(撮像画像(32))を生成する。カメラ(30)は、その画角に車両(240)の進行方向が含まれるように設置されている。音声制御装置(200)は、撮像画像(32)を用い、車両(240)の進行方向にある交差点について、交差点(40)の周辺に存在する物体が車両(240)の搭乗者にとって視認しやすいか否かを判定する。そして、音声制御装置(200)は、上記判定の結果に応じ、車両(240)の車外音を表す音声信号(12)を用いた処理を行う。

Description

音声制御装置、音声制御方法、及びプログラム
 本発明は、音声制御装置、音声制御方法、及びプログラムに関する。
 自動車などの車両において、車外音(車両の外で発生した音)をマイクで取り込んで利用する技術が開発されている。例えば特許文献1は、予め登録したエリアに接近した場合に、スピーカから出力する音声の音源を車内音源(オーディオ装置など)から車外音源に切り替える技術を開示している。つまり、予め登録したエリアに接近すると、車室内で車外音が再生される。
特開2006-262147号公報
 特許文献1の技術では、車外音を再生させる場所を予め登録しておく必要がある。そのため、車両の利用者は、車外音を再生させたい場所を予め把握しておく必要がある。また、車外音を再生させたい場所が多い場合、登録作業の負荷が大きい。よって、車両の安全走行のために車室内に車外音を再生させたい場所であったとしても、登録し忘れなどによりその再生が十分にできない虞がある。さらに、自動運転を実行可能な自動運転車の利用者にあっては、当該自動運転車の安全走行のために車室内に車外音を再生させたい場所を予め把握しているとは考えにくいため、同様の課題が存在するものと考えられる。
 本発明は、上述の課題に鑑みてなされたものであり、自動運転車を含む車両の走行の安全性を容易に向上させる技術を提供することを一つの目的とする。
 請求項1に記載の音声制御装置は、(1)車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点について、その交差点の周辺にある物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定手段と、(2)前記判定手段の判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理手段と、を有する。
 請求項10に記載の音声制御方法は、コンピュータによって実行される音声制御方法である。当該音声制御方法は、(1)車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点について、その交差点の周辺にある物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定ステップと、(2)前記判定ステップにおける判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理ステップと、を有する。
 請求項11に記載のプログラムは、コンピュータに、(1)車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点について、その交差点の周辺にある物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定ステップと、(2)前記判定ステップにおける判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理ステップと、を実行させる。
 上述した目的、およびその他の目的、特徴および利点は、以下に述べる好適な実施の形態、およびそれに付随する以下の図面によってさらに明らかになる。
実施形態1の音声制御装置の使用環境を例示する図である。 見通しが良い交差点と見通しが悪い交差点をそれぞれ例示する図である。 音声制御装置の機能構成を例示する図である。 音声制御装置のハードウエア構成を例示する図である。 実施形態1の音声制御装置によって実行される処理の流れを例示するフローチャートである。 交差点に設置されているミラーを例示する図である。 樹木によってミラーの一部が隠されている様子を例示する図である。 交差点に接続している他の道路を表す領域を例示する図である。 道路の輪郭線を延長した様子を例示する図である。 判定部による判定の結果に応じて車外音の再生が行われる処理の流れを例示するフローチャートである。 実施形態2の音声制御装置によって実行される処理の流れを例示するフローチャートである。 実施形態3の音声制御装置によって実行される処理の流れを例示するフローチャートである。 実施形態4の音声制御装置によって実行される処理の流れを例示するフローチャートである。
 以下、本発明の実施の形態について、図面を用いて説明する。尚、すべての図面において、同様な構成要素には同様の符号を付し、適宜説明を省略する。また、特に説明する場合を除き、ブロック図における各ブロックは、ハードウエア単位の構成ではなく、機能単位の構成を表している。
<概要>
 図1は、実施形態1の音声制御装置200の使用環境を例示する図である。なお、図1は音声制御装置200に関する理解を容易にするための図であり、音声制御装置200の動作を何ら限定するものではない。
 車両240は、自動車などの任意の車両である。車両240には、マイク10が設けられている。マイク10は、車両240の外部で発生する車外音を取り込み、車外音を表す音声信号(音声信号12)を生成する。
 また、車両240には、カメラ30が設けられている。カメラ30は、撮像を行い、その撮像結果を表す画像(撮像画像32)を生成する。カメラ30は、その画角に車両240の進行方向が含まれるように設置されている。そのため、車両240が交差点に向かって走行していると、撮像画像32には、車両240の進行方向にある交差点(交差点40)が含まれる(図1参照)。
 交差点40は、複数の道路の接続点となる場所である。図1の交差点40では、4つの道路が十字型に交差するように接続されている。しかし、交差点40において複数の道路が接続される態様は、十字型に限定されない。その他の態様は、例えば、Y字型(三叉路における接続点)やT字型(T字路における接続点)などである。
 音声制御装置200は、撮像画像32を用い、車両240の進行方向にある交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすいか否かを判定する。言い換えれば、音声制御装置200は、交差点40が見通しの良い交差点であるか否かを判定する。交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすい場合、その交差点40は見通しが良い交差点である。一方、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しにくい場合、その交差点40は、見通しが悪い交差点である。
 図2は、見通しが良い交差点40と見通しが悪い交差点40をそれぞれ例示する図である。図2(a)は、見通しが良い交差点40を例示している。図2(a)の場合、車両240の搭乗者の視界を遮ってしまう建物などが存在しない。そのため、車両240の搭乗者は、交差点40に接続している道路44、道路46、及び道路48それぞれの広い範囲を容易に視認することができる。そのため、車両240の搭乗者は、これらの道路を走行して交差点40に向かう他の車両や、これらの道路の脇にある歩道を歩いて交差点40に向かう歩行者を容易に視認することができる。なお、記載を簡潔にするため、以降の説明では、特に断らない限り、「道路」には、その脇にある歩道も含まれるとする。
 図2(b)は、見通しが悪い交差点40を例示している。まず、道路44がカーブしているため、車両240の搭乗者が視認できる道路44の範囲が狭い。また、建物によって道路46や道路48が隠されているため、車両240の搭乗者が視認できる道路46や道路48の範囲も狭い。よって、車両240の搭乗者にとって、道路44、道路46、又は道路48を走行して交差点40に向かう他の車両や、これらの道路を歩いて交差点40に向かう歩行者を視認することが難しい。
 ここで一般に、車両の走行を適切に制御するためには、視覚情報や聴覚情報が有用である。図1の車両240の場合、視覚情報は、車両240の搭乗者の目に写る情報や、カメラ30によって撮像される情報などである。聴覚情報は、車両240の搭乗者の耳に聞こえる情報や、マイク10によって取り込まれる情報である。
 しかし、図2(b)の交差点40のように見通しの悪い交差点では、交差点の走行に有用な視覚情報を得ることが難しい。一方で、見通しの悪い交差点であっても、交差点の走行に有用な聴覚情報を得られる蓋然性は高い。交差点の走行に有用な聴覚情報は、例えば、交差点に向かう車両が発する音(エンジン音やロードノイズ)や、交差点に向かう歩行者が発する音(話し声など)などである。
 そこで本実施形態の音声制御装置200は、交差点40における見通しの良さに応じ、車両240の車外音を表す音声信号12を用いた処理を行う。こうすることで、交差点40に向けて車両240を走行させる際、車両240の走行の制御に有用な視覚情報が得られない場合であっても、聴覚情報を利用して車両240の走行を適切に制御できるようにする。
 例えば音声制御装置200は、交差点40における見通しが悪い場合に、音声信号12を車両240の室内で再生する。こうすることで、車両240の搭乗者は、交差点40に向かう他の車両や歩行者の存在を認識し、適切な対処ができるようになる。例えば運転手は、交差点40の手前で車両240を減速又は停止させるという対処をすることができる。その他にも例えば、運転手以外の搭乗者は、運転手にアドバイスをしたり、事故が起こった場合に備えて身構えたりするといった対処をすることができる。
 なお、本実施形態の音声制御装置200では、交差点40における見通しの悪さが撮像画像32を用いて判定され、その判定結果に応じて音声信号12を用いた処理が行われる。そのため特許文献1の技術とは異なり、車外音を再生すべき場所を予め登録しておくという作業が必要無い。よって、音声制御装置200の利用者(車両240の搭乗者)は、車外音を再生すべき場所を予め把握しておく必要がない。また、音声制御装置200の利用者に、車外音を再生すべき場所を登録するという作業負荷を強いることがない。さらに、音声制御装置200は、車両240が接近している時点における交差点40の状態に基づいて、音声信号12を用いた処理を行うことができる。そのため、例えば普段は見通しの良い交差点40において一時的に見通しが悪くなっているようなケースであっても、音声信号12を用いた処理を適切に行うことができる。よって、本実施形態の音声制御装置200によれば、車両の走行の安全性を容易に向上させることができる。
 なお、音声制御装置200が行う音声信号12の処理は、音声信号12を車両240の室内で再生させる処理に限定されない。その他の処理については後述する。
 以下、本実施形態の音声制御装置200について、さらに詳細に説明する。
<音声制御装置200の機能構成の例>
 図3は、音声制御装置200の機能構成を例示する図である。音声制御装置200は、判定部202及び処理部204を有する。判定部202は、カメラ30によって生成される撮像画像32を用い、車両240の進行方向にある交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすいか否かを判定する。処理部204は、判定部202の判定結果に応じ、車両240の車外音を表す音声信号12を用いた処理を実行する。
<音声制御装置200のハードウエア構成の例>
 音声制御装置200の各機能構成部は、各機能構成部を実現するハードウエア(ハードワイヤードされた電子回路など)で実現されてもよいし、ハードウエアとソフトウエアとの組み合わせ(電子回路とそれを制御するプログラムの組み合わせなど)で実現されてもよい。以下、音声制御装置200の各機能構成部がハードウエアとソフトウエアとの組み合わせで実現される場合について、さらに説明する。
 図4は、音声制御装置200のハードウエア構成を例示する図である。計算機100は、音声制御装置200を実現する計算機である。例えば計算機100は、車両240に設けられている種々のハードウエアを制御する ECU(Electronic Control Unit)である。その他にも例えば、計算機100は、車両240に設けられているカーナビゲーション装置である。計算機100は、音声制御装置200を実現するために専用に設計された計算機であってもよいし、汎用の計算機であってもよい。
 計算機100は、バス102、プロセッサ104、メモリ106、ストレージデバイス108、入出力インタフェース110、及びネットワークインタフェース112を有する。バス102は、プロセッサ104、メモリ106、ストレージデバイス108、入出力インタフェース110、及びネットワークインタフェース112が、相互にデータを送受信するためのデータ伝送路である。ただし、プロセッサ104などを互いに接続する方法は、バス接続に限定されない。プロセッサ104は、マイクロプロセッサ、CPU(Central Processing Unit)、又は GPU(Graphics Processing Unit)などを用いて実現される演算処理装置である。メモリ106は、RAM(Random Access Memory)などを用いて実現される主記憶装置である。ストレージデバイス108は、ROM(Read Only Memory)やフラッシュメモリなどを用いて実現される補助記憶装置である。ただし、ストレージデバイス108は、RAM など、主記憶装置を構成するハードウエアと同様のハードウエアで構成されてもよい。
 入出力インタフェース110は、計算機100を周辺機器と接続するためのインタフェースである。図4において、入出力インタフェース110には、マイク10、スピーカ20、及びカメラ30が接続されている。
 計算機100には、入出力インタフェース110を介し、車両240の制御に用いる各種のアナログ信号やデジタル信号が入力又は出力される。例えば、音声信号12は、入出力インタフェース110を介して、マイク10から計算機100へ入力される。また例えば、撮像画像32は、入出力インタフェース110を介して、カメラ30から計算機100へ入力される。
 ただし、計算機100が音声信号12を取得する方法は、マイク10から直接取得する方法に限定されない。例えば音声信号12が記憶装置に記憶される場合、計算機100は、この記憶装置から音声信号12を取得してもよい。この場合、マイク10は、入出力インタフェース110に接続されていなくてもよい。
 同様に、計算機100が撮像画像32を取得する方法は、カメラ30から直接取得する方法に限定されない。例えば撮像画像32が記憶装置に記憶される場合、計算機100は、この記憶装置から撮像画像32を取得してもよい。この場合、カメラ30は、入出力インタフェース110に接続されていなくてもよい。
 入出力インタフェース110には、アナログの入力信号をデジタル信号に変換する A/D コンバータや、デジタルの出力信号をアナログ信号に変換する D/A コンバータなどが適宜含まれる。例えばマイク10から出力される音声信号がアナログ信号である場合、入出力インタフェース110が有する A/D コンバータによってこのアナログ信号がデジタル信号に変換され、このデジタル信号がプロセッサ104によって処理される。
 ネットワークインタフェース112は、計算機100を通信網に接続するためのインタフェースである。この通信網は、例えば CAN(Controller Area Network)通信網や WAN(Wide Area Network)などである。ネットワークインタフェース112が通信網に接続する方法は、無線接続であってもよいし、有線接続であってもよい。
 ストレージデバイス108は、音声制御装置200の各機能構成部を実現するためのプログラムモジュールを記憶している。プロセッサ104は、このプログラムモジュールをメモリ106に読み出して実行することで、音声制御装置200の機能を実現する。
<<マイク10について>>
 マイク10は、車両240の外部で発生する車外音を取り込み、その車外音を表す電気信号(音声信号12)を生成することができる任意の装置である。車両240に設けられるマイク10の設置位置は任意である。また、車両240に設けられるマイク10の数は任意である。
<<スピーカ20について>>
 スピーカ20は、音声信号によって表される音声を出力することができる任意の装置である。例えばスピーカ20は、音声信号12によって表される車外音を、車両240の室内に出力することができる。車両240に設けられるスピーカ20の設置位置は任意である。また、車両240に設けられるスピーカ20の数は任意である。
<<カメラ30について>>
 カメラ30は、任意のタイミングで撮像を行い、撮像の結果として撮像画像32を生成することができる任意の撮像装置である。カメラ30は、動画データを生成するビデオカメラであってもよいし、静止画像データを生成するスチルカメラであってもよい。なお、前者の場合、撮像画像32は、動画データを構成する1つのフレームである。
<処理の流れ>
 図5は、実施形態1の音声制御装置200によって実行される処理の流れを例示するフローチャートである。判定部202は撮像画像32を取得する(S102)。判定部202は、撮像画像32を用いて、車両240の進行方向にある交差点40について、交差点40の周辺に存在する物体が、車両240の搭乗者にとって視認しやすいか否かを判定する(S104)。車両240は、S104における判定の結果に応じ、音声信号12を用いた処理を行う(S106)。
<撮像画像の取得:S102>
 判定部202は撮像画像32を取得する(S102)。ここで、判定部202が撮像画像32を取得する方法は任意である。例えば判定部202は、カメラ30から送信される撮像画像32を受信する。また例えば、判定部202は、カメラ30にアクセスし、カメラ30に記憶されている撮像画像32を取得する。
 なお、カメラ30は、カメラ30の外部に設けられている記憶装置に撮像画像32を記憶してもよい。この場合、判定部202は、この記憶装置にアクセスして撮像画像32を取得する。
 判定部202が撮像画像32を取得するタイミングは様々である。例えば判定部202は、カメラ30によって新たな撮像画像32が生成される度に、その撮像画像32を取得する。その他にも例えば、判定部202は、定期的に未取得の撮像画像32を取得してもよい。例えば判定部202が1秒間に1回撮像画像32を取得する場合、判定部202は、1秒間に生成される複数の撮像画像32(例えば 30fps(frames/second) で撮像が行われる場合、30枚の撮像画像32)をまとめて取得する。
<交差点40の検出>
 判定部202は、交差点40における見通しの良さを判定する前提として、交差点40を検出する。つまり判定部202は、車両240の進行方向に交差点があることを検出する。判定部202が交差点40を検出する方法は様々である。例えば判定部202は、撮像画像32を解析することで交差点40を検出する。具体的には、判定部202は、複数の道路が接続されている場所を撮像画像32から検出し、その場所を交差点40として扱う。
 その他にも例えば、判定部202は、地図情報を使って、車両240の進行方向に交差点があることを検出し、その交差点を交差点40として扱う。地図情報を取得する技術には、既存の技術を利用することができる。なお、地図情報を利用して交差点40を検出する場合、判定部202は、交差点40が検出された後に生成された撮像画像32のみを取得するようにしてもよい。
<交差点40における見通しの良さの判定:S104>
 判定部202は、撮像画像32を用いて、車両240の進行方向にある交差点40について、「交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすいか否か」を判定する(S104)。そのために判定部202は、交差点40の周辺に存在する物体の視認のしやすさに関連する要素(以下、視認性要素)を撮像画像32の中から抽出する。例えば視認性要素は、交差点40に設置されるミラーである。視認性要素に関する具体的な説明は後述する。判定部202は、抽出された1つ以上の視認性要素に基づいて、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすいか否かを判定する。
 例えば判定部202は、視認性要素の抽出結果に基づいて、交差点40の周辺に存在する物体の視認しやすさを表す指標値(以下、視認性指標値)を算出する。そして判定部202は、視認性指標値が基準値以上である場合、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすい(交差点40における見通しが良い)と判定する。一方、判定部202は、視認性指標値が基準値未満である場合、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しにくい(交差点40における見通しが悪い)と判定する。この基準値は、判定部202に予め設定されていてもよいし、判定部202からアクセス可能な記憶装置に記憶されていてもよい。
 なお、視認性要素が複数ある場合、例えば判定部202は、各視認性要素の抽出結果に基づいて視認性指標値を算出し、算出した複数の視認性指標値の統計値(合計値、平均値、最大値、又は最小値など)を算出する。そして判定部202は、この統計値が基準値以上である場合、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しやすい(交差点40における見通しが良い)と判定する。一方、判定部202は、この統計値が基準値未満である場合、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しにくい(交差点40における見通しが悪い)と判定する。
<<視認性要素について>>
 視認性要素は、交差点40の周辺に存在する物体の視認のしやすさに関連する要素である。以下、視認性要素の具体例をいくつか挙げて説明する。
<<<視認性要素の例1>>>
 例えば視認性要素は、交差点40に設置されているミラーである。一般に、交差点には、交差点の付近に存在する車両や歩行者を把握しやすくするためにミラーが設置されていることがある。図6は、交差点に設置されているミラーを例示する図である。ミラーは、符号50で表されている。
 交差点40にミラー50が設置されていると、車両240の搭乗者は、直接視認することができない車両や歩行者を、ミラー50を介して視認することができる。そのため、交差点40の付近に設置されているミラー50は、交差点40の周辺に存在する物体の視認のしやすさを向上させる要素である。
 例えば判定部202は、撮像画像32から、交差点40の付近に設置されているミラー50の検出を試みる。そして判定部202は、この検出の結果に基づいて、ミラー50に関する視認性指標値を算出する。ミラー50が検出される場合におけるミラー50に関する視認性指標値は、ミラー50が検出されない場合におけるミラー50に関する視認性指標値も高い値とする。なお、撮像画像32からミラーを検出する処理には、画像から特定のオブジェクトを認識する技術を利用することができる。
 なお、ミラー50によって交差点40の周囲の物体が視認しやすくなる度合いは、車両240が視認できるミラー50の大きさに依存する。例えばミラー50の周辺に樹木などが存在することにより、ミラー50の一部が見えないことがある。図7は、樹木によってミラー50の一部が隠されている様子を例示する図である。このようにミラー50の一部が見えないと、交差点40の周辺の物体を視認しにくくなる。また、ミラー50が全体的に小さい場合、ミラー50の全体を視認できたとしても、交差点40の周辺の物体を視認しにくい。
 そこで判定部202は、ミラー50に関する視認性指標値を、撮像画像32から検出されるミラー50の面積が大きいほど大きい値としてもよい。そのため判定部202は、撮像画像32にミラー50が含まれるものの、ミラー50の一部が撮像画像32に含まれない場合に、交差点40の周辺に存在する物体が車両240の搭乗者にとって視認しにくいと判定しうる。ここで、「ミラー50の面積」は、支柱などを含むミラー50全体の面積であってもよいし、周囲の物体を映す部分(図6における符号52)のみの面積であってもよい。
<<<視認性要素の例2>>>
 例えば視認性要素は、撮像画像32における、交差点40に接続している他の道路を表す領域の広さである。ここで、「交差点40に接続している他の道路」とは、交差点40に接続している道路のうち、車両240が現在走行している道路以外の道路(図2(b)における道路44、道路46、及び道路48)である。
 図8は、交差点40に接続している他の道路を表す領域を例示する図である。図8において、道路44を表す領域、道路46を表す領域、道路48を表す領域がそれぞれドット柄で塗られている。
 例えば判定部202は、交差点40に接続している他の道路それぞれについて、その道路に関する視認性指標値を算出する。ここで、道路に関する視認性指標値は、撮像画像32においてその道路を表す領域の面積が大きいほど大きい値になるようにする。そして判定部202は、各道路について算出した視認指標値の統計値を、交差点40に接続している道路に関する視認性指標値として算出する。
 なお図8などを見ると、撮像画像32において、車両240の進行方向にある道路(道路44)の領域は、車両240の進行方向とは異なる方向(例えば車両240の進行方向に直交する方向)にある道路(道路46及び道路48)の領域よりも大きくなりやすい。判定部202は、この点を考慮して視認性指標値を算出することが好ましい。
 例えば判定部202は、道路に関する視認性指標値を、その道路を隠す障害物が存在しないと仮定した場合におけるその道路の面積で、撮像画像32に実際に含まれるその道路の面積を除算した値とする。障害物が存在しないと仮定した場合における道路の面積は、例えば、撮像画像32に含まれるその道路の輪郭線を撮像画像32の端まで延長させ、その延長させた輪郭線で囲まれる面積を算出することにより、算出することができる。
 図9は、道路48の輪郭線を延長した様子を例示する図である。点線49は、撮像画像32に含まれる道路48の輪郭線を撮像画像32の端まで延長させた線である。なお、図9では、図を見やすくなるため、道路48の前にある建物の図示を省略している。
<<<視認性要素の例3>>>
 例えば視認性要素は、交差点40の車両240が走行している道路に対し交差点40を介して接続されている他の道路(図2(b)における道路44、道路46、及び道路48)を視認しにくくしまう障害物である。例えば障害物は、建物、側壁、又は樹木などである。
 例えば判定部202は、撮像画像32から、交差点40の周辺に存在する障害物の検出を試みる。そして判定部202は、この検出の結果に基づいて、障害物に関する視認性指標値を算出する。障害物に関する視認性指標値は、撮像画像32から検出される障害物が多いほど大きい値となる。例えば判定部202は、撮像画像32から、障害物を表す領域を検出し、検出された各領域の面積の合計値を、障害物に関する視認性指標値とする。
<音声信号の処理:S106>
 車両240は、判定部202による判定の結果に応じ、車両240の車外音の音声信号12を用いた処理を行う(S106)。処理部204が行う処理は様々である。例えば処理部204は、判定部202による判定の結果に応じて、車外音を車両240の室内で再生するか否かを決定する。なお、車外音の再生以外で処理部204が行う処理については、後述する他の実施形態で説明する。
 例えば処理部204は、交差点の周辺に存在する物体が車両240の搭乗者によって視認しにくい(交差点の見通しが悪い)と判定された場合、スピーカ20に音声信号12を再生させる。そのため、車両240の室内へ車外音が出力される。一方、処理部204は、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しやすい(交差点の見通しが良い)と判定された場合、スピーカ20に車外音を再生させない。そのため、車両240の室内へ車外音が出力されない。
 こうすることで、車両240の搭乗者は、交差点40の見通しが悪い場合に、車外音によって、交差点40で発生しうる危険を予測することができる。例えば車両240の搭乗者は、交差点40に接近する他の車両や歩行者を視認できなくても、他の車両が発生させる音(エンジン音やロードノイズなど)が含まれる車外音や、歩行者の話し声などが含まれる車外音を聞くことにより、他の車両や歩行者が交差点に接近していることを予測することができるようになる。よって、見通しの悪い交差点における事故を減らすことができる。
 一方、交差点40の見通しが良ければ、車両240の搭乗者は、交差点40に接近する他の車両や歩行者を視覚によって把握することができる。そのためこの場合には、車外音を車両240の室内に出力しないようにすることで、車両240の室内の快適さを高めることができる。
 図10は、判定部202による判定の結果に応じて車外音の再生が行われる処理の流れを例示するフローチャートである。図10のフローチャートは、図5のS106において実行される処理の流れを具体化したものの一例である。
 交差点の周辺に存在する物体が車両240の搭乗者にとって視認しにくいと判定された場合(S202:NO)、処理部204は、音声信号12をスピーカ20に再生させる(S204)。一方、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しやすいと判定された場合(S202:YES)、図10の処理は終了する(音声信号12がスピーカ20から再生されない)。
 なお、車外音の再生について処理部204が行う処理は、上述の例に限定されない。例えば処理部204は、判定部202の判定結果に応じて、スピーカ20における車外音のゲインを変更してもよい。具体的には、処理部204は、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しにくいと判定された場合における車外音のゲインを、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しやすいと判定された場合における車外音のゲインよりも大きくする。
 その他にも例えば、スピーカ20が、車外音と音楽とが合成された音声を出力しているとする。この場合、処理部204は、判定部202による判定結果に応じて、車外音と音楽のゲインの比率を変更してもよい。具体的には、処理部204は、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しにくいと判定された場合、音楽のゲインよりも車外音のゲインを大きくする。一方、処理部204は、交差点の周辺に存在する物体が車両240の搭乗者にとって視認しやすいと判定された場合、車外音のゲインよりも音楽のゲインを大きくする。
<変形例>
 ここでは、実施形態1の音声制御装置200の変形例について説明する。以下で説明する音声制御装置200を、変形例1の音声制御装置200と呼ぶ。なお、以下で説明する点を除き、変形例1の音声制御装置200は、前述した音声制御装置200と同じ機能を有する。
 ここまで実施形態1として、判定部202が、撮像画像32の中から抽出した視認性要素に基づいて、交差点40周辺に存在する物体が車両240の搭乗者にとって視認しやすいか否かを判定する実施例について説明した。これに対し、変形例1の判定部202は、センサを利用して、車両240の進行方向にある交差点40周辺の環境状況が自動運転の実行可能条件を満たすか否かを判定し、この判定の結果に応じて、交差点40周辺に存在する物体の視認のしやすさを判定する。
 ここで、変形例1の音声制御装置200では、車両240が自動運転車であることを前提とする。ここでいう自動運転車とは、周囲の環境を認識して自律的に走行する車両を意味する。実施例1において、図4に示した計算機100は、自動運転の制御も行うとする。そのため、計算機100は、自律走行を実現するために要する種々の機構とさらに接続される(図示せず)。例えばこのような機構には、車両240の現在位置を衛星航法や自律航法にて検出可能な測位ユニットや、周囲の環境を認識するための外界センサなどが含まれる。測位ユニットは、例えば GPS(Global Positioning System)センサなどである。外界センサは、例えばレーダーや LiDAR(Light Detection and Ranging) センサなどである。
 また、更に精度よく車両240の現在位置を検出するために、計算機100は、ネットワークインタフェース112を介して、不図示の地図データサーバ装置から、測位ユニットが検出した現在位置周辺の高精度3次元地図データを取得して、ストレージデバイス108に一時的に記憶してもよい。この場合、例えば計算機100は、現在位置周辺の高精度3次元地図と外界センサの測定データのスキャンマッチングにより自車両の位置推定を行う。すなわち、高精度3次元地図上の地物の位置と当該地物の外界センサによる測定データに基づいて、車両240の現在位置を推定する。
 自動運転車では、自動運転の実行可能条件が満たされている場合に、自動運転が実行される。そのため、自動運転車を手動運転から自動運転に切り替えようとする際、自動運転の実行可能条件が満たされているかどうかの判定が行われる。そして、自動運転の実行可能条件が満たされていなければ、自動運転への切り替えが行われない。また、自動運転中にも、自動運転の実行可能条件が満たされているか否かの判定が行われる。そして、自動運転の実行可能条件が満たされていなければ、車両の搭乗者に運転権限を委譲する(すなわち、自動運転から手動運転に切り替える)旨が報知され、その後に手動運転への切り替えが行われる。
 自動運転の実行可能条件には、(A)推定された現在位置の確度が所定の基準よりも高いこと、および(B)外界センサにより周囲の環境が十分認識できていること、が必要となる。ここで、(A)の条件を判定するにあたり、計算機100は、衛星航法、及び自律航法により推定した現在位置と、高精度3次元地図上の地物の位置と外界センサにより計測された実際の地物の位置に基づいて推定した現在位置との一致度に応じて、現在位置の確度を判定する。例えば計算機100は、それぞれで推定した現在位置同士の差異が所定の距離以下(例えば50cm)である場合に、推定された現在位置の確度が所定の基準よりも高いと判定する。また(B)の条件を判定するにあたり、例えば計算機100は、カメラ30や LiDAR などにより撮像された画像に基づいて、車両240の所定距離(例えば20m)以上前方の路面にペイントされた区画線が、識別可能かを判定する。
 ここで、上記判定の際に検出されるべき地物や区画線を検出できず、(A)や(B)の条件が満たされないことがある。その原因としては、例えば、地物や区画線と自車両との間に他の移動体や樹木などの障害物が存在したことや、雨や霧などの気象状況に起因する視界不良などがある。車両240を自動運転に切り替えようとした際に(A)や(B)の条件、すなわち自動運転の実行可能条件が満たされなかった場合、計算機100は、車両240を自動運転に切り替えない。また、自動運転中にこれらの事象が発生した場合は、車両240の搭乗者に運転権限を委譲する(すなわち、自動運転から手動運転に切り替える)旨を、スピーカ20等により当該搭乗者に報知する。
 言い換えれば、自動運転の実行可能条件が満たされない場合には、障害物の存在や気象状況に起因する視界不良により、車両の進行方向にある交差点周辺に存在する物体が、車両の搭乗者にとって視認しにくい状況となっている可能性が高い。そこで、判定部202は、カメラ30または LiDAR により撮像された画像に基づいて、車両の進行方向の環境状況が自動運転の可能条件を満たすか否かを判定する。そして、自動運転の可能条件が満たされない場合、判定部202は、車両の進行方向にある交差点周辺に存在する物体が、車両の搭乗者にとって視認しにくい状況となっていると判定する。
[実施形態2]
 実施形態2の音声制御装置200の機能構成は、実施形態1の音声制御装置200の機能構成と同様に、図3で表される。以下で説明する事項を除き、実施形態2の音声制御装置200は、実施形態1の音声制御装置200と同様の機能を有する。
 実施形態2の処理部204は、判定部202による判定結果及び車外音の音声信号を用いて、車両240の進行方向にある交差点40が危険であるか否かを判定する。以下、この判定を「交差点の危険判定」と呼ぶ。
 例えば処理部204は、車外音の音声信号12を用いて交差点40の危険判定を行うか否かを、判定部202による判定結果に基づいて決定する。具体的には、処理部204は、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすくないと判定された場合に、音声信号12を用いて交差点40の危険判定を行う。一方、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合、処理部204は、上記危険判定を行わない。
 こうすることで、交差点40の見通しが悪い場合に、車外音によって交差点40が危険であるか否かが判定される。そのため、車両240の搭乗者が交差点40に接近する他の車両や歩行者を視認できなくても、車両240の搭乗者は、交差点40の危険度合いを把握することができるようになる。よって、見通しの悪い交差点における事故を減らすことができる。
 一方、交差点40の見通しが良ければ、車両240の搭乗者は、交差点40に接近する他の車両や歩行者を視覚によって把握することができる。そのためこのような場合には音声制御装置200による危険判定を行わないようにすることで、音声制御装置200が消費する計算機資源を削減することができる。
 以下、交差点の危険判定の具体的な方法について説明する。
 例えば処理部204は、音声信号12の中に、他の車両によって発せられる音、又は人によって発せられる音が含まれる場合、交差点が危険であると判定する。一方、これらの音が音声信号12に含まれない場合、処理部204は、交差点が危険でないと判定する。他の車両によって発せられる音は、例えば、自動車やバイクによって発せられるエンジン音、ロードノイズ、又はブレーキ音である。その他にも例えば、他の車両によって発せられる音は、自転車によって発せられるロードノイズやブレーキ音である。人によって発せられる音は、例えば声や足音である。ここで、音声信号からこれらの種々の音を検出する技術には、既存の技術を利用することができる。
 その他にも例えば、処理部204は、車外音の音声信号12を用いて、交差点40の危険度合いを表す指標値(以下、危険指標値)を算出し、この危険指標値に基づいて、交差点40が危険であるか否かを判定してもよい。処理部204は、危険指標値が基準値以上である場合、交差点が危険であると判定する。一方、処理部204は、危険指標値が基準値未満である場合、交差点が危険でないと判定する。この基準値は、処理部204に予め設定されていてもよいし、処理部204からアクセス可能な記憶装置に記憶されていてもよい。
 危険指標値を算出するために、処理部204は、音声信号12から、交差点40の危険度合いを測る指標として利用できる音を検出する。そして、その処理部204は、その検出結果に基づいて危険指標値を算出する。
 交差点40の危険度合いを測る指標として利用できる音は、例えば前述した、他の車両によって発せられる音や、人によって発せられる音である。例えば処理部204は、音声信号12に含まれる車両のエンジン音が大きいほど、危険指標値の値を大きくする。車両のエンジン音が大きい場合、その車両が加速しながら交差点40に接近していると考えられるためである。
 その他にも例えば、処理部204は、音声信号12に含まれる他の車両のロードノイズが大きいほど、危険指標値の値を大きくする。これは、車両から発せられるロードノイズが大きいほど、車両の速度が大きいか、又は車両の大きさが大きいと考えられるためである。
 その他にも例えば、処理部204は、音声信号12に含まれる人の声が大きいほど、危険指標値を大きい値にする。人の声が大きい場合、その人は他の人と会話をしながら(例えば携帯電話を使って話しながら)歩いており、注意力が散漫になっている蓋然性が高いためである。
 その他にも例えば、処理部204は、音声信号12に含まれる人の声を用いてその人の推定年齢を算出し、その推定年齢が子供又は高齢者である場合、それ以外の場合よりも、危険指標値を大きい値にする。人の声の音声から人の推定年齢を算出する技術には、既存の技術を利用することができる。
<危険判定の結果の利用方法>
 処理部204による危険判定の結果を利用する方法は様々である。例えば処理部204は、交差点40が危険であると判定された場合に、車両240の搭乗者に対してその旨の通知を行う。この通知は、例えば、車両240に設けられているディスプレイ装置(カーナビゲーションシステムのディスプレイ装置)やスピーカ20を利用して行われる。
 その他にも例えば、処理部204は、車両240の走行を制御する装置(以下、走行制御装置)に対して、危険判定の結果を出力してもよい。走行制御装置は、例えば、車両240の自動運転を制御する装置である。交差点40が危険である判定されている場合、例えば走行制御装置は、車両240を交差点40の手前で減速させたり、一時停止させたりする。
<処理の流れ>
 図11は、実施形態2の音声制御装置200によって実行される処理の流れを例示するフローチャートである。図11のフローチャートは、図5のS106において実行される処理の流れを具体化したものの一例である。
 S104において、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合(S302:YES)、図11の処理は終了する。一方、交差点40の周辺にある物体が車両240の搭乗者にとって視認しにくいと判定された場合(S302:NO)、処理部204は、交差点40が危険であるか否かを判定する(S304)。
<ハードウエア構成の例>
 実施形態2の音声制御装置200のハードウエア構成は、実施形態1の音声制御装置200のハードウエア構成と同様に、例えば図4で表される。また本実施形態において、前述したストレージデバイス108に記憶されるプログラムモジュールには、本実施形態で説明した機能を実現するプログラムがさらに含まれる。
[実施形態3]
 実施形態3の音声制御装置200の機能構成は、実施形態1の音声制御装置200の機能構成と同様に、図3で表される。以下で説明する事項を除き、実施形態3の音声制御装置200は、実施形態1の音声制御装置200と同様の機能を有する。
 実施形態3の処理部204は、実施形態2の処理部204と同様に、交差点40の危険判定を行う。ただし、以下の点で実施形態2の処理部204と異なる。
 実施形態2の処理部204は、判定部202による判定の結果にかかわらず、交差点40の危険判定を行う。ただし、実施形態3の処理部204は、交差点40が危険であるか否かの判定基準を、判定部202による判定の結果に応じて決める。
 具体的には、実施形態3の処理部204は、前述した危険指標値と比較する基準値として、判定部202の判定結果に応じた値を利用する。そのために、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合に利用される第1基準値と、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすくないと判定された場合に利用される第2基準値を用意しておく。第1基準値は第2基準値よりも大きい値である。
 言い換えれば、実施形態3の処理部204は、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合、危険指標値が第1基準値以上であるか否かを判定する。そして、処理部204は、危険指標値が第1基準値以上である場合、交差点40が危険であると判定する。一方、処理部204は、危険指標値が第1基準値未満である場合、交差点40が危険でないと判定する。
 また、処理部204は、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすくないと判定された場合、危険指標値が第2基準値以上であるか否かを判定する。そして処理部204は、危険指標値が第2基準値以上である場合、交差点40が危険であると判定する。一方、処理部204は、危険指標値が第2基準値未満である場合、交差点40が危険でないと判定する。
 本実施形態の音声制御装置200によれば、交差点40における見通しが悪い場合の方が、交差点40における見通しが良い場合よりも、交差点40が危険であると判定されやすくなる。このように交差点40における見通しの良さも加味して危険判定を行うことで、交差点40が危険であるか否かの判定の精度を高くすることができる。
<危険判定の結果の利用方法>
 実施形態3の処理部204による危険判定の結果の利用方法は、実施形態2の処理部204による危険判定の結果の利用方法と同様である。
<処理の流れ>
 図12は、実施形態3の音声制御装置200によって実行される処理の流れを例示するフローチャートである。図12のフローチャートは、図5のS106において実行される処理の流れを具体化したものの一例である。
 S104の後、処理部204は、交差点40の危険指標値を算出する(S402)。S104において、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合(S404:YES)、処理部204は、危険指標値が第1基準値以上であるか否かを判定する(S406)。危険指標値が第1基準値以上である場合(S406:YES)、処理部204は、交差点40が危険であると判定する(S408)。危険指標値が第1基準値以上でない場合(S406:NO)、処理部204は、交差点40が危険でないと判定する(S410)。
 S104において、交差点40の周辺にある物体が車両240の搭乗者にとって視認しにくいと判定された場合(S404:NO)、処理部204は、危険指標値が第2基準値以上であるか否かを判定する(S412)。危険指標値が第2基準値以上である場合(S412:YES)、処理部204は、交差点40が危険であると判定する(S408)。危険指標値が第2基準値以上でない場合(S412:NO)、処理部204は、交差点40が危険でないと判定する(S410)。
<ハードウエア構成の例>
 実施形態2の音声制御装置200のハードウエア構成は、実施形態1の音声制御装置200のハードウエア構成と同様に、例えば図4で表される。また本実施形態において、前述したストレージデバイス108に記憶されるプログラムモジュールには、本実施形態で説明した機能を実現するプログラムがさらに含まれる。
[実施形態4]
 実施形態4の音声制御装置200の機能構成は、実施形態1の音声制御装置200の機能構成と同様に、図3で表される。以下で説明する事項を除き、実施形態4の音声制御装置200は、実施形態1の音声制御装置200又は実施形態2の音声制御装置200と同様の機能を有する。
 実施形態4の処理部204は、車両240の進行方向にある交差点の周辺にある物体が車両240の搭乗者にとって視認しやすくないと判定された場合、緊急車両が車両240に近づいているか否かを判定する。具体的には、処理部204は、車外音の音声信号を用いて、その音声信号に緊急車両のサイレンが含まれるか否かを判定する。さらに、車外音の音声信号に緊急車両のサイレンが含まれる場合、処理部204は、その音声信号を用いて、その緊急車両が車両240に近づいているか否かを判定する。
 ここで、音声信号に緊急車両のサイレンが含まれるか否かを判定する技術には、音声信号に特定の音(サイレン)が含まれているか否かを判定する既存の技術を利用することができる。また、緊急車両が車両240に近づいているか否かを判定する技術には、音源(緊急車両)が観測地(車両240)に近づいているか否かを判定する既存の技術を利用することができる。
 「緊急車両が車両240に近づいているか否か」の判定結果の利用方法は様々である。例えば処理部204は、緊急車両が車両240に近づいていると判定された場合、その旨の通知を車両240の搭乗者に対して行う。この通知は、危険判定の結果と同様の方法で行うことができる。
 その他にも例えば、処理部204は、車両240の走行を制御する走行制御装置に対して、危険判定の結果を出力してもよい。交差点40が危険である判定されている場合、例えば走行制御装置は、車両240を交差点40の手前で減速させたり、一時停止させたりする。
<処理の流れ>
 図13は、実施形態4の音声制御装置200によって実行される処理の流れを例示するフローチャートである。図13のフローチャートは、図5のS106において実行される処理の流れを具体化したものの一例である。
 S104において、交差点40の周辺にある物体が車両240の搭乗者にとって視認しやすいと判定された場合(S502:YES)、図13の処理は終了する。一方、交差点40の周辺にある物体が車両240の搭乗者にとって視認しにくいと判定された場合(S502:NO)、処理部204は、緊急車両が車両240に近づいているか否かを判定する(S502)。
<ハードウエア構成の例>
 実施形態4の音声制御装置200のハードウエア構成は、実施形態1の音声制御装置200のハードウエア構成と同様に、例えば図4で表される。また本実施形態において、前述したストレージデバイス108に記憶されるプログラムモジュールには、本実施形態で説明した機能を実現するプログラムがさらに含まれる。
 以上、図面を参照して本発明の実施形態について述べたが、これらは本発明の例示であり、上記各実施形態の組み合わせ、又は上記以外の様々な構成を採用することもできる。
 この出願は、2017年1月27日に出願された日本出願特願2017-013267号を基礎とする優先権を主張し、その開示の全てをここに取り込む。

Claims (11)

  1.  車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点周辺に存在する物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定手段と、
     前記判定手段の判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理手段と、を有する音声制御装置。
  2.  前記交差点周辺に存在する物体が視認しやすくないと判定された場合、前記処理手段は、前記音声信号を前記車両の室内で再生させる、請求項1に記載の音声制御装置。
  3.  前記処理手段は、前記判定手段による判定結果及び前記音声信号を用いて、前記交差点が危険であるか否かを判定する、請求項1に記載の音声制御装置。
  4.  前記処理手段は、前記交差点の周辺に存在する物体が視認しやすくないと判定された場合のみ、前記音声信号を用いて前記交差点が危険であるか否かを判定する、請求項3に記載の音声制御装置。
  5.  前記処理手段は、
      前記音声信号を用いて前記交差点の危険度を算出し、
      前記交差点の周辺に存在する物体が視認しやすいと判定された場合、前記危険度が第1閾値以上であれば前記交差点が危険であると判定し、
      前記交差点の周辺に存在する物体が視認しやすくないと判定された場合、前記危険度が第2閾値以上であれば前記交差点が危険であると判定し、
     前記第1閾値は、前記第2閾値より大きい、請求項3に記載の音声制御装置。
  6.  前記処理手段は、前記交差点の周辺に存在する物体が視認しやすくないと判定された場合、前記交差点に近づいている緊急車両のサイレンが前記音声信号に含まれるか否かを判定する、請求項3~5いずれか一項に記載の音声制御装置。
  7.  前記判定手段は、前記交差点にミラーが設置されていない場合又は前記交差点に設置されているミラーの少なくとも一部が前記撮像画像に含まれない場合に、前記交差点の周辺に存在する物体が視認しやすくないと判定する、請求項1~6いずれか一項に記載の音声制御装置。
  8.  前記判定手段は、前記撮像画像において前記交差点の周辺に存在する障害物が基準より多い場合に、前記交差点の周辺に存在する物体が視認しやすくないと判定する、請求項1~6いずれか一項に記載の音声制御装置。
  9.  前記判定手段は、前記撮像画像に基づいて、前記車両の進行方向の環境状況が自動運転の可能条件を満たさない場合に、前記交差点の周辺に存在する物体が視認しやすくないと判定する、請求項1~6いずれか一項に記載の音声制御装置。
  10.  コンピュータによって実行される音声制御方法であって、
     車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点周辺に存在する物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定ステップと、
     前記判定ステップにおける判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理ステップと、を有する音声制御方法。
  11.  コンピュータに、
     車両の進行方向が撮像されている撮像画像を用い、前記車両の進行方向にある交差点周辺に存在する物体が前記車両の搭乗者にとって視認しやすいか否かを判定する判定ステップと、
     前記判定ステップにおける判定結果に応じ、前記車両の外で発生している車外音を表す音声信号を用いた処理を実行する処理ステップと、を実行させるプログラム。
PCT/JP2018/002770 2017-01-27 2018-01-29 音声制御装置、音声制御方法、及びプログラム WO2018139650A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2017013267 2017-01-27
JP2017-013267 2017-01-27

Publications (1)

Publication Number Publication Date
WO2018139650A1 true WO2018139650A1 (ja) 2018-08-02

Family

ID=62979330

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2018/002770 WO2018139650A1 (ja) 2017-01-27 2018-01-29 音声制御装置、音声制御方法、及びプログラム

Country Status (1)

Country Link
WO (1) WO2018139650A1 (ja)

Cited By (1)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021125021A (ja) * 2020-02-06 2021-08-30 トヨタ自動車株式会社 死角情報取得装置、死角情報取得方法、車両及びプログラム

Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251200A (ja) * 1999-03-02 2000-09-14 Mazda Motor Corp 車両の障害物検出装置
JP2007172491A (ja) * 2005-12-26 2007-07-05 Aisin Aw Co Ltd 運転支援装置、運転支援方法および運転支援プログラム
JP2009051333A (ja) * 2007-08-27 2009-03-12 Nissan Motor Co Ltd 車両用聴覚モニタ装置
JP2010026708A (ja) * 2008-07-17 2010-02-04 Fujitsu Ten Ltd 運転者支援装置、運転者支援方法および運転者支援処理プログラム
WO2012121048A1 (ja) * 2011-03-04 2012-09-13 トヨタ自動車株式会社 接近車両検出装置
JP2015001776A (ja) * 2013-06-13 2015-01-05 三菱電機株式会社 運転支援装置
JP2015141101A (ja) * 2014-01-29 2015-08-03 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置、ナビゲーション方法及びプログラム

Patent Citations (7)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2000251200A (ja) * 1999-03-02 2000-09-14 Mazda Motor Corp 車両の障害物検出装置
JP2007172491A (ja) * 2005-12-26 2007-07-05 Aisin Aw Co Ltd 運転支援装置、運転支援方法および運転支援プログラム
JP2009051333A (ja) * 2007-08-27 2009-03-12 Nissan Motor Co Ltd 車両用聴覚モニタ装置
JP2010026708A (ja) * 2008-07-17 2010-02-04 Fujitsu Ten Ltd 運転者支援装置、運転者支援方法および運転者支援処理プログラム
WO2012121048A1 (ja) * 2011-03-04 2012-09-13 トヨタ自動車株式会社 接近車両検出装置
JP2015001776A (ja) * 2013-06-13 2015-01-05 三菱電機株式会社 運転支援装置
JP2015141101A (ja) * 2014-01-29 2015-08-03 アイシン・エィ・ダブリュ株式会社 ナビゲーション装置、ナビゲーション方法及びプログラム

Cited By (3)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2021125021A (ja) * 2020-02-06 2021-08-30 トヨタ自動車株式会社 死角情報取得装置、死角情報取得方法、車両及びプログラム
US11610408B2 (en) 2020-02-06 2023-03-21 Toyota Jidosha Kabushiki Kaisha Blind spot information acquisition device, blind spot information acquisition method, vehicle, and non-transitory storage medium
JP7287301B2 (ja) 2020-02-06 2023-06-06 トヨタ自動車株式会社 死角情報取得装置、死角情報取得方法、車両及びプログラム

Similar Documents

Publication Publication Date Title
US11673569B2 (en) Alert control apparatus and alert control method
US11327485B2 (en) Control device for vehicle, and vehicle
US10875545B2 (en) Autonomous driving system
JP6312831B2 (ja) 走行支援システム及び走行支援方法
JP6962468B2 (ja) 走行支援方法及び車両制御装置
US20200108835A1 (en) Server, information processing method, and non-transitory storage medium storing program
US10896338B2 (en) Control system
JP6652024B2 (ja) 車両制御方法及び車両制御装置
JP2020067774A (ja) 情報処理システム、プログラム、及び情報処理方法
JP2004322772A (ja) 車載用電子装置
US20210129841A1 (en) Driving assistance device
JP2007263737A (ja) ナビゲーション装置、方法及びプログラム
JP2005182310A (ja) 車両運転支援装置
JP2001001851A (ja) 車両用警報装置
JP4873255B2 (ja) 車両用報知システム
WO2018139650A1 (ja) 音声制御装置、音声制御方法、及びプログラム
CN112533809A (zh) 车辆控制方法以及车辆控制装置
JP2015109003A (ja) 歩行者情報提供システム
JP2021018636A (ja) 車両遠隔指示システム
JP4269862B2 (ja) 車載用移動体検出装置
JP6668915B2 (ja) 移動体の自動運転制御システム
KR20190090138A (ko) 방향지시등의 작동을 확인하는 방법 및 그 장치
JP2018158701A (ja) 自動駐車制御方法およびそれを利用した自動駐車制御装置、プログラム
JP2011215906A (ja) 安全支援装置、安全支援方法、安全支援プログラムおよび記録媒体
JP2019079242A (ja) 走行支援装置

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 18745432

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 18745432

Country of ref document: EP

Kind code of ref document: A1

NENP Non-entry into the national phase

Ref country code: JP