WO2023163047A1 - 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体 - Google Patents

端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体 Download PDF

Info

Publication number
WO2023163047A1
WO2023163047A1 PCT/JP2023/006490 JP2023006490W WO2023163047A1 WO 2023163047 A1 WO2023163047 A1 WO 2023163047A1 JP 2023006490 W JP2023006490 W JP 2023006490W WO 2023163047 A1 WO2023163047 A1 WO 2023163047A1
Authority
WO
WIPO (PCT)
Prior art keywords
question
information
feature
voice
user
Prior art date
Application number
PCT/JP2023/006490
Other languages
English (en)
French (fr)
Inventor
高志 飯澤
敬太 倉持
敬介 栃原
Original Assignee
パイオニア株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by パイオニア株式会社 filed Critical パイオニア株式会社
Publication of WO2023163047A1 publication Critical patent/WO2023163047A1/ja

Links

Classifications

    • GPHYSICS
    • G01MEASURING; TESTING
    • G01CMEASURING DISTANCES, LEVELS OR BEARINGS; SURVEYING; NAVIGATION; GYROSCOPIC INSTRUMENTS; PHOTOGRAMMETRY OR VIDEOGRAMMETRY
    • G01C21/00Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00
    • G01C21/26Navigation; Navigational instruments not provided for in groups G01C1/00 - G01C19/00 specially adapted for navigation in a road network
    • G01C21/34Route searching; Route guidance
    • G01C21/36Input/output arrangements for on-board computers
    • GPHYSICS
    • G08SIGNALLING
    • G08GTRAFFIC CONTROL SYSTEMS
    • G08G1/00Traffic control systems for road vehicles
    • G08G1/09Arrangements for giving variable traffic instructions
    • G08G1/0962Arrangements for giving variable traffic instructions having an indicator mounted inside the vehicle, e.g. giving voice messages
    • G08G1/0968Systems involving transmission of navigation instructions to the vehicle
    • G08G1/0969Systems involving transmission of navigation instructions to the vehicle having a display in the form of a map

Definitions

  • the present invention relates to technology that can be used in content output.
  • Patent Document 1 A technology is known that acquires the current position of an information terminal owned by a user and provides the user with information on facilities that exist around the current position (see Patent Document 1, for example).
  • the present invention has been made to solve the above problems, and its main purpose is to efficiently generate information on characteristic features and provide it to users.
  • a claimed invention is a terminal device comprising: a question voice acquisition unit for acquiring a user's question voice regarding a feature; an image acquisition unit for acquiring an image related to the feature based on the question voice; a question data generating unit that generates question data including position information of the moving object at the time when the question voice was acquired and the acquired image, and transmits the question data to the server device.
  • the claimed invention is an information processing method, in which a user's question voice regarding a feature is acquired, an image related to the feature is acquired based on the question voice, and the question voice is acquired.
  • Question data including the position information of the moving object at the time and the acquired image is generated and transmitted to the server device.
  • the claimed invention is a program, which acquires a user's voice question about a feature, acquires an image about the feature based on the voice question,
  • the computer is caused to execute a process of generating question data including the position information of the moving object and the acquired image and transmitting the data to the server device.
  • FIG. 1 is a diagram illustrating a configuration example of an audio output system according to an embodiment
  • FIG. 1 is a block diagram showing a schematic configuration of an audio output device
  • FIG. It is a block diagram which shows schematic structure of a server apparatus.
  • An example of feature information is shown.
  • 4 shows an example of creating feature information according to an embodiment.
  • a display example of a public question is shown.
  • 9 is a flowchart of feature information creation processing;
  • a terminal device includes a question voice acquisition unit that acquires a user's question voice regarding a feature, and an image acquisition unit that acquires an image related to the feature based on the question voice. and a question data generating unit that generates question data including the position information of the moving object at the time when the question voice was obtained and the obtained image, and transmits the question data to the server device.
  • the above terminal device acquires the user's voice question about the feature, and acquires the image of the feature based on the voice question. Then, the terminal device generates question data including position information of the moving object at the time when the question voice was obtained and the obtained image, and transmits the question data to the server device. Thereby, the terminal device can transmit the user's question about the feature to the server device and request an answer.
  • One aspect of the above terminal device is equipped with a photographing unit that is mounted on the mobile object and continuously photographs the scenery outside the mobile object, and the image acquisition unit is configured to capture images of the feature included in the question voice. Based on the feature information, an image including the feature is acquired from the image captured by the imaging unit.
  • the question data can include an image including features of features included in the user's question voice.
  • the image acquisition unit acquires an image corresponding to the timing from the images captured by the imaging unit, based on the timing information included in the question voice.
  • the question data can include an image corresponding to the timing specified by the question voice by the user.
  • Another aspect of the terminal device described above is an information providing system comprising the terminal device described above and a server device, wherein the server device allows another terminal device to view the question data received from the terminal device.
  • an information providing unit that provides information in a state in which the question data is provided; a receiving unit that receives answer data to the question data from another terminal device; and based on the received answer data, generates information about features related to the question data.
  • an information storage unit that stores the information.
  • the server device provides the question data received from the terminal device in a viewable state to the other terminal device, receives the answer data to the question data from the other terminal device, and based on the received answer data , may generate and store information about features associated with the query data.
  • the information processing method acquires a user's voice question about a feature, acquires an image about the feature based on the voice question, and acquires an image of the feature based on the voice question. position information of the moving object and the acquired image, and transmits the question data to the server device. Thereby, the user's question about the feature can be sent to the server device and an answer can be requested.
  • a program obtains a user's question voice about a feature, obtains an image about the feature based on the question voice, and calculates the movement at the time when the question voice is obtained.
  • a computer is caused to execute a process of generating question data including body position information and an acquired image and transmitting the data to the server device. By executing this program on a computer, the above content output device can be realized.
  • This program can be stored in a storage medium and used.
  • FIG. 1 is a diagram illustrating a configuration example of an audio output system according to an embodiment.
  • a voice output system 1 according to this embodiment includes a voice output device 100 and a server device 200 .
  • the audio output device 100 is mounted on the vehicle Ve.
  • the server device 200 communicates with a plurality of audio output devices 100 mounted on a plurality of vehicles Ve.
  • the voice output device 100 basically performs route guidance processing, information provision processing, etc. for the user who is a passenger of the vehicle Ve. For example, when a destination or the like is input by the user, the voice output device 100 transmits an upload signal S1 including position information of the vehicle Ve and information on the designated destination to the server device 200 . Server device 200 calculates the route to the destination by referring to the map data, and transmits control signal S2 indicating the route to the destination to audio output device 100 . The voice output device 100 provides route guidance to the user by voice output based on the received control signal S2.
  • the voice output device 100 provides various types of information to the user through interaction with the user.
  • the audio output device 100 supplies the server device 200 with an upload signal S1 including information indicating the content or type of the information request and information about the running state of the vehicle Ve.
  • the server device 200 acquires and generates information requested by the user, and transmits it to the audio output device 100 as a control signal S2.
  • the audio output device 100 provides the received information to the user by audio output.
  • the voice output device 100 moves together with the vehicle Ve and performs route guidance mainly by voice so that the vehicle Ve travels along the guidance route.
  • route guidance based mainly on voice refers to route guidance in which the user can grasp information necessary for driving the vehicle Ve along the guidance route at least from only voice, and the voice output device 100 indicates the current position. It does not exclude the auxiliary display of a surrounding map or the like.
  • the voice output device 100 outputs at least various information related to driving, such as points on the route that require guidance (also referred to as “guidance points”), by voice.
  • the guidance point corresponds to, for example, an intersection at which the vehicle Ve turns left or right, or an important passing point for the vehicle Ve to travel along the guidance route.
  • the voice output device 100 provides voice guidance regarding guidance points such as the distance from the vehicle Ve to the next guidance point and the traveling direction at the guidance point.
  • the voice regarding the guidance for the guidance route is also referred to as "route voice guidance”.
  • the audio output device 100 is installed, for example, on the upper part of the windshield of the vehicle Ve or on the dashboard. Note that the audio output device 100 may be incorporated in the vehicle Ve.
  • FIG. 2 is a block diagram showing a schematic configuration of the audio output device 100.
  • Audio output device 100 mainly includes communication unit 111 , storage unit 112 , input unit 113 , control unit 114 , sensor group 115 , display unit 116 , microphone 117 , speaker 118 , and vehicle exterior camera 119 . and an in-vehicle camera 120 .
  • Each element in the audio output device 100 is interconnected via a bus line 110 .
  • the communication unit 111 performs data communication with the server device 200 under the control of the control unit 114 .
  • the communication unit 111 may receive, for example, map data for updating a later-described map database (hereinafter, the database is referred to as “DB”) 4 from the server device 200 .
  • DB map database
  • the storage unit 112 is composed of various memories such as RAM (Random Access Memory), ROM (Read Only Memory), non-volatile memory (including hard disk drive, flash memory, etc.).
  • the storage unit 112 stores a program for the audio output device 100 to execute predetermined processing.
  • the above-mentioned programs may include an application program for route voice guidance, an application program for playing music, an application program for outputting content other than music (such as television), and the like.
  • Storage unit 112 is also used as a working memory for control unit 114 . Note that the program executed by the audio output device 100 may be stored in a storage medium other than the storage unit 112 .
  • the storage unit 112 stores the map DB4.
  • Various data required for route guidance are recorded in the map DB 4 .
  • the map DB 4 stores, for example, road data representing a road network by a combination of nodes and links, feature information indicating features that are candidates for destinations, stop-off points, or landmarks.
  • the map DB 4 also stores feature information such as famous buildings that should be provided to the user when the user passes through its vicinity.
  • the map DB 4 may be updated based on the map information received by the communication section 111 from the map management server under the control of the control section 114 .
  • the input unit 113 is a button, touch panel, remote controller, etc. for user operation.
  • the display unit 116 is a display or the like that displays based on the control of the control unit 114 .
  • the microphone 117 collects sounds inside the vehicle Ve, particularly the driver's utterances.
  • a speaker 118 outputs audio for route guidance and information provision to the driver or the like.
  • the sensor group 115 includes an external sensor 121 and an internal sensor 122 .
  • the external sensor 121 is, for example, one or more sensors for recognizing the surrounding environment of the vehicle Ve, such as a lidar, radar, ultrasonic sensor, infrared sensor, and sonar.
  • the internal sensor 122 is a sensor that performs positioning of the vehicle Ve, and is, for example, a GNSS (Global Navigation Satellite System) receiver, a gyro sensor, an IMU (Inertial Measurement Unit), a vehicle speed sensor, or a combination thereof.
  • GNSS Global Navigation Satellite System
  • IMU Inertial Measurement Unit
  • vehicle speed sensor or a combination thereof.
  • the sensor group 115 may have a sensor that allows the control unit 114 to directly or indirectly derive the position of the vehicle Ve from the output of the sensor group 115 (that is, by performing estimation processing).
  • the vehicle exterior camera 119 is a camera that captures the exterior of the vehicle Ve.
  • the exterior camera 119 may be only a front camera that captures the front of the vehicle, or may include a rear camera that captures the rear of the vehicle in addition to the front camera. good too.
  • the in-vehicle camera 120 is a camera for photographing the interior of the vehicle Ve, and is provided at a position capable of photographing at least the vicinity of the driver's seat.
  • the control unit 114 includes a CPU (Central Processing Unit), a GPU (Graphics Processing Unit), etc., and controls the audio output device 100 as a whole. For example, the control unit 114 estimates the position (including the traveling direction) of the vehicle Ve based on the outputs of one or more sensors in the sensor group 115 . Further, when a destination is specified by the input unit 113 or the microphone 117, the control unit 114 generates route information indicating a guidance route to the destination, Based on the position information and the map DB 4, route voice guidance is provided. In this case, the control unit 114 causes the speaker 118 to output the guidance voice. In addition, the control unit 114 provides the user with feature information about features around the current position of the vehicle Ve. Further, the control unit 114 controls the display unit 116 to display information about the music being played, video content, a map of the vicinity of the current position, or the like.
  • the control unit 114 controls the display unit 116 to display information about the music being played, video content, a map of the vicinity of the current
  • control unit 114 is not limited to being implemented by program-based software, and may be implemented by any combination of hardware, firmware, and software. Also, the processing executed by the control unit 114 may be implemented using a user-programmable integrated circuit such as an FPGA (field-programmable gate array) or a microcomputer. In this case, this integrated circuit may be used to implement the program executed by the control unit 114 in this embodiment. Thus, the control unit 114 may be realized by hardware other than the processor.
  • FPGA field-programmable gate array
  • control unit 114 is an example of a question voice acquisition unit, an image acquisition unit, and a question data generation unit, and the vehicle exterior camera 119 is an example of a photographing unit.
  • the configuration of the audio output device 100 shown in FIG. 2 is an example, and various changes may be made to the configuration shown in FIG.
  • the control unit 114 may receive information necessary for route guidance from the server device 200 via the communication unit 111 .
  • the audio output device 100 is electrically connected to an audio output unit configured separately from the audio output device 100, or by a known communication means, so as to output the audio. Audio may be output from the output unit.
  • the audio output unit may be a speaker provided in the vehicle Ve.
  • the audio output device 100 does not have to include the display section 116 .
  • the audio output device 100 may perform a predetermined display by electrically connecting to a display unit provided in the vehicle Ve or the like or a user's smart phone or the like by wire or wirelessly.
  • the audio output device 100 may acquire information output by sensors installed in the vehicle Ve based on a communication protocol such as CAN (Controller Area Network) from the vehicle Ve. .
  • CAN Controller Area Network
  • the server device 200 generates route information indicating a guidance route that the vehicle Ve should travel based on the upload signal S1 including the destination and the like received from the voice output device 100 . Then, the server device 200 generates a control signal S2 relating to information output in response to the user's information request based on the user's information request indicated by the upload signal S1 transmitted by the audio output device 100 and the running state of the vehicle Ve. The server device 200 then transmits the generated control signal S ⁇ b>2 to the audio output device 100 .
  • the server device 200 generates content for providing information to the user of the vehicle Ve and interacting with the user, and transmits the content to the audio output device 100 .
  • the provision of information to the user mainly includes push-type information provision that is triggered by the server device 200 when the vehicle Ve reaches a predetermined driving condition.
  • the dialog with the user is basically a pull-type dialog that starts with a question or inquiry from the user.
  • the interaction with the user may start from push-type information provision.
  • FIG. 3 is a diagram showing an example of a schematic configuration of the server device 200.
  • the server device 200 mainly has a communication section 211 , a storage section 212 and a control section 214 .
  • Each element in the server device 200 is interconnected via a bus line 210 .
  • the communication unit 211 performs data communication with an external device such as the audio output device 100 under the control of the control unit 214 .
  • the storage unit 212 is composed of various types of memory such as RAM, ROM, nonvolatile memory (including hard disk drive, flash memory, etc.). Storage unit 212 stores a program for server device 200 to execute a predetermined process. Moreover, the memory
  • the control unit 214 includes a CPU, GPU, etc., and controls the server device 200 as a whole. Further, the control unit 214 operates together with the audio output device 100 by executing a program stored in the storage unit 212, and executes route guidance processing, information provision processing, and the like for the user. For example, based on the upload signal S1 received from the audio output device 100 via the communication unit 211, the control unit 214 generates route information indicating a guidance route or a control signal S2 relating to information output in response to a user's information request. Then, the control unit 214 transmits the generated control signal S2 to the audio output device 100 through the communication unit 211 .
  • control unit 214 is an example of an information providing unit and an information storage unit
  • communication unit 211 is an example of a receiving unit.
  • the push-type information provision means that when the vehicle Ve is in a predetermined driving situation, the audio output device 100 outputs information related to the driving situation to the user by voice. Specifically, the voice output device 100 acquires the driving situation information indicating the driving situation of the vehicle Ve based on the output of the sensor group 115 as described above, and transmits it to the server device 200 .
  • the server device 200 stores table data for providing push-type information in the storage unit 212 .
  • the server device 200 refers to the table data, and when the driving situation information received from the voice output device 100 mounted on the vehicle Ve matches the trigger condition defined in the table data, the text corresponding to the trigger condition is generated.
  • Information for output is acquired using the data and transmitted to the audio output device 100 .
  • the voice output device 100 outputs the output information received from the server device 200 as voice. In this way, information corresponding to the driving situation of the vehicle Ve is output to the user by voice.
  • the driving situation information includes, for example, the position of the vehicle Ve, the direction of the vehicle, traffic information around the position of the vehicle Ve (including speed regulation and congestion information, etc.), the current time, the destination, etc. At least one piece of information that can be acquired based on the function of each unit of the output device 100 may be included. Also, the driving situation information includes any of the voice (excluding user's speech) obtained by the microphone 117, the image captured by the exterior camera 119, and the image captured by the interior camera 120. may The driving status information may also include information received from the server device 200 through the communication unit 111 .
  • provision of feature information means providing the user with information on features existing on or around the route on which the vehicle Ve is traveling.
  • the server device 200 provides the user with information on features around the current position of the vehicle Ve by push-type information provision.
  • Fig. 4 shows an example of feature information.
  • Feature information is also called POI (Point Of Interest) data.
  • POI Point Of Interest
  • the feature information stores the position (latitude, longitude), area name, name, category, feature, etc. in association with the feature ID assigned to each feature.
  • “Position (latitude, longitude)” is the location information of the feature.
  • "Area name” is information indicating a geographical area to which the feature belongs, such as a region name.
  • “Name” is the name of the feature.
  • a “category” is a large category or classification that indicates the feature.
  • a “feature” is a feature of the feature.
  • the server device 200 acquires the current position of the vehicle Ve based on the upload signal S1 from the audio output device 100 mounted on the user's vehicle Ve, and refers to the feature information included in the map DB 4 to obtain the user's position. Search for features around the current position of the vehicle Ve. Specifically, the server device 200 selects a feature existing within a predetermined range from the current position of the vehicle Ve from the feature information, and provides the user with information on the feature by push-type information provision. For example, in the example of FIG. 4, when the user's vehicle Ve is near station B, the server apparatus 200 outputs a voice message such as "There is a XX city hall near here" for the feature ID "060". conduct. As a result, the user can receive information about famous features and characteristic features around the current position while the vehicle Ve is running.
  • the user asks the server device 200 questions or inquiries (hereinafter collectively referred to as "questions") about the features that the user has seen while the vehicle is actually traveling.
  • This question is a voice output requesting detailed information about the feature.
  • the server device 200 presents a user's question to other users to request an answer, creates feature information based on the obtained answer, and stores it in the map DB 4 . This makes it possible to create feature information about information that is not included in general tourist information, specifically, feature information that cannot be seen unless you actually go to the place.
  • FIG. 5 shows an example of creating feature information according to this embodiment.
  • user A who asks a question about a feature uses the voice output device 100a
  • user B who answers user A's question uses the voice output device 100b.
  • the voice output device 100 a obtains the voice of this question, generates question data D ⁇ b>1 , and transmits the question data D ⁇ b>1 to the server device 200 .
  • the voice output device 100a collects the question of the user A with the microphone 117 and acquires the position information of the vehicle Ve when the user A asks the question. In addition, the voice output device 100a acquires from the vehicle exterior camera 119 a photographed image in front of the vehicle when the user A asks the question. Then, the voice output device 100a transmits question data D1 including voice data of the question of the user A, the position information of the vehicle Ve when the user A asked the question, and the photographed image when the user A asked the question, to the server device 200. Send to
  • the server device 200 When the server device 200 receives the question data D1 from the voice output device 100a, it generates open question data D2 based on the question data D1 and transmits it to the voice output devices 100 of a plurality of users other than user A. At this time, the server device 200 includes the content of the question included in the question data D1 in the open question data D2. In addition, the server device 200 includes information regarding the location of the feature that is the target of the question based on the position information of the vehicle Ve included in the question data D1. Further, server device 200 includes the photographed image included in question data D1 in open question data D2.
  • FIG. FIG. 6 shows a display example of public questions.
  • This display example 70 includes map information 71 and public questions 72 .
  • the public question 72 includes a feature location 72a, a question 72b, and a captured image 72c.
  • the feature location 72a displays the location of the feature included in the open question data D2.
  • the server device 200 determines whether the feature targeted by the question is near "A station”. It is determined that there is, and the location of the feature included in the open question data D2 is set as "near station A".
  • the question 72b is a character representation of the content of the question of user A included in the public question data D2.
  • the server device 200 may include voice data of the question of the user A in the open question data D2 and transmit the public question data D2 to the voice output device 100.
  • the voice output device 100 can output the voice data included in the public question data D2.
  • the captured image 72c is a captured image included in the open question data D2, and more specifically, an image captured by the outside camera 119 of the audio output device 100 when the user A utters a question.
  • User B When User B, who has received the public question, speaks an answer to the question, User B's voice output device 100b acquires the voice of the answer and transmits it to the server device 200 as answer data D3.
  • user B answered "It's A city building.” regarding the public question target feature, so this voice data is transmitted to server device 200 as answer data D3.
  • the server device 200 When the server device 200 receives the reply data D3 from the user B, it stores the contents of the reply data D3 in the map DB 4 as feature information. As a result, feature information such as feature ID "090" in FIG. 4, for example, is created and stored in the map DB 4. FIG. After that, the server device 200 can provide the stored feature information to other users who pass near the feature. Note that the server device 200 may encourage the user to answer the public question by giving some incentive to the user who has provided the answer to the public question.
  • the server device 200 also transmits the response data D3 from the user B to the voice output device 100a of the user A as the response data D4 from the server device 200.
  • the voice output device 100a can provide an answer to the user A by reproducing the received answer data D4.
  • feature information can be efficiently created and the feature information stored in the server device 200 can be used.
  • feature information is created based on questions from the user traveling in the vehicle Ve. It is possible to create feature information that cannot be obtained from ordinary tourist information.
  • FIG. 7 is a flowchart of the feature information creation process. This processing is realized by the control unit 114 of the audio output device 100 and the control unit 214 of the server device 200 executing programs prepared in advance. Also in the following description, it is assumed that user A asks a question about a feature using the voice output device 100a, and user B answers the question using the voice output device 100b.
  • the voice output device 100a acquires the question (step S11). Specifically, the voice output device 100a acquires the user's voice through the microphone 117 and recognizes that the voice is a question about the feature. For example, the voice output device 100a can recognize that the voice is a question based on words such as "What is OO?" included in the user's voice. Then, the voice output device 100a outputs the voice data of the question uttered by the user A, the position information of the vehicle Ve when the user A asked the question, and the captured image captured by the outside camera 119 when the user A asked the question. is generated, and transmitted to the server device 200 (step S12).
  • the server device 200 When the server device 200 acquires the question data D1 from the voice output device 100a (step S13), the server device 200 generates open question data D2 based on the question data D1, and transmits it to the voice output devices 100 of a plurality of users (step S14).
  • the public question data D2 includes the content of the question, the location of the feature that is the target of the question, and the photographed image of the feature.
  • the open question data D2 transmitted from the server device 200 is received by a plurality of voice output devices 100 including the voice output device 100b of user B.
  • User B's voice output device 100b receives open question data D2 and displays the open question on display unit 116 (step S15). This causes the open questions to be displayed as illustrated in FIG.
  • the voice output device 100b acquires the answer by the user B and transmits the answer data D3 to the server device 200 (step S16).
  • the server device 200 receives the response data D3 and stores it as feature information in the map DB4 of the storage unit 212 (step S17). As a result, the feature information about the feature questioned by the user A is added to the map DB 4 . Next, the server device 200 transmits the response data D3 received from the voice output device 100b as the response data D4 to the voice output device 100a of the user A who asked the question (step S18).
  • the voice output device 100a of user A receives and outputs the reply data D4 from the server device 200 (step S19).
  • the voice output device 100a basically outputs the answer data D4 as voice, but in addition to the voice output, the display unit 116 may display characters or sentences indicating the answer.
  • the feature information creation processing ends.
  • Modifications of the above embodiment will be described below. The following modified examples can be appropriately combined and applied to the embodiment.
  • the questioner's voice output device 100 matches characteristic words included in the user's question with characteristic objects included in the captured image. , may identify the feature being queried. For example, if the user's question is "What is that yellow object?" A photographed image containing a yellow object is detected from a series of captured images. Then, the audio output device 100 enlarges or trims the captured image so that the yellow object is in the center, creates a captured image focused on the feature that is the target of the question, and generates the question data D1. may be included in As a result, the user answering the public question can easily and clearly recognize the feature that is the target of the question based on the image included in the public question.
  • the questioner asks the question in real time about the feature that is currently visible, but instead, the user may be able to ask about the feature that the user has seen in the past.
  • the audio output device 100 stores the image captured by the exterior camera 119 in the storage unit 112 for a predetermined time period. For example, after the vehicle Ve has passed near a certain building, when the user asks, "What is that tall building?" A photographed image matching the content of the question, that is, a photographed image showing a tall building may be obtained and included in the question data D1.
  • the user does not have to ask questions in real time while driving, and can ask questions when there is time to spare, such as while the vehicle is stopped at a traffic light.
  • the user can include information specifying the time when the feature was seen in the question voice.
  • the audio output device 100 refers to the past captured images and responds to the question in the time period specified by the user.
  • the question data D1 can be generated using the image of the feature included in the captured image. For example, when the user asks, "What was the tall building you saw about five minutes ago?" or "What was the river you crossed at noon?" A photographed image containing a tall building may be detected from the photographed images of "around noon" and used as the question data D1. As another example, when the user asks, "What was the long tunnel you ran today?" The captured image in the time period may be used as the question data D1.
  • Non-transitory computer-readable media include various types of tangible storage media.
  • Examples of non-transitory computer-readable media include magnetic storage media (eg, flexible discs, magnetic tapes, hard disk drives), magneto-optical storage media (eg, magneto-optical discs), CD-ROMs (Read Only Memory), CD-Rs, CD-R/W, semiconductor memory (eg, mask ROM, PROM (Programmable ROM), EPROM (Erasable PROM), flash ROM, RAM (Random Access Memory)).
  • audio output device 200 server device 111, 211 communication unit 112, 212 storage unit 113 input unit 114, 214 control unit 115 sensor group 116 display unit 117 microphone 118 speaker 119 exterior camera 120 interior camera

Landscapes

  • Engineering & Computer Science (AREA)
  • Radar, Positioning & Navigation (AREA)
  • Remote Sensing (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Automation & Control Theory (AREA)
  • Navigation (AREA)

Abstract

端末装置は、地物に関するユーザの質問音声を取得し、質問音声に基づいて、地物に関する画像を取得する。そして、端末装置は、質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。こうして、端末装置は、地物に関するユーザの質問をサーバ装置へ送信し、回答を求める。

Description

端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体
 本発明は、コンテンツの出力において利用可能な技術に関する。
 ユーザが所持する情報端末の現在位置を取得し、現在位置の周辺に存在する施設の情報をユーザに提供する技術が知られている(例えば、特許文献1を参照)。
特開2018-18299号公報
 例えば、高いビル、有名な川や橋など、特徴的な地物の近くをユーザの車両が通過する場合に、その地物に関する情報を提供することがある。このような場合、特徴的な地物に関するデータは、一般的な観光名所情報などをベースとして用意されていることが多い。このため、実際にその近くを車両で通過してみなければ見ることができない建物など、車両による移動(モビリティ)ならではの特徴的な地物に関する情報を用意し、ユーザに提供することは難しい。
 本発明は、上記の課題を解決するためになされたものであり、特徴的な地物に関する情報を効率的に生成し、ユーザに提供することを主な目的とする。
 請求項に記載の発明は、端末装置であって、地物に関するユーザの質問音声を取得する質問音声取得部と、前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、を備える。
 また、請求項に記載の発明は、情報処理方法であって、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。
 また、請求項に記載の発明は、プログラムであって、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させる。
実施例に係る音声出力システムの構成例を示す図である。 音声出力装置の概略構成を示すブロック図である。 サーバ装置の概略構成を示すブロック図である。 地物情報の例を示す。 実施例による地物情報の作成例を示す。 公開質問の表示例を示す。 地物情報作成処理のフローチャートである。
 本発明の1つの好適な実施形態では、端末装置は、地物に関するユーザの質問音声を取得する質問音声取得部と、前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、を備える。
 上記の端末装置は、地物に関するユーザの質問音声を取得し、質問音声に基づいて、地物に関する画像を取得する。そして、端末装置は、質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。これにより、端末装置は、地物に関するユーザの質問をサーバ装置へ送信し、回答を求めることができる。
 上記の端末装置の一態様は、前記移動体に搭載され、当該移動体の外部の風景を継続的に撮影する撮影部を備え、前記画像取得部は、前記質問音声に含まれる前記地物の特徴情報に基づいて、前記撮影部が撮影した画像から前記地物を含む画像を取得する。この態様では、ユーザの質問音声に含まれる地物の特徴を含む画像を質問データに含めることができる。
 上記の端末装置の他の一態様では、前記画像取得部は、前記質問音声に含まれるタイミング情報に基づいて、前記撮影部が撮影した画像から当該タイミングに対応する画像を取得する。この態様では、ユーザが質問音声により特定したタイミングに対応する画像を質問データに含めることができる。
 上記の端末装置の他の一態様は、上記の端末装置と、サーバ装置とを備える情報提供システムであって、前記サーバ装置は、前記端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供する情報提供部と、他の端末装置から前記質問データに対する回答データを受信する受信部と、受信した回答データに基づいて、前記質問データに関連する地物についての情報を生成して記憶する情報記憶部と、を備える。この態様では、サーバ装置は、端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供し、他の端末装置から質問データに対する回答データを受信し、受信した回答データに基づいて、質問データに関連する地物についての情報を生成して記憶することができる。
 本発明の他の好適な実施形態では、情報処理方法は、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する。これにより、地物に関するユーザの質問をサーバ装置へ送信し、回答を求めることができる。
 本発明の他の好適な実施形態では、プログラムは、地物に関するユーザの質問音声を取得し、前記質問音声に基づいて、前記地物に関する画像を取得し、前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させる。このプログラムをコンピュータで実行することにより、上記のコンテンツ出力装置を実現することができる。このプログラムは記憶媒体に記憶して使用することができる。
 以下、図面を参照して本発明の好適な実施例について説明する。
 <システム構成>
 [全体構成]
 図1は、実施例に係る音声出力システムの構成例を示す図である。本実施例に係る音声出力システム1は、音声出力装置100と、サーバ装置200とを有する。音声出力装置100は、車両Veに搭載される。サーバ装置200は、複数の車両Veに搭載された複数の音声出力装置100と通信する。
 音声出力装置100は、基本的に車両Veの搭乗者であるユーザに対して、経路案内処理や情報提供処理などを行う。例えば、音声出力装置100は、ユーザにより目的地等が入力されると、車両Veの位置情報や指定された目的地に関する情報などを含むアップロード信号S1をサーバ装置200に送信する。サーバ装置200は、地図データを参照して目的地までの経路を算出し、目的地までの経路を示す制御信号S2を音声出力装置100へ送信する。音声出力装置100は、受信した制御信号S2に基づいて、音声出力によりユーザに対する経路案内を行う。
 また、音声出力装置100は、ユーザとの対話により各種の情報をユーザに提供する。例えば、音声出力装置100は、ユーザが情報要求を行うと、その情報要求の内容又は種類を示す情報、及び、車両Veの走行状態に関する情報などを含むアップロード信号S1をサーバ装置200に供給する。サーバ装置200は、ユーザが要求する情報を取得、生成し、制御信号S2として音声出力装置100へ送信する。音声出力装置100は、受信した情報を、音声出力によりユーザに提供する。
 [音声出力装置]
 音声出力装置100は、車両Veと共に移動し、案内経路に沿って車両Veが走行するように、音声を主とした経路案内を行う。なお、「音声を主とした経路案内」は、案内経路に沿って車両Veを運転するために必要な情報をユーザが少なくとも音声のみから把握可能な経路案内を指し、音声出力装置100が現在位置周辺の地図などを補助的に表示することを除外するものではない。本実施例では、音声出力装置100は、少なくとも、案内が必要な経路上の地点(「案内地点」とも呼ぶ。)など、運転に係る様々な情報を音声により出力する。ここで、案内地点は、例えば車両Veの右左折を伴う交差点、その他、案内経路に沿って車両Veが走行するために重要な通過地点が該当する。音声出力装置100は、例えば、車両Veから次の案内地点までの距離、当該案内地点での進行方向などの案内地点に関する音声案内を行う。以後では、案内経路に対する案内に関する音声を「経路音声案内」とも呼ぶ。
 音声出力装置100は、例えば車両Veのフロントガラスの上部、又は、ダッシュボード上などに取り付けられる。なお、音声出力装置100は、車両Veに組み込まれてもよい。
 図2は、音声出力装置100の概略構成を示すブロック図である。音声出力装置100は、主に、通信部111と、記憶部112と、入力部113と、制御部114と、センサ群115と、表示部116と、マイク117と、スピーカ118と、車外カメラ119と、車内カメラ120と、を有する。音声出力装置100内の各要素は、バスライン110を介して相互に接続されている。
 通信部111は、制御部114の制御に基づき、サーバ装置200とのデータ通信を行う。通信部111は、例えば、後述する地図データベース(以下、データベースを「DB」と記す。)4を更新するための地図データをサーバ装置200から受信してもよい。
 記憶部112は、RAM(Random Access Memory)、ROM(Read Only Memory)、不揮発性メモリ(ハードディスクドライブ、フラッシュメモリなどを含む)などの各種のメモリにより構成される。記憶部112には、音声出力装置100が所定の処理を実行するためのプログラムが記憶される。上述のプログラムは、経路音声案内を行うためのアプリケーションプログラム、音楽を再生するためのアプリケーションプログラム、音楽以外のコンテンツ(テレビ等)を出力するためのアプリケーションプログラムなどを含んでもよい。また、記憶部112は、制御部114の作業メモリとしても使用される。なお、音声出力装置100が実行するプログラムは、記憶部112以外の記憶媒体に記憶されてもよい。
 また、記憶部112は、地図DB4を記憶する。地図DB4には、経路案内に必要な種々のデータが記録されている。地図DB4は、例えば、道路網をノードとリンクの組合せにより表した道路データ、及び、目的地、立寄地、又はランドマークの候補となる地物を示す地物情報などを記憶している。また、地図DB4は、有名な建物など、その付近をユーザが通過する際にユーザに提供すべき地物情報を記憶している。地図DB4は、制御部114の制御に基づき、通信部111が地図管理サーバから受信する地図情報に基づき更新されてもよい。
 入力部113は、ユーザが操作するためのボタン、タッチパネル、リモートコントローラ等である。表示部116は、制御部114の制御に基づき表示を行うディスプレイ等である。マイク117は、車両Veの車内の音声、特に運転手の発話などを集音する。スピーカ118は、運転手などに対して、経路案内や情報提供のための音声を出力する。
 センサ群115は、外界センサ121と、内界センサ122とを含む。外界センサ121は、例えば、ライダ、レーダ、超音波センサ、赤外線センサ、ソナーなどの車両Veの周辺環境を認識するための1又は複数のセンサである。内界センサ122は、車両Veの測位を行うセンサであり、例えば、GNSS(Global Navigation Satellite System)受信機、ジャイロセンサ、IMU(Inertial Measurement Unit)、車速センサ、又はこれらの組合せである。なお、センサ群115は、制御部114がセンサ群115の出力から車両Veの位置を直接的に又は間接的に(即ち推定処理を行うことによって)導出可能なセンサを有していればよい。
 車外カメラ119は、車両Veの外部を撮影するカメラである。車外カメラ119は、車両の前方を撮影するフロントカメラのみでもよく、フロントカメラに加えて車両の後方を撮影するリアカメラを含んでもよく、車両Veの全周囲を撮影可能な全方位カメラであってもよい。一方、車内カメラ120は、車両Veの車内の様子を撮影するカメラであり、少なくとも運転席周辺を撮影可能な位置に設けられる。
 制御部114は、CPU(Central Processing Unit)、GPU(Graphics Processing Unit)などを含み、音声出力装置100の全体を制御する。例えば、制御部114は、センサ群115の1又は複数のセンサの出力に基づき、車両Veの位置(進行方向の向きも含む)を推定する。また、制御部114は、入力部113又はマイク117により目的地が指定された場合に、当該目的地までの経路である案内経路を示す経路情報を生成し、当該経路情報と推定した車両Veの位置情報と地図DB4とに基づき、経路音声案内を行う。この場合、制御部114は、案内音声をスピーカ118から出力させる。また、制御部114は、車両Veの現在位置の周辺にある地物に関する地物情報をユーザに提供する。また、制御部114は、表示部116を制御することで、再生中の音楽の情報、映像コンテンツ、又は現在位置周辺の地図などの表示を行う。
 なお、制御部114が実行する処理は、プログラムによるソフトウェアで実現することに限ることなく、ハードウェア、ファームウェア、及びソフトウェアのうちのいずれかの組み合わせ等により実現してもよい。また、制御部114が実行する処理は、例えばFPGA(field-programmable gate array)又はマイコン等の、ユーザがプログラミング可能な集積回路を用いて実現してもよい。この場合、この集積回路を用いて、制御部114が本実施例において実行するプログラムを実現してもよい。このように、制御部114は、プロセッサ以外のハードウェアにより実現されてもよい。
 以上の構成において、制御部114は、質問音声取得部、画像取得部、質問データ生成部の一例であり、車外カメラ119は撮影部の一例である。
 図2に示す音声出力装置100の構成は一例であり、図2に示す構成に対して種々の変更がなされてもよい。例えば、地図DB4を記憶部112が記憶する代わりに、制御部114が通信部111を介して経路案内に必要な情報をサーバ装置200から受信してもよい。他の例では、音声出力装置100は、スピーカ118を備える代わりに、音声出力装置100とは別体に構成された音声出力部と電気的に又は公知の通信手段によって接続することで、当該音声出力部から音声を出力させてもよい。この場合、音声出力部は、車両Veに備えられたスピーカであってもよい。さらに別の例では、音声出力装置100は、表示部116を備えなくともよい。この場合、音声出力装置100は、有線又は無線により、車両Ve等に備えられた表示部、又は、ユーザのスマートフォンなどと電気的に接続することで所定の表示を実行させてもよい。同様に、音声出力装置100は、センサ群115を備える代わりに、車両Veに備え付けられたセンサが出力する情報を、車両VeからCAN(Controller Area Network)などの通信プロトコルに基づき取得してもよい。
 [サーバ装置]
 サーバ装置200は、音声出力装置100から受信する目的地等を含むアップロード信号S1に基づき、車両Veが走行すべき案内経路を示す経路情報を生成する。そして、サーバ装置200は、その後に音声出力装置100が送信するアップロード信号S1が示すユーザの情報要求及び車両Veの走行状態に基づき、ユーザの情報要求に対する情報出力に関する制御信号S2を生成する。そして、サーバ装置200は、生成した制御信号S2を、音声出力装置100に送信する。
 さらに、サーバ装置200は、車両Veのユーザに対する情報提供やユーザとの対話を行うためのコンテンツを生成し、音声出力装置100に送信する。ユーザに対する情報提供は、主として車両Veが所定の運転状況になったことをトリガとしてサーバ装置200側から開始するプッシュ型の情報提供を含む。また、ユーザとの対話は、基本的にユーザからの質問や問いかけから開始するプル型の対話である。但し、ユーザとの対話は、プッシュ型の情報提供から開始する場合もある。
 図3は、サーバ装置200の概略構成の一例を示す図である。サーバ装置200は、主に、通信部211と、記憶部212と、制御部214とを有する。サーバ装置200内の各要素は、バスライン210を介して相互に接続されている。
 通信部211は、制御部214の制御に基づき、音声出力装置100などの外部装置とのデータ通信を行う。記憶部212は、RAM、ROM、不揮発性メモリ(ハードディスクドライブ、フラッシュメモリなどを含む)などの各種のメモリにより構成される。記憶部212は、サーバ装置200が所定の処理を実行するためのプログラムが記憶される。また、記憶部212は、地図DB4を含んでいる。
 制御部214は、CPU、GPUなどを含み、サーバ装置200の全体を制御する。また、制御部214は、記憶部212に記憶されたプログラムを実行することで、音声出力装置100とともに動作し、ユーザに対する経路案内処理や情報提供処理などを実行する。例えば、制御部214は、音声出力装置100から通信部211を介して受信するアップロード信号S1に基づき、案内経路を示す経路情報、又は、ユーザの情報要求に対する情報出力に関する制御信号S2を生成する。そして、制御部214は、生成した制御信号S2を、通信部211により音声出力装置100に送信する。
 以上の構成において、制御部214は、情報提供部及び情報記憶部の一例であり、通信部211は受信部の一例である。
 <プッシュ型の情報提供>
 次に、プッシュ型の情報提供について説明する。プッシュ型の情報提供とは、車両Veが所定の運転状況になった場合に、音声出力装置100がユーザに対してその運転状況に関連する情報を音声出力することをいう。具体的に、音声出力装置100は、前述のようにセンサ群115の出力に基づいて車両Veの運転状況を示す運転状況情報を取得し、サーバ装置200へ送信する。サーバ装置200は、プッシュ型の情報提供を行うためのテーブルデータを記憶部212に記憶している。サーバ装置200は、テーブルデータを参照し、車両Veに搭載された音声出力装置100から受信した運転状況情報が、テーブルデータに規定されているトリガ条件と一致した場合、そのトリガ条件に対応するテキストデータを用いて出力用情報を取得し、音声出力装置100へ送信する。音声出力装置100は、サーバ装置200から受信した出力用情報を音声出力する。こうして、車両Veの運転状況に対応する情報がユーザに対して音声出力される。
 運転状況情報には、例えば、車両Veの位置、当該車両の方位、当該車両Veの位置の周辺の交通情報(速度規制及び渋滞情報等を含む)、現在時刻、目的地等のような、音声出力装置100の各部の機能に基づいて取得可能な少なくとも1つの情報が含まれていればよい。また、運転状況情報には、マイク117により得られた音声(ユーザの発話を除く)、車外カメラ119により撮影された画像、及び、車内カメラ120により撮影された画像のうちのいずれが含まれていてもよい。また、運転状況情報には、通信部111を通じてサーバ装置200から受信した情報が含まれていてもよい。
 <地物情報の提供>
 次に、上記のプッシュ型の情報提供の一例として、地物情報の提供について説明する。地物情報の提供とは、車両Veが走行している経路上又は経路の周辺に存在する地物に関する情報をユーザに提供することを言う。具体的に、本実施例では、サーバ装置200は、車両Veの現在位置周辺にある地物に関する情報をプッシュ型の情報提供によりユーザに提供する。
 図4は、地物情報の例を示す。地物情報は、POI(Point Of Interest)データとも呼ばれる。図4の例では、地物情報は、地物毎に付与された地物IDに対応付けて、位置(緯度、経度)、エリア名、名称、カテゴリー、特徴などを記憶している。
 「位置(緯度、経度)」は、地物の位置情報である。「エリア名」は、地域名など、その地物が属する地理的なエリアを示す情報である。「名称」は、その地物の名称である。「カテゴリー」は、その地物を示す大きなカテゴリー、即ち分類である。「特徴」は、その地物の特徴である。
 サーバ装置200は、ユーザの車両Veに搭載された音声出力装置100からのアップロード信号S1に基づいて、車両Veの現在位置を取得し、地図DB4に含まれる地物情報を参照して、ユーザの車両Veの現在位置周辺の地物を検索する。具体的に、サーバ装置200は、地物情報から、車両Veの現在位置から所定範囲内に存在する地物を選択し、プッシュ型の情報提供により、その地物に関する情報をユーザに提供する。例えば図4の例では、ユーザの車両VeがB駅付近にいる場合、サーバ装置200は、地物ID「060」の地物について、「この近くにXX市役所があります。」などの音声出力を行う。これにより、ユーザは、車両Veの走行中に、現在位置周辺の有名な地物や特徴的な地物に関する情報を受け取ることができる。
 <地物情報の作成方法>
 (概要)
 次に、図4に示すような地物情報の作成方法について説明する。一般的に、観光名所などにある特徴的な地物に関する地物情報は、観光情報に基づいて作成することができる。しかし、観光情報は一般的な観光名所に関する情報しか含まないため、実際に車両などにより近くを通らなければ見ることができないような地物については、地物情報を作成することができない。
 そこで、本実施例では、実際に車両による走行中にユーザが目にした地物について、ユーザがサーバ装置200へ質問や問合せ(以下、まとめて「質問」と呼ぶ。)を行う。この質問は、その地物の詳細情報を要求する音声出力である。サーバ装置200は、あるユーザの質問を他のユーザに提示して回答を求め、得られた回答に基づいて地物情報を作成して地図DB4に記憶する。これにより、一般的な観光情報には含まれていない情報、具体的には実際にその場所に行ってみなければ見ることができない地物などについて地物情報を作成することができる。
 (地物情報の作成例)
 図5は、本実施例による地物情報の作成例を示す。なお、以下では、地物に関する質問を行うユーザAは音声出力装置100aを使用し、ユーザAの質問に対すて回答するユーザBは音声出力装置100bを使用するものとする。図示のように、ユーザAは、車両Veでの走行中に前方に高いビルを見つけた場合、「あの高いビルは何?」と発話する。音声出力装置100aは、この質問の音声を取得し、質問データD1を生成してサーバ装置200へ送信する。
 詳しくは、音声出力装置100aは、ユーザAの質問をマイク117で集音し、ユーザAが質問したときの車両Veの位置情報を取得する。また、音声出力装置100aは、ユーザAが質問したときの車両前方の撮影画像を車外カメラ119から取得する。そして、音声出力装置100aは、ユーザAの質問の音声データと、ユーザAが質問したときの車両Veの位置情報と、ユーザAが質問したときの撮影画像とを含む質問データD1をサーバ装置200へ送信する。
 サーバ装置200は、音声出力装置100aから質問データD1を受信すると、質問データD1に基づいて公開質問データD2を生成し、ユーザA以外の複数のユーザの音声出力装置100へ送信する。この際、サーバ装置200は、質問データD1に含まれる質問の内容を公開質問データD2に含める。また、サーバ装置200は、質問データD1に含まれる車両Veの位置情報に基づいて、質問の対象となっている地物の場所に関する情報を含める。さらに、サーバ装置200は、質問データD1に含まれる撮影画像を公開質問データD2に含める。
 サーバ装置200から公開質問データD2を受信した音声出力装置100は、公開質問を表示部116に表示する。図6は、公開質問の表示例を示す。この表示例70は、地図情報71と、公開質問72とを含む。図6の例では、公開質問72は、地物の場所72aと、質問72bと、撮影画像72cとを含む。
 地物の場所72aは、公開質問データD2に含まれる地物の場所を表示したものである。この例では、サーバ装置200は、ユーザAの音声出力装置100aからの質問データD1に含まれる車両Veの位置情報に基づいて、質問の対象となっている地物が「A駅」の近くにあると判定し、公開質問データD2に含まれる地物の場所を「A駅付近」と設定している。
 質問72bは、公開質問データD2に含まれるユーザAの質問の内容を文字で示したものである。なお、サーバ装置200は、質問72bを文字で表示することに加えて、ユーザAの質問の音声データを公開質問データD2に含めて音声出力装置100へ送信してもよい。この場合、音声出力装置100は、公開質問データD2に含まれる音声データを音声出力することができる。撮影画像72cは、公開質問データD2に含まれる撮影画像であり、具体的には、ユーザAが質問を発話したときに音声出力装置100の車外カメラ119が撮影した画像である。
 公開質問を受け取ったユーザBが質問に対する回答を発話すると、ユーザBの音声出力装置100bは、回答の音声を取得し、回答データD3としてサーバ装置200へ送信する。図5の例では、ユーザBは、公開質問の対象となる地物について「Aシティビルです。」と回答したため、この音声データが回答データD3としてサーバ装置200へ送信される。
 サーバ装置200は、ユーザBから回答データD3を受信すると、その内容を地物情報として地図DB4に記憶する。これにより、例えば図4の地物ID「090」のような地物情報が作成され、地図DB4に記憶される。その後は、サーバ装置200は、記憶された地物情報を、その地物の近くを通る他のユーザに対して提供することが可能となる。なお、サーバ装置200は、公開質問に対して回答を提供したユーザに対して何らかのインセンティブを与えることにより、公開質問に対するユーザの回答を促進してもよい。
 また、サーバ装置200は、ユーザBからの回答データD3を、サーバ装置200からの回答データD4としてユーザAの音声出力装置100aへ送信する。音声出力装置100aは、受信した回答データD4を再生することにより、ユーザAに回答を提供することができる。
 このように、あるユーザの質問と、それに対する別のユーザの回答に基づいて地物情報を作成することにより、地物情報を効率的に作成し、サーバ装置200に記憶されている地物情報を充実させることができる。また、この方法によれば、車両Veで移動しているユーザからの質問に基づいて地物情報が作成されていくので、実際にその場所に行かなければ目にすることができない地物など、通常の観光情報などからは得られない地物情報を作成することが可能となる。
 (地物情報作成処理)
 図7は、地物情報作成処理のフローチャートである。この処理は、音声出力装置100の制御部114及びサーバ装置200の制御部214が、それぞれ予め用意されたプログラムを実行することにより実現される。なお、以下の説明においても、ユーザAが音声出力装置100aを用いて地物に関して質問し、ユーザBが音声出力装置100bを用いて質問に対して回答するものとする。
 まず、ユーザAが地物に関する質問を発話すると、音声出力装置100aはその質問を取得する(ステップS11)。具体的には、音声出力装置100aは、マイク117によりユーザの音声を取得し、その音声が地物に関する質問であることを認識する。例えば、音声出力装置100aは、ユーザの音声に含まれる「〇〇は何?」などの語に基づいて、その音声が質問であると認識することができる。そして、音声出力装置100aは、ユーザAが発した質問の音声データと、ユーザAが質問したときの車両Veの位置情報と、ユーザAが質問したときに車外カメラ119が撮影していた撮影画像とを含む質問データD1を生成し、サーバ装置200へ送信する(ステップS12)。
 サーバ装置200は、音声出力装置100aから質問データD1を取得すると(ステップS13)、質問データD1に基づいて公開質問データD2を生成し、複数のユーザの音声出力装置100へ送信する(ステップS14)。前述のように、公開質問データD2は、質問の内容と、質問の対象となっている地物の場所と、その地物の撮影画像とを含む。
 サーバ装置200から送信された公開質問データD2は、ユーザBの音声出力装置100bを含む複数の音声出力装置100により受信される。ユーザBの音声出力装置100bは、公開質問データD2を受信し、表示部116に公開質問を表示する(ステップS15)。これにより、図6に例示するように公開質問が表示される。ユーザBが、質問の対象となる地物について回答を発話すると、音声出力装置100bはユーザBによる回答を取得し、回答データD3をサーバ装置200へ送信する(ステップS16)。
 サーバ装置200は、回答データD3を受信し、記憶部212の地図DB4内に地物情報として記憶する(ステップS17)。これにより、ユーザAが質問した地物に関する地物情報が地図DB4に追加される。次に、サーバ装置200は、音声出力装置100bから受信した回答データD3を、回答データD4として質問者であるユーザAの音声出力装置100aへ送信する(ステップS18)。
 ユーザAの音声出力装置100aは、サーバ装置200から回答データD4を受信し、出力する(ステップS19)。なお、音声出力装置100aは、基本的に回答データD4を音声出力するが、音声出力に加えて、回答を示す文字や文章などを表示部116に表示してもよい。こうして、地物情報作成処理は終了する。
 [変形例]
 以下、上記の実施例の変形例について説明する。以下の変形例は、適宜組み合わせて実施例に適用することができる。
 (変形例1)
 質問者の音声出力装置100は、ユーザの質問に基づいて質問データD1を生成する際、ユーザの質問に含まれる特徴的な語と、撮影画像に含まれる特徴的な物体とをマッチングすることにより、質問の対象となっている地物を特定してもよい。例えば、ユーザの質問が「あの黄色い物体は何?」であった場合、音声出力装置100は、ユーザの質問中の「黄色い物体」を特徴的な語として抽出し、ユーザが質問したタイミングで撮影された一連の画像から、黄色い物体を含む撮影画像を検出する。そして、音声出力装置100は、黄色い物体が中央に来るように撮影画像を拡大したり、トリミングしたりして、質問の対象となっている地物にフォーカスした撮影画像を作成して質問データD1に含めてもよい。これにより、公開質問に対して回答するユーザは、公開質問に含まれる画像に基づいて、質問の対象となっている地物を容易かつ明確に認識することができる。
 (変形例2)
 上記の実施例では、質問者であるユーザは、その時に見えている地物についてリアルタイムで質問しているが、その代わりに、ユーザが過去に見た地物について質問できるようにしてもよい。この場合、音声出力装置100は、車外カメラ119による撮影画像を所定時間分記憶部112に記憶しておく。例えば、車両Veがあるビルの付近を通過した後で、ユーザが「さっきの高いビルは何?」と質問した場合、音声出力装置100は、記憶部112に記憶されている撮影画像を、ユーザが質問した時刻から遡って検索し、質問の内容と合致する撮影画像、即ち、高いビルが映っている撮影画像を取得して質問データD1に含めればよい。これにより、ユーザは運転中にリアルタイムで質問しなくてもよく、例えば、信号待ちで停車している間など、運転に余裕があるときに質問することが可能となる。
 このように過去に見た地物に関して質問を行う場合、ユーザはその地物を見た時間を特定する情報を質問音声に含めることができる。これにより、ユーザがある程度幅を持った時間帯や特定の時間帯に見た地物に関する質問をしても、音声出力装置100は、過去の撮影画像を参照し、ユーザが特定した時間帯の撮影画像に含まれる地物の画像を用いて質問データD1を生成することができる。一例として、ユーザが「5分ぐらい前に見た高いビルは何?」とか、「お昼頃に渡った川は何?」と質問した場合、音声出力装置100は、「5分ぐらい前」又は「お昼頃」の撮影画像から高いビルを含む撮影画像を検出して質問データD1に使用すればよい。他の例として、ユーザが「今日走った長いトンネルは何?」と質問した場合、音声出力装置100は、その日の車両Veの走行履歴に基づいて長いトンネルを走った時間帯を特定し、その時間帯の撮影画像を質問データD1に使用すればよい。
 (変形例3)
 上述した実施例において、プログラムは、様々なタイプの非一時的なコンピュータ可読媒体(non-transitory computer readable medium)を用いて格納され、コンピュータである制御部等に供給することができる。非一時的なコンピュータ可読媒体は、様々なタイプの実体のある記憶媒体(tangible storage medium)を含む。非一時的なコンピュータ可読媒体の例は、磁気記憶媒体(例えばフレキシブルディスク、磁気テープ、ハードディスクドライブ)、光磁気記憶媒体(例えば光磁気ディスク)、CD-ROM(Read Only Memory)、CD-R、CD-R/W、半導体メモリ(例えば、マスクROM、PROM(Programmable ROM)、EPROM(Erasable PROM)、フラッシュROM、RAM(Random Access Memory))を含む。
 以上、実施形態を参照して本願発明を説明したが、本願発明は上記実施形態に限定されるものではない。本願発明の構成や詳細には、本願発明のスコープ内で当業者が理解し得る様々な変更をすることができる。すなわち、本願発明は、請求の範囲を含む全開示、技術的思想にしたがって当業者であればなし得るであろう各種変形、修正を含むことは勿論である。また、引用した上記の特許文献等の各開示は、本書に引用をもって繰り込むものとする。
 100 音声出力装置
 200 サーバ装置
 111、211 通信部
 112、212 記憶部
 113 入力部
 114、214 制御部
 115 センサ群
 116 表示部
 117 マイク
 118 スピーカ
 119 車外カメラ
 120 車内カメラ

Claims (7)

  1.  地物に関するユーザの質問音声を取得する質問音声取得部と、
     前記質問音声に基づいて、前記地物に関する画像を取得する画像取得部と、
     前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する質問データ生成部と、
     を備える端末装置。
  2.  前記移動体に搭載され、当該移動体の外部の風景を継続的に撮影する撮影部を備え、
     前記画像取得部は、前記質問音声に含まれる前記地物の特徴情報に基づいて、前記撮影部が撮影した画像から前記地物を含む画像を取得する請求項1に記載の端末装置。
  3.  前記画像取得部は、前記質問音声に含まれるタイミング情報に基づいて、前記撮影部が撮影した画像から当該タイミングに対応する画像を取得する請求項2に記載の端末装置。
  4.  請求項1乃至3のいずれか一項に記載の端末装置と、前記サーバ装置とを備える情報提供システムであって、
     前記サーバ装置は、
     前記端末装置から受信した質問データを他の端末装置に閲覧可能な状態で提供する情報提供部と、
     他の端末装置から前記質問データに対する回答データを受信する受信部と、
     受信した回答データに基づいて、前記質問データに関連する地物についての情報を生成して記憶する情報記憶部と、を備える情報提供システム。
  5.  地物に関するユーザの質問音声を取得し、
     前記質問音声に基づいて、前記地物に関する画像を取得し、
     前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する情報処理方法。
  6.  地物に関するユーザの質問音声を取得し、
     前記質問音声に基づいて、前記地物に関する画像を取得し、
     前記質問音声を取得した時点の移動体の位置情報と、取得された画像とを含む質問データを生成し、サーバ装置へ送信する処理をコンピュータに実行させるプログラム。
  7.  請求項6に記載のプログラムを記憶した記憶媒体。
PCT/JP2023/006490 2022-02-25 2023-02-22 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体 WO2023163047A1 (ja)

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2022028214 2022-02-25
JP2022-028214 2022-02-25

Publications (1)

Publication Number Publication Date
WO2023163047A1 true WO2023163047A1 (ja) 2023-08-31

Family

ID=87766047

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2023/006490 WO2023163047A1 (ja) 2022-02-25 2023-02-22 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体

Country Status (1)

Country Link
WO (1) WO2023163047A1 (ja)

Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021653A (ja) * 2012-07-17 2014-02-03 Aisin Aw Co Ltd 情報共有システム、情報共有方法及び端末装置
JP2015041197A (ja) * 2013-08-21 2015-03-02 三菱電機株式会社 表示制御装置
JP2017122640A (ja) * 2016-01-07 2017-07-13 トヨタ自動車株式会社 情報制御装置
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Patent Citations (4)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2014021653A (ja) * 2012-07-17 2014-02-03 Aisin Aw Co Ltd 情報共有システム、情報共有方法及び端末装置
JP2015041197A (ja) * 2013-08-21 2015-03-02 三菱電機株式会社 表示制御装置
JP2017122640A (ja) * 2016-01-07 2017-07-13 トヨタ自動車株式会社 情報制御装置
JP2020126166A (ja) * 2019-02-05 2020-08-20 本田技研工業株式会社 エージェントシステム、情報処理装置、情報処理方法、およびプログラム

Similar Documents

Publication Publication Date Title
US20080147323A1 (en) Vehicle navigation system and method
US11176948B2 (en) Agent device, agent presentation method, and storage medium
US11450316B2 (en) Agent device, agent presenting method, and storage medium
WO2005024346A1 (ja) ナビゲーション手段を有する携帯型通信装置
US20070115433A1 (en) Communication device to be mounted on automotive vehicle
JP2023164659A (ja) 情報処理装置、情報出力方法、プログラム及び記憶媒体
JP2020060861A (ja) エージェントシステム、エージェント方法、およびプログラム
JP2023105143A (ja) 情報処理装置、情報出力方法、プログラム及び記憶媒体
WO2023163047A1 (ja) 端末装置、情報提供システム、情報処理方法、プログラム及び記憶媒体
WO2023163045A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023162192A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023073949A1 (ja) 音声出力装置、サーバ装置、音声出力方法、制御方法、プログラム及び記憶媒体
WO2023286826A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023063405A1 (ja) コンテンツ生成装置、コンテンツ生成方法、プログラム及び記憶媒体
WO2023286827A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023163197A1 (ja) コンテンツ評価装置、コンテンツ評価方法、プログラム及び記憶媒体
JP2020060623A (ja) エージェントシステム、エージェント方法、およびプログラム
WO2023062816A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023062814A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
WO2023062817A1 (ja) 音声認識装置、制御方法、プログラム及び記憶媒体
WO2023112148A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
US20240134596A1 (en) Content output device, content output method, program and storage medium
WO2023162189A1 (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体
WO2023112147A1 (ja) 音声出力装置、音声出力方法、プログラム及び記憶媒体
JP2023011136A (ja) コンテンツ出力装置、コンテンツ出力方法、プログラム及び記憶媒体

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 23760046

Country of ref document: EP

Kind code of ref document: A1