WO2021240889A1 - 情報処理装置、情報処理方法、およびプログラム - Google Patents

情報処理装置、情報処理方法、およびプログラム Download PDF

Info

Publication number
WO2021240889A1
WO2021240889A1 PCT/JP2021/004073 JP2021004073W WO2021240889A1 WO 2021240889 A1 WO2021240889 A1 WO 2021240889A1 JP 2021004073 W JP2021004073 W JP 2021004073W WO 2021240889 A1 WO2021240889 A1 WO 2021240889A1
Authority
WO
WIPO (PCT)
Prior art keywords
information
user
information processing
collation
unit
Prior art date
Application number
PCT/JP2021/004073
Other languages
English (en)
French (fr)
Inventor
荘太 松澤
綾花 西
雅友 倉田
Original Assignee
ソニーグループ株式会社
Priority date (The priority date is an assumption and is not a legal conclusion. Google has not performed a legal analysis and makes no representation as to the accuracy of the date listed.)
Filing date
Publication date
Application filed by ソニーグループ株式会社 filed Critical ソニーグループ株式会社
Priority to CN202180036621.3A priority Critical patent/CN115668269A/zh
Priority to US17/921,224 priority patent/US20230162533A1/en
Priority to JP2022527502A priority patent/JPWO2021240889A1/ja
Publication of WO2021240889A1 publication Critical patent/WO2021240889A1/ja

Links

Images

Classifications

    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V40/00Recognition of biometric, human-related or animal-related patterns in image or video data
    • G06V40/20Movements or behaviour, e.g. gesture recognition
    • G06V40/23Recognition of whole body movements, e.g. for sport training
    • G06V40/25Recognition of walking or running movements, e.g. gait recognition
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06FELECTRIC DIGITAL DATA PROCESSING
    • G06F21/00Security arrangements for protecting computers, components thereof, programs or data against unauthorised activity
    • G06F21/30Authentication, i.e. establishing the identity or authorisation of security principals
    • G06F21/31User authentication
    • G06F21/32User authentication using biometric data, e.g. fingerprints, iris scans or voiceprints
    • GPHYSICS
    • G01MEASURING; TESTING
    • G01PMEASURING LINEAR OR ANGULAR SPEED, ACCELERATION, DECELERATION, OR SHOCK; INDICATING PRESENCE, ABSENCE, OR DIRECTION, OF MOVEMENT
    • G01P15/00Measuring acceleration; Measuring deceleration; Measuring shock, i.e. sudden change of acceleration
    • G01P15/18Measuring acceleration; Measuring deceleration; Measuring shock, i.e. sudden change of acceleration in two or more dimensions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q20/00Payment architectures, schemes or protocols
    • G06Q20/38Payment protocols; Details thereof
    • G06Q20/40Authorisation, e.g. identification of payer or payee, verification of customer or shop credentials; Review and approval of payers, e.g. check credit lines or negative lists
    • G06Q20/401Transaction verification
    • G06Q20/4014Identity check for transactions
    • G06Q20/40145Biometric identity checks
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06QINFORMATION AND COMMUNICATION TECHNOLOGY [ICT] SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES; SYSTEMS OR METHODS SPECIALLY ADAPTED FOR ADMINISTRATIVE, COMMERCIAL, FINANCIAL, MANAGERIAL OR SUPERVISORY PURPOSES, NOT OTHERWISE PROVIDED FOR
    • G06Q50/00Information and communication technology [ICT] specially adapted for implementation of business processes of specific business sectors, e.g. utilities or tourism
    • G06Q50/10Services
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/20Analysis of motion
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/50Depth or shape recovery
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T7/00Image analysis
    • G06T7/70Determining position or orientation of objects or cameras
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06VIMAGE OR VIDEO RECOGNITION OR UNDERSTANDING
    • G06V20/00Scenes; Scene-specific elements
    • G06V20/50Context or environment of the image
    • G06V20/52Surveillance or monitoring of activities, e.g. for recognising suspicious objects
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30196Human being; Person
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30241Trajectory
    • GPHYSICS
    • G06COMPUTING; CALCULATING OR COUNTING
    • G06TIMAGE DATA PROCESSING OR GENERATION, IN GENERAL
    • G06T2207/00Indexing scheme for image analysis or image enhancement
    • G06T2207/30Subject of image; Context of image processing
    • G06T2207/30244Camera pose

Definitions

  • This disclosure relates to information processing devices, information processing methods, and programs.
  • Patent Document 1 discloses an indoor positioning method for calculating position information using a movable camera provided indoors and a mobile terminal having a PDR (Pedestrian Dead Reckoning) function possessed by a pedestrian. ..
  • Patent Document 1 in order to cover a wide range, the movable camera is rotated in the direction of the position information obtained from the pedestrian's mobile terminal to take a picture, but the position information contains an error. In some cases, it becomes difficult to control correctly. Further, the correspondence between the person in the angle of view and the user is not considered.
  • an information processing device an information processing method, and a program capable of accurately discriminating a person appearing in a captured image.
  • the movement information acquired from the information detected by the information processing terminal is collated with the movement information of one or more persons acquired from the captured image of the user carrying the information processing terminal, and Control to associate the person in the captured image with the user based on the collation between the state information of the user acquired from the information processing terminal and the state information of one or more persons acquired from the captured image.
  • the processor collates the movement information acquired from the information detected by the information processing terminal with the movement information of one or more persons acquired from the captured image of the user carrying the information processing terminal. , And, based on the collation between the state information of the user acquired from the information processing terminal and the state information of the one or more persons acquired from the captured image, the person and the user appearing in the captured image.
  • the computer collates the movement information acquired from the information detected by the information processing terminal with the movement information of one or more persons acquired from the captured image of the user carrying the information processing terminal. , And, based on the collation between the state information of the user acquired from the information processing terminal and the state information of the one or more persons acquired from the captured image, the person and the user appearing in the captured image.
  • a program to function as a control unit that controls the association.
  • FIG. 1 is a diagram illustrating an outline of an information processing system according to an embodiment of the present disclosure.
  • the movement trajectory of a user who visits a facility such as a shopping mall in the facility is recorded by sensor data provided in an information processing terminal carried by the user and images of one or more environmental cameras arranged in the facility. It is possible to detect with high accuracy by using. Further, by identifying the user in the facility by collating the movement locus, it is possible to detect the movement locus in the facility of the visitor while maintaining the anonymity of the user.
  • the movement locus is a movement path, and more specifically includes position information (for example, global coordinates) and time information.
  • the user terminal 30A (an example of an information processing terminal) possessed by the user A has a movement locus based on the sensing data, for example, pedestrian autonomous navigation (PDR: Pedestrian Dead Reckoning) (indoor position).
  • PDR pedestrian autonomous navigation
  • the movement vector of the user A is calculated by (an example of positioning).
  • the alphabet A is added after the reference numeral to indicate that the user terminal 30 is possessed by the user A, the configuration of the user terminal 30A is the same as that of the user terminal 30 described later.
  • the environmental camera 20 provided in the facility calculates the movement vector of the user within the angle of view by, for example, performing face detection and body detection from the captured image.
  • the environmental camera 20 instead of the environmental camera 20 consciously shooting the target user, it may be assumed that the user is reflected in the image shot by the environmental camera 20.
  • a specific face is tracked and photographed by the environment camera 20, or a specific person is tracked and photographed by a camera of a self-propelled robot or the like, and the photograph is intentionally photographed.
  • the camera arranged in the facility continuously captures the surrounding environment, it is referred to as an "environmental camera".
  • the "environmental camera” is also called a surveillance camera.
  • the environmental camera is not limited to a fixed camera, and may be a camera mounted on a moving body such as a self-propelled robot or a drone. Further, a wide-angle lens may be used for the camera.
  • a user ID an example of an identification character string that identifies a user, for example, a numerical value
  • authentication information a person is discriminated from the appearance
  • Information that can be created is associated with it.
  • it becomes possible to provide various services such as performing payment processing using authentication information. Since the user A automatically registers his / her own authentication information just by walking in the facility, he / she can save the trouble of registering himself / herself. The privacy of the user A can be protected by deleting the automatically registered authentication information when the user A leaves the facility.
  • PDR used as an indoor positioning means may accumulate errors with the passage of time due to the characteristic of calculating relative movement vectors.
  • the absolute position of the user terminal that is, the user in the room can be detected with high accuracy.
  • facilities include supermarkets, convenience stores, bookstores, restaurants, apparel stores, retail stores, spas (hot bath facilities), libraries, public halls, schools, stations, hotels, hospitals, indoor / outdoor events.
  • venues movie theaters, resort facilities, sports facilities, amusement parks, theme parks, parking lots, parks, or shrines and temples are assumed.
  • the user terminal 30 obtains the movement information (specifically, the movement locus) of the user (carrying the user terminal 30) based on the sensing data detected by the motion sensors such as the acceleration sensor, the angular velocity sensor, and the magnetic sensor. calculate.
  • the motion sensor may include an IMU (Inertial Measurement Unit) that detects acceleration and angular velocity of three axes. More specifically, the movement vector is calculated by, for example, PDR.
  • PDR is a positioning means capable of obtaining relative movement information both indoors and outdoors based on acceleration, angular velocity, and magnetism.
  • the environment camera 20 performs face detection, body detection, feature point detection, posture detection, etc. (that is, detection of a moving body) for each frame from the captured image, and the same person (same moving body) reflected in each frame.
  • the relative movement trajectory is calculated from the change in position (that is, movement). When a plurality of people are shown in the captured image, the movement trajectory of each person is calculated.
  • FIG. 2 is a diagram illustrating collation of movement vectors according to the present embodiment.
  • the collation of the movement vector as shown in FIG. 2, for example, when the movement vector calculated by using the PDR in the user terminal 30 and the movement vectors A, B, and C calculated from the captured image in the environment camera 20 are present.
  • the movement vector most similar to the movement vector derived from PDR is determined.
  • similarity for example, cos similarity may be used. Further, not only the cos similarity but also known techniques can be applied to the collation.
  • the collation of state information is, for example, collation of walking steps, collation of behavior information, collation of mutual positional relationships, and the like. Details will be described later.
  • the system according to the present disclosure realizes a positioning function capable of correctly associating an individual (individual user terminal) even if there are a plurality of users within the same angle of view.
  • this system it is possible to automatically register authentication information (for example, face information, skeletal information (height and other features related to body structure, etc.), clothing information, etc.), and users can use various services. Can be provided to.
  • FIG. 4 is a diagram showing an example of the configuration of the information processing system according to the present embodiment.
  • the information processing system according to the present embodiment includes an environment camera 20, a user terminal 30, and a server 10.
  • a plurality of environmental cameras 20 are installed in the facility, for example, and the installation location is known to the server 10. Further, each environment camera 20 has a camera ID (an example of an identification character string for identifying each camera).
  • the user terminal 30 is an information processing terminal carried by a user who visits the facility.
  • the user terminal 30 may be, for example, a smartphone, a mobile phone terminal, a tablet terminal, a wearable device worn on the user's body, or the like.
  • the user may register the system in advance using the user terminal 30, and the user ID may be known to the server 10. The registration of this system may be performed by installing a predetermined application on the user terminal 30, or may be performed from a predetermined website.
  • the server 10 receives the camera ID and the analysis result of the captured image (movement vector of each person in the angle of view, state information, etc.) from the environmental camera 20 via the network 40 (for example, a dedicated line in the facility). Further, the server 10 has an analysis result (movement vector, state based on PDR) of the user ID and sensing data from the user terminal 30 via the network 41 (for example, Wi-Fi (registered trademark), Bluetooth (registered trademark), Internet line). Information etc.) is received. Further, the server 10 collates the movement vector and the state information, and acquires the movement route in the user's facility with high accuracy. The server 10 can perform promotion by notifying the user terminal 30 of appropriate information according to the position and behavior of the user and by giving a coupon.
  • the network 40 for example, a dedicated line in the facility.
  • the server 10 has an analysis result (movement vector, state based on PDR) of the user ID and sensing data from the user terminal 30 via the network 41 (for example, Wi-Fi (registered trademark),
  • the server 10 can automatically register authentication information such as a face image extracted from a captured image in association with a user ID.
  • the server 10 can provide various services by face recognition or the like in the facility. For example, if the user's credit card information is registered in advance, it is possible to make a payment by face authentication (without using the user terminal 30) in the facility.
  • the server 10 may be composed of a plurality of devices.
  • the network 40 and the network 41 may be the same.
  • FIG. 5 is a block diagram showing an example of the configuration of the environmental camera 20 according to the present embodiment.
  • the environment camera 20 has a control unit 200, a beacon transmission unit 210, an image pickup unit 220, a distance measurement unit 230, a communication unit 240, and a storage unit 250.
  • Control unit 200 The control unit 200 functions as an arithmetic processing unit and a control device, and controls the overall operation in the environment camera 20 according to various programs.
  • the control unit 200 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor. Further, the control unit 200 may include a ROM (Read Only Memory) for storing programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) for temporarily storing parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • control unit 200 includes a human body region extraction unit 201, a moving body extraction unit 202, a movement vector calculation unit 203, a walking step extraction unit 204, a positional relationship extraction unit 205, an action information extraction unit 206, and an authentication unit. It also functions as an information extraction unit 207.
  • the human body region extraction unit 201 extracts an region in which the human body is reflected for each captured image (each frame of a moving image) acquired from the imaging unit 220.
  • the mobile body extraction unit 202 compares a plurality of frames, extracts the mobile body based on the human body region data, and assigns a mobile body number.
  • the moving body extraction unit 202 compares each frame arranged in time series based on the face and body feature points detected from the human body region, extracts a moving person (moving body), and extracts the moving body. Give a number.
  • Such mobile body extraction can be performed every t seconds of video.
  • the t seconds and minutes may be, for example, the time and minutes corresponding to the transmission interval of the beacon periodically transmitted from the beacon transmission unit 210. More specifically, it may be, for example, the same time as the transmission interval, half the time of the transmission interval, or the time including a plurality of transmission intervals.
  • the movement vector calculation unit 203 calculates the movement vector of each moving object based on the captured image. For example, the movement vector calculation unit 203 extracts the change in the position of each moving object in the video for t seconds, converts the locus connecting the changes into global coordinates, and calculates the movement vector. The movement vector calculation unit 203 outputs the movement vector information for each moving body number.
  • the walking step extraction unit 204 analyzes the timing of the walking step of each moving object (for example, the contact timing of the foot) in the video for t seconds.
  • the walking step extraction unit 204 outputs walking step information for each moving object number.
  • the positional relationship extraction unit 205 analyzes the positional relationship (mutual positional relationship) of a plurality of moving objects reflected in the captured image.
  • the positional relationship extraction unit 205 may analyze the captured image to analyze the positional relationship of a plurality of moving objects, or indicate the distance between each moving object acquired by the ranging unit 230 and the environmental camera 20.
  • the positional relationship of a plurality of moving objects may be analyzed with reference to the distance information.
  • the positional relationship extraction unit 205 may analyze changes in the positional relationship in the video for t seconds.
  • the positional relationship extraction unit 205 outputs mutual positional relationship information (with surrounding moving objects) for each moving object number.
  • the behavior information extraction unit 206 extracts the behavior information of a plurality of moving objects reflected in the captured image (also referred to as behavior recognition).
  • the behavior information extraction unit 206 analyzes the captured image and extracts behaviors such as stationary, walking, running, stairs, elevators, and escalators. Known techniques may be applied to the extraction of behavioral information.
  • the action information extraction unit 206 outputs the action information for each mobile body number.
  • the authentication information extraction unit 207 extracts information that can be used for user authentication (information that can identify the user from the appearance; referred to as authentication information in the present specification) from the captured image. For example, information such as face, body, skeleton, clothes, or walking method can be extracted as authentication information. The authentication information may be featured. The authentication information extraction unit 207 outputs authentication information for each mobile number.
  • the control unit 200 controls to transmit the movement vector information, walking step information, mutual positional relationship information, and action information for each moving body number described above from the communication unit 240 to the server 10 together with the camera ID and the imaging time.
  • the timing of transmission is not particularly limited. Further, the control unit 200 may also transmit the captured image to the server 10.
  • the beacon transmitting unit 210 has a function of transmitting a beacon, which is an example of a signal for triggering the user terminal 30.
  • a BLE (Bluetooth Low Energy) beacon is transmitted.
  • the transmission timing of the beacon is not particularly limited, but for example, the beacon transmission unit 210 continuously transmits at predetermined intervals. Further, it is desirable that the beacon reaches at least the user terminal 30 located within the angle of view of the environmental camera 20.
  • the image pickup unit 220 photoelectrically converts the image pickup light obtained by the lens system including the image pickup lens, the diaphragm, the zoom lens, the focus lens, the drive system that causes the lens system to perform the focus operation and the zoom operation, and the lens system. It has a solid-state image sensor array or the like that generates an image pickup signal.
  • the solid-state image sensor array may be realized by, for example, a CCD (Charge Coupled Device) sensor array or a CMOS (Complementary Metal Oxide Semiconductor) sensor array.
  • the distance measuring unit 230 has a function of acquiring distance information indicating the distance to and from the user terminal 30.
  • the distance measuring method is not particularly limited, but for example, distance measurement using Bluetooth RSSI or distance measurement using UWB (Ultra-Wide Band) may be used.
  • the distance measuring unit 230 may calculate the distance, or the distance measuring unit 230 may receive the distance information calculated on the user terminal 30 side. Further, the distance measuring unit 230 may be a depth sensor or the like that can acquire the distance to the moving body (user).
  • the communication unit 240 is a communication module for transmitting and receiving data to and from other devices.
  • the communication unit 240 connects to the server 10 via the network 40 and transmits / receives data.
  • the storage unit 250 stores a program or the like for the control unit 200 to execute various processes. Further, the storage unit 250 includes a storage device including a storage medium, a recording device for recording data on the storage medium, a reading device for reading data from the storage medium, a deletion device for deleting data recorded on the storage medium, and the like. .. Further, the storage unit 250 is realized by a ROM (Read Only Memory) that stores programs and arithmetic parameters used for processing of the control unit 200, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate. May be good.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the configuration of the environmental camera 20 according to the present embodiment has been specifically described above.
  • the configuration of the environmental camera 20 according to this embodiment is not limited to the example shown in FIG.
  • the environment camera 20 does not have to have the ranging unit 230.
  • the configuration may include at least one of the walking step extraction unit 204, the positional relationship extraction unit 205, and the behavior information extraction unit 206.
  • control unit 200 performs processing up to the processing by the moving body extraction unit 202, transmits the processing result and the captured image to the server 10, and in the server 10, the movement vector calculation unit 203, the walking step extraction unit 204, and the positional relationship extraction unit 205.
  • the behavior information extraction unit 206 and the authentication information extraction unit 207 may be processed.
  • FIG. 6 is a block diagram showing an example of the configuration of the user terminal 30 according to the present embodiment.
  • the user terminal 30 includes a control unit 300, a satellite positioning unit 310, a beacon receiving unit 320, a distance measuring unit 330, a motion sensor unit 340, a communication unit 350, a display unit 360, an operation input unit 370, and an operation input unit 370. It has a storage unit 380.
  • Control unit 300 The control unit 300 functions as an arithmetic processing unit and a control device, and controls the overall operation in the user terminal 30 according to various programs.
  • the control unit 300 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor. Further, the control unit 300 may include a ROM (Read Only Memory) for storing programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) for temporarily storing parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 300 also functions as a movement vector calculation unit 301, a walking step extraction unit 302, and an action information extraction unit 303.
  • the movement vector calculation unit 301 calculates the movement vector of the user (the person carrying the user terminal 30) based on the sensing data of the motion sensor unit 340. More specifically, the movement vector calculation unit 301 estimates the movement trajectory from the number of steps, stride length, and traveling direction based on the acceleration, angular velocity, and magnetic data obtained by the motion sensor unit 340. An example) may be used to calculate the movement vector.
  • the walking step extraction unit 302 extracts the timing of the walking step of the user (the person carrying the user terminal 30) based on the sensing data of the motion sensor unit 340.
  • the timing of the walking step is the time when the foot touches the ground.
  • the walking cycle is acquired from the 3-axis acceleration obtained by the motion sensor unit 340, and the maximum value of the acceleration in each walking cycle is detected as the touching timing. You may. Details will be described later.
  • the behavior information extraction unit 303 extracts the behavior of the user (the person carrying the user terminal 30) such as stationary, walking, running, stairs, elevator, and escalator based on the sensing data of the motion sensor unit 340. For example, the behavior information extraction unit 303 can recognize the user's behavior based on the acceleration, angular velocity, magnetism, atmospheric pressure, etc. obtained by the motion sensor unit 340. Known techniques can be applied to behavior recognition algorithms.
  • control unit 300 determines that the user has entered the target facility from the position information acquired by the satellite positioning unit 310, the control unit 300 continuously calculates the movement vector, extracts the walking step, and extracts the action information. And control the transmission to the server 10. Such control may be performed by an application installed in the user terminal 30 in advance for the use of this system.
  • the location information of the target facility, the content of the data to be transmitted, and the like may be stored in the storage unit 380.
  • the satellite positioning unit 310 receives GPS (Global Positioning System) and other GNSS (Global Navigation Satellite System) signals, and detects the position where the user terminal 30 exists based on the received signals.
  • the satellite positioning unit 310 is an example of an outdoor positioning unit.
  • the position may be detected by, for example, Wi-Fi, Bluetooth, or the like.
  • the satellite positioning unit 310 outputs the detected position information to the control unit 300.
  • the control unit 300 can grasp that the user has entered the target facility based on the position information.
  • the beacon receiving unit 320 has a function of receiving a beacon transmitted from the user terminal 30.
  • a beacon is an example of a signal that triggers the control unit 300 to start a predetermined control.
  • the beacon may include the camera ID (eg, MAC address) of the environmental camera 20 that transmitted the beacon.
  • the control unit 300 acquires data on the distance to the environment camera 20 and the distance to other user terminals existing in the vicinity by the distance measuring unit 330 in response to the reception of the beacon, and the camera ID included in the received beacon. You may control the transmission to the server 10 together with the beacon reception time and the user ID.
  • the control unit 300 controls to transmit the distance information acquired (continuously) to the server 10 together with the beacon reception start time and end time, the camera ID, and the user ID. May be done.
  • the control unit 300 continuously calculates the movement vector in the facility, extracts the walking step, and extracts the action information even when the distance information is acquired and the transmission is controlled in response to the reception of the beacon. It is transmitted to the server 10 together with the time information and the user ID.
  • the distance measuring unit 330 measures the distance between the environment camera 20 and the user terminal 30 and the distance between another user terminal located in the vicinity of the user terminal 30.
  • the distance measuring method is not particularly limited, but for example, distance measurement using Bluetooth RSSI or distance measurement using UWB (Ultra-Wide Band) may be used.
  • the distance measuring unit 330 may calculate the distance between the environment camera 20 and the user terminal 30, or the distance measuring unit 330 may receive the distance information calculated on the environment camera 20 side. Based on the distance information between the environmental camera 20 and the other user terminal, the server 10 can grasp the mutual positional relationship between the user and the environmental camera 20 or the user and the other user.
  • the motion sensor unit 340 is a sensor for capturing the movement of a person.
  • the motion sensor unit 340 includes an acceleration sensor, an angular velocity sensor, a geomagnetic sensor, a barometric pressure sensor, and the like.
  • the motion sensor unit 340 may have a sensor capable of detecting a total of 9 axes of a 3-axis gyro sensor, a 3-axis acceleration sensor, and a 3-axis geomagnetic sensor.
  • the motion sensor unit 340 outputs the data (sensing data) detected by each sensor to the control unit 300.
  • the communication unit 350 is a wireless communication module for transmitting / receiving data to / from other devices.
  • the communication unit 350 wirelessly connects to the network 41 and transmits / receives data to / from the server 10 via the network 41.
  • the wireless communication method is not particularly limited, but for example, wireless LAN (Local Area Network), Bluetooth (registered trademark), Wi-Fi (registered trademark), LTE (Long Term Evolution), 3G (3rd generation mobile communication method). Communication methods such as 4G (4th generation mobile communication method) and 5G (5th generation mobile communication method) can be arbitrarily used.
  • the display unit 360 has a function of displaying various operation screens, notification screens, and the like.
  • the display unit 360 is realized by a display device such as a liquid crystal display (LCD) or an organic EL ((Electro Luminescence) display.
  • the display unit 360 is a display unit.
  • the 360 may be a transmissive display.
  • the display unit 360 may be a laser scanning display such as a direct retinal drawing display.
  • the display unit 360 magnifies and projects the display screen to the user.
  • the pupil may be provided with an imaging optical system that forms an enlarged imaginary image having a predetermined angle of view.
  • the display unit 360 can display the notification content (registration notification, deletion notification, etc. of authentication information) received from the server 10 by the user terminal 30, coupon information, product information, advertisement, and the like. Information can be provided from the facility where the user entered from the server 10.
  • the operation input unit 370 receives an operation instruction by the user and outputs the operation content to the control unit 300.
  • the operation input unit 370 may be, for example, a button, a switch, a touch sensor, or the like. Further, the operation input unit 370 may detect the user's voice, movement, gesture, etc. and accept the operation instruction.
  • the storage unit 380 stores a program or the like for the control unit 300 to execute various processes. Further, the storage unit 380 is composed of a storage device including a storage medium, a recording device for recording data on the storage medium, a reading device for reading data from the storage medium, a deletion device for deleting data recorded on the storage medium, and the like. .. Further, the storage unit 380 is realized by a ROM (Read Only Memory) that stores programs and arithmetic parameters used for processing of the control unit 300, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate. May be good.
  • ROM Read Only Memory
  • the configuration of the user terminal 30 according to the present embodiment has been specifically described above.
  • the configuration of the user terminal 30 according to this embodiment is not limited to the example shown in FIG.
  • the user terminal 30 may have at least one of the walking step extraction unit 302 and the behavior information extraction unit 303.
  • control unit 300 of the user terminal 30 may be performed by the server 10.
  • the control unit 300 transmits the data (sensing data) detected by the motion sensor unit 340 to the server 10 together with the detection time, and the server 10 has a movement vector calculation unit 301, a walking step extraction unit 302, and an action information extraction unit.
  • the process of 303 may be performed.
  • the user terminal 30 may further have sensors such as a camera, an infrared sensor, a biological sensor (pulse, heartbeat, sweating, blood pressure, body temperature, respiration, myoelectric value, brain wave), a microphone, and the like.
  • sensors such as a camera, an infrared sensor, a biological sensor (pulse, heartbeat, sweating, blood pressure, body temperature, respiration, myoelectric value, brain wave), a microphone, and the like.
  • the behavior information extraction unit 303 may extract behavior information (behavior recognition) using the sensing data from these sensors.
  • the user terminal 30 may be realized by a plurality of devices.
  • the configuration includes a display device (corresponding to at least the display unit 360) realized by an HMD or the like and an information processing terminal (corresponding to at least the control unit 300) realized by a smartphone, a tablet terminal, a wearable device, or the like. May be good.
  • the display unit 360 is mentioned as an example of the information presentation unit, the present embodiment is not limited to this, and various notifications to the user (registration notification of authentication information, deletion notification, coupons that can be used at the facility, etc.) are given. Notification of information obtained, advertisement of facilities, etc.) may be performed by voice output from a voice output unit (not shown).
  • the audio output unit may be provided in the user terminal 30, or may be configured separately from the user terminal 30.
  • audio may be output from a speaker provided in the facility.
  • the speaker provided in the facility may be a directional speaker. In the case of a directional speaker, it is possible to output voice toward the position of the user and notify the user of predetermined information.
  • the information presentation may be performed by combining the display output and the audio output.
  • notification of deletion of the authentication information, and the like may be performed by a light emitting unit or a vibration unit provided in the user terminal 30. It is possible to give various notifications based on the emission color of the light emitting unit, the emission pattern (blinking, etc.), the vibration pattern, and the like.
  • FIG. 7 is a block diagram showing an example of the configuration of the server 10 according to the present embodiment. As shown in FIG. 7, the server 10 has a control unit 100, a communication unit 110, and a storage unit 120.
  • the control unit 100 functions as an arithmetic processing unit and a control device, and controls the overall operation in the server 10 according to various programs.
  • the control unit 100 is realized by an electronic circuit such as a CPU (Central Processing Unit) or a microprocessor. Further, the control unit 100 may include a ROM (Read Only Memory) for storing programs to be used, calculation parameters, and the like, and a RAM (Random Access Memory) for temporarily storing parameters and the like that change as appropriate.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the control unit 100 stores each data received from the environment camera 20 and the user terminal 30 by the communication unit 110 in the storage unit 120. Specifically, the control unit 100 analyzes information received from the environment camera 20 (camera ID, time information, captured image (video), and various information obtained by analyzing the captured image (movement of each moving object reflected in the image). Vectors, walking steps, behavior information, mutual positional relationships, authentication information, etc.)) are controlled to be stored in the captured image DB (database) 121. Further, the control unit 100 controls to store the information (user ID, time information, movement vector information (for example, PDR position information), walking step information, action information, etc.) received from the user terminal 30 in the route history DB 122. ..
  • control unit 100 includes a movement vector collation unit 101, a walking step collation unit 102, a positional relationship collation unit 103, an action information collation unit 104, a movement pattern collation unit 105, a collation unit 106, an information registration unit 107, and a route update. It also functions as a unit 108.
  • the movement vector collation unit 101 collates the movement vector obtained from the user terminal 30 with the movement vector of the moving object obtained from the environment camera 20. Specifically, the movement vector collation unit 101 has a movement vector at the time when the user terminal 30 receives the beacon from the environment camera 20 (for example, t seconds from the start to the end of reception), and the environment camera 20 that transmits the beacon. Collates with the movement vector of each moving object acquired from the captured image at the time captured by. For collation of movement vectors, as described with reference to FIG. 2, the degree of similarity between the movement vector of the user terminal 30 and the movement vector of each moving body may be calculated, and the most similar movement vector may be determined. .. It can be said that the mobile body showing the most similar movement vector is the user who carries the user terminal 30.
  • the walking step collation unit 102 collates the walking step obtained from the user terminal 30 with the walking step of the moving object obtained from the environmental camera 20.
  • the walking step collating unit 102 has a walking step at the time when the user terminal 30 receives the beacon from the environment camera 20 (for example, t seconds from the start to the end of reception), and the environment camera 20 that transmits the beacon.
  • the walking step of each moving object acquired from the captured image at the time captured by the camera is collated.
  • the details of the walking step collation process will be described later. Further, the walking step is an example of "state information" in the present embodiment. As described with reference to FIG.
  • the positional relationship collating unit 103 has a positional relationship obtained from the user terminal 30 (mutual positional relationship with the environmental camera 20 or other user terminals around it) and a positional relationship of the moving body obtained from the environmental camera 20 (each moving body). (Relationship with the moving body around each moving body or the mutual positional relationship with the moving body).
  • the mutual positional relationship may include position information (for example, global coordinates) and distance information.
  • the positional relationship collating unit 103 has a positional relationship at the time when the user terminal 30 receives the beacon from the environmental camera 20 (for example, t seconds from the start to the end of reception) and the environmental camera that transmits the beacon. Collation with the positional relationship of each moving body acquired from the captured image at the time captured by 20 is performed.
  • the positional relationship is an example of "state information" in this embodiment.
  • state information As described with reference to FIG. 3, when a plurality of moving objects (persons) move in the same direction at the same time within the same angle of view, it becomes difficult to identify the user only by collating the movement vector. .. Therefore, in the present embodiment, it is possible to improve the accuracy of discrimination by discriminating the user by taking into account not only the collation of the movement vector but also the collation of the state information (for example, the positional relationship).
  • the behavior information collation unit 104 collates the behavior information obtained from the user terminal 30 with the behavior information of the moving object obtained from the environment camera 20.
  • the walking step collation unit 102 includes behavior information at the time when the user terminal 30 receives the beacon from the environment camera 20 (for example, t seconds from the start to the end of reception) and the environment camera 20 that transmits the beacon. Collates with the behavior information of each moving object acquired from the captured image at the time captured by. The details of the behavior information collation process will be described later.
  • the behavior information is an example of "state information" in this embodiment. As described with reference to FIG.
  • the movement pattern matching unit 105 collates the movement pattern of the user based on the information obtained from the user terminal 30 with the movement pattern of each moving body based on the information (integrated information) obtained from the plurality of environmental cameras 20. conduct.
  • the movement pattern is, for example, a movement pattern that applies to a preset rule (a route set using map information in the facility, etc.).
  • the movement pattern collating unit 105 is adjacent to (nearly) the movement vector at the time when the user terminal 30 receives the beacon from the first environment camera (for example, t seconds from the start to the end of reception) and the first environment camera.
  • the movement pattern is extracted by integrating with the movement vector at the time when the beacon from the second environment camera (located) is received (for example, t seconds from the start to the end of reception).
  • the movement pattern matching unit 105 integrates the movement vectors of each moving body acquired from the captured images captured by the adjacent first and second environmental cameras, and extracts the movement pattern of each moving body. For identification of each moving object (search for the same person) extracted from the images captured by the adjacent first and second environmental cameras, for example, face information, skeleton information, clothing information, or walking of each moving object. Appearance features such as direction information are used.
  • the movement pattern is an example of "state information" in the present embodiment.
  • state information As described with reference to FIG. 3, when a plurality of moving objects (persons) move in the same direction at the same time within the same angle of view, it becomes difficult to identify the user only by collating the movement vector. .. Therefore, in the present embodiment, it is possible to improve the accuracy of discrimination by discriminating the user by taking into account not only the collation of the movement vector but also the collation of the state information (for example, the movement pattern).
  • the association unit 106 associates a person (moving object) reflected in the captured image acquired by the environment camera 20 with a user who possesses the user terminal 30.
  • the matching unit 106 may calculate a matching confidence score indicating the reliability of each matching and perform the matching with reference to the calculated matching confidence score. Specifically, the matching unit 106 adds up each matching confidence score for each moving body, determines that the moving body having the maximum summed value is the user, and associates the moving body with the user.
  • the association unit 106 may associate users based on at least one of the collation results, or associate users based on at least two or more collation results of each collation result. You may.
  • the associating unit 106 may perform the associative based on the collation of the movement vector and the collation of the state information (for example, at least one of the walking step, the positional relationship, the action information, and the movement pattern).
  • the state information includes information that can be recognized from the outside (that is, information that can be observed from the outside, such as movement and position).
  • the state information can be extracted from various sensing data of the user terminal 20. Further, the state information can be extracted from the captured image of the environmental camera 20 by image analysis.
  • mapping unit 106 may perform the mapping based on the collation of one or more state information. Further, the matching unit 106 may integrate each collation result and determine the moving body that collates the most (successfully collated) as the user.
  • the information registration unit 107 registers the authentication information (face information, etc.) of the person (moving body) associated with the user in the authentication information DB 123 as the authentication information of the user. Specifically, the information registration unit 107 registers the user ID and the authentication information.
  • the authentication information to be registered is assumed to be the authentication information acquired by the environmental camera 20 that has been successfully collated. If the authentication information cannot be acquired by the environmental camera 20 that has been successfully collated due to occlusion or the like, the environmental camera 20 that has passed in the past is estimated from the data of the user ID in the route history DB 122 and acquired by the environmental camera 20. You may register the authenticated authentication information. Similarly, the authentication information acquired from the image of the environmental camera 20 that has passed after that may be registered for the user who succeeds in collation at a certain timing. Further, the information registration unit 107 may notify the user terminal 30 that the authentication information has been registered.
  • the camera dedicated to acquiring authentication information and the environmental camera for collating moving vectors, etc. may be separate.
  • the camera dedicated to acquiring authentication information may be installed in the same place as the environmental camera for verification, or may be installed in one or more places (for example, the entrance of a facility) where more faces of visitors can be photographed. good.
  • the camera for acquiring authentication information can be separated from the environmental camera for moving vector matching, such as narrowing the angle of view or using a high-magnification, high-resolution camera.
  • the time zone when the user ID that has been successfully collated has passed near the camera dedicated to acquiring authentication information is specified from the route history, or the time zone passed based on the time zone when the beacon from the camera dedicated to acquiring authentication information is received. Is specified, and the authentication information (more accurate authentication information) acquired from the camera dedicated to acquiring the authentication information during that time period may be registered in the authentication information DB 123. If multiple authentication information is acquired from the camera dedicated to acquiring authentication information during the time passed by the user, the correct authentication information is obtained by matching with the user's authentication information acquired from the matching camera. You may try to get it.
  • a camera dedicated to acquiring authentication information may be provided in a drone that can accurately measure the position by UWB or the like. The drone will fly through the hall and photograph visitors.
  • the information registration unit 107 registers the user ID and the camera ID that the collation did not go well (that is, could not be associated) in the undecided information DB 124.
  • the information registration unit 107 may update the authentication information stored in the authentication information DB 123 based on the latest data. Further, the information registration unit 107 may increase the authentication information stored in the authentication information DB 123 based on the latest data.
  • the route update unit 108 performs data by a process of merging the user's past travel route stored in the route history DB 122 and a newly acquired travel route, and a position correction process after the user's association is performed. Update.
  • the PDR position information (that is, the movement vector) is continuously transmitted to the server 10 from the user terminal 30 of the user who has entered the facility.
  • the route update unit 108 merges the acquired PDR position information and generates a user's movement route in the facility. Further, as described above, due to the characteristic of PDR that the relative movement vector is calculated, an error may accumulate with the passage of time.
  • the mapping unit 106 when the user is specified (corresponded) by the mapping unit 106, the movement vector (movement of the associated moving body) obtained from the environment camera 20 by the route updating unit 108 is performed.
  • the movement route stored in the route history DB 122 is corrected based on the vector). This makes it possible to generate a more accurate movement path.
  • the route update unit 108 identifies the user from the captured image obtained from the environment camera 20 based on the authentication information, and determines the user for the movement route. It is also possible to make corrections.
  • control unit 100 can further control notifying the user of various information from the facility.
  • control unit 100 can control transmission of appropriate information from the communication unit 110 to the user terminal 30 according to the movement route and behavior of the user. Information may be transmitted to a terminal address registered in advance.
  • the communication unit 110 is a communication module for transmitting / receiving data to / from another device.
  • the communication unit 110 connects to one or more environmental cameras 20 (cameras installed in various places in the facility) via the network 40 to transmit and receive data.
  • the communication unit 110 connects to one or more user terminals 30 (user terminals carried by each user moving in the facility) via the network 41, and transmits / receives data.
  • the storage unit 120 stores a program or the like for the control unit 100 to execute various processes. Further, the storage unit 120 includes a storage device including a storage medium, a recording device for recording data on the storage medium, a reading device for reading data from the storage medium, a deletion device for deleting data recorded on the storage medium, and the like. .. Further, the storage unit 120 is realized by a ROM (Read Only Memory) that stores programs and arithmetic parameters used for processing of the control unit 100, and a RAM (Random Access Memory) that temporarily stores parameters that change as appropriate. May be good.
  • ROM Read Only Memory
  • RAM Random Access Memory
  • the storage unit 120 stores the captured image DB 121, the route history DB 122, the authentication information DB 123, the undecided information DB 124, and the in-facility map information DB 125.
  • the captured image DB 121 stores data (camera ID, time information, captured image, movement vector information, walking step information, behavior information, authentication information, etc.) obtained from the environment camera 20.
  • the route history DB 122 stores data (user ID, time information, movement vector information, walking step information, action information, distance information, received camera ID, etc.) obtained from the user terminal 30.
  • the authentication information DB 123 stores the user ID and the authentication information in association with each other.
  • the undecided information DB 124 stores the user ID and the camera ID for which the collation was not successful.
  • the in-facility map information DB 125 stores the in-facility map information.
  • the map information may include installation location information of each environmental camera 20.
  • the configuration of the server 10 according to the present embodiment has been specifically described above.
  • the configuration of the server 10 according to this embodiment is not limited to the example shown in FIG.
  • the server 10 may be realized by a plurality of devices.
  • the server 10 may have each function of the control unit 200 of the environment camera 20 and each function of the control unit 300 of the user terminal 30.
  • FIG. 8 is a sequence diagram showing an example of the flow of operation processing of the information processing system according to the present embodiment.
  • the user terminal 30 acquires the position information by satellite positioning from the satellite positioning unit 310 (step S103).
  • the control unit 300 activates the motion sensor unit 340 (step S109).
  • the location information of the target facility can be stored in the storage unit 380 in advance.
  • the activation trigger of the motion sensor unit 340 is an example, and it is assumed that the motion sensor unit 340 has already been activated.
  • the control unit 300 may activate the motion sensor unit 340 in response to a signal (BLE beacon or the like) received from a device installed at the entrance of the target facility or the like.
  • control unit 300 calculates the movement vector, walks, and extracts the action information based on the sensing data obtained from the motion sensor unit 340 (step S112).
  • the calculation of the movement vector, the walking step, and the extraction of the behavior information can be continuously performed while moving in the facility.
  • control unit 300 controls to transmit the movement vector (PDR position information), the walking step, and the action information to the server 10 together with the acquisition time and the user ID (step S115).
  • the transmission timing to the server 10 is not particularly limited, but may be performed at regular time intervals, for example.
  • the server 10 stores the information received from the user terminal 30 in the route history DB 122 (step S118).
  • one or more environmental cameras 20 arranged in the facility continuously image the surroundings and periodically transmit a predetermined beacon (step S121).
  • the environment camera 20 transmits the information acquired from the captured image to the server 10 (step S124). Specifically, the environment camera 20 uses the movement vector, walking step, positional relationship, behavior information, etc. of each moving object acquired from the captured image, and authentication information together with the captured image, time information, camera ID, and the like. , Controls transmission to the server 10.
  • the server 10 stores the information received from the environmental camera in the captured image DB 121 (step S126).
  • the user terminal 30 receives time information indicating a time zone in which the beacon is received (for example, the reception start time and end time of the beacon. Since the user is moving, the environment) in response to the reception of the beacon from the environment camera 20. The beacon may be lost when away from the camera 20), and control is performed to transmit the camera ID, the user ID, and the distance measurement information included in the beacon to the server 10 (step S127).
  • the range-finding information is information acquired by the user terminal 30 by the range-finding unit 330 triggered by the reception of a beacon from the environment camera 20.
  • the distance measurement information is, for example, distance information between the user terminal 30 and the environmental camera 20, and distance information between the user terminal 30 and other user terminals located in the vicinity.
  • the control unit 100 of the server 10 performs various collations based on the information received from the environment camera 20 and the information received from the user terminal 30, and discriminates (associates) the user and (associates the associated user). ) Register the authentication information in the authentication information DB 123 (step S130).
  • the server 10 can perform user authentication in the facility using the authentication information. Further, the server 10 can provide various services such as payment processing by user authentication.
  • the device that provides these services and authenticates the user may be an information processing device or system different from the server 10.
  • the information registration unit 107 corrects and updates the route history (movement route history) stored in the user's route history DB 122 based on the movement vector of the user acquired from the image captured by the environment camera 20. (Step S133). As a result, the error of the movement route based on the PDR is corrected, and the accuracy of the movement route is improved.
  • the server 10 can provide appropriate information to the user based on the position in the facility of the user, the movement route, the predetermined action at the predetermined place, and the like.
  • the user terminal 30 when the user terminal 30 detects that the user has left the target facility (step S136 / Yes), the user terminal 30 requests the server 10 to delete the data associated with the user ID of the user (step S139).
  • the fact that the user has left the target facility may be determined, for example, based on a signal (BLE beacon or the like) received from a device provided at the exit of the facility, or based on the position information acquired by the satellite positioning unit 310. May be judged.
  • the server 10 Upon receiving the request, the server 10 deletes all the information associated with the user ID from the captured image DB 121, the route history DB 122, the authentication information DB 123, and the undecided information DB 124 (step S142).
  • the server 10 is approved by the user, for example, the link of the user ID is deleted from the route history DB 122, the movement route information is left as a history while maintaining anonymity, and is used for measuring marketing effectiveness and the like. You can also do it.
  • the process of automatically requesting the deletion of the data associated with the user ID when the user leaves the target facility has been described, but the present embodiment is not limited to this.
  • the user may manually request deletion using the user terminal 30.
  • FIG. 9 is a flowchart showing an example of the flow of operation processing of the environmental camera 20 according to the present embodiment.
  • the control unit 200 of the environment camera 20 acquires an image (video) for t seconds captured by the image pickup unit 220 (step S203).
  • the captured image may be stored in the storage unit 250 and appropriately taken out by the control unit 200.
  • the human body region extraction unit 201 extracts a person (human body region) from each frame (each still image constituting the video for t seconds) (step S206).
  • the mobile body extraction unit 202 extracts the mobile body based on the comparison of each frame (step S209). Specifically, the mobile body extraction unit 202 compares each frame arranged in a time series, recognizes the movement of the extracted person, and extracts the extracted person as a moving body.
  • the mobile body extraction unit 202 assigns a mobile body number to the extracted mobile body (step S212).
  • the movement vector calculation unit 203 calculates the movement vector of each moving body based on the captured image (step S215).
  • the walking step extraction unit 204 extracts the walking step of each moving body based on the captured image (step S218).
  • the positional relationship extraction unit 205 extracts the mutual positional relationship of each moving body based on the captured image (step S218). For example, the positional relationship extraction unit 205 grasps the perspective relationship from the size and the like of each moving object reflected in the captured image, and extracts the mutual positional relationship between the moving objects and the mutual positional relationship between each moving object and the environmental camera 20. You may. Further, the positional relationship extraction unit 205 may extract the positional relationship between the moving objects by performing a three-sided survey based on the distance between each moving object and the environmental camera 20.
  • the authentication information extraction unit 207 extracts the authentication information of each moving object from the captured image (step S224).
  • the server 10 transmits the movement vector, the walking step, the mutual positional relationship, and the authentication information of each moving body to which the moving body number is given to the server 10 together with the camera ID and the time information (step S227). These information are stored in the captured image DB 121 of the server 10.
  • the server 10 compares the newly stored information with the mutual positional relationship of each moving body in the image of the previous time section acquired from the environment camera 20 of the camera ID already stored in the captured image DB 121. Performs the process of associating the moving body numbers of the moving bodies that are regarded as the same moving body.
  • the above is an example of the operation processing of the environment camera 20.
  • the operation processing of the environment camera 20 does not necessarily have to be performed in the order shown in FIG.
  • the processes shown in steps S215 to S224 may be in a different order or in parallel.
  • FIG. 10 is a flowchart showing an example of the flow of operation processing of the server 10 according to the present embodiment.
  • the server 10 receives the information acquired by the user terminal 30 and transmitted to the server 10 triggered by the reception of the beacon transmitted from the environment camera 20 (step S303).
  • step S127 of FIG. 8 when the user terminal 30 detects the beacon from the environmental camera 20, the user terminal 30 stores the time when the detection of the beacon is started and the camera ID (MAC address included in the beacon).
  • the user terminal 30 acquires the distance between the user terminal 30 and the environment camera 20 and the distance from other user terminals existing in the vicinity by the motion sensor unit 340. Then, the user terminal 30 sets the time when the beacon is lost as the detection end time of the beacon, and transmits the detection start and end times of the beacon, the distance measurement data, the camera ID, and the user ID to the server 10.
  • the control unit 100 of the server 10 performs a collation process for collating the information obtained from the user terminal 30 with the information obtained from the environment camera 20 (step S306).
  • collation it is possible to associate the moving object shown in the captured image with the user (that is, to discriminate the user).
  • the information obtained from the user terminal 30 is the information received in step S303 and the information received from the user terminal 30 and stored in the route history DB 122 as shown in step S118 of FIG.
  • the information obtained from the environmental camera 20 is information received from the environmental camera 20 and stored in the captured image DB 121 as shown in step S126 of FIG.
  • the information obtained from the captured image can be collated with the information obtained from the user terminal 30 possessed by the user, and the movement route in the user's facility can be matched. Correction and registration of authentication information can be performed.
  • the timing of collation processing is not particularly limited. Further, in the collation process, the control unit 100 calculates a collation confidence score indicating the reliability (high possibility of being a user) in each collation for each collation, and the collation confidence score (this) is the sum of these. In the specification, a “total collation confidence score”) may be calculated for each mobile. The summation may be, for example, a method of weighting and averaging each matching confidence score. The details of the matching process and the matching confidence score calculation will be described later.
  • the matching unit 106 determines whether or not the total collation confidence score exceeds the threshold value (step S309).
  • the matching unit 106 identifies the moving body showing the maximum value of the total matching trust score as the target moving body (that is, discriminates from the user). ) (Step S312).
  • the moving body displayed in the captured image and the user can be associated with each other.
  • the route update unit 108 extracts the data of the user ID (history of the movement route) associated with the moving body from the route history DB 122 (step S315).
  • the route update unit 108 corrects the user's route history according to the movement vector acquired from the environment camera 20 (step S318). Specifically, it is acquired from the user terminal 30 by correcting the movement path of the user who has moved within the angle of view of the environment camera 20 according to the movement vector (derived from the image) acquired from the environment camera 20. It is possible to correct the error of the movement vector (derived from PDR).
  • the information registration unit 107 associates the user ID associated with the moving object with the authentication information of the moving object acquired from the captured image, and registers the user ID in the authentication information DB 123 (step). S321). This makes it possible to automatically register authentication information such as a user's face image (facial feature amount).
  • FIG. 11 shows a diagram showing a screen example of the user authentication information registration notification according to the present embodiment.
  • the notification screen 361 is displayed on the display unit 360 of the user terminal 30.
  • the notification screen 361 indicates the name of the facility (for example, "S-Mall"), and displays that information about the user has been registered in the system.
  • the user's approval may be obtained by tapping the OK button on the notification screen 361.
  • the server 10 may delete the authentication information if the user's approval cannot be obtained.
  • FIG. 12 is a diagram showing an example of an authentication information deletion screen. As shown in FIG. 12, the registered authentication information is displayed on the deletion screen 362. When the delete button on the delete screen 362 is tapped, the user terminal 30 sends a deletion request to the server 10, and the server 10 deletes the authentication information. Further, as a function of the application, a function of disabling the automatic registration of positioning and authentication information in the facility may be provided. Further, as an opt-in type function, only the user who has obtained consent when using the application and turned on the setting may be targeted for automatic registration of positioning and authentication information.
  • FIG. 13 is a diagram showing an example of a setting screen for automatic registration of positioning and authentication information. As shown in FIG. 13, a setting button may be displayed on the setting screen 363 so that the setting can be turned ON / OFF.
  • step S309 / No when the total collation reliability score does not exceed the threshold value (step S309 / No), it is assumed that the user cannot be identified (specified) (correspondence cannot be made), and the user ID and camera ID are stored in the undecided information DB 124. Memorize (step S327). If the correspondence can be made later (a large number of environmental cameras 20 are installed in the facility and the matching can be performed based on the information obtained from the other environmental cameras 20), the correspondence is made from the undecided information DB 124. The created user ID and camera ID may be deleted.
  • the example of the operation processing of the server 10 according to the present embodiment has been described above.
  • the operation processing of the server 10 does not necessarily have to be performed in the order shown in FIG.
  • the processes shown in steps S315 and S318 and the processes shown in steps S321 and S324 may be in a different order or in parallel.
  • FIG. 14 is a flowchart showing an example of the flow of the collation process according to the present embodiment.
  • the control unit 100 extracts data in the corresponding time zone (user ID, movement vector, walking step, etc. received from the user terminal 30) from the route history DB 122 (step S403).
  • the corresponding time zone is the beacon detection start time to the end time of the user terminal 30 included in the information received from the user terminal 30 in step S303 of FIG.
  • the control unit 100 extracts data (captured image acquired from the environmental camera 20, movement vector, walking step, etc.) in the corresponding time zone in the corresponding camera ID from the captured image DB 121 (step S406).
  • the corresponding camera ID is a camera ID included in the beacon detected by the user terminal 30 included in the information received from the user terminal 30 in step S303 of FIG.
  • control unit 100 collates the movement vector (step S409), the walking step collation (step S412), the behavior information collation (step S415), and the positional relationship collation (step S418) based on the extracted data. And collation of the movement pattern (step S421). In each collation process, a collation confidence score is calculated for each moving object.
  • the matching unit 106 sums up the matching reliability scores calculated in each matching process for each moving body (step S424).
  • the summing method is not particularly limited, but for example, a method of weighting and averaging each matching confidence score may be used.
  • the above is an example of the flow of collation processing.
  • the collation process does not necessarily have to be performed in the order shown in FIG.
  • the collations shown in steps S409 to S421 may be in a different order or in parallel. Further, all the collations shown in steps S409 to S421 may be performed, or at least one of the collations may be performed.
  • the control unit 100 sequentially processes each collation, if the collation is successful (that is, if one moving object corresponding to the user can be identified), the control unit 100 skips the other collation processing that follows. You may.
  • control unit 100 may perform at least two collations of "collation of movement vector” and "collation of at least one of walking step, action information, positional relationship, and movement pattern". Further, when the user cannot be identified (specified) only by the collation of the movement vector, the control unit 100 further collates at least one of the walking step, the action information, the positional relationship, and the movement pattern. May be good. Further, the matching unit 106 may integrate each collation result and specify the moving body that collates the most (successfully collated) as the user.
  • the movement vector collation unit 101 moves the cos similarity between the movement vector (mv can ) obtained from the environment camera 20 and the movement vector (mv acc) obtained from the user terminal 30 as shown in Equation 1 below. It may be used as a matching confidence score (Pmv) of a vector (Moving Vector).
  • collation of walking steps and calculation of collation confidence score For example, the timing of the walking step (foot touchdown) obtained from the image captured by the environment camera 20 and the timing of the walking step (foot touchdown) obtained from the sensing data of the user terminal 30 are time-matched. It is calculated.
  • FIG. 15 is a diagram illustrating the timing of the walking step of the user A obtained from the captured image of the environment camera 20 and the timing of the walking step of the user A obtained from the sensing data of the user terminal 30A.
  • the user terminal 30A analyzes, for example, the three-axis acceleration detected by the motion sensor unit 340 to detect the foot contact timing (t acc0 , t acc1 , t acc2 ).
  • the foot contact timing (t acc0 , t acc1 , t acc2 ).
  • the user terminal 30A is in either the left or right pocket of the user A's trousers, and the ground contact timing of one foot is detected from the peak of the acceleration waveform.
  • the waveform of the 3-axis acceleration shown in FIG. 15 is an example, and the present embodiment is not limited to this.
  • environmental camera 20 from the captured image, for example, detects the area of the region and the head of the foot (shoe) of the user A, the ground timing legs from the position (movement) (t cam0, t cam1, t cam2) Is detected.
  • the environment camera 20 may detect the ground contact timing of the foot from the waist position of the user A by performing bone detection (skeleton recognition) or the like from the captured image. Further, the environmental camera 20 may detect the ground contact timing of the right foot and the ground contact timing of the left foot, respectively, or may detect the ground contact timing of both feet and divide the ground contact timing of one foot to calculate the ground contact timing of one foot.
  • the walking step collation unit 102 calculates the time coincidence (time lag) of each contact timing (the contact timing of one foot) and collates the walking steps.
  • the ground contact timing of one foot is collated as an example, but the present disclosure is not limited to this, and the walking step collation unit 102 may collate the ground contact timing of both feet.
  • the ground contact timing of both feet may appear as the peak of acceleration.
  • the user terminal 30 can also determine its own holding position (whether it is a holding position where a left-right difference occurs or a holding position where a left-right difference does not occur) by machine learning of the motion sensor unit 340.
  • FIG. 16 is a flowchart showing an example of the flow of the walking step extraction process in the user terminal 30. As shown in FIG. 16, first, the walking step extraction unit 302 acquires 3-axis acceleration from the motion sensor unit 340 (step S503).
  • the walking step extraction unit 302 calculates the norm from the triaxial acceleration (step S506), and performs FFT (Fast Fourier Transform) on the calculated result (step S509).
  • FFT Fast Fourier Transform
  • the walking step extraction unit 302 acquires the maximum power frequency as the walking cycle from the FFT processing result (step S512).
  • the walking step extraction unit 302 removes components other than the maximum power frequency band (step S515).
  • the walking step extraction unit 302 performs an IFFT (Inverse Fast Fourier Transform) on the data from which components other than the maximum power frequency band have been removed (step S518).
  • IFFT Inverse Fast Fourier Transform
  • the walking step extraction unit 302 extracts the one-leg contact timing from the data obtained by performing the IFFT by detecting the peak in accordance with the walking cycle (step S521).
  • the extraction of walking steps based on acceleration data has been explained above.
  • the extraction of walking steps described with reference to FIG. 16 is an example, and the method of extracting walking steps according to the present embodiment is not limited to this.
  • FIG. 17 is a flowchart showing an example of the flow of the walking step extraction process in the environmental camera 20. As shown in FIG. 17, first, the environment camera 20 takes an image by the image pickup unit 220 (step S533).
  • the walking step extraction unit 204 detects the foot (or shoe) region from the captured image (step S536).
  • the walking step extraction unit 204 detects the contact timing of the right foot and the contact timing of the left foot from the state of the foot (shoe) (step S542). , Step S545).
  • the walking step extraction unit 204 may detect the contact of the heel.
  • the frame in which the absolute value of the movement vector of the heel becomes 0 first in each cycle of walking may be set as the ground contact timing.
  • the first frame parallel to the ground from the state where the vector from the heel to the toe is oriented toward the sky may be set as the ground contact timing.
  • the walking step extraction unit 204 detects the ground contact timing of the right foot and the left foot, respectively.
  • step S536 when the foot (shoe) region cannot be detected (step S536 / No), the walking step extraction unit 204 detects the head region (step S548).
  • the walking step extraction unit 204 detects the ground contact timing for both feet according to the head position (step S554), and divides the ground contact timing series into one foot at a time. (Step S557).
  • the body moves up and down during walking and sinks most when touching down. Therefore, the walking step extraction unit 204 touches the frame whose head position (for example, the position of the crown) is at the lower end in each walking cycle. The timing.
  • the walking step extraction unit 204 needs to divide the touchdown timing by alternately allocating it along the time series in order to obtain the series data for one foot. ..
  • the walking step extraction unit 204 performs an exercise called "compensatory rotation of the head" in which the head is tilted up and down according to the sinking so that the viewpoint does not move when walking. It is also possible to improve the accuracy by combining the process of selecting the frame with the maximum pitch angle of the head.
  • step S551 / No the walking step extraction unit 204 outputs an error.
  • the ground contact timing is detected by foot detection or head detection, but the present embodiment is not limited to this.
  • the walking step extraction unit 204 may detect the timing at which the angle of the lower limbs is maximum and the direction of the vertical movement vector of the left and right legs is switched as the ground contact timing. Further, the walking step extraction unit 204 may detect the ground contact timing based on the waist position. The waist position sinks most at the timing of touchdown in the walking cycle. Further, when the face can be recognized from the captured image, the walking step extraction unit 204 may detect the lower limit of each cycle of the vertical movement vector of the face part as the ground contact timing.
  • the extraction of walking steps based on captured images has been explained above.
  • the extraction of walking steps described with reference to FIG. 17 is an example, and the method of extracting walking steps according to the present embodiment is not limited to this.
  • FIG. 18 is a flowchart showing an example of the flow of the collation process of the walking step in the server 10.
  • the walking step collation unit 102 is divided into the one-leg touchdown timing extracted by the user terminal 30 and the left and right data (see steps S542 and S545 above) extracted by the environment camera 20.
  • the step time is collated with each of the data (see step S557 above) (step S573).
  • the walking step matching unit 102 as shown in FIG.
  • the walking step collation unit 102 obtains data on the ground contact timing of the right foot and the ground contact timing of the left foot from the environmental camera 20, it calculates the time difference between them and adopts the one with the shorter total time difference.
  • the walking step collation unit 102 may be successful in collation when the following equation 2 is satisfied.
  • the walking step collation unit 102 calculates the collation confidence score (P ws ) of the walking step (step S576).
  • the walking step collating unit 102 has a time lag (T ) between the walking step (grounding timing t cam ) obtained from the environment camera 20 and the walking step (grounding timing t acc) obtained from the user terminal 30 as shown in the following equation 3.
  • diffws may be calculated, and the matching confidence score (P ws ) of the walking step may be calculated based on how close the time lag is within the permissible range (Threshold ws) to 0, as shown in Equation 4 below.
  • the method of collating the walking step and calculating the collation confidence score has been described above, but the above content is an example, and the method of collating the walking step and calculating the collation confidence score according to the present embodiment is not limited to this. Further, here, as an example, a walking step indicating the timing at which the foot touches the ground is used, but the present embodiment is not limited to this, and some features related to walking such as a walking method, a walking rhythm, and a posture when walking are described. It may be used as information and collated.
  • Positional collation and collation confidence score calculation> In the positional relationship collation, the mutual positional relationship of each moving object within the angle of view of the environmental camera 20 is compared with the mutual positional relationship of the user terminal 30 calculated based on the distance information acquired by the user terminal 30.
  • the relationship collation unit 103 discriminates (identifies) the user from one or more moving objects reflected in the captured image based on the comparison of the mutual positional relationship.
  • the mutual positional relationship is the positional relationship between the user terminal 30 and another user terminal, the positional relationship between the user terminal 30 and the environmental camera 20, or the positional relationship between the user terminal 30 and the other user terminal and the environmental camera 20. .. Further, the mutual positional relationship may be a distance or may be converted into global coordinates.
  • the positional relationship matching unit 103 calculates the mutual positional relationship between the three parties based on the distance information (distance information with another user terminal and distance information with the environmental camera 20) acquired by the user terminal 30 by the distance measuring unit 330. You may. For example, as shown in FIG. 19, the positional relationship matching unit 103 is based on the distance between the user A and the environment camera 20 (d A-cam ) and the distance between the user A and the user B (d A-B ). Calculate the mutual positional relationship. The distance (dB-cam ) between the user B and the environment camera 20 can be obtained from the user terminal 30B. Alternatively, the positional relationship collating unit 103 may use the distance information (which can be acquired by the distance measuring unit 230) acquired by the environmental camera 20 by performing UWB communication or the like with the user terminal 30A and the user terminal 30B, respectively.
  • the positional relationship collating unit 103 calculates the positional relationship of each moving object based on the captured image obtained from the environmental camera 20. For example, as shown in FIG. 19, the captured image 222 is analyzed to estimate the perspective relationship (positional relationship) of each moving body (moving body M1 and moving body M2) reflected in the captured image 222. At this time, the positional relationship collating unit 103 may refer to the data of the depth sensor or the like provided in the environmental camera 20.
  • the positional relationship collating unit 103 collates the positional relationship via the ranging unit 330 obtained from the user terminal 30 with the positional relationship via the image obtained from the environmental camera 20, and the user A (possess the user terminal 30A).
  • the person who does) and the moving body are associated with each other.
  • the positional relationship collation unit 103 may calculate a collation confidence score for each moving body based on the consistency of the mutual positional relationship.
  • the positional relationship matching unit 103 may use the degree of mutual positional relationship deviation close to 0 within the permissible range as the matching confidence score.
  • the server 10 is between the distance information (drf ) between the user terminal 30 and the environment camera 20 obtained by the user terminal 30 and each moving object estimated from the image of the environment camera 20 and the environment camera 20. It has both distance information (d cam).
  • the positional relationship collating unit 103 of the server 10 compares these distances (d rf and each d cam ) for each frame in the image of the environmental camera 20, and determines the number of moving objects whose difference is within the allowable range (Tolerance rel). Calculate the matching confidence score accordingly.
  • the positional relationship collation unit 103 uses the average of the collation confidence scores for each frame as the collation confidence score as the final mutual positional relationship collation result.
  • the matching confidence score is calculated for each moving object.
  • the moving object having the maximum matching reliability score is the moving object to be searched (that is, the user).
  • FIG. 20 is a diagram illustrating another example of collation of mutual positional relationships according to the present embodiment.
  • the positional relationship matching unit 103 has a distance (d cam k: ID ) estimated from the image of the environment camera 20 for each frame (k) in the time interval to be analyzed, which is obtained from the user terminal 30 and the environment camera.
  • Matching confidence score for relation based on the number of moving objects (moving object number: ID) (Nk) in the range of distance (d rfk) to 20 and tolerance (Tolerance rel). Calculate (P rel ).
  • ID distance
  • Nk tolerance
  • P rel tolerance rel
  • the mobile bodies M10, M11, and M12 are located within the range of the distance (d rfk ) and the tolerance (Tolerance rel ) obtained from the user terminal 30, and the number of mobile bodies is "3". (Note that the target possessing the user terminal 30 is M12).
  • the positional relationship collating unit 103 counts the number of moving bodies within the permissible range, for example, as shown in the following equations 5 and 6.
  • the subscript "k: ID" indicates the data in the kth frame of the mobile number ID.
  • the positional relationship collation unit 103 calculates a collation confidence score (Prel k ) in each frame, for example, as shown in the following equation 7.
  • the positional relationship collation unit 103 calculates the final collation confidence score (Prel ), for example, as shown in the following equation 8.
  • the frame length (time interval between frames) may be set to, for example, 1 second because the interval is short when the frame rate of the environmental camera 20 is adjusted.
  • FIG. 21 is a diagram illustrating another example of collation of mutual positional relationships according to the present embodiment.
  • the distance information with another user terminal measured by the user terminal 30 side is used.
  • the user terminal 30A has distance information (distance measurement data) between the user terminal 30A and other nearby user terminals 30B and 30C while being within the angle of view of the environment camera 20 (while receiving a beacon). ; Acquire d At0-Bt0 , d At0-Ct0 , d At1-Bt1 , d At1-Ct1 ) on a regular basis.
  • the user terminal 30A sends the measured distance measurement data to the server 10.
  • the positional relationship matching unit 103 of the server 10 estimates the distance between moving objects (distance between the moving objects M1, M2, and M3) in the image obtained from the environment camera 20 from the image of each frame, and the user terminal. Search and find the combination that minimizes the error with the distance information measured at 30A.
  • the positional relationship matching unit 103 searches for the moving object (moving object corresponding to the user). ).
  • the method of collating the positional relationship and calculating the collation confidence score has been described above, the above content is an example, and the method of collating the positional relationship and calculating the collation confidence score according to the present embodiment is not limited to this.
  • Matching behavior information and calculating matching confidence score> In the collation of behavior information, the switching time between walking and a specific behavior (for example, elevator, escalator, stairs, etc.) immediately before or after the walking section detected by the user terminal 30 and the moving object captured by the environment camera 20. The switching time between a particular action and walking is compared.
  • a specific behavior for example, elevator, escalator, stairs, etc.
  • the user A who is on the escalator and the user B who is simply stationary on the spot are only movement vectors derived from the PDR. It is the same as seen in, and it is indistinguishable. Therefore, in the present embodiment, when a specific action is detected before and after the walking section, it is possible to identify the user by comparing the switching time between the action and walking. Specific behavior can be identified from captured images and in-house map information. For example, when the escalator is included in the angle of view of the environment camera 20 shown in FIG. 22, the user A who has walked down from the escalator can be detected from the captured image. Further, from the captured image shown in FIG.
  • the user B who has stopped for a while on the spot and then started walking is also detected. Further, since the behavior information collation unit 104 can grasp the locations of escalators, elevators, stairs, etc. not only from the captured image but also from the map information in the hall, it can be specified from the map information in the hall and the movement locus detected by the user terminal 30. It is possible to detect behavior.
  • the behavior information collating unit 104 determines that the time difference (T diff ws ) between the behavior and walking is within the permissible range (Tolerance act ).
  • the collation confidence score (P act ) of is set to 1.0, and if not, it may be set to 0.0.
  • the method of collating behavior information and calculating the collation confidence score has been described above, but the above content is an example, and the method of collating behavior information and calculating the collation confidence score according to the present embodiment is not limited to this.
  • the arrangement and facilities of the environmental cameras 20 are based on the movement vector (PDR position information) acquired by the user terminal 30 and the integration of information from a plurality of environmental cameras 20 (Chain of multi cameras). It is determined from the map information of the above whether or not the preset rule (movement pattern) is applied.
  • the matching confidence score (P ch ) is set to 1.0, and if not, the matching confidence score is set to 0.0.
  • FIG. 23 is a diagram illustrating the collation of the movement pattern according to the present embodiment.
  • the environmental cameras 20R, 20L, and 20C are arranged.
  • the server 10 has such arrangement and map information of each environment camera 20.
  • the movement pattern collating unit 105 determines whether or not the moving object to be matched reflected in the environmental camera 20C is also reflected in the environmental camera 20L (appearance of each moving object such as face, clothes, walking style, and skeleton). Consistency (same person) can be searched based on characteristics).
  • the moving object to be matched reflected in the environmental camera 20C is also reflected in the environmental camera 20L, the moving object is a search target (corresponding to the user), and the matching reliability score is 1.0.
  • the movement pattern collation unit 105 sets the collation reliability score to 0.0 if the moving object reflected in the environment camera 20C is not found in the image of the environment camera 20L.
  • the moving body that entered the angle of view of the environmental camera 20C after the PDR of the user terminal 30 detected that the user was going straight in the Crossing Area without turning passed the B course.
  • the movement pattern matching unit 105 sets the matching reliability score to 0.0 and does not show any of them. In this case, the matching confidence score is 1.0.
  • the moving body that entered the angle of view of the environmental camera 20C after the PDR detected that the user terminal 30 turned 90 ° ⁇ 45 ° to the right in the Crossing Area passed the C course.
  • the movement pattern matching unit 105 sets the matching reliability score to 1.0 because the moving object is the search target.
  • the movement pattern collation unit 105 sets the collation reliability score to 0.0 if the moving object reflected in the environment camera 20C is not found in the image of the environment camera 20R.
  • the method of collating the movement pattern (collation based on the integration of information from a plurality of cameras) and the calculation method of the collation confidence score have been described above, but the above content is an example, and the collation of the movement pattern and the collation confidence score according to the present embodiment have been described.
  • the calculation method of is not limited to this.
  • the matching unit 106 adds up the matching confidence scores output from each matching unit for each moving body, and based on each total matching trust score added up, the final user determination (correspondence between the moving body and the user). I do.
  • the sum of the matching confidence scores may be calculated by weighting and averaging each score, for example, as shown in the following formula 10.
  • the subscript w is a weighting coefficient for the collation confidence score calculated by each collation unit, and this weight is heuristically according to, for example, the characteristics based on the floor shape of the target facility and the characteristics based on the arrangement of the environmental cameras.
  • a fixed value may be set, or learning data may be collected at the target facility and adjusted by machine learning.
  • the server 10 detects a person who performs a predetermined action at a predetermined predetermined place from the image obtained by the environment camera 20, the server 10 notifies the person of the predetermined information. For example, when the environment camera 20 detects a person area from an image and detects a predetermined action, the coordinates of the person in the image are converted into global coordinates, and then the global coordinates and the detection time are notified to the server 10. .. The environment camera 20 may also transmit the content of the detected action to the server 10 (for example, when a plurality of predetermined actions are defined, it also notifies which action is detected).
  • the server 10 extracts the user ID of the person who was at the coordinates at the time from the route history DB 122 based on the time information and the coordinate information received from the environment camera 20.
  • the route history DB 122 stores the history of each user's movement route (position information) at any time.
  • the server 10 controls to transmit predetermined information to the user terminal 30 associated with the user ID.
  • the association between the user ID and the user terminal 30 for example, when the user creates an account for using this system, the address of the user terminal 30 or the like can be registered in advance by associating with the user ID.
  • FIG. 24 illustrates the recognized behavior and the service provided to the user according to the application example of the present embodiment.
  • the server 10 transmits the coupon of the product and the product information such as the material and the production area to the user terminal 30.
  • the server 10 may send a special coupon to a user who picks up the same product every day at the same store. Further, the server 10 may prepare an archaeological element for searching for a product for which a coupon can be obtained as gamification. Further, the server 10 may recommend a recipe for a supper with a combination of products picked up by the user, and may also send an advertisement for the missing product.
  • the server 10 may distribute a coupon to a user who has stayed at a restaurant such as a cafe for a long time to induce an additional order.
  • the BLE beacon In the proximity determination of the BLE beacon, if there are multiple customers, it may be delivered to the wrong user terminal, but in this embodiment, the user is precisely used by using PDR (that is, positioning based on motion sensor data). Can be detected. In addition, since the PDR and the camera are combined, an excessive environmental camera that covers the entire floor is not always indispensable, the setup on the store side is easy, and the maintenance cost can be suppressed.
  • PDR that is, positioning based on motion sensor data
  • the server 10 can measure the marketing effect from the data of the user who actually visited the store, the product that attracted interest, and the purchased product. .. In addition, it will be possible to collect precise data such as products that have not been purchased even though they have reached the actual store, products that have passed through the side, and other products that have been picked up and compared.
  • the user When using only the camera image, the user cannot be linked to the account on the Web or the application unless the user is identified by some authentication method and the real world behavior data is collected.
  • the position is determined by the PDR of the user terminal. Since it can be detected, data can be easily linked.
  • FIG. 25 is a diagram illustrating a payment process using authentication information according to an application example of the present embodiment.
  • the user registers the credit card information in the server 10 in advance.
  • the user ID and the credit card information are stored in association with each other.
  • credit card information is used as an example, but it is not particularly limited as long as it is information that can be settled. For example, electronic money information, account information, mobile phone numbers, and other information that can be settled may be used.
  • the indoor positioning (acquisition of the movement vector derived from the PDR) in the user terminal 30 and the movement vector derived from the captured image of the environmental camera 20 are combined.
  • the user's current position is tracked by highly accurate position estimation (acquisition of movement route).
  • the customer who has reached the predetermined place where the settlement is performed is judged from the location information on the system (server 10) side, and the user is specified.
  • the user's face is photographed by a camera (tablet terminal 50) placed in front of the cash register to perform face authentication, and if the authentication is successful, payment can be made with the credit card information registered in advance.
  • the user can make a payment empty-handed without taking out the user terminal 30.
  • FIG. 26 is a sequence diagram showing an example of the flow of payment processing according to the application example of the present embodiment.
  • the server 10 registers the user ID and the authentication information in the authentication information DB 123 (step S603), and notifies the user terminal 30 that the authentication information has been registered (step S606). ).
  • the registration process of the authentication information and the notification to the user are as described above.
  • the product monitoring camera installed in the store analyzes the captured image, detects that the product has been acquired by the customer, and notifies the server 10 (step S609).
  • the above-mentioned environment camera 20 may be used instead of the product monitoring camera. Further, a sensor device other than the camera may be used (or used in combination).
  • the server 10 recognizes that the user whose authentication information is registered has acquired the product (step S612).
  • "Acquiring a product” means, for example, a case where a product is put in a cart such as a shopping cart.
  • the server 10 stores the product information acquired in association with the user ID.
  • the server 10 recognizes that the user whose authentication information is registered stood in front of the cash register (step S615). For example, the server 10 estimates the person in front of the cash register based on the user's movement route acquired in real time.
  • the server 10 collates the authentication information of the user standing in front of the cash register (step S618 / Yes). Specifically, the face image of the user automatically registered in the authentication information DB 123 and the face image of the person standing in front of the cash register are collated. A camera for face recognition is installed in front of the cash register, and the face of the person in front of the cash register is photographed. The verification of the authentication information (individual authentication) may be performed by the cash register terminal or the server 10.
  • the cash register terminal displays a payment approval notification to the user on the touch panel display or the like installed for the user (step). S621). For example, the cash register terminal displays "Do you want to make payment? YES / NO". To make a payment, the user taps the "YES" button.
  • the cash register terminal acquires the credit card information associated with the user from the server 10 and performs the payment process (step S627).
  • the user's credit card information can be registered in advance in association with the user ID when the user creates an account, for example, in order to use this system.
  • the user can automatically register in the facility without taking out the user terminal 30 or the credit card at the cash register, and execute the payment process using the authentication information associated with the user ID.
  • the server 10 may perform the payment processing using the credit card information.
  • the cash register terminal displays a notification prompting the user to perform authentication by an alternative means (step S631).
  • the cash register terminal displays such as "When paying, please authenticate with your smartphone".
  • the user may launch the application of this system and input biometric authentication (fingerprint authentication or the like), a passcode or the like on the user terminal 30 to perform authentication.
  • step S634 when authenticated by an alternative means (step S634 / Yes), the cash register terminal acquires the credit card information associated with the user from the server 10 and performs payment processing (step S627).
  • step S634 / No when the authentication by the alternative means is not performed (step S634 / No) or the payment is not approved (step S624 / No), the cash register terminal displays that the authentication by this system has become an error. (Step S637). In this case, the user can make payments in cash, payments with a credit card on hand, payments with electronic money, and the like.
  • the empty-handed payment process using the authentication information has been described, but the present embodiment is not limited to this.
  • FIG. 27 is a diagram illustrating a payment process using location information and a personal identification number.
  • the user registers the credit card information and the payment PIN (for example, a 4-digit number) in the server 10 in advance.
  • the payment PIN for example, a 4-digit number
  • the user ID, the credit card information, and the password are stored in association with each other.
  • credit card information is used as an example, but it is not particularly limited as long as it is information that can be settled. For example, electronic money information, account information, mobile phone numbers, and other information that can be settled may be used.
  • the indoor positioning (acquisition of the movement vector derived from the PDR) in the user terminal 30 and the movement vector derived from the captured image of the environmental camera 20 are combined.
  • the user's current position is tracked by highly accurate position estimation (acquisition of movement route).
  • the customer who has reached the accounting place is judged from the location information on the system (server 10) side, and the user is specified.
  • a screen for inputting a payment PIN is displayed on the tablet terminal 50 placed in front of the cash register.
  • the cash register terminal is registered in advance on the server 10 when the password input from the tablet terminal 50 matches the password associated with the specified user ID (obtained from the server 10) (that is, authentication is successful). It is possible to settle with credit card information. At this time, the user can make a payment empty-handed without taking out the user terminal 30.
  • authentication process and the payment process using the credit card information may be performed on the server 10.
  • the system will send location information to the store by the user approaching the cash register and tapping the smartphone (user terminal 30) in his pocket or the like several times with his finger. You may.
  • the user terminal 30 detects that it has been hit several times by the sensor, it controls to transmit the PDR position information and the like to the server 10.
  • the server 10 may perform gait authentication that estimates the identity of the user according to the way the user walks.
  • a system that executes the payment processing when the user takes out the product from the product shelf can be realized.
  • the server 10 uses the correspondence between the position information (movement route) acquired based on the information obtained from the user terminal 30 and the information obtained from the environment camera 20 and the user terminal 30 (user ID) to produce a product.
  • the payment process is executed using the credit card information or the like associated with the user ID of the user who took the item.
  • the fact that the product has been taken from the shelf can be detected by, for example, a weight sensor provided on the shelf or an environmental camera 20 provided around the shelf.
  • the person in front of the shelf has already been captured by the environmental camera 20 and the PDR.
  • the server 10 confirms that only one product has changed by the weight sensor, the server 10 performs payment processing by the credit card information or the like associated with the user ID of the person in front of the shelf. Then, the server 10 notifies the user terminal 30 of the payment result.
  • unmanned hotel check-in can be performed.
  • the user makes a hotel reservation and registers identity information with the application of this system installed in the user terminal 30 in advance (or from the website).
  • the server 10 determines (associates) the user based on the information obtained from the user terminal 30 and the information obtained from the environmental camera from the time the user enters the building containing the hotel until the user arrives at the front desk. Authentication information (for example, a face image) obtained from the image captured by the environment camera 20 is automatically registered.
  • the server 10 identifies a user who has visited the front desk by indoor positioning, and displays the room number of the user on the digital signage that the user has approached. For example, a screen such as "Welcome to Mr. XX. Please go to the room as it is. The room number is" 4122 ".” Is displayed.
  • the server 10 performs face recognition with the camera provided on the door of the room. Specifically, the server 10 compares the face image taken by the camera provided on the door of the room with the face image of the automatically registered authentication information to perform identity verification (face authentication). If the authentication is successful, the server 10 uses the information of the user registered in advance as the guest information for check-in, and performs the check-in process. Then, when the check-in process is completed, the server 10 unlocks the door of the room.
  • the server 10 can automatically call the elevator in the hall and unlock / open the door based on the location information and the authentication information.
  • the server 10 can automatically settle fitness services such as restaurants and pools in the building by verifying the identity using location information and authentication information.
  • this embodiment can also be applied to meeting navigation in the hall. Specifically, the location information in the hall is shared among a plurality of user IDs so that they can be used for meetings.
  • the user registers another user ID on the application in advance in order to use the location information in the hall for the meeting.
  • a QR code registered trademark
  • indicating a friend's user ID is displayed on an application installed on a friend's user terminal (before entering the hall), and the user displays the QR code on his / her own user terminal 30.
  • the server 10 registers the registered friend's user ID as a sharing partner of the user's location information. It should be noted that the permission to disclose the location information may be granted by both the user and the friend on the application.
  • FIG. 28 shows an example of a location information sharing screen according to an application example of the present embodiment. As shown in FIG. 28, on the location information sharing screen 365, for example, a display P indicating the location of the other party and information indicating the time at the location are displayed on the floor map.
  • the server 10 may delete each other's disclosure permission (delete the user ID registered as the sharing partner of the location information).
  • this embodiment can also be applied to a photo spot service in the hall. Specifically, it is a service in which a photograph taken by a camera installed in a photo spot in a facility is distributed to a smartphone or the like (user terminal 30) of the subject.
  • the person who visited the facility has already been captured by the environmental camera 20 installed in the facility and the PDR (an example of indoor positioning) in the user terminal 30. Then, when the user enters the photo spot and poses, the camera installed in the photo spot automatically starts shooting. Next, the photographed photograph is automatically uploaded to the server 10, and the server 10 generates a download URL that is valid for a certain period of time for each user. Then, when the user leaves the photo spot after taking a picture, the server 10 notifies the user's smartphone or the like (user terminal 30) of the download URL.
  • this embodiment can be applied to a system in which a person in charge of the facility, a marketer of a business operator, or the like notifies information to an arbitrary user based on an image of a visitor in the facility.
  • FIG. 29 shows an example of an operation screen for selecting an arbitrary user from the video in the facility and notifying the information.
  • the person in charge 70 performs an operation of tapping an arbitrary user 612 in the image taken by the environmental camera 20 displayed on the display unit 610 of the tablet terminal 60 for the administrator.
  • the selected user 612 moving body
  • the acquired information 614 for example, user ID, acquisition success / failure of face image, acquisition success / failure of bone information, etc.
  • the person in charge 70 selects the information to be notified to the selected user 612 from the notification content selection item 616.
  • Examples of the notification content selection item 616 include message notification, event guidance, coupon notification, map guide notification, warning, and the like.
  • the server 10 transmits predetermined information (selected by a person in charge at the facility side or the like) to the user terminal 30 of the selected user.
  • the person in charge at the facility or the marketer of the business can directly select the user from the image of the environmental camera 20 and notify arbitrary information (message, event information, coupon, map guide, warning, etc.). It becomes. Since the person in charge can visually check the state of the visitor and individually notify the appropriate information, customer satisfaction is improved and marketing effect can be expected. For example, by distributing coupon information to people in the target group of the store walking in front of the store, it is possible to encourage them to enter the store. In addition, customers who are lost on the floor can be immediately assisted by notifying the floor guide information. In addition, it is possible to directly warn visitors who violate prohibited acts or manners without being noticeable.
  • Tenth application example> The present embodiment can also be applied to a game using the real world.
  • Alternate Reality In an alternate reality game (Alternate Reality) performed in a facility, actions in the real world may be used as a trigger for an event in the game. Alternate reality games are hands-on play that captures the everyday world as part of the game and intersects reality and imagination.
  • the environmental camera 20 installed in the facility and the PDR (an example of indoor positioning) in the user terminal 30 have already captured the person who visited the facility, and the user terminal 30 and the environmental camera 20 also capture the user's behavior information. Since it can be acquired, it can be a trigger including not only the position information but also the action. This makes it possible to provide more real-world oriented content.
  • Alternate reality games can be played not only indoors but also outdoors. For example, if you reproduce a specific pose made by a character in a specific outdoor place (for example, a shrine or a park) that appears in the animation, the image automatically taken by the camera installed in that place will be displayed. It is transmitted to the user terminal 30.
  • a specific outdoor place for example, a shrine or a park
  • the environmental camera 20 installed at a specific outdoor location and the PDR (or satellite positioning) on the user terminal 30 have already captured the person who visited the specific location, and the user terminal 30 has already been captured.
  • User behavior information can also be acquired by the environment camera 20 and the environment camera 20.
  • the server 10 automatically grasps the shape of the queue and the situation of people in a line by using the environment camera 20 and the user terminal 30, and provides appropriate information for each user according to the situation of the line and the like. Can be done individually.
  • the server 10 notifies the employee of the part that does not have an arbitrary shape, or corrects the column to the user terminal 30 of a person who does not have an arbitrary shape. Notify that you are urged.
  • the server 10 may notify the people in line of the waiting time or the like according to the place where they are lined up. Further, the server 10 may grasp the shape of the row and the situation of the people in line and notify the store of the situation.
  • the server 10 distributes menu information to people in line to create selected products (or products that match the tastes of users in line) in advance, and uses a self-propelled robot or the like to create the ordered product. It may be carried to a place, and when the orderer obtains the product, the payment process may be completed on the spot.
  • the server 10 carries the user terminal 30 carried by the staff and the environmental camera 20 in the hospital with the behavior (location information and work contents) of the hospital staff in the hospital and the entrance information to each room in the hospital or the hospital. Can be managed using.
  • the server 10 may allow admission to the hospital or each room mainly based on the location information.
  • the server 10 can also manage whether or not the staff is heading for a patient who is in urgent need of response.
  • the server 10 can manage the situation of the patient in the hospital by using the user terminal 30 carried by the patient and the environmental camera 20 in the hospital. For example, the server 10 can grasp where the dementia patient is in the hospital. Further, the server 10 can grasp the position of the patient based on the position information even in a place where the camera is not provided. In addition, the server 10 can grasp the patient's examination information by face recognition.
  • the device shape of the user terminal 30 may be, for example, a wristband type or a clip type (wearable device). Further, when a wearable device is used, various biological information such as heartbeat, vein, sweating amount, myoelectric value, and brain wave can be acquired by the user terminal 30 if the shape is in contact with the skin.
  • a computer for causing the hardware such as the CPU, ROM, and RAM built in the server 10, the environment camera 20, or the user terminal 30 described above to exert the functions of the server 10, the environment camera 20, or the user terminal 30.
  • Programs can also be created.
  • a computer-readable storage medium that stores the computer program.
  • the present technology can also have the following configurations.
  • Information processing equipment (2) The information processing apparatus according to (1) above, wherein the state information includes information that can be recognized from the outside.
  • the information processing apparatus according to any one of (1) to (3), wherein the state information of the person is extracted from the captured image by image analysis. (5) The information processing device according to any one of (1) to (4) above, wherein the state information is characteristic information related to walking. (6) The information processing apparatus according to any one of (1) to (5) above, wherein the state information is information about a position. (7) The information processing apparatus according to any one of (1) to (6) above, wherein the state information is information relating to a distance. (8) The state information is any one of the above (1) to (7), including the positional relationship between the user and another user existing around the user, and the positional relationship between the user and the camera that acquires the captured image. The information processing apparatus according to item 1.
  • the information processing device according to any one of (1) to (8) above, wherein the state information is behavioral information.
  • the information processing apparatus according to any one of (1) to (9) above, wherein the state information is a movement pattern estimated according to a preset rule.
  • the control unit collates the movement pattern based on the movement information of the information processing terminal and the appearance characteristics of each person obtained from captured images obtained from a plurality of cameras, according to the above (10). Information processing equipment.
  • the control unit stores the user's identification character string registered in advance and the authentication information of the person extracted from the captured image of the associated person in the storage unit according to the correspondence.
  • the information processing apparatus according to any one of (1) to (11) above, which controls storage.
  • the information processing apparatus (13) The information processing apparatus according to (12), wherein the control unit controls to notify the information processing terminal that the authentication information has been stored. (14) In the collation of the movement information and the collation of the state information, the control unit calculates a collation confidence score for each person appearing in the captured image, and the person having the maximum value obtained by adding up the collation confidence scores for each person.
  • the information processing apparatus according to any one of (1) to (13), which is associated with the user.
  • the movement information of the information processing terminal includes indoor positioning information.
  • the control unit stores the movement locus information, which is the movement information of the information processing terminal, in the storage unit as the route history of the user, and when the association is performed, the captured image of the associated person.
  • the information processing apparatus controls to update the route history of the user based on the movement locus information acquired from.
  • the control unit identifies a person who is in a predetermined place where the clearing is performed by referring to the route history of each user stored in the storage unit, and the clearing is performed using the authentication information of the specified user.
  • the information processing according to any one of (1) to (17) above, which collates with the authentication information acquired from the captured image of a person in a predetermined place and performs personal authentication for payment approval. Device.
  • the processor Collation of the movement information acquired from the information detected by the information processing terminal with the movement information of one or more persons acquired from the captured image of the user carrying the information processing terminal, and acquisition from the information processing terminal.
  • the control including associating the person appearing in the captured image with the user based on the collation between the state information of the user and the state information of the one or more persons acquired from the captured image is included.
  • Information processing method (20) Computer, Collation of the movement information acquired from the information detected by the information processing terminal with the movement information of one or more persons acquired from the captured image of the user carrying the information processing terminal, and acquisition from the information processing terminal.
  • the function as a control unit that controls associating the person appearing in the captured image with the user based on the collation between the state information of the user and the state information of the one or more persons acquired from the captured image. A program to make you.

Landscapes

  • Engineering & Computer Science (AREA)
  • Theoretical Computer Science (AREA)
  • Physics & Mathematics (AREA)
  • General Physics & Mathematics (AREA)
  • Business, Economics & Management (AREA)
  • Computer Security & Cryptography (AREA)
  • Computer Vision & Pattern Recognition (AREA)
  • Accounting & Taxation (AREA)
  • Multimedia (AREA)
  • Strategic Management (AREA)
  • Health & Medical Sciences (AREA)
  • General Business, Economics & Management (AREA)
  • General Health & Medical Sciences (AREA)
  • Computer Hardware Design (AREA)
  • Human Computer Interaction (AREA)
  • General Engineering & Computer Science (AREA)
  • Software Systems (AREA)
  • Finance (AREA)
  • Social Psychology (AREA)
  • Psychiatry (AREA)
  • Tourism & Hospitality (AREA)
  • Economics (AREA)
  • Human Resources & Organizations (AREA)
  • Marketing (AREA)
  • Primary Health Care (AREA)
  • Traffic Control Systems (AREA)
  • Navigation (AREA)

Abstract

【課題】撮像画像に映る人物の判別を精度良く行うことが可能な情報処理装置、情報処理方法、およびプログラムを提供する。 【解決手段】情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部を備える、情報処理装置。

Description

情報処理装置、情報処理方法、およびプログラム
 本開示は、情報処理装置、情報処理方法、およびプログラムに関する。
 近年、マーケティングリサーチや顧客体験のパーソナライズなどで利用するために屋内位置測位技術が求められている。例えば、加速度センサ、角速度センサ、および地磁気センサといった慣性センサを用いて、屋内外問わず相対的な移動情報が得られる技術がある。例えば下記特許文献1では、屋内に設けられる可動式カメラと、歩行者が持つPDR(Pedestrian Dead Reckoning)機能を具備する携帯端末とを用いて、位置情報を算出する屋内測位方法について開示されている。
特許第6340862号公報
 しかし、上記特許文献1では、広範囲をカバーするために、歩行者の携帯端末から得られる位置情報の方向に可動式カメラを回転させて撮影を行っているが、位置情報が誤差を含んでいる場合は正しく制御することが困難となる。また、画角内の人物とユーザとの対応付けについては考慮されてない。
 そこで、本開示では、撮像画像に映る人物の判別を精度良く行うことが可能な情報処理装置、情報処理方法、およびプログラムを提案する。
 本開示によれば、情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部を備える、情報処理装置を提案する。
 本開示によれば、プロセッサが、情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行うことを含む、情報処理方法を提案する。
 本開示によれば、コンピュータを、情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部として機能させるための、プログラムを提案する。
本開示の一実施形態による情報処理システムの概要について説明する図である。 本実施形態による移動ベクトルの照合について説明する図である。 移動ベクトルの照合だけでは判断できない場合について説明する図である。 本実施形態による情報処理システムの構成の一例を示す図である。 本実施形態による環境カメラの構成の一例を示すブロック図である。 本実施形態によるユーザ端末の構成の一例を示すブロック図である。 本実施形態によるサーバの構成の一例を示すブロック図である。 本実施形態による情報処理システムの動作処理の流れの一例を示すシーケンス図である。 本実施形態による環境カメラの動作処理の流れの一例を示すフローチャートである。 本実施形態によるサーバの動作処理の流れの一例を示すフローチャートである。 本実施形態によるユーザの認証用情報登録通知の画面例を示す図である。 本実施形態によるユーザの認証用情報の削除画面例を示す図である。 本実施形態によるユーザの位置測位および認証用情報の自動登録の設定画面例を示す図である。 本実施形態による照合処理の流れの一例を示すフローチャートである。 本実施形態による環境カメラの撮像画像から得られるユーザの歩行ステップのタイミングとユーザ端末のセンシングデータから得られるユーザの歩行ステップのタイミングについて説明する図である。 本実施形態によるユーザ端末における歩行ステップの抽出処理の流れの一例を示すフローチャートである。 本実施形態による環境カメラにおける歩行ステップの抽出処理の流れの一例を示すフローチャートである。 本実施形態によるサーバにおける歩行ステップの照合処理の流れの一例を示すフローチャートである。 本実施形態による相互位置関係の照合について説明する図である。 本実施形態による相互位置関係の照合の他の例について説明する図である。 本実施形態による相互位置関係の照合の他の例について説明する図である。 本実施形態による行動情報の照合について説明する図である。 本実施形態による移動パターンの照合について説明する図である。 本実施形態の応用例による認識された行動とユーザへの提供サービスについて例示する図である。 本実施形態の応用例による認証用情報を利用した決済処理について説明する図である。 本実施形態の応用例による認証用情報を利用した決済処理の流れの一例を示すシーケンス図である。 本実施形態の応用例による位置情報と暗証番号を利用した決済処理について説明する図である。 本実施形態の応用例による位置情報シェア画面の一例を示す図である。 本実施形態の応用例による施設内の映像から任意のユーザを選択して情報通知を行うための操作画面の一例を示す図である。
 以下に添付図面を参照しながら、本開示の好適な実施の形態について詳細に説明する。なお、本明細書及び図面において、実質的に同一の機能構成を有する構成要素については、同一の符号を付することにより重複説明を省略する。
 また、説明は以下の順序で行うものとする。
 1.本開示の一実施形態による情報処理システムの概要
 2.構成例
 3.動作処理例
  3-1.情報処理システムの動作処理
  3-2.環境カメラ20の動作処理
  3-3.サーバ10の動作処理
 4.照合処理および照合信頼スコアの算出
  4-1.照合処理の流れ
  4-2.移動ベクトルの照合および照合信頼スコアの算出
  4-3.歩行ステップの照合および照合信頼スコアの算出
  4-4.位置関係の照合および照合信頼スコアの算出
  4-5.行動情報の照合および照合信頼スコアの算出
  4-6.移動パターンの照合および照合信頼スコアの算出
  4-7.照合信頼スコアの合算
 5.応用例
 6.まとめ
 <<1.本開示の一実施形態による情報処理システムの概要>>
 図1は、本開示の一実施形態による情報処理システムの概要について説明する図である。本実施形態では、ショッピングモール等の施設に訪れたユーザの施設内における移動軌跡を、ユーザが携帯する情報処理端末に設けられたセンサのデータと、施設に配置された1以上の環境カメラの映像を用いて高精度に検出することを可能とする。また、移動軌跡の照合により施設内のユーザを同定することで、ユーザの匿名性を保ったまま来客の施設内における移動軌跡を検出することができる。移動軌跡とは、移動経路であって、より具体的には位置情報(例えばグローバル座標)と時刻情報を含む。
 例えば図1に示す例では、ユーザAが所持するユーザ端末30A(情報処理端末の一例)が、センシングデータに基づいて、移動軌跡として、例えば歩行者自律航法(PDR:Pedestrian Dead Reckoning)(屋内位置測位の一例)によりユーザAの移動ベクトルを算出する。なおここではユーザAが所持するユーザ端末30であることを示すため、符号の後ろにアルファベットAを付けて図示しているが、ユーザ端末30Aの構成は後述するユーザ端末30と同様である。
 一方、施設内に設けられた環境カメラ20は、例えば撮像画像から顔検出や身体検出を行って画角内のユーザの移動ベクトルを算出する。本実施形態において、例えば環境カメラ20が対象のユーザを意識的に撮影するのではなく、環境カメラ20により撮影された映像にユーザが映り込んだ状態を想定してもよい。または、環境カメラ20により特定の顔を追跡して撮影したり、自走型ロボットのカメラなどにより特定の人物を追跡して撮影する等、意図的に撮影することも想定される。また、本実施形態では、施設内に配置されたカメラが周囲の環境を継続的に撮像するため、「環境カメラ」と称している。「環境カメラ」は、監視カメラとも称される。また、環境カメラは、固定されたカメラに限定せず、自走型ロボットやドローン等の移動体に搭載されるカメラであってもよい。また、カメラには広角レンズを用いてもよい。
 そして、ユーザ端末30Aと環境カメラ20でそれぞれ取得された各移動ベクトルを照合することで、撮像画像に映る人物と当該人物が所持するユーザ端末30Aとを対応付けることが可能となる。これにより、例えばユーザ端末30Aから取得されるユーザID(ユーザを識別する識別用文字列の一例。例えば数値)と、撮像画像から検出された顔画像400等の認証用情報(人物を外観から判別できる情報)とが対応付けられる。そして、認証用情報を用いて決済処理を行うなど、様々なサービスを提供することが可能となる。ユーザAは、施設内を歩いているだけで自身の認証用情報の自動登録が行われるため、自ら登録を行う手間が省ける。自動登録された認証用情報は、ユーザAが施設から出た際には削除するようにすることで、ユーザAのプライバシーが保護され得る。
 また、屋内測位手段として用いられるPDRは、相対的な移動ベクトルの算出という特性上、時間経過と共に誤差が累積してしまうことがある。本実施形態では、環境カメラの映像を解析した結果を組み合わせることで、屋内におけるユーザ端末(すなわちユーザ)の絶対位置を精度よく検出することができる。
 また、施設とは、ショッピングモールの他、例えばスーパーマーケット、コンビニエンスストア、書店、飲食店、アパレル店、小売店、スパ(温浴施設)、図書館、公民館、学校、駅、ホテル、病院、屋内/屋外イベント会場、映画館、リゾート施設、スポーツ施設、遊園地、テーマパーク、駐車場、公園、または神社仏閣等、様々な場所が想定される。
 (移動ベクトルの照合)
 ここで、移動ベクトルの照合について説明する。まず、ユーザ端末30では、加速度センサ、角速度センサ、磁気センサ等のモーションセンサにより検出されるセンシングデータに基づいて、(ユーザ端末30を携帯する)ユーザの移動情報(具体的には移動軌跡)を算出する。モーションセンサは、3軸の加速度と角速度を検出するIMU(Inertial Measurement Unit)を含んでもよい。より具体的には、例えばPDRにより移動ベクトルを算出する。PDRは、加速度、角速度、磁気に基づいて、屋内外問わず相対的な移動情報を得ることができる測位手段である。一方、環境カメラ20では、撮影映像からフレームごとに顔検出や身体検出、特徴点の検出、姿勢の検出等(すなわち移動体の検出)を行い、各フレームに映る同一人物(同一移動体)の位置の変化(すなわち移動)から、相対的な移動軌跡を算出する。撮像画像に複数人写っている場合は、各人物の移動軌跡が算出される。
 そして、各移動軌跡を照合することで、画角内に映る1以上の人物から、その人物に所持されるユーザ端末30を紐付けることが可能となる。図2は、本実施形態による移動ベクトルの照合について説明する図である。移動ベクトルの照合では、図2に示すように、例えばユーザ端末30においてPDRを用いて算出された移動ベクトルと、環境カメラ20において撮像画像から算出された移動ベクトルA、B、Cがあった場合に、PDR由来の移動ベクトルと最も類似する移動ベクトルを判断する。類似の判断には、例えばcos類似度を用いてもよい。また、cos類似度に限らず、照合には公知の技術を適用可能である。
 しかしながら、図3に示すように、環境カメラ20の画角内で複数人が同時に同じような方向に移動した場合、算出される移動ベクトルA、Bはほぼ同じとなり、照合だけでは正しい方を判断することが困難な場合がある。
 そこで、本開示では、移動ベクトルの照合に加えて、ユーザの状態情報の照合を行って精度良く判断することを可能とする。状態情報の照合とは、例えば歩行ステップの照合、行動情報の照合、または相互位置関係の照合等である。詳細については後述する。
 また、本開示に係るシステムでは、同一画角内に複数人のユーザがいても正しく個人(個人のユーザ端末)を対応付けることができる測位機能を実現する。加えて、本システムを用いることで認証用情報(例えば顔情報や骨格情報(身長やその他の身体構造に関する特徴等)、服装情報等)の自動登録を行うことも可能となり、様々なサービスをユーザに提供することができる。
 以上、本開示の一実施形態による情報処理システムについて説明した。続いて、本実施形態による情報処理システムおよび本情報処理システムに含まれる各装置の構成について図面を参照して説明する。
 <<2.構成例>>
 <2-1.システム構成例>
 図4は、本実施形態による情報処理システムの構成の一例を示す図である。図4に示すように、本実施形態による情報処理システムは、環境カメラ20、ユーザ端末30、およびサーバ10を含む。環境カメラ20は、例えば施設内に複数設置され、設置場所はサーバ10に既知である。また、各環境カメラ20は、カメラID(各カメラを識別するための識別用文字列の一例)を有する。ユーザ端末30は、施設に訪れるユーザに携帯される情報処理端末である。ユーザ端末30は、例えばスマートフォン、携帯電話端末、タブレット端末、またはユーザの身体に装着されるウェアラブルデバイス等であってもよい。ユーザは、ユーザ端末30を用いて事前に本システムの登録を行い、ユーザIDがサーバ10に既知となっていてもよい。本システムの登録は、ユーザ端末30に所定のアプリケーションをインストールして行ってもよいし、所定のWebサイト上から行ってもよい。
 サーバ10は、ネットワーク40(例えば施設内の専用回線)を介して環境カメラ20からカメラIDや撮像画像の解析結果(画角内の各人物の移動ベクトル、状態情報等)を受信する。また、サーバ10は、ネットワーク41(例えばWi-Fi(登録商標)、Bluetooth(登録商標)、インターネット回線)を介してユーザ端末30からユーザIDやセンシングデータの解析結果(PDRに基づく移動ベクトル、状態情報等)を受信する。また、サーバ10は、移動ベクトルの照合や状態情報の照合を行い、ユーザの施設内における移動経路を精度良く取得する。サーバ10は、ユーザの位置と行動に応じて適切な情報をユーザ端末30に通知したり、クーポンを付与したりすることがで、プロモーションを行うことができる。また、施設内におけるユーザの移動経路と行動に基づいてマーケティング効果を測定することができる。また、サーバ10は、撮像画像から抽出した顔画像等の認証用情報をユーザIDに対応付けて自動登録することが可能となる。これにより、サーバ10は、施設内で顔認証等により様々なサービスを提供することができる。例えば事前にユーザのクレジットカード情報が登録されている場合、施設内において顔認証で(ユーザ端末30を用いずに)決済を行うことが可能となる。
 なお図4に示すシステム構成は一例であって本実施形態はこれに限定されない。例えばサーバ10が複数の装置により構成されていてもよい。また、ネットワーク40およびネットワーク41が同一であってもよい。
 続いて、このような本実施形態による情報処理システムに含まれる各装置の構成について具体的に説明する。
 <2-2.環境カメラ20の構成例>
 図5は、本実施形態による環境カメラ20の構成の一例を示すブロック図である。図5に示すように、環境カメラ20は、制御部200、ビーコン発信部210、撮像部220、測距部230、通信部240、および記憶部250を有する。
 (制御部200)
 制御部200は、演算処理装置および制御装置として機能し、各種プログラムに従って環境カメラ20内の動作全般を制御する。制御部200は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部200は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部200は、人体領域抽出部201、移動体抽出部202、移動ベクトル算出部203、歩行ステップ抽出部204、位置関係抽出部205、行動情報抽出部206、および認証用情報抽出部207としても機能する。
 人体領域抽出部201は、撮像部220から取得した撮像画像(動画像の各フレーム)ごとに、人体が映っている領域を抽出する。次いで、移動体抽出部202は、複数のフレームを比較し、人体領域データに基づいて移動体を抽出し、移動体番号を付与する。例えば移動体抽出部202は、人体領域から検出された顔や身体の特徴点等に基づいて、時系列に並ぶ各フレームを比較し、移動している人物(移動体)を抽出し、移動体番号を付与する。このような移動体抽出は、t秒分の映像ごとに行われ得る。t秒分とは、例えばビーコン発信部210から定期的に発信するビーコンの発信間隔に応じた時間分であってもよい。より具体的には、例えば発信間隔と同じ時間分、発信間隔の半分の時間分、または複数の発信間隔を含む時間分であってもよい。
 移動ベクトル算出部203は、撮像画像に基づいて、各移動体の移動ベクトルを算出する。例えば、移動ベクトル算出部203は、t秒分の映像における各移動体の位置の変化を抽出し、これを繋げた軌跡をグローバル座標に変換して移動ベクトルとして算出する。移動ベクトル算出部203は、移動体番号毎の移動ベクトル情報を出力する。
 歩行ステップ抽出部204は、t秒分の映像における各移動体の歩行ステップのタイミング(例えば足の接地タイミング)を解析する。歩行ステップ抽出部204は、移動体番号毎の歩行ステップ情報を出力する。
 位置関係抽出部205は、撮像画像に映る複数の移動体の位置関係(相互位置関係)を解析する。位置関係抽出部205は、撮像画像を解析して複数の移動体の位置関係を解析してもよいし、測距部230により取得された各移動体と環境カメラ20との間の距離を示す距離情報を参照して複数の移動体の位置関係を解析してもよい。また、位置関係抽出部205は、t秒分の映像における位置関係の変化を解析してもよい。位置関係抽出部205は、移動体番号毎の(周囲の移動体との)相互位置関係情報を出力する。
 行動情報抽出部206は、撮像画像に映る複数の移動体の行動情報を抽出する(行動認識とも称される)。行動情報抽出部206は、撮像画像を解析し、例えば静止、歩き、走り、階段、エレベータ、エスカレータ等の行動を抽出する。行動情報の抽出には、公知の技術を適用し得る。行動情報抽出部206は、移動体番号毎の行動情報を出力する。
 認証用情報抽出部207は、撮像画像から、ユーザの認証に使用できる情報(ユーザを外観から判別することが可能な情報。本明細書では認証用情報と称す)を抽出する。例えば、顔、身体、骨格、服装、または歩き方等の情報が認証用情報として抽出され得る。認証用情報は特徴量化されたものであってもよい。認証用情報抽出部207は、移動体番号毎の認証用情報を出力する。
 制御部200は、以上説明した移動体番号毎の移動ベクトル情報、歩行ステップ情報、相互位置関係情報、行動情報を、カメラIDおよび撮像時間と共に、通信部240からサーバ10に送信する制御を行う。送信のタイミングは特に限定しない。また、制御部200は、撮像画像も併せてサーバ10に送信してもよい。
 (ビーコン発信部210)
 ビーコン発信部210は、ユーザ端末30にトリガーをかけるための信号の一例であるビーコンを発信する機能を有する。ここでは一例としてBLE(Bluetooth Low Energy)のビーコンを発信する。ビーコンの発信タイミングは特に限定しないが、例えばビーコン発信部210は、所定間隔で継続的に発信する。また、ビーコンは、少なくとも環境カメラ20の画角内に位置するユーザ端末30に届くことが望ましい。
 (撮像部220)
 撮像部220は、撮像レンズや絞り、ズームレンズ、およびフォーカスレンズ等により構成されるレンズ系、レンズ系に対してフォーカス動作やズーム動作を行わせる駆動系、レンズ系で得られる撮像光を光電変換して撮像信号を生成する固体撮像素子アレイ等を有する。固体撮像素子アレイは、例えばCCD(Charge Coupled Device)センサアレイや、CMOS(Complementary Metal Oxide Semiconductor)センサアレイにより実現されてもよい。
 (測距部230)
 測距部230は、ユーザ端末30との間の距離を示す距離情報を取得する機能を有する。測距方法は特に限定しないが、例えば、BluetoothのRSSIを用いた測距や、UWB(Ultra-Wide Band)を用いた測距であってもよい。測距部230が距離を算出してもよいし、ユーザ端末30側で算出された距離情報を測距部230が受信してもよい。また、測距部230は、移動体(ユーザ)との間の距離を取得できる深度センサ等であってもよい。
 (通信部240)
 通信部240は、他の装置との間でデータの送受信を行うための通信モジュールである。例えば通信部240は、ネットワーク40を介してサーバ10と接続し、データの送受信を行う。
 (記憶部250)
 記憶部250は、制御部200が各種処理を実行するためのプログラム等を記憶する。また、記憶部250は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。また、記憶部250は、制御部200の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現されてもよい。
 以上、本実施形態による環境カメラ20の構成について具体的に説明した。なお本実施形態による環境カメラ20の構成は図5に示す例に限定されない。例えば、環境カメラ20は、測距部230を有していなくともよい。また、歩行ステップ抽出部204、位置関係抽出部205、および行動情報抽出部206のうち少なくともいずれかを有している構成であってもよい。
 また、環境カメラ20の制御部200で行われる各種処理の少なくともいずれかがサーバ10で行われる構成としてもよい。例えば、制御部200は移動体抽出部202による処理までを行い、処理結果および撮像画像をサーバ10に送信し、サーバ10において、移動ベクトル算出部203、歩行ステップ抽出部204、位置関係抽出部205、行動情報抽出部206、認証用情報抽出部207の処理を行うようにしてもよい。
 <2-3.ユーザ端末30の構成例>
 図6は、本実施形態によるユーザ端末30の構成の一例を示すブロック図である。図6に示すように、ユーザ端末30は、制御部300、衛星測位部310、ビーコン受信部320、測距部330、モーションセンサ部340、通信部350、表示部360、操作入力部370、および記憶部380を有する。
 (制御部300)
 制御部300は、演算処理装置および制御装置として機能し、各種プログラムに従ってユーザ端末30内の動作全般を制御する。制御部300は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部300は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 また、本実施形態による制御部300は、移動ベクトル算出部301、歩行ステップ抽出部302、および行動情報抽出部303としても機能する。
 移動ベクトル算出部301は、モーションセンサ部340のセンシングデータに基づいて、ユーザ(ユーザ端末30を携帯している人物)の移動ベクトルを算出する。より具体的には、移動ベクトル算出部301は、モーションセンサ部340で得られた加速度、角速度、および磁気のデータに基づいて、歩数および歩幅と進行方向から移動軌跡を推定するPDR(屋内位置測位の一例)により移動ベクトルを算出してもよい。
 歩行ステップ抽出部302は、モーションセンサ部340のセンシングデータに基づいて、ユーザ(ユーザ端末30を携帯している人物)の歩行ステップのタイミングを抽出する。歩行ステップのタイミングとは、足が地面に接地した時刻であり、例えばモーションセンサ部340で得られた3軸加速度から歩行周期を取得し、各歩行周期における加速度の最大値が接地タイミングとして検出されてもよい。詳細については後述する。
 行動情報抽出部303は、モーションセンサ部340のセンシングデータに基づいて、ユーザ(ユーザ端末30を携帯している人物)の静止、歩き、走り、階段、エレベータ、エスカレータ等の行動を抽出する。例えば行動情報抽出部303は、モーションセンサ部340で得られた加速度、角速度、磁気、気圧等に基づいて、ユーザの行動を認識し得る。行動認識のアルゴリズムについては公知の技術を適用し得る。
 制御部300は、対象の施設内に入ったことを、衛星測位部310により取得された位置情報から判断した場合に、上記移動ベクトルの算出、歩行ステップの抽出、および行動情報の抽出を継続的に行い、サーバ10に送信する制御を行う。かかる制御は、予め本システムの利用のためにユーザ端末30にインストールしたアプリケーションにより行うようにしてもよい。対象の施設の位置情報や送信するデータの内容等は、記憶部380に記憶されていてもよい。
 (衛星測位部310)
 衛星測位部310は、GPS(Global Positioning System)その他のGNSS(Global Navigation Satellite System)信号を受信し、受信した信号に基づいてユーザ端末30が存在している位置を検知する。衛星測位部310は、屋外測位部の一例である。また、GNSSの他、例えばWi-Fi、Bluetooth等により位置を検知するものであってもよい。衛星測位部310は、検知した位置情報を制御部300に出力する。制御部300は、かかる位置情報に基づいて、ユーザが対象の施設に入ったことを把握することができる。
 (ビーコン受信部320)
 ビーコン受信部320は、ユーザ端末30から発信されたビーコンを受信する機能を有する。かかるビーコンは、制御部300に所定の制御を開始させるトリガーとなる信号の一例である。かかるビーコンの受信により、後述するサーバ10で行われる照合対象の時刻区間が特定される。ビーコンには、当該ビーコンを発信した環境カメラ20のカメラID(例えばMACアドレス)が含まれ得る。例えば制御部300は、ビーコンの受信に応じて、測距部330により環境カメラ20との距離や周辺に存在する他ユーザ端末との距離のデータを取得し、受信したビーコンに含まるカメラID、ビーコンの受信時刻、およびユーザIDと共に、サーバ10に送信する制御を行ってもよい。なお制御部300は、ビーコンの受信をロストした際に、ビーコンの受信開始時刻および終了時刻、カメラID、およびユーザIDと共に、その間に(継続的に)取得した距離情報をサーバ10に送信する制御を行ってもよい。なお制御部300は、ビーコンの受信に応じて距離情報の取得や送信制御を行っている際も、施設内における移動ベクトルの算出、歩行ステップの抽出、および行動情報の抽出は継続的に行い、時刻情報およびユーザIDと共にサーバ10に送信する。
 (測距部330)
 測距部330は、環境カメラ20とユーザ端末30との間の距離、また、ユーザ端末30の近傍に位置する他ユーザ端末との間の距離を測定する。測距方法は特に限定しないが、例えば、BluetoothのRSSIを用いた測距や、UWB(Ultra-Wide Band)を用いた測距であってもよい。環境カメラ20とユーザ端末30との間の距離は、測距部330が距離を算出してもよいし、環境カメラ20側で算出された距離情報を測距部330が受信してもよい。このような環境カメラ20や他ユーザ端末との間の距離情報に基づいて、サーバ10によりユーザと環境カメラ20やユーザと他ユーザとの相互位置関係が把握され得る。
 (モーションセンサ部340)
 モーションセンサ部340は、人の動きを捉えるためのセンサである。例えば、モーションセンサ部340は、加速度センサ、角速度センサ、地磁気センサ、および気圧センサ等を含む。また、モーションセンサ部340は、3軸ジャイロセンサ、3軸加速度センサ、および3軸地磁気センサの合計9軸を検出可能なセンサを有していてもよい。モーションセンサ部340は、各センサにより検知したデータ(センシングデータ)を制御部300に出力する。
 (通信部350)
 通信部350は、他の装置との間でデータの送受信を行うための無線通信モジュールである。例えば通信部350は、ネットワーク41に無線通信接続し、ネットワーク41を介してサーバ10とデータの送受信を行う。無線通信方式は特に限定しないが、例えば無線LAN(Local Area Network)、Bluetooth(登録商標)、Wi-Fi(登録商標)、LTE(Long Term Evolution)、3G(第3世代の移動体通信方式)4G(第4世代の移動体通信方式)、5G(第5世代の移動体通信方式)等の通信方式を任意に用い得る。
 (表示部360)
 表示部360は、各種操作画面や通知画面等を表示する機能を有する。表示部360は、例えば液晶ディスプレイ(LCD:Liquid Crystal Display)、有機EL((Electro Luminescence)ディスプレイなどの表示装置により実現される。また、ユーザ端末30がHMD(Head Mounted Display)の際、表示部360は透過型ディスプレイであってもよい。また、表示部360は、網膜直描ディスプレイなどのレーザー走査方式ディスプレイであってもよい。また、表示部360は、表示画面を拡大投影して、ユーザの瞳に所定の画角からなる拡大虚像を結像する結像光学系を備えてもよい。
 表示部360は、ユーザ端末30がサーバ10から受信した通知内容(認証用情報の登録通知や削除通知など)や、クーポン情報、商品情報、宣伝広告等の表示を行い得る。サーバ10からは、ユーザが入った施設からの情報提供が行われ得る。
 (操作入力部370)
 操作入力部370は、ユーザによる操作指示を受付け、その操作内容を制御部300に出力する。操作入力部370は、例えば、ボタン、スイッチ、またはタッチセンサ等であってもよい。また、操作入力部370は、ユーザの音声や動き、身振り手振り等を検知して操作指示を受け付けてもよい。
 (記憶部380)
 記憶部380は、制御部300が各種処理を実行するためのプログラム等を記憶する。また、記憶部380は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。また、記憶部380は、制御部300の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現されてもよい。
 以上、本実施形態によるユーザ端末30の構成について具体的に説明した。なお本実施形態によるユーザ端末30の構成は図5に示す例に限定されない。例えば、ユーザ端末30は、歩行ステップ抽出部302および行動情報抽出部303のうち少なくともいずれかを有している構成であってもよい。
 また、ユーザ端末30の制御部300で行われる各種処理の少なくともいずれかがサーバ10で行われる構成としてもよい。例えば、制御部300はモーションセンサ部340により検知されたデータ(センシングデータ)を、検知時刻と共にサーバ10に送信し、サーバ10において、移動ベクトル算出部301、歩行ステップ抽出部302、行動情報抽出部303の処理を行うようにしてもよい。
 また、ユーザ端末30は、さらにカメラ、赤外線センサ、生体センサ(脈拍、心拍、発汗、血圧、体温、呼吸、筋電値、脳波)、マイクロホン等のセンサを有していてもよい。例えば行動情報抽出部303は、これらのセンサからのセンシングデータも用いて行動情報を抽出(行動認識)してもよい。
 また、ユーザ端末30は、複数の装置により実現されてもよい。例えば、HMD等により実現される表示装置(少なくとも表示部360に対応)と、スマートフォンやタブレット端末、ウェアラブルデバイス等により実現される情報処理端末(少なくとも制御部300に対応)とを含む構成であってもよい。
 また、情報呈示部の一例として表示部360を挙げたが、本実施形態はこれに限定されず、ユーザへの各種通知(認証用情報の登録通知、削除通知、施設で利用できるクーポン等のお得情報の通知、施設の宣伝広告等)は、図示しない音声出力部からの音声出力により行われてもよい。音声出力部は、ユーザ端末30に設けられていてもよいし、ユーザ端末30とは別体で構成されていてもよい。また、施設内に設けられるスピーカから音声出力されてもよい。施設内に設けられるスピーカは指向性スピーカであってもよい。指向性スピーカの場合、ユーザの位置に向けて音声を出力し、ユーザに所定の情報を通知することができる。また、情報呈示は、表示出力と音声出力を組み合わせて行われてもよい。また、認証用情報が登録されたか否かや、認証用情報の削除通知等を、ユーザ端末30に設けられた発光部や振動部により行うようにしてもよい。発光部の発光色や発光パターン(点滅等)、また、振動パターン等で各種通知を行うことが可能である。
 <2-4.サーバ10の構成例>
 図7は、本実施形態によるサーバ10の構成の一例を示すブロック図である。図7に示すように、サーバ10は、制御部100、通信部110、および記憶部120を有する。
 制御部100は、演算処理装置および制御装置として機能し、各種プログラムに従ってサーバ10内の動作全般を制御する。制御部100は、例えばCPU(Central Processing Unit)、マイクロプロセッサ等の電子回路によって実現される。また、制御部100は、使用するプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、及び適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)を含んでいてもよい。
 制御部100は、通信部110により環境カメラ20およびユーザ端末30から受信から受信した各データを記憶部120に格納する。具体的には、制御部100は、環境カメラ20から受信した情報(カメラID、時刻情報、撮像画像(映像)、撮像画像を解析して得られた各種情報(画像に映る各移動体の移動ベクトル、歩行ステップ、行動情報、相互位置関係、および認証用情報等))を撮像画像DB(データベース)121に格納する制御を行う。また、制御部100は、ユーザ端末30から受信した情報(ユーザID、時刻情報、移動ベクトル情報(例えばPDR位置情報)、歩行ステップ情報、および行動情報等)を経路履歴DB122に格納する制御を行う。
 また、制御部100は、移動ベクトル照合部101、歩行ステップ照合部102、位置関係照合部103、行動情報照合部104、移動パターン照合部105、対応付け部106、情報登録部107、および経路更新部108としても機能する。
 移動ベクトル照合部101は、ユーザ端末30から得られた移動ベクトルと、環境カメラ20から得られた移動体の移動ベクトルとの照合を行う。具体的には、移動ベクトル照合部101は、ユーザ端末30が環境カメラ20からのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における移動ベクトルと、当該ビーコンを発信した環境カメラ20が撮像した当該時刻における撮像画像から取得した各移動体の移動ベクトルとの照合を行う。移動ベクトルの照合は、図2を参照して説明したように、ユーザ端末30の移動ベクトルと各移動体の移動ベクトルとの類似度をそれぞれ算出し、最も類似する移動ベクトルを判断してもよい。最も類似する移動ベクトルを示す移動体が、ユーザ端末30を携帯するユーザであると言える。
 歩行ステップ照合部102は、ユーザ端末30から得られた歩行ステップと、環境カメラ20から得られた移動体の歩行ステップとの照合を行う。具体的には、歩行ステップ照合部102は、ユーザ端末30が環境カメラ20からのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における歩行ステップと、当該ビーコンを発信した環境カメラ20が撮像した当該時刻における撮像画像から取得した各移動体の歩行ステップとの照合を行う。歩行ステップの照合処理の詳細については後述する。また、歩行ステップは、本実施形態において「状態情報」の一例である。図3を参照して説明したように、同一画角内で複数の移動体(人物)が同時に同じような方向に移動した場合、上記移動ベクトルの照合だけではユーザを判別することが困難となる。そこで本実施形態では、移動ベクトルの照合のみならず、状態情報(例えば歩行ステップ)の照合も加味してユーザを判別することで、判別の精度を高めることを可能とする。
 位置関係照合部103は、ユーザ端末30から得られた位置関係(環境カメラ20または周囲の他ユーザ端末との相互位置関係)と、環境カメラ20から得られた移動体の位置関係(各移動体との距離または各移動体の周囲の移動体との相互位置関係)との照合を行う。相互位置関係には、位置情報(例えばグローバル座標)や距離情報が含まれ得る。より具体的には、位置関係照合部103は、ユーザ端末30が環境カメラ20からのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における位置関係と、当該ビーコンを発信した環境カメラ20が撮像した当該時刻における撮像画像から取得した各移動体の位置関係との照合を行う。位置関係の照合処理の詳細については後述する。また、位置関係は、本実施形態において「状態情報」の一例である。図3を参照して説明したように、同一画角内で複数の移動体(人物)が同時に同じような方向に移動した場合、上記移動ベクトルの照合だけではユーザを判別することが困難となる。そこで本実施形態では、移動ベクトルの照合のみならず、状態情報(例えば位置関係)の照合も加味してユーザを判別することで、判別の精度を高めることを可能とする。
 行動情報照合部104は、ユーザ端末30から得られた行動情報と、環境カメラ20から得られた移動体の行動情報との照合を行う。具体的には、歩行ステップ照合部102は、ユーザ端末30が環境カメラ20からのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における行動情報と、当該ビーコンを発信した環境カメラ20が撮像した当該時刻における撮像画像から取得した各移動体の行動情報との照合を行う。行動情報の照合処理の詳細については後述する。また、行動情報は、本実施形態において「状態情報」の一例である。図3を参照して説明したように、同一画角内で複数の移動体(人物)が同時に同じような方向に移動した場合、上記移動ベクトルの照合だけではユーザを判別することが困難となる。そこで本実施形態では、移動ベクトルの照合のみならず、状態情報(例えば行動情報)の照合も加味してユーザを判別することで、判別の精度を高めることを可能とする。
 移動パターン照合部105は、ユーザ端末30から得られた情報に基づくユーザの移動パターンと、複数の環境カメラ20から得られた情報(統合した情報)に基づく各移動体の移動パターンとの照合を行う。移動パターンとは、例えば予め設定されたルールに当てはまる移動パターン(施設内の地図情報を用いて設定されたルート等)である。
 移動パターン照合部105は、ユーザ端末30が第1の環境カメラからのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における移動ベクトルと、第1の環境カメラと隣接する(近くに位置する)第2の環境カメラからのビーコンを受信した時刻(例えば受信開始から終了までのt秒間)における移動ベクトルとを統合して移動パターンを抽出する。また、移動パターン照合部105は、隣接する第1および第2の環境カメラが撮像した撮像画像から取得した各移動体の移動ベクトルを統合して各移動体の移動パターンを抽出する。なお隣接する第1および第2の環境カメラが撮像した撮像画像から抽出される各移動体の同定(同一人物の探索)には、例えば各移動体の顔情報、骨格情報、服装情報、または歩き方情報等の外見的特徴が用いられる。
 移動パターンの照合処理の詳細については後述する。また、移動パターンは、本実施形態において「状態情報」の一例である。図3を参照して説明したように、同一画角内で複数の移動体(人物)が同時に同じような方向に移動した場合、上記移動ベクトルの照合だけではユーザを判別することが困難となる。そこで本実施形態では、移動ベクトルの照合のみならず、状態情報(例えば移動パターン)の照合も加味してユーザを判別することで、判別の精度を高めることを可能とする。
 対応付け部106は、上述した照合結果に基づいて、環境カメラ20により取得された撮像画像に映る人物(移動体)と、ユーザ端末30を所持するユーザとの対応付けを行う。例えば対応付け部106は、各照合の信頼性を示す照合信頼スコアを算出し、算出した照合信頼スコアを参照して対応付けを行ってもよい。具体的には、対応付け部106は、移動体毎に各照合信頼スコアを合算し、合算した値が最大となる移動体をユーザと判別して、移動体とユーザとの対応付けを行う。
 また、対応付け部106は、各照合結果のうち少なくともいずれかに基づいてユーザの対応付けを行ってもよいし、各照合結果のうち少なくとも2以上の照合結果に基づいてユーザの対応付けを行ってもよい。例えば、対応付け部106は、移動ベクトルの照合と、状態情報(例えば歩行ステップ、位置関係、行動情報、および移動パターンの少なくともいずれか)の照合とに基づいて対応付けを行ってもよい。状態情報とは、外から認識され得る情報(すなわち外部から観測することができる情報であって、例えば動きや位置等)を含む。状態情報は、ユーザ端末20の各種センシングデータから抽出され得る。また、状態情報は、環境カメラ20の撮像画像から画像解析により抽出され得る。本実施形態では、状態情報の一例として、歩行ステップ、位置関係(座標位置、距離情報等)、行動情報、および移動パターンを用いるが、本開示による状態情報はこれに限定されない。また、対応付け部106は、移動ベクトルの照合だけではユーザを判別できない(対象移動体を特定できない)場合に、1以上の状態情報の照合に基づいて対応付けを行ってもよい。また、対応付け部106は、各照合結果を総合し、最も多く照合した(照合が成功した)移動体を、ユーザと判別してもよい。
 情報登録部107は、ユーザに対応付けられた人物(移動体)の認証用情報(顔情報等)を、当該ユーザの認証用情報として認証用情報DB123に登録する。具体的には、情報登録部107は、ユーザIDと認証用情報を登録する。登録する認証用情報は、照合が成功した環境カメラ20で取得された認証用情報を想定する。オクルージョン等の理由により照合が成功した環境カメラ20で認証用情報が取得できなかった場合、経路履歴DB122の当該ユーザIDのデータから過去に通過した環境カメラ20を推定し、その環境カメラ20で取得された認証用情報を登録するようにしてもよい。また、同様に、あるタイミングで照合成功したユーザに対してその後に通過した環境カメラ20の映像から取得した認証用情報を登録してもよい。また、情報登録部107は、認証用情報が登録された旨をユーザ端末30に通知してもよい。
 なお、認証用情報取得専用のカメラと移動ベクトル等の照合用の環境カメラは別々であってもよい。認証用情報取得専用のカメラは、照合用の環境カメラと同じ場所に設けられてもよいし、来訪者の顔をより多く撮影できる1以上の場所(例えば施設の入り口等)に設けられてもよい。例えば入館時に認証用情報を取得しておいて、その後移動ベクトル等による照合が完了した時点で入館時に取得した認証用情報をユーザIDと対応付けて登録することが可能となる。認証用情報取得用のカメラは画角を絞ったり高倍率高解像度のカメラを使ったりするなど、性能スペックを移動ベクトル照合用の環境カメラと分けることができる。例えば照合が成功したユーザIDの経路履歴から認証用情報取得専用のカメラ付近を通過した時間帯を特定、若しくは認証用情報取得専用のカメラからのビーコンを受信した時間帯に基づいて通過した時間帯を特定し、その時間帯に認証用情報取得専用のカメラから取得された認証用情報(より精度の高い認証用情報)を、認証用情報DB123に登録するようにしてもよい。ユーザが通過した時間帯に認証用情報取得専用のカメラから複数の認証用情報が取得されている場合は、照合用のカメラから取得されたユーザの認証用情報とマッチングして正しい認証用情報を取得するようにしてもよい。
 また、認証用情報取得専用のカメラは、UWB等で正確に位置を測れるドローンに設けられていてもよい。当該ドローンは館内を飛行して来訪者を撮影する。
 一方、照合が上手くいかなかった場合、情報登録部107は、照合が上手くいかなかった(すなわち対応付け出来なかった)ユーザIDとカメラIDを未定情報DB124に登録する。
 また、情報登録部107は、最新のデータに基づいて認証用情報DB123に格納される認証用情報を更新してもよい。また、情報登録部107は、最新のデータに基づいて認証用情報DB123に格納される認証用情報を増やしていってもよい。
 経路更新部108は、経路履歴DB122に格納されたユーザの過去の移動経路と新たに取得した移動経路とを併合する処理、および、ユーザの対応付けが行われた後の位置補正処理により、データ更新を行う。上述したように、施設内に入ったユーザのユーザ端末30からは継続的にPDR位置情報(すなわち移動ベクトル)がサーバ10に送信される。経路更新部108は、取得したPDR位置情報を併合し、施設内におけるユーザの移動経路を生成する。また、上述したように、PDRは相対的な移動ベクトルの算出という特性上、時間経過と共に誤差が累積してしまうことがある。そこで、本実施形態では、対応付け部106によりユーザの特定(対応付け)が行われた場合に、経路更新部108により、環境カメラ20から得られた移動ベクトル(対応付けられた移動体の移動ベクトル)に基づいて経路履歴DB122に格納されている移動経路を補正する。これにより、より精度の高い移動経路を生成することが可能となる。
 なお、経路更新部108は、ユーザの認証用情報(顔情報等)が自動登録された後は、環境カメラ20から得られた撮像画像から認証用情報に基づいてユーザを特定し、移動経路の補正を行うことも可能となる。
 また、本実施形態による制御部100は、さらに、施設からの各種情報をユーザに通知する制御を行い得る。例えば制御部100は、ユーザの移動経路や行動に応じて適切な情報を通信部110からユーザ端末30に送信する制御を行い得る。情報の送信は、予め登録された端末アドレスに対して行われてもよい。
 (通信部110)
 通信部110は、他の装置との間でデータの送受信を行うための通信モジュールである。例えば通信部110は、ネットワーク40を介して1以上の環境カメラ20(施設内の各所に設置されたカメラ)と接続し、データの送受信を行う。また、通信部110は、ネットワーク41を介して1以上のユーザ端末30(施設内を移動する各ユーザが携帯するユーザ端末)と接続し、データの送受信を行う。
 (記憶部120)
 記憶部120は、制御部100が各種処理を実行するためのプログラム等を記憶する。また、記憶部120は、記憶媒体、記憶媒体にデータを記録する記録装置、記憶媒体からデータを読み出す読出し装置および記憶媒体に記録されたデータを削除する削除装置等を含むストレージ装置により構成される。また、記憶部120は、制御部100の処理に用いられるプログラムや演算パラメータ等を記憶するROM(Read Only Memory)、および適宜変化するパラメータ等を一時記憶するRAM(Random Access Memory)により実現されてもよい。
 本実施形態による記憶部120は、撮像画像DB121、経路履歴DB122、認証用情報DB123、未定情報DB124、および施設内地図情報DB125を格納する。撮像画像DB121は、環境カメラ20から得たデータ(カメラID、時刻情報、撮像画像、移動ベクトル情報、歩行ステップ情報、行動情報、認証用情報等)を記憶する。経路履歴DB122は、ユーザ端末30から得たデータ(ユーザID、時刻情報、移動ベクトル情報、歩行ステップ情報、行動情報、距離情報、受信したカメラID等)を記憶する。認証用情報DB123は、ユーザIDと認証用情報を対応付けて記憶する。未定情報DB124は、照合が成功しなかったユーザIDとカメラIDを記憶する。施設内地図情報DB125は、施設内の地図情報を記憶する。地図情報には、各環境カメラ20の設置場所情報が含まれ得る。
 以上、本実施形態によるサーバ10の構成について具体的に説明した。なお本実施形態によるサーバ10の構成は図7に示す例に限定されない。例えば、サーバ10は、複数の装置により実現されてもよい。
 また、サーバ10は、環境カメラ20の制御部200が有する各機能や、ユーザ端末30の制御部300が有する各機能を有していてもよい。
 <<3.動作処理>>
 続いて、本実施形態による動作処理について具体的に説明する。
 <3-1.情報処理システムの動作処理>
 図8は、本実施形態による情報処理システムの動作処理の流れの一例を示すシーケンス図である。
 図8に示すように、まず、ユーザ端末30は、衛星測位部310から衛星測位による位置情報を取得する(ステップS103)。
 次に、位置情報に基づいて対象施設に入ったことが判明した場合(ステップS106/Yes)、制御部300は、モーションセンサ部340を起動する(ステップS109)。対象施設の場所情報は、予め記憶部380に記憶され得る。なお、かかるモーションセンサ部340の起動トリガーは一例であって、モーションセンサ部340が既に起動している場合も想定される。また、制御部300は、対象施設入口等に設置されている装置から受信した信号(BLEのビーコン等)に応じてモーションセンサ部340を起動するようにしてもよい。
 次いで、制御部300は、モーションセンサ部340から得たセンシングデータに基づいて、移動ベクトルの算出や、歩行ステップ、および行動情報の抽出を行う(ステップS112)。かかる移動ベクトルの算出や、歩行ステップ、および行動情報の抽出は、施設内を移動している間継続的に行われ得る。
 次に、制御部300は、移動ベクトル(PDR位置情報)、歩行ステップ、および行動情報を、取得時刻およびユーザIDと共に、サーバ10に送信する制御を行う(ステップS115)。サーバ10への送信タイミングは特に限定しないが、例えば一定時間間隔で行うようにしてもよい。
 次に、サーバ10は、ユーザ端末30から受信した情報を、経路履歴DB122に記憶する(ステップS118)。
 一方、施設内に配置されている1以上の各環境カメラ20は、継続的に周囲を撮像し、また、定期的に所定のビーコンを発信する制御を行う(ステップS121)。
 次いで、環境カメラ20は、撮像画像から取得した情報をサーバ10に送信する(ステップS124)。具体的には、環境カメラ20は、撮像画像から取得した各移動体の移動ベクトル、歩行ステップ、位置関係、行動情報等や、認証用情報を、当該撮像画像、時刻情報、およびカメラID等と共に、サーバ10に送信する制御を行う。
 次に、サーバ10は、環境カメラから受信した情報を、撮像画像DB121に記憶する(ステップS126)。
 続いて、ユーザ端末30は、環境カメラ20からの上記ビーコンの受信に応じて、ビーコンを受信した時間帯を示す時刻情報(例えばビーコンの受信開始時刻と終了時刻。ユーザは移動しているため環境カメラ20から離れるとビーコンをロストし得る)、ビーコンに含まれるカメラID、ユーザID、および測距情報をサーバ10に送信する制御を行う(ステップS127)。測距情報は、ユーザ端末30が、環境カメラ20からのビーコンの受信をトリガーとして測距部330により取得した情報である。測距情報は、例えばユーザ端末30と環境カメラ20の間の距離情報や、ユーザ端末30と周辺に位置する他ユーザ端末との間の距離情報である。
 次に、サーバ10の制御部100は、環境カメラ20から受信した情報とユーザ端末30から受信した情報に基づいて各種照合を行い、ユーザの判別(対応付け)、および(対応付けられたユーザの)認証用情報の認証用情報DB123への登録を行う(ステップS130)。サーバ10は、認証用情報を用いて施設内でユーザ認証を行うことが可能となる。また、サーバ10は、ユーザ認証による決済処理など、様々なサービスを提供することが可能となる。これらのサービスの提供やユーザ認証を行う装置はサーバ10と別の情報処理装置やシステムであってもよい。
 次いで、情報登録部107は、ユーザの経路履歴DB122に記憶されている経路履歴(移動経路の履歴)を、環境カメラ20の撮像画像から取得された当該ユーザの移動ベクトルに基づいて補正し、更新する(ステップS133)。これにより、PDRに基づく移動経路の誤差が修正され、移動経路の精度が高まる。サーバ10は、ユーザの施設内における位置や移動経路、所定の場所での所定の行動等に基づいて、適切な情報をユーザに提供することが可能となる。
 そして、ユーザ端末30は、ユーザが対象施設を出たことを検知すると(ステップS136/Yes)、当該ユーザのユーザIDに対応付けられるデータの削除をサーバ10にリクエストする(ステップS139)。ユーザが対象施設を出たことは、例えば施設出口に設けられた装置から受信した信号(BLEのビーコン等)に基づいて判断されてもよいし、衛星測位部310により取得された位置情報に基づいて判断されてもよい。
 サーバ10は、上記リクエストを受信すると、撮像画像DB121、経路履歴DB122、認証用情報DB123、および未定情報DB124から、当該ユーザIDに紐付く情報を全て削除する(ステップS142)。なおサーバ10は、例えばユーザに承認された場合は、経路履歴DB122からユーザIDの紐付けを削除し、移動経路の情報は匿名性を保った状態で履歴として残し、マーケティング効果の測定等に用いることもできる。
 また、ここでは一例としてユーザIDに紐付くデータの削除をユーザが対象施設を出た際にユーザ端末30が自動でリクエストする処理を説明したが、本実施形態はこれに限定されない。例えばユーザがユーザ端末30を用いて手動で削除リクエストするようにしてもよい。
 以上、本実施形態による情報処理システムの全体の流れの一例について説明した。続いて、本実施形態による情報処理システムの各動作処理について具体的に順次説明する。
 <3-2.環境カメラ20の動作処理>
 図9は、本実施形態による環境カメラ20の動作処理の流れの一例を示すフローチャートである。図9に示すように、まず、環境カメラ20の制御部200は、撮像部220により撮像された、t秒分の撮像画像(映像)を取得する(ステップS203)。撮像された映像は記憶部250に記憶し、適宜制御部200により取り出せるようにしてもよい。
 次に、人体領域抽出部201は、各フレーム(t秒分の映像を構成する各静止画像)から人物(人体領域)を抽出する(ステップS206)。
 次いで、移動体抽出部202は、各フレームの比較に基づいて移動体を抽出する(ステップS209)。具体的には、移動体抽出部202は、時系列に並ぶ各フレームを比較し、抽出した人物の移動を認識し、移動体として抽出する。
 次に、移動体抽出部202は、抽出した移動体に移動体番号を付与する(ステップS212)。
 次いで、移動ベクトル算出部203は、撮像画像に基づいて、各移動体の移動ベクトルを算出する(ステップS215)。
 次に、歩行ステップ抽出部204は、撮像画像に基づいて、各移動体の歩行ステップを抽出する(ステップS218)。
 次いで、位置関係抽出部205は、撮像画像に基づいて、各移動体の相互位置関係を抽出する(ステップS218)。例えば位置関係抽出部205は、撮像画像に映る各移動体の大きさ等から遠近関係を把握し、各移動体同士の相互位置関係や、各移動体と環境カメラ20との相互位置関係を抽出してもよい。また、位置関係抽出部205は、各移動体と環境カメラ20との間の距離に基づいて、三辺測量を行うことで各移動体同士の位置関係を抽出してもよい。
 次に、認証用情報抽出部207は、撮像画像から各移動体の認証用情報を抽出する(ステップS224)。
 そして、サーバ10は、移動体番号を付与した各移動体の移動ベクトル、歩行ステップ、相互位置関係、および認証用情報を、カメラIDおよび時刻情報と共にサーバ10へ送信する(ステップS227)。これらの情報は、サーバ10の撮像画像DB121に蓄積される。なおサーバ10は、新たに蓄積する情報と、撮像画像DB121に既に蓄積されている当該カメラIDの環境カメラ20から取得された前時刻区間の映像における各移動体の相互位置関係とを突き合わせて、同一の移動体とみなす移動体の移動体番号を紐付ける処理を行う。
 以上、環境カメラ20の動作処理の一例について説明した。なお、環境カメラ20の動作処理は、必ずしも図9に示す順で行わなくともよい。例えば、ステップS215~S224に示す各処理は、順序が異なってもよいし、並列であってもよい。
 <3-3.サーバ10の動作処理>
 次に、本実施形態によるサーバ10の動作処理について説明する。図10は、本実施形態によるサーバ10の動作処理の流れの一例を示すフローチャートである。
 図10に示すように、まず、サーバ10は、環境カメラ20から発信されたビーコンの受信をトリガーとしてユーザ端末30が取得しサーバ10に送信する情報を受信する(ステップS303)。ユーザ端末30は、図8のステップS127に示すように、環境カメラ20からのビーコンを検知すると、ビーコンの検知を開始した時刻とカメラID(ビーコンに含まれるMACアドレス)を記憶する。次いでユーザ端末30は、モーションセンサ部340によりユーザ端末30と環境カメラ20との間の距離や、周囲に存在する他ユーザ端末との距離を取得する。そしてユーザ端末30は、ビーコンをロストした時刻をビーコンの検知終了時刻とし、かかるビーコンの検知開始および終了時刻と、測距データと、カメラIDと、ユーザIDとを、サーバ10に送信する。
 次に、サーバ10の制御部100は、ユーザ端末30から得た情報と、環境カメラ20から得た情報とを照合する照合処理を行う(ステップS306)。照合により、撮像画像に映る移動体とユーザとの対応付け(すなわち、ユーザの判別)が可能となる。なおユーザ端末30から得た情報とは、上記ステップS303で受信した情報および図8のステップS118に示すようにユーザ端末30から受信して経路履歴DB122に記憶した情報である。また、環境カメラ20から得た情報とは、図8のステップS126に示すように環境カメラ20から受信して撮像画像DB121に記憶した情報である。環境カメラ20の画角内をユーザが通過した場合に、撮像画像から得られる情報とユーザが所持するユーザ端末30から得られる情報とを照合することが可能となり、ユーザの施設内における移動経路の補正や認証用情報の登録を実行し得る。
 なお照合処理を行うタイミングは特に限定しない。また、制御部100は、当該照合処理において、各照合における信頼性(ユーザであることの可能性の高さ)を示す照合信頼スコアを照合毎に算出し、これらを合算した照合信頼スコア(本明細書では、「合算照合信頼スコア」と称する)を移動体毎に算出してもよい。合算は、例えば各照合信頼スコアを重み付け平均する方法であってもよい。照合処理および照合信頼スコア算出の詳細については後述する。
 次いで、対応付け部106は、合算照合信頼スコアが閾値を超えたか否かを判断する(ステップS309)。
 次に、合算照合信頼スコアが閾値を超えた場合(ステップS309/Yes)、対応付け部106は、当該合算照合信頼スコアの最大値を示す移動体を、対象移動体として特定(すなわちユーザと判別)する(ステップS312)。これにより、撮像画像に映る移動体とユーザ(具体的には、ユーザ端末30から得られるユーザID)との対応付けを行い得る。
 次いで、経路更新部108は、移動体との対応付けが行われたユーザIDのデータ(移動経路の履歴)を、経路履歴DB122から抽出する(ステップS315)。
 次に、経路更新部108は、環境カメラ20から取得された移動ベクトルに応じて、ユーザの経路履歴を補正する(ステップS318)。具体的には、環境カメラ20の画角内を移動したユーザの移動経路を、当該環境カメラ20から取得された(映像由来の)移動ベクトルに応じて補正することで、ユーザ端末30から取得された(PDR由来の)移動ベクトルの誤差を修正することが可能となる。
 また、情報登録部107は、移動体との対応付けが行われたユーザIDと、撮像画像から取得された当該移動体の認証用情報とを対応付けて、認証用情報DB123に登録する(ステップS321)。これによりユーザの顔画像(顔の特徴量)等の認証用情報を自動登録することが可能となる。
 そして、情報登録部107は、認証用情報が登録された旨をユーザ端末30に通知する(ステップS324)。ここで、図11に、本実施形態によるユーザの認証用情報登録通知の画面例を示す図を示す。図11に示すように、ユーザ端末30の表示部360に通知画面361が表示される。通知画面361では、施設の名称(例えば「S-Mall」)を示し、ユーザに関する情報がシステムに登録された旨が表示される。例えば通知画面361のOKボタンをタップさせることでユーザの承認を得るようにしてもよい。サーバ10は、ユーザの承認を得られない場合は認証用情報を削除するようにしてもよい。
 また、アプリケーションの機能として、ユーザが任意に認証用情報を削除できるようにしてもよい。図12は、認証用情報の削除画面の一例を示す図である。図12に示すように、削除画面362には、登録済み認証用情報が表示される。削除画面362の削除ボタンがタップされた場合、ユーザ端末30がサーバ10に削除依頼を送信し、サーバ10が当該認証用情報を削除する。また、アプリケーションの機能として、施設内における位置測位や認証用情報の自動登録を無効にする機能を設けてもよい。また、オプトイン型の機能としてアプリケーションの使用時に同意を得て設定をONにしたユーザのみ位置測位と認証用情報の自動登録の対象とするようにしてもよい。図13は、位置測位および認証用情報の自動登録の設定画面の一例を示す図である。図13に示すように、設定画面363に設定ボタンを表示し、設定のON/OFFができるようにしてもよい。
 一方、合算照合信頼スコアが閾値を超えない場合(ステップS309/No)、ユーザの判別(特定)ができなかった(対応付けができなかった)ものとして、ユーザIDとカメラIDを未定情報DB124に記憶する(ステップS327)。なお、追って対応付けができた場合(施設内には多数の環境カメラ20が設置され、他の環境カメラ20から得た情報に基づいて照合が行われ得る)、未定情報DB124からは、対応付けができたユーザIDとカメラIDは削除するようにしてもよい。
 以上、本実施形態によるサーバ10の動作処理の一例について説明した。なお、サーバ10の動作処理は、必ずしも図10に示す順で行わなくともよい。例えば、ステップS315およびS318に示す処理と、ステップS321およびS324に示す処理は、順序が異なってもよいし、並列であってもよい。
 <<4.照合処理および照合信頼スコアの算出>>
 続いて、図10のステップS306で行われる照合処理および照合信頼スコアの算出について説明する。
 <3-4-1.照合処理の流れ>
 図14は、本実施形態による照合処理の流れの一例を示すフローチャートである。図14に示すように、まず、制御部100は、経路履歴DB122から、該当時間帯のデータ(ユーザ端末30から受信したユーザID、移動ベクトル、歩行ステップ等)を抽出する(ステップS403)。該当時間帯とは、図10のステップS303でユーザ端末30から受信した情報に含まれる、ユーザ端末30のビーコン検知開始時刻から終了時刻である。
 次に、制御部100は、撮像画像DB121から、該当するカメラIDにおける該当時間帯のデータ(環境カメラ20から取得した撮像画像、移動ベクトル、歩行ステップ等)を抽出する(ステップS406)。該当するカメラIDとは、図10のステップS303でユーザ端末30から受信した情報に含まれる、ユーザ端末30が検知したビーコンに含まれるカメラIDである。
 次いで、制御部100は、抽出したデータに基づいて、移動ベクトルの照合(ステップS409)、歩行ステップの照合(ステップS412)、行動情報の照合(ステップS415)、位置関係の照合(ステップS418)、および移動パターンの照合(ステップS421)を行う。各照合処理では、移動体毎に照合信頼スコアを算出する。
 そして、対応付け部106は、各照合処理において算出された照合信頼スコアを移動体毎に合算する(ステップS424)。合算方法は特に限定しないが、例えば各照合信頼スコアを重み付け平均する方法であってもよい。
 以上、照合処理の流れの一例について説明した。なお、照合処理は、必ずしも図14に示す順で行わなくともよい。例えば、ステップS409~S421に示す各照合は、順序が異なってもよいし、並列であってもよい。また、ステップS409~S421に示す各照合は全て行ってもよいし、少なくともいずれかの照合を行うようにしてもよい。また、制御部100は、各照合を順次処理する際、照合が成功した場合(すなわち、ユーザに対応する1つの移動体を特定できた場合)には後に続く他の照合処理をスキップするようにしてもよい。
 また、制御部100は、「移動ベクトルの照合」と、「歩行ステップ、行動情報、位置関係、および移動パターンのうち少なくともいずれかの照合」との少なくとも2つの照合を行うようにしてもよい。また、制御部100は、移動ベクトルの照合だけではユーザを判別(特定)できなかった場合に、歩行ステップ、行動情報、位置関係、および移動パターンのうち少なくともいずれかの照合をさらに行うようにしてもよい。また、対応付け部106は、各照合結果を総合し、最も多く照合した(照合が成功した)移動体を、ユーザと特定するようにしてもよい。
 次に、各照合処理について説明する。
 <4-2.移動ベクトルの照合および照合信頼スコアの算出>
 移動ベクトルの照合では、図2を参照して説明したように、例えばcos類似度が算出される。この場合、移動ベクトル照合部101は、下記式1に示すように、環境カメラ20から得た移動ベクトル(mvcan)とユーザ端末30から得た移動ベクトル(mvacc)のcos類似度を、移動ベクトル(Moving Vector)の照合信頼スコア(Pmv)として用いてもよい。
Figure JPOXMLDOC01-appb-M000001
 <4-3.歩行ステップの照合および照合信頼スコアの算出>
 歩行ステップの照合では、例えば環境カメラ20の撮像画像から得た歩行ステップ(足の接地)のタイミングとユーザ端末30のセンシングデータから得た歩行ステップ(足の接地)のタイミングとの時刻一致性が算出される。
 ここで、図15~図18を参照して歩行ステップのタイミング一致性の算出について説明する。
 図15は、環境カメラ20の撮像画像から得られるユーザAの歩行ステップのタイミングとユーザ端末30Aのセンシングデータから得られるユーザAの歩行ステップのタイミングについて説明する図である。ユーザ端末30Aは、例えばモーションセンサ部340により検知される3軸加速度を解析して足の接地タイミング(tacc0、tacc1、tacc2)を検出する。ここでは、例えばユーザ端末30AがユーザAのズボンの左右いずれかのポケットに入っており、加速度の波形のピークから片足の接地タイミングが検出される場合を想定する。なお図15に示す3軸加速度の波形は例示であって、本実施形態はこれに限定されない。一方、環境カメラ20は、撮像画像から、例えばユーザAの足(靴)の領域や頭部の領域を検出し、その位置(動き)から足の接地タイミング(tcam0、tcam1、tcam2)を検出する。環境カメラ20は、撮像画像からボーン検出(骨格認識)等を行ってユーザAの腰位置から足の接地タイミングを検出してもよい。また、環境カメラ20は、右足の接地タイミングと左足の接地タイミングをそれぞれ検出してもよいし、両足の接地タイミングを検出してこれを分割することで片足の接地タイミングを算出してもよい。そして歩行ステップ照合部102は、各接地タイミング(片足の接地タイミング)の時刻一致性(時間ずれ)を算出して歩行ステップの照合を行う。なお本実施形態では一例として片足の接地タイミングを照合しているが、本開示はこれに限定されず、歩行ステップ照合部102は、両足の接地タイミングを照合するようにしてもよい。例えばユーザ端末30がユーザのリュックや手持ち鞄に入っていた場合、両足の接地タイミングが加速度のピークとして現れる場合もある。ユーザ端末30は、自身の保持位置(左右差が生じる保持位置か、左右差が生じない保持位置か)を、モーションセンサ部340の機械学習によって判別することも可能である。
 図16は、ユーザ端末30における歩行ステップの抽出処理の流れの一例を示すフローチャートである。図16に示すように、まず、歩行ステップ抽出部302は、モーションセンサ部340から3軸加速度を取得する(ステップS503)。
 次に、歩行ステップ抽出部302は、3軸加速度からノルムを算出し(ステップS506)、算出結果に対してFFT(Fast Fourie Transform)を行う(ステップS509)。
 次いで、歩行ステップ抽出部302は、FFT処理結果から、最大パワー周波数を歩行周期として取得する(ステップS512)。
 次に、歩行ステップ抽出部302は、最大パワー周波帯以外の成分を除去する(ステップS515)。
 次いで、歩行ステップ抽出部302は、最大パワー周波帯以外の成分を除去したデータに対してIFFT(Inverse Fast Fourie Transform)を行う(ステップS518)。
 そして、歩行ステップ抽出部302は、IFFTを行ったデータから、歩行周期に合わせてピーク検出を行うことで片足接地タイミングを抽出する(ステップS521)。
 以上、加速度データに基づく歩行ステップの抽出について説明した。なお図16を参照して説明した歩行ステップの抽出は一例であって、本実施形態による歩行ステップの抽出方法はこれに限定されない。
 図17は、環境カメラ20における歩行ステップの抽出処理の流れの一例を示すフローチャートである。図17に示すように、まず、環境カメラ20は、撮像部220により撮像を行う(ステップS533)。
 次に、歩行ステップ抽出部204は、撮像画像から足(または靴)領域の検出する(ステップS536)。
 次いで、足(靴)領域の検出ができた場合(ステップS536/Yes)、歩行ステップ抽出部204は、足(靴)の状態から、右足の接地タイミングおよび左足の接地タイミングを検出する(ステップS542、ステップS545)。一般的に、人間が歩行する際は踵から着地してつま先で踏み出すため、歩行ステップ抽出部204は、踵の接地を検出するようにしてもよい。撮影条件に応じて、例えば歩行の各周期において踵部の移動ベクトルの絶対値が最初に0になったフレームを接地タイミングとしてもよい。または、踵からつま先方向のベクトルが天空方向に向いている状態から地面と平行になった最初のフレームを接地タイミングとしてもよい。なお、本実施形態では一例として片足の接地タイミングを照合するため、ここでは歩行ステップ抽出部204は右足および左足の接地タイミングをそれぞれ検出する。
 一方、足(靴)領域の検出ができなかった場合(ステップS536/No)、歩行ステップ抽出部204は、頭部領域を検出する(ステップS548)。
 頭部領域の検出ができた場合(ステップS551/Yes)、歩行ステップ抽出部204は、頭部位置に応じて両足分の接地タイミングを検出し(ステップS554)、接地タイミング系列を片足ずつに分割する(ステップS557)。一般的に、歩行時には身体が上下動し、接地時に最も沈み込むため、歩行ステップ抽出部204は、各歩行周期の中で頭部位置(例えば頭頂部の位置)が下端に来たフレームを接地タイミングとする。ただし左右の足のどちらで接地したかは判明しないため、歩行ステップ抽出部204は、片足分の系列データを得るためには時系列に沿って交互に割り当てることで接地タイミングを分割する必要がある。
 また、歩行ステップ抽出部204は、上記頭部位置に加えて、人間が歩行時に視点がぶれないように沈み込みに合わせて頭を上下に傾ける「頭部の代償的回転」という運動を行っていることを利用して、頭部のピッチ角が最大のフレームを選択する処理を併せて精度を向上させることも可能である。
 一方、頭部領域の検出ができなかった場合は(ステップS551/No)、歩行ステップ抽出部204は、エラーを出力する。
 なお、ここでは一例として足検出または頭部検出により接地タイミングを検出しているが、本実施形態はこれに限定されない。例えば撮像画像から骨格認識ができる場合、歩行ステップ抽出部204は、下肢の角度が最大で、左右脚の上下移動ベクトルの方向が切り替わるタイミングを接地タイミングとして検出してもよい。また、歩行ステップ抽出部204は、腰位置に基づいて接地タイミングを検出してもよい。腰位置は歩行周期の中で接地のタイミングで最も沈み込む。また、撮像画像から顔認識ができる場合、歩行ステップ抽出部204は、顔パーツの上下移動ベクトルの各周期の下限を接地タイミングとして検出してもよい。
 以上、撮像画像に基づく歩行ステップの抽出について説明した。なお図17を参照して説明した歩行ステップの抽出は一例であって、本実施形態による歩行ステップの抽出方法はこれに限定されない。
 図18は、サーバ10における歩行ステップの照合処理の流れの一例を示すフローチャートである。図18に示すように、まず、歩行ステップ照合部102は、ユーザ端末30で抽出された片足接地タイミングと、環境カメラ20で抽出された左右の各データ(上記ステップS542、S545参照)又は分割された各データ(上記ステップS557参照)との、ステップ時刻を照合する(ステップS573)。例えば歩行ステップ照合部102は、図15に示すように、環境カメラ20から得られる片足接地タイミングの時刻(tcam0=Tx、tcam1=Ty、tcam2=Tz)と、ユーザ端末30Aから得られる片足接地タイミングの時刻(tacc0=Tx+0.02、tacc1=Ty、tacc2=Tz-0.1)との時間ずれが閾値を超えない場合、歩行ステップのタイミングが一致していると判断してもよい。なお、歩行ステップ照合部102は、環境カメラ20から右足の接地タイミングと左足の接地タイミングのデータが得られている場合、各々との時間差を算出し、トータルの時間差が短いほうを採用する。
 より具体的には、例えば歩行ステップ照合部102は、下記式2を満たす場合に照合成功としてもよい。本実施形態では、下記式2を満たす移動ベクトルの移動体がユーザであると判別(特定)し得る。
Figure JPOXMLDOC01-appb-M000002
 次いで、歩行ステップ照合部102は、歩行ステップ(Walking Step)の照合信頼スコア(Pws)を算出する(ステップS576)。例えば歩行ステップ照合部102は、下記式3に示すように、環境カメラ20から得た歩行ステップ(接地タイミングtcam)とユーザ端末30から得た歩行ステップ(接地タイミングtacc)の時間ずれ(Tdiffws)を算出し、当該時間ずれが、下記式4に示すように、許容範囲(Thresholdws)内でどれほど0に近いかをもって歩行ステップの照合信頼スコア(Pws)を算出してもよい。
Figure JPOXMLDOC01-appb-M000003
Figure JPOXMLDOC01-appb-M000004
 以上、歩行ステップの照合および照合信頼スコアの算出方法について説明したが、上記内容は一例であって、本実施形態による歩行ステップの照合および照合信頼スコアの算出方法はこれに限定しない。また、ここでは一例として足が地面に接地するタイミングを示す歩行ステップを用いたが、本実施形態はこれに限定されず、歩き方や歩くリズム、歩く際の姿勢など、歩行に関する何らかの特徴を状態情報として用いて、照合してもよい。
 <4-4.位置関係の照合および照合信頼スコアの算出>
 位置関係の照合では、環境カメラ20の画角内の各移動体の相互位置関係と、ユーザ端末30が取得した距離情報に基づいて算出されるユーザ端末30の相互位置関係とが比較される位置関係照合部103は、相互位置関係の比較に基づいて、撮像画像に映る1以上の移動体からユーザを判別(特定)する。
 ここで、相互位置関係とは、ユーザ端末30と他ユーザ端末の位置関係、ユーザ端末30と環境カメラ20の位置関係、または、ユーザ端末30と他ユーザ端末と環境カメラ20との位置関係である。また、相互位置関係は、距離であってもよいし、グローバル座標に変換されたものであってもよい。
 位置関係照合部103は、ユーザ端末30が測距部330により取得した距離情報(他ユーザ端末との距離情報、および環境カメラ20との距離情報)に基づいて、三者の相互位置関係を算出してもよい。例えば位置関係照合部103は、図19に示すように、ユーザAと環境カメラ20との距離(dA-cam)と、ユーザAとユーザBの距離(dA-B)とに基づいて、相互位置関係を算出する。なお、ユーザBと環境カメラ20との距離(dB-cam)は、ユーザ端末30Bから取得し得る。若しくは、位置関係照合部103は、環境カメラ20がユーザ端末30Aおよびユーザ端末30BとそれぞれUWB通信等を行って取得した距離情報(測距部230により取得され得る)を用いてもよい。
 一方で、位置関係照合部103は、環境カメラ20から得られた撮像画像に基づいて、各移動体の位置関係を算出する。例えば図19に示すように、撮像画像222を解析して撮像画像222に映る各移動体(移動体M1および移動体M2)の遠近関係(位置関係)を推定する。この際、位置関係照合部103は、環境カメラ20に設けられる深度センサ等のデータを参照してもよい。
 そして、位置関係照合部103は、ユーザ端末30から得られた測距部330経由の位置関係と、環境カメラ20から得られた映像経由の位置関係を照合し、ユーザA(ユーザ端末30Aを所持する人物)と移動体との対応付けを行う。例えば位置関係照合部103は、相互位置関係の一致性に基づいて移動体毎に照合信頼スコアを算出してもよい。例えば位置関係照合部103は、相互位置関係のずれが許容範囲内でどれほど0に近いかをもって照合信頼スコアとしてもよい。
 以上ユーザ同士の位置関係を考慮した照合について説明したが、本実施形態はこれに限定されない。例えば、サーバ10は、ユーザ端末30によって得たユーザ端末30と環境カメラ20との間の距離情報(drf)と、環境カメラ20の映像から推定した各移動体と環境カメラ20との間の距離情報(dcam)の両方を有する。サーバ10の位置関係照合部103は、環境カメラ20の映像におけるフレーム毎にこれらの距離(drfと各dcam)を比較し、差分が許容範囲(Tolerancerel)内に収まる移動体の数に応じて照合信頼スコアを算出する。次いで、位置関係照合部103は、フレームごとの照合信頼スコアの平均を、最終的な相互位置関係の照合結果としての照合信頼スコアとする。かかる照合信頼スコアは移動体ごとに算出される。映像に写っている移動体のうち照合信頼スコアが最大となる移動体が、検索対象の移動体(すなわち、ユーザ)ということになる。以下、図20を参照して具体的に説明する。
 図20は、本実施形態による相互位置関係の照合の他の例について説明する図である。図20では、あるタイミング(フレームk=i)の環境カメラ20と移動体Mの配置を示す図である。位置関係照合部103は、解析対象の時間区間における各フレーム(k)について、環境カメラ20の映像から推定した距離(dcam k:ID)が、ユーザ端末30から得たユーザ端末30と環境カメラ20との間の距離(drfk)および許容誤差(Tolerancerel)の範囲に存在する移動体(移動体番号:ID)の数(Nk)に基づいて、相互位置関係(relation)の照合信頼スコア(Prel)を算出する。図20に示す例では、移動体M10、M11、およびM12が、ユーザ端末30から得た距離(drfk)および許容誤差(Tolerancerel)の範囲に位置しており、移動体の数は「3」となる(なおユーザ端末30を所持するターゲットはM12である)。
 位置関係照合部103は、例えば下記式5および下記式6に示すように、許容範囲内にいる移動体の個数をカウントする。下記式6において、添字「k:ID」は移動体番号がIDのk番目のフレームにおけるデータを示す。
Figure JPOXMLDOC01-appb-M000005
Figure JPOXMLDOC01-appb-M000006
 許容誤差(Tolerancerel)の範囲に存在する移動体が多い場合は対象移動体の特定(ユーザの判別)を誤る確率も高いため、照合信頼スコア(Prel k)は下がる。逆に、許容誤差(Tolerancerel)の範囲に存在する移動体が1つだった場合には、そのフレームにおける信頼スコアは1.0となる。位置関係照合部103は、例えば下記式7に示すように、各フレームにおいて照合信頼スコア(Prel k)を算出する。
Figure JPOXMLDOC01-appb-M000007
 図20に示す例(あるタイミング(フレームk=i))では、例えばThresholdrel=10の場合、Thresholdrelに存在する移動体の数は3(Ni=3)であり、当該フレームにおける各移動体(M10、M11、M12)の照合信頼スコアは、Prel i=1-log10(3)≒0.52と算出される。
 そして、各フレームについて算出した各移動体の照合信頼スコアの平均を、各移動体の最終的な照合信頼スコア(Prel)とする。位置関係照合部103は、例えば下記式8に示すように、最終的な照合信頼スコア(Prel)を算出する。
Figure JPOXMLDOC01-appb-M000008
 なおフレーム長(フレーム間の時間間隔)は環境カメラ20のフレームレートに合わせると間隔が短いため例えば1秒に設定してもよい。
 また、3人の人物間の距離情報を複数フレーム利用して最適解を求めることで位置関係の照合を行うことも可能である。以下、図21を参照して説明する。
 図21は、本実施形態による相互位置関係の照合の他の例について説明する図である。本例ではユーザ端末30側が計測した他ユーザ端末との距離情報を用いる。図21に示すように、ユーザ端末30Aは、環境カメラ20の画角内にいる間(ビーコンを受信している間)、近傍の他ユーザ端末30B、30Cとの間の距離情報(測距データ;dAt0-Bt0、dAt0-Ct0、dAt1-Bt1、dAt1-Ct1)を定期的に取得する。次いで、画角を外れた(ビーコンをロストした)際に、ユーザ端末30Aは、計測した測距データをサーバ10に送る。
 サーバ10の位置関係照合部103は、環境カメラ20から得られた映像中の移動体間の距離(移動体M1、M2、M3の間の距離)を、各フレームの映像から推定し、ユーザ端末30Aで計測された距離情報との誤差が最も少なくなる組み合わせを全探索して見つける。
 位置関係照合部103は、映像から推定した距離とユーザ端末30Aによって計測された距離の累積誤差が最も少なく、かつ誤差が閾値以下だった場合にその移動体を検索対象(ユーザに対応する移動体)として決定する。
 照合信頼スコアは、累積誤差と閾値の差に基づいて算出され得る。例えば、Prel=1-diff/threshold としてもよいし、閾値を超えた場合はPrel=0としてもよい。全探索の結果最適解がN(N≧2)個見つかった場合には、PrelをNで割った値を照合信頼スコアとして出力する。
 以上、位置関係の照合および照合信頼スコアの算出方法について説明したが、上記内容は一例であって、本実施形態による位置関係の照合および照合信頼スコアの算出方法はこれに限定しない。
 <4-5.行動情報の照合および照合信頼スコアの算出>
 行動情報の照合では、ユーザ端末30により検出された歩行区間の直前または直後における特定の行動(例えばエレベータ、エスカレータ、階段等)と歩行との切り替わり時刻と、環境カメラ20で捉えられた移動体の特定の行動と歩行との切り替わり時刻とが、比較される。
 例えば図22に示すように、エスカレータに乗っている間ユーザAは徒歩移動しないため、エスカレータに乗っていたユーザAと、単にその場で静止していたユーザBとは、PDR由来の移動ベクトルだけで見ると同じとなり区別ができない。そこで本実施形態では、歩行区間の前後において特定の行動が検出された場合、当該行動と歩行との切り替わり時刻をそれぞれ比較することで、ユーザを特定することを可能とする。特定の行動は、撮像画像や館内地図情報から特定され得る。例えば図22に示す環境カメラ20の画角内にエスカレータが含まれている場合、撮像画像からは、エスカレータから降りて歩き出したユーザAを検出できる。また、図22に示す撮像画像からは、その場でしばらく静止してから歩き出したユーザBも検出される。また、行動情報照合部104は、撮像画像のみならず、館内地図情報からエスカレータやエレベータ、階段等の場所を把握できるため、館内地図情報と、ユーザ端末30により検出された移動軌跡から、特定の行動を検出することが可能である。
 行動情報照合部104は、例えば下記式9に示すように、行動と歩行との上記各切り替わり時刻の時間ずれ(Tdiff ws)が、許容範囲内(Toleranceact)である場合、行動(activity)の照合信頼スコア(Pact)を1.0とし、そうでない場合は0.0としてもよい。
Figure JPOXMLDOC01-appb-M000009
 以上、行動情報の照合および照合信頼スコアの算出方法について説明したが、上記内容は一例であって、本実施形態による行動情報の照合および照合信頼スコアの算出方法はこれに限定しない。
 <4-6.移動パターンの照合および照合信頼スコアの算出>
 移動パターンの照合では、ユーザ端末30により取得される移動ベクトル(PDR位置情報)と、複数の環境カメラ20からの情報の統合(Chain of multi cameras)とに基づいて、環境カメラ20の配置と施設の地図情報から予め設定されたルール(移動パターン)に当てはまるか否かが判断される。
 移動パターン照合部105は、ルールに当てはまる移動パターンとマッチした場合には、照合信頼スコア(Pch)を1.0とし、そうでない場合には照合信頼スコアを0.0とする。以下、図23を参照して具体的に説明する。
 図23は、本実施形態による移動パターンの照合について説明する図である。図23では、環境カメラ20R、20L、20Cが配置されている。サーバ10は、このような各環境カメラ20の配置と地図情報を有する。
 (ルール1:Aコース)
 例えば、図23に示すCrossing Area内で90°±45°左折したことがユーザ端末30からPDRにより検知された後に、環境カメラ20Cの画角に入った移動体は、Aコースを通った可能性が高い。移動パターン照合部105は、環境カメラ20Cに映っているマッチング対象の移動体が環境カメラ20Lにも映っているか否かを判断する(顔や服装、歩き方、骨格等の各移動体の外見的特徴に基づいて一致性(同一人物)を探索可能)。そして、環境カメラ20Cに映っているマッチング対象の移動体が環境カメラ20Lにも映っている場合、その移動体が探索対象(ユーザに対応)であり、照合信頼スコアは1.0とする。一方、移動パターン照合部105は、環境カメラ20Lの映像中に環境カメラ20Cに映っている移動体が見つからなければ、照合信頼スコアは0.0とする。
 (ルール2:Bコース)
 また、Crossing Area内で曲がることなく直進していることがユーザ端末30のPDRにより検知された後に、環境カメラ20Cの画角に入った移動体は、Bコースを通った可能性が高い。移動パターン照合部105は、環境カメラ20Cに映っているマッチング対象の移動体が環境カメラ20Lまたは環境カメラ20Rの映像中に映っていた場合は、照合信頼スコアを0.0とし、いずれにも映っていない場合は、照合信頼スコアを1.0とする。
 (ルール3:Cコース)
 また、Crossing Area内で90°±45°右折したことがユーザ端末30からPDRにより検知された後に、環境カメラ20Cの画角に入った移動体は、Cコースを通った可能性が高い。移動パターン照合部105は、環境カメラ20Cに映っているマッチング対象の移動体が環境カメラ20Rにも映っていれば、その移動体が探索対象であり、照合信頼スコアを1.0とする。一方、移動パターン照合部105は、環境カメラ20Rの映像中に環境カメラ20Cに映っている移動体が見つからなければ、照合信頼スコアは0.0とする。
 以上、移動パターンの照合(複数カメラからの情報の統合に基づく照合)および照合信頼スコアの算出方法について説明したが、上記内容は一例であって、本実施形態による移動パターンの照合および照合信頼スコアの算出方法はこれに限定しない。
 <4-7.照合信頼スコアの合算>
 対応付け部106は、各照合部から出力された照合信頼スコアを移動体毎に合算し、合算した各合算照合信頼スコアに基づいて、最終的なユーザの判別(移動体とユーザの対応付け)を行う。照合信頼スコアの合算は、例えば下記式10に示すように、各スコアを重み付け平均して算出してもよい。
Figure JPOXMLDOC01-appb-M000010
 ここで、添え字wは、各照合部が算出した照合信頼スコアに対する重み係数であるが、この重みは、例えば対象施設のフロア形状に基づく特性および環境カメラの配置に基づく特性に応じてヒューリスティックに固定値を設定しても良いし、対象施設にて学習用データを収集して機械学習によって調整しても良い。
 <<5.応用例>>
 続いて、本実施形態により登録した認証用情報の活用や、特定したユーザの移動経路や行動に応じた情報通知サービス等、各種応用例について説明する。なお、ここでは一例としてサーバ10が各種サービスを行うものとして説明するが、本開示はこれに限定されず、サーバ10とは別体のサーバ等により各種サービスを行ってもよい。
 <5-1.第1の応用例>
 サーバ10は、環境カメラ20により得られた映像から、予め設定された所定の場所で所定の行動を行う人物を検出した場合に、当該人物に対して所定の情報を通知する。例えば環境カメラ20が、映像から人物領域を検出し、所定の行動を検知した場合に、映像中の当該人物の座標をグローバル座標に変換した上で、グローバル座標と検知時刻をサーバ10に通知する。環境カメラ20は、検知した行動の内容についてもサーバ10に送信してもよい(例えば所定の行動が複数定められている場合は、どの行動を検知したかも通知する)。
 サーバ10は、環境カメラ20から受信した時刻情報と座標情報に基づいて、経路履歴DB122から、当該時刻に当該座標に居た人物のユーザIDを抽出する。経路履歴DB122には、上述したように各ユーザの移動経路(位置情報)の履歴が随時蓄積されている。
 そして、サーバ10は、ユーザIDに紐付けられたユーザ端末30に、所定の情報を送信する制御を行う。ユーザIDとユーザ端末30の紐付けは、例えば本システムを利用するためユーザがアカウントを作成した際に、ユーザ端末30のアドレス等が予めユーザIDに紐付けて登録され得る。
 ユーザの対応付けと移動経路の蓄積がリアルタイムで行われている場合、サーバ10は、瞬時に適切な情報をユーザ端末30へ通知することも可能となる。ここで、図24に、本実施形態の応用例による認識された行動とユーザへの提供サービスについて例示する。図24に示すように、例えば店舗において棚に陳列されている商品を注視していたり、商品を手に取ったり、レジ前(清算場所の一例)で店員に商品を渡している行動の検知に応じて、サーバ10は、その商品のクーポンや、素材や産地などの商品情報を、ユーザ端末30に送信する。また、他にも各種行動に応じて適切な提供サービスを行い得る。
 また、サーバ10は、同じ店舗で同じ商品を毎日手に取っているユーザには、特別クーポンを送信してもよい。また、サーバ10は、クーポンがもらえる商品を探す発掘的要素をゲーミフィケーションとして用意してもよい。また、サーバ10は、ユーザが手に取った商品の組み合わせで夕飯のレシピをレコメンし、足りない商品の広告も一緒に送信してもよい。
 また、サーバ10は、カフェ等の飲食店で長く滞在しているユーザにクーポンを配信して追加注文を誘発してもよい。
 BLEビーコンの近接判定では客が複数いた場合に誤ったユーザ端末に配信してしまう可能性があるが、本実施形態では、PDR(すなわちモーションセンサデータに基づく位置測位)を用いることで精緻にユーザを検出することができる。また、PDRとカメラを組み合わせるため、全フロアをカバーするような過多な環境カメラは必ずしも必須ではなく、店舗側のセットアップは容易であり、メンテナンスコストも抑えられる。
 <5-2.第2の応用例>
 サーバ10は、実店舗誘導用のクーポン等の送信後において、実際に店舗に来店したユーザの行動、興味を引いた商品、購入された商品のデータにより、マーケティング効果を測定することが可能となる。また、実店舗でリーチしたにもかかわらず購入に至らなかった商品、横を素通りした商品、他に手に取って比較した商品などのデータも精緻に収集できるようになる。
 カメラ映像のみを用いる場合、何らかの認証方法によってユーザを判別した上で実世界行動データを収集しないとWebやアプリ上のアカウントと紐付けられないが、本実施形態では、ユーザ端末のPDRにより位置を検出することができるため、データの紐付けを容易に行うことができる。
 <5-3.第3の応用例>
 続いて、認証用情報を決済処理に用いる場合について、図25および図26を参照して説明する。
 図25は、本実施形態の応用例による認証用情報を利用した決済処理について説明する図である。図25に示すように、ユーザは、事前にサーバ10にクレジットカード情報の登録を行う。サーバ10側では、ユーザIDとクレジットカード情報とを対応付けて記憶する。なお、ここでは一例としてクレジットカード情報を用いるが、決済が行える情報であれば特に限定しない。例えば電子マネー情報、口座情報、携帯電話番号等、決済を行える情報であればよい。
 その後、ユーザが訪れた施設内では、上記実施形態で説明したように、ユーザ端末30における屋内測位(PDR由来の移動ベクトルの取得)等と、環境カメラ20の撮像画像由来の移動ベクトル等を組み合わせた高精度な位置推定(移動経路の取得)で、ユーザの現在位置がトラッキングされる。
 次いで、レジ前など、清算が行われる所定の場所に到達した顧客を、システム(サーバ10)側において位置情報から判断し、ユーザを特定する。そして、レジ前に置かれたカメラ(タブレット端末50)によりユーザの顔を撮影して顔認証を行い、認証が成功した場合は、予め登録されたクレジットカード情報で決済することが可能となる。この際、ユーザはユーザ端末30を取り出すことなく、手ぶらで決済することが可能となる。
 このような認証用情報を用いた決済処理について、以下図26を参照して具体的に説明する。図26は、本実施形態の応用例による決済処理の流れの一例を示すシーケンス図である。
 図26に示すように、まず、サーバ10は、ユーザIDと認証用情報を認証用情報DB123に登録し(ステップS603)、認証用情報が登録された旨をユーザ端末30に通知する(ステップS606)。かかる認証用情報の登録処理およびユーザへの通知は上述した通りである。
 次いで、店内に設置された商品監視用のカメラは、撮像画像を解析して商品が客に取得されたことを検知し、サーバ10に通知する(ステップS609)。なお、商品監視用のカメラに限らず、上述した環境カメラ20を用いてもよい。また、カメラ以外のセンサデバイスを用いて(または併用して)もよい。
 次に、サーバ10は、認証用情報が登録されたユーザが商品を取得したことを認識する(ステップS612)。「商品を取得」とは、例えば買い物かご等のカートに商品を入れた場合を意味する。サーバ10は、ユーザIDに関連付けて取得された商品の情報を記憶する。
 次いで、サーバ10は、認証用情報が登録されたユーザがレジ前に立ったことを認識する(ステップS615)。例えばサーバ10は、リアルタイムで取得されるユーザの移動経路に基づいて、レジ前に居る人物を推定する。
 次に、サーバ10は、レジ前に立ったユーザの認証用情報を照合する(ステップS618/Yes)。具体的には、認証用情報DB123に自動登録したユーザの顔画像等と、レジ前に立つ人物の顔画像とを照合する。レジ前には顔認証等用のカメラが設置され、レジ前に居る人物の顔が撮影される。なお認証用情報の照合(個人認証)は、レジ端末が行ってもよいし、サーバ10が行ってもよい。
 次いで、認証用情報の照合(顔認証等)が成功した場合(ステップS618/Yes)、レジ端末は、ユーザ向けに設置したタッチパネルディスプレイ等において、ユーザに対して、決済承認通知を表示する(ステップS621)。例えば、レジ端末は、「支払いを実行しますか? YES/NO」といった表示を行う。支払いを実行する場合、ユーザは「YES」のボタンをタップする。
 次に、決済が承認された場合(ステップS624/Yes)、レジ端末は、当該ユーザに対応付けられたクレジットカード情報をサーバ10から取得し、決済処理を行う(ステップS627)。ユーザのクレジットカード情報は、例えば本システムを利用するためユーザがアカウントを作成した際に予めユーザIDに紐付けて登録され得る。これによりユーザは、レジでユーザ端末30やクレジットカードを取り出すことなく、施設内で自動登録され、自身のユーザIDと対応付けされた認証用情報により決済処理を実行することができる。なお、クレジットカード情報を用いた決済処理は、サーバ10が行ってもよい。
 一方、認証用情報の照合が失敗した場合(ステップS618/No)、レジ端末は、ユーザに対し、代替手段による認証を行うよう促す通知を表示する(ステップS631)。例えば、レジ端末は、「支払う場合、お手持ちのスマートフォンで認証を行ってください」等の表示を行う。ユーザは、本システムのアプリケーションを立ち上げて、ユーザ端末30で生体認証(指紋認証等)やパスコード等を入力して認証を行うようにしてもよい。
 次いで、代替手段により認証された場合(ステップS634/Yes)、レジ端末は、当該ユーザに対応付けられたクレジットカード情報をサーバ10から取得し、決済処理を行う(ステップS627)。
 一方、代替手段による認証が行わなかった場合や(ステップS634/No)、決済承認がされなかった場合(ステップS624/No)、レジ端末は、本システムによる認証がエラーとなったことを示す表示を行う(ステップS637)。この場合、ユーザは、現金での支払いや手持ちのクレジットカードでの支払い、電子マネーでの支払い等を行うことが可能である。
 なお、上記応用例では、認証用情報を用いた手ぶら決済処理について説明したが、本実施形態はこれに限定されない。例えば、位置情報と暗証番号を用いた手ぶら決済処理を行うことも可能である。以下、図27を参照して説明する。
 図27は、位置情報と暗証番号を利用した決済処理について説明する図である。図27に示すように、ユーザは、事前にサーバ10にクレジットカード情報および支払い用の暗証番号(例えば4桁の番号)の登録を行う。サーバ10側では、ユーザID、クレジットカード情報、および暗証番号を対応付けて記憶する。ここでも一例としてクレジットカード情報を用いるが、決済が行える情報であれば特に限定しない。例えば電子マネー情報、口座情報、携帯電話番号等、決済を行える情報であればよい。
 その後、ユーザが訪れた施設内では、上記実施形態で説明したように、ユーザ端末30における屋内測位(PDR由来の移動ベクトルの取得)等と、環境カメラ20の撮像画像由来の移動ベクトル等を組み合わせた高精度な位置推定(移動経路の取得)で、ユーザの現在位置がトラッキングされる。
 次いで、会計場所(レジ前)に到達した顧客を、システム(サーバ10)側において位置情報から判断し、ユーザを特定する。そして、レジ前に置かれたタブレット端末50に、支払い用の暗証番号を入力する画面を表示する。レジ端末は、タブレット端末50から入力された暗証番号が、特定されたユーザIDに紐付けられた暗証番号(サーバ10から取得)と一致する場合(すなわち認証成功)、サーバ10において予め登録されたクレジットカード情報で決済することが可能となる。この際、ユーザはユーザ端末30を取り出すことなく、手ぶらで決済することが可能となる。
 なお認証処理や、クレジットカード情報を用いた決済処理はサーバ10で行ってもよい。
 また、位置情報のプライバシーに配慮するために、ユーザがレジに近付いた上でポケット等に入れてあるスマートフォン(ユーザ端末30)を指で数回叩くことで位置情報を店舗側に送信するシステムにしてもよい。ユーザ端末30は、センサにより数回叩かれたことを検知すると、PDR位置情報等をサーバ10に送信する制御を行う。
 また、ユーザがユーザ端末30を紛失したときの不安を軽減するために、サーバ10は、ユーザの歩き方により本人らしさを推定する歩容認証を行ってもよい。
 <5-4.第4の応用例>
 また、上述した手ぶら決済処理の他の例として、ユーザが商品を商品棚から取り出した際に決済処理を実行するシステムも実現し得る。サーバ10は、ユーザ端末30から得られる情報と環境カメラ20から得られる情報に基づいて取得される位置情報(移動経路)と、ユーザ端末30(ユーザID)との対応付けを利用して、商品を取ったユーザのユーザIDに対応付けられたクレジットカード情報等を用いて決済処理を実行する。
 商品が棚から取られたことは、例えば棚に設けられた重量センサや周囲に設けられた環境カメラ20により検知され得る。また、棚の前にいる人物は、環境カメラ20とPDRにより捕捉済みである。サーバ10は、重量センサにより商品1個分だけ変化したこと確認すると、棚の前にいる人物のユーザIDに紐付けられたクレジットカード情報等により決済処理を行う。そしてサーバ10は、決済結果をユーザ端末30に通知する。
 <5-5.第5の応用例>
 また、本実施形態の応用例として、各店員の品出し状況(誰がどのような商品をどのくらい品出ししたか)を自動的に把握することも可能である。これにより、店内の商品の管理や、品出しの記録が簡単になる。また、店員が使用しているウェアラブルデバイスに、品出ししている商品に応じたアドバイス(並べ方等)を通知することが可能になる。
 <5-6.第6の応用例>
 また、本実施形態の応用例として、ホテルチェックインの無人化を行い得る。ユーザは、事前にユーザ端末30にインストールした本システムのアプリケーションで(又はWebサイト上から)、ホテル予約と身元情報の登録を行う。
 サーバ10は、ホテルが入っている建物にユーザが入館してからフロントにたどり着くまでに、ユーザ端末30から得た情報と環境カメラから得た情報に基づいてユーザの判別(対応付け)を行い、環境カメラ20の撮像画像から得た認証用情報(例えば顔画像)を自動登録する。
 次いで、サーバ10は、屋内位置測位によりフロントに訪れたユーザを特定し、ユーザが近付いたデジタルサイネージに、当該ユーザの部屋番号を表示する。たとえば、「ようこそ〇〇様。そのままお部屋にお上がりください。部屋番号は『4122』です。」といった画面を表示する。ユーザ(宿泊者)が、部屋番号を確認してそのまま部屋に行くと、サーバ10は、部屋のドアに設けられたカメラで顔認証を行う。具体的には、サーバ10は、部屋のドアに設けられたカメラで撮影された顔画像と、上記自動登録した認証用情報の顔画像とを比較して本人確認(顔認証)を行う。認証が成功すると、サーバ10は、予め登録された当該ユーザの情報をチェックイン用の宿泊者情報として利用し、チェックイン処理を行う。そして、サーバ10は、チェックイン処理が完了すると、部屋のドアを解錠する。
 その後も、サーバ10は、位置情報と認証用情報に基づいて館内のエレベータの呼び出しやドアの解錠/開扉を自動で行い得る。また、サーバ10は、館内のレストランやプールなどのフィットネスサービスも位置情報と認証用情報を使った本人確認によって、自動決済し得る。
 <5-7.第7の応用例>
 また、本実施形態は、館内での待ち合わせナビゲーションに適用することも可能である。具体的には、複数のユーザID同士で、館内の位置情報をシェアして待ち合わせに使用できるようにする。
 ユーザは、館内の位置情報を待ち合わせに使用するため、予めアプリケーション上で他のユーザIDを登録する。例えば、(館内に入る前に)友人のユーザ端末にインストールされているアプリケーション上で、友人のユーザIDを示すQRコード(登録商標)を表示させ、ユーザは自身のユーザ端末30で当該QRコードを読み取って友人のユーザIDを登録する。サーバ10は、登録された友人のユーザIDを、当該ユーザの位置情報のシェア相手として登録する。なお、位置情報の開示許可はユーザと友人のお互いがアプリケーション上で行うようにしてもよい。
 次いで、ユーザが友人と別行動をした後に再合流したい場合、ユーザ端末30でアプリケーションを開いて、登録した相手のユーザIDを選択する。ユーザ端末30には、選択されたユーザIDの現在位置情報が表示される。ここで、図28に、本実施形態の応用例による位置情報シェア画面の一例を示す。図28に示すように、位置情報シェア画面365では、例えばフロアマップ上に、相手の場所を示す表示Pと、その場所にいた時刻を示す情報が表示される。
 サーバ10は、ユーザと友人が施設を出た際には、お互いの開示許可を削除(位置情報のシェア相手として登録したユーザIDを削除)するようにしてもよい。
 <5-8.第8の応用例>
 また、本実施形態は、館内のフォトスポットサービスに適用することも可能である。具体的には、施設内のフォトスポットに設置されているカメラで撮影した写真が、被写体のスマートフォン等(ユーザ端末30)に配信されるサービスである。
 施設内に設置された環境カメラ20と、ユーザ端末30におけるPDR(屋内位置測位の一例)により、施設に来訪した人物は捕捉済みとなる。次いで、ユーザがフォトスポットに入ってポーズを取ると、フォトスポットに設置されたカメラにより自動的に撮影が開始される。次に、撮影された写真は自動でサーバ10にアップロードされ、サーバ10により、ユーザ毎に一定時間有効なダウンロード用URLが生成される。そして、写真を撮り終わってユーザがフォトスポットを離れると、サーバ10から、ダウンロード用URLがユーザのスマートフォン等(ユーザ端末30)に通知される。
 <5-9.第9の応用例>
 また、本実施形態は、施設内の来訪者を撮影した映像に基づいて施設側の担当者や事業者のマーケター等が任意のユーザに情報を通知するシステムに適用することも可能である。
 具体的には、施設内の来訪者を撮影した映像から、施設側の担当者等が任意のユーザを選択する。ここで、図29に、施設内の映像から任意のユーザを選択して情報通知を行うための操作画面の一例を示す。図29に示すように、担当者70は、管理者用のタブレット端末60の表示部610に表示された、環境カメラ20により撮影された映像において、任意のユーザ612をタップする操作を行う。表示部610には、選択したユーザ612(移動体)に関して対応付けが出来ている場合、取得済みの情報614(例えばユーザID、顔画像の取得成否、ボーン情報の取得成否等)が表示される。次いで担当者70は、選択したユーザ612に通知する情報を、通知内容選択項目616から選択する。通知内容選択項目616としては、例えばメッセージの通知、イベントの案内、クーポン等の通知、地図ガイドの通知、警告等が挙げられる。そして、サーバ10は、選択されたユーザのユーザ端末30に、所定の情報(施設側の担当者等が選択)を送信する。
 このように、施設側の担当者や事業者のマーケッターが環境カメラ20の映像から直接ユーザを選んで、任意の情報(メッセージ、イベント情報、クーポン、マップガイド、警告等)を通知することが可能となる。担当者により来訪者の様子を視認して適切な情報を個別に通知できるため、顧客満足度が向上し、また、マーケティング効果も期待できる。例えば、店舗前を歩くその店舗のターゲット層の人物にクーポン情報を配布することで入店を促すことができる。また、フロアで迷っている様子の客にはフロアガイド情報を通知することで即座に手助けをすることができる。また、禁止行為やマナー違反の来訪者には目立つことなく直接警告することができる。
 <5-10.第10の応用例>
 また、本実施形態は、実世界を利用したゲームに適用することも可能である。
 例えば、施設内で行われる代替現実ゲーム(Alternate Reality)において、実世界での行動をゲーム中のイベントのトリガーにしてもよい。代替現実ゲームとは、日常世界をゲームの一部として取り込んで現実と仮想を交差させる体験型の遊びである。
 具体的には、例えば施設内の所定の場所で所定の行動を行うと、ゲーム内でアイテムが貰えたり、プレゼントが自宅に郵送されたりする。施設内に設置された環境カメラ20と、ユーザ端末30におけるPDR(屋内位置測位の一例)により、施設に来訪した人物は捕捉済みとなり、また、ユーザ端末30や環境カメラ20によりユーザの行動情報も取得できるため、位置情報だけでなくアクションまでを含めてトリガーとすることができる。これにより、より実世界志向のコンテンツを提供することができる。
 代替現実ゲームは、屋内に限らず、屋外でも行われ得る。例えばアニメに登場する屋外の特定の場所(例えば神社や公園など)で、アニメ内でキャラクターが行った特定のポーズを再現すると、その場所に設置されたカメラにより自動撮影され、撮影された画像がユーザ端末30に送信される。
 <5-11.第11の応用例>
 本実施形態は、屋外イベントや屋外アトラクション等にも適用される。
 屋外の特定の場所に設置された環境カメラ20と、ユーザ端末30におけるPDR(または衛星位置測位であってもよい)により、当該特定の場所に来訪した人物は捕捉済みとなり、また、ユーザ端末30や環境カメラ20によりユーザの行動情報も取得できる。
 サーバ10は、環境カメラ20およびユーザ端末30を用いて、待ち行列の形状や、並んでいる人等の状況を自動で把握し、列の状況等に応じて、各ユーザに対して適切な情報を個別に行うことが可能である。
 例えば、列が任意の形状になっていない場合、サーバ10は、任意の形状になっていない箇所を従業員に通知したり、任意の形状で並んでいない人のユーザ端末30に列を正すよう促す旨を通知したりする。
 また、サーバ10は、並んでいる人に並んでいる場所に応じた待ち時間等を通知してもよい。また、サーバ10は、列の形状や並んでいる人の状況を把握して店舗に状況を通知してもよい。
 また、サーバ10は、並んでいる人にメニュー情報を配信して選択された商品(若しくは並んでいるユーザの嗜好状況に合った商品)を先行して作成し、自走ロボット等で注文者の場所まで運び、注文者に商品が取得された場合はその場で決済処理を完了させる処理を行ってもよい。
 <5-12.第12の応用例>
 また、本実施形態は、病院での運用にも適用され得る。
 例えば、サーバ10は、病院のスタッフの病院内での行動(位置情報や作業内容)や病院や病院内の各部屋への入場情報を、スタッフが携帯するユーザ端末30と病院内の環境カメラ20を用いて管理することができる。サーバ10は、マスクによりスタッフの顔情報が取得できない場合は、主に位置情報に基づいて病院や各部屋への入場を可能にしてもよい。また、サーバ10は、緊急で対応が必要な患者のもとにスタッフが向かっているか否かを管理することもできる。
 また、サーバ10は、病院の患者の状況を、患者が携帯するユーザ端末30と病院内の環境カメラ20を用いて管理することができる。例えば、サーバ10は、認知症患者が病院のどこにいるかを把握することができる。また、サーバ10は、カメラが設けられていない場所でも位置情報に基づいて患者の位置を把握可能となる。また、サーバ10は、患者の検査情報を顔認証により把握することが可能となる。
 なお、病院内ではスマートフォンや携帯電話端末等を所持していない状況も想定されるため、ユーザ端末30のデバイス形状は、例えばリストバンド型やクリップ型(ウェアラブルデバイス)であってもよい。また、ウェアラブルデバイスを用いた場合、皮膚に接触する形状であれば、心拍や静脈、発汗量、筋電値、脳波等の各種生体情報をユーザ端末30により取得することも可能となる。
 <<6.まとめ>>
 上述したように、本開示の実施形態による情報処理システムでは、撮像画像に映る人物の判別、すなわち撮像画像に映る人物とユーザとの対応付けを、屋内外問わず精度良く行うことが可能となる。
 以上、添付図面を参照しながら本開示の好適な実施形態について詳細に説明したが、本技術はかかる例に限定されない。本開示の技術分野における通常の知識を有する者であれば、請求の範囲に記載された技術的思想の範疇内において、各種の変更例または修正例に想到し得ることは明らかであり、これらについても、当然に本開示の技術的範囲に属するものと了解される。
 例えば、上述したサーバ10、環境カメラ20、またはユーザ端末30に内蔵されるCPU、ROM、およびRAM等のハードウェアに、サーバ10、環境カメラ20、またはユーザ端末30の機能を発揮させるためのコンピュータプログラムも作成可能である。また、当該コンピュータプログラムを記憶させたコンピュータ読み取り可能な記憶媒体も提供される。
 また、本明細書に記載された効果は、あくまで説明的または例示的なものであって限定的ではない。つまり、本開示に係る技術は、上記の効果とともに、または上記の効果に代えて、本明細書の記載から当業者には明らかな他の効果を奏しうる。
 なお、本技術は以下のような構成も取ることができる。
(1)
 情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部を備える、情報処理装置。
(2)
 前記状態情報は、外から認識され得る情報を含む、前記(1)に記載の情報処理装置。
(3)
 前記ユーザの状態情報は、前記情報処理端末に設けられたセンサにより取得されるセンシングデータから抽出される、前記(1)または(2)に記載の情報処理装置。
(4)
 前記人物の状態情報は、前記撮像画像から画像解析により抽出される、前記(1)~(3)のいずれか1項に記載の情報処理装置。
(5)
 前記状態情報は、歩行に関する特徴情報である、前記(1)~(4)のいずれか1項に記載の情報処理装置。
(6)
 前記状態情報は、位置に関する情報である、前記(1)~(5)のいずれか1項に記載の情報処理装置。
(7)
 前記状態情報は、距離に関する情報である、前記(1)~(6)のいずれか1項に記載の情報処理装置。
(8)
 前記状態情報は、前記ユーザと前記ユーザの周囲に存在する他ユーザとの位置関係、前記ユーザと前記撮像画像を取得するカメラとの位置関係を含む、前記(1)~(7)のいずれか1項に記載の情報処理装置。
(9)
 前記状態情報は、行動情報である、前記(1)~(8)のいずれか1項に記載の情報処理装置。
(10)
 前記状態情報は、予め設定されたルールに従って推定される移動パターンである、前記(1)~(9)のいずれか1項に記載の情報処理装置。
(11)
 前記制御部は、前記情報処理端末の移動情報と、複数のカメラから得られる撮像画像から得られる各人物の外見的特徴とに基づいて、前記移動パターンの照合を行う、前記(10)に記載の情報処理装置。
(12)
 前記制御部は、前記対応付けに応じて、予め登録された前記ユーザの識別用文字列と、前記対応付けられた人物の撮像画像から抽出された当該人物の認証用情報とを、記憶部に記憶する制御を行う、前記(1)~(11)のいずれか1項に記載の情報処理装置。
(13)
 前記制御部は、前記認証用情報を記憶したことを前記情報処理端末に通知する制御を行う、前記(12)に記載の情報処理装置。
(14)
 前記制御部は、前記移動情報の照合と、前記状態情報の照合において、前記撮像画像に写る人物毎に照合信頼スコアを算出し、人物毎の照合信頼スコアを合算した値が最大の人物を、前記ユーザと対応付ける、前記(1)~(13)のいずれか1項に記載の情報処理装置。
(15)
 前記情報処理端末の移動情報は、屋内位置測位情報を含む、前記(1)~(14)のいずれか1項に記載の情報処理装置。
(16)
 前記制御部は、前記情報処理端末の移動情報である移動軌跡情報を前記ユーザの経路履歴として記憶部に記憶し、前記対応付けが行われた場合は、前記対応付けられた人物の前記撮像画像から取得された移動軌跡情報に基づいて、前記ユーザの経路履歴を更新する制御を行う、前記(1)~(15)のいずれか1項に記載の情報処理装置。
(17)
 前記制御部は、前記対応付けが行われた前記ユーザの行動に応じて、前記情報処理端末に適切な情報を通知する制御を行う、前記(1)~(16)のいずれか1項に記載の情報処理装置。
(18)
 前記制御部は、清算が行われる所定の場所に居る人物を、記憶部に蓄積された各ユーザの経路履歴を参照して特定し、特定したユーザの認証用情報を用いて、前記清算が行われる所定の場所に居る人物を撮像した撮像画像から取得した認証用情報と照合し、決済承認のための個人認証を行う、前記(1)~(17)のいずれか1項に記載の情報処理装置。
(19)
 プロセッサが、
 情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行うことを含む、情報処理方法。
(20)
 コンピュータを、
 情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部として機能させるための、プログラム。
 10 サーバ
 100 制御部
 101 移動ベクトル照合部
 102 歩行ステップ照合部
 103 位置関係照合部
 104 行動情報照合部
 105 移動パターン照合部
 106 対応付け部
 107 情報登録部
 108 経路更新部
 110 通信部
 120 記憶部
 121 撮像画像DB
 122 経路履歴DB
 123 認証用情報DB
 124 未定情報DB
 125 地図情報DB
 20 環境カメラ
 30 ユーザ端末

Claims (20)

  1.  情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部を備える、情報処理装置。
  2.  前記状態情報は、外から認識され得る情報を含む、請求項1に記載の情報処理装置。
  3.  前記ユーザの状態情報は、前記情報処理端末に設けられたセンサにより取得されるセンシングデータから抽出される、請求項1に記載の情報処理装置。
  4.  前記人物の状態情報は、前記撮像画像から画像解析により抽出される、請求項1に記載の情報処理装置。
  5.  前記状態情報は、歩行に関する特徴情報である、請求項1に記載の情報処理装置。
  6.  前記状態情報は、位置に関する情報である、請求項1に記載の情報処理装置。
  7.  前記状態情報は、距離に関する情報である、請求項1に記載の情報処理装置。
  8.  前記状態情報は、前記ユーザと前記ユーザの周囲に存在する他ユーザとの位置関係、前記ユーザと前記撮像画像を取得するカメラとの位置関係を含む、請求項1に記載の情報処理装置。
  9.  前記状態情報は、行動情報である、請求項1に記載の情報処理装置。
  10.  前記状態情報は、予め設定されたルールに従って推定される移動パターンである、請求項1に記載の情報処理装置。
  11.  前記制御部は、前記情報処理端末の移動情報と、複数のカメラから得られる撮像画像から得られる各人物の外見的特徴とに基づいて、前記移動パターンの照合を行う、請求項10に記載の情報処理装置。
  12.  前記制御部は、前記対応付けに応じて、予め登録された前記ユーザの識別用文字列と、前記対応付けられた人物の撮像画像から抽出された当該人物の認証用情報とを、記憶部に記憶する制御を行う、請求項1に記載の情報処理装置。
  13.  前記制御部は、前記認証用情報を記憶したことを前記情報処理端末に通知する制御を行う、請求項12に記載の情報処理装置。
  14.  前記制御部は、前記移動情報の照合と、前記状態情報の照合において、前記撮像画像に写る人物毎に照合信頼スコアを算出し、人物毎の照合信頼スコアを合算した値が最大の人物を、前記ユーザと対応付ける、請求項1に記載の情報処理装置。
  15.  前記情報処理端末の移動情報は、屋内位置測位情報を含む、請求項1に記載の情報処理装置。
  16.  前記制御部は、前記情報処理端末の移動情報である移動軌跡情報を前記ユーザの経路履歴として記憶部に記憶し、前記対応付けが行われた場合は、前記対応付けられた人物の前記撮像画像から取得された移動軌跡情報に基づいて、前記ユーザの経路履歴を更新する制御を行う、請求項1に記載の情報処理装置。
  17.  前記制御部は、前記対応付けが行われた前記ユーザの行動に応じて、前記情報処理端末に適切な情報を通知する制御を行う、請求項1に記載の情報処理装置。
  18.  前記制御部は、清算が行われる所定の場所に居る人物を、記憶部に蓄積された各ユーザの経路履歴に基づいて特定し、特定したユーザの認証用情報を用いて、前記清算が行われる所定の場所に居る人物を撮像した撮像画像から取得した認証用情報と照合し、決済承認のための個人認証を行う、請求項1に記載の情報処理装置。
  19.  プロセッサが、
     情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行うことを含む、情報処理方法。
  20.  コンピュータを、
     情報処理端末により検知される情報から取得される移動情報と、前記情報処理端末を携帯するユーザの撮像画像から取得される1以上の人物の移動情報との照合、および、前記情報処理端末から取得される前記ユーザの状態情報と、前記撮像画像から取得される前記1以上の人物の状態情報との照合に基づいて、前記撮像画像に写る人物と前記ユーザとを対応付ける制御を行う制御部として機能させるための、プログラム。
PCT/JP2021/004073 2020-05-28 2021-02-04 情報処理装置、情報処理方法、およびプログラム WO2021240889A1 (ja)

Priority Applications (3)

Application Number Priority Date Filing Date Title
CN202180036621.3A CN115668269A (zh) 2020-05-28 2021-02-04 信息处理装置、信息处理方法和程序
US17/921,224 US20230162533A1 (en) 2020-05-28 2021-02-04 Information processing device, information processing method, and program
JP2022527502A JPWO2021240889A1 (ja) 2020-05-28 2021-02-04

Applications Claiming Priority (2)

Application Number Priority Date Filing Date Title
JP2020-092805 2020-05-28
JP2020092805 2020-05-28

Publications (1)

Publication Number Publication Date
WO2021240889A1 true WO2021240889A1 (ja) 2021-12-02

Family

ID=78744226

Family Applications (1)

Application Number Title Priority Date Filing Date
PCT/JP2021/004073 WO2021240889A1 (ja) 2020-05-28 2021-02-04 情報処理装置、情報処理方法、およびプログラム

Country Status (4)

Country Link
US (1) US20230162533A1 (ja)
JP (1) JPWO2021240889A1 (ja)
CN (1) CN115668269A (ja)
WO (1) WO2021240889A1 (ja)

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023170949A1 (ja) * 2022-03-11 2023-09-14 シャープNecディスプレイソリューションズ株式会社 情報処理装置、情報処理方法
WO2024106317A1 (en) * 2022-11-17 2024-05-23 Sony Semiconductor Solutions Corporation Information processing device and information processing method for presenting virtual content to a user

Families Citing this family (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
US10909866B2 (en) * 2018-07-20 2021-02-02 Cybernet Systems Corp. Autonomous transportation system and methods
JP2022032103A (ja) * 2020-08-11 2022-02-25 トヨタ自動車株式会社 歩行推定システム、歩行推定方法、及びプログラム

Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096501A (ja) * 2002-08-30 2004-03-25 Ntt Advanced Technology Corp 移動体の位置検出システム、移動体の位置検出方法、及びプログラム
JP2009284442A (ja) * 2008-05-26 2009-12-03 Fujitsu Ten Ltd 人物認証装置および人物認証方法
JP2013210844A (ja) * 2012-03-30 2013-10-10 Secom Co Ltd 画像照合装置
JP2016212675A (ja) * 2015-05-11 2016-12-15 株式会社デンソー 物体認識システム
JP2018093283A (ja) * 2016-11-30 2018-06-14 マクセル株式会社 監視情報収集システム

Patent Citations (5)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
JP2004096501A (ja) * 2002-08-30 2004-03-25 Ntt Advanced Technology Corp 移動体の位置検出システム、移動体の位置検出方法、及びプログラム
JP2009284442A (ja) * 2008-05-26 2009-12-03 Fujitsu Ten Ltd 人物認証装置および人物認証方法
JP2013210844A (ja) * 2012-03-30 2013-10-10 Secom Co Ltd 画像照合装置
JP2016212675A (ja) * 2015-05-11 2016-12-15 株式会社デンソー 物体認識システム
JP2018093283A (ja) * 2016-11-30 2018-06-14 マクセル株式会社 監視情報収集システム

Cited By (2)

* Cited by examiner, † Cited by third party
Publication number Priority date Publication date Assignee Title
WO2023170949A1 (ja) * 2022-03-11 2023-09-14 シャープNecディスプレイソリューションズ株式会社 情報処理装置、情報処理方法
WO2024106317A1 (en) * 2022-11-17 2024-05-23 Sony Semiconductor Solutions Corporation Information processing device and information processing method for presenting virtual content to a user

Also Published As

Publication number Publication date
CN115668269A (zh) 2023-01-31
JPWO2021240889A1 (ja) 2021-12-02
US20230162533A1 (en) 2023-05-25

Similar Documents

Publication Publication Date Title
WO2021240889A1 (ja) 情報処理装置、情報処理方法、およびプログラム
JP5994397B2 (ja) 情報処理装置、情報処理方法およびプログラム
US20220261812A1 (en) Interfacing with a point of sale system from a computer vision system
US9224037B2 (en) Apparatus and method for controlling presentation of information toward human object
US7454216B2 (en) in-facility information provision system and in-facility information provision method
JP7028305B2 (ja) 店舗装置、店舗システム、店舗管理方法、プログラム
JP7439844B2 (ja) 端末装置、情報処理装置、情報出力方法、情報処理方法、接客支援方法及びプログラム
Flores et al. Weallwalk: An annotated dataset of inertial sensor time series from blind walkers
CN107850443A (zh) 信息处理装置、信息处理方法以及程序
KR20180100753A (ko) 모바일 기기를 이용한 통합 운동 관리 및 권장 플랫폼 시스템
JP6757009B1 (ja) コンピュータプログラム、対象物特定方法、対象物特定装置及び対象物特定システム
US20230044916A1 (en) Asset Unlocking Using Augmented Reality
Rituerto et al. Towards a sign-based indoor navigation system for people with visual impairments
US11961106B2 (en) Multi-factor authentication and post-authentication processing system
CN112040186B (zh) 目标对象的活动区域确定方法、装置、设备及存储介质
US20210019520A1 (en) System and method for eye-tracking
Elhamshary et al. JustWalk: A crowdsourcing approach for the automatic construction of indoor floorplans
WO2019181364A1 (ja) 店舗管理装置および店舗管理方法
KR20180058139A (ko) 스마트 헬스 서비스 시스템 및 스마트 헬스 서비스 방법
Macik et al. Software architecture for a distributed in-hospital navigation system
JP6565061B2 (ja) 看視システム
JP2023123787A (ja) 情報出力装置、設計支援システム、情報出力方法及び情報出力プログラム
Gay et al. Novel use of radio frequency identification (RFID) provides a valid measure of indoor stair-based physical activity
JP2010205015A (ja) グループ行動推定装置およびサービス提供システム
JP7304531B2 (ja) 身体機能管理システム、及び、身体機能管理方法

Legal Events

Date Code Title Description
121 Ep: the epo has been informed by wipo that ep was designated in this application

Ref document number: 21811973

Country of ref document: EP

Kind code of ref document: A1

ENP Entry into the national phase

Ref document number: 2022527502

Country of ref document: JP

Kind code of ref document: A

NENP Non-entry into the national phase

Ref country code: DE

122 Ep: pct application non-entry in european phase

Ref document number: 21811973

Country of ref document: EP

Kind code of ref document: A1